CN114926657B - 显著性目标检测方法及系统 - Google Patents
显著性目标检测方法及系统 Download PDFInfo
- Publication number
- CN114926657B CN114926657B CN202210648317.0A CN202210648317A CN114926657B CN 114926657 B CN114926657 B CN 114926657B CN 202210648317 A CN202210648317 A CN 202210648317A CN 114926657 B CN114926657 B CN 114926657B
- Authority
- CN
- China
- Prior art keywords
- module
- saliency
- map
- target
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000005070 sampling Methods 0.000 claims abstract description 39
- 238000005457 optimization Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000003044 adaptive effect Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 5
- 230000007480 spreading Effects 0.000 claims description 4
- 238000003892 spreading Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 239000013598 vector Substances 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 5
- 239000010410 layer Substances 0.000 description 31
- 238000004590 computer program Methods 0.000 description 5
- 230000007935 neutral effect Effects 0.000 description 5
- 101100260020 Caenorhabditis elegans mls-1 gene Proteins 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101100451301 Caenorhabditis elegans mls-2 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了显著性目标检测方法及系统;其中,所述方法包括:获取待处理的原始图像;对待处理的原始图像进行特征提取;将特征提取结果输入到训练后的显著性目标检测模型中,输出最终的显著性目标预测结果;其中,显著性目标检测模型的工作原理包括:对提取的特征进行动态尺度感知,得到显著目标的初始预测显著图;基于待处理原始图像和显著目标的初始预测显著图,利用难样本采样优化模块进行优化,得到显著目标的最终预测结果。按照人工标注真值图的思路,首先定位显著目标,其次处理难样本问题。
Description
技术领域
本发明涉及图像目标检测技术领域,特别是涉及显著性目标检测方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
现有的显著性目标检测所采用的方法包括:基于手工设计特征的传统显著性目标检测方法和基于机器学习的显著性目标检测方法。目前流行的大多数方法通常基于特征金字塔的深度学习模型。
现有的显著性目标检测所采用的方法存在的技术缺陷是:没有针对显著目标的尺度变化问题和难样本处理问题进行充分的探索。通常来说,自然图像中的显著目标尺度不一,尺寸变化剧烈。现有方法没有针对不同尺度设计随尺度变化自适应变化的特征融合与定位模型。同时,大多数方法都忽略了显著性目标检测中(像素级)难样本的判别性特征生成问题。
发明内容
为了解决现有技术的不足,本发明提供了显著性目标检测方法及系统;按照人工标注真值图的思路,首先定位显著目标,其次处理难样本问题。
第一方面,本发明提供了显著性目标检测方法;
显著性目标检测方法,包括:
获取待处理的原始图像;
对待处理的原始图像进行特征提取;
将特征提取结果输入到训练后的显著性目标检测模型中,输出最终的显著性目标预测结果;
其中,显著性目标检测模型的工作原理包括:对提取的特征进行动态尺度感知,得到显著目标的初始预测显著图;基于待处理原始图像和显著目标的初始预测显著图,利用难样本采样优化模块进行优化,得到显著目标的最终预测结果。
第二方面,本发明提供了显著性目标检测系统;
显著性目标检测系统,包括:
获取模块,其被配置为:获取待处理的原始图像;
特征提取模块,其被配置为:对待处理的原始图像进行特征提取;
输出模块,其被配置为:将特征提取结果输入到训练后的显著性目标检测模型中,输出最终的显著性目标预测结果;
其中,显著性目标检测模型的工作原理包括:对提取的特征进行动态尺度感知,得到显著目标的初始预测显著图;基于待处理原始图像和显著目标的初始预测显著图,利用难样本采样优化模块进行优化,得到显著目标的最终预测结果。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
(1)提出了一种基于动态路由的显著目标定位方法,称为动态尺度感知(DynamicScale-Aware Learning,DSL)。针对不同场景下不同大小的显著目标,将动态路由思想引入到单级特征增强和多级特征融合中,实现显著目标的准确识别和定位。
(2)针对显著性目标检测中像素级的难样本问题,提出了难样本采样优化方法(Hard-Sample Refinement,HSR)。该方法根据置信水平和预测类别进行像素采样,然后使用图注意力机制进行信息传输和融合,这有效增强了难样本特征的判别性。
(3)最终,融合了上述方法,提出了基于动态尺度感知学习和难样本采样优化的显著目标检测方法。它解决了两个主要问题,并提供了不同视角的思考。在大型公开数据集上使用多个评估指标对其进行评估,充分的实验表明,该方法效果优于目前最先进的方法。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的方法流程图;
图2(a)和图2(b)为实施例一的网络结构示意图;
图3为实施例一的第一自适应尺度模块内部结构示意图;
图4为实施例一的采样过程示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了显著性目标检测方法;
如图1所示,显著性目标检测方法,包括:
S101:获取待处理的原始图像;
S102:对待处理的原始图像进行特征提取;
S103:将特征提取结果输入到训练后的显著性目标检测模型中,输出最终的显著性目标预测结果;
其中,显著性目标检测模型的工作原理包括:对提取的特征进行动态尺度感知,得到显著目标的初始预测显著图;基于待处理原始图像和显著目标的初始预测显著图,利用难样本采样优化模块进行优化,得到显著目标的最终预测结果。
进一步地,如图2(a)和图2(b)所示,所述显著性目标检测模型,包括:动态尺度感知模块和难样本采样优化模块;
其中,动态尺度感知模块,包括:从左到右依次连接的第一残差神经网络、第二残差神经网络、第三残差神经网络、第四残差神经网络和第五残差神经网络;
从右到左依次连接的第一自适应尺度模块、第二自适应尺度模块、第三自适应尺度模块、第四自适应尺度模块和第五自适应尺度模块;
其中,第一残差神经网络的输出端通过第一卷积模块与第五自适应尺度模块的输入端连接;第二残差神经网络的输出端通过第二卷积模块与第四自适应尺度模块的输入端连接;第三残差神经网络的输出端通过第三卷积模块与第三自适应尺度模块的输入端连接;第四残差神经网络的输出端通过第四卷积模块与第二自适应尺度模块的输入端连接;第五残差神经网络的输出端通过第五卷积模块与第一自适应尺度模块的输入端连接;
其中,第一卷积模块的输出端还与第四自适应尺度模块的输入端连接;第二卷积模块的输出端还与第三自适应尺度模块的输入端连接;第三卷积模块的输出端还与第二自适应尺度模块的输入端连接;第四卷积模块的输出端还与第一自适应尺度模块的输入端连接;
其中,第一残差神经网络的输入端用于输入待处理的原始图像;第五自适应尺度模块的输出端用于输出显著目标的初始预测显著图。
进一步地,所述难样本采样优化模块,包括:
依次连接的编码器和采样单元;
所述采样单元的输出端与若干个并联分支连接;
所有并联分支的输出端均与第六卷积模块的输入端连接;
第六卷积模块的输出端用于输出显著目标的最终预测结果。
其中,每个并联分支,包括依次连接的图注意力GAL模块和第七卷积模块。图注意力GAL模块(Graph Attention Layer,图注意力层)由自注意力机制层、卷积层和图卷积神经网络层组成。
进一步地,所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块和第七卷积模块的内部结构是一致的。
进一步地,所述第一卷积模块,包括依次连接的卷积层、批量归一化层和激活函数层。
进一步地,所述第一自适应尺度模块、第二自适应尺度模块、第三自适应尺度模块、第四自适应尺度模块和第五自适应尺度模块的内部结构是一致的。
进一步地,如图3所示,所述第一自适应尺度模块,包括:
依次连接的第一加法器、第八卷积模块、并联的若干支路、第二加法器和第九卷积模块;
所述并联的若干支路包括n+2个支路;
其中,第一个支路,为Gate_Conv模块,该模块根据尺度变化的不同目标生成不同的特征融合权重,其中包括依次连接的卷积层、自适应池化层、Tanh激活函数层和ReLU激活函数层;
其中,第二个支路,包括:依次连接的平均池化层、第十卷积模块和乘法器;
其中,第三个支路到第n+1个支路均包括:依次连接的平均池化层、第十一卷积模块和乘法器;
每个乘法器的输入端均与Gate_Conv模块的输出端连接;
其中,第n+2个支路,包括Identity分支,该分支将特征图恒等映射,保留原特征图的语义信息。
进一步地,所述第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块的内部结构是一致的;
其中,第八卷积模块,包括:依次连接的卷积层、批量归一化层和激活函数层。
进一步地,所述动态尺度感知模块,工作原理包括:为不同尺寸的显著目标生成相应的特征融合权重,根据自适应生成的权重系数,指导同一特征生成不同尺度视角并进行多尺度信息聚合,得到在相应尺度判别性更强的特征映射。
如图2(a)和图2(b)所示,所述动态尺度感知模块,提出了自适应尺度模块(ASM)和动态定位方法(DPM),动态定位方法(DPM)见图2(a)中上半部分的四条斜线。其中,自适应尺度模块ASM可以学习自适应权重来选择不同池化核大小的分支。动态定位方法DPM动态引入底层特征作为补充,从而优化传统特征金字塔网络FPN的特征融合过程。
进一步地,所述动态尺度感知模块,包括:单层特征内多尺度增强和多级特征融合;
其中,单层特征内多尺度增强,是通过第一自适应尺度模块、第二自适应尺度模块、第三自适应尺度模块、第四自适应尺度模块和第五自适应尺度模块来实现的;
如图3所示,首先,将输入特征相加,然后馈入动态路由分支、恒等映射分支和s个池化分支中,以实现不同尺度下的特征增强。
动态路由分支生成随图像变化的尺度权重的过程如公式所示:
其中,Conv1(·,·)表示卷积核大小为1的卷积层,ω和β表示卷积层中的可学习参数和偏置,表示全局平均池化操作,/>表示输入特征/>的和;
其中,Conv3表示卷积核大小为3x3的卷积层。
同时,使用相同的非线性激活函数δ来激活尺度权重:
δ(x)=max(0,Tanh(x)). (1.2)
其中Tanh表示Tanh激活函数,max代表最大值函数。
这样可以得到随着不同输入而变化的尺度权重Wscale∈[0,1),将其与对应的池化分支相乘,以获得最终增强后的特征
其中k表示平均池化层中不同池化核的尺寸的集合,例如k={2,4,8},代表不同大小池化核的平均池化层。
其中,多级特征融合,是指:在提升特征金字塔中特征分辨率的过程中,使用了一种退化的动态路由(即简单的单分支权重)来控制补充的低级信息。具体而言,通过动态路由函数,为每个ASM(顶层ASM除外)的低级特征输入流学习权重Wlow,以辅助多层特征融合。公式如下:
F′i,low=δ(Wlow)Resi (1.4)
因此,第i个ASM的变换可以表示为:
其中,表示由1×1卷积层、ReLU和激活函数组成的通道转换层,Resi表示由骨干网络ResNet50提取出的第i层特征。
应理解地,当显著目标的位置被确定时,需要注意的信息已经从区域级变化到像素级,将难样本定义为在预测中难以区分的像素,即具有强不确定性的像素。
进一步地,如图4所示,所述难样本采样优化模块,工作原理包括:
(41)假设确定性误差设置为Ece,对于显著性目标检测任务来说,显著值为[0,Ece)和(1-Ece,1]的像素为置信的易分样本,其他显著值为[Ece,1-Ece]的像素则为难样本;
(42)通过对难样本以及设定范围内的置信度高于设定阈值的显著样本和置信度高于设定阈值的背景样本进行随机采样;
(43)使用残差神经网络提取对应位置在原始图像和显著图中的特征;根据位置信息利用图注意力机制对采样得到的样本建立图表示,并在图上传播和融合特征;
(44)对融合特征进行分类,得到显著目标的最终预测结果。
进一步地,所述(42)通过对难样本以及设定范围内的置信度高于设定阈值的显著样本和置信度高于设定阈值的背景样本进行随机采样;具体包括:
(421)首先将初始预测显著图分解为可信背景图、可信显著图和难样本图。
(422)为了使高置信度样本接近不确定区域,对初始预测显著图中的不确定区域执行平均池化操作,得到的图像称为引导图。并将引导图乘以高置信区域,以增加在不确定区域附近的采样概率。
假设输入初始预测显著图中所有像素的数量为:
nnode=H×W,
其中,H和W表示初始预测显著图的高度和宽度。
(423)根据可信背景的引导图、可信显著目标的引导图和难样本图,对样本像素进行随机采样,得到ncb个可信背景样本、ncs个可信显著样本和nhard个难样本的空间位置索引,所以采样得到的样本总数为:
nsampled=nhard+ncs+ncb。
通过多次采样以获得不同的结果。
应理解地,对难样本密集随机抽样是为了增加难样本在信息处理中的比例,从而提高模型对难样本的关注度。
进一步地,所述(43)使用残差神经网络提取对应位置在原始图像和显著图中的特征;根据位置信息利用图注意力机制对采样得到的样本建立图表示,并在图上传播和融合特征;具体包括:
(431)使用残差神经网络提取对应位置在原始图像和显著图中的特征;
(432)建立图表示:首先将所有像素视为节点,并展平空间维度。
在图表示中,输入特征从C×H×W转换为C×nnode,其中每个节点具有C维特征。
对于每个采样得到的节点,找到其k个最近的采样得到的节点,并生成从邻居节点到中心节点的有向边,同时为每个节点添加自环。
因此,图中的边表示为
由此,获得图表示G=(N,E)。
这为难样本生成更具判别性的特征提供了高效的途径。
(433)图推理:通过图注意层(Graph Attention Layer)中的自注意力机制,根据两个节点的特征动态地学习权重向量。
GAL利用带掩码的自注意力层,隐含地学习邻域中不同节点的不同权重,这解决了之前图卷积方法的固定边权的缺点。同时,它不需要预先建立图。
假设h={h1,h2,...,hnnode}是节点N的特征。
对于特征h,图注意力层首先引入共享权重的自注意力机制a来计算一阶邻域中节点j到节点i的注意力系数αij,并使用softmax操作进行归一化。
上述操作表示为:
eij=LeakyReLU(a(concat(Whi,Whj))) (1.6)
αij=softmax(eij), (1.7)
其中eij表示节点j对节点i的重要性,LeakyReLU和softmax代表不同的激活函数,W表示共享参数的线性变换矩阵。
然后,归一化注意系数可直接用于计算最终特征组合,如下所示:
其中σ是非线性激活函数,h′为最终的特征组合。αij是自注意力机制得到的注意力系数;
最后,将特征组合转换回常用的表示形式C×H×W。
整个难样本采样优化方法(Hard-sample Refinement)的公式表示如下:
其中,GALi表示第i个图注意力层,w和W代表全连接层的参数矩阵,代表输入特征,E代表图表示中的边的连接关系。
进一步地,所述训练后的显著性目标检测模型;具体训练过程包括:
构建训练集,所述训练集为已知显著性目标检测结果的图像;
将训练集输入到显著性目标检测模型中,对模型进行训练,当总损失函数达到最小值时,停止训练,得到训练后的显著性目标检测模型。
进一步地,所述总损失函数使用显著性目标检测中二元交叉熵损失(BCE)和交并比损失(IoU)来训练模型,并为不同的输出设置不同的权重。其中二元交叉熵损失在像素层面对预测结果进行约束,而交并比损失从区域层面出发,衡量预测结果和真值图之间的距离。
进一步地,所述总损失函数为:
L=Lfinal+0.5*(Lmls1+Lmls2)+0.25*Lmls3+0.125*(Lmls4+Lmls5), (1.11)
其中,Lfinal表示最终显著图,Lmls1,...,Lmls5分别代表不同层级的损失。不同损失的权重集合均和之前的经典工作F3Net、LDF保持一致。
实施例二
本实施例提供了显著性目标检测系统;
显著性目标检测系统,包括:
获取模块,其被配置为:获取待处理的原始图像;
特征提取模块,其被配置为:对待处理的原始图像进行特征提取;
输出模块,其被配置为:将特征提取结果输入到训练后的显著性目标检测模型中,输出最终的显著性目标预测结果;
其中,显著性目标检测模型的工作原理包括:对提取的特征进行动态尺度感知,得到显著目标的初始预测显著图;基于待处理原始图像和显著目标的初始预测显著图,利用难样本采样优化模块进行优化,得到显著目标的最终预测结果。
此处需要说明的是,上述获取模块、特征提取模块和输出模块对应于实施例一中的步骤S101至S103,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.显著性目标检测方法,其特征是,包括:
获取待处理的原始图像;
对待处理的原始图像进行特征提取;
将特征提取结果输入到训练后的显著性目标检测模型中,输出最终的显著性目标预测结果;
其中,显著性目标检测模型的工作原理包括:对提取的特征进行动态尺度感知,得到显著目标的初始预测显著图;基于待处理原始图像和显著目标的初始预测显著图,利用难样本采样优化模块进行优化,得到显著目标的最终预测结果;
所述显著性目标检测模型,包括:动态尺度感知模块和难样本采样优化模块;
其中,动态尺度感知模块,包括:若干个依次连接的残差神经网络,和若干个依次连接的自适应尺度模块;每个残差神经网络与对应的自适应尺度模块通过卷积模块进行连接;每个卷积模块还与相邻的自适应尺度模块连接;第一残差神经网络的输入端用于输入待处理的原始图像;第五自适应尺度模块的输出端用于输出显著目标的初始预测显著图;
所述难样本采样优化模块,包括:依次连接的编码器和采样单元;所述采样单元的输出端与若干个并联分支连接;所有并联分支的输出端均与第六卷积模块的输入端连接;第六卷积模块的输出端用于输出显著目标的最终预测结果;
所述自适应尺度模块,包括:依次连接的第一加法器、第八卷积模块、并联的若干支路、第二加法器和第九卷积模块;所述并联的若干支路包括n+2个支路;
其中,第一个支路,为Gate_Conv模块,该模块根据尺度变化的不同目标生成不同的特征融合权重,其中包括依次连接的卷积层、自适应池化层、Tanh激活函数层和ReLU激活函数层;其中,第二个支路,包括:依次连接的平均池化层、第十卷积模块和乘法器;其中,第三个支路到第n+1个支路均包括:依次连接的平均池化层、第十一卷积模块和乘法器;每个乘法器的输入端均与Gate_Conv模块的输出端连接;其中,第n+2个支路,包括Identity分支,该分支将特征图恒等映射,保留原特征图的语义信息。
2.如权利要求1所述的显著性目标检测方法,其特征是,所述动态尺度感知模块,工作原理包括:为不同尺寸的显著目标生成相应的特征融合权重,根据自适应生成的权重系数,指导同一特征生成不同尺度视角并进行多尺度信息聚合,得到在相应尺度判别性更强的特征映射。
3.如权利要求1所述的显著性目标检测方法,其特征是,所述难样本采样优化模块,工作原理包括:
假设确定性误差设置为Ece,对于显著性目标检测任务来说,显著值为[0,Ece)和(1-Ece,1]的像素为置信的易分样本,其他显著值为[Ece,1-Ece]的像素则为难样本;
通过对难样本以及设定范围内的置信度高于设定阈值的显著样本和置信度高于设定阈值的背景样本进行随机采样;
使用残差神经网络提取对应位置在原始图像和显著图中的特征;根据位置信息利用图注意力机制对采样得到的样本建立图表示,并在图上传播和融合特征;
对融合特征进行分类,得到显著目标的最终预测结果。
4.如权利要求3所述的显著性目标检测方法,其特征是,所述通过对难样本以及设定范围内的置信度高于设定阈值的显著样本和置信度高于设定阈值的背景样本进行随机采样;具体包括:
首先将初始预测显著图分解为可信背景图、可信显著图和难样本图;
为了使高置信度样本接近不确定区域,对初始预测显著图中的不确定区域执行平均池化操作,得到的图像称为引导图;并将引导图乘以高置信区域,以增加在不确定区域附近的采样概率;
假设输入初始预测显著图中所有像素的数量为:
nnode=H×W,
其中,H和W表示初始预测显著图的高度和宽度;
根据可信背景的引导图、可信显著目标的引导图和难样本图,对样本像素进行随机采样,得到ncb个可信背景样本、ncs个可信显著样本和nhard个难样本的空间位置索引,所以采样得到的样本总数为:
nsampled=nhard+ncs+ncb;
通过多次采样以获得不同的结果。
5.如权利要求3所述的显著性目标检测方法,其特征是,所述使用残差神经网络提取对应位置在原始图像和显著图中的特征;根据位置信息利用图注意力机制对采样得到的样本建立图表示,并在图上传播和融合特征;具体包括:
使用残差神经网络提取对应位置在原始图像和显著图中的特征;
建立图表示:首先将所有像素视为节点,并展平空间维度;
在图表示中,输入特征从C×H×W转换为C×nnode,其中每个节点具有C维特征;
对于每个采样得到的节点,找到其k个最近的采样得到的节点,并生成从邻居节点到中心节点的有向边,同时为每个节点添加自环;
因此,图中的边表示为由此,获得图表示G=(N,E);
图推理:通过图注意层中的自注意力机制,根据两个节点的特征动态地学习权重向量;
或者,
所述训练后的显著性目标检测模型;具体训练过程包括:
构建训练集,所述训练集为已知显著性目标检测结果的图像;
将训练集输入到显著性目标检测模型中,对模型进行训练,当总损失函数达到最小值时,停止训练,得到训练后的显著性目标检测模型;
所述总损失函数使用显著性目标检测中二元交叉熵损失和交并比损失来训练模型,并为不同的输出设置不同的权重;其中二元交叉熵损失在像素层面对预测结果进行约束,而交并比损失从区域层面出发,衡量预测结果和真值图之间的距离。
6.显著性目标检测系统,其特征是,包括:
获取模块,其被配置为:获取待处理的原始图像;
特征提取模块,其被配置为:对待处理的原始图像进行特征提取;
输出模块,其被配置为:将特征提取结果输入到训练后的显著性目标检测模型中,输出最终的显著性目标预测结果;
其中,显著性目标检测模型的工作原理包括:对提取的特征进行动态尺度感知,得到显著目标的初始预测显著图;基于待处理原始图像和显著目标的初始预测显著图,利用难样本采样优化模块进行优化,得到显著目标的最终预测结果;
所述显著性目标检测模型,包括:动态尺度感知模块和难样本采样优化模块;
其中,动态尺度感知模块,包括:若干个依次连接的残差神经网络,和若干个依次连接的自适应尺度模块;每个残差神经网络与对应的自适应尺度模块通过卷积模块进行连接;每个卷积模块还与相邻的自适应尺度模块连接;第一残差神经网络的输入端用于输入待处理的原始图像;第五自适应尺度模块的输出端用于输出显著目标的初始预测显著图;
所述难样本采样优化模块,包括:依次连接的编码器和采样单元;所述采样单元的输出端与若干个并联分支连接;所有并联分支的输出端均与第六卷积模块的输入端连接;第六卷积模块的输出端用于输出显著目标的最终预测结果;
所述自适应尺度模块,包括:依次连接的第一加法器、第八卷积模块、并联的若干支路、第二加法器和第九卷积模块;所述并联的若干支路包括n+2个支路;
其中,第一个支路,为Gate_Conv模块,该模块根据尺度变化的不同目标生成不同的特征融合权重,其中包括依次连接的卷积层、自适应池化层、Tanh激活函数层和ReLU激活函数层;其中,第二个支路,包括:依次连接的平均池化层、第十卷积模块和乘法器;其中,第三个支路到第n+1个支路均包括:依次连接的平均池化层、第十一卷积模块和乘法器;每个乘法器的输入端均与Gate_Conv模块的输出端连接;其中,第n+2个支路,包括Identity分支,该分支将特征图恒等映射,保留原特征图的语义信息。
7.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-5任一项所述的方法。
8.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行权利要求1-5任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210648317.0A CN114926657B (zh) | 2022-06-09 | 2022-06-09 | 显著性目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210648317.0A CN114926657B (zh) | 2022-06-09 | 2022-06-09 | 显著性目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114926657A CN114926657A (zh) | 2022-08-19 |
CN114926657B true CN114926657B (zh) | 2023-12-19 |
Family
ID=82813248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210648317.0A Active CN114926657B (zh) | 2022-06-09 | 2022-06-09 | 显著性目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114926657B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815323A (zh) * | 2016-12-27 | 2017-06-09 | 西安电子科技大学 | 一种基于显著性检测的跨域视觉检索方法 |
CN107038448A (zh) * | 2017-03-01 | 2017-08-11 | 中国科学院自动化研究所 | 目标检测模型构建方法 |
CN110059581A (zh) * | 2019-03-28 | 2019-07-26 | 常熟理工学院 | 基于场景深度信息的人群计数方法 |
WO2020107717A1 (zh) * | 2018-11-30 | 2020-06-04 | 长沙理工大学 | 视觉显著性区域检测方法及装置 |
CN111626200A (zh) * | 2020-05-26 | 2020-09-04 | 北京联合大学 | 一种基于Libra R-CNN的多尺度目标检测网络和交通标识检测方法 |
CN112446292A (zh) * | 2020-10-28 | 2021-03-05 | 山东大学 | 一种2d图像显著目标检测方法及系统 |
CN112561881A (zh) * | 2020-12-16 | 2021-03-26 | 南京莱斯电子设备有限公司 | 基于评价模型的红外图像自适应数据增强方法 |
CN112651468A (zh) * | 2021-01-18 | 2021-04-13 | 佛山职业技术学院 | 一种多尺度轻量化图像分类方法及其存储介质 |
CN113095332A (zh) * | 2021-04-13 | 2021-07-09 | 南京大学 | 一种基于特征学习的显著性区域检测方法 |
CN113139544A (zh) * | 2021-05-06 | 2021-07-20 | 安徽理工大学 | 一种基于多尺度特征动态融合的显著性目标检测方法 |
CN113379707A (zh) * | 2021-06-11 | 2021-09-10 | 大连理工大学 | 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 |
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
CN114299305A (zh) * | 2021-12-30 | 2022-04-08 | 安徽理工大学 | 聚合密集和注意力多尺度特征的显著性目标检测算法 |
-
2022
- 2022-06-09 CN CN202210648317.0A patent/CN114926657B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815323A (zh) * | 2016-12-27 | 2017-06-09 | 西安电子科技大学 | 一种基于显著性检测的跨域视觉检索方法 |
CN107038448A (zh) * | 2017-03-01 | 2017-08-11 | 中国科学院自动化研究所 | 目标检测模型构建方法 |
WO2020107717A1 (zh) * | 2018-11-30 | 2020-06-04 | 长沙理工大学 | 视觉显著性区域检测方法及装置 |
CN110059581A (zh) * | 2019-03-28 | 2019-07-26 | 常熟理工学院 | 基于场景深度信息的人群计数方法 |
CN111626200A (zh) * | 2020-05-26 | 2020-09-04 | 北京联合大学 | 一种基于Libra R-CNN的多尺度目标检测网络和交通标识检测方法 |
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
CN112446292A (zh) * | 2020-10-28 | 2021-03-05 | 山东大学 | 一种2d图像显著目标检测方法及系统 |
CN112561881A (zh) * | 2020-12-16 | 2021-03-26 | 南京莱斯电子设备有限公司 | 基于评价模型的红外图像自适应数据增强方法 |
CN112651468A (zh) * | 2021-01-18 | 2021-04-13 | 佛山职业技术学院 | 一种多尺度轻量化图像分类方法及其存储介质 |
CN113095332A (zh) * | 2021-04-13 | 2021-07-09 | 南京大学 | 一种基于特征学习的显著性区域检测方法 |
CN113139544A (zh) * | 2021-05-06 | 2021-07-20 | 安徽理工大学 | 一种基于多尺度特征动态融合的显著性目标检测方法 |
CN113379707A (zh) * | 2021-06-11 | 2021-09-10 | 大连理工大学 | 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 |
CN114299305A (zh) * | 2021-12-30 | 2022-04-08 | 安徽理工大学 | 聚合密集和注意力多尺度特征的显著性目标检测算法 |
Non-Patent Citations (5)
Title |
---|
Coarse to Fine: Weak Feature Boosting Network for Salient Object Detection;Chenhao Zhang等;Tracking and Saliency;第39卷(第7期);411-420 * |
FAR-Net: Fast Anchor Refining for Arbitrary-Oriented Object Detection;Chenwei Deng等;IEEE Geoscience and Remote Sensing Letters;第19卷;1-5 * |
GCWNet: A Global Context-Weaving Network for Object Detection in Remote Sensing Images;Yulin Wu等;IEEE Transactions on Geoscience and Remote Sensing;第60卷;1-12 * |
基于多尺度深度特征融合的视觉显著性检测算法研究;潘明远等;中国优秀硕士学位论文全文数据库 信息科技辑;I138-2923 * |
视觉单目标跟踪算法综述;汤一明;刘玉菲;黄鸿;;测控技术(08);28-41 * |
Also Published As
Publication number | Publication date |
---|---|
CN114926657A (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175671B (zh) | 神经网络的构建方法、图像处理方法及装置 | |
CN109816009B (zh) | 基于图卷积的多标签图像分类方法、装置及设备 | |
CN110048827B (zh) | 一种基于深度学习卷积神经网络的类模板攻击方法 | |
CN108171701B (zh) | 基于u网络和对抗学习的显著性检测方法 | |
CN108345827B (zh) | 识别文档方向的方法、系统和神经网络 | |
CN107111782B (zh) | 神经网络结构及其方法 | |
CN113822209B (zh) | 高光谱图像识别方法、装置、电子设备及可读存储介质 | |
CN113761976A (zh) | 基于全局引导选择性上下文网络的场景语义解析方法 | |
CN113469088B (zh) | 一种无源干扰场景下的sar图像舰船目标检测方法及系统 | |
CN110569738A (zh) | 基于密集连接网络的自然场景文本检测方法、设备和介质 | |
CN111932577B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN112215332A (zh) | 神经网络结构的搜索方法、图像处理方法和装置 | |
CN114255403A (zh) | 基于深度学习的光学遥感图像数据处理方法及系统 | |
CN112232346A (zh) | 语义分割模型训练方法及装置、图像语义分割方法及装置 | |
CN114187311A (zh) | 一种图像语义分割方法、装置、设备及存储介质 | |
CN115565043A (zh) | 结合多表征特征以及目标预测法进行目标检测的方法 | |
CN112163670A (zh) | 对抗攻击的检测方法、系统、设备、计算机可读存储介质 | |
CN115797735A (zh) | 目标检测方法、装置、设备和存储介质 | |
CN117079139A (zh) | 一种基于多尺度语义特征的遥感图像目标检测方法及系统 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN117593752B (zh) | 一种pdf文档录入方法、系统、存储介质及电子设备 | |
CN111815627B (zh) | 遥感图像变化检测方法、模型训练方法及对应装置 | |
CN114926657B (zh) | 显著性目标检测方法及系统 | |
CN115272776B (zh) | 基于双路卷积与双注意的高光谱图像分类方法及存储介质 | |
CN116109649A (zh) | 一种基于语义错误修正的3d点云实例分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |