CN115457259B - 一种基于多通道激活优化的图像快速显著性检测方法 - Google Patents
一种基于多通道激活优化的图像快速显著性检测方法 Download PDFInfo
- Publication number
- CN115457259B CN115457259B CN202211113259.8A CN202211113259A CN115457259B CN 115457259 B CN115457259 B CN 115457259B CN 202211113259 A CN202211113259 A CN 202211113259A CN 115457259 B CN115457259 B CN 115457259B
- Authority
- CN
- China
- Prior art keywords
- module
- saliency
- image
- rapid
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004913 activation Effects 0.000 title claims abstract description 51
- 238000005457 optimization Methods 0.000 title claims abstract description 41
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000012014 frustrated Lewis pair Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多通道激活优化的图像快速显著性检测方法。该检测方法设计了基于孪生网络的编码‑解码结构。编码部分,使用EfficientNetV2‑M卷积神经网络对图像全局特征进行捕捉,并采用共享参数策略进一步降低模型参数量。同时,本方法设计了多通道低级特征激活优化策略,即集成24通道的颜色、亮度和对比度三种手工特征进行优化显著性局部细节表达,弥补了传统显著性检测方法中因过度依赖深度网络结构带来的不可解释性。解码部分,采用四个上采样卷积块和1×1卷积层进行特征尺寸恢复,得到原图大小的显著性图像。整体地,双支路孪生网络同时兼顾了图像的全局特征和局部特征,在准确性和推理速度之间取得良好的平衡效果,解决了当下主流方法为追求高性能而伴随的网络深度不断加深导致的模型尺寸较大的问题。
Description
技术领域
本发明涉及显著性检测技术领域,尤其涉及一种基于多通道激活优化的图像快速显著性检测方法。
背景技术
图像显著性检测是指通过智能算法模拟人眼的视觉聚焦特点,提取图像中的显著区域,即人类感兴趣的区域。目前,随着深度学习技术的发展,显著性预测效果得到了迅速的提高,但由于网络层数的不断增加,模型结构的越加复杂,高精度预测的同时也普遍伴随较慢推理速度的问题,在应用场景中大大受到限制。
以上可见,现有技术中的图像显著性检测方法因过度依赖神经网络,容易造成检测模型的可解释性差、规模较大、推理速度较慢和计算负荷较大的问题。
发明内容
针对以上问题,本发明提出一种基于多通道激活优化的图像快速显著性检测方法。
为实现本发明的目的,本发明提出一种基于多通道激活优化的图像快速显著性检测方法,
该方法基于预设的图像快速显著性检测模型实现图像快速显著性检测;
所述预设的图像快速显著性检测模型包括:多通道激活优化模块、局部特征提取模块、全局特征提取模块和上采样模块;
所述局部特征提取模块和全局特征提取模块为相同的主干网络,即孪生网络EfficientnetV2-M;
所述基于多通道激活优化的图像快速显著性检测方法包括如下步骤:
S1:所述多通道激活优化模块提取预先输入的目标图像的颜色、亮度和方向的多通道低级视觉特征,并生成多通道激活优化图;
S2:所述局部特征提取模块对所述多通道激活优化图进行局部特征的提取,并得到局部显著性特征图;
S3:所述全局特征提取模块对所述预先输入的目标图像进行全局特征的提取,并得到全局显著性特征图,接着所述孪生网络EfficientnetV2-M之间采用参数共享的方式互相学习所述局部显著性特征图和所述全局显著性特征图;
S4:基于上述步骤S3的学习结果将所述局部显著性特征图和全局显著性特征图进行拼接融合,得到拼接融合的特征图,最后所述上采样模块对所述拼接融合的特征图进行尺度恢复和加权操作,并生成最终的显著性图像;
进一步地,所述EfficientnetV2-M卷积神经网络包括:MBConv模块和Fused-MBConv模块;
所述MBConv模块包括:扩展卷积层Expansion Conv1×1、深度可分离卷积层Depthwise Conv3×3和SE模块;
所述Fused-MBConv模块包括:传统标准卷积层conv3×3和SE模块。
进一步地,所述SE模块用于衡量模型通道之间的相互依赖性,包含:压缩和激励两部分。
进一步地,所述步骤S1中,采用Markov链方法对局部特征图进行激活优化计算。
进一步地,所述步骤S4中,所述上采样模块采用四个上采样卷积块作为解码器架构;所述上采样模块中的所有卷积层都采用了ReLU非线性激活函数,并且最后一个卷积层为具有Sigmoid非线性激活函数的1×1卷积层。
跟现有技术相比,本发明具有以下有益的技术效果:
现存的显著性预测方法虽然预测精度较高,但具有普遍模型尺寸较大,推理速度较慢,计算量较大等问题,本方案弥补了现存显著性模型的这些不足。
现存的显著性预测方法高度依赖神经网络,而神经网络包含的大量非线性函数具有黑匣子般的不可解释性,本方案基于传统鲁棒的手工视觉特征设计了多通道激活优化模块,增强了模型的可解释性。
本方案设计的轻量级的双支路孪生网络,既兼顾了局部和全局视觉特征学习和表达,又在准确性和推理速度之间取得良好的平衡效果,且较小的模型尺寸使得本方案在应用场景中比现有技术具有更高的普适性。
附图说明
图1是一个实施例的基于多通道激活优化的图像快速显著性检测方法的流程示意图;
图2是一个实施例的基于多通道激活优化的图像快速显著性检测方法的结构示意图;
图3是一个实施例的EfficientNetV2-M卷积神经网络的结构示意图;
图4是一个实施例的SE模块的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参考图1所示,图1为一个实施例的基于多通道激活优化的图像快速显著性检测方法的流程示意图,如图所示,本方案基于预设的图像快速显著性检测模型实现图像快速显著性检测;
所述预设的图像快速显著性检测模型包括:多通道激活优化模块、局部特征提取模块、全局特征提取模块和上采样模块;
所述局部特征提取模块和全局特征提取模块为相同的主干网络,即孪生网络EfficientnetV2-M;
所述基于多通道激活优化的图像快速显著性检测方法包括如下步骤:
S1:所述多通道激活优化模块提取预先输入的目标图像的颜色、亮度和方向的多通道低级视觉特征,并生成多通道激活优化图;
S2:所述局部特征提取模块对所述多通道激活优化图进行局部特征的提取,并得到局部显著性特征图;
S3:所述全局特征提取模块对所述预先输入的目标图像进行全局特征的提取,并得到全局显著性特征图,接着所述孪生网络EfficientnetV2-M之间采用参数共享的方式互相学习所述局部显著性特征图和所述全局显著性特征图;
S4:基于上述步骤S3的学习结果将所述局部显著性特征图和全局显著性特征图进行拼接融合,得到拼接融合的特征图,最后所述上采样模块对所述拼接融合的特征图进行尺度恢复和加权操作,并生成最终的显著性图像;
在一个实施例中,所述EfficientnetV2-M卷积神经网络包括:MBConv模块和Fused-MBConv模块;
所述MBConv模块包括:扩展卷积层Expansion Conv1×1、深度可分离卷积层Depthwise Conv3×3和SE模块;
所述Fused-MBConv模块包括:传统标准卷积层conv3×3和SE模块。
在一个实施例中,所述SE模块用于衡量模型通道之间的相互依赖性,包含:压缩和激励两部分。
在一个实施例中,所述步骤S1中,采用Markov链方法对局部特征图进行激活优化计算。
在一个实施例中,所述步骤S5中,
所述上采样模块采用四个上采样卷积块作为解码器架构;所述上采样模块中的所有卷积层都采用了ReLU非线性激活函数,并且最后一个卷积层为具有Sigmoid非线性激活函数的1×1卷积层。
如图2所示,整个图像快速显著性检测模型包含编码和解码两部分,编码部分在结构上采用先分后合的双支路孪生网络,两支路分别对全局特征和局部特征进行学习,其中卷积神经网络为EfficientnetV2-M,采用参数共享的方式进行训练,全局显著性特征和局部显著性特征得以融合和优化。最后在编码部分,通过上采样模块进行特征尺度恢复,得到原图大小的显著性图像。
多通道激活优化模块:
在本实施例中,输入图像后,图像将图像快速显著性检测模型的两条支路同时处理,在其中一条支路中,首先会被多通道激活优化模块提取粗糙的视觉特征,并生成底层显著激活图。其中,采用Markov链方法对局部特征图进行激活优化计算。其基本步骤如下:
(1)提取多尺度多通道局部视觉特征
通过共包含多通道多尺度的颜色、亮度和方向三种低级视觉特征。具体地,包含在R,G,B三通道上的480×640和120×160两个尺度上的共6个通道的颜色特征、在480×640和120×160两个尺度的二通道的亮度特征和在八个方向上的480×640和120×160两个尺度的共计16个通道的方向特征,其中八个方向θ∈{0°,45°,90°,135°,180°,225°,270°,315°},共计24通道特征图。
其中,RGB颜色空间中的红,绿,蓝三个颜色通道标识为r,g,b,本发明采用的颜色特征为宽频调谐特征,计算为:红R=r-(g+b)/2,蓝B=b-(r+g)/2和绿G=g-(r+b)/2。
其中,在计算多尺度亮度特征中,融入了中心环绕理论(Center-surround),其旨在计算不同尺度之间的特征差。中心(Center)尺度设定为c∈{2,3,4},周围尺度设定为s=c+σ,σ∈{3,4}。两幅相同特征不同尺度下的差运算设定为Θ,具体地,将大尺度的特征图插值到小尺度特征图,并扩展到小尺度特征图的分辨率,两幅图进行点对点相减即可得到当前特征在多尺度下的显著值。那么,不同尺度下亮度特征图的计算为:I(c,s)=|I(c)ΘI(s)|。
其中,方向特征图为O(c,s,θ),计算为:O(c,s,θ)=|O(c,s)ΘO(s,θ)|,其中八个方向为:θ∈{0°,45°,90°,135°,180°,225°,270°,315°}。
(2)利用特征向量构建激活图
在一个实施例中,所述多通道激活优化图是指通过对上述24通道特征图分别进行显著性激活优化操作获得,具体地,对每个通道特征图采用基于图结构的Markov链计算而来,通过计算高斯距离和赋予权值突出相似并连通的显著区域,具体步骤为:
首先,对每张视觉特征图提取像素位置的特征向量,构建全连接有向图GA,则节点p到节点q之间的有向边的权值表示为:
其中,计算特征图M点p和q之间的相似性,计算两点a和b之间的高斯距离,(px,py)和(qx,qy)分别表示节点p和q的位置坐标,σ为自由参数。
然后,在GA上定义Markov链。首先把边的权值归一化到[0,1],将节点表示为状态,边的权值表示为转换概率。假定GA特征向量具有马尔科夫性,则在Markov链中,随机游走器进行随机游走,则链的等值分布表示为在每个状态所消耗的时间,即为当前节点的显著程度,即为当前特征向量的激活图。
其中,Markov链表示为:在时刻t的随机变量Xt满足条件概率:
P(Xt|Xt-1,Xt-2,…,X0)=P(Xt|Xt-1),t=1,2,…
那么称此随机变量具有马尔科夫性,随机序列X={X0,X1,…Xt,…}为Markov链。
局部特征提取和优化模块:
局部特征提取和优化模块属于孪生网络的一支,职能是对步骤S1中生成的激活特征优化图进一步特征提取和优化,生成最佳的局部视觉特征,并通过参数共享的方式与孪生网络的另一条支路提取的全局特征进行融合学习,生成最佳的显著性特征。
如图3所示,在本实施例中,特征提取网络为EfficientNetV2-M,主要包含MBConv模块和Fused-MBConv模块。本方案图像快速显著性检测模型引入EfficientNetV2-M来加快训练速度以及减小模型参数数量。
如图3(a)所示,在本实施例中,宽和高分别为H和W的输入图像,首先在灰度域中经过标准卷积Conv3×3进行特征预处理,再经过如图所标示的一系列MBConv模块和Fused-MBConv模块进行特征学习和表征,最终得到尺度缩放到原图的1/32的高维显著性特征图。其中,Conv3×3表示3×3卷积+激活函数(SiLU)+BN,BN表示批归一化;MBConv和Fused-MBConv后的数字n∈{1,4,6}表示Expansion Ratio;SE表示采用SE模块,0.25表示se_ratio,指SE模块第一个全连接层的节点个数是输入MBConv的特征矩阵通道数的1/4。
如图3(a)和(b)所示,在本实施例中,EfficientNetV2-M主要采用了MBConv(n=6)模块和Fused-MBConv(n=4)。其中,MBConv(Mobile inverted Bottleneck Conv)作为注意力机制模块具有深度可分离卷积的倒残差的线性瓶颈层,主要是用来让网络对重要位置特征施加更多的关注,结构上主要包括:扩展卷积层Expansion Conv1×1(升维和降维作用),深度可分离卷积层Depthwise Conv3×3和SE模块。虽然深度可分离结构相比普通卷积拥有更少的参数以及更小的计算量FLOPs,但通常无法充分利用现有的常见的加速器,Fused-MBConv将原来的MBConv结构主分支中的Expansion Conv1×1和Depthwise Conv3×3替换成一个普通的标准卷积Conv3×3,以更好地利用移动端或服务端的加速器。
如图4所示,在一个实施例中,SE(Squeeze-and-excitation)模块用于衡量模型通道之间的相互依赖性,主要包含压缩(Squeeze)和激励(Excitation)两部分。W和H分别表示特征图宽和高。C表示通道数,输入特征图的大小为W×H×C,具体步骤见图4。
全局特征提取模块:
全局特征提取模块,用于提取图像的全局特征。在输入图像后,在灰度域中对原图进行标准卷积Conv3×3进行数据预处理,特征通道缩放到24维,与下支路24维激活特征图相匹配。然后将此24维特征矩阵输入到孪生网络进行全局特征学习,在共享参数训练策略下,与步骤S2中生成的局部显著性特征图同步进行特征融合学习,得到更加完整的显著性地图。结构上,采用与步骤S2相同的网络EfficientNetV2-M,本实施例中,特征图的宽和高缩放为输入特征图的1/32,通道设定为224。
特征图以拼接方式融合后,输入到上采样模块进行解码。
上采样模块:
为了恢复原始图像的分辨率,对双支路孪生网络拼接融合的特征图进行一系列的卷积和上采样层处理。以往的显著性预测通常采用双线性插值的方法来恢复图像分辨率,但通常会引入伪影或棋盘效应。本方案采用四个上采样卷积块作为解码器架构。所有卷积层都使用了ReLU非线性激活函数,最后添加了一个具有Sigmoid非线性激活函数的1×1卷积层来生成显著性映射,此设计方案有效削弱了棋盘效应。
解码器的权值是随机初始化的。网络的最终输出是与输入图像相同大小的显著图。除了增加整个解码器中的视觉特征的分辨率外,每个卷积块中的通道数量也逐渐减少,最终得到24张特征图。最后的卷积层利用1×1卷积将特征映射变换为连续的注视点分布图,即为模型的预测结果。
在一个实施例中,模型训练阶段采用两个显著性检测评价指标的线性组合作为损失函数,定义为:
Loss(S,G)=KL(S,G)–CC(S,G)
其中S和G分别为输入图像的显著性预测图和真值图。KL和CC分别是Kullback-Leibler Divergence(KLDiv)系数和Linear Correlation Coefficient(CC)系数,它们通常是被用来评价显著性预测模型的指标。在深度学习显著性模型中,采用反向传播学习显著性结构参数,把显著性模型的评价指标作为反向传播的目标函数可以有效提高模型的预测精度。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本申请实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种基于多通道激活优化的图像快速显著性检测方法,其特征在于,
基于预设的图像快速显著性检测模型实现图像快速显著性检测;
所述预设的图像快速显著性检测模型包括:多通道激活优化模块、局部特征提取模块、全局特征提取模块和上采样模块;
所述局部特征提取模块和全局特征提取模块为相同的主干网络,即孪生网络EfficientnetV2-M;
所述基于多通道激活优化的图像快速显著性检测方法包括如下步骤:
S1:所述多通道激活优化模块提取预先输入的目标图像的颜色、亮度和方向的多通道低级视觉特征,并生成多通道激活优化图;
S2:所述局部特征提取模块对所述多通道激活优化图进行局部特征的提取,并得到局部显著性特征图;
S3:所述全局特征提取模块对所述预先输入的目标图像进行全局特征的提取,并得到全局显著性特征图,接着所述孪生网络EfficientnetV2-M之间采用参数共享的方式互相学习所述局部显著性特征图和所述全局显著性特征图;
S4:基于上述步骤S3的学习结果将所述局部显著性特征图和全局显著性特征图进行拼接融合,得到拼接融合的特征图,最后所述上采样模块对所述拼接融合的特征图进行尺度恢复和加权操作,并生成最终的显著性图像。
2.根据权利要求1所述的基于多通道激活优化的图像快速显著性检测方法,其特征在于,
所述EfficientnetV2-M卷积神经网络包括:MBConv模块和Fused-MBConv模块;
所述MBConv模块包括:扩展卷积层Expansion Conv1×1、深度可分离卷积层DepthwiseConv3×3和SE模块;
所述Fused-MBConv模块包括:传统标准卷积层conv3×3和SE模块。
3.根据权利要求2所述的基于多通道激活优化的图像快速显著性检测方法,其特征在于,
所述SE模块用于衡量模型通道之间的相互依赖性,包含:压缩和激励两部分。
4.根据权利要求3所述的基于多通道的图像快速显著性检测模型的检测方法,其特征在于,所述步骤S1中,采用Markov链方法对局部特征图进行激活优化计算。
5.根据权利要求4所述的基于多通道的图像快速显著性检测模型的检测方法,其特征在于,所述步骤S4中,
所述上采样模块采用四个上采样卷积块作为解码器架构;所述上采样模块中的所有卷积层都采用了ReLU非线性激活函数,并且最后一个卷积层为具有Sigmoid非线性激活函数的1×1卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211113259.8A CN115457259B (zh) | 2022-09-14 | 2022-09-14 | 一种基于多通道激活优化的图像快速显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211113259.8A CN115457259B (zh) | 2022-09-14 | 2022-09-14 | 一种基于多通道激活优化的图像快速显著性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115457259A CN115457259A (zh) | 2022-12-09 |
CN115457259B true CN115457259B (zh) | 2023-10-31 |
Family
ID=84303476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211113259.8A Active CN115457259B (zh) | 2022-09-14 | 2022-09-14 | 一种基于多通道激活优化的图像快速显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457259B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292875A (zh) * | 2017-06-29 | 2017-10-24 | 西安建筑科技大学 | 一种基于全局‑局部特征融合的显著性检测方法 |
EP3246875A2 (en) * | 2016-05-18 | 2017-11-22 | Siemens Healthcare GmbH | Method and system for image registration using an intelligent artificial agent |
CN110969088A (zh) * | 2019-11-01 | 2020-04-07 | 华东师范大学 | 一种基于显著性检测与深度孪生神经网络的遥感影像变化检测方法 |
AU2020100371A4 (en) * | 2020-03-12 | 2020-04-16 | Jilin University | Hierarchical multi-object tracking method based on saliency detection |
CN112131978A (zh) * | 2020-09-09 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 一种视频分类方法、装置、电子设备和存储介质 |
CN112233147A (zh) * | 2020-12-21 | 2021-01-15 | 江苏移动信息系统集成有限公司 | 一种基于双路孪生网络的视频运动目标跟踪方法及装置 |
CN113963170A (zh) * | 2021-09-06 | 2022-01-21 | 上海工程技术大学 | 一种基于交互式特征融合的rgbd图像显著性检测方法 |
CN114067205A (zh) * | 2021-11-11 | 2022-02-18 | 中山大学 | 一种轻量型的任意尺度双时相影像变化检测方法 |
CN114926652A (zh) * | 2022-05-30 | 2022-08-19 | 厦门理工学院 | 基于交互与聚合式特征优化的孪生跟踪方法及系统 |
-
2022
- 2022-09-14 CN CN202211113259.8A patent/CN115457259B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3246875A2 (en) * | 2016-05-18 | 2017-11-22 | Siemens Healthcare GmbH | Method and system for image registration using an intelligent artificial agent |
CN107292875A (zh) * | 2017-06-29 | 2017-10-24 | 西安建筑科技大学 | 一种基于全局‑局部特征融合的显著性检测方法 |
CN110969088A (zh) * | 2019-11-01 | 2020-04-07 | 华东师范大学 | 一种基于显著性检测与深度孪生神经网络的遥感影像变化检测方法 |
AU2020100371A4 (en) * | 2020-03-12 | 2020-04-16 | Jilin University | Hierarchical multi-object tracking method based on saliency detection |
CN112131978A (zh) * | 2020-09-09 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 一种视频分类方法、装置、电子设备和存储介质 |
CN112233147A (zh) * | 2020-12-21 | 2021-01-15 | 江苏移动信息系统集成有限公司 | 一种基于双路孪生网络的视频运动目标跟踪方法及装置 |
CN113963170A (zh) * | 2021-09-06 | 2022-01-21 | 上海工程技术大学 | 一种基于交互式特征融合的rgbd图像显著性检测方法 |
CN114067205A (zh) * | 2021-11-11 | 2022-02-18 | 中山大学 | 一种轻量型的任意尺度双时相影像变化检测方法 |
CN114926652A (zh) * | 2022-05-30 | 2022-08-19 | 厦门理工学院 | 基于交互与聚合式特征优化的孪生跟踪方法及系统 |
Non-Patent Citations (4)
Title |
---|
Activity guided multi-scales collaboration based on scaled-CNN for saliency prediction;Deqiang Cheng 等;《Image Vision》;第114卷;1-9 * |
Fast saliency prediction based on multi-channels activation optimization;Song Liang 等;《Visual Image》;第94卷;1-9 * |
基于低层和高层表征的在线视觉跟踪算法研究;王立君;《中国博士学位论文全文数据库信息科技辑》(第01期);I138-124 * |
基于孪生网络的监控视频目标跟踪算法研究;于康康;《中国优秀硕士学位论文全文数据库信息科技辑》(第03期);I138-1819 * |
Also Published As
Publication number | Publication date |
---|---|
CN115457259A (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN111798400B (zh) | 基于生成对抗网络的无参考低光照图像增强方法及系统 | |
CN111259906B (zh) | 含多级通道注意力的条件生成对抗遥感图像目标分割方法 | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN113807355A (zh) | 一种基于编解码结构的图像语义分割方法 | |
CN113870335B (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN110458084B (zh) | 一种基于倒置残差网络的人脸年龄估计方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN105139385A (zh) | 基于深层自动编码器重构的图像视觉显著性区域检测方法 | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
CN110009700B (zh) | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 | |
CN113870124B (zh) | 基于弱监督的双网络互激励学习阴影去除方法 | |
CN112365511B (zh) | 基于重叠区域检索与对齐的点云分割方法 | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
CN117576402B (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
CN114092824A (zh) | 结合密集注意力和并行上采样的遥感图像道路分割方法 | |
CN116109920A (zh) | 一种基于Transformer的遥感图像建筑物提取方法 | |
CN114529793A (zh) | 一种基于门控循环特征融合的深度图像修复系统及方法 | |
CN117689617A (zh) | 基于去雾约束网络和串联多尺度注意力的绝缘子检测方法 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN108550111A (zh) | 一种基于多级字典学习的残差实例回归超分辨重建方法 | |
CN115457259B (zh) | 一种基于多通道激活优化的图像快速显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |