CN114241277A - 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质 - Google Patents
注意力引导的多特征融合伪装目标检测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114241277A CN114241277A CN202111581819.8A CN202111581819A CN114241277A CN 114241277 A CN114241277 A CN 114241277A CN 202111581819 A CN202111581819 A CN 202111581819A CN 114241277 A CN114241277 A CN 114241277A
- Authority
- CN
- China
- Prior art keywords
- feature
- attention
- fusion
- network
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 108
- 238000001514 detection method Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000005070 sampling Methods 0.000 claims abstract description 42
- 238000005457 optimization Methods 0.000 claims abstract description 31
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 26
- 238000010586 diagram Methods 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉领域,公开了一种注意力引导的多特征融合伪装目标检测方法、装置、设备及介质,本发明根据在预测网络中,以BASNet编码‑解码网络为基础,通过基础残差网络对目标伪装图像进行特征提取以获得特征图;采用上采样和下采样的方法将所述特征图进行尺度统一;进行通道拼接特征融合并在通道融合之后引入CBAM注意力模块对所述特征图中的特征进行特征选择;在注意力模块后添加感受野模块,并将所述感受野模块输出的特征图输入至解码网络进行解码,得到粗略图;将所述粗略图输入至优化网络,采用像素点相加的特征融合方法获取最终的伪装目标检测结果,使用注意力模块突出重要特征信息,并添加感受野模块帮助网络进行搜索,提高伪装目标检测的效果。
Description
技术领域
本申请涉及计算机视觉领域,特别是涉及一种注意力引导的多特征融合伪装目标检测方法、装置、设备及介质。
背景技术
目前对于伪装目标检测的方法相对较少,传统手工特征的方法主要从强度、颜色特征、运动特征、纹理特征或多特征组合等方面进行设计。强度、颜色特征对于因纹理相似而产生的伪装具有比较好的效果;运动特征对于长时间静止的伪装物体效果较差;当物体的颜色与周围环境相似时,纹理特征可以作为重要的依据;多种特征组合可以弥补单一特征带来的不足。当深度学习在目标检测领域取得非常好的效果后,研究者们开始利用深度学习来进行伪装目标检测,能够利用深度学习相关技术对大数据进行训练,对伪装目标进行分割。Le等人提出了一种通用的端到端网络,它利用分类和分割来对伪装目标分割,该网络具有用于分类的分支,以预测图像中包含伪装对象的概率,以提高分割精度。Ren等人提出使用构建多个纹理感知细化模块,学习深度卷积神经网络中的纹理感知特征,以放大伪装对象与背景之间细微的纹理差异,用于伪装对象的检测。Yan等人通过镜像改变同一场景的方法,提出了一个使用镜像流来提升伪装目标分割精度的框架,该框架由两个流组成,主流用于分割原始图像,镜像流用在翻转图像上。Fan等人提出一个新的框架SINet,在伪装目标检测上取得比较好的效果。因为手工设计特征使用范围存在较大的局限性,泛化能力较差,而深度学习的方法能够在大规模数据集上使用,对大量数据自动学习,而且不再需要像传统目标检测算法手动设计特征,效果较好。
因此,如何解决伪装目标与周围环境“相融”导致边缘特征不明显成为了一个亟待解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种注意力引导的多特征融合伪装目标检测方法、装置、设备及介质,旨在解决伪装目标与周围环境“相融”导致边缘特征不明显的技术问题。
为实现上述目的,本发明提供了一种注意力引导的多特征融合伪装目标检测方法,所述方法包括:
在预测网络中,以BASNet编码-解码网络为基础,通过基础残差网络对目标伪装图像进行特征提取以获得特征图;
采用上采样和下采样的方法将所述特征图进行尺度统一;
进行通道拼接特征融合并在通道融合之后引入CBAM注意力模块对所述特征图中的特征进行特征选择;
在注意力模块后添加感受野模块,并将所述感受野模块输出的特征图输入至解码网络进行解码,得到粗略图;
将所述粗略图输入至优化网络,采用像素点相加的特征融合方法获取最终的伪装目标检测结果。
可选地,所述采用上采样和下采样的方法将所述特征图进行尺度统一的步骤,包括:
从预测网络中建立4个通道拼接多特征融合结构,分别以stage2、3、4和5作为中间stage;
所述中间stage的上下两个stage的特征图分别采用2倍下采样和2倍上采样的方法将所述特征图进行尺度统一。
可选地,所述进行通道拼接特征融合并在通道融合之后引入CBAM注意力模块对所述特征图中的特征进行特征选择的步骤,包括:
进行通道拼接特征融合;
引入CBAM注意力模块在通道注意力和空间注意力两方面提高特征表达的效果并对所述特征图中的特征进行特征选择。
可选地,所述在注意力模块后添加感受野模块,并将所述感受野模块输出的特征图输入至解码网络进行解码,得到粗略图的步骤,包括:
添加感受野模块将所述特征图输入至所述感受野模块中;
所述感受野模块中每个分支采用1*1的卷积核对所述特征图进行卷积操作,以获得粗略图。
可选地,在所述感受野模块中每个分支采用1*1的卷积核对所述特征图进行卷积操作,以获得粗略图的步骤,包括:
所述感受野模块采用5个分支,在将所述感受野模块中每个分支均采用1*1的卷积核进行操作,其中左边3个分支特征图经过卷积操作和空洞卷积操作后与第4个分支进行通道拼接融合,然后再经过一个1*1卷积核将通道数降至与第5个分支通道数相同,最后将该特征图与第5个分支的特征图输入ReLU函数以增大感受野。
可选地,所述将所述粗略图输入至优化网络,采用像素点相加的特征融合方法获取最终的伪装目标检测结果的步骤,包括:
将所述粗略图输入至优化网络;
采用像素点相加多特征融合方法对所述优化网络进行优化;
在进行优化之后获取最终的伪装目标检测结果。
可选地,所述采用像素点相加多特征融合方法对所述优化网络进行优化的步骤,包括:
采用像素点相加多特征融合方法中两种像素点相加多特征融合的结构对所述优化网络进行优化,其中所述A结构的像素点相加多特征融合方法为:Conv的特征图与stage1和stage2的特征图进行像素点相加多特征融合,其中Conv的特征图不进行下采样操作,stage2特征图进行2倍上采样操作;
所述B结构的像素点相加多特征融合方法为:分别以stage2和stage3作为中间stage,中间stage的上下两个stage的特征图分别采用2倍下采样和2倍上采样的操作然后进行像素点相加特征融合。
此外,为实现上述目的,本发明还提出一种注意力引导的多特征融合伪装目标检测装置,所述装置包括:
特征获取模块,用于在预测网络中,以BASNet编码-解码网络为基础,通过基础残差网络对目标伪装图像进行特征提取以获得特征图;
尺度统一模块,用于采用上采样和下采样的方法将所述特征图进行尺度统一;
特征选择模块,用于进行通道拼接特征融合并在通道融合之后引入CBAM注意力模块对所述特征图中的特征进行特征选择;
预测网络解码模块,用于在注意力模块后添加感受野模块,并将所述感受野模块输出的特征图输入至解码网络进行解码,得到粗略图;
结果获取模块,用于将所述粗略图输入至优化网络,采用像素点相加的特征融合方法获取最终的伪装目标检测结果。
此外,为实现上述目的,本发明还提出一种计算机设备,所述计算机设备包括:存储器,处理器以及存储在所述存储器上并可在所述处理器上运行的注意力引导的多特征融合伪装目标检测程序,所述注意力引导的多特征融合伪装目标检测程序配置为实现如上文所述的注意力引导的多特征融合伪装目标检测方法。
此外,为实现上述目的,本发明还提出一种介质,所述介质上存储有注意力引导的多特征融合伪装目标检测程序,所述注意力引导的多特征融合伪装目标检测程序被处理器执行时实现如上文所述的注意力引导的多特征融合伪装目标检测方法的步骤。
本发明根据在预测网络中,以BASNet编码-解码网络为基础,通过基础残差网络对目标伪装图像进行特征提取以获得特征图;采用上采样和下采样的方法将所述特征图进行尺度统一;进行通道拼接特征融合并在通道融合之后引入CBAM注意力模块对所述特征图中的特征进行特征选择;在注意力模块后添加感受野模块,并将所述感受野模块输出的特征图输入至解码网络进行解码,得到粗略图;将所述粗略图输入至优化网络,采用像素点相加的特征融合方法获取最终的伪装目标检测结果,使用注意力模块突出重要特征信息,并添加感受野模块帮助网络进行搜索,提高伪装目标检测的效果。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的注意力引导的多特征融合伪装目标检测设备的结构示意图;
图2为本发明注意力引导的多特征融合伪装目标检测方法第一实施例的流程示意图;
图3为本发明注意力引导的多特征融合伪装目标检测方法第一实施例的注意力引导的多特征融合网络结构图;
图4为本发明注意力引导的多特征融合伪装目标检测方法第一实施例通道拼接的多特征融合结构图;
图5为本发明注意力引导的多特征融合伪装目标检测方法第一实施例CBAM注意力模块结构图;
图6为本发明注意力引导的多特征融合伪装目标检测方法第一实施例涉及的RF感受野模块结构图;
图7为本发明注意力引导的多特征融合伪装目标检测方法第一实施例像素点相加的多特征融合结构图。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的注意力引导的多特征融合伪装目标检测设备结构示意图。
如图1所示,该注意力引导的多特征融合伪装目标检测设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对注意力引导的多特征融合伪装目标检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及注意力引导的多特征融合伪装目标检测程序。
在图1所示的注意力引导的多特征融合伪装目标检测设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明注意力引导的多特征融合伪装目标检测设备中的处理器1001、存储器1005可以设置在注意力引导的多特征融合伪装目标检测设备中,所述注意力引导的多特征融合伪装目标检测设备通过处理器1001调用存储器1005中存储的注意力引导的多特征融合伪装目标检测程序,并执行本发明实施例提供的注意力引导的多特征融合伪装目标检测方法。
本发明实施例提供了一种注意力引导的多特征融合伪装目标检测方法,参照图2,图2为本发明注意力引导的多特征融合伪装目标检测方法第一实施例的流程示意图。
本实施例中,所述注意力引导的多特征融合伪装目标检测方法包括以下步骤:
步骤S10:在预测网络中,以BASNet编码-解码网络为基础,通过基础残差网络对目标伪装图像进行特征提取以获得特征图。
需要说明的是,一种注意力引导的多特征融合伪装目标检测方法(AMFNet),主要包括以下步骤:
(1)在预测网络中,以BASNet编码-解码网络为基础,通过基础残差网络对伪装图像进行特征提取,得到不同特征图;
(2)在预测网络中,采用上采样和下采样的方法将特征图变为同一种尺度,然后对多层网络输出的特征图采用通道拼接的特征融合方法,增强边缘信息;
(3)在预测网络中,通道拼接的多特征融合,虽然能够对伪装目标的不同尺寸特征进行融合,强化了相关特征信息,但在大量的特征中存在特征冗余。因此,在通道拼接融合后,引入CBAM注意力模块对大量特征进行特征选择,强化重要特征信息,抑制无关特征信息;
(4)由于增大感受野能够在控制增加少量参数的情况下,提升模型检测效果,因此在注意力模块特征选择后,添加增大感受野模块,然后将增大感受野模块输出的特征图输入解码网络进行解码,得到粗略图后,将粗略图输入优化网络;
(5)在优化网络中,对多个不同尺度的特征图,采用上采样和下采样的方法将特征图变为同一种尺度,然后再采用像素点相加的特征融合方法,对进一步提高优化网络的优化效果,得到最终的伪装目标检测结果。
在具体实施中,本实施例提出AMFNet网络结构如图3所示,输入图片经过卷积、多特征融合增强边缘信息后,为了能够在通道拼接特征融合后的特征中增强重要信息、抑制无关信息,本实施例采用CBAM注意力模块,通过通道注意力和空间注意力两个方面来提高特征的表达效果,在注意力的基础上,本实施例使用RF模块扩大了感受野,在一定程度上提高了模型伪装物体的搜索能力,经特征图解码后得到目标粗略图。随后,再将粗略图输入优化网络,经过像素点相加多特征融合强化对应位置特征输出,最后经过优化网络解码得到最终结果。
步骤S20:采用上采样和下采样的方法将所述特征图进行尺度统一。
步骤S30:进行通道拼接特征融合并在通道融合之后引入CBAM注意力模块对所述特征图中的特征进行特征选择。
在具体实施中,其中,通道拼接的多特征融合结构如图4所示,为了能够保留更多的边缘以小目标信息,同时考虑到特征图之间的关联性能保存更多信息,借鉴彩虹式特征融合的思想,提出一种通道拼接的多特征融合结构,以达到增强边缘信息的目的,进一步提高模型的检测效果。预测网络中的通道拼接多特征融合结构总共有4个,依次选取stage2、3、4、5作为中间stage,其对应上下stage的特征图分别进行2倍下采样和2倍上采样的操作,然后进行通道拼接特征融合。通过本实施例提出的通道拼接特征融合结构,保留了更多的空间位置信息,将浅层网络特征中的边缘信息进行强化。对上、中、下3个stage的特征图进行通道拼接特征融合,丰富了不同尺寸特征图中的信息,扩充了通道方向上的特征信息。
进一步地,所述进行通道拼接特征融合并在通道融合之后引入CBAM注意力模块对所述特征图中的特征进行特征选择的步骤,包括:进行通道拼接特征融合;引入CBAM注意力模块在通道注意力和空间注意力两方面提高特征表达的效果并对所述特征图中的特征进行特征选择。
在具体实施中,CBAM注意力模块结构如图5所示,CBAM是将通道注意力和空间注意力整合的一种轻量注意力模块,它在增加少量模型参数和计算量的情况下,能够在一定程度上提高模型的性能。特征图输入CBAM后,通道注意力子模块先对各个通道赋予不同的权重,再将带有通道权重的特征图输入空间注意力子模块,最终得到两种维度的注意力效果,提高模型对重要信息的学习能力。
步骤S40:在注意力模块后添加感受野模块,并将所述感受野模块输出的特征图输入至解码网络进行解码,得到粗略图。
在具体实施中,RF感受野模块结构如图6所示,总共采用5个分支,特征图输入感受野模块后,每个分支均采用1*1的卷积核进行卷积操作,目的是在不改变特征图尺寸大小的情况下,减小通道数以减少参数量提高运算速度。左边3个分支特征图经过卷积操作和空洞卷积操作后与第4个分支进行通道拼接融合,然后再经过一个1*1卷积核将通道数降至与第5个分支通道数相同,最后将该特征图与第5个分支的特征图进行像素点相加融合后的整体结果输入ReLU函数以增大感受野。
进一步地,所述在注意力模块后添加感受野模块,并将所述感受野模块输出的特征图输入至解码网络进行解码,得到粗略图的步骤,包括:添加感受野模块将所述特征图输入至所述感受野模块中;所述感受野模块对输入特征图进行多分支卷积核拼接融合后增大感受野。
步骤S50:将所述粗略图输入至优化网络,采用像素点相加的特征融合方法获取最终的伪装目标检测结果。
进一步地,所述将所述粗略图输入至优化网络,采用像素点相加的特征融合方法获取最终的伪装目标检测结果的步骤,包括:将所述粗略图输入至优化网络;采用像素点相加多特征融合方法对所述优化网络进行优化;在进行优化之后获取最终的伪装目标检测结果。
进一步地,所述采用像素点相加多特征融合方法对所述优化网络进行优化的步骤,包括:采用像素点相加多特征融合方法中两种像素点相加多特征融合的结构对所述优化网络进行优化,其中所述A结构的像素点相加多特征融合方法为:Conv的特征图与stage1和stage2的特征图进行像素点相加多特征融合,其中Conv的特征图不进行下采样操作,stage2特征图进行2倍上采样操作;所述B结构的像素点相加多特征融合方法为:分别以stage2和stage3作为中间stage,中间stage的上下两个stage的特征图分别采用2倍下采样和2倍上采样的操作然后进行像素点相加特征融合。
在具体实施中,像素点相加的多特征融合优化网络结构如图7所示,因为预测网络将伪装目标与背景图像分割开,得到一个伪装目标的粗略图,然后将粗略图输入优化网络进行优化,本发明提出一种基于像素点相加的多特征融合优化网络结构,增强不同尺度特征图之间的信息,进一步提高优化网络的优化效果,提高检测精度。考虑像素点相加特征融合对优化网络输出特征图大小要求,提出了两种像素点相加多特征融合的结构。A种结构中,224*224*64的特征图先经过一个3*3*64,步长为1且零填充为1的卷积操作,输出特征图大小不变,因此Conv和stage1的尺寸大小相同不需要下采样;B结构中,因为stage1的特征图尺寸大小为2的两倍,需要经过2倍下采样获得与stage2相同的尺寸才能进行点像素相加特征融合。同理,stage3需要经过2倍上采样与stage2进行像素点相加特征融合。优化网络中的像素点相加多特征融合结构总共有3个,包含1个stage1作为中间stage的结构A和2个以stage2和3作为中间stage的结构B。像素点相加多特征融合方法,结合了中间stage前后相关联不同尺寸的特征图信息,强化伪装目标对应位置像素点的信息,有效提升了对伪装目标的优化效果。
在具体实施中,本发明在此次实验使用TITAN RTX 24G*4GPU,操作系统为Ubuntu18.04,使用Python编程语言。在训练过程中使用Adam优化器来训练网络,初始学习率为0.001,动量为0.9,权重衰减为0,常量eps设置为0.0000008。
本实施例在Fang等人提出的伪装迷彩士兵数据集上,对本发明提出AMFNet进行评估,这个数据集总共包含了2600张大小为854*854的图像。因为伪装风格具有多样性,数据集从26种伪装模式视频中抽取特定的帧组成数据集,目的是包含尽可能多的伪装模式,其中每种伪装模式100张图片。为了让数据集更加全面和真实,数据集中包括丛林、沙漠和雪地等背景,且背景与伪装风格相匹配。由于伪装人员的大小反映了观察者与目标之间的距离,而该距离也与伪装效果有关,该数据中也包含了不同目标大小的伪装人员图片。该数据集还考虑了侧、躺、跪、站立等多种姿势以及光照和遮挡情况,以模拟真实环境。本实施例使用F-measure和平均绝对误差(Mean Absolute Error,MAE)评估本实施例提出的方法。为了对精确率(Precision)和召回率(Recall)进行全面的测量,Fβ根据每对精确率和召回率计算如下:
其中,其中,TP表示将正样本预测为正样本的数量;FN表示将正样本预测为负样本的数量;FP表示将负样本预测为正样本的数量;TN表示将负样本预测为负样本的数量,β2设置为0.3以增加精确率的权重,Fβ越大越好。
MAE表示预测的结果与其标签之间的平均绝对误差,MAE定义为:
其中S和G分别为预测的结果与其标签,H和W分别为高度和宽度,(r,c)表示像素坐标,MAE是对于一个数据集的平均值,其越小说明模型的精确度更高。
实验结果为验证本章所提出方法的有效性,选择Deeplabv3、FCN8S、SSDN-、DDCN、SSDN、BASNet和SINet-V2等方法进行对比,其中Deeplabv3、FCN8S、SSDN-、DDCN、SSDN的实验结果来自于提出该伪装迷彩士兵数据集文献中的数据,各个网络模型在伪装迷彩士兵数据集上的实验结果如表1所示:
模型 | F<sub>β</sub> | MAE |
Deeplabv3 | 0.413 | 0.01 |
FCN8S | 0.56 | 0.007 |
SSDN- | 0.603 | 0.006 |
DDCN | 0.605 | 0.007 |
SSDN | 0.661 | 0.005 |
SINet-V2 | 0.769 | 0.004 |
BASNet | 0.792 | 0.004 |
AMFNet | 0.805 | 0.004 |
表1
中显示在迷彩士兵数据集上,本发明提出的注意力引导的多特征融合网络AMFNet的Fβ指标为0.805比BASNet提高了1.3%,比SINet-V2提高了3.6%,证明了本发明的有效性。
本实施例根据在预测网络中,以BASNet编码-解码网络为基础,通过基础残差网络对目标伪装图像进行特征提取以获得特征图;采用上采样和下采样的方法将所述特征图进行尺度统一;进行通道拼接特征融合并在通道融合之后引入CBAM注意力模块对所述特征图中的特征进行特征选择;在注意力模块后添加感受野模块,并将所述感受野模块输出的特征图输入至解码网络进行解码,得到粗略图;将所述粗略图输入至优化网络,采用像素点相加的特征融合方法获取最终的伪装目标检测结果,使用注意力模块突出重要特征信息,并添加感受野模块帮助网络进行搜索,提高伪装目标检测的效果。
此外,本发明实施例还提出一种介质,所述介质上存储有注意力引导的多特征融合伪装目标检测程序,所述注意力引导的多特征融合伪装目标检测程序被处理器执行时实现如上文所述的注意力引导的多特征融合伪装目标检测方法的步骤。
本发明注意力引导的多特征融合伪装目标检测装置的实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种注意力引导的多特征融合伪装目标检测方法,其特征在于,所述方法包括:
在预测网络中,以BASNet编码-解码网络为基础,通过基础残差网络对目标伪装图像进行特征提取以获得特征图;
采用上采样和下采样的方法将所述特征图进行尺度统一;
进行通道拼接特征融合并在通道融合之后引入CBAM注意力模块对所述特征图中的特征进行特征选择;
在注意力模块后添加感受野模块,并将所述感受野模块输出的特征图输入至解码网络进行解码,得到粗略图;
将所述粗略图输入至优化网络,采用像素点相加的特征融合方法获取最终的伪装目标检测结果。
2.如权利要求1所述的方法,其特征在于,所述采用上采样和下采样的方法将所述特征图进行尺度统一的步骤,包括:
从预测网络中建立4个通道拼接多特征融合结构,分别以stage2、3、4和5作为中间stage;
所述中间stage的上下两个stage的特征图分别采用2倍下采样和2倍上采样的方法将所述特征图进行尺度统一。
3.如权利要求1所述的方法,其特征在于,所述进行通道拼接特征融合并在通道融合之后引入CBAM注意力模块对所述特征图中的特征进行特征选择的步骤,包括:
进行通道拼接特征融合;
引入CBAM注意力模块在通道注意力和空间注意力两方面提高特征表达的效果并对所述特征图中的特征进行特征选择。
4.如权利要求1所述的方法,其特征在于,所述在注意力模块后添加感受野模块,并将所述感受野模块输出的特征图输入至解码网络进行解码,得到粗略图的步骤,包括:
添加感受野模块将所述特征图输入至所述感受野模块中;
所述感受野模块对输入特征图进行多分支卷积核拼接融合后增大感受野。
5.如权利要求4所述的方法,其特征在于,所述感受野模块对输入特征图进行多分支卷积核拼接融合后增大感受野的步骤,包括:
所述感受野模块采用5个分支,在将所述感受野模块中每个分支均采用1*1的卷积核进行操作,其中左边3个分支特征图经过卷积操作和空洞卷积操作后与第4个分支进行通道拼接融合,然后再经过一个1*1卷积核将通道数降至与第5个分支通道数相同,最后将该特征图与第5个分支的特征图输入ReLU函数以增大感受野。
6.如权利要求1所述的方法,其特征在于,所述将所述粗略图输入至优化网络,采用像素点相加的特征融合方法获取最终的伪装目标检测结果的步骤,包括:
将所述粗略图输入至优化网络;
采用像素点相加多特征融合方法对所述优化网络进行优化;
在进行优化之后获取最终的伪装目标检测结果。
7.如权利要求6所述的方法,其特征在于,所述采用像素点相加多特征融合方法对所述优化网络进行优化的步骤,包括:
采用像素点相加多特征融合方法中两种像素点相加多特征融合的结构对所述优化网络进行优化,其中所述A结构的像素点相加多特征融合方法为:Conv的特征图与stage1和stage2的特征图进行像素点相加多特征融合,其中Conv的特征图不进行下采样操作,stage2特征图进行2倍上采样操作;
所述B结构的像素点相加多特征融合方法为:分别以stage2和stage3作为中间stage,中间stage的上下两个stage的特征图分别采用2倍下采样和2倍上采样的操作然后进行像素点相加特征融合。
8.一种注意力引导的多特征融合伪装目标检测装置,其特征在于,所述装置包括:
特征获取模块,用于在预测网络中,以BASNet编码-解码网络为基础,通过基础残差网络对目标伪装图像进行特征提取以获得特征图;
尺度统一模块,用于采用上采样和下采样的方法将所述特征图进行尺度统一;
特征选择模块,用于进行通道拼接特征融合并在通道融合之后引入CBAM注意力模块对所述特征图中的特征进行特征选择;
预测网络解码模块,用于在注意力模块后添加感受野模块,并将所述感受野模块输出的特征图输入至解码网络进行解码,得到粗略图;
结果获取模块,用于将所述粗略图输入至优化网络,采用像素点相加的特征融合方法获取最终的伪装目标检测结果。
9.一种注意力引导的多特征融合伪装目标检测设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的注意力引导的多特征融合伪装目标检测程序,所述注意力引导的多特征融合伪装目标检测程序配置为实现如权利要求1至7中任一项所述的注意力引导的多特征融合伪装目标检测方法的步骤。
10.一种介质,其特征在于,所述介质上存储有注意力引导的多特征融合伪装目标检测程序,所述注意力引导的多特征融合伪装目标检测程序被处理器执行时实现如权利要求1至7任一项所述的注意力引导的多特征融合伪装目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111581819.8A CN114241277A (zh) | 2021-12-22 | 2021-12-22 | 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111581819.8A CN114241277A (zh) | 2021-12-22 | 2021-12-22 | 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114241277A true CN114241277A (zh) | 2022-03-25 |
Family
ID=80761407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111581819.8A Pending CN114241277A (zh) | 2021-12-22 | 2021-12-22 | 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241277A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627299A (zh) * | 2022-04-21 | 2022-06-14 | 杭州电子科技大学 | 一种模仿人类视觉系统对伪装目标检测与分割方法 |
CN115100666A (zh) * | 2022-05-18 | 2022-09-23 | 东北大学 | 基于显著性检测和超分辨率重建的ar会议系统及构建方法 |
CN115731243A (zh) * | 2022-11-29 | 2023-03-03 | 北京长木谷医疗科技有限公司 | 基于人工智能及注意力机制的脊柱图像分割方法及装置 |
CN116645696A (zh) * | 2023-05-31 | 2023-08-25 | 长春理工大学重庆研究院 | 一种用于多模态行人检测的轮廓信息引导特征检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852383A (zh) * | 2019-11-12 | 2020-02-28 | 复旦大学 | 基于注意力机制深度学习网络的目标检测方法及装置 |
CN111179217A (zh) * | 2019-12-04 | 2020-05-19 | 天津大学 | 一种基于注意力机制的遥感图像多尺度目标检测方法 |
CN113449727A (zh) * | 2021-07-19 | 2021-09-28 | 中国电子科技集团公司第二十八研究所 | 一种基于深度神经网络的伪装目标检测识别方法 |
CN113468996A (zh) * | 2021-06-22 | 2021-10-01 | 广州大学 | 一种基于边缘细化的伪装物体检测方法 |
WO2021232771A1 (zh) * | 2020-05-18 | 2021-11-25 | 中科视语(北京)科技有限公司 | 多任务的目标检测方法、装置、电子设备及存储介质 |
CN113780211A (zh) * | 2021-09-16 | 2021-12-10 | 河北工程大学 | 一种基于改进型Yolov4-tiny的轻量级飞机检测方法 |
-
2021
- 2021-12-22 CN CN202111581819.8A patent/CN114241277A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852383A (zh) * | 2019-11-12 | 2020-02-28 | 复旦大学 | 基于注意力机制深度学习网络的目标检测方法及装置 |
CN111179217A (zh) * | 2019-12-04 | 2020-05-19 | 天津大学 | 一种基于注意力机制的遥感图像多尺度目标检测方法 |
WO2021232771A1 (zh) * | 2020-05-18 | 2021-11-25 | 中科视语(北京)科技有限公司 | 多任务的目标检测方法、装置、电子设备及存储介质 |
CN113468996A (zh) * | 2021-06-22 | 2021-10-01 | 广州大学 | 一种基于边缘细化的伪装物体检测方法 |
CN113449727A (zh) * | 2021-07-19 | 2021-09-28 | 中国电子科技集团公司第二十八研究所 | 一种基于深度神经网络的伪装目标检测识别方法 |
CN113780211A (zh) * | 2021-09-16 | 2021-12-10 | 河北工程大学 | 一种基于改进型Yolov4-tiny的轻量级飞机检测方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627299A (zh) * | 2022-04-21 | 2022-06-14 | 杭州电子科技大学 | 一种模仿人类视觉系统对伪装目标检测与分割方法 |
CN114627299B (zh) * | 2022-04-21 | 2023-10-27 | 杭州电子科技大学 | 一种模仿人类视觉系统对伪装目标检测与分割方法 |
CN115100666A (zh) * | 2022-05-18 | 2022-09-23 | 东北大学 | 基于显著性检测和超分辨率重建的ar会议系统及构建方法 |
CN115731243A (zh) * | 2022-11-29 | 2023-03-03 | 北京长木谷医疗科技有限公司 | 基于人工智能及注意力机制的脊柱图像分割方法及装置 |
CN115731243B (zh) * | 2022-11-29 | 2024-02-09 | 北京长木谷医疗科技股份有限公司 | 基于人工智能及注意力机制的脊柱图像分割方法及装置 |
CN116645696A (zh) * | 2023-05-31 | 2023-08-25 | 长春理工大学重庆研究院 | 一种用于多模态行人检测的轮廓信息引导特征检测方法 |
CN116645696B (zh) * | 2023-05-31 | 2024-02-02 | 长春理工大学重庆研究院 | 一种用于多模态行人检测的轮廓信息引导特征检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943145B2 (en) | Image processing methods and apparatus, and electronic devices | |
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN109508681B (zh) | 生成人体关键点检测模型的方法和装置 | |
CN114241277A (zh) | 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质 | |
KR102629380B1 (ko) | 실제 3차원 객체를 실제 객체의 2-차원 스푸프로부터 구별하기 위한 방법 | |
CN106022221B (zh) | 一种图像处理方法及处理系统 | |
WO2021227726A1 (zh) | 面部检测、图像检测神经网络训练方法、装置和设备 | |
EP3540637A1 (en) | Neural network model training method, device and storage medium for image processing | |
CN111047516A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN110033023B (zh) | 一种基于绘本识别的图像数据处理方法及系统 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN112597941A (zh) | 一种人脸识别方法、装置及电子设备 | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
Liu et al. | Image de-hazing from the perspective of noise filtering | |
CN109508636A (zh) | 车辆属性识别方法、装置、存储介质及电子设备 | |
CN111723707A (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
US20240037898A1 (en) | Method for predicting reconstructabilit, computer device and storage medium | |
CN111179272B (zh) | 一种面向道路场景的快速语义分割方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN109255382A (zh) | 用于图片匹配定位的神经网络系统,方法及装置 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN110196917A (zh) | 个性化logo版式定制方法、系统和存储介质 | |
CN111612802B (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |