CN115019068A - 一种基于编解码架构的渐进式显著目标识别方法 - Google Patents
一种基于编解码架构的渐进式显著目标识别方法 Download PDFInfo
- Publication number
- CN115019068A CN115019068A CN202210580683.7A CN202210580683A CN115019068A CN 115019068 A CN115019068 A CN 115019068A CN 202210580683 A CN202210580683 A CN 202210580683A CN 115019068 A CN115019068 A CN 115019068A
- Authority
- CN
- China
- Prior art keywords
- progressive
- block
- decoding
- coding
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000750 progressive effect Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims description 28
- 238000005065 mining Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000009412 basement excavation Methods 0.000 claims description 3
- 238000003704 image resize Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 17
- 241001465754 Metazoa Species 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000282994 Cervidae Species 0.000 description 1
- 241000122205 Chamaeleonidae Species 0.000 description 1
- 102100036044 Conserved oligomeric Golgi complex subunit 4 Human genes 0.000 description 1
- 241000270722 Crocodylidae Species 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 101000876012 Homo sapiens Conserved oligomeric Golgi complex subunit 4 Proteins 0.000 description 1
- 101001104102 Homo sapiens X-linked retinitis pigmentosa GTPase regulator Proteins 0.000 description 1
- 241000270322 Lepidosauria Species 0.000 description 1
- 208000036448 RPGR-related retinopathy Diseases 0.000 description 1
- 241000270295 Serpentes Species 0.000 description 1
- 201000000467 X-linked cone-rod dystrophy 1 Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- LNNWVNGFPYWNQE-GMIGKAJZSA-N desomorphine Chemical compound C1C2=CC=C(O)C3=C2[C@]24CCN(C)[C@H]1[C@@H]2CCC[C@@H]4O3 LNNWVNGFPYWNQE-GMIGKAJZSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003945 visual behavior Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/72—Data preparation, e.g. statistical preprocessing of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于编解码架构的渐进式显著目标识别方法,包括如下步骤:S1、图像数据预处理,并将预处理后的图像数据制作成训练集;S2、搭建目标识别网络并获取精确显著图像;S3、训练集中的图像数据输入至目标识别网络并训练。本发明通过在网络编码过程、解码过程中采用不同的渐进融合方式,有效减少了层间、尤其是间隔层之间的噪声污染保证了多尺度特征信息的有效利用,另外,通过渐进式连接方法取代传统模型中的简单跳跃连接、长连接,在保证多尺度特征信息能有效传递的同时,对不同特征层间的噪声信息进行筛除、提纯,使得伪装图像的显著目标检测模型性能得到巨大提升。
Description
技术领域
本发明属于计算机视觉领域,涉及显著目标检测、伪装图像检测领域。具体指一种基于编解码架构的渐进式显著目标识别方法。
背景技术
随着深度学习、神经网络的飞速发展,计算机视觉领域实现了前所未有的跨越。目标检测作为计算机视觉领域一个经典大类,收到了广泛的研究和关注。伪装图像的显著目标检测作为目标检测,尤其是显著目标检测任务中的一类,拥有巨大的研究价值。
参考人类视觉行为模式,显著性物体检测的目标是从图像中定位最有吸引力和视觉上独特的物体或区域,传统的显著性物体检测模型已经大量应用于图像分割、目标重定位、目标图像前景注释等领域。具体的,由于伪装图像的特性,该任务模型可以广泛应用于动植物研究、医学图像处理、军事任务等多个领域。在伪装图像中,显著性物体就是图像中的拟态动物,包括水生动物如鱼类、虾蟹,陆生动物如昆虫、鹿、变色龙等,两栖类或爬行类动物如鳄鱼、蛇等。图像目标具有图像前景与背景几何相似度较高、图像对比度低、前景轮廓复杂等特点,对现有显著目标检测模型形成了较大挑战。
尤其,在医学图像任务、军事伪装任务等领域具有较强的应用能力,伪装图像的显著目标检测任务也渐渐为学者所重视。伪装图像的显著目标检测也从最初的手工特征提取演化至现在的深度学习方法。
在实际运用中,发现现有的基于深度学习的伪装图像显著目标检测模型在处理伪装图像时大多直接沿用自然场景显著目标检测模型,模型中大量的跳跃连接、长连接使得模型各个特征层间的噪声信息随着特征信息的融合传播而不断富集,模型很难得到较为洁净的检测结果。
发明内容
本发明根据现有技术的不足,提出一种基于编解码架构的渐进式显著目标识别方法,使得伪装图像的显著目标检测模型性能得到巨大提升。
为了解决上述技术问题,本发明的技术方案为:
一种基于编解码架构的渐进式显著目标识别方法,包括如下步骤:
S1、图像数据预处理,并将预处理后的图像数据制作成训练集;
S2、搭建目标识别网络并获取精确显著图像
S2-1、搭建编码网络、渐进融合模块、感受野块和解码网络,其中,编码网络采用ResNet-34作为主干网络,所述编码网络的第一层,输入的图像数据不经过池化操作直接输入至编码网络,
S2-2、将编码网络与3个结构相同的渐进融合模块进行连接,并通过渐进融合模块获取图像数据的特征信息,
S2-3、3个渐进融合模块处理后得到的图像特征分别输入3个感受野块,
S2-4、通过解码网络对经感受野块处理的特征信息进行解码,输出精确显著图像;
S3、训练集中的图像数据输入至目标识别网络并训练。
作为优选,所述图像数据的预处理方法为:对有明显噪声影响的图像数据进行筛除,对数据集中不同图像类别进行分类,分类的类别包括伪装目标类、非伪装目标类以及背景图像。
作为优选,所述ResNet-34包括5个编码块,5个所述编码块中的任意三个组成一组分别输入至渐进融合模块。
作为优选,所述渐进融合模块整体为残差结构,所述渐进融合模块包括初卷积块、适应卷积块、挖掘卷积块和输出卷积块,所述初卷积块、适应卷积块、挖掘卷积块和输出卷积块(各卷积块命名为表述方便起见命名,与附图中描述对应)均由3个3×3卷积、批标准化、ReLU激活函数复合层构成。
作为优选,所述渐进融合模块获取图像数据的特征信息的方法为:
通过初卷积块进一步提取对应编码块的特征信息;
通过适应卷积块调整各支路的特征信息的尺度使得各支路特征信息能够实现元素级相加后输入对应的挖掘卷积块中;
通过挖掘卷积块对调整后的不同尺度特征信息进行进一步挖掘;
通过输出卷积块调整使得渐进融合模块输出的特征尺度与中间层的编码块输入特征相同。
作为优选,所述解码网络包络部分解码块和渐进解码块,所述渐进解码块包括Convblock1卷积块、Convblock2卷积块、Convblock3卷积块,其均有3个3×3卷积、批标准化、ReLU激活函数复合层构成。
作为优选,所述解码网络的解码方法为:
通过部分解码块对3条感受野块的输出特征进行部分解码,从而获得粗糙的显著图片;
而后通过插片操作后,将粗糙的显著图片进行复制,增加其通道数,与对应感受野块的输出特征进行连接,复制的通道数与该感受野块输出特征通道数相同;
送入对应的卷积块输出最终的精确显著图片。
作为优选,所述解码网络还包括多级监督模块,用于对部分解码块的输出、渐进解码块的输出加以监督。
作为优选,所述多级监督模块采用BCE、IoU、SSIM混合损失函数进行监督。
作为优选,所述目标识别网络的训练方法为:Adam优化器,学习率设置为0.001,beta=(0.9,0.999),eps=1e-8,weight_decay=0,并且输入图像resize为256*256,epoch设置为400,batch size为8。
本发明具有以下的特点和有益效果:
本发明针对基于深度学习的伪装图像任务在特征提取、融合过程中噪声信息严重、多尺度特征信息间语义冲突较大等问题设计了一种基于编解码架构的渐进式显著目标识别方法,通过在网络编码过程、解码过程中采用不同的渐进融合方式,有效减少了层间、尤其是间隔层之间的噪声污染保证了多尺度特征信息的有效利用,另外,通过渐进式连接方法取代传统模型中的简单跳跃连接、长连接,在保证多尺度特征信息能有效传递的同时,对不同特征层间的噪声信息进行筛除、提纯,使得伪装图像的显著目标检测模型性能得到巨大提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中整体网络结构图。
图2本发明实施例中渐进融合模块结构图。
图3本发明实施例中感受野块结构图。
图4本发明实施例中模型与其他模型视觉比较显著图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提供了一种基于编解码架构的渐进式显著目标识别方法,包括如下步骤:
S1、图像数据预处理,并将预处理后的图像数据制作成训练集,
具体的,所述图像数据的预处理方法为:对噪声明显的图像数据进行筛除,对数据集中不同图像类别进行分类,分类的类别包括伪装目标类、非伪装目标类以及背景图像。
需要说明的是,图像数据来自于COD1OK。
S2、搭建目标识别网络并获取精确显著图像
具体的,如图1-图3所示,
S2-1、搭建编码网络、渐进融合模块、感受野块和解码网络,其中,编码网络采用ResNet-34作为主干网络,所述编码网络的第一层,输入的图像数据不经过池化操作直接输入至编码网络,
S2-2、将编码网络与3个结构相同的渐进融合模块进行连接,并通过渐进融合模块获取图像数据的特征信息,
S2-3、3个渐进融合模块处理后得到的图像数据的特征信息分别输入3个感受野块,
可以理解的,通过感受野块增大网络感受野,获得更丰富的全局信息,对于每个支路,其结构相同如图3所示。
S2-4、通过解码网络对经感受野块处理的特征信息进行解码,输出精确显著图像;
其中,所述ResNet-34包括5个编码块,5个所述编码块中的任意三个组成一组分别输入至渐进融合模块。其中5个编码块分别为Encoder1、Encoder2、Encoder3、Encoder4、Encoder5。
具体的,如图2所示,所述渐进融合模块整体为残差结构,所述渐进融合模块包括初卷积块、适应卷积块、挖掘卷积块和输出卷积块,所述初卷积块、适应卷积块、挖掘卷积块和输出卷积块均由3个3×3卷积、批标准化、ReLU激活函数复合层构成。
具体的,包括3个初卷积块、3个适应卷积块、3个挖掘卷积块和1个输出卷积块。
其中,所述渐进融合模块获取图像数据的特征信息的方法为:
通过初卷积块进一步提取对应编码块的特征信息;
通过适应卷积块调整各支路的特征信息的尺度使得各支路特征信息能够实现元素级相加后输入对应的挖掘卷积块中;
通过挖掘卷积块对调整后的不同尺度特征信息进行进一步挖掘;
通过输出卷积块调整使得渐进融合模块输出的特征尺度与中间层的编码块输入特征相同。
需要说明的是,中间层对编码块的限定,具体指说明书附图1中Encoder3,三个输入特征中选择中间的编码块输入特征尺寸大小作为标准,而非新命名的编码块。
进一步的,所述解码网络包络部分解码块和渐进解码块,所述渐进解码块包括Convblock1卷积块、Convblock2卷积块、Convblock3卷积块,其均有3个3×3卷积、批标准化、ReLU激活函数复合层构成。
进一步的,所述解码网络的解码方法为:
通过部分解码块对3条感受野块的输出特征进行部分解码,从而获得粗糙的显著图片;
而后通过插片操作后,将粗糙的显著图片进行复制,增加其通道数,与对应感受野块的输出特征进行连接,复制的通道数与该感受野块输出特征通道数相同;
送入对应的卷积块输出最终的精确显著图片。
可以理解的,通过解码网络的设置,提取的特征在解码过程中不受污染,从而提高了显著图像的精度。
进一步的,所述解码网络还包括多级监督模块,用于对部分解码块的输出、渐进解码块的输出加以监督。
其中,所述多级监督模块采用BCE、IoU、SSIM混合损失函数进行监督。
具体的,混合损失函数如下:
l=lbce+1ssim+li0u
其中G(x,y),T(x,y)分别为ground truth和预测结果在各个位置的数值。参数解释,μ和σ分别为均值和标准差,H,W为图片的高和宽,C1=0.012,C2=0.032,用于防止分母为零。
S3、训练集中的图像数据输入至目标识别网络并训练。
具体的,所述目标识别网络的训练方法为:Adam优化器,学习率设置为0.001,beta=(0.9,0.999),eps=1e-8,weight_decay=0,并且将输入图像resize为256*256,epoch设置为400,batch size为8。
如图4所示,通过视觉比较图可以看出,通过本实施例提供的基于编解码架构的渐进式显著目标识别方法,在图像前景的辨识、前进目标的细节分割上均取得领先。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式包括部件进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (10)
1.一种基于编解码架构的渐进式显著目标识别方法,其特征在于,包括如下步骤:
S1、图像数据预处理,并将预处理后的图像数据制作成训练集;
S2、搭建目标识别网络并获取精确显著图像
S2-1、搭建编码网络、渐进融合模块、感受野块和解码网络,其中,编码网络采用ResNet-34作为主干网络,所述编码网络的第一层,输入的图像数据不经过池化操作直接输入至编码网络,
S2-2、将编码网络与3个结构相同的渐进融合模块进行连接,并通过渐进融合模块获取图像数据的特征信息,
S2-3、3个渐进融合模块处理后得到的图像数据的特征信息分别输入3个感受野块,
S2-4、通过解码网络对经感受野块处理的特征信息进行解码,输出精确显著图像;
S3、训练集中的图像数据输入至目标识别网络并训练。
2.根据权利要求1所述的基于编解码架构的渐进式显著目标识别方法,其特征在于,所述图像数据的预处理方法为:对噪声明显的图像数据进行筛除,对数据集中不同图像类别进行分类,分类的类别包括伪装目标类、非伪装目标类以及背景图像。
3.根据权利要求1所述的基于编解码架构的渐进式显著目标识别方法,其特征在于,所述ResNet-34包括5个编码块,5个所述编码块中的任意三个组成一组分别输入至渐进融合模块。
4.根据权利要求3所述的基于编解码架构的渐进式显著目标识别方法,其特征在于,所述渐进融合模块整体为残差结构,所述渐进融合模块包括初卷积块、适应卷积块、挖掘卷积块和输出卷积块,所述初卷积块、适应卷积块、挖掘卷积块和输出卷积块均由3个3×3卷积、批标准化、ReLU激活函数复合层构成。
5.根据权利要求4所述的基于编解码架构的渐进式显著目标识别方法,其特征在于,所述渐进融合模块获取图像数据的特征信息的方法为:
通过初卷积块进一步提取对应编码块的特征信息;
通过适应卷积块调整各支路的特征信息的尺度使得各支路特征信息能够实现元素级相加后输入对应的挖掘卷积块中;
通过挖掘卷积块对调整后的不同尺度特征信息进行进一步挖掘;
通过输出卷积块调整使得渐进融合模块输出的特征尺度与中间层的编码块输入特征相同。
6.根据权利要求1所述的基于编解码架构的渐进式显著目标识别方法,其特征在于,所述解码网络包络部分解码块和渐进解码块,所述渐进解码块包括Convblock1卷积块、Convblock2卷积块、Convblock3卷积块,其均有3个3×3卷积、批标准化、ReLU激活函数复合层构成。
7.根据权利要求6所述的基于编解码架构的渐进式显著目标识别方法,其特征在于,所述解码网络的解码方法为:
通过部分解码块对3条感受野块的输出特征进行部分解码,从而获得粗糙的显著图片;
而后通过插片操作后,将粗糙的显著图片进行复制,增加其通道数,与对应感受野块的输出特征进行连接,复制的通道数与该感受野块输出特征通道数相同;
送入对应的卷积块输出最终的精确显著图片。
8.根据权利要求7所述的基于编解码架构的渐进式显著目标识别方法,其特征在于,所述解码网络还包括多级监督模块,用于对部分解码块的输出、渐进解码块的输出加以监督。
9.根据权利要求8所述的基于编解码架构的渐进式显著目标识别方法,其特征在于,所述多级监督模块采用BCE、IoU、SSIM混合损失函数进行监督。
10.根据权利要求1-9任意一项所述的基于编解码架构的渐进式显著目标识别方法,其特征在于,所述目标识别网络的训练方法为:Adam优化器,学习率设置为0.001,beta=(0.9,0.999),eps=1e-8,weight_decay=0,并且输入图像resize为256*256,epoch设置为400,batch size为8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210580683.7A CN115019068B (zh) | 2022-05-26 | 2022-05-26 | 一种基于编解码架构的渐进式显著目标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210580683.7A CN115019068B (zh) | 2022-05-26 | 2022-05-26 | 一种基于编解码架构的渐进式显著目标识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019068A true CN115019068A (zh) | 2022-09-06 |
CN115019068B CN115019068B (zh) | 2024-02-23 |
Family
ID=83071370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210580683.7A Active CN115019068B (zh) | 2022-05-26 | 2022-05-26 | 一种基于编解码架构的渐进式显著目标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019068B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242238A (zh) * | 2020-01-21 | 2020-06-05 | 北京交通大学 | 一种rgb-d图像显著性目标获取的方法 |
CN112446890A (zh) * | 2020-10-14 | 2021-03-05 | 浙江工业大学 | 基于空洞卷积和多尺度融合的黑色素瘤分割方法 |
CN112700418A (zh) * | 2020-12-31 | 2021-04-23 | 常州大学 | 一种基于改进编解码网络模型的裂缝检测方法 |
CN112861795A (zh) * | 2021-03-12 | 2021-05-28 | 云知声智能科技股份有限公司 | 基于多尺度特征融合的遥感图像显著目标检测方法及装置 |
CN113962332A (zh) * | 2021-11-29 | 2022-01-21 | 重庆理工大学 | 基于自优化融合反馈的显著目标识别方法 |
US20220044358A1 (en) * | 2021-01-20 | 2022-02-10 | Beijing Baidu Netcom Science Technology Co., Ltd. | Image processing method and apparatus, device, and storage medium |
CN114241288A (zh) * | 2021-12-15 | 2022-03-25 | 杭州电子科技大学 | 一种选择性边缘信息引导的遥感目标显著性检测方法 |
-
2022
- 2022-05-26 CN CN202210580683.7A patent/CN115019068B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242238A (zh) * | 2020-01-21 | 2020-06-05 | 北京交通大学 | 一种rgb-d图像显著性目标获取的方法 |
CN112446890A (zh) * | 2020-10-14 | 2021-03-05 | 浙江工业大学 | 基于空洞卷积和多尺度融合的黑色素瘤分割方法 |
CN112700418A (zh) * | 2020-12-31 | 2021-04-23 | 常州大学 | 一种基于改进编解码网络模型的裂缝检测方法 |
US20220044358A1 (en) * | 2021-01-20 | 2022-02-10 | Beijing Baidu Netcom Science Technology Co., Ltd. | Image processing method and apparatus, device, and storage medium |
CN112861795A (zh) * | 2021-03-12 | 2021-05-28 | 云知声智能科技股份有限公司 | 基于多尺度特征融合的遥感图像显著目标检测方法及装置 |
CN113962332A (zh) * | 2021-11-29 | 2022-01-21 | 重庆理工大学 | 基于自优化融合反馈的显著目标识别方法 |
CN114241288A (zh) * | 2021-12-15 | 2022-03-25 | 杭州电子科技大学 | 一种选择性边缘信息引导的遥感目标显著性检测方法 |
Non-Patent Citations (2)
Title |
---|
ZHE WU等: "Cascaded Partial Decoder for Fast and Accurate Salient Object Detection", 《ARXIV》, pages 1 - 10 * |
魏龙生等: "《智能网联汽车研究与开发丛书 智能座舱开发与实践》", 华中科技大学出版社, pages: 129 - 132 * |
Also Published As
Publication number | Publication date |
---|---|
CN115019068B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112991354B (zh) | 一种基于深度学习的高分辨率遥感影像语义分割方法 | |
CN109685072B (zh) | 一种基于生成对抗网络的复合降质图像高质量重建方法 | |
CN104268594B (zh) | 一种视频异常事件检测方法及装置 | |
AU2019430859A1 (en) | Generative adversarial mechanism and attention mechanism-based standard face generation method | |
CN111476285B (zh) | 一种图像分类模型的训练方法及图像分类方法、存储介质 | |
CN111709321B (zh) | 一种基于图卷积神经网络的人体行为识别方法 | |
CN108288270B (zh) | 一种基于通道修剪与全卷积深度学习的目标检测方法 | |
CN113888550A (zh) | 一种结合超分辨率和注意力机制的遥感图像道路分割方法 | |
CN110287770B (zh) | 一种基于卷积神经网络的水中个体目标匹配识别方法 | |
CN113724149B (zh) | 一种弱监督的可见光遥感图像薄云去除方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN112037228A (zh) | 一种基于双倍注意力的激光雷达点云目标分割方法 | |
CN113420794A (zh) | 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法 | |
CN114743027A (zh) | 弱监督学习引导的协同显著性检测方法 | |
CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN117313742A (zh) | 一种航空维修文本记录的智能故障诊断方法 | |
CN113436198A (zh) | 一种协同图像超分辨率重建的遥感图像语义分割方法 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN111160354A (zh) | 一种基于联合图像信息的海天背景下船舶图像分割方法 | |
CN112712855B (zh) | 一种基于联合训练的含缺失值基因微阵列的聚类方法 | |
CN115019068A (zh) | 一种基于编解码架构的渐进式显著目标识别方法 | |
CN118172290A (zh) | 一种基于多级自适应CNN与混合Transformer的唐卡图像修复方法、系统及存储介质 | |
CN116977204A (zh) | 一种基于选择性信息融合生成对抗网络的遥感图像去云方法 | |
CN116309213A (zh) | 一种基于生成对抗网络的高实时多源图像融合方法 | |
CN114299091A (zh) | 一种基于DA-Net的杂草自动分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |