CN116721112A - 基于双分支解码器网络的水下伪装物体图像分割方法 - Google Patents
基于双分支解码器网络的水下伪装物体图像分割方法 Download PDFInfo
- Publication number
- CN116721112A CN116721112A CN202311000476.0A CN202311000476A CN116721112A CN 116721112 A CN116721112 A CN 116721112A CN 202311000476 A CN202311000476 A CN 202311000476A CN 116721112 A CN116721112 A CN 116721112A
- Authority
- CN
- China
- Prior art keywords
- branch
- decoder
- branch decoder
- network
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003709 image segmentation Methods 0.000 title claims abstract description 23
- 230000002776 aggregation Effects 0.000 claims abstract description 31
- 238000004220 aggregation Methods 0.000 claims abstract description 31
- 230000003993 interaction Effects 0.000 claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims description 47
- 238000013135 deep learning Methods 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 230000009977 dual effect Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 235000009120 camo Nutrition 0.000 description 2
- 244000213578 camo Species 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 241000258957 Asteroidea Species 0.000 description 1
- 241000238413 Octopus Species 0.000 description 1
- 208000037062 Polyps Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000001320 hippocampus Anatomy 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000011064 split stream procedure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,提供一种基于双分支解码器网络的水下伪装物体图像分割方法。该方法提出的解码器网络采用双分支结构,一支解码器使用通道注意力模块增强特征并接受边缘指导信息,另一支解码器使用空间注意力模块增强特征并接受全局指导信息,还在解码器每层之间提出信息交互模块,将两个分支的信息进行融合后输送到下一层解码器从而得到更好的信息融合效果,还提出选择性分支聚合模块中,其会自适应的学习如何在两个分支上权衡不同的注意力从而更好的对结果进行融合,最终产生双解码器注意力网络的预测图并接受真值图像的监督。本发明可以提高分割水下伪装目标时的准确性以及识别速度,提高水下目标识别任务的智能化水平。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于双分支解码器网络的水下伪装物体图像分割方法。
背景技术
在计算机视觉领域中,图像的分割问题一直是学者们研究的热点,要求模型对图像中的目标进行像素级别的识别,即准确的判断出每个像素所属的类别,进而将整个图像划分成不同的区域。目前图像分割技术的研究主要可以分为三类,包括通用目标分割,显著目标分割和伪装目标分割。伪装目标分割技术要解决的问题是如何将伪装目标从背景中精确的分割出来。伪装目标的特点是其与周边环境在纹理、色彩、形状等方面具有高度的相似性,因此具有很大的挑战性,即使由人类观测者来执行,也同样难以很好的完成。同时,伪装目标分割技术又具有广泛的潜在应用前景,如医学影像中的息肉分割、农业中的蝗虫检测、搜索和救援工作、表面缺陷检测等等。
水下伪装目标分割技术即是在水下图像中进行伪装目标分割。我国拥有广阔的海洋面积和丰富的海洋资源,远洋深海战略意义重大。海洋生态的保护、资源的探测与开采、军事方面的海底环境探测与伪装水雷探测等均需要水下伪装目标分割技术的支持。但目前相关技术研究较少,水平距离实际应用仍有距离。通过深度学习进行水下伪装目标分割研究可以获得更高的识别成功率和抗干扰能力,相关研究技术有助于海洋资源利用和国防军工事业发展。
伪装物体检测的方法大致可以分为两类,即传统的伪装物体检测算法和基于深度学习的伪装物体检测算法。在早期的伪装物体检测研究中,主要采用手工设计的特征方法。
最近,许多基于卷积神经网络(CNN)的方法被提出来用于检测伪装物体,大大增强了这类物体的检测能力。伪装目标分割网络Anabranch Network(ANet)的特点在于同时有着分类网络和分割网络。其充分利用了分类流和分割流网络的优势,首先利用分类网络判断图像中是否存在伪装物体,如果不存在则不输出图像,如果存在再利用分割网络对伪装物体进行分割。而MirrorNet是一个受生物启发的网络,利用实例分割和对抗性攻击来分割伪装物体。该网络包括两个分割流,对抗流的输出与主流的结果相结合以提高分割的准确性。
引入深度学习之后,对伪装物体监测网络的性能虽然有所提升,但是总体上伪装物体粉各领域与通用物体分割领域准确率仍有较大差距,与一般的图像分割和突出物体分割任务相比,伪装物体与其背景表现出高度的相似性,导致经常出现错误分类的情况,即目标的一部分被错误地识别为背景,反之亦然。
发明内容
本发明旨在至少解决相关技术中存在的技术问题之一。为此,本发明提供一种基于双分支解码器网络的水下伪装物体图像分割方法。
本发明提供一种基于双分支解码器网络的水下伪装物体图像分割方法,包括:
S100:由现有数据集中获取伪装物体数据,组建伪装物体数据集和所述伪装物体数据集对应的标签集,通过深度学习框架训练所述伪装物体数据集和所述标签集;
S200:对深度学习框架引入边缘指导旁路,以获取所述深度学习框架的首层编码器输出结果为边缘指导信息;对深度学习框架引入全局指导旁路,以获取所述深度学习框架的末层编码器输出结果为全局指导信息;
S300:对于所述深度学习框架的每层神经网络均设置第一分支解码器和第二分支解码器,所述第一分支解码器接受所述边缘指导信息并通过通道注意力机制增强特征,所述第二分支解码器接受所述全局指导信息并通过空间注意力机制增强特征,获得双分支解码器网络;
S400:对于所述双分支解码器网络的每层神经网络均设置信息交互模块,通过所述信息交互模块融合所述第一分支解码器的输出信息和所述第二分支解码器的输出信息,获得双分支解码器聚合网络;
S500:筛选现有数据集中的水下伪装物体数据,组建水下伪装物体数据集,通过所述双分支解码器聚合网络训练所述水下伪装物体数据集并处理待分割图像获得分割结果。
根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法,所述双分支解码器聚合网络中引入的通道注意力机制和空间注意力机制均为非局部方式的自注意力机制。
根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法,步骤S400中所述信息交互模块融合所述第一分支解码器的输出信息和所述第二分支解码器的输出信息的步骤包括:
S411:所述信息交互模块接收所述第一分支解码器的输出信息和所述第二分支解码器的输出信息,并在通道维度上进行连接,获得融合输出;
S412:将所述融合输出输入信息交互模块中的第一卷积层进行特征提取,获得融合特征;
S413:将所述融合输出输入信息交互模块中的第二卷积层和第三卷积层分别获得第一分支特征和第二分支特征;
S414:将所述第一分支特征和所述第二分支特征与所述融合特征进行跳跃连接,得到所述第一分支解码器的输出信息和所述第二分支解码器的输出信息的融合结果。
根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法,步骤S400中还包括:
对于所述双分支解码器网络设置选择性分支模块,所述选择性分支模块将所述第一分支解码器的输出信息和所述第二分支解码器的输出信息作为输入,通过选择性权重切换器自适应学习分配第一分支解码器和第二分支解码器的不同注意力。
根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法,所述选择性分支模块的预测结果表示为:
其中,为选择性分支模块的预测结果,/>为卷积操作,/>为选择性权重切换器的输出结果,/>为第一分支解码器的输出信息,/>为第二分支解码器的输出信息,/>为第一分支解码器的输出信息经过卷积操作后的输出结果,/>为第二分支解码器的输出信息经过卷积操作后的输出结果,/>为元素乘法,/>为连接操作,/>为使用多滤波器的卷积层对第一分支解码器的输出信息经过卷积操作后的输出结果和第二分支解码器的输出信息经过卷积操作后的输出结果进行卷积操作后的输出结果。
根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法,所述选择性分支模块还用于监督所述双分支解码器聚合网络处理待分割图像获得的分割结果。
根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法,步骤S500中还包括:
通过混合损失函数对所述双分支解码器聚合网络处理待分割图像获得的分割结果与真实值的差距进行评估,所述混合损失函数包括二值交叉熵损失和交并比损失。
根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法,所述混合损失函数表示为:
其中,为混合损失函数,/>为二值交叉熵损失,/>交并比损失,/>为所述分割结果中任一像素点的坐标表示,/>为标签作用于任一像素点的值,是分割结果即预测图判断所选像素点为伪装目标的概率,/>为分割结果图像对应的高度值,/>为分割结果图像对应的宽度值。
本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法,提出了一种双解码器注意力网络,这一新颖的卷积神经网络结构,使用了非局部的注意力机制以定位伪装物体的全局位置,然后使用分别接受全局和边缘信息的双分支的解码器结构以及信息交互模块来确定伪装物体轮廓、细化分割结果,最终在选择性分支聚合模块得到伪装物体分割结果,通过本发明提出的网络模型,可以提高分割水下伪装目标时的准确性以及识别速度,从而提高水下目标识别任务的自动化、智能化水平。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于双分支解码器网络的水下伪装物体图像分割方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下实施例用于说明本发明,但不能用来限制本发明的范围。
在本发明实施例的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明实施例中的具体含义。
在本发明实施例中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
下面结合图1描述本发明的提供的实施例。
本发明提供一种基于双分支解码器网络的水下伪装物体图像分割方法,包括:
S100:由现有数据集中获取伪装物体数据,组建伪装物体数据集和所述伪装物体数据集对应的标签集,通过深度学习框架训练所述伪装物体数据集和所述标签集;
在一些实施例中,相比于图像分割的其他领域,目前COD领域数据集的数量相对较少,CAMO数据集包含1000张训练图片与250张测试图片,共1250张,包括两类伪装物体,即自然伪装物体和人工伪装物体。COD10K数据集共10000张图片,其中伪装图像5066张,分为10个超类78个子类,其被预先划分了训练集和测试集,训练集由六千张图片组成,测试集由四千张图片组成,其中伪装图像2026张,且提供了多种高质量的标注,最终的训练集由COD10K的训练集和CAMO的训练集的混合组成。
在一些实施例中,基于PyTorch深度学习框架进行训练,超参数的设置如下:训练epochs数量为80次、每次输入图像数量batch-size为8、初始学习率为0.0001、使用poly方式进行训练、学习率衰减为0.9、权重衰减设置为0.0005、输入图像分辨率为352×352、优化器选择随机梯度下降、动量为0.9,且使用了随机翻转的数据增强方法。
S200:对深度学习框架引入边缘指导旁路,以获取所述深度学习框架的首层编码器输出结果为边缘指导信息;对深度学习框架引入全局指导旁路,以获取所述深度学习框架的末层编码器输出结果为全局指导信息;
在一些实施例中,本发明提出的双解码器注意力网络(Dual-Decoder AttentionNetwork, DDANet)其中各组建的结构在下文中详细展示,网络框架由编码器网络和解码器网络两部分组成,编码器部分使用在ImageNet上进行过预训练ResNet-50作为骨干网络,负责提取输入图像中的特征;编码器网络共分五层,每一层都接受上一层输出的特征并做进一步的特征提取,同时将其结果输出到同层的解码器,也就是特征聚合模块中;同时双解码器注意力网络将ResNet-50的第一层修改为了更小分辨率,使得第一层输出的特征的分辨率从原本的176×176,变为了88×88,以减少边缘指导信息旁路的计算量。
S300:对于所述深度学习框架的每层神经网络均设置第一分支解码器和第二分支解码器,所述第一分支解码器接受所述边缘指导信息并通过通道注意力机制增强特征,所述第二分支解码器接受所述全局指导信息并通过空间注意力机制增强特征,获得双分支解码器网络;
进一步的,随着编码器网络层数的加深,网络会不可避免的丢失掉较先浅层网络所蕴含的物体边缘细节信息,从而容易发生边缘模糊现象造成结果变差,为了对这部分信息进行补充,双解码器注意力网络设计了边缘指导旁路,如图所示,将第一层编码器的结果在解码器的各个阶段作为补充信息输入。
进一步的,同样,对于伪装物体的全局信息双解码器注意力网络也设计了全局指导旁路,将最后一层编码器的结果在解码器的各个阶段作为补充信息输入,通过这样的设计,有效弥补了全局和边缘信息的丢失问题。
其中,双分支解码器聚合网络中引入的通道注意力机制和空间注意力机制均为非局部方式的自注意力机制。
进一步的,双解码器注意力网络引入了图像分割任务中两种常用的注意力机制,即空间注意力与通道注意力,从而提高网络的特征表达能力与对伪装物体的识别能力;简单的说,卷积神经网络中的注意力机制即是对提取到的特征赋予不同的权重,从而选择出对于任务更重要的通道和空间区域。但与经典的注意力模块如SE模块、CBAM模块不同,双解码器注意力网络中的空间注意力与通道注意力模块都是通过非局部方式实现的;非局部方式使用的是自注意力机制,因此具有更强的获得通道和空间位置方面的长范围的依赖关系的能力;相比于传统CNN网络多层卷积堆叠的方式,其通过查询的方式从全局角度建立了图像中每个像素或者区域之间的关联图,从而有效提升了CNN网络的感受野,另外双解码器注意力网络中空间注意力与通道注意力模块的作用是对从图像提取的最深层特征从全局角度进行语义增强,从而对潜在的伪装物体进行定位。
S400:对于所述双分支解码器网络的每层神经网络均设置信息交互模块,通过所述信息交互模块融合所述第一分支解码器的输出信息和所述第二分支解码器的输出信息,获得双分支解码器聚合网络;
其中,步骤S400中所述信息交互模块融合所述第一分支解码器的输出信息和所述第二分支解码器的输出信息的步骤包括:
S411:所述信息交互模块接收所述第一分支解码器的输出信息和所述第二分支解码器的输出信息,并在通道维度上进行连接,获得融合输出;
S412:将所述融合输出输入信息交互模块中的第一卷积层进行特征提取,获得融合特征;
S413:将所述融合输出输入信息交互模块中的第二卷积层和第三卷积层分别获得第一分支特征和第二分支特征;
S414:将所述第一分支特征和所述第二分支特征与所述融合特征进行跳跃连接,得到所述第一分支解码器的输出信息和所述第二分支解码器的输出信息的融合结果。
进一步的,在解码器每层之间设计信息交互模块,将两个分支的信息进行融合,从而得到更好的检测效果;同时通过卷积减少通道,从而实现一定程度上减少计算量,来自接受边缘指导信息的解码器分支的信息和接受全局指导信息解码器分支的信息可以在设计的信息交互模块中进行充分融合,实现伪装物体与环境进行交叉比较的第二阶段。
进一步的,首先对来自两个分支的输入在通道维度上进行连接并输入到第一个的卷积层中进行特征提取。随后分别输入到两个不同的/>卷积层中从而产生针对两个分支的不同输出结果,最后用连接的方式与第一个卷积层的结果进行跳跃连接,即可得到两个交互之后的输出结果。
其中,步骤S400中还包括:
对于所述双分支解码器网络设置选择性分支模块,所述选择性分支模块将所述第一分支解码器的输出信息和所述第二分支解码器的输出信息作为输入,通过选择性权重切换器自适应学习分配第一分支解码器和第二分支解码器的不同注意力。
其中,所述选择性分支模块的预测结果表示为:
其中,为选择性分支模块的预测结果,/>为卷积操作,/>为选择性权重切换器的输出结果,/>为第一分支解码器的输出信息,/>为第二分支解码器的输出信息,/>为第一分支解码器的输出信息经过卷积操作后的输出结果,/>为第二分支解码器的输出信息经过卷积操作后的输出结果,/>为元素乘法,/>为连接操作,/>为使用多滤波器的卷积层对第一分支解码器的输出信息经过卷积操作后的输出结果和第二分支解码器的输出信息经过卷积操作后的输出结果进行卷积操作后的输出结果。
进一步的,因为双解码器注意力网络采用了双分支的设计,所以需要一种合适的方式将两个分支的结果进行融合得到最终结果,直接将两个分支中的特征图进行相加可能会导致冗余和不一致。于是设计了选择性分支聚合(Selective Branch Aggregation,SBA)模块,可以自适应地学习如何更好的在两个分支的结果中分配权重并融合。
进一步的,选择性分支聚合将两个分支的输出结果作为输入,但在对二者做连接操作之前,使用选择性权重切换器自适应地学习如何在两个不同的分支上权衡不同的注意力,也就是权重。
进一步的,首先分别对两个分支的输出进行卷积,随后使用选择性权重切换器,这个过程通过对上述卷积结果进行元素乘法来实现;并在之后使用包含64个滤波器的卷积层进行卷积操作,从而减少通道数量;64个滤波器中的参数可对如何在两个不同的分支上权衡不同的注意力进行自适应学习;最后将选择性权重切换器的结果与两个分支的原始结果相加并卷积。随后再进行连接和卷积操作,得到最终预测结果。
其中,所述选择性分支模块还用于监督所述双分支解码器聚合网络处理待分割图像获得的分割结果。
在一些实施例中,双解码器注意力网络还设置特征聚合模块(FeatureAggregation)承担解码器的角色,负责将同层的编码器提取到的特征与边缘指导或全局指导信息、上层特征聚合模块的结果、交互模块的输出相结合,综合利用所有信息来提高伪装物体检测效果,主要通过连接方式来完成,其中的上采样使用双线性插值实现。
进一步的,对于接受全局指导信息分支的特征聚合模块,也就是解码器来说,首先因为本层像素是上层特征的两倍,所以首先将交互模块信息与上层聚合模块结果进行连接并两倍上采样使之达到相同尺寸,称为邻接先验;同时对全局指导信息进行上采样操作使之达到相同尺寸,并与本层提取的特征和邻接先验连接,随后通过三层卷积层进行卷积操作得到最终结果。
进一步的,对于接受边缘指导信息分支的特征聚合模块,也就是解码器来说,首先因为本层像素是上层特征的两倍,所以首先将交互模块信息与上层聚合模块结果进行连接并两倍上采样使之达到相同尺寸,称为邻接先验,同时对边缘指导信息进行上采样操作使之达到相同尺寸,并与本层提取的特征和邻接先验连接,随后通过三层卷积层进行卷积操作得到最终结果。
S500:筛选现有数据集中的水下伪装物体数据,组建水下伪装物体数据集,通过所述双分支解码器聚合网络训练所述水下伪装物体数据集并处理待分割图像获得分割结果。
在一些实施例中,从CAMO-TE、CHAMELEON-TE和COD10K-TE三个数据集中人工挑选水下图像,组成了新的共455张图像的水下伪装目标数据集,称为Aqua-Test数据集,包括海星、海马、章鱼和许多其他水下伪装生物种类。
在一些实施例中,将水下伪装物体图像输入训练好的双解码器注意力网络中即可获得图像的分割结果,应用本发明方法和其他伪装图像分割方法或语义分割方法,分别对水下伪装目标数据集中图像进行分割实验,并从分割结果的准确性,细节信息的完整性和边缘边界的清晰性评价这些方法的各自性能。
其中,步骤S500中还包括:
通过混合损失函数对所述双分支解码器聚合网络处理待分割图像获得的分割结果与真实值的差距进行评估,所述混合损失函数包括二值交叉熵损失和交并比损失。
其中,所述混合损失函数表示为:
其中,为混合损失函数,/>为二值交叉熵损失,/>交并比损失,/>为所述分割结果中任一像素点的坐标表示,/>为标签作用于任一像素点的值,是分割结果即预测图判断所选像素点为伪装目标的概率,/>为分割结果图像对应的高度值,/>为分割结果图像对应的宽度值。
在一些实施例中,双解码器注意力网络的输出图像由选择性分支模块产生并接受监督,这里对输出结果使用包含两种损失的混合损失函数对结果与真实值的差距进行综合评估,包含的两种损失分别为二值交叉熵损失和交并比损失,来引导模型学习如何将伪装物体从背景中分割出来,这种混合损失的有效性也在一些显著性目标分割任务中得到了验证。
进一步的,二值交叉熵损失在二元分类任务中被广泛使用,而COD任务在像素级别上可同样被视为二元分类问题所以也同样适用,而交并比损失主要用于判断两个集合的相似程度,最近在目标检测和分割领域也被用做损失函数。对于损失函数的设计,我们考虑了微观和宏观两个层面的重要性,因此将二值交叉熵损失和交并比损失相加作为最终的损失函数,二者结合可以达到更好的损失评估效果。
本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法,提出的解码器网络采用双分支结构,一支解码器使用通道注意力模块增强最深层特征并接受边缘指导信息,另一支解码器使用空间注意力模块增强最深层特征并接受全局指导信息,除此之外在解码器每层之间提出信息交互模块,将两个分支的信息进行融合后输送到下一层解码器从而得到更好的信息融合效果,双解码器的设计在可以更有效的利用不同分支中的信息实现互补,同时能较公平的利用两个分支中的信息,避免过分依赖其中一支,即使其中一支特征提取效果欠佳,也不会对结果造成过多影响;经过双分支三层解码器之后,两个分支的结果会输入到选择性分支聚合模块中,其会自适应的学习如何在两个分支上权衡不同的注意力从而更好的对结果进行融合,最终产生双解码器注意力网络的预测图并接受真值图像的监督。
本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法,区域一致性较好,边缘清晰细节信息完整,相比之下,优于其他相关方法分割区域轮廓辨析能力,这一现象是由于本发明的非局部的注意力以及双分支的解码器等设计能够提高模型的伪装目标分割能力,本发明所提方法的有效性极强,通过实验结果表明,本发明方法较其他相关伪装物体图像分割模型能更有效地进行伪装物体分割任务。相较于其他现有方法,本发明所提方法使用了非局部的注意力机制以定位伪装物体的全局位置,然后使用分别接受全局和边缘信息的双分支的解码器结构以及信息交互模块来确定伪装物体轮廓、细化分割结果,最终在选择性分支聚合模块得到伪装物体分割结果,均有效提高了模型的水下伪装物体分割能力。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于双分支解码器网络的水下伪装物体图像分割方法,其特征在于,包括:
S100:由现有数据集中获取伪装物体数据,组建伪装物体数据集和所述伪装物体数据集对应的标签集,通过深度学习框架训练所述伪装物体数据集和所述标签集;
S200:对所述深度学习框架引入边缘指导旁路,以获取所述深度学习框架的首层编码器输出结果为边缘指导信息;对所述深度学习框架引入全局指导旁路,以获取所述深度学习框架的末层编码器输出结果为全局指导信息;
S300:对于所述深度学习框架的每层神经网络均设置第一分支解码器和第二分支解码器,所述第一分支解码器接受所述边缘指导信息并通过通道注意力机制增强特征,所述第二分支解码器接受所述全局指导信息并通过空间注意力机制增强特征,获得双分支解码器网络;
S400:对于所述双分支解码器网络的每层神经网络均设置信息交互模块,通过所述信息交互模块融合所述第一分支解码器的输出信息和所述第二分支解码器的输出信息,获得双分支解码器聚合网络;
S500:筛选现有数据集中的水下伪装物体数据,组建水下伪装物体数据集,通过所述双分支解码器聚合网络训练所述水下伪装物体数据集并处理待分割图像获得分割结果。
2.根据权利要求1所述的一种基于双分支解码器网络的水下伪装物体图像分割方法,其特征在于,所述双分支解码器聚合网络中引入的通道注意力机制和空间注意力机制均为非局部方式的自注意力机制。
3.根据权利要求1所述的一种基于双分支解码器网络的水下伪装物体图像分割方法,其特征在于,步骤S400中所述信息交互模块融合所述第一分支解码器的输出信息和所述第二分支解码器的输出信息的步骤包括:
S411:所述信息交互模块接收所述第一分支解码器的输出信息和所述第二分支解码器的输出信息,并在通道维度上进行连接,获得融合输出;
S412:将所述融合输出输入信息交互模块中的第一卷积层进行特征提取,获得融合特征;
S413:将所述融合输出输入信息交互模块中的第二卷积层和第三卷积层分别获得第一分支特征和第二分支特征;
S414:将所述第一分支特征和所述第二分支特征与所述融合特征进行跳跃连接,得到所述第一分支解码器的输出信息和所述第二分支解码器的输出信息的融合结果。
4.根据权利要求1所述的一种基于双分支解码器网络的水下伪装物体图像分割方法,其特征在于,步骤S400中还包括:
对于所述双分支解码器网络设置选择性分支模块,所述选择性分支模块将所述第一分支解码器的输出信息和所述第二分支解码器的输出信息作为输入,通过选择性权重切换器自适应学习分配第一分支解码器和第二分支解码器的不同注意力。
5.根据权利要求4所述的一种基于双分支解码器网络的水下伪装物体图像分割方法,其特征在于,所述选择性分支模块的预测结果表示为:
其中,为选择性分支模块的预测结果,/>为卷积操作,/>为选择性权重切换器的输出结果,/>为第一分支解码器的输出信息,/>为第二分支解码器的输出信息,/>为第一分支解码器的输出信息经过卷积操作后的输出结果,/>为第二分支解码器的输出信息经过卷积操作后的输出结果,/>为元素乘法,/>为连接操作,/>为使用多滤波器的卷积层对第一分支解码器的输出信息经过卷积操作后的输出结果和第二分支解码器的输出信息经过卷积操作后的输出结果进行卷积操作后的输出结果。
6.根据权利要求4所述的一种基于双分支解码器网络的水下伪装物体图像分割方法,其特征在于,所述选择性分支模块还用于监督所述双分支解码器聚合网络处理待分割图像获得的分割结果。
7.根据权利要求1所述的一种基于双分支解码器网络的水下伪装物体图像分割方法,其特征在于,步骤S500中还包括:
通过混合损失函数对所述双分支解码器聚合网络处理待分割图像获得的分割结果与真实值的差距进行评估,所述混合损失函数包括二值交叉熵损失和交并比损失。
8.根据权利要求7所述的一种基于双分支解码器网络的水下伪装物体图像分割方法,其特征在于,所述混合损失函数表示为:
其中,为混合损失函数,/>为二值交叉熵损失,/>交并比损失,/>为所述分割结果中任一像素点的坐标表示,/>为标签作用于任一像素点的值,是分割结果即预测图判断所选像素点为伪装目标的概率,/>为分割结果图像对应的高度值,/>为分割结果图像对应的宽度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311000476.0A CN116721112B (zh) | 2023-08-10 | 2023-08-10 | 基于双分支解码器网络的水下伪装物体图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311000476.0A CN116721112B (zh) | 2023-08-10 | 2023-08-10 | 基于双分支解码器网络的水下伪装物体图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116721112A true CN116721112A (zh) | 2023-09-08 |
CN116721112B CN116721112B (zh) | 2023-10-24 |
Family
ID=87866508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311000476.0A Active CN116721112B (zh) | 2023-08-10 | 2023-08-10 | 基于双分支解码器网络的水下伪装物体图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721112B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116895050A (zh) * | 2023-09-11 | 2023-10-17 | 四川高速公路建设开发集团有限公司 | 一种隧道火灾识别方法及装置 |
CN117252884A (zh) * | 2023-11-20 | 2023-12-19 | 华南农业大学 | 一种基于自注意力机制的茶芽叶目标分割方法 |
CN117315453A (zh) * | 2023-11-21 | 2023-12-29 | 南开大学 | 一种基于水下声纳图像的水下小目标检测方法 |
CN117593517A (zh) * | 2024-01-19 | 2024-02-23 | 南京信息工程大学 | 基于互补感知跨视图融合网络的伪装目标检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220230324A1 (en) * | 2021-01-21 | 2022-07-21 | Dalian University Of Technology | Camouflaged object segmentation method with distraction mining |
CN114821706A (zh) * | 2022-03-29 | 2022-07-29 | 中国人民解放军国防科技大学 | 一种基于区域感知的伪造图像检测与定位方法及系统 |
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN116128898A (zh) * | 2023-02-17 | 2023-05-16 | 重庆邮电大学 | 一种基于Transformer双分支模型的皮肤病变图像分割方法 |
CN116152650A (zh) * | 2022-12-06 | 2023-05-23 | 宁波大学 | 基于CNN和Transformer双向协同指导网络的海洋生物检测方法 |
CN116309215A (zh) * | 2023-02-24 | 2023-06-23 | 广东工业大学 | 一种基于双解码器的图像融合方法 |
CN116363361A (zh) * | 2023-03-13 | 2023-06-30 | 湖南师范大学 | 基于实时语义分割网络的自动驾驶方法 |
CN116503431A (zh) * | 2023-05-06 | 2023-07-28 | 重庆邮电大学 | 基于边界引导注意力的编解码器医学图像分割系统及方法 |
-
2023
- 2023-08-10 CN CN202311000476.0A patent/CN116721112B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220230324A1 (en) * | 2021-01-21 | 2022-07-21 | Dalian University Of Technology | Camouflaged object segmentation method with distraction mining |
CN114821706A (zh) * | 2022-03-29 | 2022-07-29 | 中国人民解放军国防科技大学 | 一种基于区域感知的伪造图像检测与定位方法及系统 |
CN116152650A (zh) * | 2022-12-06 | 2023-05-23 | 宁波大学 | 基于CNN和Transformer双向协同指导网络的海洋生物检测方法 |
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN116128898A (zh) * | 2023-02-17 | 2023-05-16 | 重庆邮电大学 | 一种基于Transformer双分支模型的皮肤病变图像分割方法 |
CN116309215A (zh) * | 2023-02-24 | 2023-06-23 | 广东工业大学 | 一种基于双解码器的图像融合方法 |
CN116363361A (zh) * | 2023-03-13 | 2023-06-30 | 湖南师范大学 | 基于实时语义分割网络的自动驾驶方法 |
CN116503431A (zh) * | 2023-05-06 | 2023-07-28 | 重庆邮电大学 | 基于边界引导注意力的编解码器医学图像分割系统及方法 |
Non-Patent Citations (1)
Title |
---|
JINCHAO ZHU: "ACFNet: Adaptively-Cooperative Fusion Network for RGB-D Salient Object Detection", 《ARXIV 》, pages 1 - 16 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116895050A (zh) * | 2023-09-11 | 2023-10-17 | 四川高速公路建设开发集团有限公司 | 一种隧道火灾识别方法及装置 |
CN116895050B (zh) * | 2023-09-11 | 2023-12-08 | 四川高速公路建设开发集团有限公司 | 一种隧道火灾识别方法及装置 |
CN117252884A (zh) * | 2023-11-20 | 2023-12-19 | 华南农业大学 | 一种基于自注意力机制的茶芽叶目标分割方法 |
CN117252884B (zh) * | 2023-11-20 | 2024-03-22 | 华南农业大学 | 一种基于自注意力机制的茶芽叶目标分割方法 |
CN117315453A (zh) * | 2023-11-21 | 2023-12-29 | 南开大学 | 一种基于水下声纳图像的水下小目标检测方法 |
CN117315453B (zh) * | 2023-11-21 | 2024-02-20 | 南开大学 | 一种基于水下声纳图像的水下小目标检测方法 |
CN117593517A (zh) * | 2024-01-19 | 2024-02-23 | 南京信息工程大学 | 基于互补感知跨视图融合网络的伪装目标检测方法 |
CN117593517B (zh) * | 2024-01-19 | 2024-04-16 | 南京信息工程大学 | 基于互补感知跨视图融合网络的伪装目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116721112B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116721112B (zh) | 基于双分支解码器网络的水下伪装物体图像分割方法 | |
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
Zhou et al. | Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN112767418B (zh) | 基于深度感知的镜子图像分割方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN113239782A (zh) | 一种融合多尺度gan和标签学习的行人重识别系统及方法 | |
CN111797841B (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN111968088A (zh) | 一种基于像素和区域分割决策融合的建筑物检测方法 | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
CN114663439A (zh) | 一种遥感影像海陆分割方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
CN110008900A (zh) | 一种由区域到目标的可见光遥感图像候选目标提取方法 | |
CN112215847A (zh) | 基于对抗学习多尺度特征的重叠染色体自动分割方法 | |
Fang et al. | UDNet: Uncertainty-aware deep network for salient object detection | |
Zhao et al. | CRAS-YOLO: A novel multi-category vessel detection and classification model based on YOLOv5s algorithm | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
Al-Amaren et al. | RHN: A residual holistic neural network for edge detection | |
CN112037225A (zh) | 一种基于卷积神经的海洋船舶图像分割方法 | |
Cheng et al. | A survey on image semantic segmentation using deep learning techniques | |
Zhang et al. | Attention-guided feature extraction and multiscale feature fusion 3d resnet for automated pulmonary nodule detection | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 | |
Xi et al. | A multilevel-guided curriculum domain adaptation approach to semantic segmentation for high-resolution remote sensing images | |
Wang et al. | Semantic segmentation method of underwater images based on encoder-decoder architecture | |
Li et al. | A new algorithm of vehicle license plate location based on convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |