CN116701681A - 一种用于语义分割的多查询网络 - Google Patents
一种用于语义分割的多查询网络 Download PDFInfo
- Publication number
- CN116701681A CN116701681A CN202310841079.XA CN202310841079A CN116701681A CN 116701681 A CN116701681 A CN 116701681A CN 202310841079 A CN202310841079 A CN 202310841079A CN 116701681 A CN116701681 A CN 116701681A
- Authority
- CN
- China
- Prior art keywords
- layer
- network
- query
- feature
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 18
- 238000000034 method Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种用于语义分割的多查询网络,其基础架构包括骨干网和解码器组成,包括下列步骤:对于给定的图像,利用骨干网提取多层深度特征,骨干网由多层Transformer块堆叠形成,在每一层均能得到输入图像的特征表示,选择不同层次的深度特征作为骨干网输出的特征图,随后将这些特征同时输入到解码器中进行掩码的生成和分类;根据骨干网的网络参数L,以及预先设定的阶段数S,随机初始化为由L×S个ATM模块组成的解码器;每个ATM模块依次堆叠多个自注意力层、跨注意力层和前馈神经网络层,用于获取性能更好的特征嵌入,并将最后一个跨注意力层得到的掩码M作为输出。
Description
技术领域
本发明涉及自动驾驶、缺陷检测等计算机视觉领域中语义分割方法,特别是涉及基于深度学习进行语义分割的方法。
背景技术
语义分割是使计算机能够将图像中归属于同一物体类别的区域分割出来,并且给定准确的物体边界和物体类别的技术。直观理解,它是一项需要稠密标记的视觉场景理解任务,需要将图像分割为均一区域,这些均一区域具有完整且明确的语义。语义分割在许多计算机视觉领域具有广泛的应用,如自动驾驶、图像编辑、图像检索、增强现实、缺陷检测等。
近年来,基于深度学习的语义分割技术取得了巨大的进展。这类语义分割技术的一般流程如下:第一步,选定用于提取图像深度特征的骨干网络(Backbone),这类骨干网络通常由多层卷积神经网络或多层Transformer块堆叠实现。根据骨干网结构的不同,所提取的深度特征有多尺度(Multi-Scale)和多层次(Multi-Level)两种形式,这两种形式最直观的区别就是多尺度的特征存在金字塔结构的尺寸,而多层次的特征的尺寸保持相同。第二步(可选),特征被送入编码器(Encoder)结构以此实现特征彼此间的信息交换或强化,现有的技术也开发出了多种不同类型的编码器,如特征金字塔网络(Feature PyramidNetworks,FPN)、多层特征聚合(Multi-Level Feature Aggregation,MLA)等。通常将这一步操作得到的特征称为增强后的特征。第三步,(增强后的)特征被输入解码器(Decoder)中获取输入图像中的语义信息,通常分别得到输入图像对应的掩码和分类信息,将掩码和分类信息进行特定的后处理操作后,点乘得到最终的语义分割结果。经以上三步,可完成输入图像的语义分割。
回顾技术发展历史,首先是基于全卷积神经网络(FCN)的分割方法占据主流,Long等人[1]利用跨连接来更好的结合用于语义分割的浅层、深层特征,Chen等人[2]提出的DeepLab采用并行的多分支结构来提取多尺度特征,Fu等人[3]提出的SDN通过堆叠多层编码器-解码器结构来整合深层上下文信息。
随着Transformer结构在自然语言处理上取得的巨大成功,基于视觉Transformer的方法不断被提出,并超越FCN结构取得最佳的性能表现。基于Transformer的语义分割方法可大致分为两类:一种是改进用于特征提取的骨干网,如Xie等人[4]提出的SegFormer中为生成多尺度特征而引入的层次化的Transformer编码器。另一种则是改进用于语义分割的解码器。如Zheng等人[5]提出的SETR中首次采用专门设计的解码器对VisionTransformer(ViT)提取的特征进行上采样后完成逐像素的分割;Strudel等人[6]提出的Segmenter在编码器中使用一个类别嵌入的集合结合编码器特征来预测不同语义类别的掩码;Cheng等人提出的MaskFormer[7]与Mask2Former[8]则将语义分割任务视作掩码分类问题,采用解码器的特征嵌入与编码器得到的特征图做点积后生成掩码;与之不同的是,最近的SegViT[9]引入了新的注意力到掩码(Attention-to-Mask,ATM)模块直接将组成解码器的Transformer块中的相似度图作为掩码输出。
现有的语义分割技术仍然未能充分利用骨干网提取得到的不同层次(增强后的)特征中各类信息,主要的原因是主流的基于Transformer的技术,在解码器模块采用单个查询(Query)学习不同层次的特征,虽然不同层次特征存在许多共性,能够强化查询对某些关键特征的识别能力,但这种设计的代价就是削弱了查询对每个层次特征中包含的专属信息的识别能力。
参考文献:
[1]Long J,Shelhamer E,Darrell T.Fully convolutional networks forsemantic segmentation[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2015:3431-3440.
[2]Chen L C,Papandreou G,Kokkinos I,et al.Deeplab:Semantic imagesegmentation with deep convolutional nets,atrous convolution,and fullyconnected crfs[J].IEEE transactions on pattern analysis and machineintelligence,2017,40(4):834-848.
[3]Fu J,Liu J,Wang Y,et al.Stacked deconvolutional network forsemantic segmentation[J].IEEE Transactions on Image Processing,2019.
[4]Xie E,Wang W,Yu Z,et al.SegFormer:Simple and efficient design forsemantic segmentation with transformers[J].Advances in Neural InformationProcessing Systems,2021,34:12077-12090.
[5]Zheng S,Lu J,Zhao H,et al.Rethinking semantic segmentation from asequence-to-sequence perspective with transformers[C]//Proceedings of theIEEE/CVF conference on computer vision andpattern recognition.2021:6881-6890.
[6]Strudel R,Garcia R,Laptev I,et al.Segmenter:Transformer forsemantic segmentation[C]//Proceedings of the IEEE/CVF internationalconference on computer vision.2021:7262-7272.
[7]Cheng B,Schwing A,Kirillov A.Per-pixel classification is not allyou need for semantic segmentation[J].Advances in Neural InformationProcessing Systems,2021,34:17864-17875.
[8]Cheng B,Misra I,Schwing A G,et al.Masked-attention masktransformer for universal image segmentation[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2022:1290-1299.
[9]Zhang B,Tian Z,Tang Q,et al.Segvit:Semantic segmentation withplain vision transformers[J].Advances in Neural Information ProcessingSystems,2022,35:4971-4982.
发明内容
本发明旨在解决上述技术中未能充分利用骨干网提取得到的不同层次特征中各类信息的问题。为实现语义分割功能,本发明提出了一种用于语义分割的多查询网络。本发明涉及了带有多查询设计的解码器模块,可将原始骨干网提取到的多层次特征输入其中。对于每层特征,在不同阶段分别提取特征嵌入和掩码信息。随后,在同一阶段,将不同层次的特征嵌入自适应融合后用于分类,并将不同层次的掩码信息求和后输出。本发明是通过以下技术方案来实现的:
一种用于语义分割的多查询网络,其基础架构包括骨干网和解码器组成,包括下列步骤:
对于给定的图像,利用骨干网提取多层深度特征,骨干网由n层Transformer块堆叠形成,在每一层均能得到输入图像的特征表示,选择不同层次的深度特征作为骨干网输出的特征图,随后将不同层次的特征图同时输入到解码器中进行掩码的生成和分类;
设骨干网的特征图的层次数为L,预先设定阶段数S,初始化由L×S个ATM模块组成的解码器;每个ATM模块依次堆叠多个自注意力层、跨注意力层和前馈神经网络层,用于获取性能更好的特征嵌入,并将最后一个跨注意力层得到的掩码作为输出;在解码器中,采用L个集合的查询,记作Q1,Q2,...,Ql,…,QL,在每个查询Ql所对应的Fl层中通过ATM模块逐阶段的提取特征嵌入εs和生成掩码Ms,其中1≤s≤S;在阶段s中,将多个特征嵌入自适应融合后输入全连接层得到分类结果,将多个掩码图/>相加求和后用作输出的掩码。
进一步地,ATM模块的设计如下:ATM模块由自注意力层、跨注意力层和前馈神经网络层组成,设一个ATM的输入有查询Q和特征F,ATM中进行的具体操作如下:查询Q先经过自注意力层,实现权重的动态分配,仍记作Q;特征F经过第一线性层进行线性变换后记作K,也称为键;特征F经过第二线性层进行线性变换后记作V,也称为值;在跨注意力层,同时输入查询、键和值,通过Q与K即可得到相似度图S(Q,K),表示如下:
其中,dk为K的特征维数,被用于相似度图的标准化;随后采用Sigmoid操作即可得到掩码M;将相似度图S(Q,K)与V做矩阵运算后,再经过前馈神经网络层得到更新后的查询,被称为特征嵌入。
进一步地,所述自适应融合的过程如下:首先对每个特征嵌入进行局部最大池化LMP操作来降低特征嵌入的查询个数;将池化后的特征嵌入沿着查询维拼接在一起并通过一个全连接层;经过SoftMax层将权重进行归一化,得到权重向量W;利用得到的权重W对特征嵌入进行加权求和。
1.根据权利要求1所述的多查询网络,其特征在于,选取任意ViT系列的骨干网。
本发明的有益效果是:(a)多查询网络的设计范式,实现了对原始的骨干网提取得到的不同层次特征图中各类信息的充分利用。(b)在广泛使用的ADE20K数据集上,采用ViT-Base作为骨干网,实现了51.2%mIoU的分割性能。
附图说明
图1为本发明流程图。
图2为本发明架构图。
图3为本发明自适应融合模块。
具体实施方式
本发明是通过以下技术方案来实现的,流程图如图1所示,
图1给出了多查询网络(Multi-QueryNetwork,MQN)的基础架构,分别由骨干网、解码器组成。对于给定的图像I∈RH×W×3(图像的宽和高分别为H和W,通道数为3,标准的RGB图像),首先利用骨干网提取多层深度特征。如选取ViT-Base作为骨干网,其由12层Transformer块堆叠形成,在每一层均能得到输入图像的特征表示,选择L≤12个不同层次的深度特征作为骨干网输出的特征图,记作F1,F2,…,FL,这些特征图有相同的形状HW/P2×C,其中P是分片的大小、C是特征图的通道数(L、P、C均是预先设定的网络参数)。随后将这些特征同时输入到解码器中进行掩码的生成和分类。本发明可以选取任意ViT系列的骨干网,如ViT-Base、ViT-Large等。
根据骨干网的网络参数L,以及预先设定的阶段数S,随机初始化为由L×S个ATM(Attentionto Mask)模块组成的解码器。在解码器中,采用L个集合的查询,记作Q1,Q2,…,QL,在对应的层次(即Ql对应Fl)中通过ATM逐阶段的提取特征嵌入(以εs表示)和生成掩码(以Ms表示),其中1≤s≤S。在网络训练开始时,所有的查询被随机初始化。在第l,(1≤l≤L)层中,对应输入特征图Fl,由于采用多阶段的设计,因此经过不同阶段的ATM模块后,生成多个特征嵌入和掩码图/>其中下标l对应于特征层次的索引,上标则表示不同阶段的索引。在阶段s中,将多个特征嵌入/>自适应融合后输入全连接层得到分类结果,将多个掩码图/>相加求和后用作输出的掩码。
其中,ATM模块的设计如下:ATM模块由自注意力层、跨注意力层和前馈神经网络层组成,各层的设计与经典的Transformer块一致。对应图2中的表示,ATM的输入有查询Q和特征F(为了表达的简便性,此处忽略下标)。ATM中进行的具体操作如下:查询Q先经过自注意力层,实现权重的动态分配,仍记作Q;特征F经过线性层1进行线性变换后记作K,也称为键;特征F经过线性层2进行线性变换后记作V,也称为值。在跨注意力层,需同时输入查询、键和值,通过Q与K即可得到相似度图S(Q,K),表示如下:
其中,dk为K的特征维数,被用于相似度图的标准化。随后采用Sigmoid操作即可得到掩码M。
M=Sigmoid(S(Q,K))
将相似度图S(Q,K)与V做矩阵运算后,再经过前馈神经网络层得到更新后的查询(或称为特征嵌入),记作ε。具体实现上,每个ATM模块可选择依次堆叠多个(自注意力层、跨注意力层和前馈神经网络层)来获取性能更好的特征嵌入ε,并将最后一个跨注意力层得到的掩码M作为输出。
其中,自适应融合表示如下:
图2给出了自适应融合的详细过程,具体操作如下:首先对每个特征嵌入ε∈Rq×d(其中q为查询个数、d为查询的特征维度,均为预先设定的网络参数)进行局部最大池化(Local Max Pooling,LMP)操作来降低特征嵌入的查询个数
ε∈Rq×d→ε′∈Rq′×d,其中q′<<q
然后将池化后的特征嵌入沿着查询维拼接在一起并通过一个全连接层
εC=Concat(ε1′,…,ε′L)∈RLq′×d
W′=FC(εC)∈RL×d,W=SoftMax(W′)∈RL×d
再经过SoftMax层将权重进行归一化,得到权重向量W。最后利用得到的权重W对特征嵌入进行加权求和。
下面结合实施例对本发明的应用场景进行说明。本发明具体步骤为:
步骤一:准备训练图像数据集。具体有两种方式,一种是下载互联网上的用于学术研究的公开数据集,如ADE20K、COCO-Stuff-10K等;另一种是自己拍摄图像并手动标注语义信息的自建数据集。本发明采用公开数据集训练并测试语义分割效果,以ADE20K为例进行说明。ADE20K数据集是一个大尺度场景分割,语义分割领域进行基准测试、结果对比的常用数据集,该数据集包含有150个语义类别,并含有20000张训练图像、2000张测试图像。在互联网上下载ADE20K数据集后,解压到指定的文件夹下,完成数据集的准备工作。
步骤二:确定用于特征提取的骨干网络(如Vision Transformer,ViT),设置好MQN的各类超参数,具体步骤如下:
1)语义分割领域常用的骨干网络有以卷积神经网络为代表的ResNet系列、以Transformer为代表的Vision Transformer(ViT)系列。本发明采用ViT-Base为例进行说明,实际应用时可选择性能更好、参数量更大的ViT-Large等其它骨干网。为了加快模型在训练时的收敛速度、提升骨干网络的特征提取能力,采用在ImageNet-21K数据集上预训练、ImageNet-1K上微调的骨干网权重对网络参数进行初始化(该权重可在互联网上下载)。
2)针对于ViT-Base网络的设计可知,其由12层Transformer块堆叠形成,选取第6、8、12层(即L=3)的中间层特征输入解码器,记作F1,F2,F3。
3)由上一步可知,解码器的层数为3层,因此需要的查询可记作Q1,Q2,Q3,并将其进行随机初始化。再设定解码器的阶段数S=3,将自适应融合时局部最大池化的尺寸设置为10。完成解码器的超参数设置后,再随机初始化解码器的权重参数。
步骤三:做好各项训练准备,开始训练网络。
1)训练数据集的加载。针对训练集采用多种数据增强策略,包括随机水平翻转、缩放因子在0.5到2.0之间的随机调整大小,以及将图像随机裁剪至512×512。图像的裁剪尺寸往往根据数据集的特性而变化,更大的裁剪尺寸带来更好性能的同时,会几何倍数的增加网络的计算代价。
2)训练参数的设定。本发明采用AdamW作为网络的优化器,使用多项式形式的学习率衰减算法。训练时的图像批量大小设置为16,共进行16万次的训练迭代。初始学习率设置为1×10-5,权重衰减设置为0.01。训练时采用的损失函数表达式为
Lloss=Lcls+Lmask=Lcls+λfocalLIoU+λdiceLdice
也即总的损失由分类损失Lcls与掩码损失Lmask两部分组成,其中掩码损失又由IoU损失LIoU和dice损失Ldice组成,权重系数的大小为λfocal=20和λdice=1。训练时每4000次迭代进行一次在测试集上效果的验证,得到衡量模型效果的核心指标mIoU的定量表示。
3)开始训练。本发明采用配置多张GPU的计算机对网络进行端到端的训练,在训练过程中解码器的各个阶段的分类信息和掩码被用来计算损失、以及使用反向传播算法持续优化。以阶段s,(1≤s≤3)为例进行说明,在该阶段中会得到L=3个特征嵌入和掩码图/>将所有特征嵌入输入自适应融合模块后得到最终的特征嵌入为εs、将所有掩码图直接相加后得到最终的掩码图为Ms。特征嵌入εs经过一层全连接层后得到分类结果,参与分类损失Lcls的计算。掩码图则直接参与掩码损失Lmask的计算。在最后一个阶段时,将分类结果的最后一维经softmax缩放后,再去掉代表背景类的数据、将掩码图经sigmoid缩放后,再将两者沿着代表查询数的维度执行爱因斯坦求和算法得到语义分割的结果。
4)保存网络参数。在训练过程中,在每次在测试集上验证效果前将网络的全部参数保存到指定的文件夹中,权重文件的扩展名为.pth。
步骤四:测试多查询网络,获取在指定数据集上的分割结果,具体步骤如下:
1)加载ADE20K数据集包含的150类测试集(2000张)图像,应用于测试集的数据增强手段主要是随机水平翻转。
2)初始化模型,并加载训练阶段保存的参数(.pth文件,可选择最后一次保存的权重文件或测试结果mIoU最高的权重文件),将模型调整至测试模式。将图像输入模型,
获取针对该图像的语义分割结果。
对本发明方法仿真实验如下:
在ADE20K数据集上,当选取ViT-Base作为骨干网络时,采用上述步骤对网络进行训练,可取得51.2%的mIoU成绩。
Claims (4)
1.一种用于语义分割的多查询网络,其基础架构包括骨干网和解码器组成,包括下列步骤:
对于给定的图像,利用骨干网提取多层深度特征,骨干网由n层Transformer块堆叠形成,在每一层均能得到输入图像的特征表示,选择L≤n个不同层次的深度特征作为骨干网输出的特征图,记作F1,F2,...,Fl,...,FL,随后将这些特征同时输入到解码器中进行掩码的生成和分类;
根据骨干网的网络参数L,以及预先设定的阶段数S,随初始化为由L×S个ATM模块组成的解码器;每个ATM模块依次堆叠多个自注意力层、跨注意力层和前馈神经网络层,用于获取性能更好的特征嵌入,并将最后一个跨注意力层得到的掩码M作为输出;在解码器中,采用L个集合的查询,记作Q1,Q2,...,Ql,...,QL,在每个查询Ql所对应的Fl层中通过ATM模块逐阶段的提取特征嵌入εs和生成掩码Ms,其中1≤s≤S;在阶段s中,将多个特征嵌入自适应融合后输入全连接层得到分类结果,将多个掩码图/>相加求和后用作输出的掩码。
2.根据权利要求1所述的多查询网络,其特征在于,ATM模块的设计如下:ATM模块由自注意力层、跨注意力层和前馈神经网络层组成,设一个ATM的输入有查询Q和特征F,ATM中进行的具体操作如下:查询Q先经过自注意力层,实现权重的动态分配,仍记作Q;特征F经过第一线性层进行线性变换后记作K,也称为键;特征F经过第二线性层进行线性变换后记作V,也称为值;在跨注意力层,同时输入查询、键和值,通过Q与K即可得到相似度图S(Q,K),表示如下:
其中,dk为K的特征维数,被用于相似度图的标准化;随后采用Sigmoid操作即可得到掩码M;将相似度图S(Q,K)与V做矩阵运算后,再经过前馈神经网络层得到更新后的查询,被称为特征嵌入。
3.根据权利要求1所述的多查询网络,其特征在于,所述自适应融合的过程如下:首先对每个特征嵌入进行局部最大池化LMP操作来降低特征嵌入的查询个数;将池化后的特征嵌入沿着查询维拼接在一起并通过一个全连接层;经过SoftMax层将权重进行归一化,得到权重向量W;利用得到的权重W对特征嵌入进行加权求和。
4.根据权利要求1所述的多查询网络,其特征在于,选取任意ViT系列的骨干网。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310841079.XA CN116701681B (zh) | 2023-07-10 | 2023-07-10 | 一种用于语义分割的多查询网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310841079.XA CN116701681B (zh) | 2023-07-10 | 2023-07-10 | 一种用于语义分割的多查询网络 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116701681A true CN116701681A (zh) | 2023-09-05 |
CN116701681B CN116701681B (zh) | 2024-04-12 |
Family
ID=87845233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310841079.XA Active CN116701681B (zh) | 2023-07-10 | 2023-07-10 | 一种用于语义分割的多查询网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701681B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2735148C1 (ru) * | 2019-12-09 | 2020-10-28 | Самсунг Электроникс Ко., Лтд. | Обучение gan (генеративно-состязательных сетей) созданию попиксельной аннотации |
CN112083422A (zh) * | 2020-08-26 | 2020-12-15 | 长沙理工大学 | 基于多级深度学习网络的单航过InSAR系统端对端分类方法 |
KR20210034462A (ko) * | 2019-09-20 | 2021-03-30 | 삼성전자주식회사 | 픽셀 별 주석을 생성하는 생성적 적대 신경망(gan)을 학습시키는 방법 |
CN115512360A (zh) * | 2022-09-14 | 2022-12-23 | 阿里巴巴(中国)有限公司 | 文本识别方法、装置、设备及存储介质 |
CN115861616A (zh) * | 2022-12-09 | 2023-03-28 | 复旦大学 | 面向医学图像序列的语义分割系统 |
CN116310305A (zh) * | 2022-11-29 | 2023-06-23 | 湘潭大学 | 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 |
-
2023
- 2023-07-10 CN CN202310841079.XA patent/CN116701681B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210034462A (ko) * | 2019-09-20 | 2021-03-30 | 삼성전자주식회사 | 픽셀 별 주석을 생성하는 생성적 적대 신경망(gan)을 학습시키는 방법 |
RU2735148C1 (ru) * | 2019-12-09 | 2020-10-28 | Самсунг Электроникс Ко., Лтд. | Обучение gan (генеративно-состязательных сетей) созданию попиксельной аннотации |
CN112083422A (zh) * | 2020-08-26 | 2020-12-15 | 长沙理工大学 | 基于多级深度学习网络的单航过InSAR系统端对端分类方法 |
CN115512360A (zh) * | 2022-09-14 | 2022-12-23 | 阿里巴巴(中国)有限公司 | 文本识别方法、装置、设备及存储介质 |
CN116310305A (zh) * | 2022-11-29 | 2023-06-23 | 湘潭大学 | 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 |
CN115861616A (zh) * | 2022-12-09 | 2023-03-28 | 复旦大学 | 面向医学图像序列的语义分割系统 |
Non-Patent Citations (2)
Title |
---|
YANG, YUAN等: "MMViT-Seg: A lightweight transformer and CNN fusion network for COVID-19 segmentation", COMPUTER METHODS AND PROGRAMS IN BIOMEDICINE, vol. 230, 31 March 2023 (2023-03-31) * |
张绪义等: "基于轮廓点掩模细化的单阶段实例分割网络", 光学学报, vol. 40, no. 21, 10 November 2020 (2020-11-10), pages 113 - 121 * |
Also Published As
Publication number | Publication date |
---|---|
CN116701681B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764317B (zh) | 一种基于多路特征加权的残差卷积神经网络图像分类方法 | |
CN113409191B (zh) | 一种基于注意力反馈机制的轻量级图像超分方法及系统 | |
CN109903236B (zh) | 基于vae-gan与相似块搜索的人脸图像修复方法及装置 | |
CN109543502A (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN112365511B (zh) | 基于重叠区域检索与对齐的点云分割方法 | |
CN110895814A (zh) | 一种基于上下文编码网络的航空发动机孔探图像损伤智能分割方法 | |
CN111798469A (zh) | 基于深度卷积神经网络的数字图像小数据集语义分割方法 | |
CN116071352A (zh) | 一种电力安全工器具表面缺陷图像的生成方法 | |
CN111694974A (zh) | 一种融合注意力机制的深度哈希车辆图像检索方法 | |
CN116503676A (zh) | 一种基于知识蒸馏小样本增量学习的图片分类方法及系统 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN116580184A (zh) | 一种基于YOLOv7的轻量化模型 | |
CN113889234A (zh) | 基于通道混合的编解码网络的医学图像分割方法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN116701681B (zh) | 一种用于语义分割的多查询网络 | |
CN110728683B (zh) | 一种基于密集连接的图像语义分割方法 | |
CN110889811A (zh) | 一种照片修复系统构建方法、照片修复方法及系统 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 | |
CN112862655B (zh) | 一种基于通道空间注意力机制的jpeg图像隐写分析方法 | |
CN114677535A (zh) | 域适应图像分类网络的训练方法、图像分类方法及装置 | |
CN114529450A (zh) | 基于改进深度迭代协作网络的人脸图像超分辨方法 | |
CN113436198A (zh) | 一种协同图像超分辨率重建的遥感图像语义分割方法 | |
CN111401155A (zh) | 基于隐式欧拉跳跃连接的残差神经网络的图像识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |