CN118097158A - 基于编解码器的服装语义分割方法 - Google Patents
基于编解码器的服装语义分割方法 Download PDFInfo
- Publication number
- CN118097158A CN118097158A CN202410528266.7A CN202410528266A CN118097158A CN 118097158 A CN118097158 A CN 118097158A CN 202410528266 A CN202410528266 A CN 202410528266A CN 118097158 A CN118097158 A CN 118097158A
- Authority
- CN
- China
- Prior art keywords
- module
- interactive
- attention
- clothing
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000002452 interceptive effect Effects 0.000 claims abstract description 103
- 230000003993 interaction Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims description 42
- 239000013598 vector Substances 0.000 claims description 33
- 238000005070 sampling Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 9
- LTUFGCFAPCJOFQ-UHFFFAOYSA-N 2h-pyran-3-carboxamide Chemical compound NC(=O)C1=CC=COC1 LTUFGCFAPCJOFQ-UHFFFAOYSA-N 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008485 antagonism Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 235000012434 pretzels Nutrition 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于编解码器的服装语义分割方法,所述方法包括以下步骤:S1:设计适用于解析噪声服装图像的编码解码服装图像语义分割模型;编码解码服装图像语义分割模型包括交互编码模块、交互解码模块、交互瓶颈层模块和交叉注意力模块;S2:训练设计好的编码解码服装图像语义分割模型;S3:使用训练好的编码解码服装图像语义分割模型来解析噪声服装图像,生成像素级的预测图像。本发明通过编码解码算法解析服装图片中的服装信息,首先通过交互编码模块、交互解码模块和交互瓶颈层模块来进行全局交互,再通过交叉注意力模块来进行局部交互,提高对图像中服装信息分割的准确度。
Description
技术领域
本发明涉及服装图像分割领域,尤其涉及基于编解码器的服装语义分割方法。
背景技术
在服装行业中,服装图像语义分割是一项至关重要的技术。例如,在虚拟试衣间、智能购物助手等应用场景中,需要对服装图像进行实时的语义分割,以准确地识别服装的不同部分,为用户提供丰富的交互和信息。
噪声图像中存在各种类型的噪声,如高斯噪声、椒盐噪声等,这些噪声会干扰图像的视觉信息,降低语义分割的精度。特别是对于细节部分的服装,噪声可能会导致分割错误或模糊不清的边界。噪声图像的复杂度较高,传统的语义分割模型可能无法有效处理。因为噪声会引入额外的不确定性和变化,导致模型难以准确地捕捉服装图像的特征,从而增加了计算复杂度。对于噪声图像,需要进行更复杂的预处理步骤以消除或减弱噪声的影响。然而,这种预处理往往需要额外的计算资源和时间,并且可能会引入新的误差或失真。噪声图像的语义分割任务往往需要更长的处理时间,因为模型需要花费更多的时间来应对图像中的噪声和不确定性。这会影响实时性能,特别是在需要在短时间内完成分割任务的场景下,如虚拟试衣间或实时监控系统。
传统去除噪声语义分割方法主要解决了噪声图像中存在的干扰和噪声对语义分割任务的影响,其核心目标是提高图像分割的精度和准确性。具体来说,传统去除噪声语义分割方法通常采用图像去除噪声技术,如滤波器、小波变换、非局部均值去除噪声(NLM)等,以消除或减弱图像中的噪声,并提取出干净的图像特征用于后续的语义分割任务。这些方法在一定程度上改善了分割结果,增强了模型对图像的理解能力,提高了分割的精度和准确性。但某些编码解码方法可能会导致图像信息的丢失或模糊,特别是在处理复杂噪声时,会影响到图像的细节和边缘信息,从而降低了语义分割的准确性。
公开号为CN112233038B的中国专利公开了“基于多尺度融合及边缘增强的真实图像去噪方法”,在图像输入阶段,为提高模型的泛化能力,设计了数据增强,把输入噪声图的内容随机选取部分像素替换为对应的无噪声图;利用三个不同感受野大小的卷积核,对输入噪声图像进行多层次的平滑处理,得到三个不同尺度的初步平滑结果;利用通道注意力机制对多尺度的编码解码结果进行自适应表达,进而融合;通过拉普拉斯算子提取边缘,引入原始噪声图像的边缘及纹理信息,对融合后的平滑图像做一个细节增强,提升视觉效果;但是对于服装图像分割而言,无法适合分割场景,且无法提高分割的准确性。
发明内容
针对现有技术的以上缺陷或者改进需求,本发明提供了基于编解码器的服装语义分割方法,其目的在于通过编码解码算法解析的服装图片中的服装信息,提高对图像中服装信息分割的准确度。
为了实现上述目的,本发明采用了如下技术方案:
本发明第一方面提供了基于编解码器的服装语义分割方法,所述方法包括以下步骤:
S1:设计适用于解析噪声服装图像的编码解码服装图像语义分割模型;所述编码解码服装图像语义分割模型包括交互编码模块、交互解码模块、交互瓶颈层模块和交叉注意力模块,具体步骤包括:
S11:将图像送入交互编码模块来提取和表示图像中的特征信息;
S12:将交互编码模块提取的特征信息送入交互瓶颈层模块并输出特征信息;
S13:将交互瓶颈层模块输出的特征信息送入交互解码模块并输出特征信息;
S14:将交互编码模块提取的特征信息和交互瓶颈层模块输出的特征信息送到交叉注意力模块,将交叉注意力模块输出结果送入交互解码模块;
S15:交互解码模块输出特征信息,得出最终预测结果;
S2:训练设计好的编码解码服装图像语义分割模型,得到训练好的编码解码服装语义分割模型;
S3:使用训练好的编码解码服装图像语义分割模型来解析噪声服装图像,生成像素级的预测图像。
作为本申请的一实施例,所述步骤S11中交互编码模块包括3个金字塔多层感知器单元和3个残差卷积注意力块,具体步骤包括:
S111:将图像输入到金字塔多层感知器单元,将输入的图像进行上采样2倍和下采样2倍,将三个分支都经过多层感知器头,再将三个分支输出结果进行特征融合得到特征融合后的特征图;
S112:然后将特征融合后的特征图送入残差卷积注意力块,先经过一个卷积层,再经过激活函数,再经过一个卷积层,再经过通道注意力,将特征融合后的特征图和经过通道注意力的特征图进行残差连接;
S113:将金字塔多层感知器单元和残差卷积注意力块再重复两次并输出结果。
作为本申请的一实施例,所述步骤S12中交互瓶颈层模块包括1个金字塔多层感知器单元和1个残差卷积注意力块,具体步骤包括:
S121:将所述交互编码器模块输出的特征信息输入到金字塔多层感知器单元,将输入的特征信息进行上采样2倍和下采样2倍,将三个分支都经过多层感知器头,再将三个分支输出结果进行特征融合得到特征融合后的特征图;
S122:然后将所述特征融合后的特征图送入残差卷积注意力块,先经过一个卷积层,再经过激活函数,再经过一个卷积层,再经过通道注意力,将特征融合后的特征图和经过通道注意力的特征图进行残差连接并输出结果。
作为本申请的一实施例,所述步骤S13中交互解码模块包括3个金字塔多层感知器单元和3个残差卷积注意力块,具体步骤包括:
S131:将所述交互瓶颈层模块输出的特征信息输入到金字塔多层感知器单元,将输入的图像进行上采样2倍和下采样2倍,将三个分支都经过多层感知器头,再将三个分支输出结果进行特征融合得到特征融合后的特征图;
S132:然后将所述特征融合后的特征图送入残差卷积注意力块,先经过一个卷积层,再经过激活函数,再经过一个卷积层,再经过通道注意力,将特征融合后的特征图和经过通道注意力的特征图进行残差连接;
S133:将金字塔多层感知器单元和残差卷积注意力块再重复两次并输出结果。
作为本申请的一实施例,所述步骤S14中交叉注意力模块帮助不同模块之间进行特征交互,具体步骤包括:
S141:交叉注意力模块接收交互编码模块和交互瓶颈层模块结果作为输入,分别为特征向量A和特征向量B;
S142:对特征向量A和特征向量B分别进行三个线性变换,将它们映射到不同的表示空间;
S143:通过计算特征向量A和特征向量B之间的相似度,得到一个相似度矩阵;利用相似度矩阵计算注意力权重,用于对特征向量B进行加权求和,将特征向量B与注意力权重相乘,得到对特征向量B的加权融合表示,将特征融合后的表示作为交叉注意力模块的输出,最后输出分割结果并送入交互解码模块。
作为本申请的一实施例,所述步骤2中使用交互编码模块损失函数、交互瓶颈层模块损失函数/>、注意力模块损失函数/>和交叉注意力模块损失函数/>对编码解码服装语义分割模型进行训练,所述交互编码模块损失函数/>、交互瓶颈层模块损失函数、注意力模块损失函数/>和交叉注意力模块损失函数/>组合形成一个总体损失函数/>,其计算公式如下:
其中,是权衡各损失项的超参数。
作为本申请的一实施例,所述交互编码模块损失函数计算公式如下:
其中,表示图像中像素的总数,/>表示类别的数量,/>表示真实标签中第/>个像素的第/>个类别的值,/>表示交互编码模块输出的第/>个像素的第/>个类别的预测概率。
作为本申请的一实施例,所述交互瓶颈层模块损失函数计算公式如下:
其中,表示输入图像,/>表示交互瓶颈层模块输出的特征表示。
作为本申请的一实施例,所述注意力模块损失函数计算公式如下:
其中,表示输入图像,/>表示交互解码模块输出的特征表。
作为本申请的一实施例,所述交叉注意力模块损失函数计算公式如下:
其中,表示交叉注意力模块输出的特征表示,/>表示对抗网络判别器,用于区分真实特征与生成特征。
本发明的有益效果为:
(1)本发明首先通过交互编码模块、交互解码模块和交互瓶颈层模块来进行全局交互,再通过交叉注意力模块来进行局部交互,提高模型对图像中服装信息分割的准确率;
(2)本发明通过使用创新的损失函数对编码解码服装图像语义分割模型进行训练,使模型训练的更加缓和噪声区域,同时训练效果更好,更加符合服装图像场景;
(3)本发明通过加载预先训练好的编码解码服装图像语义分割模型,对待解析的服装图片进行图像预处理和模型推理,生成像素级的语义分割预测,生成标注图片的方法大大节省了人工成本,对于后续虚拟试衣等技术提供高质量的标注图片。
附图说明
图1为本发明实施例中提供的基于编解码器的服装语义分割方法的技术方案流程图;
图2为本发明实施例中提供的基于编解码器的服装语义分割方法的交互瓶颈层模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,全文中出现的“和/或”的含义,包括三个并列的方案,以“A和/或B”为例,包括A方案、或B方案、或A和B同时满足的方案。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例
参照图1至图2,本发明第一方面提供了基于编解码器的服装语义分割方法,所述方法包括以下步骤:
S1:设计适用于解析噪声服装图像的编码解码服装图像语义分割模型;所述编码解码服装图像语义分割模型包括交互编码模块、交互解码模块、交互瓶颈层模块和交叉注意力模块,具体步骤包括:
S11:将图像送入交互编码模块来提取和表示图像中的特征信息;
S12:将交互编码模块提取的特征信息送入交互瓶颈层模块并输出特征信息;
S13:将交互瓶颈层模块输出的特征信息送入交互解码模块并输出特征信息;
S14:将交互编码模块提取的特征信息和交互瓶颈层模块输出的特征信息送到交叉注意力模块并输出特征信息,将交叉注意力模块输出的特征信息送入交互解码模块;
S15:交互解码模块输出特征信息,得出最终预测结果,即分割后的图像;
S2:训练设计好的编码解码服装图像语义分割模型,得到训练好的编码解码服装语义分割模型;
S3:使用训练好的编码解码服装图像语义分割模型来解析噪声服装图像,生成像素级的预测图像,后续对模型输出进行必要的后处理,最终可选择可视化或保存分割结果,以获得对服装图像的精细语义分割。
本发明通过加载预先训练好的编码解码服装图像语义分割模型,对待解析的服装图片进行图像预处理和模型推理,最后生成像素级的语义分割预测,生成标注图片的方法大大节省了人工成本,对于后续虚拟试衣等技术提供高质量的标注图片。
作为本申请的一实施例,所述步骤S11中交互编码模块包括3个金字塔多层感知器单元和3个残差卷积注意力块,其具体步骤包括:
S111:将图像输入到金字塔多层感知器单元,将输入的图像进行上采样2倍和下采样2倍,所述上采样2倍和下采样2倍是将特征信息即特征图放大两倍和缩小两倍,将三个分支都经过多层感知器头,再将三个分支的输出结果进行特征融合得到特征融合后的特征图;
S112:然后将特征融合后的特征图送入残差卷积注意力块,先经过一个卷积层,再经过激活函数,再经过一个卷积层,最后再经过通道注意力;为了防止信息丢失和梯度消失,将特征融合后的特征图和经过通道注意力的特征图进行残差连接。
S113:将金字塔多层感知器单元和残差卷积注意力块再重复两次并输出结果。
具体的,所述交互编码模块通常由多个堆叠的编码块组成,用于提取输入图像的特征,且具有全局感受野,所述交互编码模块负责从输入图像中提取特征表示,主要目的是捕捉输入图像中的上下文信息,并将其编码为更高级别的特征表示。
作为本申请的一实施例,所述步骤S12中交互瓶颈层模块包括1个金字塔多层感知器单元和1个残差卷积注意力块,其具体步骤包括:
S121:将所述交互编码模块输出的特征信息输入到金字塔多层感知器单元,将输入的特征信息进行上采样2倍和下采样2倍,所述上采样2倍和下采样2倍是将特征信息即特征图放大两倍和缩小两倍,所述将三个分支都经过多层感知器头,再将三个分支输出结果特征融合得到特征融合后的特征图;
S122:然后将特征融合后的特征图送入残差卷积注意力块,先经过一个卷积层,再经过激活函数,再经过一个卷积层,再经过通道注意力;为了防止信息丢失和梯度消失,将特征融合后的特征图和经过通道注意力的特征图进行残差连接并输出结果。
具体的,所述交互瓶颈层模块位于交互编码模块和交互解码模块之间,具有类似于UNet结构的层次结构,通常由多个堆叠的瓶颈块组成;其主要作用是允许网络进行跨特征条件建模,通过交叉注意力,将来自交互编码模块的特征与来自交互解码模块的特征进行交互,用于减少参数量;这种跨特征条件建模有助于更好地捕捉图像中的不同尺度和语义信息。
作为本申请的一实施例,所述步骤S13中交互解码模块包括3个金字塔多层感知器单元和3个残差卷积注意力块,具体步骤包括:
S131:将所述交互瓶颈层模块输出的特征图输入到金字塔多层感知器单元,将输入的图像上采样2倍和下采样2倍,所述上采样2倍和下采样2倍是将特征信息即特征图放大两倍和缩小两倍,将三个分支都经过多层感知器头,再将三个分支输出结果进行特征融合得到特征融合后的特征图;
S132:然后将特征融合后的特征图送入残差卷积注意力块,先经过一个卷积层,再经过激活函数,再经过一个卷积层,最后再经过通道注意力;为了防止信息丢失和梯度消失,将特征融合后的特征图和经过通道注意力的特征图进行残差连接;
S133:将金字塔多层感知器单元和残差卷积注意力块再重复两次,且在最后一个金字塔多层感知器单元和残差卷积注意力块时将所述交叉注意力模块输出的特征图输入并输出结果即分割后的图像。
具体的,所述交互解码模块通常由多个堆叠的解码块组成,负责将经过交互编码模块和交互瓶颈层处理的特征重新映射到图像空间,以生成最终的输出,且具有全局感受野;所述交互解码模块利用交互编码模块和交互瓶颈层模块中提取的特征表示,通过逆向的操作逐步恢复图像的细节和结构。
本发明通过交互编码模块用于提取输入图像的特征表示,交互瓶颈层模块用于跨特征条件建模和信息交互,而交互解码模块用于恢复图像的细节和结构。尽管它们的步骤相似,但它们在网络中的位置和功能使它们具有不同的作用,进一步提高模型的准确率。
作为本申请的一实施例,所述步骤S14中交叉注意力模块帮助不同模块之间进行特征交互,具体步骤包括:
S141:交叉注意力模块接收所述交互编码模块和交互瓶颈层模块的结果作为输入,分别为特征向量A和特征向量B;
S142:对所述特征向量A和特征向量B分别进行三个线性变换,将它们映射到不同的表示空间;
S143:通过计算所述特征向量A和特征向量B之间的相似度,得到一个相似度矩阵;利用相似度矩阵计算注意力权重,用于对特征向量B进行加权求和,将特征向量B与注意力权重相乘,得到对特征向量B的加权融合表示,将特征融合后的表示作为交叉注意力模块的输出,最后输出分割结果并送入交互解码模块。
具体的,本发明通过所述交互编码模块、交互瓶颈层模块和交互解码模块来进行全局交互,所述交叉注意力模块可以帮助不同模块之间进行有效的特征交互,从而提高对图像各个部分的语义理解和分割准确性,进而提高了模型的准确率。
作为本申请的一实施例,所述步骤2中使用交互编码模块损失函数、交互瓶颈层模块损失函数/>、注意力模块损失函数/>和交叉注意力模块损失函数/>对编码解码服装语义分割模型进行训练,所述交互编码模块损失函数/>、交互瓶颈层模块损失函数、注意力模块损失函数/>和交叉注意力模块损失函数/>组合形成一个总体损失函数/>,其计算公式如下:
其中,是权衡各损失项的超参数。
作为本申请的一实施例,所述交互编码模块损失函数计算公式如下:
其中,表示图像中像素的总数,/>表示类别的数量,/>表示真实标签中第/>个像素的第/>个类别的值,/>表示交互编码模块输出的第/>个像素的第/>个类别的预测概率。
作为本申请的一实施例,所述交互瓶颈层模块损失函数计算公式如下:
其中,表示输入图像,/>表示交互瓶颈层模块输出的特征表示。
作为本申请的一实施例,所述注意力模块损失函数计算公式如下:
其中,表示输入图像,/>表示交互解码模块输出的特征表。
作为本申请的一实施例,所述交叉注意力模块损失函数计算公式如下:
其中,表示交叉注意力模块输出的特征表示,/>表示对抗网络判别器,用于区分真实特征与生成特征。
具体的,使用上述损失函数对编码解码服装图像语义分割模型进行训练,可以使模型训练的更加缓和噪声区域,同时训练效果更好,更加符合服装图像场景。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.基于编解码器的服装语义分割方法,其特征在于,所述方法包括以下步骤:
S1:设计适用于解析噪声服装图像的编码解码服装图像语义分割模型;所述编码解码服装图像语义分割模型包括交互编码模块、交互解码模块、交互瓶颈层模块和交叉注意力模块,具体步骤包括:
S11:将图像送入交互编码模块来提取和表示图像中的特征信息;
S12:将交互编码模块提取的特征信息送入交互瓶颈层模块并输出特征信息;
S13:将交互瓶颈层模块输出的特征信息送入交互解码模块并输出特征信息;
S14:将交互编码模块提取的特征信息和交互瓶颈层模块输出的特征信息送到交叉注意力模块并输出特征信息,将交叉注意力模块输出的特征信息送入交互解码模块;
S15:交互解码模块输出特征信息,得出最终预测结果;
S2:训练设计好的编码解码服装图像语义分割模型,得到训练好的编码解码服装语义分割模型;
S3:使用训练好的编码解码服装图像语义分割模型来解析噪声服装图像,生成像素级的预测图像。
2.根据权利要求1所述的基于编解码器的服装语义分割方法,其特征在于,所述步骤S11中交互编码模块包括3个金字塔多层感知器单元和3个残差卷积注意力块,具体步骤包括:
S111:将图像输入到金字塔多层感知器单元,将输入的图像进行上采样2倍和下采样2倍,将三个分支都经过多层感知器头,再将三个分支输出结果进行特征融合得到特征融合后的特征图;
S112:然后将特征融合后的特征图送入残差卷积注意力块,先经过一个卷积层,再经过激活函数,再经过一个卷积层,再经过通道注意力,将特征融合后的特征图和经过通道注意力的特征图进行残差连接;
S113:将金字塔多层感知器单元和残差卷积注意力块再重复两次并输出结果。
3.根据权利要求1所述的基于编解码器的服装语义分割方法,其特征在于,所述步骤S12中交互瓶颈层模块包括1个金字塔多层感知器单元和1个残差卷积注意力块,具体步骤包括:
S121:将所述交互编码器模块输出的特征信息输入到金字塔多层感知器单元,将输入的特征信息进行上采样2倍和下采样2倍,将三个分支都经过多层感知器头,再将三个分支输出结果进行特征融合得到特征融合后的特征图;
S122:然后将所述特征融合后的特征图送入残差卷积注意力块,先经过一个卷积层,再经过激活函数,再经过一个卷积层,再经过通道注意力,将特征融合后的特征图和经过通道注意力的特征图进行残差连接并输出结果。
4.根据权利要求1所述的基于编解码器的服装语义分割方法,其特征在于,所述步骤S13中交互解码模块包括3个金字塔多层感知器单元和3个残差卷积注意力块,具体步骤包括:
S131:将所述交互瓶颈层输出的特征信息输入到金字塔多层感知器单元,将输入的特征信息进行上采样2倍和下采样2倍,将三个分支都经过多层感知器头,再将三个分支输出结果进行特征融合得到特征融合后的特征图;
S132:然后将所述特征融合后的特征图送入残差卷积注意力块,先经过一个卷积层,再经过激活函数,再经过一个卷积层,再经过通道注意力,将特征融合后的特征图和经过通道注意力的特征图进行残差连接;
S133:将金字塔多层感知器单元和残差卷积注意力块再重复两次并输出结果。
5.根据权利要求1所述的基于编解码器的服装语义分割方法,其特征在于,所述步骤S14中交叉注意力模块帮助不同模块之间进行特征交互,具体步骤包括:
S141:交叉注意力模块接收所述交互编码模块和交互瓶颈层模块结果作为输入,分别为特征向量A和特征向量B;
S142:对所述特征向量A和特征向量B分别进行三个线性变换,将它们映射到不同的表示空间;
S143:通过计算所述特征向量A和特征向量B之间的相似度,得到一个相似度矩阵;利用相似度矩阵计算注意力权重,用于对特征向量B进行加权求和,将特征向量B与注意力权重相乘,得到对特征向量B的加权融合表示,将特征融合后的表示作为交叉注意力模块的输出,最后输出分割结果并送入交互解码模块。
6.根据权利要求1所述的基于编解码器的服装语义分割方法,其特征在于,所述步骤S2中使用交互编码模块损失函数、交互瓶颈层模块损失函数/>、注意力模块损失函数和交叉注意力模块损失函数/>对编码解码服装语义分割模型进行训练,所述交互编码模块损失函数/>、交互瓶颈层模块损失函数/>、注意力模块损失函数/>和交叉注意力模块损失函数/>组合形成一个总体损失函数/>,其计算公式如下:
其中,是权衡各损失项的超参数。
7.根据权利要求6所述的基于编解码器的服装语义分割方法,其特征在于,所述交互编码模块损失函数计算公式如下:
其中,表示图像中像素的总数,/>表示类别的数量,/>表示真实标签中第/>个像素的第/>个类别的值,/>表示交互编码模块输出的第/>个像素的第/>个类别的预测概率。
8.根据权利要求6所述的基于编解码器的服装语义分割方法,其特征在于,所述交互瓶颈层模块损失函数计算公式如下:
其中,表示输入图像,/>表示交互瓶颈层模块输出的特征表示。
9.根据权利要求6所述的基于编解码器的服装语义分割方法,其特征在于,所述注意力模块损失函数计算公式如下:
其中,表示输入图像,/>表示交互解码模块输出的特征表。
10.根据权利要求6所述的基于编解码器的服装语义分割方法,其特征在于,所述交叉注意力模块损失函数计算公式如下:/>
其中,表示交叉注意力模块输出的特征表示,/>表示对抗网络判别器,用于区分真实特征与生成特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410528266.7A CN118097158B (zh) | 2024-04-29 | 2024-04-29 | 基于编解码器的服装语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410528266.7A CN118097158B (zh) | 2024-04-29 | 2024-04-29 | 基于编解码器的服装语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118097158A true CN118097158A (zh) | 2024-05-28 |
CN118097158B CN118097158B (zh) | 2024-07-05 |
Family
ID=91151018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410528266.7A Active CN118097158B (zh) | 2024-04-29 | 2024-04-29 | 基于编解码器的服装语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118097158B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210118149A1 (en) * | 2019-10-21 | 2021-04-22 | Salesforce.Com, Inc. | Systems and methods of generating photorealistic garment transference in images |
US20210166347A1 (en) * | 2019-11-29 | 2021-06-03 | NavInfo Europe B.V. | Semantic Segmentation Architecture |
US20210241531A1 (en) * | 2020-02-04 | 2021-08-05 | Nhn Corporation | Method and apparatus for providing virtual clothing wearing service based on deep-learning |
CN114581557A (zh) * | 2022-03-14 | 2022-06-03 | 浙江大学 | 一种面向设计属性解缠表示的服装图像生成方法 |
CN115393596A (zh) * | 2022-10-28 | 2022-11-25 | 武汉纺织大学 | 一种基于人工智能的服装图像分割方法 |
CN115953582A (zh) * | 2023-03-08 | 2023-04-11 | 中国海洋大学 | 一种图像语义分割方法及系统 |
CN116129119A (zh) * | 2023-01-17 | 2023-05-16 | 武汉工程大学 | 融合局部与全局特征的快速语义分割网络和语义分割方法 |
WO2023126914A2 (en) * | 2021-12-27 | 2023-07-06 | Yeda Research And Development Co. Ltd. | METHOD AND SYSTEM FOR SEMANTIC APPEARANCE TRANSFER USING SPLICING ViT FEATURES |
CN116630621A (zh) * | 2023-05-16 | 2023-08-22 | 宁夏医科大学 | 一种融合多尺度特征的图像分割方法 |
CN117409208A (zh) * | 2023-12-14 | 2024-01-16 | 武汉纺织大学 | 一种实时服装图像语义分割方法及系统 |
-
2024
- 2024-04-29 CN CN202410528266.7A patent/CN118097158B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210118149A1 (en) * | 2019-10-21 | 2021-04-22 | Salesforce.Com, Inc. | Systems and methods of generating photorealistic garment transference in images |
US20210166347A1 (en) * | 2019-11-29 | 2021-06-03 | NavInfo Europe B.V. | Semantic Segmentation Architecture |
US20210241531A1 (en) * | 2020-02-04 | 2021-08-05 | Nhn Corporation | Method and apparatus for providing virtual clothing wearing service based on deep-learning |
WO2023126914A2 (en) * | 2021-12-27 | 2023-07-06 | Yeda Research And Development Co. Ltd. | METHOD AND SYSTEM FOR SEMANTIC APPEARANCE TRANSFER USING SPLICING ViT FEATURES |
CN114581557A (zh) * | 2022-03-14 | 2022-06-03 | 浙江大学 | 一种面向设计属性解缠表示的服装图像生成方法 |
CN115393596A (zh) * | 2022-10-28 | 2022-11-25 | 武汉纺织大学 | 一种基于人工智能的服装图像分割方法 |
CN116129119A (zh) * | 2023-01-17 | 2023-05-16 | 武汉工程大学 | 融合局部与全局特征的快速语义分割网络和语义分割方法 |
CN115953582A (zh) * | 2023-03-08 | 2023-04-11 | 中国海洋大学 | 一种图像语义分割方法及系统 |
CN116630621A (zh) * | 2023-05-16 | 2023-08-22 | 宁夏医科大学 | 一种融合多尺度特征的图像分割方法 |
CN117409208A (zh) * | 2023-12-14 | 2024-01-16 | 武汉纺织大学 | 一种实时服装图像语义分割方法及系统 |
Non-Patent Citations (2)
Title |
---|
HONGYU ZHOU ET AL.: "nnFormer:Interleaved Transformer for Volumetric Segmentation", 《ARXIV》, 4 February 2022 (2022-02-04), pages 1 - 10 * |
钟豪等: "FMNet:基于特征对齐的多方位注意力机制服装图像分割网络", 《中国科技论文》, 31 March 2023 (2023-03-31), pages 275 - 282 * |
Also Published As
Publication number | Publication date |
---|---|
CN118097158B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919204B (zh) | 一种面向噪声图像的深度学习聚类方法 | |
CN111079532A (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN114511576B (zh) | 尺度自适应特征增强深度神经网络的图像分割方法与系统 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN106650617A (zh) | 一种基于概率潜在语义分析的行人异常识别方法 | |
CN111881731A (zh) | 基于人体骨架的行为识别方法、系统、装置及介质 | |
CN115035172B (zh) | 基于置信度分级及级间融合增强的深度估计方法及系统 | |
CN116310563A (zh) | 一种贵金属库存的管理方法及系统 | |
CN117196963A (zh) | 一种基于降噪自编码器的点云去噪方法 | |
CN117710295A (zh) | 图像处理方法、装置、设备、介质及程序产品 | |
CN114202473A (zh) | 一种基于多尺度特征和注意力机制的图像复原方法及装置 | |
CN118097158B (zh) | 基于编解码器的服装语义分割方法 | |
CN115812206A (zh) | 用于高质量图像处理的机器学习 | |
Harrington et al. | Exploring the perceptual straightness of adversarially robust and biologically-inspired visual representations | |
CN114863104B (zh) | 一种基于标签分布学习的图像分割方法 | |
CN112699898B (zh) | 一种基于多层特征融合的图像方向识别方法 | |
CN114694209A (zh) | 视频处理方法、装置、电子设备及计算机存储介质 | |
CN113506259A (zh) | 一种基于融合网络的图像模糊判别方法及系统 | |
CN112258425A (zh) | 一种二维码图像清晰化去模糊处理方法 | |
Li et al. | Fast matching method of UAV aerial photography enhanced low illumination image | |
CN112906508A (zh) | 一种基于卷积神经网络的面部活体检测方法 | |
Dong et al. | ViT-SAPS: Detail-aware transformer for mechanical assembly semantic segmentation | |
Kim et al. | Anomaly detection using autoencoder with feature vector frequency map | |
CN117372935B (zh) | 一种视频目标检测方法、设备及介质 | |
CN118298194B (zh) | 一种面向相机光通信的条纹图像处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |