CN113869371A - 模型训练方法、服装细粒度分割方法及相关装置 - Google Patents
模型训练方法、服装细粒度分割方法及相关装置 Download PDFInfo
- Publication number
- CN113869371A CN113869371A CN202111034024.5A CN202111034024A CN113869371A CN 113869371 A CN113869371 A CN 113869371A CN 202111034024 A CN202111034024 A CN 202111034024A CN 113869371 A CN113869371 A CN 113869371A
- Authority
- CN
- China
- Prior art keywords
- training image
- training
- feature
- information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 580
- 230000011218 segmentation Effects 0.000 title claims abstract description 142
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000000605 extraction Methods 0.000 claims abstract description 176
- 238000013528 artificial neural network Methods 0.000 claims abstract description 40
- 238000002372 labelling Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 95
- 238000001514 detection method Methods 0.000 claims description 75
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 66
- 230000004927 fusion Effects 0.000 claims description 66
- 238000010586 diagram Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000003709 image segmentation Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 238000013434 data augmentation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种模型训练方法、服装细粒度分割方法及相关装置,所述模型训练方法包括:获取训练图像及其对应的标注信息,将所述训练图像输入预设深度神经网络的特征提取模块,通过所述特征提取模块对所述训练图像进行特征提取,得到所述训练图像对应的特征信息,所述特征提取模块采用CBNet和FPN相结合的架构,CBNet中包含两个级联的ResNeXT‑101;将所述训练图像对应的特征信息输入所述预设深度神经网络的预测模块,通过所述预测模块对所述训练图像进行分割,得到所述训练图像对应的预测信息;利用所述训练图像对应的预测信息和标注信息,对所述预设深度神经网络进行训练,得到服装细粒度分割模型。由此,服装细粒度分割模型较稳定,满足实际应用中的需要。
Description
技术领域
本申请涉及深度学习技术领域,尤其涉及模型训练方法、服装细粒度分割方法及相关装置。
背景技术
深度学习是机器学习中一种基于对数据进行表征学习的方法,深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,例如图像,声音和文本等。
随着大数据和人工智能时代的来临,通过深度学习技术和计算机视觉技术分析消费者着装风格,将有助于商家捕捉各客户群体的消费趋势,制定出有针对性的产品组合、营销计划和商业决策。
因此,亟需设计一种服装细粒度分割算法,以满足实际应用的需求。
发明内容
本申请的目的在于提供模型训练方法、服装细粒度分割方法及相关装置,采用CBNet和FPN相结合的架构作为特征提取模块,特征提取能力更强,由此得到的服装细粒度分割模型更加稳定,满足实际应用中的需要。
本申请的目的采用以下技术方案实现:
第一方面,本申请提供了一种模型训练方法,所述模型训练方法包括:获取训练图像及其对应的标注信息,所述训练图像对应的标注信息用于指示所述训练图像中的服装的标注边界框、标注细粒度类别和标注轮廓;将所述训练图像输入预设深度神经网络的特征提取模块,通过所述特征提取模块对所述训练图像进行特征提取,得到所述训练图像对应的特征信息,所述特征提取模块采用CBNet和FPN相结合的架构,CBNet中包含两个级联的ResNeXT-101;将所述训练图像对应的特征信息输入所述预设深度神经网络的预测模块,通过所述预测模块对所述训练图像进行分割,得到所述训练图像对应的预测信息,所述训练图像对应的预测信息用于指示所述训练图像中的服装的预测边界框、预测细粒度类别和预测轮廓;利用所述训练图像对应的预测信息和标注信息,对所述预设深度神经网络进行训练,得到服装细粒度分割模型。该技术方案的有益效果在于,将训练图像输入预设深度神经网络的特征提取模块,得到训练图像对应的特征信息,利用训练图像对应的预测信息和标注信息,对预设深度神经网络进行训练,得到服装细粒度分割模型,本申请采用CBNet和FPN相结合的架构作为特征提取模块,相比于传统的特征提取网络,CBNet的特征提取能力更强,实例分割精度更高,由此得到的服装细粒度分割模型更加稳定,准确率更高,满足实际应用中的需要。
在一些可选的实施例中,所述将所述训练图像输入预设深度神经网络的特征提取模块,通过所述特征提取模块对所述训练图像进行特征提取,得到所述训练图像对应的特征信息,包括:将所述训练图像输入所述特征提取模块的Stage1,通过Stage1对所述训练图像进行特征提取,得到所述训练图像对应的特征图F1;将所述训练图像对应的特征图F1输入所述特征提取模块的Stage1_1,通过Stage1_1对所述训练图像对应的特征图F1进行特征提取,得到所述训练图像对应的特征图F2;将所述训练图像对应的特征图F1输入所述特征提取模块的Stage2,通过Stage2对所述训练图像对应的特征图F1进行特征提取,得到所述训练图像对应的特征图F3;将所述训练图像对应的特征图F3和特征图F2相加后输入所述特征提取模块的Stage2_2,通过Stage2_2对所述训练图像对应的特征图F3和特征图F2的相加结果进行特征提取,得到所述训练图像对应的特征图F4;将所述训练图像对应的特征图F3输入所述特征提取模块的Stage3,通过Stage3对所述训练图像对应的特征图F3进行特征提取,得到所述训练图像对应的特征图F5;将所述训练图像对应的特征图F5和特征图F4相加后输入所述特征提取模块的Stage3_3,通过Stage3_3对所述训练图像对应的特征图F5和特征图F4的相加结果进行特征提取,得到所述训练图像对应的特征图F6;将所述训练图像对应的特征图F5输入所述特征提取模块的Stage4,通过Stage4对所述训练图像对应的特征图F5进行特征提取,得到所述训练图像对应的特征图F7;将所述训练图像对应的特征图F7和特征图F6相加后输入所述特征提取模块的Stage4_4,通过Stage4_4对所述训练图像对应的特征图F7和特征图F6的相加结果进行特征提取,得到所述训练图像对应的特征图F8,并将所述训练图像对应的特征图F8作为所述训练图像对应的融合特征图M3;将所述训练图像对应的特征图F8输入所述特征提取模块的第三插值单元,通过所述第三插值单元对所述训练图像对应的特征图F8进行插值,得到所述训练图像对应的特征图F8的插值结果,并将所述训练图像对应的特征图F8的插值结果和所述训练图像对应的特征图F6相加,得到所述训练图像对应的融合特征图M2;将所述训练图像对应的融合特征图M2输入所述特征提取模块的第二插值单元,通过所述第二插值单元对所述训练图像对应的融合特征图M2进行插值,得到所述训练图像对应的融合特征图M2的插值结果,并将所述训练图像对应的融合特征图M2的插值结果和所述训练图像对应的特征图F4相加,得到所述训练图像对应的融合特征图M1;将所述训练图像对应的融合特征图M1输入所述特征提取模块的第一插值单元,通过所述第一插值单元对所述训练图像对应的融合特征图M1进行插值,得到所述训练图像对应的融合特征图M1的插值结果,并将所述训练图像对应的融合特征图M1的插值结果和所述训练图像对应的特征图F2相加,得到所述训练图像对应的融合特征图M0;将所述训练图像对应的融合特征图M3至融合特征图M0作为所述训练图像对应的特征信息。该技术方案的有益效果在于,将训练图像输入特征提取模块,利用特征提取模块的多个stage得到训练图像对应的特征图,再利用特征提取模块的多个插值单元进行插值,得到对应的插值结果,结合相应的特征图,得到相应的融合特征图,由此得到训练图像对应的特征信息,该方法智能化水平较高。
在一些可选的实施例中,以所述Stage1、Stage2、Stage3、Stage4、Stage1_1、Stage2_2、Stage3_3、Stage4_4中的任意一个为目标Stage,通过所述目标Stage对所述训练图像进行特征提取,包括:通过所述目标Stage的多个残差块分别对输入所述目标Stage的图像进行处理;通过所述目标Stage的第一加法层将各所述残差块的处理结果相加;通过所述目标Stage的第二加法层将各所述残差块的处理结果的相加结果与输入所述目标Stage的图像相加。该技术方案的有益效果在于,目标Stage的每个残差块可以对输入目标Stage的图像进行处理,得到精度较高的处理结果。
在一些可选的实施例中,所述通过所述目标Stage的多个残差块分别对输入所述目标Stage的图像进行处理,包括:通过所述目标Stage的各所述残差块的第一卷积层分别对输入所述目标Stage的图像进行卷积处理,得到各所述残差块对应的第一卷积结果;通过所述目标Stage的各所述残差块的可变形卷积层分别对各所述残差块对应的第一卷积结果进行卷积处理,得到各所述残差块对应的可变形卷积结果;通过所述目标Stage的各所述残差块的第二卷积层分别对各所述残差块对应的可变形卷积结果进行卷积处理。该技术方案的有益效果在于,利用目标Stage的每个残差块的第一卷积层、可变形卷积层和第二卷积层,可以对输入目标Stage的图像更细致地提取特征。
在一些可选的实施例中,所述将所述训练图像对应的特征信息输入所述预设深度神经网络的预测模块,通过所述预测模块对所述训练图像进行分割,得到所述训练图像对应的预测信息,包括:将所述训练图像对应的特征信息输入所述预设深度神经网络的RPN网络,通过所述RPN网络进行候选框生成和边界框回归,得到所述训练图像对应的基准边界框信息;将所述训练图像对应的特征信息和基准边界框信息输入所述预测模块的第一头结构,通过所述第一头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第一类别信息、第一边界框信息、第一细粒度类别信息和第一轮廓信息;将所述训练图像对应的特征信息和第一边界框信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息;将所述训练图像对应的特征信息和第二边界框信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息;基于所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息,获取所述训练图像对应的预测信息。该技术方案的有益效果在于,将训练图像对应的特征信息输入预设深度神经网络的RPN网络,得到训练图像对应的基准边界框信息,利用预测模块的第一头结构、第二头结构和第三头结构得到相应的类别信息、边界框信息、细粒度类别信息和轮廓信息,从而获取训练图像对应的预测信息。
在一些可选的实施例中,以所述第一头结构至所述第三头结构中的任意一个为目标头结构,通过所述目标头结构进行分类、边界框回归、细粒度分类和分割,包括:通过所述目标头结构的Detection Head进行分类和边界框回归;通过所述目标头结构的AttributesHead进行细粒度分类;通过所述目标头结构的Mask Head进行分割。该技术方案的有益效果在于,可以利用目标头结构的Detection Head进行分类和边界框回归,利用目标头结构的Attributes Head进行细粒度分类,利用目标头结构的Mask Head进行分割。
在一些可选的实施例中,所述通过所述目标头结构的Detection Head进行分类和边界框回归,包括:通过所述目标头结构的Detection Head的ROI Pooling层进行ROIPooling处理;通过所述目标头结构的Detection Head的卷积层进行卷积处理;通过所述目标头结构的Detection Head的第一全连接层进行全连接处理;通过所述目标头结构的Detection Head的第二全连接层进行分类和边界框回归;所述通过所述目标头结构的Attributes Head进行细粒度分类,包括:通过所述目标头结构的Attributes Head的ROIAlign层进行ROI Align处理;通过所述目标头结构的Attributes Head的卷积层进行卷积处理;通过所述目标头结构的Attributes Head的第一全连接层进行全连接处理;通过所述目标头结构的Attributes Head的第二全连接层进行细粒度分类;所述通过所述目标头结构的Mask Head进行分割,包括:通过所述目标头结构的Mask Head的ROI Align层进行ROIAlign处理,得到掩膜特征;通过所述目标头结构的Mask Head的语义分割分支进行语义分割处理,得到语义分割特征;通过所述目标头结构的Mask Head的ROI Align层对所述语义分割特征和输入所述目标头结构的边界框信息进行ROI Align处理,得到一次融合特征;通过所述目标头结构的Mask Head的加法层将所述一次融合特征和所述掩膜特征相加。该技术方案的有益效果在于,通过目标头结构的Mask Head进行分割时,可以采用目标头结构的Mask Head的语义分割分支进行语义分割处理,得到语义分割特征,从而获得更好的空间信息,通过目标头结构的Mask Head的ROI Align层对语义分割特征和输入目标头结构的边界框信息进行ROI Align处理,得到一次融合特征,再通过目标头结构的Mask Head的加法层一次融合特征和所述掩膜特征相加,由此训练得到的服装细粒度分割模型分辨目标的能力较强。
在一些可选的实施例中,所述通过所述目标头结构的Detection Head的第二全连接层进行分类和边界框回归,包括:通过所述目标头结构的Detection Head的第二全连接层的分类网络FC-head进行分类;通过所述目标头结构的Detection Head的第二全连接层的回归网络Conv-head进行边界框回归。该技术方案的有益效果在于,可以利用目标头结构的Detection Head的第二全连接层的分类网络FC-head进行分类,利用目标头结构的Detection Head的第二全连接层的回归网络Conv-head进行边界框回归。
在一些可选的实施例中,所述通过所述目标头结构的Detection Head进行分类和边界框回归,包括:使用基于任务间空间自适应解耦的检测算法,通过所述目标头结构的Detection Head进行分类和边界框回归,其中,对于分类任务和回归任务,分别学习各自适应的proposal和特征提取器。该技术方案的有益效果在于,对于分类任务和回归任务,输入和特征提取器是不共享的,可以最大程度地减少由于优化目标不一样带来的冲突,进而显著提升服装细粒度分割模型的性能。
在一些可选的实施例中,所述将所述训练图像对应的特征信息和第一边界框信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息,包括:将所述训练图像对应的特征信息、第一边界框信息和第一轮廓信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息;所述将所述训练图像对应的特征信息和第二边界框信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息,包括:将所述训练图像对应的特征信息、第二边界框信息和第二轮廓信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息。该技术方案的有益效果在于,在利用第一头结构、第二头结构和第三头结构进行分类、边界框回归、细粒度分类和分割时,输入的信息可以包括训练图像对应的轮廓信息,由此得到的服装细粒度分割模型的精度较高。
在一些可选的实施例中,所述将所述训练图像输入预设深度神经网络的特征提取模块,通过所述特征提取模块对所述训练图像进行特征提取,得到所述训练图像对应的特征信息,包括:确定包含所述训练图像的多个训练图像;将各训练图像的宽和高中的长边缩放至预设长度值,将各训练图像的宽和高中的短边缩放至预设长度范围中的任意值;以所述多个训练图像中短边的最大值为基准值,将其余训练图像的短边填充至所述基准值;将所述多个训练图像以批的形式输入所述特征提取模块,通过所述特征提取模块对所述多个训练图像进行特征提取,得到所述多个训练图像对应的特征信息;基于所述多个训练图像对应的特征信息,获取所述训练图像对应的特征信息。该技术方案的有益效果在于,通过对训练图像的长边和短边进行对应的缩放处理,可以实现数据增广,使训练图像尽可能的多样化,使训练得到的服装细粒度分割模型具有较强的泛化能力。
第二方面,本申请提供了一种服装细粒度分割方法,所述服装细粒度分割方法包括:获取待分割图像;将所述待分割图像输入服装细粒度分割模型,得到所述待分割图像对应的预测信息;其中,所述服装细粒度分割模型是利用上述任一项模型训练方法训练得到的。该技术方案的有益效果在于,用户将待分割图像输入服装细粒度分割模型,即可得到待分割图像对应的预测信息,预测信息可以包括待分割图像的预测边界框、预测细粒度类别和预测轮廓,该方法可以用于识别服装类别和服装属性,提升用户的使用体验。
第三方面,本申请提供了一种模型训练装置,所述模型训练装置包括:数据获取模块,用于获取训练图像及其对应的标注信息,所述训练图像对应的标注信息用于指示所述训练图像中的服装的标注边界框、标注细粒度类别和标注轮廓;提取特征模块,用于将所述训练图像输入预设深度神经网络的特征提取模块,通过所述特征提取模块对所述训练图像进行特征提取,得到所述训练图像对应的特征信息,所述特征提取模块采用CBNet和FPN相结合的架构,CBNet中包含两个级联的ResNeXT-101;图像预测模块,用于将所述训练图像对应的特征信息输入所述预设深度神经网络的预测模块,通过所述预测模块对所述训练图像进行分割,得到所述训练图像对应的预测信息,所述训练图像对应的预测信息用于指示所述训练图像中的服装的预测边界框、预测细粒度类别和预测轮廓;模型训练模块,用于利用所述训练图像对应的预测信息和标注信息,对所述预设深度神经网络进行训练,得到服装细粒度分割模型。
在一些可选的实施例中,所述提取特征模块包括:第一特征图单元,用于将所述训练图像输入所述特征提取模块的Stage1,通过Stage1对所述训练图像进行特征提取,得到所述训练图像对应的特征图F1;第二特征图单元,用于将所述训练图像对应的特征图F1输入所述特征提取模块的Stage1_1,通过Stage1_1对所述训练图像对应的特征图F1进行特征提取,得到所述训练图像对应的特征图F2;第三特征图单元,用于将所述训练图像对应的特征图F1输入所述特征提取模块的Stage2,通过Stage2对所述训练图像对应的特征图F1进行特征提取,得到所述训练图像对应的特征图F3;第四特征图单元,用于将所述训练图像对应的特征图F3和特征图F2相加后输入所述特征提取模块的Stage2_2,通过Stage2_2对所述训练图像对应的特征图F3和特征图F2的相加结果进行特征提取,得到所述训练图像对应的特征图F4;第五特征图单元,用于将所述训练图像对应的特征图F3输入所述特征提取模块的Stage3,通过Stage3对所述训练图像对应的特征图F3进行特征提取,得到所述训练图像对应的特征图F5;第六特征图单元,用于将所述训练图像对应的特征图F5和特征图F4相加后输入所述特征提取模块的Stage3_3,通过Stage3_3对所述训练图像对应的特征图F5和特征图F4的相加结果进行特征提取,得到所述训练图像对应的特征图F6;第七特征图单元,用于将所述训练图像对应的特征图F5输入所述特征提取模块的Stage4,通过Stage4对所述训练图像对应的特征图F5进行特征提取,得到所述训练图像对应的特征图F7;第三融合特征单元,用于将所述训练图像对应的特征图F7和特征图F6相加后输入所述特征提取模块的Stage4_4,通过Stage4_4对所述训练图像对应的特征图F7和特征图F6的相加结果进行特征提取,得到所述训练图像对应的特征图F8,并将所述训练图像对应的特征图F8作为所述训练图像对应的融合特征图M3;第二融合特征单元,用于将所述训练图像对应的特征图F8输入所述特征提取模块的第三插值单元,通过所述第三插值单元对所述训练图像对应的特征图F8进行插值,得到所述训练图像对应的特征图F8的插值结果,并将所述训练图像对应的特征图F8的插值结果和所述训练图像对应的特征图F6相加,得到所述训练图像对应的融合特征图M2;第一融合特征单元,用于将所述训练图像对应的融合特征图M2输入所述特征提取模块的第二插值单元,通过所述第二插值单元对所述训练图像对应的融合特征图M2进行插值,得到所述训练图像对应的融合特征图M2的插值结果,并将所述训练图像对应的融合特征图M2的插值结果和所述训练图像对应的特征图F4相加,得到所述训练图像对应的融合特征图M1;第零融合特征单元,用于将所述训练图像对应的融合特征图M1输入所述特征提取模块的第一插值单元,通过所述第一插值单元对所述训练图像对应的融合特征图M1进行插值,得到所述训练图像对应的融合特征图M1的插值结果,并将所述训练图像对应的融合特征图M1的插值结果和所述训练图像对应的特征图F2相加,得到所述训练图像对应的融合特征图M0;特征信息单元,用于将所述训练图像对应的融合特征图M3至融合特征图M0作为所述训练图像对应的特征信息。
在一些可选的实施例中,以所述Stage1、Stage2、Stage3、Stage4、Stage1_1、Stage2_2、Stage3_3、Stage4_4中的任意一个为目标Stage,所述提取特征模块包括:残差块单元,用于通过所述目标Stage的多个残差块分别对输入所述目标Stage的图像进行处理;处理结果单元,用于通过所述目标Stage的第一加法层将各所述残差块的处理结果相加;图像相加单元,用于通过所述目标Stage的第二加法层将各所述残差块的处理结果的相加结果与输入所述目标Stage的图像相加。
在一些可选的实施例中,所述残差块单元包括:第一卷积子单元,用于通过所述目标Stage的各所述残差块的第一卷积层分别对输入所述目标Stage的图像进行卷积处理,得到各所述残差块对应的第一卷积结果;第二卷积子单元,用于通过所述目标Stage的各所述残差块的可变形卷积层分别对各所述残差块对应的第一卷积结果进行卷积处理,得到各所述残差块对应的可变形卷积结果;第三卷积子单元,用于通过所述目标Stage的各所述残差块的第二卷积层分别对各所述残差块对应的可变形卷积结果进行卷积处理。
在一些可选的实施例中,所述图像预测模块包括:基准边界框单元,用于将所述训练图像对应的特征信息输入所述预设深度神经网络的RPN网络,通过所述RPN网络进行候选框生成和边界框回归,得到所述训练图像对应的基准边界框信息;第一头结构单元,用于将所述训练图像对应的特征信息和基准边界框信息输入所述预测模块的第一头结构,通过所述第一头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第一类别信息、第一边界框信息、第一细粒度类别信息和第一轮廓信息;第二头结构单元,用于将所述训练图像对应的特征信息和第一边界框信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息;第三头结构单元,用于将所述训练图像对应的特征信息和第二边界框信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息;预测信息单元,用于基于所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息,获取所述训练图像对应的预测信息。
在一些可选的实施例中,以所述第一头结构至所述第三头结构中的任意一个为目标头结构,所述图像预测模块包括:分类回归单元,用于通过所述目标头结构的DetectionHead进行分类和边界框回归;细粒度分类单元,用于通过所述目标头结构的AttributesHead进行细粒度分类;分割单元,用于通过所述目标头结构的Mask Head进行分割。
在一些可选的实施例中,所述分类回归单元包括:第一处理子单元,用于通过所述目标头结构的Detection Head的ROI Pooling层进行ROI Pooling处理;第二处理子单元,用于通过所述目标头结构的Detection Head的卷积层进行卷积处理;第三处理子单元,用于通过所述目标头结构的Detection Head的第一全连接层进行全连接处理;第四处理子单元,用于通过所述目标头结构的Detection Head的第二全连接层进行分类和边界框回归;所述细粒度分类单元包括:第五处理子单元,用于通过所述目标头结构的Attributes Head的ROI Align层进行ROI Align处理;第六处理子单元,用于通过所述目标头结构的Attributes Head的卷积层进行卷积处理;第七处理子单元,用于通过所述目标头结构的Attributes Head的第一全连接层进行全连接处理;第八处理子单元,用于通过所述目标头结构的Attributes Head的第二全连接层进行细粒度分类;所述分割单元包括:掩膜子单元,用于通过所述目标头结构的Mask Head的ROI Align层进行ROI Align处理,得到掩膜特征;语义分割子单元,用于通过所述目标头结构的Mask Head的语义分割分支进行语义分割处理,得到语义分割特征;融合特征子单元,用于通过所述目标头结构的Mask Head的ROIAlign层对所述语义分割特征和输入所述目标头结构的边界框信息进行ROI Align处理,得到一次融合特征;特征相加子单元,用于通过所述目标头结构的Mask Head的加法层将所述一次融合特征和所述掩膜特征相加。
在一些可选的实施例中,所述第四处理子单元用于:通过所述目标头结构的Detection Head的第二全连接层的分类网络FC-head进行分类;通过所述目标头结构的Detection Head的第二全连接层的回归网络Conv-head进行边界框回归。
在一些可选的实施例中,所述分类回归单元用于:使用基于任务间空间自适应解耦的检测算法,通过所述目标头结构的Detection Head进行分类和边界框回归,其中,对于分类任务和回归任务,分别学习各自适应的proposal和特征提取器。
在一些可选的实施例中,所述第二头结构单元用于:将所述训练图像对应的特征信息、第一边界框信息和第一轮廓信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息;所述第三头结构单元用于:将所述训练图像对应的特征信息、第二边界框信息和第二轮廓信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息。
在一些可选的实施例中,所述提取特征模块包括:图像确定单元,用于确定包含所述训练图像的多个训练图像;图像缩放单元,用于将各训练图像的宽和高中的长边缩放至预设长度值,将各训练图像的宽和高中的短边缩放至预设长度范围中的任意值;图像填充单元,用于以所述多个训练图像中短边的最大值为基准值,将其余训练图像的短边填充至所述基准值;第一信息单元,用于将所述多个训练图像以批的形式输入所述特征提取模块,通过所述特征提取模块对所述多个训练图像进行特征提取,得到所述多个训练图像对应的特征信息;第二信息单元,用于基于所述多个训练图像对应的特征信息,获取所述训练图像对应的特征信息。
第四方面,本申请提供了一种服装细粒度分割装置,所述服装细粒度分割装置包括:待分割图像模块,用于获取待分割图像;图像分割模块,用于将所述待分割图像输入服装细粒度分割模型,得到所述待分割图像对应的预测信息;其中,所述服装细粒度分割模型是利用上述任一项模型训练方法训练得到的。
第五方面,本申请提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项模型训练方法的步骤或者上述服装细粒度分割方法的步骤。
第六方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序或者服装细粒度分割模型;所述计算机程序被处理器执行时实现上述任一项模型训练方法的步骤或者上述服装细粒度分割方法的步骤;
所述服装细粒度分割模型是利用上述任一项模型训练方法训练得到的。
附图说明
下面结合附图和实施例对本申请进一步说明。
图1是本申请实施例提供的一种模型训练方法的流程示意图;
图2是本申请实施例提供的一种得到特征信息的流程示意图;
图3是本申请实施例提供的另一种得到特征信息的流程示意图;
图4是本申请实施例提供的一种进行特征提取的流程示意图;
图5是本申请实施例提供的一种ResNext101的结构示意图;
图6是本申请实施例提供的一种处理图像的流程示意图;
图7是本申请实施例提供的一种得到预测信息的流程示意图;
图8是本申请实施例提供的一种利用目标头结构进行信息处理的流程示意图;
图9是本申请实施例提供的一种利用Detection Head进行分类和边界框回归的流程示意图;
图10是本申请实施例提供的一种利用Attributes Head进行细粒度分类的流程示意图;
图11是本申请实施例提供的一种利用Mask Head进行分割的流程示意图;
图12是本申请实施例提供的一种目标头结构的结构示意图;
图13是本申请实施例提供的再一种得到特征信息的流程示意图;
图14是本申请实施例提供的又一种模型训练方法的流程示意图;
图15是本申请实施例提供的一种服装细粒度分割方法的流程示意图;
图16是本申请实施例提供的一种模型训练装置的结构示意图;
图17是本申请实施例提供的一种提取特征模块的结构示意图;
图18是本申请实施例提供的另一种提取特征模块的结构示意图;
图19是本申请实施例提供的一种残差块单元的结构示意图;
图20是本申请实施例提供的一种图像预测模块的结构示意图;
图21是本申请实施例提供的另一种图像预测模块的结构示意图;
图22是本申请实施例提供的一种分类回归单元的结构示意图;
图23是本申请实施例提供的一种细粒度分类单元的结构示意图;
图24是本申请实施例提供的一种分割单元的结构示意图;
图25是本申请实施例提供的再一种提取特征模块的结构示意图;
图26是本申请实施例提供的一种服装细粒度分割装置的结构示意图;
图27是本申请实施例提供的一种电子设备的结构框图;
图28是本申请实施例提供的一种用于实现模型训练方法或者服装细粒度分割方法的程序产品的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
参见图1,本申请实施例提供了一种模型训练方法,所述模型训练方法包括步骤S101~S104。
步骤S101:获取训练图像及其对应的标注信息,所述训练图像对应的标注信息用于指示所述训练图像中的服装的标注边界框、标注细粒度类别和标注轮廓。
其中,训练图像的数量例如是5万个,8万个或者10万个。训练图像例如可以是上衣图像、长裤图像、短裤图像、围巾图像等。
步骤S102:将所述训练图像输入预设深度神经网络的特征提取模块,通过所述特征提取模块对所述训练图像进行特征提取,得到所述训练图像对应的特征信息,所述特征提取模块采用CBNet和FPN相结合的架构,CBNet中包含两个级联的ResNeXT-101。其中,预设深度神经网络可以采用HTC(Hybrid Task Cascade)网络。
步骤S103:将所述训练图像对应的特征信息输入所述预设深度神经网络的预测模块,通过所述预测模块对所述训练图像进行分割,得到所述训练图像对应的预测信息,所述训练图像对应的预测信息用于指示所述训练图像中的服装的预测边界框、预测细粒度类别和预测轮廓。
步骤S104:利用所述训练图像对应的预测信息和标注信息,对所述预设深度神经网络进行训练,得到服装细粒度分割模型。
由此,将训练图像输入预设深度神经网络的特征提取模块,得到训练图像对应的特征信息,利用训练图像对应的预测信息和标注信息,对预设深度神经网络进行训练,得到服装细粒度分割模型,本申请采用CBNet和FPN相结合的架构作为特征提取模块,相比于传统的特征提取网络,CBNet的特征提取能力更强,实例分割精度更高,由此得到的服装细粒度分割模型更加稳定,准确率更高,满足实际应用中的需要。
参见图2,在一些实施方式中,所述步骤S102可以包括步骤S1~S12。
步骤S1:将所述训练图像输入所述特征提取模块的Stage1,通过Stage1对所述训练图像进行特征提取,得到所述训练图像对应的特征图F1。
步骤S2:将所述训练图像对应的特征图F1输入所述特征提取模块的Stage1_1,通过Stage1_1对所述训练图像对应的特征图F1进行特征提取,得到所述训练图像对应的特征图F2。
步骤S3:将所述训练图像对应的特征图F1输入所述特征提取模块的Stage2,通过Stage2对所述训练图像对应的特征图F1进行特征提取,得到所述训练图像对应的特征图F3。
步骤S4:将所述训练图像对应的特征图F3和特征图F2相加后输入所述特征提取模块的Stage2_2,通过Stage2_2对所述训练图像对应的特征图F3和特征图F2的相加结果进行特征提取,得到所述训练图像对应的特征图F4。
步骤S5:将所述训练图像对应的特征图F3输入所述特征提取模块的Stage3,通过Stage3对所述训练图像对应的特征图F3进行特征提取,得到所述训练图像对应的特征图F5。
步骤S6:将所述训练图像对应的特征图F5和特征图F4相加后输入所述特征提取模块的Stage3_3,通过Stage3_3对所述训练图像对应的特征图F5和特征图F4的相加结果进行特征提取,得到所述训练图像对应的特征图F6。
步骤S7:将所述训练图像对应的特征图F5输入所述特征提取模块的Stage4,通过Stage4对所述训练图像对应的特征图F5进行特征提取,得到所述训练图像对应的特征图F7。
步骤S8:将所述训练图像对应的特征图F7和特征图F6相加后输入所述特征提取模块的Stage4_4,通过Stage4_4对所述训练图像对应的特征图F7和特征图F6的相加结果进行特征提取,得到所述训练图像对应的特征图F8,并将所述训练图像对应的特征图F8作为所述训练图像对应的融合特征图M3。
步骤S9:将所述训练图像对应的特征图F8输入所述特征提取模块的第三插值单元,通过所述第三插值单元对所述训练图像对应的特征图F8进行插值,得到所述训练图像对应的特征图F8的插值结果,并将所述训练图像对应的特征图F8的插值结果和所述训练图像对应的特征图F6相加,得到所述训练图像对应的融合特征图M2。
步骤S10:将所述训练图像对应的融合特征图M2输入所述特征提取模块的第二插值单元,通过所述第二插值单元对所述训练图像对应的融合特征图M2进行插值,得到所述训练图像对应的融合特征图M2的插值结果,并将所述训练图像对应的融合特征图M2的插值结果和所述训练图像对应的特征图F4相加,得到所述训练图像对应的融合特征图M1。
步骤S11:将所述训练图像对应的融合特征图M1输入所述特征提取模块的第一插值单元,通过所述第一插值单元对所述训练图像对应的融合特征图M1进行插值,得到所述训练图像对应的融合特征图M1的插值结果,并将所述训练图像对应的融合特征图M1的插值结果和所述训练图像对应的特征图F2相加,得到所述训练图像对应的融合特征图M0。
步骤S12:将所述训练图像对应的融合特征图M3至融合特征图M0作为所述训练图像对应的特征信息。
由此,将训练图像输入特征提取模块,利用特征提取模块的多个stage得到训练图像对应的特征图,再利用特征提取模块的多个插值单元进行插值,得到对应的插值结果,结合相应的特征图,得到相应的融合特征图,由此得到训练图像对应的特征信息,该方法智能化水平较高。
在一具体应用中,对于CBNet中的每个ResNeXT-101,对输入图像I进行特征提取,得到输入图像I对应的特征信息的流程如图3所示。
每个Stage进入下一个Stage之前,将此Stage的输出特征作为与其横向并排的Stage的输入特征。举例说明,输入图像I经过Stage1后,生成特征图F1,F1作为Stage1横向并排的Stage(Stage1_1)的输入特征,F1经过Stage1_1后生成特征图F2;F1经过Stage2后,生成特征图F3,F3与F2相加后作为Stage2横向并排的Stage(Stage2_2)的输入特征,经过Stage2_2后生成特征图F4;F3经过Stage3后,生成特征图F5,F5与F4相加后作为Stage3横向并排的Stage(Stage3_3)的输入特征,经过Stage3_3后生成特征图F6;F5经过Stage4后,生成特征图F7,F7与F6相加后作为Stage4横向并排的Stage(Stage4_4)的输入特征,经过Stage4_4后生成特征图F8。
提取上述过程生成的F2、F4、F6和F8,F8经过插值后,形成与F6相同大小、相同通道的特征图,将F8和F6相加来融合Stage4_4与Stage3_3阶段的特征,得到M2;M2经过插值后,形成与F4相同大小、相同通道的特征图,将M2与F4相加来融合Stage3_3与Stage2_2阶段的特征,得到M1;M1经过插值后,形成与F2相同大小、相同通道的特征图,将M1与F2相加来融合Stage2_2与Stage1_1阶段的特征,得到M0;将F8直接作为M3输出。
参见图4,在一些实施方式中,以所述Stage1、Stage2、Stage3、Stage4、Stage1_1、Stage2_2、Stage3_3、Stage4_4中的任意一个为目标Stage,通过所述目标Stage对所述训练图像进行特征提取的方法可以包括步骤S201~S203。
步骤S201:通过所述目标Stage的多个残差块分别对输入所述目标Stage的图像进行处理。其中,残差块可以用Residual Block表示,目标Stage可以由多个残差块横向构成。
步骤S202:通过所述目标Stage的第一加法层将各所述残差块的处理结果相加。
步骤S203:通过所述目标Stage的第二加法层将各所述残差块的处理结果的相加结果与输入所述目标Stage的图像相加。
由此,目标Stage的每个残差块可以对输入目标Stage的图像进行处理,得到精度较高的处理结果。
参见图5,在一些实施方式中,每个ResNext101中的残差块可以包括三个连续的卷积层,第一层输入通道是256,输出通道是4,卷积核尺寸是1×1;第二层输入通道是4,输出通道是4,卷积核尺寸是3×3;第三层输入通道是4,输出通道是256,卷积核尺寸是1×1。每一个残差块由32组残差单元分支结构并列组成,最终在通道上做加性运算。
参见图6,在一些实施方式中,所述步骤S201可以包括步骤S301~S303。
步骤S301:通过所述目标Stage的各所述残差块的第一卷积层分别对输入所述目标Stage的图像进行卷积处理,得到各所述残差块对应的第一卷积结果。其中,第一卷积层的卷积核的大小可以是1×1。
步骤S302:通过所述目标Stage的各所述残差块的可变形卷积层分别对各所述残差块对应的第一卷积结果进行卷积处理,得到各所述残差块对应的可变形卷积结果。可变形卷积层例如是DCN(Deformable Convolution Net)层。可变形卷积层的卷积核可以对输入特征的采样产生偏移,从而对场景中变形的物体有着更好的鲁棒性。
步骤S303:通过所述目标Stage的各所述残差块的第二卷积层分别对各所述残差块对应的可变形卷积结果进行卷积处理。其中,第二卷积层的卷积核的大小可以是1×1。
由此,利用目标Stage的每个残差块的第一卷积层、可变形卷积层和第二卷积层,可以对输入目标Stage的图像更细致地提取特征。
参见图7,在一些实施方式中,所述步骤S103可以包括步骤S401~S405。
步骤S401:将所述训练图像对应的特征信息输入所述预设深度神经网络的RPN网络,通过所述RPN网络进行候选框生成和边界框回归,得到所述训练图像对应的基准边界框信息。
步骤S402:将所述训练图像对应的特征信息和基准边界框信息输入所述预测模块的第一头结构,通过所述第一头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第一类别信息、第一边界框信息、第一细粒度类别信息和第一轮廓信息。其中,第一头结构可以用h1来表示。
步骤S403:将所述训练图像对应的特征信息和第一边界框信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息。其中,第二头结构可以用h2来表示。
步骤S404:将所述训练图像对应的特征信息和第二边界框信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息。其中,第三头结构可以用h3来表示。
步骤S405:基于所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息,获取所述训练图像对应的预测信息。
由此,将训练图像对应的特征信息输入预设深度神经网络的RPN网络,得到训练图像对应的基准边界框信息,利用预测模块的第一头结构、第二头结构和第三头结构得到相应的类别信息、边界框信息、细粒度类别信息和轮廓信息,从而获取训练图像对应的预测信息。
参见图8,在一些实施方式中,以所述第一头结构至所述第三头结构中的任意一个为目标头结构,通过所述目标头结构进行分类、边界框回归、细粒度分类和分割的方法可以包括步骤S501~S503。
步骤S501:通过所述目标头结构的Detection Head进行分类和边界框回归。
步骤S502:通过所述目标头结构的Attributes Head进行细粒度分类。
步骤S503:通过所述目标头结构的Mask Head进行分割。
由此,可以利用目标头结构的Detection Head进行分类和边界框回归,利用目标头结构的Attributes Head进行细粒度分类,利用目标头结构的Mask Head进行分割。
参见图9-11,在一些实施方式中,所述步骤S501可以包括步骤S601~S604。
步骤S601:通过所述目标头结构的Detection Head的ROI Pooling层进行ROIPooling处理。
步骤S602:通过所述目标头结构的Detection Head的卷积层进行卷积处理。
步骤S603:通过所述目标头结构的Detection Head的第一全连接层进行全连接处理。
步骤S604:通过所述目标头结构的Detection Head的第二全连接层进行分类和边界框回归。
所述步骤S502可以包括步骤S701~S704。
步骤S701:通过所述目标头结构的Attributes Head的ROI Align层进行ROIAlign处理。
步骤S702:通过所述目标头结构的Attributes Head的卷积层进行卷积处理。
步骤S703:通过所述目标头结构的Attributes Head的第一全连接层进行全连接处理。
步骤S704:通过所述目标头结构的Attributes Head的第二全连接层进行细粒度分类。
所述步骤S503可以包括步骤S801~S804。
步骤S801:通过所述目标头结构的Mask Head的ROI Align层进行ROI Align处理,得到掩膜特征。
步骤S802:通过所述目标头结构的Mask Head的语义分割分支进行语义分割处理,得到语义分割特征。
步骤S803:通过所述目标头结构的Mask Head的ROI Align层对所述语义分割特征和输入所述目标头结构的边界框信息进行ROI Align处理,得到一次融合特征。
步骤S804:通过所述目标头结构的Mask Head的加法层将所述一次融合特征和所述掩膜特征相加。
由此,通过目标头结构的Mask Head进行分割时,可以采用目标头结构的MaskHead的语义分割分支进行语义分割处理,得到语义分割特征,从而获得更好的空间信息,通过目标头结构的Mask Head的ROI Align层对语义分割特征和输入目标头结构的边界框信息进行ROI Align处理,得到一次融合特征,再通过目标头结构的Mask Head的加法层一次融合特征和所述掩膜特征相加,由此训练得到的服装细粒度分割模型分辨目标的能力较强。
参见图12,在一具体应用中,Bi(i=1,2,3)表示目标头结构的Detection Head的分类与回归分支,Hi(i=1,2,3)表示目标头结构的Mask Head的模板分支,S表示目标头结构的Mask Head的语义分割分支。
在相邻头结构hi(i=1,2,3)的模板分支(Hi)之间增加一条连接,提供模板分支的信息流,让Hi+1知晓Hi的特征。将Hi的特征经过一个1x1的卷积做特征嵌入(featureembedding),然后输入到Hi+1,这样Hi+1既能得到特征提取模块的特征,也能得到Hi的特征。
在一些实施方式中,所述步骤S604可以包括:通过所述目标头结构的DetectionHead的第二全连接层的分类网络FC-head进行分类;通过所述目标头结构的DetectionHead的第二全连接层的回归网络Conv-head进行边界框回归。
由此,可以利用目标头结构的Detection Head的第二全连接层的分类网络FC-head进行分类,利用目标头结构的Detection Head的第二全连接层的回归网络Conv-head进行边界框回归。
在一些实施方式中,所述步骤S501可以包括:使用基于任务间空间自适应解耦的检测算法,通过所述目标头结构的Detection Head进行分类和边界框回归,其中,对于分类任务和回归任务,分别学习各自适应的proposal和特征提取器。基于任务间空间自适应解耦可以用TSD(task-aware spatial disentanglement)来表示。
由此,一方面,采用基于任务间空间自适应解耦的检测算法可以提高服装细粒度分割模型的检测准确度;另一方面,对于分类任务和回归任务,输入和特征提取器是不共享的,可以最大程度地减少由于优化目标不一样带来的冲突,进而显著提升服装细粒度分割模型的性能。
在一具体应用中,对于分类任务,通过以下公式可以保证分类任务准确度比传统方法更高,约束TSD的置信度至少比sibling head高mc:
其中,cls表示分类分支,Mcls表示TSD的分类分支的渐进约束,H1表示将特征转换为预测特定类型和定位对象的函数,H1 D表示将分类和定位任务解缠定义的新的函数,Fl表示第l个头输出的特征图(l是字母“l”),τc表示调节幅值的预定义标量,ΔC表示point-wise的形变,H(y|·)表示对于第y类的预测置信度,mc是预定的Margin。
对于回归任务,通过以下公式保证回归任务准确度比传统方法更高,约束TSD的预测结果的IOU至少比sibling head的结果高mr:
在整个训练过程中,整体检测器的优化函数为:
在一些实施方式中,所述步骤S403可以包括:将所述训练图像对应的特征信息、第一边界框信息和第一轮廓信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息。
所述步骤S404可以包括:将所述训练图像对应的特征信息、第二边界框信息和第二轮廓信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息。
由此,在利用第一头结构、第二头结构和第三头结构进行分类、边界框回归、细粒度分类和分割时,输入的信息可以包括训练图像对应的轮廓信息,由此得到的服装细粒度分割模型的精度较高。
参见图13,在一些实施方式中,所述步骤S102可以包括步骤S901~S905。
步骤S901:确定包含所述训练图像的多个训练图像。
步骤S902:将各训练图像的宽和高中的长边缩放至预设长度值,将各训练图像的宽和高中的短边缩放至预设长度范围中的任意值。
步骤S903:以所述多个训练图像中短边的最大值为基准值,将其余训练图像的短边填充至所述基准值。
步骤S904:将所述多个训练图像以批的形式输入所述特征提取模块,通过所述特征提取模块对所述多个训练图像进行特征提取,得到所述多个训练图像对应的特征信息。
步骤S905:基于所述多个训练图像对应的特征信息,获取所述训练图像对应的特征信息。
由此,通过对训练图像的长边和短边进行对应的缩放处理,可以实现数据增广,使训练图像尽可能的多样化,使训练得到的服装细粒度分割模型具有较强的泛化能力。
在一具体应用中,针对每一张训练图像Ii,比较其自身的宽Ii_w和高Ii_h,将宽Ii_w和高Ii_h中的较长边max(Ii_w,Ii_h)缩放至L,较短边min(Ii_w,Ii_h)缩放至S,S从S1~S2之间随机选择。
将多张训练图像Ii(i=1,2,3…n)以批处理(batch)的形式I输入至特征提取模块,I中所有图像的长边为L,图像的短边为了统一尺寸,则以整个I中图像的短边Si(i=1,2,3…n)中最大的值max(Si)为基准S_base,其余的Si加padding至S_base。
具体公式如下:
S_base=Si+padding
参见图14,本申请实施例还提供了一种模型训练方法,所述模型训练方法包括以下步骤:
对原始数据进行数据增广,得到增广后的数据;
将增广后的数据输入HTC(Hybrid Task Cascade)网络中,利用HTC网络输出对应的特征信息;
将对应的特征信息输入头结构,利用头结构得到输出结果,其中,头结构包括Detection Head、Attributes Head和Mask Head,在Detection Head加入基于任务间空间自适应解耦(task-aware spatial disentanglement,TSD)的检测算法。
服装的视觉分析是近年来越来越受到关注的话题。从图片中识别服装产品和相关属性可以增强消费者的购物体验,并提高时尚专业人士的工作效率。
现有技术CN111199248A公开了一种基于深度学习目标检测算法的服装属性识别检测方法,通过对原始服装图像进行标注和分类,获取服装的属性,如:袖子、领子等,然后对服装图片进行翻转、平移等预处理,再予以基于深度学习的目标检测算法对服装属性进行识别检测。所述对服装图片进行预处理是指对图片服装属性的位置进行标注并对其进行分类,然后使用传统图像算法对图片进行翻转和平移等预处理达到数据增广的效果。所述基于深度学习的目标检测算法的服装属性识别检测方法是首先使用深度卷积神经网络对服装属性特征进行充分提取,然后使用目标检测算法特征金字塔对多层特征进行融合,最后使用全卷积神经网络对服装属性进行识别和检测。能够达到90%的识别准确率和82%的检测精度,鲁棒性和泛化能力强,可适用于计算机视觉领域中的服装属性识别和检测。
尽管上述方法解决了相关的服装属性识别的问题,但是在设计这些服装时并未考虑到时尚内部人士的需求,这可能是服装设计和计算机视觉方面的研究差距所致。
为了解决这个问题,本发明采用基于深度学习计算机视觉的方法,设计一种更加稳定,准确率更高的服装细粒度分割方法,通过来自消费者拍摄的照片可以识别出服装产品和服装产品的相关属性,以此来增强消费者的购物体验。服装产品的相关属性即袖子、领子、裤脚等。
其中,细粒度分割属于细粒度图像分类技术领域,细粒度图像分类是在区分出基本类别的基础上,进行更精细的子类划分,如区分鸟的种类、车的款式、服装的种类等。
参见图15,本申请实施例还提供了一种服装细粒度分割方法,所述服装细粒度分割方法包括步骤S21~S22。
步骤S21:获取待分割图像。
步骤S22:将所述待分割图像输入服装细粒度分割模型,得到所述待分割图像对应的预测信息。
其中,所述服装细粒度分割模型是利用上述任一项模型训练方法训练得到的。
由此,用户将待分割图像输入服装细粒度分割模型,即可得到待分割图像对应的预测信息,预测信息可以包括待分割图像的预测边界框、预测细粒度类别和预测轮廓,该方法可以用于识别服装类别和服装属性,提升用户的使用体验。
参见图16,本申请实施例还提供了一种模型训练装置,其具体实现方式与上述模型训练方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。
所述模型训练装置包括:数据获取模块101,用于获取训练图像及其对应的标注信息,所述训练图像对应的标注信息用于指示所述训练图像中的服装的标注边界框、标注细粒度类别和标注轮廓;提取特征模块102,用于将所述训练图像输入预设深度神经网络的特征提取模块,通过所述特征提取模块对所述训练图像进行特征提取,得到所述训练图像对应的特征信息,所述特征提取模块采用CBNet和FPN相结合的架构,CBNet中包含两个级联的ResNeXT-101;图像预测模块103,用于将所述训练图像对应的特征信息输入所述预设深度神经网络的预测模块,通过所述预测模块对所述训练图像进行分割,得到所述训练图像对应的预测信息,所述训练图像对应的预测信息用于指示所述训练图像中的服装的预测边界框、预测细粒度类别和预测轮廓;模型训练模块104,用于利用所述训练图像对应的预测信息和标注信息,对所述预设深度神经网络进行训练,得到服装细粒度分割模型。
参见图17,在一些实施方式中,所述提取特征模块102可以包括:第一特征图单元1,用于将所述训练图像输入所述特征提取模块的Stage1,通过Stage1对所述训练图像进行特征提取,得到所述训练图像对应的特征图F1;第二特征图单元2,用于将所述训练图像对应的特征图F1输入所述特征提取模块的Stage1_1,通过Stage1_1对所述训练图像对应的特征图F1进行特征提取,得到所述训练图像对应的特征图F2;第三特征图单元3,用于将所述训练图像对应的特征图F1输入所述特征提取模块的Stage2,通过Stage2对所述训练图像对应的特征图F1进行特征提取,得到所述训练图像对应的特征图F3;第四特征图单元4,用于将所述训练图像对应的特征图F3和特征图F2相加后输入所述特征提取模块的Stage2_2,通过Stage2_2对所述训练图像对应的特征图F3和特征图F2的相加结果进行特征提取,得到所述训练图像对应的特征图F4;第五特征图单元5,用于将所述训练图像对应的特征图F3输入所述特征提取模块的Stage3,通过Stage3对所述训练图像对应的特征图F3进行特征提取,得到所述训练图像对应的特征图F5;第六特征图单元6,用于将所述训练图像对应的特征图F5和特征图F4相加后输入所述特征提取模块的Stage3_3,通过Stage3_3对所述训练图像对应的特征图F5和特征图F4的相加结果进行特征提取,得到所述训练图像对应的特征图F6;第七特征图单元7,用于将所述训练图像对应的特征图F5输入所述特征提取模块的Stage4,通过Stage4对所述训练图像对应的特征图F5进行特征提取,得到所述训练图像对应的特征图F7;第三融合特征单元8,用于将所述训练图像对应的特征图F7和特征图F6相加后输入所述特征提取模块的Stage4_4,通过Stage4_4对所述训练图像对应的特征图F7和特征图F6的相加结果进行特征提取,得到所述训练图像对应的特征图F8,并将所述训练图像对应的特征图F8作为所述训练图像对应的融合特征图M3;第二融合特征单元9,用于将所述训练图像对应的特征图F8输入所述特征提取模块的第三插值单元,通过所述第三插值单元对所述训练图像对应的特征图F8进行插值,得到所述训练图像对应的特征图F8的插值结果,并将所述训练图像对应的特征图F8的插值结果和所述训练图像对应的特征图F6相加,得到所述训练图像对应的融合特征图M2;第一融合特征单元10,用于将所述训练图像对应的融合特征图M2输入所述特征提取模块的第二插值单元,通过所述第二插值单元对所述训练图像对应的融合特征图M2进行插值,得到所述训练图像对应的融合特征图M2的插值结果,并将所述训练图像对应的融合特征图M2的插值结果和所述训练图像对应的特征图F4相加,得到所述训练图像对应的融合特征图M1;第零融合特征单元11,用于将所述训练图像对应的融合特征图M1输入所述特征提取模块的第一插值单元,通过所述第一插值单元对所述训练图像对应的融合特征图M1进行插值,得到所述训练图像对应的融合特征图M1的插值结果,并将所述训练图像对应的融合特征图M1的插值结果和所述训练图像对应的特征图F2相加,得到所述训练图像对应的融合特征图M0;特征信息单元12,用于将所述训练图像对应的融合特征图M3至融合特征图M0作为所述训练图像对应的特征信息。
参见图18,在一些实施方式中,以所述Stage1、Stage2、Stage3、Stage4、Stage1_1、Stage2_2、Stage3_3、Stage4_4中的任意一个为目标Stage,所述提取特征模块102可以包括:残差块单元201,用于通过所述目标Stage的多个残差块分别对输入所述目标Stage的图像进行处理;处理结果单元202,用于通过所述目标Stage的第一加法层将各所述残差块的处理结果相加;图像相加单元203,用于通过所述目标Stage的第二加法层将各所述残差块的处理结果的相加结果与输入所述目标Stage的图像相加。
参见图19,在一些实施方式中,所述残差块单元201可以包括:第一卷积子单元301,用于通过所述目标Stage的各所述残差块的第一卷积层分别对输入所述目标Stage的图像进行卷积处理,得到各所述残差块对应的第一卷积结果;第二卷积子单元302,用于通过所述目标Stage的各所述残差块的可变形卷积层分别对各所述残差块对应的第一卷积结果进行卷积处理,得到各所述残差块对应的可变形卷积结果;第三卷积子单元303,用于通过所述目标Stage的各所述残差块的第二卷积层分别对各所述残差块对应的可变形卷积结果进行卷积处理。
参见图20,在一些实施方式中,所述图像预测模块103可以包括:基准边界框单元401,用于将所述训练图像对应的特征信息输入所述预设深度神经网络的RPN网络,通过所述RPN网络进行候选框生成和边界框回归,得到所述训练图像对应的基准边界框信息;第一头结构单元402,用于将所述训练图像对应的特征信息和基准边界框信息输入所述预测模块的第一头结构,通过所述第一头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第一类别信息、第一边界框信息、第一细粒度类别信息和第一轮廓信息;第二头结构单元403,用于将所述训练图像对应的特征信息和第一边界框信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息;第三头结构单元404,用于将所述训练图像对应的特征信息和第二边界框信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息;预测信息单元405,用于基于所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息,获取所述训练图像对应的预测信息。
参见图21,在一些实施方式中,以所述第一头结构至所述第三头结构中的任意一个为目标头结构,所述图像预测模块103可以包括:分类回归单元501,用于通过所述目标头结构的Detection Head进行分类和边界框回归;细粒度分类单元502,用于通过所述目标头结构的Attributes Head进行细粒度分类;分割单元503,用于通过所述目标头结构的MaskHead进行分割。
参见图22-24,在一些实施方式中,所述分类回归单元501可以包括:第一处理子单元601,用于通过所述目标头结构的Detection Head的ROI Pooling层进行ROI Pooling处理;第二处理子单元602,用于通过所述目标头结构的Detection Head的卷积层进行卷积处理;第三处理子单元603,用于通过所述目标头结构的Detection Head的第一全连接层进行全连接处理;第四处理子单元604,用于通过所述目标头结构的Detection Head的第二全连接层进行分类和边界框回归;所述细粒度分类单元502可以包括:第五处理子单元701,用于通过所述目标头结构的Attributes Head的ROI Align层进行ROI Align处理;第六处理子单元702,用于通过所述目标头结构的Attributes Head的卷积层进行卷积处理;第七处理子单元703,用于通过所述目标头结构的Attributes Head的第一全连接层进行全连接处理;第八处理子单元704,用于通过所述目标头结构的Attributes Head的第二全连接层进行细粒度分类;所述分割单元503可以包括:掩膜子单元801,用于通过所述目标头结构的Mask Head的ROI Align层进行ROI Align处理,得到掩膜特征;语义分割子单元802,用于通过所述目标头结构的Mask Head的语义分割分支进行语义分割处理,得到语义分割特征;融合特征子单元803,用于通过所述目标头结构的Mask Head的ROI Align层对所述语义分割特征和输入所述目标头结构的边界框信息进行ROI Align处理,得到一次融合特征;特征相加子单元804,用于通过所述目标头结构的Mask Head的加法层将所述一次融合特征和所述掩膜特征相加。
在一些实施方式中,所述第四处理子单元604可以用于:通过所述目标头结构的Detection Head的第二全连接层的分类网络FC-head进行分类;通过所述目标头结构的Detection Head的第二全连接层的回归网络Conv-head进行边界框回归。
在一些实施方式中,所述分类回归单元501可以用于:使用基于任务间空间自适应解耦的检测算法,通过所述目标头结构的Detection Head进行分类和边界框回归,其中,对于分类任务和回归任务,分别学习各自适应的proposal和特征提取器。
在一些实施方式中,所述第二头结构单元403可以用于:将所述训练图像对应的特征信息、第一边界框信息和第一轮廓信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息;所述第三头结构单元404可以用于:将所述训练图像对应的特征信息、第二边界框信息和第二轮廓信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息。
参见图25,在一些实施方式中,所述提取特征模块102可以包括:图像确定单元901,用于确定包含所述训练图像的多个训练图像;图像缩放单元902,用于将各训练图像的宽和高中的长边缩放至预设长度值,将各训练图像的宽和高中的短边缩放至预设长度范围中的任意值;图像填充单元903,用于以所述多个训练图像中短边的最大值为基准值,将其余训练图像的短边填充至所述基准值;第一信息单元904,用于将所述多个训练图像以批的形式输入所述特征提取模块,通过所述特征提取模块对所述多个训练图像进行特征提取,得到所述多个训练图像对应的特征信息;第二信息单元905,用于基于所述多个训练图像对应的特征信息,获取所述训练图像对应的特征信息。
参见图26,本申请实施例还提供了一种服装细粒度分割装置,其具体实现方式与上述服装细粒度分割方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。
所述服装细粒度分割装置包括:待分割图像模块21,用于获取待分割图像;图像分割模块22,用于将所述待分割图像输入服装细粒度分割模型,得到所述待分割图像对应的预测信息;其中,所述服装细粒度分割模型是利用上述任一项模型训练方法训练得到的。
参见图27,本申请实施例还提供了一种电子设备200,电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。
存储器210可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)211和/或高速缓存存储器212,还可以进一步包括只读存储器(ROM)213。
其中,存储器210还存储有计算机程序,计算机程序可以被处理器220执行,使得处理器220执行本申请实施例中模型训练方法或者服装细粒度分割方法的步骤,其具体实现方式与上述模型训练方法或者服装细粒度分割方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。
存储器210还可以包括具有至少一个程序模块215的实用工具214,这样的程序模块215包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
相应的,处理器220可以执行上述计算机程序,以及可以执行实用工具214。
总线230可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信,还可与一个或者多个能够与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序或者服装细粒度分割模型,所述计算机程序被执行时实现本申请实施例中模型训练方法或者服装细粒度分割方法的步骤,其具体实现方式与上述模型训练方法或者服装细粒度分割方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。所述服装细粒度分割模型是利用本申请实施例中的模型训练方法训练得到的。
图28示出了本实施例提供的用于实现上述模型训练方法的程序产品300,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品300不限于此,在本申请中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等,还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本申请从使用目的上,效能上,进步及新颖性等观点进行阐述,已符合专利法所强调的功能增进及使用要件,本申请以上的说明书及说明书附图,仅为本申请的较佳实施例而已,并非以此局限本申请,因此,凡一切与本申请构造,装置,特征等近似、雷同的,即凡依本申请专利申请范围所作的等同替换或修饰等,皆应属本申请的专利申请保护的范围之内。
Claims (16)
1.一种模型训练方法,其特征在于,所述模型训练方法包括:
获取训练图像及其对应的标注信息,所述训练图像对应的标注信息用于指示所述训练图像中的服装的标注边界框、标注细粒度类别和标注轮廓;
将所述训练图像输入预设深度神经网络的特征提取模块,通过所述特征提取模块对所述训练图像进行特征提取,得到所述训练图像对应的特征信息,所述特征提取模块采用CBNet和FPN相结合的架构,CBNet中包含两个级联的ResNeXT-101;
将所述训练图像对应的特征信息输入所述预设深度神经网络的预测模块,通过所述预测模块对所述训练图像进行分割,得到所述训练图像对应的预测信息,所述训练图像对应的预测信息用于指示所述训练图像中的服装的预测边界框、预测细粒度类别和预测轮廓;
利用所述训练图像对应的预测信息和标注信息,对所述预设深度神经网络进行训练,得到服装细粒度分割模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述将所述训练图像输入预设深度神经网络的特征提取模块,通过所述特征提取模块对所述训练图像进行特征提取,得到所述训练图像对应的特征信息,包括:
将所述训练图像输入所述特征提取模块的Stage1,通过Stage1对所述训练图像进行特征提取,得到所述训练图像对应的特征图F1;
将所述训练图像对应的特征图F1输入所述特征提取模块的Stage1_1,通过Stage1_1对所述训练图像对应的特征图F1进行特征提取,得到所述训练图像对应的特征图F2;
将所述训练图像对应的特征图F1输入所述特征提取模块的Stage2,通过Stage2对所述训练图像对应的特征图F1进行特征提取,得到所述训练图像对应的特征图F3;
将所述训练图像对应的特征图F3和特征图F2相加后输入所述特征提取模块的Stage2_2,通过Stage2_2对所述训练图像对应的特征图F3和特征图F2的相加结果进行特征提取,得到所述训练图像对应的特征图F4;
将所述训练图像对应的特征图F3输入所述特征提取模块的Stage3,通过Stage3对所述训练图像对应的特征图F3进行特征提取,得到所述训练图像对应的特征图F5;
将所述训练图像对应的特征图F5和特征图F4相加后输入所述特征提取模块的Stage3_3,通过Stage3_3对所述训练图像对应的特征图F5和特征图F4的相加结果进行特征提取,得到所述训练图像对应的特征图F6;
将所述训练图像对应的特征图F5输入所述特征提取模块的Stage4,通过Stage4对所述训练图像对应的特征图F5进行特征提取,得到所述训练图像对应的特征图F7;
将所述训练图像对应的特征图F7和特征图F6相加后输入所述特征提取模块的Stage4_4,通过Stage4_4对所述训练图像对应的特征图F7和特征图F6的相加结果进行特征提取,得到所述训练图像对应的特征图F8,并将所述训练图像对应的特征图F8作为所述训练图像对应的融合特征图M3;
将所述训练图像对应的特征图F8输入所述特征提取模块的第三插值单元,通过所述第三插值单元对所述训练图像对应的特征图F8进行插值,得到所述训练图像对应的特征图F8的插值结果,并将所述训练图像对应的特征图F8的插值结果和所述训练图像对应的特征图F6相加,得到所述训练图像对应的融合特征图M2;
将所述训练图像对应的融合特征图M2输入所述特征提取模块的第二插值单元,通过所述第二插值单元对所述训练图像对应的融合特征图M2进行插值,得到所述训练图像对应的融合特征图M2的插值结果,并将所述训练图像对应的融合特征图M2的插值结果和所述训练图像对应的特征图F4相加,得到所述训练图像对应的融合特征图M1;
将所述训练图像对应的融合特征图M1输入所述特征提取模块的第一插值单元,通过所述第一插值单元对所述训练图像对应的融合特征图M1进行插值,得到所述训练图像对应的融合特征图M1的插值结果,并将所述训练图像对应的融合特征图M1的插值结果和所述训练图像对应的特征图F2相加,得到所述训练图像对应的融合特征图M0;
将所述训练图像对应的融合特征图M3至融合特征图M0作为所述训练图像对应的特征信息。
3.根据权利要求2所述的模型训练方法,其特征在于,以所述Stage1、Stage2、Stage3、Stage4、Stage1_1、Stage2_2、Stage3_3、Stage4_4中的任意一个为目标Stage,通过所述目标Stage对所述训练图像进行特征提取,包括:
通过所述目标Stage的多个残差块分别对输入所述目标Stage的图像进行处理;
通过所述目标Stage的第一加法层将各所述残差块的处理结果相加;
通过所述目标Stage的第二加法层将各所述残差块的处理结果的相加结果与输入所述目标Stage的图像相加。
4.根据权利要求3所述的模型训练方法,其特征在于,所述通过所述目标Stage的多个残差块分别对输入所述目标Stage的图像进行处理,包括:
通过所述目标Stage的各所述残差块的第一卷积层分别对输入所述目标Stage的图像进行卷积处理,得到各所述残差块对应的第一卷积结果;
通过所述目标Stage的各所述残差块的可变形卷积层分别对各所述残差块对应的第一卷积结果进行卷积处理,得到各所述残差块对应的可变形卷积结果;
通过所述目标Stage的各所述残差块的第二卷积层分别对各所述残差块对应的可变形卷积结果进行卷积处理。
5.根据权利要求1所述的模型训练方法,其特征在于,所述将所述训练图像对应的特征信息输入所述预设深度神经网络的预测模块,通过所述预测模块对所述训练图像进行分割,得到所述训练图像对应的预测信息,包括:
将所述训练图像对应的特征信息输入所述预设深度神经网络的RPN网络,通过所述RPN网络进行候选框生成和边界框回归,得到所述训练图像对应的基准边界框信息;
将所述训练图像对应的特征信息和基准边界框信息输入所述预测模块的第一头结构,通过所述第一头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第一类别信息、第一边界框信息、第一细粒度类别信息和第一轮廓信息;
将所述训练图像对应的特征信息和第一边界框信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息;
将所述训练图像对应的特征信息和第二边界框信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息;
基于所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息,获取所述训练图像对应的预测信息。
6.根据权利要求5所述的模型训练方法,其特征在于,以所述第一头结构至所述第三头结构中的任意一个为目标头结构,通过所述目标头结构进行分类、边界框回归、细粒度分类和分割,包括:
通过所述目标头结构的Detection Head进行分类和边界框回归;
通过所述目标头结构的Attributes Head进行细粒度分类;
通过所述目标头结构的Mask Head进行分割。
7.根据权利要求6所述的模型训练方法,其特征在于,所述通过所述目标头结构的Detection Head进行分类和边界框回归,包括:
通过所述目标头结构的Detection Head的ROI Pooling层进行ROI Pooling处理;
通过所述目标头结构的Detection Head的卷积层进行卷积处理;
通过所述目标头结构的Detection Head的第一全连接层进行全连接处理;
通过所述目标头结构的Detection Head的第二全连接层进行分类和边界框回归;
所述通过所述目标头结构的Attributes Head进行细粒度分类,包括:
通过所述目标头结构的Attributes Head的ROI Align层进行ROI Align处理;
通过所述目标头结构的Attributes Head的卷积层进行卷积处理;
通过所述目标头结构的Attributes Head的第一全连接层进行全连接处理;
通过所述目标头结构的Attributes Head的第二全连接层进行细粒度分类;
所述通过所述目标头结构的Mask Head进行分割,包括:
通过所述目标头结构的Mask Head的ROI Align层进行ROI Align处理,得到掩膜特征;
通过所述目标头结构的Mask Head的语义分割分支进行语义分割处理,得到语义分割特征;
通过所述目标头结构的Mask Head的ROI Align层对所述语义分割特征和输入所述目标头结构的边界框信息进行ROI Align处理,得到一次融合特征;
通过所述目标头结构的Mask Head的加法层将所述一次融合特征和所述掩膜特征相加。
8.根据权利要求7所述的模型训练方法,其特征在于,所述通过所述目标头结构的Detection Head的第二全连接层进行分类和边界框回归,包括:
通过所述目标头结构的Detection Head的第二全连接层的分类网络FC-head进行分类;
通过所述目标头结构的Detection Head的第二全连接层的回归网络Conv-head进行边界框回归。
9.根据权利要求6所述的模型训练方法,其特征在于,所述通过所述目标头结构的Detection Head进行分类和边界框回归,包括:
使用基于任务间空间自适应解耦的检测算法,通过所述目标头结构的Detection Head进行分类和边界框回归,其中,对于分类任务和回归任务,分别学习各自适应的proposal和特征提取器。
10.根据权利要求5所述的模型训练方法,其特征在于,所述将所述训练图像对应的特征信息和第一边界框信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息,包括:
将所述训练图像对应的特征信息、第一边界框信息和第一轮廓信息输入所述预测模块的第二头结构,通过所述第二头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第二类别信息、第二边界框信息、第二细粒度类别信息和第二轮廓信息;
所述将所述训练图像对应的特征信息和第二边界框信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息,包括:
将所述训练图像对应的特征信息、第二边界框信息和第二轮廓信息输入所述预测模块的第三头结构,通过所述第三头结构进行分类、边界框回归、细粒度分类和分割,得到所述训练图像对应的第三类别信息、第三边界框信息、第三细粒度类别信息和第三轮廓信息。
11.根据权利要求1所述的模型训练方法,其特征在于,所述将所述训练图像输入预设深度神经网络的特征提取模块,通过所述特征提取模块对所述训练图像进行特征提取,得到所述训练图像对应的特征信息,包括:
确定包含所述训练图像的多个训练图像;
将各训练图像的宽和高中的长边缩放至预设长度值,将各训练图像的宽和高中的短边缩放至预设长度范围中的任意值;
以所述多个训练图像中短边的最大值为基准值,将其余训练图像的短边填充至所述基准值;
将所述多个训练图像以批的形式输入所述特征提取模块,通过所述特征提取模块对所述多个训练图像进行特征提取,得到所述多个训练图像对应的特征信息;
基于所述多个训练图像对应的特征信息,获取所述训练图像对应的特征信息。
12.一种服装细粒度分割方法,其特征在于,所述服装细粒度分割方法包括:
获取待分割图像;
将所述待分割图像输入服装细粒度分割模型,得到所述待分割图像对应的预测信息;
其中,所述服装细粒度分割模型是利用权利要求1-11任一项所述的模型训练方法训练得到的。
13.一种模型训练装置,其特征在于,所述模型训练装置包括:
数据获取模块,用于获取训练图像及其对应的标注信息,所述训练图像对应的标注信息用于指示所述训练图像中的服装的标注边界框、标注细粒度类别和标注轮廓;
提取特征模块,用于将所述训练图像输入预设深度神经网络的特征提取模块,通过所述特征提取模块对所述训练图像进行特征提取,得到所述训练图像对应的特征信息,所述特征提取模块采用CBNet和FPN相结合的架构,CBNet中包含两个级联的ResNeXT-101;
图像预测模块,用于将所述训练图像对应的特征信息输入所述预设深度神经网络的预测模块,通过所述预测模块对所述训练图像进行分割,得到所述训练图像对应的预测信息,所述训练图像对应的预测信息用于指示所述训练图像中的服装的预测边界框、预测细粒度类别和预测轮廓;
模型训练模块,用于利用所述训练图像对应的预测信息和标注信息,对所述预设深度神经网络进行训练,得到服装细粒度分割模型。
14.一种服装细粒度分割装置,其特征在于,所述服装细粒度分割装置包括:
待分割图像模块,用于获取待分割图像;
图像分割模块,用于将所述待分割图像输入服装细粒度分割模型,得到所述待分割图像对应的预测信息;
其中,所述服装细粒度分割模型是利用权利要求1-10任一项所述的模型训练方法训练得到的。
15.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-11任一项所述模型训练方法的步骤或者权利要求12所述服装细粒度分割方法的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序或者服装细粒度分割模型;
所述计算机程序被处理器执行时实现权利要求1-11任一项所述模型训练方法的步骤或者权利要求12所述服装细粒度分割方法的步骤;
所述服装细粒度分割模型是利用权利要求1-11任一项所述的模型训练方法训练得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111034024.5A CN113869371A (zh) | 2021-09-03 | 2021-09-03 | 模型训练方法、服装细粒度分割方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111034024.5A CN113869371A (zh) | 2021-09-03 | 2021-09-03 | 模型训练方法、服装细粒度分割方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113869371A true CN113869371A (zh) | 2021-12-31 |
Family
ID=78989553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111034024.5A Pending CN113869371A (zh) | 2021-09-03 | 2021-09-03 | 模型训练方法、服装细粒度分割方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869371A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115887A (zh) * | 2022-07-07 | 2022-09-27 | 中国科学院合肥物质科学研究院 | 基于TSD-Faster RCNN的农作物害虫检测方法及其网络 |
CN115170809A (zh) * | 2022-09-06 | 2022-10-11 | 浙江大华技术股份有限公司 | 图像分割模型训练、图像分割方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145947A (zh) * | 2018-07-17 | 2019-01-04 | 昆明理工大学 | 一种基于部件检测和视觉特征的时尚女装图像细粒度分类方法 |
CN109583481A (zh) * | 2018-11-13 | 2019-04-05 | 杭州电子科技大学 | 一种基于卷积神经网络的细粒度服装的属性识别方法 |
CN111754531A (zh) * | 2020-07-08 | 2020-10-09 | 深延科技(北京)有限公司 | 图像实例分割方法和装置 |
CN111753849A (zh) * | 2020-06-29 | 2020-10-09 | 江南大学 | 基于紧密聚合特征和循环残差学习的检测方法及系统 |
-
2021
- 2021-09-03 CN CN202111034024.5A patent/CN113869371A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145947A (zh) * | 2018-07-17 | 2019-01-04 | 昆明理工大学 | 一种基于部件检测和视觉特征的时尚女装图像细粒度分类方法 |
CN109583481A (zh) * | 2018-11-13 | 2019-04-05 | 杭州电子科技大学 | 一种基于卷积神经网络的细粒度服装的属性识别方法 |
CN111753849A (zh) * | 2020-06-29 | 2020-10-09 | 江南大学 | 基于紧密聚合特征和循环残差学习的检测方法及系统 |
CN111754531A (zh) * | 2020-07-08 | 2020-10-09 | 深延科技(北京)有限公司 | 图像实例分割方法和装置 |
Non-Patent Citations (2)
Title |
---|
徐莹珩等: "基于多重注意力机制的服装图像实例分割", 毛纺科技, vol. 49, no. 4, 30 April 2021 (2021-04-30), pages 25 - 30 * |
钟跃崎: "人工智能技术原理与运用", vol. 2020, 30 September 2020, 东华大学出版社, pages: 200 - 202 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115887A (zh) * | 2022-07-07 | 2022-09-27 | 中国科学院合肥物质科学研究院 | 基于TSD-Faster RCNN的农作物害虫检测方法及其网络 |
CN115115887B (zh) * | 2022-07-07 | 2023-09-12 | 中国科学院合肥物质科学研究院 | 基于TSD-Faster RCNN的农作物害虫检测方法及其网络 |
CN115170809A (zh) * | 2022-09-06 | 2022-10-11 | 浙江大华技术股份有限公司 | 图像分割模型训练、图像分割方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019201787B2 (en) | Compositing aware image search | |
US20180260664A1 (en) | Deep-learning network architecture for object detection | |
TWI559242B (zh) | 視覺化服飾檢索 | |
US20220058429A1 (en) | Method for fine-grained sketch-based scene image retrieval | |
CN111615702B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
WO2020098741A1 (en) | System and method for automatically generating three-dimensional virtual garment model using product description | |
WO2019075130A1 (en) | IMAGE PROCESSING DEVICE AND METHOD | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN113343982B (zh) | 多模态特征融合的实体关系提取方法、装置和设备 | |
CN113762309B (zh) | 对象匹配方法、装置及设备 | |
CN112163577B (zh) | 游戏画面中的文字识别方法、装置、电子设备和存储介质 | |
WO2023151237A1 (zh) | 人脸位姿估计方法、装置、电子设备及存储介质 | |
CN113869371A (zh) | 模型训练方法、服装细粒度分割方法及相关装置 | |
US20230334893A1 (en) | Method for optimizing human body posture recognition model, device and computer-readable storage medium | |
CN114066718A (zh) | 一种图像风格迁移方法、装置、存储介质及终端 | |
CN111507285A (zh) | 人脸属性识别方法、装置、计算机设备和存储介质 | |
KR102352942B1 (ko) | 객체 경계정보의 주석을 입력하는 방법 및 장치 | |
Jiang et al. | Tabcellnet: Deep learning-based tabular cell structure detection | |
CN115035367A (zh) | 图片识别方法、装置及电子设备 | |
CN108694398B (zh) | 一种图像分析方法及装置 | |
CN113869352A (zh) | 模型训练方法、服装检索方法及相关装置 | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN111914809A (zh) | 目标对象定位方法、图像处理方法、装置和计算机设备 | |
CN113111684A (zh) | 神经网络模型的训练方法、装置和图像处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |