CN113869352A

CN113869352A - 模型训练方法、服装检索方法及相关装置

Info

Publication number: CN113869352A
Application number: CN202110936478.5A
Authority: CN
Inventors: 陈海波; 罗志鹏
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-12-31

Abstract

本申请提供一种模型训练方法、服装检索方法及相关装置，模型训练方法包括：获取训练数据集；将各训练图像输入服装检测模型，得到各训练图像对应的预测检测信息；将各训练图像输入服装分割模型，得到各训练图像对应的预测分割信息；将各训练图像及其对应的预测检测信息和预测分割信息输入预设检索网络，得到各训练图像对应的预测检索信息；利用各训练图像对应的标注检索信息和各训练图像对应的预测检索信息，对预设检索网络进行训练，得到服装检索模型。本申请中，利用各训练图像对应的预测检索信息，训练预设检索网络，得到服装检索模型，当上述服装检索模型应用于服装检索时，识别效率与准确度高。

Description

模型训练方法、服装检索方法及相关装置

技术领域

本申请涉及深度学习和计算机视觉技术领域，尤其涉及模型训练方法、服装检索方法及相关装置。

背景技术

服装在我国常说的“衣食住行”中排在首位，成为了人们不可或缺的东西，根据待识别图像信息进行服装检索有着非常重要的应用价值，例如商家或个人可根据获取到的图像信息进行检索，方便商家或客户进行服装的选择与搭配，如何高效且准确地根据待识别图像信息进行服装检索成为了一个关键问题。

随着计算机识别技术的普及，利用图像识别技术对待识别图像信息中的服装信息进行检索，最终的到检索结果的技术方案得到广阔的发展。深度学习是机器学习中一种基于对数据进行表征学习的方法，深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，模仿人脑的机制来解释数据，例如图像，声音和文本等。随着深度学习技术的日渐成熟，基于深度神经卷积网络模型的特征提取技术和模式识别技术较传统的统计机器学习方法得到了巨大的提升，使得目前的服装款式特征描述以及分类方法的准确性和实时性得到了进一步提高。

在一现有技术中，输入多目标服装图像以及辅助分割用的多目标小型图像集，通过提取多目标服装图像和辅助分割用的显著特征信息，得到待分割显著区域及服装显著特征集；基于提取的待分割显著区域进行分割，得到多目标服装图像显著区域初步分割结果；然后，对初步分割结果、包含同类对象的多目标小型图像集的服装显著特征集进行计算服装图像的显著区域的显著值，得到服装图像的显著区域的显著值；根据得到的服装图像的显著区域的显著值，计算多区域服装特征之间的相似度，输出图像分割结果，可以有效地用于有效地分割多目标服装图像。

在另一现有技术中，通过对原始服装图像进行标注和分类，获取服装的属性，如：袖子、领子等，然后对服装图片进行翻转、平移等预处理，再予以基于深度学习的目标检测算法对服装属性进行识别检测。所述对服装图片进行预处理是指对图片服装属性的位置进行标注并对其进行分类，然后使用传统图像算法对图片进行翻转和平移等预处理达到数据增广的效果。所述基于深度学习的目标检测算法的服装属性识别检测方法是首先使用深度卷积神经网络对服装属性特征进行充分提取，然后使用目标检测算法特征金字塔对多层特征进行融合，最后使用全卷积神经网络对服装属性进行识别和检测。

目前的现有技术中，利用大量商业图像检索衣服的准确性和效率均较低，仍然有很大的改进空间。

发明内容

本申请的目的在于提供模型训练方法、服装检索方法及相关装置，解决现有技术中，利用大量商业图像检索服装的准确性和效率均较低，仍然有很大的改进空间的问题。

本申请的目的采用以下技术方案实现：

第一方面，本申请提供了一种模型训练方法，其特征在于，所述模型训练方法包括：获取训练数据集，所述训练数据集中的每个训练数据包括一个训练图像和所述训练图像对应的标注信息，所述训练图像对应的标注信息包括所述训练图像对应的标注检索信息，所述训练图像对应的标注检索信息用于指示与所述训练图像中的服装对应的服装数据库中的服装；将各所述训练图像输入服装检测模型，得到各所述训练图像对应的预测检测信息；将各所述训练图像输入服装分割模型，得到各所述训练图像对应的预测分割信息；将各所述训练图像及其对应的预测检测信息和预测分割信息输入预设检索网络，得到各所述训练图像对应的预测检索信息；利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，对所述预设检索网络进行训练，得到服装检索模型。

该技术方案的有益效果在于：基于训练数据集中的训练图像和训练图像对应的标注信息，得到各训练图像对应的预测检测信息和预测分割信息，基于各训练图像、各训练图像对应的预测检测信息和预测分割信息，得到各训练图像对应的预测检索信息，利用各训练图像对应的预测检索信息，训练预设检索网络，得到服装检索模型；当上述服装检索模型应用于服装检索时，识别效率与准确度高。

在一些可选实施例中，所述训练图像对应的标注信息还包括所述训练图像对应的标注检测信息，所述训练图像对应的标注检测信息包括所述训练图像对应的标注分类信息和标注检测框回归信息，所述方法还包括：利用各所述训练图像及其对应的标注检测信息训练预设检测网络，得到服装检测模型，所述预设检测网络包括检测RPN网络、ResNeXt50网络以及第一检测头结构至第三检测头结构；其中，所述利用各所述训练图像及其对应的标注检测信息训练预设检测网络，得到服装检测模型，包括：针对每个所述训练图像，执行以下处理：将所述训练图像输入所述检测RPN网络，得到所述训练图像对应的ROI信息；将所述训练图像输入所述ResNeXt50网络，得到所述训练图像对应的多个特征图；利用所述训练图像对应的多个特征图构建特征金字塔，得到所述训练图像对应的按照特征图尺寸顺序排列的多个特征图；将所述训练图像对应的ROI信息和所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入所述第一检测头结构，得到所述训练图像对应的第一分类信息和第一检测框回归信息；将所述训练图像对应的第一检测框回归信息与所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入第二检测头结构，得到所述训练图像对应的第二分类信息和第二检测框回归信息；将所述训练图像对应的第二检测框回归信息与所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入所述第三检测头结构，得到所述训练图像对应的第三分类信息和第三检测框回归信息；利用各所述训练图像对应的标注分类信息、标注检测框回归信息、第三分类信息以及第三检测框回归信息，对所述预设检测网络进行训练，得到所述服装检测模型。

该技术方案的有益效果在于：将训练图像输入检测RPN网络和ResNeXt50网络，得到训练图像对应的ROI信息和多个特征图，并将多个特征图进行排序成特征金字塔，将训练图像对应的ROI信息和经过排序的多个特征图输入第一检测头结构，得到训练图像对应的第一分类信息和第一检测框回归信息，将训练图像对应的经过排序的多个特征图和第一检测框回归信息输入第二头检测结构，得到训练图像对应的第二分类信息和第二检测框回归信息，将训练图像对应的经过排序的多个特征图和第二检测框回归信息输入第三头检测结构，得到训练图像对应的第三分类信息和第三检测框回归信息，利用各训练图像对应的标注分类信息、标注检测框回归信息、第三分类信息以及第三检测框回归信息，对预设检测网络进行训练，得到所述服装检测模型；利用训练数据集中的信息训练得到服装检测模型，可以利用服装检测模型与服装检索模型一起进行服装检索，进一步地提高了服装检索的准确度。

在一些可选实施例中，所述第一检测头结构至第三检测头结构是结构相同的检测头结构；每个检测头结构分别包括检测ROI Align层、检测分类分支和检测回归分支，检测分类分支包括两个全连接层，检测回归分支包括两个卷积层和一个全连接层。该技术方案的有益效果在于：结构相同的头结构使得服装检测模型在进行服装图像检测时的效率更高，上述每个检测头结构的结构设计使得检测结果更加准确。

在一些可选实施例中，所述训练图像对应的标注信息还包括所述训练图像对应的标注分割信息，所述训练图像对应的标注分割信息包括所述训练图像对应的标注分割区域信息，所述方法还包括：利用各所述训练图像及其对应的标注分割信息训练预设分割网络，得到服装分割模型，所述预设分割网络包括特征提取网络、分割RPN网络以及第一分割头结构至第三分割头结构；其中，所述利用各所述训练图像及其对应的标注分割信息训练预设分割网络，得到服装分割模型，包括：针对每个所述训练图像，执行以下处理：将所述训练图像输入所述特征提取网络，得到所述训练图像对应的特征提取信息；将所述训练图像对应的特征提取信息输入所述分割RPN网络，得到所述训练图像对应的RPN正负样本分类分数和RPN坐标框回归信息；将所述训练图像对应的特征提取信息、RPN正负样本分类分数和RPN坐标框回归信息输入所述第一分割头结构，得到所述训练图像对应的第一正负样本分类分数和第一坐标框回归信息、第一分割区域信息、各对象类别的第一得分；将所述训练图像对应的第一正负样本分类分数和各对象类别的第一得分分别相乘，得到所述训练图像对应的各对象类别的第一置信度分数；将所述训练图像对应的特征提取信息、第一正负样本分类分数和第一坐标框回归信息输入所述第二分割头结构，得到所述训练图像对应的第二正负样本分类分数和第二坐标框回归信息、第二分割区域信息、各对象类别的第二得分；将所述训练图像对应的第二正负样本分类分数和各对象类别的第二得分分别相乘，得到所述训练图像对应的各对象类别的第二置信度分数；将所述训练图像对应的特征提取信息、第二正负样本分类分数和第二坐标框回归信息输入所述第三分割头结构，得到所述训练图像对应的第三正负样本分类分数和第三坐标框回归信息、第三分割区域信息、各对象类别的第三得分；将所述训练图像对应的第三正负样本分类分数和各对象类别的第三得分分别相乘，得到所述训练图像对应的各对象类别的第三置信度分数；利用各所述训练图像对应的标注分割区域信息、第三分割区域信息以及所述训练图像对应的各对象类别的第一置信度分数至第三置信度分数，对所述预设分割网络进行训练，得到所述服装分割模型。

该技术方案的有益效果在于：将训练图像输入特征提取网络，得到训练图像对应的特征提取信息，将训练图像对应的特征提取信息输入分割RPN网络，得到训练图像对应的RPN正负样本分类分数和RPN坐标框回归信息；将训练图像对应的特征提取信息、RPN正负样本分类分数和RPN坐标框回归信息输入第一分割头结构，得到训练图像对应的第一正负样本分类分数和第一坐标框回归信息、第一分割区域信息、各对象类别的第一得分；将训练图像对应的第一正负样本分类分数和各对象类别的第一得分分别相乘，得到训练图像对应的各对象类别的第一置信度分数；将训练图像对应的特征提取信息、第一正负样本分类分数和第一坐标框回归信息输入第二分割头结构，得到训练图像对应的第二正负样本分类分数和第二坐标框回归信息、第二分割区域信息、各对象类别的第二得分；采用同样的方法得到训练图像对应的各对象类别的第三置信度分数；利用各训练图像对应的标注分割区域信息、第三分割区域信息以及训练图像对应的各对象类别的第一置信度分数至第三置信度分数，对预设分割网络进行训练，得到服装分割模型；利用训练数据集中的信息训练得到服装分割模型，可以利用服装分割模型与服装检索模型一起进行服装检索，进一步地提高了服装检索的准确度。

在一些可选实施例中，所述第一分割头结构至第三分割头结构是结构相同的分割头结构；每个分割头结构分别包括RCNN Head、Mask Head和MaskIoU Head，RCNN Head包括一个ROI Align层和两个全连接层，Mask Head包括一个ROI Align层和四个卷积层，MaskIoU Head包括四个卷积层和三个全连接层。该技术方案的有益效果在于：结构相同的头结构使得服装分割模型再进行服装图像分割时的效率更高，上述每个分割头结构的结构设计使得分割结果更加准确。

在一些可选实施例中，所述预设检索网络包括ResNet50网络和BNNeck网络；所述将各所述训练图像及其对应的预测检测信息和预测分割信息输入预设检索网络，得到各所述训练图像对应的预测检索信息，包括：针对每个所述训练图像，执行以下处理：将所述训练图像输入所述ResNet50网络，得到所述训练图像对应的图残差特征；将所述训练图像对应的图残差特征输入池化层，得到所述训练图像对应的池化特征；将所述训练图像对应的池化特征输入BNNeck网络，得到所述训练图像对应的归一化特征；利用所述训练图像对应的归一化特征、预测检测信息和预测分割信息进行检索，从所述服装数据库中检索得到所述训练图像对应的服装，作为所述训练图像对应的预测检索信息。该技术方案的有益效果在于：将训练图像输入ResNet50网络，得到训练图像对应的图残差特征；将训练图像对应的图残差特征输入池化层，得到训练图像对应的池化特征；将训练图像对应的池化特征输入BNNeck网络，得到训练图像对应的归一化特征，利用训练图像对应的归一化特征、预测检测信息和预测分割信息进行检索，从服装数据库中检索得到训练图像对应的服装，作为训练图像对应的预测检索信息；上述方法所获得的训练图像对应的预测检索信息更加准确，利用该训练图像对应的预测检索信息进行服装检索模型的训练，使得在使用服装检索模型进行服装图像检索时，准确度更高。

在一些可选实施例中，所述BNNeck网络包括归一化层和全连接层；所述将所述训练图像对应的池化特征输入BNNeck网络，得到所述训练图像对应的归一化特征，包括：将所述训练图像对应的池化特征输入所述归一化层，得到所述训练图像对应的归一化特征，所述训练图像对应的池化特征用于计算所述训练图像对应的第一损失值和第二损失值；将所述训练图像对应的归一化特征输入所述全连接层，得到所述训练图像对应的全连接特征，所述训练图像对应的全连接特征用于计算所述训练图像对应的第三损失值；其中，各所述训练图像对应的第一损失值、第二损失值和第三损失值用于训练所述预设检索网络。该技术方案的有益效果在于：利用归一化层和全连接层得到第一至第三损失值，利用第一至第三损失值训练预设检索网络，得到服装检索模型，使得在使用服装检索模型进行服装图像检索时检索结果更加准确。

在一些可选实施例中，所述训练图像对应的全连接特征还用于计算所述训练图像对应的标签平滑度值；各所述训练图像对应的第一损失值、第二损失值、第三损失值和标签平滑度值用于训练所述预设检索网络。该技术方案的有益效果在于：利用训练图像对应的全连接特征计算训练图像对应的标签平滑度值，将训练图像对应的标签平滑度值用于训练所述预设检索网络，得到服装检索模型，增加了服装检索模型的泛化能力，防止了在训练过程中服装检索模型的过拟合。

在一些可选实施例中，所述模型训练方法还包括：针对至少一个训练图像，对所述训练图像进行随机擦除，得到所述训练图像对应的增广图像作为新的训练图像并存储至所述训练数据集。该技术方案的有益效果在于：通过随机擦除的方法进行训练图像的数据增广，可以减少训练过程中，服装检索模型过拟合的风险，同时使得在利用服装检索模型进行服装图像识别时，对待识别服装图像的遮挡具有一定的鲁棒性。

在一些可选实施例中，所述利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，对所述预设检索网络进行训练，得到服装检索模型，包括：利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，使用预设学习率策略对所述预设检索网络进行训练，得到服装检索模型；所述预设学习率策略用于指示每个epoch对应的学习率，且第一个epo ch至第N₁个epoch对应的学习率逐渐递增至第一预设学习率，第N₁+1个至第N₂个epoch对应的学习率是第二预设学习率，第N₂+1个至第N₃个epoch对应的学习率是第三预设学习率，第N₃+1个至第N₄个epoch对应的学习率是第四预设学习率，其中，所述第一预设学习率小于所述第二预设学习率，所述第二预设学习率大于所述第三预设学习率，所述第三预设学习率大于所述第四预设学习率。该技术方案的有益效果在于：使用预设学习率策略对所述预设检索网络进行训练，有助于减缓训练得到服装检索模型时，在初始阶段发生的提前过拟合现象，保持服装检索模型深层的稳定性。

第二方面，本申请提供一种服装检索方法，所述服装检索方法包括：获取待检测图像；将所述待检测图像输入服装检测模型，得到所述待检测图像对应的预测检测信息；将所述待检测图像输入服装分割模型，得到所述待检测图像对应的预测分割信息；将所述待检测图像及其对应的检测信息和分割信息输入服装检索模型，得到所述待检测图像对应的预测检索信息；其中，所述服装检索模型是利用上述模型训练方法训练得到的。该技术方案的有益效果在于：利用上述模型训练方法训练得到的服装检索模型进行服装图像检索，使得服装检索的结果更加准确，服装检索的效率更高。

第三方面，本申请提供一种模型训练装置，所述模型训练装置包括：数据获取模块，用于获取训练数据集，所述训练数据集中的每个训练数据包括一个训练图像和所述训练图像对应的标注信息，所述训练图像对应的标注信息包括所述训练图像对应的标注检索信息，所述训练图像对应的标注检索信息用于指示与所述训练图像中的服装对应的服装数据库中的服装；预测检测模块，用于将各所述训练图像输入服装检测模型，得到各所述训练图像对应的预测检测信息；预测分割模块，用于将各所述训练图像输入服装分割模型，得到各所述训练图像对应的预测分割信息；预测检索模块，用于将各所述训练图像及其对应的预测检测信息和预测分割信息输入预设检索网络，得到各所述训练图像对应的预测检索信息；检索训练模块，用于利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，对所述预设检索网络进行训练，得到服装检索模型。

在一些可选实施例中，所述训练图像对应的标注信息还包括所述训练图像对应的标注检测信息，所述训练图像对应的标注检测信息包括所述训练图像对应的标注分类信息和标注检测框回归信息，所述模型训练装置还包括：

检测训练模块，用于利用各所述训练图像及其对应的标注检测信息训练预设检测网络，得到服装检测模型，所述预设检测网络包括检测RPN网络、ResNe Xt50网络以及第一检测头结构至第三检测头结构；

其中，所述检测训练模块包括：

ROI信息单元，用于将所述训练图像输入所述检测RPN网络，得到所述训练图像对应的ROI信息；

特征图获取单元，用于将所述训练图像输入所述ResNeXt50网络，得到所述训练图像对应的多个特征图；

特征图排列单元，用于利用所述训练图像对应的多个特征图构建特征金字塔，得到所述训练图像对应的按照特征图尺寸顺序排列的多个特征图；

第一检测头单元，用于将所述训练图像对应的ROI信息和所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入所述第一检测头结构，得到所述训练图像对应的第一分类信息和第一检测框回归信息；

第二检测头单元，用于将所述训练图像对应的第一检测框回归信息与所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入第二检测头结构，得到所述训练图像对应的第二分类信息和第二检测框回归信息；

第三检测头单元，用于将所述训练图像对应的第二检测框回归信息与所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入所述第三检测头结构，得到所述训练图像对应的第三分类信息和第三检测框回归信息；

第一训练单元，用于利用各所述训练图像对应的标注分类信息、标注检测框回归信息、第三分类信息以及第三检测框回归信息，对所述预设检测网络进行训练，得到所述服装检测模型。

在一些可选实施例中，所述第一检测头结构至第三检测头结构是结构相同的检测头结构；每个检测头结构分别包括检测ROI Align层、检测分类分支和检测回归分支，检测分类分支包括两个全连接层，检测回归分支包括两个卷积层和一个全连接层。

在一些可选实施例中，所述训练图像对应的标注信息还包括所述训练图像对应的标注分割信息，所述训练图像对应的标注分割信息包括所述训练图像对应的标注分割区域信息，所述模型训练装置还包括：

分割训练模块，用于利用各所述训练图像及其对应的标注分割信息训练预设分割网络，得到服装分割模型，所述预设分割网络包括特征提取网络、分割RP N网络以及第一分割头结构至第三分割头结构；

其中，所述分割训练模块包括：

特征提取单元，用于将所述训练图像输入所述特征提取网络，得到所述训练图像对应的特征提取信息；

分割RPN单元，用于将所述训练图像对应的特征提取信息输入所述分割RP N网络，得到所述训练图像对应的RPN正负样本分类分数和RPN坐标框回归信息；

第一分割头单元，用于将所述训练图像对应的特征提取信息、RPN正负样本分类分数和RPN坐标框回归信息输入所述第一分割头结构，得到所述训练图像对应的第一正负样本分类分数和第一坐标框回归信息、第一分割区域信息、各对象类别的第一得分；将所述训练图像对应的第一正负样本分类分数和各对象类别的第一得分分别相乘，得到所述训练图像对应的各对象类别的第一置信度分数；

第二分割头单元，用于将所述训练图像对应的特征提取信息、第一正负样本分类分数和第一坐标框回归信息输入所述第二分割头结构，得到所述训练图像对应的第二正负样本分类分数和第二坐标框回归信息、第二分割区域信息、各对象类别的第二得分；将所述训练图像对应的第二正负样本分类分数和各对象类别的第二得分分别相乘，得到所述训练图像对应的各对象类别的第二置信度分数；

第三分割头单元，用于将所述训练图像对应的特征提取信息、第二正负样本分类分数和第二坐标框回归信息输入所述第三分割头结构，得到所述训练图像对应的第三正负样本分类分数和第三坐标框回归信息、第三分割区域信息、各对象类别的第三得分；将所述训练图像对应的第三正负样本分类分数和各对象类别的第三得分分别相乘，得到所述训练图像对应的各对象类别的第三置信度分数；

第二训练单元，用于利用各所述训练图像对应的标注分割区域信息、第三分割区域信息以及所述训练图像对应的各对象类别的第一置信度分数至第三置信度分数，对所述预设分割网络进行训练，得到所述服装分割模型。

在一些可选实施例中，所述第一分割头结构至第三分割头结构是结构相同的分割头结构；每个分割头结构分别包括RCNN Head、Mask Head和MaskIoU Head，RCNN Head包括一个ROI Align层和两个全连接层，Mask Head包括一个ROI Align层和四个卷积层，MaskIoU Head包括四个卷积层和三个全连接层。

在一些可选实施例中，所述预设检索网络包括ResNet50网络和BNNeck网络；所述预测检索模块包括：

图残差特征单元，用于将所述训练图像输入所述ResNet50网络，得到所述训练图像对应的图残差特征；

池化特征单元，用于将所述训练图像对应的图残差特征输入池化层，得到所述训练图像对应的池化特征；

归一化特征单元，用于将所述训练图像对应的池化特征输入BNNeck网络，得到所述训练图像对应的；

第一检索单元，用于利用所述训练图像对应的归一化特征、预测检测信息和预测分割信息进行检索，从所述服装数据库中检索得到所述训练图像对应的服装，作为所述训练图像对应的预测检索信息。

在一些可选实施例中，所述BNNeck网络包括归一化层和全连接层；所述归一化特征单元包括：

第一损失子单元，用于将所述训练图像对应的池化特征输入所述归一化层，得到所述训练图像对应的归一化特征，所述训练图像对应的池化特征用于计算所述训练图像对应的第一损失值和第二损失值；

第二损失子单元，用于将所述训练图像对应的归一化特征输入所述全连接层，得到所述训练图像对应的全连接特征，所述训练图像对应的全连接特征用于计算所述训练图像对应的第三损失值；

其中，各所述训练图像对应的第一损失值、第二损失值和第三损失值用于训练所述预设检索网络。

在一些可选实施例中，所述训练图像对应的全连接特征还用于计算所述训练图像对应的标签平滑度值；各所述训练图像对应的第一损失值、第二损失值、第三损失值和标签平滑度值用于训练所述预设检索网络。

在一些可选实施例中，所述模型训练装置还包括：

随机擦除模块，用于针对至少一个训练图像，对所述训练图像进行随机擦除，得到所述训练图像对应的增广图像作为新的训练图像并存储至所述训练数据集。

在一些可选实施例中，所述检索训练模块包括：

学习率策略单元，用于利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，使用预设学习率策略对所述预设检索网络进行训练，得到服装检索模型；所述预设学习率策略用于指示每个epoch对应的学习率，且第一个epoch至第N₁个epoch对应的学习率逐渐递增至第一预设学习率，第N₁+1个至第N₂个epoch对应的学习率是第二预设学习率，第N₂+1个至第N₃个epoch对应的学习率是第三预设学习率，第N₃+1个至第N₄个epoch对应的学习率是第四预设学习率，其中，所述第一预设学习率小于所述第二预设学习率，所述第二预设学习率大于所述第三预设学习率，所述第三预设学习率大于所述第四预设学习率。

第四方面，本申请提供一种服装检索装置，所述服装检索装置包括：

图像获取模块，用于获取待检测图像；

检测信息模块，用于将所述待检测图像输入服装检测模型，得到所述待检测图像对应的检测信息；

分割信息模块，用于将所述待检测图像输入服装分割模型，得到所述待检测图像对应的分割信息；

检索结果模块，用于将所述待检测图像及其对应的检测信息和分割信息输入服装检索模型，得到所述待检测图像对应的检索结果；其中所述服装检索模型是利用上述模型训练方法训练得到的。

第五方面，本申请提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项模型训练方法的步骤或上述服装检索方法的步骤。

第六方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序或者服装检索模型；所述计算机程序被处理器执行时实现上述任一项模型训练方法的步骤或上述服装检索方法的步骤；所述服装检索模型是利用上述任一项所述的模型训练方法训练得到的。

附图说明

下面结合附图和实施例对本申请进一步说明。

图1是本申请实施例提供的一种模型训练方法的流程示意图；

图2是本申请实施例提供的一种模型训练方法的原理示意图；

图3是本申请实施例提供的另一种模型训练方法的部分流程示意图；

图4是本申请实施例提供的一种得到服装检测模型的流程示意图；

图5是本申请实施例提供的一种ResNext50网络的结构示意图；

图6是本申请实施例提供的又一种模型训练方法的部分流程示意图；

图7是本申请实施例提供的一种得到服装分割模型的流程示意图；

图8是本申请实施例提供的一种预设分割网络的结构示意图；

图9是本申请实施例提供的一种得到预测检索信息的流程示意图；

图10是本申请实施例提供的一种得到全连接特征的流程示意图；

图11是本申请实施例提供的一种预设检索网络的结构示意图；

图12是本申请实施例提供的又一种模型训练方法的部分流程示意图；

图13是本申请实施例提供的一种服装检索方法的流程示意图；

图14是本申请实施例提供的一种模型训练装置的结构示意图；

图15是本申请实施例提供的另一种模型训练装置的结构示意图；

图16是本申请实施例提供的一种检测训练模块的结构示意图；

图17是本申请实施例提供的又一种模型训练装置的结构示意图；

图18是本申请实施例提供的一种分割训练模块的结构示意图；

图19是本申请实施例提供的一种预测检索模块的结构示意图；

图20是本申请实施例提供的一种归一化特征单元的结构示意图；

图21是本申请实施例提供的又一种模型训练装置的结构示意图；

图22是本申请实施例提供的一种服装检索装置的结构示意图；

图23是本申请实施例提供的一种电子设备的结构示意图；

图24是本申请实施例提供的一种用于实现本申请实施例提供的模型训练或服装检索方法的程序产品的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

参见图1和图2，本申请实施例提供了一种模型训练方法，所述模型训练方法包括步骤S101～S105。

步骤S101：获取训练数据集，所述训练数据集中的每个训练数据包括一个训练图像和所述训练图像对应的标注信息，所述训练图像对应的标注信息包括所述训练图像对应的标注检索信息，所述训练图像对应的标注检索信息用于指示与所述训练图像中的服装对应的服装数据库中的服装。

其中，所述训练数据集可以从预先存储于存储介质中的训练数据库中获取，也可以由人工手动输入，也可以在云服务器中检索获取。训练数据库例如是从商用服装数据库中获取，商用服装数据库存储有大量的服装图片以及该服装图片对应的标注信息，商用服装数据库例如是DeepFashion1或者DeepFashion2这种大型基准数据集。

步骤S102：将各所述训练图像输入服装检测模型，得到各所述训练图像对应的预测检测信息。其中，服装检测模型可以采用Cascade RCNN。

其中，预测检测信息可以包括训练图像中服装的种类和包含目标服装图像的检测框坐标。

步骤S103：将各所述训练图像输入服装分割模型，得到各所述训练图像对应的预测分割信息。其中，服装检测模型可以采用Hybrid Task Cascade。

其中，预测分割信息可以包括训练图像中服装的种类、包含目标服装图像的检测框坐标以及目标服装图像的轮廓线信息(或者分割区域信息)。

步骤S104：将各所述训练图像及其对应的预测检测信息和预测分割信息输入预设检索网络，得到各所述训练图像对应的预测检索信息。其中，服装检测模型可以采用ReIDModel。

其中，预测检索信息可以用于指示训练图像中的服装对应的服装数据库中的服装。

步骤S105：利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，对所述预设检索网络进行训练，得到服装检索模型。

由此，基于训练数据集中的训练图像和训练图像对应的标注信息，得到各训练图像对应的预测检测信息和预测分割信息，基于各训练图像、各训练图像对应的预测检测信息和预测分割信息，得到各训练图像对应的预测检索信息，利用各训练图像对应的预测检索信息，训练预设检索网络，得到服装检索模型；当上述服装检索模型应用于服装检索时，识别效率与准确度高。

在一具体应用场景中，从DeepFashion2数据集中获取用于训练服装检测模型的训练数据集，DeepFashion2数据集是是一个大型基准数据集，具有全面的任务和对时尚图像理解的注释，具有801K个服装项目，每个项目都有丰富的注释，例如样式，比例，视点，遮挡，边界框，密集的地标和蒙版，也具有873K商用服装对，它是迄今为止同类产品中最全面的基准数据集；训练数据集包括多个训练图像和训练图像对应的标注信息，该标注信息指示其对应的训练图像的所对应的DeepFashion2数据集中的图像；将各训练图像分别输入服装检测模型和服装分割模型，得到各训练图像对应的预测检测信息和预测分割信息，将各训练图像及其对应的预测检测信息和预测分割信息输入预设检索网络，得到各训练图像对应的预测检索信息，利用各训练图像对应的标注检索信息和各训练图像对应的预测检索信息，对所述预设检索网络进行训练，得到服装检索模型，该服装检索模型可用于针对用户获取的待识别服装图片，在数据库中进行检索。

参见图3，在一些实施方式中，所述训练图像对应的标注信息还可以包括所述训练图像对应的标注检测信息，所述训练图像对应的标注检测信息包括所述训练图像对应的标注分类信息和标注检测框回归信息，所述模型训练方法还可以包括步骤S106。

步骤S106：利用各所述训练图像及其对应的标注检测信息训练预设检测网络，得到服装检测模型，所述预设检测网络包括检测RPN网络、ResNeXt50网络以及第一检测头结构至第三检测头结构。

参见图4，所述步骤S106可以包括步骤S201～S207。

针对每个所述训练图像，执行以下处理：

步骤S201：将所述训练图像输入所述检测RPN网络，得到所述训练图像对应的ROI信息；

步骤S202：将所述训练图像输入所述ResNeXt50网络，得到所述训练图像对应的多个特征图；

步骤S203：利用所述训练图像对应的多个特征图构建特征金字塔，得到所述训练图像对应的按照特征图尺寸顺序排列的多个特征图；

步骤S204：将所述训练图像对应的ROI信息和所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入所述第一检测头结构，得到所述训练图像对应的第一分类信息和第一检测框回归信息；

步骤S205：将所述训练图像对应的第一检测框回归信息与所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入第二检测头结构，得到所述训练图像对应的第二分类信息和第二检测框回归信息；

步骤S206：将所述训练图像对应的第二检测框回归信息与所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入所述第三检测头结构，得到所述训练图像对应的第三分类信息和第三检测框回归信息；

步骤S207：利用各所述训练图像对应的标注分类信息、标注检测框回归信息、第三分类信息以及第三检测框回归信息，对所述预设检测网络进行训练，得到所述服装检测模型。

由此，将训练图像输入检测RPN网络和ResNeXt50网络，得到训练图像对应的ROI信息和多个特征图，并将多个特征图进行排序成特征金字塔，将训练图像对应的ROI信息和经过排序的多个特征图输入第一检测头结构，得到训练图像对应的第一分类信息和第一检测框回归信息，将训练图像对应的经过排序的多个特征图和第一检测框回归信息输入第二头检测结构，得到训练图像对应的第二分类信息和第二检测框回归信息，将训练图像对应的经过排序的多个特征图和第二检测框回归信息输入第三头检测结构，得到训练图像对应的第三分类信息和第三检测框回归信息，利用各训练图像对应的标注分类信息、标注检测框回归信息、第三分类信息以及第三检测框回归信息，对预设检测网络进行训练，得到所述服装检测模型；利用训练数据集中的信息训练得到服装检测模型，可以利用服装检测模型与服装检索模型一起进行服装检索，进一步地提高了服装检索的准确度。

参见图5，在一些实施方式中，ResNext50中的残差单元分支可以由三个连续的卷积层组成，第一层输入通道是256，输出通道是4，卷积核尺寸是1×1；第二层输入通道是4，卷积核尺寸是3×3，输出通道是4；第三层输入通道是4，卷积核尺寸是1×1，输出通道是256。每一个残差单元由32组残差单元分支结构并列组成，最终在通道上做加性运算。

在一些实施方式中，所述第一检测头结构至第三检测头结构可以是结构相同的检测头结构；每个检测头结构分别包括检测ROI Align层、检测分类分支和检测回归分支，检测分类分支包括两个全连接层，检测回归分支包括两个卷积层和一个全连接层。

由此，结构相同的头结构使得服装检测模型在进行服装图像检测时的效率更高，上述每个检测头结构的结构设计使得检测结果更加准确。

参见图6，在一些实施方式中，所述训练图像对应的标注信息还可以包括所述训练图像对应的标注分割信息，所述训练图像对应的标注分割信息包括所述训练图像对应的标注分割区域信息，所述模型训练方法还可以包括步骤S107。

步骤S107：利用各所述训练图像及其对应的标注分割信息训练预设分割网络，得到服装分割模型，所述预设分割网络包括特征提取网络、分割RPN网络以及第一分割头结构至第三分割头结构。

参见图7及图8，所述步骤S107可以包括步骤S301～S306。

针对每个所述训练图像，执行以下处理：

步骤S301：将所述训练图像输入所述特征提取网络，得到所述训练图像对应的特征提取信息；

步骤S302：将所述训练图像对应的特征提取信息输入所述分割RPN网络，得到所述训练图像对应的RPN正负样本分类分数和RPN坐标框回归信息；

步骤S303：将所述训练图像对应的特征提取信息、RPN正负样本分类分数和RPN坐标框回归信息输入所述第一分割头结构，得到所述训练图像对应的第一正负样本分类分数和第一坐标框回归信息、第一分割区域信息、各对象类别的第一得分；将所述训练图像对应的第一正负样本分类分数和各对象类别的第一得分分别相乘，得到所述训练图像对应的各对象类别的第一置信度分数；

步骤S304：将所述训练图像对应的特征提取信息、第一正负样本分类分数和第一坐标框回归信息输入所述第二分割头结构，得到所述训练图像对应的第二正负样本分类分数和第二坐标框回归信息、第二分割区域信息、各对象类别的第二得分；将所述训练图像对应的第二正负样本分类分数和各对象类别的第二得分分别相乘，得到所述训练图像对应的各对象类别的第二置信度分数；

步骤S305：将所述训练图像对应的特征提取信息、第二正负样本分类分数和第二坐标框回归信息输入所述第三分割头结构，得到所述训练图像对应的第三正负样本分类分数和第三坐标框回归信息、第三分割区域信息、各对象类别的第三得分；将所述训练图像对应的第三正负样本分类分数和各对象类别的第三得分分别相乘，得到所述训练图像对应的各对象类别的第三置信度分数；

步骤S306：利用各所述训练图像对应的标注分割区域信息、第三分割区域信息以及所述训练图像对应的各对象类别的第一置信度分数至第三置信度分数，对所述预设分割网络进行训练，得到所述服装分割模型。

由此，将训练图像输入特征提取网络，得到训练图像对应的特征提取信息，将训练图像对应的特征提取信息输入分割RPN网络，得到训练图像对应的RPN正负样本分类分数和RPN坐标框回归信息；将训练图像对应的特征提取信息、RPN正负样本分类分数和RPN坐标框回归信息输入第一分割头结构，得到训练图像对应的第一正负样本分类分数和第一坐标框回归信息、第一分割区域信息、各对象类别的第一得分；将训练图像对应的第一正负样本分类分数和各对象类别的第一得分分别相乘，得到训练图像对应的各对象类别的第一置信度分数；将训练图像对应的特征提取信息、第一正负样本分类分数和第一坐标框回归信息输入第二分割头结构，得到训练图像对应的第二正负样本分类分数和第二坐标框回归信息、第二分割区域信息、各对象类别的第二得分；采用同样的方法得到训练图像对应的各对象类别的第三置信度分数；利用各训练图像对应的标注分割区域信息、第三分割区域信息以及训练图像对应的各对象类别的第一置信度分数至第三置信度分数，对预设分割网络进行训练，得到服装分割模型；利用训练数据集中的信息训练得到服装分割模型，可以利用服装分割模型与服装检索模型一起进行服装检索，进一步地提高了服装检索的准确度。

在一些实施方式中，所述第一分割头结构至第三分割头结构可以是结构相同的分割头结构；每个分割头结构分别包括RCNN Head、Mask Head和MaskIoU Head，RCNN Head包括一个ROI Align层和两个全连接层，Mask Head包括一个ROI Align层和四个卷积层，MaskIoU Head包括四个卷积层和三个全连接层。

由此，结构相同的头结构使得服装分割模型再进行服装图像分割时的效率更高，上述每个分割头结构的结构设计使得分割结果更加准确。

在一些实施方式中，所述预设分割网络还可以包括语义分割分支，所述语义分割分支包括语义分割金字塔，将所述训练图像对应的特征提取信息输入所述语义分割金字塔，得到所述训练图像对应的预测语义分割特征以及语义分割预测结果，将所述训练图像对应的预测语义分割特征输入各所述分割头结构对应的RO I Align层，通过同位元素对应相乘与所述训练图像对应的第一至第三坐标框回归信息、第一至第三分割区域信息进行数据融合；所述训练图像对应的语义分割预测结果用于得到所述训练图像对应的检索结果。

由此，通过语义分割分支获得训练图像对应的预测语义分割特征并将其与所述训练图像对应的第一至第三坐标框回归信息、第一至第三分割区域信息进行数据融合，增强了服装检索模型分辨图像目标的能力。

参见图9，在一些实施方式中，所述预设检索网络可以包括ResNet50网络和BNNeck网络；

所述将步骤S104包括步骤S401～S404。

针对每个所述训练图像，执行以下处理：

步骤S401：将所述训练图像输入所述ResNet50网络，得到所述训练图像对应的图残差特征；

步骤S402：将所述训练图像对应的图残差特征输入池化层，得到所述训练图像对应的池化特征；

步骤S403：将所述训练图像对应的池化特征输入BNNeck网络，得到所述训练图像对应的归一化特征；

步骤S404：利用所述训练图像对应的归一化特征、预测检测信息和预测分割信息进行检索，从所述服装数据库中检索得到所述训练图像对应的服装，作为所述训练图像对应的预测检索信息。

由此，将训练图像输入ResNet50网络，得到训练图像对应的图残差特征；将训练图像对应的图残差特征输入池化层，得到训练图像对应的池化特征；将训练图像对应的池化特征输入BNNeck网络，得到训练图像对应的归一化特征，利用训练图像对应的归一化特征、预测检测信息和预测分割信息进行检索，从服装数据库中检索得到训练图像对应的服装，作为训练图像对应的预测检索信息；上述方法所获得的训练图像对应的预测检索信息更加准确，利用该训练图像对应的预测检索信息进行服装检索模型的训练，使得在使用服装检索模型进行服装图像检索时，准确度更高。

在一些实施方式中，所述ResNet50网络可以包括4个stage，所述训练图像经过的第四个stage的stride的值设置为1。

参见图10，在一些实施方式中，所述BNNeck网络可以包括归一化层和全连接层；所述步骤S403包括步骤S501～S502。

步骤S501：将所述训练图像对应的池化特征输入所述归一化层，得到所述训练图像对应的归一化特征，所述训练图像对应的池化特征用于计算所述训练图像对应的第一损失值和第二损失值。

步骤S502：将所述训练图像对应的归一化特征输入所述全连接层，得到所述训练图像对应的全连接特征，所述训练图像对应的全连接特征用于计算所述训练图像对应的第三损失值；其中，各所述训练图像对应的第一损失值、第二损失值和第三损失值用于训练所述预设检索网络。

由此，利用归一化层和全连接层得到第一至第三损失值，利用第一至第三损失值训练预设检索网络，得到服装检索模型，使得在使用服装检索模型进行服装图像检索时检索结果更加准确。

参见图11，在一具体应用场景中，第一损失值包括根据三重态损失函数计算的三重态损失值，第二损失值可以包括根据中心损失函数计算的中心损失值，第三损失值可以包括根据ID损失函数计算的ID损失值；其中，中心损失值由下式进行计算：

在该公式中，τ_c代表中心损失值，B代表训练数据集中的样本(训练数据)数量，f_tj代表第j个训练数据对应的池化特征，c_yj代表第j个训练数据对应的类别的所有训练数据特征的平均特征。

在一些实施方式中，所述训练图像对应的全连接特征还可以用于计算所述训练图像对应的标签平滑度值；各所述训练图像对应的第一损失值、第二损失值、第三损失值和标签平滑度值用于训练所述预设检索网络。

由此，利用训练图像对应的全连接特征计算训练图像对应的标签平滑度值，将训练图像对应的标签平滑度值用于训练所述预设检索网络，得到服装检索模型，增加了服装检索模型的泛化能力，防止了在训练过程中服装检索模型的过拟合。

在一具体应用场景中，标签平滑度值采用下式计算：

其中，i代表服装检索模型的预测标签类别(即预测检索信息)，P_i代表经过标签平滑处理后的最终结果(即各预测标签类别的概率分布)，ε是一个较小的超参数，K代表训练数据集中服装类别的总数，y代表真实的标签类别(即标注检索信息)。

参见图12，在一些实施方式中，所述模型训练方法还可以包括步骤S108。

步骤S108：针对至少一个训练图像，对所述训练图像进行随机擦除，得到所述训练图像对应的增广图像作为新的训练图像并存储至所述训练数据集。其中，随机擦除可以采用Random erasing。

由此，通过随机擦除的方法进行训练图像的数据增广，可以减少训练过程中，服装检索模型过拟合的风险，同时使得在利用服装检索模型进行服装图像识别时，对待识别服装图像的遮挡具有一定的鲁棒性。

在一些实施方式中，对所述预设检索网络进行训练可以采用半监督学习方式，也可以采用全监督学习方式；当采用全监督学习的方式时，所述模型训练方法还可以包括步骤S109：基于所述训练图像对应的标注信息，获取所述新的训练图像对应的标注信息。

在一具体应用场景中，在训练图像中随机的选择一个矩形框，在随机的位置上使用随机的值来擦除训练图像原来的像素。其具体方法为：输入训练图像I、擦除的概率p、擦除区域比例范围从s_l到s_h，以及长宽比概率范围从r₁到r₂。首先根据概率p确定一张图片是否需要擦除，p₁>p则不对图片进行处理，反之则需要擦除。根据输入训练图像I可以得到训练图像的长宽W和H，继而可以得到面积S。根据Rand(s_l，s_h)*S得到擦除的面积S_e，擦除面积的长(H_e)、擦除面积的宽(W_e)根据下式得到：

其中，r_e代表擦除区域的长宽比，其余字符所代指的含义已在上述应用场景中进行描述，在此不再赘述。

通过该方法能够给训练图像加入不同程度的遮挡，通过这样的训练图像，可以减少待训练服装检索模型的过拟合的风险，同时对待识别图像的遮挡具有一定的鲁棒性。

在一些实施方式中，所述步骤S105可以包括步骤S601：

步骤S601：利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，使用预设学习率策略对所述预设检索网络进行训练，得到服装检索模型；所述预设学习率策略用于指示每个epoch对应的学习率，且第一个epoch至第N₁个epoch对应的学习率逐渐递增至第一预设学习率，第N₁+1个至第N₂个epoch对应的学习率是第二预设学习率，第N₂+1个至第N₃个epoch对应的学习率是第三预设学习率，第N₃+1个至第N₄个epoch对应的学习率是第四预设学习率，其中，所述第一预设学习率小于所述第二预设学习率，所述第二预设学习率大于所述第三预设学习率，所述第三预设学习率大于所述第四预设学习率。

由此，使用预设学习率策略对所述预设检索网络进行训练，有助于减缓训练得到服装检索模型时，在初始阶段发生的提前过拟合现象，保持服装检索模型深层的稳定性。

在一具体应用场景中，预设学习率策略所指示每个epoch对应的学习率根据下式计算：

其中，t代表epoch的序号，lr(t)代表第t个epoch对应的学习率。

参见图13，本申请实施例还提供了一种服装检索方法，所述服装检索方法包括步骤S701～S704。

步骤S701：获取待检测图像。

步骤S702：将所述待检测图像输入服装检测模型，得到所述待检测图像对应的预测检测信息。

步骤S703：将所述待检测图像输入服装分割模型，得到所述待检测图像对应的预测分割信息。

步骤S704：将所述待检测图像及其对应的检测信息和分割信息输入服装检索模型，得到所述待检测图像对应的预测检索信息。

其中，所述服装检索模型是利用本申请实施例提供的模型训练方法训练得到的。

由此，利用本申请实施例提供的上述模型训练方法训练得到的服装检索模型进行服装图像检索，使得服装检索的结果更加准确，服装检索的效率更高。

参见图14，本申请实施例还提供了一种模型训练装置，其具体实现方式与上述模型训练方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

所述模型训练装置包括：数据获取模块101，用于获取训练数据集，所述训练数据集中的每个训练数据包括一个训练图像和所述训练图像对应的标注信息，所述训练图像对应的标注信息包括所述训练图像对应的标注检索信息，所述训练图像对应的标注检索信息用于指示与所述训练图像中的服装对应的服装数据库中的服装；预测检测模块102，用于将各所述训练图像输入服装检测模型，得到各所述训练图像对应的预测检测信息；预测分割模块103，用于将各所述训练图像输入服装分割模型，得到各所述训练图像对应的预测分割信息；预测检索模块104，用于将各所述训练图像及其对应的预测检测信息和预测分割信息输入预设检索网络，得到各所述训练图像对应的预测检索信息；检索训练模块105，用于利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，对所述预设检索网络进行训练，得到服装检索模型。

参见图15，在一些实施方式中，所述训练图像对应的标注信息还可以包括所述训练图像对应的标注检测信息，所述训练图像对应的标注检测信息包括所述训练图像对应的标注分类信息和标注检测框回归信息，所述模型训练装置还可以包括：检测训练模块106，用于利用各所述训练图像及其对应的标注检测信息训练预设检测网络，得到服装检测模型，所述预设检测网络包括检测RPN网络、ResNeXt50网络以及第一检测头结构至第三检测头结构；参见图16，其中，所述检测训练模块106包括：ROI信息单元201，用于将所述训练图像输入所述检测RPN网络，得到所述训练图像对应的ROI信息；特征图获取单元202，用于将所述训练图像输入所述ResNeXt50网络，得到所述训练图像对应的多个特征图；特征图排列单元203，用于利用所述训练图像对应的多个特征图构建特征金字塔，得到所述训练图像对应的按照特征图尺寸顺序排列的多个特征图；第一检测头单元204，用于将所述训练图像对应的ROI信息和所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入所述第一检测头结构，得到所述训练图像对应的第一分类信息和第一检测框回归信息；第二检测头单元205，用于将所述训练图像对应的第一检测框回归信息与所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入第二检测头结构，得到所述训练图像对应的第二分类信息和第二检测框回归信息；第三检测头单元206，用于将所述训练图像对应的第二检测框回归信息与所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入所述第三检测头结构，得到所述训练图像对应的第三分类信息和第三检测框回归信息；第一训练单元207，用于利用各所述训练图像对应的标注分类信息、标注检测框回归信息、第三分类信息以及第三检测框回归信息，对所述预设检测网络进行训练，得到所述服装检测模型。

参见图17，在一些实施方式中，所述训练图像对应的标注信息还可以包括所述训练图像对应的标注分割信息，所述训练图像对应的标注分割信息包括所述训练图像对应的标注分割区域信息，所述模型训练装置还可以包括：分割训练模块107，用于利用各所述训练图像及其对应的标注分割信息训练预设分割网络，得到服装分割模型，所述预设分割网络包括特征提取网络、分割RPN网络以及第一分割头结构至第三分割头结构；参见图18，其中，所述分割训练模块107包括：特征提取单元301，用于将所述训练图像输入所述特征提取网络，得到所述训练图像对应的特征提取信息；分割RPN单元302，用于将所述训练图像对应的特征提取信息输入所述分割RPN网络，得到所述训练图像对应的RPN正负样本分类分数和RPN坐标框回归信息；第一分割头单元303，用于将所述训练图像对应的特征提取信息、RPN正负样本分类分数和RPN坐标框回归信息输入所述第一分割头结构，得到所述训练图像对应的第一正负样本分类分数和第一坐标框回归信息、第一分割区域信息、各对象类别的第一得分；将所述训练图像对应的第一正负样本分类分数和各对象类别的第一得分分别相乘，得到所述训练图像对应的各对象类别的第一置信度分数；第二分割头单元304，用于将所述训练图像对应的特征提取信息、第一正负样本分类分数和第一坐标框回归信息输入所述第二分割头结构，得到所述训练图像对应的第二正负样本分类分数和第二坐标框回归信息、第二分割区域信息、各对象类别的第二得分；将所述训练图像对应的第二正负样本分类分数和各对象类别的第二得分分别相乘，得到所述训练图像对应的各对象类别的第二置信度分数；第三分割头单元305，用于将所述训练图像对应的特征提取信息、第二正负样本分类分数和第二坐标框回归信息输入所述第三分割头结构，得到所述训练图像对应的第三正负样本分类分数和第三坐标框回归信息、第三分割区域信息、各对象类别的第三得分；将所述训练图像对应的第三正负样本分类分数和各对象类别的第三得分分别相乘，得到所述训练图像对应的各对象类别的第三置信度分数；第二训练单元306，用于利用各所述训练图像对应的标注分割区域信息、第三分割区域信息以及所述训练图像对应的各对象类别的第一置信度分数至第三置信度分数，对所述预设分割网络进行训练，得到所述服装分割模型。

参见图19，在一些实施方式中，所述预设检索网络可以包括ResNet50网络和BNNeck网络；所述预测检索模块104包括：图残差特征单元401，用于将所述训练图像输入所述ResNet50网络，得到所述训练图像对应的图残差特征；池化特征单元402，用于将所述训练图像对应的图残差特征输入池化层，得到所述训练图像对应的池化特征；归一化特征单元403，用于将所述训练图像对应的池化特征输入BNNeck网络，得到所述训练图像对应的；第一检索单元404，用于利用所述训练图像对应的归一化特征、预测检测信息和预测分割信息进行检索，从所述服装数据库中检索得到所述训练图像对应的服装，作为所述训练图像对应的预测检索信息。

参见图20，在一些实施方式中，所述BNNeck网络可以包括归一化层和全连接层；所述归一化特征单元403包括：第一损失子单元501，用于将所述训练图像对应的池化特征输入所述归一化层，得到所述训练图像对应的归一化特征，所述训练图像对应的池化特征用于计算所述训练图像对应的第一损失值和第二损失值；第二损失子单元502，用于将所述训练图像对应的归一化特征输入所述全连接层，得到所述训练图像对应的全连接特征，所述训练图像对应的全连接特征用于计算所述训练图像对应的第三损失值；其中，各所述训练图像对应的第一损失值、第二损失值和第三损失值用于训练所述预设检索网络。

参见图21，在一些实施方式中，所述模型训练装置还可以包括：随机擦除模块108，用于针对至少一个训练图像，对所述训练图像进行随机擦除，得到所述训练图像对应的增广图像作为新的训练图像并存储至所述训练数据集。

在一些实施方式中，所述模型训练装置还可以包括：获取标注模块109，用于基于所述训练图像对应的标注信息，获取所述新的训练图像对应的标注信息。

在一些实施方式中，所述检索训练模块105可以包括：学习率策略单元601，用于利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，使用预设学习率策略对所述预设检索网络进行训练，得到服装检索模型；所述预设学习率策略用于指示每个epoch对应的学习率，且第一个epoch至第N₁个epoch对应的学习率逐渐递增至第一预设学习率，第N₁+1个至第N₂个epoch对应的学习率是第二预设学习率，第N₂+1个至第N₃个epoch对应的学习率是第三预设学习率，第N₃+1个至第N₄个epoch对应的学习率是第四预设学习率，其中，所述第一预设学习率小于所述第二预设学习率，所述第二预设学习率大于所述第三预设学习率，所述第三预设学习率大于所述第四预设学习率。

参见图22，本申请实施例还提供了一种服装检索装置，其具体实现方式与上述服装检索方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

所述服装检索装置包括：图像获取模块701，用于获取待检测图像；检测信息模块702，用于将所述待检测图像输入服装检测模型，得到所述待检测图像对应的检测信息；分割信息模块703，用于将所述待检测图像输入服装分割模型，得到所述待检测图像对应的分割信息；检索结果模块704，用于将所述待检测图像及其对应的检测信息和分割信息输入服装检索模型，得到所述待检测图像对应的检索结果；其中所述服装检索模型是利用上述模型训练方法训练得到的。

参见图23，本申请实施例还提供了一种电子设备200，所述电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还可以包括存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中模型训练方法的步骤或服装检索方法的步骤，其具体实现方式与上述模型训练方法的步骤或服装检索方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

存储器210还可以包括具有至少一个程序模块215的实用工具214，这样的程序模块215包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序或者服装检索模型；所述计算机程序被执行时实现本申请实施例中模型训练或服装检索方法的步骤；所述服装检索模型是利用上述任一项所述的模型训练方法训练得到的；其具体实现方式与上述模型训练或服装检索方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

图24示出了本实施例提供的用于实现上述模型训练或服装检索方法的程序产品300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品300不限于此，在本申请中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还可以包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在关联设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，已符合专利法所强调的功能增进及使用要件，本申请以上的说明书及说明书附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种模型训练方法，其特征在于，所述模型训练方法包括：

获取训练数据集，所述训练数据集中的每个训练数据包括一个训练图像和所述训练图像对应的标注信息，所述训练图像对应的标注信息包括所述训练图像对应的标注检索信息，所述训练图像对应的标注检索信息用于指示与所述训练图像中的服装对应的服装数据库中的服装；

将各所述训练图像输入服装检测模型，得到各所述训练图像对应的预测检测信息；

将各所述训练图像输入服装分割模型，得到各所述训练图像对应的预测分割信息；

将各所述训练图像及其对应的预测检测信息和预测分割信息输入预设检索网络，得到各所述训练图像对应的预测检索信息；

利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，对所述预设检索网络进行训练，得到服装检索模型。

2.根据权利要求1所述的模型训练方法，其特征在于，所述训练图像对应的标注信息还包括所述训练图像对应的标注检测信息，所述训练图像对应的标注检测信息包括所述训练图像对应的标注分类信息和标注检测框回归信息，所述模型训练方法还包括：

利用各所述训练图像及其对应的标注检测信息训练预设检测网络，得到服装检测模型，所述预设检测网络包括检测RPN网络、ResNeXt50网络以及第一检测头结构至第三检测头结构；

其中，所述利用各所述训练图像及其对应的标注检测信息训练预设检测网络，得到服装检测模型，包括：

针对每个所述训练图像，执行以下处理：

将所述训练图像输入所述检测RPN网络，得到所述训练图像对应的ROI信息；

将所述训练图像输入所述ResNeXt50网络，得到所述训练图像对应的多个特征图；

利用所述训练图像对应的多个特征图构建特征金字塔，得到所述训练图像对应的按照特征图尺寸顺序排列的多个特征图；

将所述训练图像对应的ROI信息和所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入所述第一检测头结构，得到所述训练图像对应的第一分类信息和第一检测框回归信息；

将所述训练图像对应的第一检测框回归信息与所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入第二检测头结构，得到所述训练图像对应的第二分类信息和第二检测框回归信息；

将所述训练图像对应的第二检测框回归信息与所述训练图像对应的按照特征图尺寸顺序排列的多个特征图输入所述第三检测头结构，得到所述训练图像对应的第三分类信息和第三检测框回归信息；

利用各所述训练图像对应的标注分类信息、标注检测框回归信息、第三分类信息以及第三检测框回归信息，对所述预设检测网络进行训练，得到所述服装检测模型。

3.根据权利要求2所述的模型训练方法，其特征在于，所述第一检测头结构至第三检测头结构是结构相同的检测头结构；

每个检测头结构分别包括检测ROI Align层、检测分类分支和检测回归分支，检测分类分支包括两个全连接层，检测回归分支包括两个卷积层和一个全连接层。

4.根据权利要求1所述的模型训练方法，其特征在于，所述训练图像对应的标注信息还包括所述训练图像对应的标注分割信息，所述训练图像对应的标注分割信息包括所述训练图像对应的标注分割区域信息，所述模型训练方法还包括：

利用各所述训练图像及其对应的标注分割信息训练预设分割网络，得到服装分割模型，所述预设分割网络包括特征提取网络、分割RPN网络以及第一分割头结构至第三分割头结构；

其中，所述利用各所述训练图像及其对应的标注分割信息训练预设分割网络，得到服装分割模型，包括：

针对每个所述训练图像，执行以下处理：

将所述训练图像输入所述特征提取网络，得到所述训练图像对应的特征提取信息；

将所述训练图像对应的特征提取信息输入所述分割RPN网络，得到所述训练图像对应的RPN正负样本分类分数和RPN坐标框回归信息；

将所述训练图像对应的特征提取信息、RPN正负样本分类分数和RPN坐标框回归信息输入所述第一分割头结构，得到所述训练图像对应的第一正负样本分类分数和第一坐标框回归信息、第一分割区域信息、各对象类别的第一得分；将所述训练图像对应的第一正负样本分类分数和各对象类别的第一得分分别相乘，得到所述训练图像对应的各对象类别的第一置信度分数；

将所述训练图像对应的特征提取信息、第一正负样本分类分数和第一坐标框回归信息输入所述第二分割头结构，得到所述训练图像对应的第二正负样本分类分数和第二坐标框回归信息、第二分割区域信息、各对象类别的第二得分；将所述训练图像对应的第二正负样本分类分数和各对象类别的第二得分分别相乘，得到所述训练图像对应的各对象类别的第二置信度分数；

将所述训练图像对应的特征提取信息、第二正负样本分类分数和第二坐标框回归信息输入所述第三分割头结构，得到所述训练图像对应的第三正负样本分类分数和第三坐标框回归信息、第三分割区域信息、各对象类别的第三得分；将所述训练图像对应的第三正负样本分类分数和各对象类别的第三得分分别相乘，得到所述训练图像对应的各对象类别的第三置信度分数；

利用各所述训练图像对应的标注分割区域信息、第三分割区域信息以及所述训练图像对应的各对象类别的第一置信度分数至第三置信度分数，对所述预设分割网络进行训练，得到所述服装分割模型。

5.根据权利要求4所述的模型训练方法，其特征在于，所述第一分割头结构至第三分割头结构是结构相同的分割头结构；

每个分割头结构分别包括RCNN Head、Mask Head和MaskIoU Head，RC NN Head包括一个ROI Align层和两个全连接层，Mask Head包括一个ROI Al ign层和四个卷积层，MaskIoUHead包括四个卷积层和三个全连接层。

6.根据权利要求1所述的模型训练方法，其特征在于，所述预设检索网络包括ResNet50网络和BNNeck网络；

所述将各所述训练图像及其对应的预测检测信息和预测分割信息输入预设检索网络，得到各所述训练图像对应的预测检索信息，包括：

针对每个所述训练图像，执行以下处理：

将所述训练图像输入所述ResNet50网络，得到所述训练图像对应的图残差特征；

将所述训练图像对应的图残差特征输入池化层，得到所述训练图像对应的池化特征；

将所述训练图像对应的池化特征输入BNNeck网络，得到所述训练图像对应的归一化特征；

利用所述训练图像对应的归一化特征、预测检测信息和预测分割信息进行检索，从所述服装数据库中检索得到所述训练图像对应的服装，作为所述训练图像对应的预测检索信息。

7.根据权利要求6所述的模型训练方法，其特征在于，所述BNNeck网络包括归一化层和全连接层；

所述将所述训练图像对应的池化特征输入BNNeck网络，得到所述训练图像对应的归一化特征，包括：

将所述训练图像对应的池化特征输入所述归一化层，得到所述训练图像对应的归一化特征，所述训练图像对应的池化特征用于计算所述训练图像对应的第一损失值和第二损失值；

将所述训练图像对应的归一化特征输入所述全连接层，得到所述训练图像对应的全连接特征，所述训练图像对应的全连接特征用于计算所述训练图像对应的第三损失值；

8.根据权利要求7所述的模型训练方法，其特征在于，所述训练图像对应的全连接特征还用于计算所述训练图像对应的标签平滑度值；

各所述训练图像对应的第一损失值、第二损失值、第三损失值和标签平滑度值用于训练所述预设检索网络。

9.根据权利要求1所述的模型训练方法，其特征在于，所述模型训练方法还包括：

针对至少一个训练图像，对所述训练图像进行随机擦除，得到所述训练图像对应的增广图像作为新的训练图像并存储至所述训练数据集。

10.根据权利要求1所述的模型训练方法，其特征在于，所述利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，对所述预设检索网络进行训练，得到服装检索模型，包括：

利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，使用预设学习率策略对所述预设检索网络进行训练，得到服装检索模型；所述预设学习率策略用于指示每个epoch对应的学习率，且第一个epoch至第N₁个epoch对应的学习率逐渐递增至第一预设学习率，第N₁+1个至第N₂个epoc h对应的学习率是第二预设学习率，第N₂+1个至第N₃个epoch对应的学习率是第三预设学习率，第N₃+1个至第N₄个epoch对应的学习率是第四预设学习率，其中，所述第一预设学习率小于所述第二预设学习率，所述第二预设学习率大于所述第三预设学习率，所述第三预设学习率大于所述第四预设学习率。

11.一种服装检索方法，其特征在于，所述服装检索方法包括：

获取待检测图像；

将所述待检测图像输入服装检测模型，得到所述待检测图像对应的预测检测信息；

将所述待检测图像输入服装分割模型，得到所述待检测图像对应的预测分割信息；

将所述待检测图像及其对应的检测信息和分割信息输入服装检索模型，得到所述待检测图像对应的预测检索信息；

其中，所述服装检索模型是利用权利要求1-10任一项所述的模型训练方法训练得到的。

12.一种模型训练装置，其特征在于，所述模型训练装置包括：

数据获取模块，用于获取训练数据集，所述训练数据集中的每个训练数据包括一个训练图像和所述训练图像对应的标注信息，所述训练图像对应的标注信息包括所述训练图像对应的标注检索信息，所述训练图像对应的标注检索信息用于指示与所述训练图像中的服装对应的服装数据库中的服装；

预测检测模块，用于将各所述训练图像输入服装检测模型，得到各所述训练图像对应的预测检测信息；

预测分割模块，用于将各所述训练图像输入服装分割模型，得到各所述训练图像对应的预测分割信息；

预测检索模块，用于将各所述训练图像及其对应的预测检测信息和预测分割信息输入预设检索网络，得到各所述训练图像对应的预测检索信息；

检索训练模块，用于利用各所述训练图像对应的标注检索信息和各所述训练图像对应的预测检索信息，对所述预设检索网络进行训练，得到服装检索模型。

13.一种服装检索装置，其特征在于，所述服装检索装置包括：

图像获取模块，用于获取待检测图像；

检索结果模块，用于将所述待检测图像及其对应的检测信息和分割信息输入服装检索模型，得到所述待检测图像对应的检索结果；其中所述服装检索模型是利用权利要求1-10任一项所述的模型训练方法训练得到的。

14.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-10任一项所述模型训练方法的步骤或权利要求11所述服装检索方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序或者服装检索模型；

所述计算机程序被处理器执行时实现权利要求1-10任一项所述模型训练方法的步骤或权利要求11所述服装检索方法的步骤；

所述服装检索模型是利用权利要求1-10任一项所述的模型训练方法训练得到的。