CN114821244A

CN114821244A - 训练服装分类模型的方法、服装分类方法及相关装置

Info

Publication number: CN114821244A
Application number: CN202210593117.XA
Authority: CN
Inventors: 陈仿雄
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-07-29

Abstract

本申请实施例涉及图像处理技术领域，公开了一种训练服装分类模型的方法、服装分类方法及相关装置，获取训练集，训练集包括多个衣服图像和文本信息。对每个文本信息进行编码，得到文本编码特征。将各衣服图像和对应的文本编码特征对第一神经网络进行迭代训练，将收敛后的第一神经网络作为服装分类模型。基于文本信息包括衣服描述，采用多个衣服图像和对应的文本信息对第一神经网络进行训练，第一神经网络能学习到衣服图像所反映的图像特征和文本信息所反映的文本特征，文本特征能够辅助第一神经网络学习到在服装分类上更具有代表性的图像特征，从而，使得服装分类模型所提取的图像特征在服装分类上具有代表性性，能够提升服装分类的准确度。

Description

训练服装分类模型的方法、服装分类方法及相关装置

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种训练服装分类模型的方法、服装分类方法及相关装置。

背景技术

随着现代科技的不断进步，网购规模不断增加，用户可以通过手机在网络购物平台上购买衣物。智能化处理服装类别是目前提升用户体验很重要的一环。

随着神经网络的不断发展，在图像分类领域得到了广泛的应用。因此，研究者将神经网络应用到服装分类中，提出的神经网络一般通过提取图像特征，利用图像特征进行分类。然而，服装总类繁多，服装类别之间的相似度越来越接近，往往只是面料，纹理等方面的差异，难以判断。

发明内容

本申请实施例主要解决的技术问题是提供一种训练服装分类模型的方法、服装分类方法及相关装置，该训练方法训练得到的服装分类模型能够准确对服装进行分类。

为解决上述技术问题，第一方面，本申请实施例中提供了一种训练服装分类模型的方法，包括：

获取训练集，训练集包括多个衣服图像和与多个衣服图像一一对应的文本信息，文本信息包括衣服描述，各衣服图像分别标注有真实服装类别；

对每个文本信息进行编码，得到文本编码特征；

将衣服图像和与衣服图像对应的文本编码特征输入第一神经网络，得到与衣服图像对应的第一预测服装类别；

根据训练集对应的第一预测服装类别和训练集对应的真实服装类别之间的差异，调整第一神经网络的参数，直至收敛，将收敛后的第一神经网络作为服装分类模型。

在一些实施例中，前述对每个文本信息进行编码，得到文本编码特征，包括：

采用词嵌入算法将文本信息中的各词语向量化，得到向量列表；

对向量列表进行特征提取，得到文本编码特征。

在一些实施例中，前述对向量列表进行特征提取，得到文本编码特征，包括：

采用多层感知机模块对向量列表进行特征提取，得到文本编码特征。

在一些实施例中，第一神经网络包括依次级联的卷积模块、融合模块、全连接层和分类层；

将衣服图像和与衣服图像对应的文本编码特征输入第一神经网络，得到与衣服图像对应的第一预测服装类别，包括：

将衣服图像输入卷积模块进行下采样特征提取，得到衣服特征图；

衣服特征图和文本编码特征输入融合模块进行特征融合，得到融合特征图；

融合特征图经全连接层和分类层后，输出第一预测服装类别。

在一些实施例中，融合模块采用以下公式对衣服特征图和文本编码特征进行特征融合；

F(x,e)＝α*x+β

α＝MLP₁(e)；β＝MLP₂(e)

其中，x为衣服特征图，e为向量列表，α为衣服图像对应的一个文本编码特征，β为衣服图像对应的另一个文本编码特征。

在一些实施例中，该方法还包括：

将衣服图像输入第二神经网络，得到与衣服图像对应的第二预测服装类别，其中，第二神经网络的深度小于第一神经网络的深度；

采用损失函数计算损失，并根据损失调整第一神经网络和第二神经网络的参数，直至收敛，将收敛后的第二神经网络作为服装分类模型；

其中，损失函数包括蒸馏损失和分类损失，蒸馏损失反映第一神经网络输出的中间特征图和第二神经网络输出的中间特征图之间的差异，分类损失反映第一预测服装类别、第二预测服装类别和真实服装类别之间的差异。

在一些实施例中，损失函数包括：

其中，

其中，

为蒸馏损失，L_t-s为分类损失，

为第一神经网络对应的中间特征图，G_s为第二神经网络对应的中间特征图，n_L表示第L大小的中间特征图的数量，

表示第一神经网络中对应第L大小的第i张特征图的网络参数，

表示第二神经网络中对应第L大小的第i张特征图的网络参数，n表示服装类别的总个数,y_i表示真实服装类别中第i类的概率值，

表示第一神经网络预测第i类的概率值，

表示第二神经网络预测第i类的概率值。

为解决上述技术问题，第二方面，本申请实施例中提供给了一种服装分类方法，包括：

采用服装分类模型对待分类的衣服图像进行服装类别识别，得到对应的服装类别，其中，服装分类模型采用如权利要求1-7中任意一项训练服装分类模型的方法训练得到。

为解决上述技术问题，第三方面，本申请实施例中提供给了一种电子设备，包括：

至少一个处理器，以及

与至少一个处理器通信连接的存储器，其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面的方法。

为解决上述技术问题，第四方面，本申请实施例中提供给了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机设备执行第一方面的方法。

本申请实施例的有益效果：区别于现有技术的情况，本申请实施例提供的训练服装分类模型的方法，首先获取训练集，训练集包括多个衣服图像和与该多个衣服图像一一对应的文本信息，各衣服图像分别标注有真实服装类别。对每个文本信息进行编码，得到文本编码特征。然后，将各衣服图像和对应的文本编码特征对第一神经网络进行迭代训练，将收敛后的第一神经网络作为服装分类模型。在此方案中，基于文本信息包括衣服描述，例如文本信息可以摘取自衣服吊牌或者衣服的详情介绍，采用多个衣服图像和对应的文本信息对第一神经网络进行训练，第一神经网络能学习到衣服图像所反映的图像特征和文本信息所反映的文本特征，文本特征能够辅助第一神经网络学习到在服装分类上更具有代表性的图像特征，从而，使得服装分类模型所提取的图像特征在服装分类上具有代表性性，能够提升服装分类的准确度。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本申请一些实施例中服装分类系统的应用场景示意图；

图2为本申请一些实施例中电子设备的结构示意图；

图3为本申请一些实施例中训练服装分类模型的方法的流程示意图；

图4为图3所示方法中步骤S20的一子流程示意图；

图5为图3所示方法中步骤S30的一子流程示意图；

图6为本申请一些实施例中第一神经网络的训练示意图；

图7为本申请一些实施例中训练服装分类模型的方法的流程示意图；

图8为本申请一些实施例中第二神经网络的训练示意图。

具体实施方式

下面结合具体实施例对本申请进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本申请，但不以任何形式限制本申请。应当指出的是，对本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进。这些都属于本申请的保护范围。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。此外，本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本说明书中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本申请。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，下面所描述的本申请各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为便于对本申请实施例提供的方法进行理解，首先对本申请实施例中涉及的名词进行介绍：

(1)神经网络

神经网络可以是由神经单元组成的,具体可以理解为具有输入层、隐含层、输出层的神经网络,一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。其中,具有很多层隐含层的神经网络则称为深度神经网络(deep neural network,DNN)。神经网络中的每一层的工作可以用数学表达式y＝a(W·x+b)来描述,从物理层面,神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作,完成输入空间到输出空间的变换(即矩阵的行空间到列空间),这五种操作包括:1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中、2、3的操作由“W·x”完成，4的操作由“+b”完成，5的操作则由“a()”来实现，这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物,而是一类事物,空间是指这类事物所有个体的集合,其中,W是神经网络各层的权重矩阵,该矩阵中的每一个值表示该层的一个神经元的权重值。该矩阵W决定着上文所述的输入空间到输出空间的空间变换,即神经网络每一层的W控制着如何变换空间。训练神经网络的目的,也就是最终得到训练好的神经网络的所有层的权重矩阵。因此,神经网络的训练过程本质上就是学习控制空间变换的方式,更具体的就是学习权重矩阵。

需要注意的是,在本申请实施例中,基于机器学习任务所采用的模型,本质都是神经网络。神经网络中的常用组件有卷积层、池化层、归一化层和反向卷积层等，通过组装神经网络中的这些常用组件，设计得到模型，当确定模型参数(各层的权重矩阵)使得模型误差满足预设条件或调整模型参数的数量达到预设阈值时，模型收敛。

其中，卷积层配置有多个卷积核、每个卷积核设置有对应的步长，以对图像进行卷积运算。卷积运算的目的是提取输入图像的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更深的卷积层能从低级特征中迭代提取更复杂的特征。

反向卷积层用于将一个低维度的空间映射到高维度，同时保持他们之间的连接关系/模式(这里的连接关系即是指卷积时候的连接关系)。反向卷积层配置有多个卷积核、每个卷积核设置有对应的步长，以对图像进行反卷积运算。一般，用于设计神经网络的框架库(例如PyTorch库)中内置有upsumple()函数，通过调用该upsumple()函数可以实现低维度到高维度的空间映射。

池化层(pooling)是模仿人的视觉系统可以对数据进行降维或，用更高层次的特征表示图像。池化层的常见操作包括最大值池化、均值池化、随机池化、中值池化和组合池化等。通常来说，神经网络的卷积层之间都会周期性插入池化层以实现降维。

归一化层用于对中间层的所有神经元进行归一化运算，以防止梯度爆炸和梯度消失。

(2)损失函数

在训练神经网络的过程中,因为希望神经网络的输出尽可能的接近真正想要预测的值,可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重矩阵(然,在第一次更新之前通常会有初始化的过程,即为神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重矩阵让它预测低一些,不断的调整,直到神经网络能够预测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么神经网络的训练就变成了尽可能缩小这个loss的过程。

为介绍本申请实施例前，先对本申请发明人所知晓的服装分类方法进行简单介绍，使得后续便于理解本申请实施例。

在一些服装分类方法中，采用衣服图像训练卷积神经网络，得到服装分类模型，通过该服装分类模型来提取图像特征并进行分类。这种采用衣服图像训练卷积神经网络得到的服装分类模型，不能很好的处理图像样本的多样性问题以及样本空间结构的变化问题，因此检测到的图像当出现很大的色差或者明暗变化，或者是遮挡以及空间结构异常改变，都会使图像的检测准确率垂直下跌。

在一些服装分类方法中，采用注意力机制将服装图像特征的关键向量与权重进行放大，对图像特征进行卷积与归一化处理，利用空间变换网络变换图像特征的感受域；将图像特征输入到胶囊网络，提取图像特征的空间关联信息，提高泛化能力。

然而本申请发明人所知晓的技术，无论是卷积神经网络还是胶囊网络都是提取图像特征，单纯利用图像特征信息，其效果面对如此繁多的服装特征和服装类别，在准确度上明显还是存在不足。

针对上述问题，本申请实施例提供了一种训练服装分类模型的方法、服装分类方法、电子设备及存储介质，其中，该训练方法采用多个衣服图像和对应的文本信息对第一神经网络进行训练，其中，文本信息包括衣服描述，例如文本信息可以摘取自衣服吊牌或者衣服的详情介绍。第一神经网络能学习到衣服图像所反映的图像特征和文本信息所反映的文本特征，文本特征能够辅助第一神经网络学习到在服装分类上更具有代表性的图像特征，从而，使得训练得到的服装分类模型所提取的图像特征在服装分类上具有代表性性，能够提升服装分类的准确度。

下面说明本申请实施例提供的用于训练服装分类模型或用于服装分类的电子设备的示例性应用，可以理解的是，电子设备即可以训练服装分类模型，也可以采用该服装分类模型对服装进行分类。

本申请实施例提供的电子设备可以是服务器，例如部署在云端的服务器。当服务器用于训练服装分类模型时，根据其他设备或者本领域技术人员提供的训练集和神经网络，采用该训练集对神经网络进行迭代训练，确定最终的模型参数，从而神经网络配置该最终的模型参数，即可得到服装分类模型。当服务器用于服装分类时，调用内置的服装分类模型，对其他设备或者用户提供的待分类的服装图像，进行相应的计算处理，得到该待分类的服装图像对应的服装类别。

本申请一些实施例提供的电子设备可以是笔记本电脑、台式计算机或移动设备等各种类型的终端。当终端用于训练服装分类模型时，本领域技术人员将准备好的训练集输入终端，并在终端上设计神经网络，终端采用该训练集对神经网络进行迭代训练，确定最终的模型参数，从而神经网络配置该最终的模型参数，即可得到服装分类模型。当终端用于服装分类时，调用内置的服装分类模型，对用户输入的待分类的服装图像，进行相应的计算处理，得到该待分类的服装图像对应的服装类别。

作为示例，参见图1，图1是本申请实施例提供的服装分类系统的应用场景示意图，终端10通过网络连接服务器20，其中，网络可以是广域网或者局域网，又或者是二者的组合。

终端10可以被用来获取训练集和构建神经网络，例如，本领域技术人员在终端上下载准备好的训练集，以及，搭建神经网络的网络结构。可以理解的是，终端10也可以被用来获取待分类的服装图像，例如，用户通过输入界面输入待分类的服装图像，输入完成后，终端自动获取待分类的服装图像；例如，终端10具备摄像头，通过摄像头采集服装图像，或者，终端10内存储有服装图像库，用户可以从服装图像库中选择待分类的服装图像。

在一些实施例中，终端10本地执行本申请实施例提供的训练服装分类模型的方法来完成采用训练集对设计好的神经网络进行训练，确定最终的模型参数，从而神经网络配置该最终的模型参数，即可得到服装分类模型。在一些实施例中，终端10也可以通过网络向服务器20发送本领域技术人员在终端上存储的训练集和构建好的神经网络，服务器20接收该训练集和神经网络，采用训练集对设计好的神经网络进行训练，确定最终的模型参数，然后将该最终的模型参数发送给终端10，终端10保存该最终的模型参数，使得神经网络配置能够该最终的模型参数，即可得到服装分类模型。

在一些实施例中，终端10本地执行本申请实施例提供的服装分类的方法来为用户提供服装分类服务，调用内置的服装分类模型，对待分类的服装图像、文本信息，进行相应的计算处理，得到该待分类的服装图像对应的服装类别。在一些实施例中，终端10也可以通过网络向服务器20发送用户在终端上输入的待分类的服装图像、文本信息，服务器20收到待分类的服装图像、文本信息，调用内置的服装分类模型对用待分类的服装图像、文本信息，进行相应的计算处理，得到该待分类的服装图像对应的服装类别，然后将服装类别发送给终端10。终端10在接收到服装类别后，将服装类别显示在自身的显示界面上，以告知用户。

下面说明本申请实施例中电子设备的结构，图2是本申请实施例中电子设备500的结构示意图，电子设备500包括至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头,其他输入按钮和控件。

存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access M emory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。

操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi),和通用串行总线(USB,Universal Serial Bus)等；

显示模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

根据上文可以理解,本申请实施例提供的训练服装分类模型的方法和服装分类方法可以由各种类型具有计算处理能力的电子设备实施,例如智能终端和服务器等。

下面结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的训练服装分类模型的方法。参见图3,图3是本申请实施例提供的训练服装分类模型的方法的流程示意图。

请再次参阅图3，该方法S100具体可以包括如下步骤：

S10：获取训练集。

该训练集包括多个衣服图像和与多个衣服图像一一对应的文本信息。可以理解的是，一衣服图像对应有一文本信息。各衣服图像分别标注有真实服装类别。在一些实施例中，训练集中衣服图像的数量为万级，例如可以为20000，有利于训练得到准确的通用模型。本领域技术人员可根据实际情况确定衣服图像的数量。

服装分类方式繁多，例如按性别分，可以分为男装、女装和童装等；按组合可以分为连衣裙、套装、外套、背心、半裙、长裤、短裤或中裤等。可以理解的是，对于上述服装类别，均可以按风格进行细分，例如对于连衣裙还可以分为通勤风连衣裙、休闲风连衣裙或运动风连衣裙等，在此不再一一举例说明。可以理解的是，本领域技术人员，可以根据识别需求，确定训练集中可以包括的服装类别，例如包括10个服装类别对应的衣服图像，从而，训练得到的服装分类模型可以识别出这10个服装类别。

每一衣服图像均标注有真实服装类别。可以理解的是，该真实服装类别为对应的衣服图像中衣服的真实类别。真实服装类别相当于标签，可以用热编码的方式对真实服装类别进行编码。关于热编码是本领域的常用技术手段，在此不再详细介绍。

文本信息包括衣服描述，衣服描述可以描述衣服的风格、面料、款式、领形、衣长、版型、袖长、厚度或适用季节等。在一起实施例中，文本信息可以摘取自衣服吊牌或者网页上关于衣服的详情介绍。基于文本信息包括上述的衣服描述，从而，能够为服装分类提供有效的信息。

可以理解的是，包括衣服图像和文本信息的训练集可由本领域技术人员事先在终端(例如电脑)上搜集得到，例如在一些服饰售卖网站上可爬取衣服图像和对应的详情描述(即文本信息)。在准备好训练集后，通过终端将训练集上传至服务器。

在一些实施例中，终端或服务器可以对训练集中的衣服图像进行归一化处理，有益于提高后续模型训练的收敛速度和模型精度。具体地，在一些实施例中，可以将衣服图像的大小设置为256*256，将衣服图像的像素值范围从0-255转化为0-1之间。在一些实施例中，可以采用如下公式进行像素值转化：

其中，x_i为图像第i个像素值，max(x)为衣服图像中最大像素值，min(x)为衣服图像中最小像素值，norm为转化后的像素值。

S20：对每个文本信息进行编码，得到文本编码特征。

可以理解的是，文本信息是文本格式的数据。为了能够让神经网络学习到文本信息所能反映的特征，这里，对文本信息进行编码，得到文本编码特征。也就是说，将文本信息数字化，转化得到的文本编码特征是数字格式的数据。

在一些实施例中，请参阅图4，前述步骤S20具体包括：

S21：采用词嵌入算法将文本信息中的各词语向量化，得到向量列表。

可以理解的是，词嵌入算法是一种将文本中的词转换成数字向量的方法，例如词嵌入算法可以为word2vec算法。采用词嵌入算法将文本信息中的各词语向量化，即将词语转换成向量(数字数据)。从而，各词语向量构成该文本信息对应的向量列表。可以理解的是，在实际中，每个文本信息的长度不一样，即所包括的词语个数不同，可以设置一个适当的值N，作为向量列表的长度。若一个文本信息达不到该长度，那么可以填充全为0的词语向量，若一个文本信息超过该长度，则进行截断。

S22：对向量列表进行特征提取，得到文本编码特征。

在获取到向量列表后，为了方便神经网络学习向量列表中的特征，对向量列表进行特征提取，得到一个一维的文本编码特征。在一些实施例中，可以采用卷积特征提取网络对向量列表进行特征提取、降维，得到该文本编码特征。可以理解的是，该卷积特征提取网络包括一系列的卷积层、池化层或归一化层，实现特征提取和降维。卷积层、池化层或归一化层的概念已在上述“(1)神经网络”中进行了介绍，在此不再赘述。

在一些实施例中，前述步骤S22具体包括：采用多层感知机模块对向量列表进行特征提取，得到该文本编码特征。

多层感知机模块包括输入层、多层隐含层和输出层，其中，输入层包括N个神经元，隐含层包括Q个神经元，输出层包括K个神经元。每一层的工作可以用函数表达式来描述，可以理解的是，每层的函数表达式不同。

可以理解的是，若输入的向量列表用x表示，则输入层输送给隐含层x,隐藏层的输出可以为f(w₁x+b₁)，其中，w₁是权重，b₁是偏量，函数f可以是常用的sigmoid函数或者tanh函数。隐藏层到输出层相当于是一个多类别的逻辑回归，即softmax回归，因此，输出层的输出为softmax(w₂x₁+b₂)，其中，x₁为隐藏层输出的f(w₁x+b₁)。

因此，多层感知机模块可以采用如下公式表示：

其中，G表示softmax激活函数，h表示隐含层个数，Wⁱ和bⁱ表示第i个隐含层的权重和偏量。x表示输入的向量列表。W¹和b¹表示输入层的权重和偏量，S表示激活函数，MLP(x)表示文本编码特征。

在一些实施例中，K可以为1024，从而，输出层会输出一个长度为1024的一维向量，即长度为1024的文本编码特征。

多层感知机模块的各层使用激活函数，能够给神经元引入非线性因素，使得模块可以任意逼近任何非线性函数，从而，可以利用到更多的非线性模型中。多层感知机模块对于离散信息具有良好的特征提取能力，从而，提取得到的文本编码特征能够充分反映文本信息的特征。

S30：将衣服图像和与衣服图像对应的文本编码特征输入第一神经网络，得到与衣服图像对应的第一预测服装类别。

将衣服图像和对应的文本编码特征输入第一神经网络，基于衣服图像标注有真实服装类别，第一神经网络会学习衣服图像中的图像特征、文本编码特征中的文本特征，与真实服装类别之间的关系，对各衣服图像对应的服装类别进行预测，即得到第一预测服装类别。

在一些实施例中，该第一神经网络包括依次级联的卷积模块、融合模块、全连接层和分类层。其中，卷积模块包括多个卷积层，用于对输入的衣服图像进行下采样提取特征；融合模块用于对至少两个特征进行融合处理。全连接层用于对输入的特征进行整合分类，输出一个一维向量；分类层用于对由全连接层输入的一维向量转化成数值在0和1之间的概率向量，从而，实现分类。值得说明的是，卷积层、全连接层和分类层是神经网络中的常用组件，是本领域技术人员所熟知的，在此不再详细介绍。

请参阅图5，前述步骤S30具体包括：

S31：将衣服图像输入卷积模块进行下采样特征提取，得到衣服特征图。

在一些实施例中，请参阅图6，卷积模块包括多个个卷积层，各卷积层后配置有池化层用于实现特征提取并降维，一些卷积层输出的特征图的大小分别为128*128*64，64*64*128，32*32*256，16*16*256以及8*8*512。可以理解的是，卷积模块中最后一个卷积层输出的特征图即为衣服特征图。在前述实施例中，8*8*512大小的特征图即为衣服特征图。

S32：衣服特征图和文本编码特征输入融合模块进行特征融合，得到融合特征图。

可以理解的是，融合得到的融合特征图具有衣服特征图所能反映的图像特征和文本编码特征所能反映的文本特征，从而，融合特征图使得第一神经网络能够学习到在服装分类上更具有代表性的图像特征。在一些实施例中，融合的方式可以有特征拼接、特征求和、特征之间对应元素相乘等。

在一些实施例中，融合模块采用以下公式对衣服特征图和文本编码特征进行特征融合。

F(t,e)＝α*t+β

α＝MLP₁(e)；β＝MLP₂(e)

其中，t为衣服特征图，e为向量列表，α为衣服图像对应的一个文本编码特征，β为衣服图像对应的另一个文本编码特征，F(t,e)为融合特征图。

在此实施例中，α和β可以是多层感知机模块分别采用两种不同的权重参数对向量列表进行特征提取得到的。将两个文本编码特征α和β，与衣服特征t进行线性融合，通过相乘和求和，能够最大化衣服特征图和文本编码特征中对应特征的相关关系，同时最大化不同类之间的差异，从而，能够提高融合效果，使得融合特征图F(t,e)的特征更加具有代表性。

S33：融合特征图经全连接层和分类层后，输出第一预测服装类别。

基于全连接层用于对输入的特征进行整合分类，输出一个一维向量；分类层用于对由全连接层输入的一维向量转化成数值在0和1之间的概率向量，从而，实现分类。从而，融合特征图经全连接层处理后，得到一个一维向量，该一维向量经分类层处理后转化成数值在0和1之间的概率向量。可以理解的是，该概率向量即为第一预测服装类别的向量表示，其中，概率向量中的元素为衣服图像中衣服为各个类别的概率。可以理解的是，概率最大的类别即为该第一预测服装类别。

S40：根据训练集对应的第一预测服装类别和训练集对应的真实服装类别之间的差异，调整第一神经网络的参数，直至收敛，将收敛后的第一神经网络作为服装分类模型。

可以理解的是，若训练集中各衣服图像对应的真实服装类别和第一预测服装类别之间的差异越小，则第一预测服装类别和真实服装类别就越接近，说明第一神经网络能够准确判断各衣服图像对应的服装类别。从而，可以根据训练集对应的第一预测服装类别和训练集对应的真实服装类别之间的差异，调整第一神经网络的模型参数，对第一神经网络进行迭代训练。

可以理解的是，这里的收敛可以指的是在某一模型参数下，训练集中各真实服装类别和第一预测服装类别的差异总和小于预设阈值或在某一范围内波动。

在一些实施例中，采用adam算法优化模型参数，例如，迭代次数设置为10万次，初始化学习率设置为0.001，学习率的权重衰减设置为0.0005，每1000次迭代，学习率衰减为原来的1/10，其中，可以将学习率、训练集中各真实服装类别和对应的第一预测服装类别之间的差异输入至adam算法中，得到adam算法输出的调整模型参数，利用该调整模型参数进行下一次训练，直到训练完后，输出收敛后的第一神经网络的模型参数。从而，收敛后的第一神经网络作为服装分类模型。

可以理解的是，训练集包括多个标注有真实服装类别的衣服图像及对应的文本信息，例如20000个衣服图像，其覆盖的衣服种类不同，能覆盖市面上大部分的衣服种类。因此，训练出的服装分类模型是一个通用的模型，能够广泛用于服装分类。

在此实施例中，基于文本信息包括衣服描述，例如文本信息可以摘取自衣服吊牌或者衣服的详情介绍，采用多个衣服图像和对应的文本信息对第一神经网络进行训练，第一神经网络能学习到衣服图像所反映的图像特征和文本信息所反映的文本特征，文本特征能够辅助第一神经网络学习到在服装分类上更具有代表性的图像特征，从而，使得服装分类模型所提取的图像特征在服装分类上具有代表性性，能够提升服装分类的准确度。

在一些实施例中，请参阅图7，前述方法S100还包括：

S50：将衣服图像输入第二神经网络，得到与衣服图像对应的第二预测服装类别，其中，第二神经网络的深度小于第一神经网络的深度。

S60：采用损失函数计算损失，并根据损失调整第一神经网络和第二神经网络的参数，直至收敛，将收敛后的第二神经网络作为服装分类模型。

由上述可知，衣服图像输入第一神经网络后，第一神经网络中的卷积模块对衣服图像进行特征提取，卷积模块中的一些卷积层会输出大小分别为128*128*64，64*64*128，32*32*256，16*16*256、8*8*512的中间特征图，卷积模块中的最后一个卷积层输出的8*8*512大小的中间特征图即为衣服特征图，衣服特征图和文本编码特征输入融合模块进行特征融合，得到融合特征图。融合特征图经全连接层和分类层后，输出第一预测服装类别。

请参阅图8，在此实施例中，第二神经网络的深度小于第一神经网络的深度。第二神经网络也具有卷积模块、全连接层和分类层。其中，第二神经网络的卷积模块中的一些卷积层也会输出大小分别为128*128*64，64*64*128，32*32*256，16*16*256、8*8*512的特征图，最后一个特征图经第二神经网络中的全连接层和分类层后，输出第二预测服装类别。

可以理解的是，具有较大深度的第一神经网络在文本信息的辅助下，能够学习到在服装分类上更具有代表性的图像特征，从而，第一神经网络和第二神经网络一同训练时，第一神经网络能够更快地收敛，分类预测结果更加准确。

由于损失函数包括蒸馏损失和分类损失，蒸馏损失反映第一神经网络输出的中间特征图和第二神经网络输出的中间特征图之间的差异，分类损失反映第一预测服装类别、第二预测服装类别和真实服装类别之间的差异。

在一些实施例中，损失函数包括：

其中，

其中，

为蒸馏损失，L_t-s为分类损失，

表示第一神经网络预测第i类的概率值，

表示第二神经网络预测第i类的概率值。

在训练过程中，通过蒸馏损失，第一神经网络将不同尺度的通道维度上的注意力权重迁移到第二神经网络中，使得第二神经网络提取得到的中间特征图与第一神经网络提取得到的中间特征图差异不断缩小，从而，实现第一神经网络指导第二神经网络提取到对服装分类更具有代表性的图像特征。

分类损失包括第一神经网络的第一预测服装类别和真实服装类别之间的损失、第二神经网络的第二预测服装类别和真实服装类别之间的损失以及第一预测服装类别和第二预测服装类别之间的损失。基于第一神经网络能够学习到文本信息，第一预测服装类别能够不断逼近真实服装类别。训练过程中，在损失反向传播的基础上，损失不断缩小，从而，第二预测服装类别也越来越接近真实服装类别。

在损失函数的约束下，第一神经网络会指导第二神经网络向损失值越来越小的方向优化。在第一神经网络的指导下，第二神经网络能够学习到在服装分类上更具有代表性的图像特征，从而实现分类精度的提升。当损失在一定范围内波动或达到最小时，第一神经网络和第二神经网络收敛，收敛后的神经网络能够提取到在服装分类上更具有代表性的图像特征，能够准确预测服装类别，因此，将收敛后的第二神经网络作为服装分类模型。

可以理解的是，基于第二神经网络深度较小，使得服装分类模型需要较小的算力即可运行，预测速度快。此外，由于服装分类模型在是第一神经网络的指导下训练完成的，不需要输入文本信息即可达到或接近收敛后的第一神经网络的分类准确度。

在通过本申请实施例提供的训练服装分类模型的方法训练得到服装分类模型后，可以利用该服装分类模型应用至服装分类。本申请实施例提供的服装分类方法可以由各种类型具有计算处理能力的电子设备实施,例如智能终端和服务器等。

下面结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的服装分类方法。

该服装分类方法采用服装分类模型对待分类的衣服图像进行服装类别识别，得到对应的服装类别。其中，该服装分类模型可以是上述任意实施例中的收敛后的第一神经网络或者收敛后的第二神经网络。

当服装分类模型是收敛后的第一神经网络时，将待分类的衣服图像和对应的文本信息输入服装分类模型，得到服装类别。其中，待分类的衣服图像中包括衣服。终端(例如智能手机)内置的分类助手(应用软件)获取待分类的衣服图像和文本信息，其中，待分类的衣服图像可以是终端拍摄的，或者用户输入的。文本信息也可以是终端拍摄的衣服吊牌，或者终端在网页上爬取的，或者用户输入的。内置于终端内的服装分类模型对待分类的衣服图像进行特征提取，对文本信息进行编码，将编码得到的文本编码特征与提取得到的特征图进行融合，对得到的融合特征图进行全连接和分类处理，得到预测出的服装类别。

可以理解的是，该服装分类模型是通过上述实施例中训练服装分类模型的方法训练得到，与上述实施例中服装分类模型(收敛后的第一神经网络)具有相同的结构和功能，在此不再一一赘述。

当服装分类模型是收敛后的第二神经网络时，将待分类的衣服图像输入服装分类模型，得到服装类别。其中，待分类的衣服图像中包括衣服。终端(例如智能手机)内置的分类助手(应用软件)获取待分类的衣服图像和文本信息，其中，待分类的衣服图像可以是终端拍摄的，或者用户输入的。内置于终端内的服装分类模型对待分类的衣服图像进行特征提取，然后进行全连接和分类处理，得到预测出的服装类别。

可以理解的是，该服装分类模型是通过上述实施例中训练服装分类模型的方法训练得到，与上述实施例中服装分类模型(收敛后的第二神经网络)具有相同的结构和功能，在此不再一一赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使电子设备执行本申请实施例提供的训练服装分类模型的方法，例如，如图3-8所示出的训练服装分类模型的方法，或本申请实施例提供的服装分类方法。

在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例,可执行指令可以但不一定对应于文件系统中的文件,可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkupLanguage)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。

作为示例,可执行指令可被部署为在一个计算设备(包括智能终端和服务器在内的设备)上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点目通过通信网络互连的多个计算设备上执行。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被计算机执行时使计算机执行如前述实施例中训练服装分类模型的方法或服装分类方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。