CN114170475A

CN114170475A - 一种用于图像分类的模型训练方法、设备及存储介质

Info

Publication number: CN114170475A
Application number: CN202111283546.9A
Authority: CN
Inventors: 曹伟朋; 吴宇豪; 庄浩; 蔡恒; 刘鑫
Original assignee: Yunpeng Zhihui Shenzhen Technology Co ltd
Current assignee: Yunpeng Zhihui Shenzhen Technology Co ltd; Nsfocus Technologies Group Co Ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-03-11

Abstract

本申请公开了一种用于图像分类的模型训练方法、设备及存储介质，用以解决现有的模型训练方法得到的模型无法取得较好的图像分类效果的技术问题。方法包括：获取样本图片的视觉特征向量；基于预设算法提取所述视觉特征向量中的浅层语义特征以及深层语义特征，并将浅层语义特征以及深层语义特征进行整合，得到联合语义特征；对联合语义特征进行语义空间对齐，以得到语义对齐损失函数；对视觉特征进行重构，并根据重构后的视觉特征确定自编码器损失函数；基于语义对齐损失函数、自编码器损失函数以及预设参数正则项，确定目标函数训练神经网络模型。本申请通过上述方法实现了提升语义嵌入空间的判别性，缓解了零样本学习模型的域偏置问题。

Description

一种用于图像分类的模型训练方法、设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种用于图像分类的模型训练方法、设备及存储介质。

背景技术

随着深度学习模型框架的广泛使用，监督学习在图像识别领域取得了许多杰出的成果。深度学习模型可以通过充分的训练不断提升模型的识别准确率。然而，现存的有监督图像识别方法只能识别数据集中出现过的类别，在大部分的实际应用场景中如果要对大量数据进行标记需要花费大量的时间，为解决这一问题，研究者们提出了零样本学习来实现对未出现在训练集中的类别进行识别，零样本学习旨在通过在可见类中学习得到的知识对未见类进行分类。

目前，使用最普遍的零样本学习分类方法是基于生成模型的方法。但是现有的生成模型由于目标函数在优化过程中难以收敛，通常生成的未见类伪样本无法达到理想的训练效果。

发明内容

本申请实施例提供了一种用于图像分类的模型训练方法、设备及存储介质，用以解决现有的用于图像分类的模型训练方法训练出的模型，在进行图像分类时效果不佳的技术问题。

一方面，本申请实施例提供了一种用于图像分类的模型训练方法，所述方法包括：获取样本图片的视觉特征向量；基于预设算法提取所述视觉特征向量中的浅层语义特征以及深层语义特征，并将所述浅层语义特征以及深层语义特征进行整合，得到联合语义特征；对所述联合语义特征进行语义空间对齐，以得到语义对齐损失函数；基于所述联合语义特征对所述视觉特征向量进行重构，并根据重构后的视觉特征向量确定自编码器损失函数；基于所述语义对齐损失函数、所述自编码器损失函数以及预设参数正则项，确定神经网络模型的目标函数；基于所述目标函数，训练所述神经网络模型。

在本申请的一种实现方式中，所述获取样本图片的视觉特征向量，具体包括：对所述样本图片进行打标签处理；其中，所述标签用于描述所述样本图片的类别；将打完标签的所述样本图片输入到残差神经网络中，提取所述样本图片中的视觉特征；对所述视觉特征进行向量化处理，以得到视觉特征向量。

在本申请的一种实现方式中，所述基于预设算法提取所述视觉特征向量中的浅层语义特征以及深层语义特征，具体包括：将所述视觉特征向量通过预设的映射矩阵映射到第一语义嵌入空间中，以得到浅层语义特征；确定所述视觉特征向量的投影矩阵；将所述视觉特征向量通过所述投影矩阵映射到第二语义嵌入空间中，以得到深层语义特征。

在本申请的一种实现方式中，所述将所述浅层语义特征以及深层语义特征进行整合，得到联合语义特征，具体包括：将所述映射矩阵与所述视觉特征向量进行相乘运算，以得到浅层语义乘积；将所述投影矩阵与所述视觉特征向量进行相乘运算，以得到深层语义乘积；对所述浅层语义乘积以及所述深层语义乘积进行求和操作，得到联合语义特征。

在本申请的一种实现方式中，所述确定所述视觉特征向量的投影矩阵，具体包括：对所述视觉特征向量进行零均值化处理，以得到零均值化后的视觉特征向量；对所述视觉特征向量进行线性组合，得到组合后的视觉特征矩阵；计算所述视觉特征向量的协方差矩阵；基于组合后的视觉特征矩阵、协方差矩阵以及零均值化后的视觉特征向量，确定特征值以及第一特征向量；根据特征值的大小对所述第一特征向量，从大到小进行顺序排列，得到第二特征向量；基于所述第二特征向量，确定所述投影矩阵。

在本申请的一种实现方式中，所述基于所述联合语义特征对所述视觉特征向量进行重构，并根据重构后的视觉特征向量确定自编码器损失函数，具体包括：将所述联合语义特征以及预设的重构矩阵进行相乘，得到重构后的视觉特征；基于重构后的视觉特征向量，计算自编码器损失函数。

在本申请的一种实现方式中，所述基于所述目标函数，训练神经网络模型，具体包括：调节所述目标函数中预设参数正则项的参数值；其中，目标函数的公式为：

其中，

为自编码器损失函数，

为语义对齐损失函数，Ω(P,V,W)为参数正则项，X为视觉特征向量，B为重构后的视觉特征，A为属性描述，S为联合语义特征，P为投影矩阵，V为重构矩阵，W为映射矩阵；基于预设矩阵方程算法求解所述目标函数中映射矩阵以及重构矩阵的最优解。

在本申请的一种实现方式中，所述计算所述目标函数中映射矩阵以及重构矩阵的最优解之后，所述方法还包括：将测试样本输入训练后的神经网络模型中，输出所述测试样本的预测结果；基于所述预测结果以及真实结果，计算所述神经网络模型的准确率；重复测试，直至所述神经网络模型的准确率达到预设值。

另一方面，本申请还提供了一种用于图像分类的模型训练设备，所述设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：获取样本图片的视觉特征向量；基于预设算法提取所述视觉特征向量中的浅层语义特征以及深层语义特征，并将所述浅层语义特征以及深层语义特征进行整合，得到联合语义特征；对所述联合语义特征进行语义空间对齐，以得到语义对齐损失函数；基于所述联合语义特征对所述视觉特征向量进行重构，并根据重构后的视觉特征向量确定自编码器损失函数；基于所述语义对齐损失函数、所述自编码器损失函数以及预设参数正则项，确定神经网络模型的目标函数；基于所述目标函数，训练所述神经网络模型。

本申请还提供了一种用于图像分类的模型训练非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：获取样本图片的视觉特征向量；基于预设算法提取所述视觉特征向量中的浅层语义特征以及深层语义特征，并将所述浅层语义特征以及深层语义特征进行整合，得到联合语义特征；对所述联合语义特征进行语义空间对齐，以得到语义对齐损失函数；基于所述联合语义特征对所述视觉特征向量进行重构，并根据重构后的视觉特征向量确定自编码器损失函数；基于所述语义对齐损失函数、所述自编码器损失函数以及预设参数正则项，确定神经网络模型的目标函数；基于所述目标函数，训练所述神经网络模型。

本申请实施例提供的一种用于图像分类的模型训练方法、设备及存储介质，通过对现有的样本图片进行预处理得到视觉特征向量，然后将视觉特征向量通过映射矩阵提取浅层语义特征，通过主成成分分析算法提取深层语义特征求解投影矩阵，将浅层语义特征和深层语义特征进行重组，得到联合语义特征，并对语义空间对齐得到语义对齐损失函数。利用联合语义特征对视觉特征进行重构，最终得到自编码器的损失函数，通过预设参数正则项，求解映射矩阵和重构矩阵的最优解完成模型的训练。本申请通过挖掘视觉特征中的潜在联合语义表征提升语义嵌入空间的判别性，缓解了零样本学习模型的域偏置问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种用于图像分类的模型训练方法流程图；

图2为本申请实施例提供的用于图像分类的模型训练方法简要流程图；

图3为本申请实施例提供的用于图像分类的模型结构图；

图4为本申请实施例提供的一种用于图像分类的模型训练设备示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着深度学习模型框架的广泛使用，有监督学习在图像识别领域取得了许多杰出的成果。这得益于可用于训练的标记数据集不断增多，深度学习模型可以通过充分的训练来不断提升模型的识别准确率。然而，现存的有监督图像识别方法只能识别数据集中出现过的类别，在大部分的实际应用场景中如果要对大量数据进行标记需要花费大量时间和人力。为了解决这一问题，研究者们提出了零样本学习以实现对未在训练集中出现的类别进行识别。零样本学习旨在通过在可见类中学到的知识对未见类进行分类。

有关零样本学习分类方法可分为三种，分别是基于属性迁移的方法；基于映射的方法；基于生成模型的方法。早期提出的零样本学习方法，直接属性预测和间接模型预测都是通过建立属性和类标签之间的严格对应关系，然后利用贝叶斯公式计算后验概率乘积预测未见类的标签。然而，学习属性与标签之间对应关系通常会由于过拟合问题导致对未见类识别效果不理想。因此为了提升对未见类识别准确率，基于映射的方法旨在进一步学习视觉空间和语义空间之间的关联，利用语义信息作为中间桥梁对未见类样本分类。为了解决模型在可见类训练过拟合问题，研究者们提出了基于生成模型的零样本学习方法，利用未见类的语义描述来生成伪样本视觉特征缓解可见类和未见类之间的样本不平衡问题。

上述生成模型由于目标函数在优化过程中难以收敛，通常生成的未见类伪样本无法达到理想的训练效果。在映射模型的基础上增加了额外的重构误差来缓解域偏置问题，但在对视觉特征重构过程中，视觉空间和语义空间之间往往在流形结构上存在巨大的差距。其次，人为设计语义信息(如：属性)只能关注类别直观的视觉特征对应的浅层语义信息(如：颜色、形状等)，在实际模型学习过程中忽略了潜在的深层语义信息。按照人为设计的属性描述规则只能关注于样本在视觉上相对直观的语义。然而，在不同类别的数据中，这些浅层语义信息所能够提供的判别信息往往并不足以对不同类别的样本进行区分，模型依然存在域偏置问题。

本申请实施例提供了一种用于图像分类的模型训练方法，用以解决现有的模型训练方法训练出来的模型在图像分类时不能达到较好的效果的技术问题。

下面通过附图对本申请实施例提出的技术方案进行详细的说明。

图1为本申请实施例提供的。如图1所示，图1为本申请实施例提供的一种用于图像分类的模型训练方法流程图，方法主要包括以下步骤。

步骤101、获取样本图片的视觉特征。

本申请实施例中，用于图像分类的模型训练方法简要流程图如图2所示，共分为四个步骤：图像预处理，学习联合语义表征，重构视觉特征，模型训练。在图像预处理过程中，训练数据集中提供了一定数量的图片样本，首先对这些图片进行打标签，这些标签中带有样本图片的类别。同时，这些样本图片中还预先加入了一些属性描述，用于描述样本图片。

进一步地，将数据集中的图片输入101层的残差神经网络(ResNet101)对图像视觉特征进行提取，然后对视觉特征进行向量化处理以得到2048维的视觉特征向量。

步骤102、提取视觉特征向量中的浅层语义特征以及深层语义特征，并将浅层语义特征以及深层语义特征进行整合，得到联合语义特征。

本申请实施例中，提出的模型共分为学习联合语义表征和重构视觉特征两部分。由于浅层语义信息在对未见类分类时通常会因为类间区分性不够而导致学习效果不理想。因此，在原有语义表征基础上对视觉特征的深层语义信息进行提取，并将浅层语义表征与深层语义表征重组得到样本对应的联合语义表征来增强模型中所学语义表征的判别。

本申请实施例中，编码过程中，将可见类样本的视觉特征X通过预设的映射矩阵W映射到第一语义嵌入空间中得到样本对应的浅层语义表征。为了提取深层语义信息，同时利用主成成分分析方法提取视觉特征中潜在的深层属性。将提取到的深层属性映射到第二语义嵌入空间中，从而得到样本图片的深层语义特征。将第一语义空间和第二语义空间中获得的浅层语义特征和深层语义特征进行重组，最终得到联合语义表征。

具体地，根据PCA降维算法，需要对视觉特征向量进行均值化处理，将视觉特征向量X的每一行数据进行零均值化(一行数据代表一个样本视觉特征)，即将每个样本的视觉特征向量X减去自身向量的均值

计算公式如下：

进一步地，原视觉特征X进行线性组合，得到组合后的视觉特征矩阵X_g，X_g＝RFX’，F为单位矩阵，计算得到X_g的协方差矩阵C，C＝RLR’，其中，R是视觉特征矩阵X_g的第一特征向量，L为矩阵X_g的特征值。然后，根据特征值的大小对第一特征向量R进行从大到小的排列，得到第二特征向量R’，通过取第二特征向量R’得前k行得到投影矩阵P。

进一步地，求出投影矩阵P之后，视觉特征向量X通过主成成分分析算法利用投影矩阵P到第二语义嵌入空间中，提取得到深层语义特征。将深层语义特征与浅层语义特征进行线性组合得到联合语义表征S。

具体地，将映射矩阵W与视觉特征向量X进行相乘运算，得到浅层语义乘积WX。然后将投影矩阵P与视觉特征向量X进行相乘运算，得到深层语义乘积PX。然后将浅层语义乘积WX以及深层语义乘积PX进行求和，得到联合语义特征S。其中，计算过程公式如下：

S＝PX+WX，

其中，P为投影矩阵(P∈R^k*d)，W为映射矩阵，X为视觉特征向量。

步骤103、对所述联合语义特征进行语义空间对齐，以得到语义对齐损失函数。

本申请实施例中，为了保持浅层语义表征与深层语义表征重组后的流形和原始语义空间流形一致，我们对联合语义表征进行语义空间对齐，语义对齐损失函数为：

其中A为属性描述，S为联合语义特征，

为Frobenius范数，用于计算属性描述与联合语义表征之间的欧几里得距离，保证重组后联合语义表征流形与原始语义流形的一致性。

进一步地，视觉特征向量与属性描述向量会因为结构差异而存在维度鸿沟。为了缓解维度鸿沟所产生的方差衰减，因此通过对联合语义表征进行约束来保持视觉空间流形不变性。约束后的语义对齐损失函数为：

步骤104、基于所述联合语义特征对所述视觉特征向量进行重构，并根据重构后的视觉特征向量确定自编码器损失函数。

本申请实施例中，自编码器通过最小化原始视觉特征和重构视觉特征来学习样本的输入表征。将可见类样本作为编码器的输入。在编码过程中，视觉特征X经过投影到语义嵌入空间后得到了视觉特征在语义嵌入空间中对应的浅层语义属性。在解码器部分，利用编码器得到的浅层语义属性和深层视觉属性组合得到的联合语义表征S对视觉特征X进行重构，并通过重构误差来学习视觉特征-联合语义之间的关联。将联合语义表征S与预设的重构矩阵V进行相乘，得到重构后的视觉特征B，重构后的视觉特征B的计算公式为：

B＝VS，

其中V为重构矩阵，V∈R^k*d，S为联合语义特征。

因此，初步得到的自编码器的损失函数为：

进一步地，由于视觉特征空间与语义空间二者的流形存在结构上的差别，因此需要在解码器中对重构后的视觉特征进行约束，以保证联合语义特征S重构后的视觉特征B，能够与原始的视觉特征X具有相似的欧几里得范数，从而防止在对未见类样本识别时由于视觉特征空间与语义空间二者的流形结构差别所引发的域偏置问题。最终得到的自编码器的损失函数为：

其中

步骤105、基于所述语义对齐损失函数、所述自编码器损失函数以及预设参数正则项，确定目标函数。

本申请实施例中，通用零样本学习框架的目标函数共分为三个部分，分别为自编码器损失

浅层语义和深层语义对齐损失

和预设的参数正则项Ω。增加参数正则项Ω的目的是为了防止模型在训练过程中发生过拟合，通过增加L2范式约束惩罚待学习的对投影矩阵和重构矩阵标准权重衰减，提升模型的泛化性。参数正则项Ω的表达式为：

Ω(P，V，W)＝‖P‖²+‖V‖²+‖W‖²，

目标函数的计算公式为：

步骤106、基于所述目标函数，训练神经网络模型。

本申请实施例中，据目标函数就可以求解出映射矩阵W以及重构矩阵V，具体计算的过程为如下：

根据范数定义

A^TA-2A^TWX+2(α+1)X^TWPX+2(α+1)X^TW^TWX+λW^TW

目标函数对W求偏导：

令导数为0，得到方程式：

2λW+(α+1)WXX^T＝2AX^T-2(α+1)XX^TP

已知Sylvester方程为

MX+XK＝Q

其中M＝2λ，K＝(α+1)XX^T，Q＝2AX^T-2(α+1)XX^TP。利用Bartels–Stewart算法对方程MX+XK＝Q进行求解，得到最优参数W。

进一步地，求解重构矩阵V的过程如下：

首先对目标函数进行求偏导，令导数为0，得到Sylvester方程式：

λV+(β+1)VSS^T＝XS^T

我们可以求解该Sylvester方程λV+(β+1)VSS^T＝XS^T，得到重构矩阵V的最优解。求解算法过程如下所示。

本申请实施例中，基于目标函数求解出映射矩阵W以及重构矩阵V的最优解的过程实际上是属于模型训练的过程，求解出最优解之后，需要测试模型训练的程度，也就是检测模型对于未见类样本的识别效果如何。首先将用于测试的样本图片输入到模型中，输出测试样本，也即未见类样本的预测结果。然后根据真实结果和预测结果计算模型准确率，随着测试过程不断累积，准确率不断上升，直至达到预设的准确率数值，证明模型已经完成训练。在此过程中，模型对输入的未见类样本进行学习和分析，并辅助以重构视觉特征为样本的数据一并学习，最终得出一个用于预测图像分类的标签，该标签的生成标志着模型已经可以用于识别未见类样本数据。

本申请实施例中，用于图像分类的模型结构如图3所示。首先将训练样本X_tr进行特征提取，然后分别输进编码器和PCA算法中进行浅层和深层语义特征的提取，最后输出联合语义表征，然后在解码器中重构，得到重构训练样本X_re，将测试样本X_te输进模型，检验模型的准确率，并与重构训练样本X_re进行比对，得到用于对未见类进行分类的预测标签y_pro。

本申请实施例中，在3个基准数据集(AWA1[6],AWA2[5],SUN[7])上对模型的性能进行了测试，在常用的3个零样本学习中基准数据集我们参考了PS的可见类/未见类划分方法，因此在3个基准数据集中均采用的是PS V2.0划分方案。同时我们在模型测试过程中所使用的2048维视觉特征均由ResNet-101预训练模型提取得到设置下进行测试，得到实验结果均达到了最佳性能。数据集详细信息如下表1所示。

表15个基准数据集的样本及可见类/未见类划分的详细信息

为了尽可能公平的对模型进行评估，并与现有的零样本学习模型进行对比，我们统一采用PS V2.0中所使用的数据集。在ZSL设置下的基准数据集测试结果如下表2所示。

表2零样本学习设定下在基准数据集AWA1,AWA2,SUN上对未见类的Top-1识别准确率

在传统零样本学习中，本申请实施例提出的模型在AWA1、AWA2和SUN数据集上都取得了最好的结果。

由于视觉特征和语义信息之间存在的维度鸿沟，采用直接映射的方式会导致特征空间坍缩，当视觉特征映射到语义空间后会陷入枢纽点问题。我们的模型基于主成成分分析算法对视觉特征进行均值化处理，缓解了在映射后产生的枢纽点问题。

大部分现有的方法中使用属性描述作为类别的语义辅助信息，但是却忽略了人为设计的属性描述具有局限性无法很好的捕捉潜在的深层语义信息。因此我们在视觉-语义映射过程中提取视觉特征中的深层语义特征，并将浅层语义特征和深层语义特征映射到联合语义嵌入空间中，得到样本的联合语义表征。不仅对样本视觉特征对应的潜在深层语义进行了挖掘，同时也对冗余特征进行了剔除，有效保留了视觉特征。

本申请实施例提出的模型中在合成联合语义表征的过程中对联合语义表征进行约束来保留视觉空间流形的不变性，同时对编码解码过程中所需要学习的投影矩阵P和重构矩阵V均增加了L2-norm约束，增强了模型的泛化性。

以上为本申请实施例提供的一种用于图像分类的模型训练方法实施例，基于同样的发明构思，本申请还提供了一种用于图像分类的模型训练设备，如图4所示，所述设备包括：至少一个处理器401；以及，与所述至少一个处理器401通信连接的存储器402；其中，所述存储器402存储有可被所述至少一个处理器401执行的指令，所述指令被所述至少一个处理器401执行，以使所述至少一个处理器401能够：获取样本图片的视觉特征向量；基于预设算法提取所述视觉特征向量中的浅层语义特征以及深层语义特征，并将所述浅层语义特征以及深层语义特征进行整合，得到联合语义特征；对所述联合语义特征进行语义空间对齐，以得到语义对齐损失函数；基于所述联合语义特征对所述视觉特征进行重构，并根据重构后的视觉特征确定自编码器损失函数；基于所述语义对齐损失函数、所述自编码器损失函数以及预设参数正则项，确定目标函数；基于所述目标函数，训练神经网络模型。

此外，本申请实施例提供了一种用于图像分类的模型训练的非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：获取样本图片的视觉特征向量；基于预设算法提取所述视觉特征向量中的浅层语义特征以及深层语义特征，并将所述浅层语义特征以及深层语义特征进行整合，得到联合语义特征；对所述联合语义特征进行语义空间对齐，以得到语义对齐损失函数；基于所述联合语义特征对所述视觉特征进行重构，并根据重构后的视觉特征确定自编码器损失函数；基于所述语义对齐损失函数、所述自编码器损失函数以及预设参数正则项，确定目标函数；基于所述目标函数，训练神经网络模型。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于图像分类的模型训练方法，其特征在于，所述方法包括：

获取样本图片的视觉特征向量；

基于预设算法提取所述视觉特征向量中的浅层语义特征以及深层语义特征，并将所述浅层语义特征以及深层语义特征进行整合，得到联合语义特征；

对所述联合语义特征进行语义空间对齐，以得到语义对齐损失函数；

基于所述联合语义特征对所述视觉特征向量进行重构，并根据重构后的视觉特征向量确定自编码器损失函数；

基于所述语义对齐损失函数、所述自编码器损失函数以及预设参数正则项，确定神经网络模型的目标函数；

基于所述目标函数，训练所述神经网络模型。

2.根据权利要求1所述的一种用于图像分类的模型训练方法，其特征在于，所述获取样本图片的视觉特征向量，具体包括：

对所述样本图片进行打标签处理；其中，所述标签用于描述所述样本图片的类别；

将打完标签的所述样本图片输入到残差神经网络中，提取所述样本图片中的视觉特征；

对所述视觉特征进行向量化处理，以得到视觉特征向量。

3.根据权利要求1所述的一种用于图像分类的模型训练方法，其特征在于，所述基于预设算法提取所述视觉特征向量中的浅层语义特征以及深层语义特征，具体包括：

将所述视觉特征向量通过预设的映射矩阵，映射到第一语义嵌入空间中，以得到所述浅层语义特征；

确定所述视觉特征向量的投影矩阵；

将所述视觉特征向量通过所述投影矩阵，映射到第二语义嵌入空间中，以得到所述深层语义特征。

4.根据权利要求3所述的一种用于图像分类的模型训练方法，其特征在于，所述将所述浅层语义特征以及深层语义特征进行整合，得到联合语义特征，具体包括：

将所述映射矩阵与所述视觉特征向量进行相乘运算，以得到浅层语义乘积；其中，所述浅层语义乘积为所述浅层语义特征的数值；

将所述投影矩阵与所述视觉特征向量进行相乘运算，以得到深层语义乘积；其中，所述深层语义乘积为所述深层语义特征的数值；

对所述浅层语义乘积以及所述深层语义乘积进行求和操作，得到所述联合语义特征。

5.根据权利要求3所述的一种用于图像分类的模型训练方法，其特征在于，所述确定所述视觉特征向量的投影矩阵，具体包括：

对所述视觉特征向量进行零均值化处理，以得到零均值化后的视觉特征向量；

对所述视觉特征向量进行线性组合，得到组合后的视觉特征矩阵；

计算所述视觉特征向量的协方差矩阵；

基于所述组合后的视觉特征矩阵、所述协方差矩阵以及所述零均值化后的视觉特征向量，确定组合后的视觉特征矩阵的的特征值以及第一特征向量；

根据所述特征值的大小，对所述第一特征向量从大到小进行顺序排列，得到第二特征向量；

基于所述第二特征向量，确定所述投影矩阵。

6.根据权利要求1所述的一种用于图像分类的模型训练方法，其特征在于，所述基于所述联合语义特征对所述视觉特征向量进行重构，并根据重构后的视觉特征向量确定自编码器损失函数，具体包括：

将所述联合语义特征以及预设的重构矩阵进行相乘，得到重构后的视觉特征向量；

基于重构后的视觉特征向量，计算自编码器损失函数。

7.根据权利要求1所述的一种用于图像分类的模型训练方法，其特征在于，所述基于所述目标函数，训练所述神经网络模型，具体包括：

调节所述目标函数中预设参数正则项的参数值；其中，目标函数为：

其中，

为自编码器损失函数，

为语义对齐损失函数，Ω(P，V，W)为参数正则项，X为视觉特征向量，B为重构后的视觉特征，A为属性描述，S为联合语义特征，P为投影矩阵，V为重构矩阵，W为映射矩阵；

基于预设矩阵方程算法求解所述目标函数中映射矩阵以及重构矩阵的最优解。

8.根据权利要求7所述的一种用于图像分类的模型训练方法，其特征在于，所述基于预设矩阵方程算法求解所述目标函数中映射矩阵以及重构矩阵的最优解：

将测试样本输入训练后的神经网络模型中，输出所述测试样本的预测结果；

基于所述预测结果以及真实结果，计算所述神经网络模型的准确率；

重复测试，直至所述神经网络模型的准确率达到预设值。

9.一种用于图像分类的模型训练设备，其特征在于，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取样本图片的视觉特征向量；

基于所述目标函数，训练所述神经网络模型。

10.一种用于图像分类的模型训练非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：

获取样本图片的视觉特征向量；

基于所述目标函数，训练所述神经网络模型。