CN111639755A

CN111639755A - 一种网络模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN111639755A
Application number: CN202010509645.3A
Authority: CN
Inventors: 邹昆; 侯卫东; 董帅
Original assignee: University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: Zhuhai Dawu Intelligent Technology Co ltd
Priority date: 2020-06-07
Filing date: 2020-06-07
Publication date: 2020-09-08
Anticipated expiration: 2040-06-07
Also published as: CN111639755B

Abstract

本申请提供一种网络模型训练方法、装置、电子设备及存储介质，用于改善训练获得的分类网络模型的准确率不高的问题。该网络模型训练方法包括：获得多个训练图像和多个训练图像对应的标签表；使用预先构建的分类神经网络对原始图像和多个变换图像进行前向传播运算，获得多个逻辑斯特值，多个逻辑斯特值与多个训练图像对应；根据多个逻辑斯特值和多个训练图像对应的标签表构建第一损失函数，第一损失函数表征多个逻辑斯特值和对应的标签表之间的多标签图像分类损失；根据多个逻辑斯特值构建第二损失函数，第二损失函数表征多个逻辑斯特值之间的一致性损失；根据第一损失函数和第二损失函数对分类神经网络进行训练，获得训练后的分类网络模型。

Description

一种网络模型训练方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能和深度学习的技术领域，具体而言，涉及一种网络模型训练方法、装置、电子设备及存储介质。

背景技术

类别激活图(class activation map，CAM)，是指计算时间模式在不同空间位置存在的加权线性和，通过简单地将类别激活映射上采样到输入图像的尺寸，可以识别与特定类别最相关的图像区域。可以将CAM理解为一个帮助可视化网络模型中的区域特征工具，通过使用CAM可以清楚的观察到网络模型关注输入图像的具体区域。

视觉注意力一致性(Visual Attention Consistency，VAC)，又被称为视觉注意力图一致性，有时简称VAC算法，是指如果图像是空间变换的，那么对于图像分类的注意区域遵循着相同的变换规则。

上述的视觉注意力图一致性的具体例如：若使用I表示图像，使用g()表示CAM计算过程，使用T()表示某种图像变换操作，这里的某种图像变换操作具体例如：放大、缩小、水平翻转和垂直翻转等，那么这里的视觉注意力一致性使用公式可以表示为T(g(I))＝g(T(I))；也就是说，这里的VAC算法的思路主要为，根据输入图像的变换关系手动设计出变换后的注意力图，然后利用CAM通过注意力图一致性损失来进行不变性的约束；在具体的实践过程中发现，在对网络模型进行训练时，使用视觉注意力一致性的方式训练获得的分类网络模型的准确率不高。

发明内容

本申请实施例的目的在于提供一种网络模型训练方法、装置、电子设备及存储介质，用于改善训练获得的分类网络模型的准确率不高的问题。

本申请实施例提供了一种网络模型训练方法，应用于电子设备，包括：获得多个训练图像和多个训练图像对应的标签表，多个训练图像包括目标对象的原始图像和对原始图像进行空间变换获得的多个变换图像，标签表包括目标对象的至少一个标签；使用预先构建的分类神经网络对原始图像和多个变换图像进行前向传播运算，获得多个逻辑斯特值，多个逻辑斯特值与多个训练图像对应；根据多个逻辑斯特值和多个训练图像对应的标签表构建第一损失函数，第一损失函数表征多个逻辑斯特值和多个训练图像对应的标签表之间的多标签图像分类损失；根据多个逻辑斯特值构建第二损失函数，第二损失函数表征多个逻辑斯特值之间的一致性损失；根据第一损失函数和第二损失函数对分类神经网络进行训练，获得训练后的分类网络模型。在上述的实现过程中，通过使用预先构建的分类神经网络对原始图像和多个变换图像进行前向传播运算，获得多个逻辑斯特值；根据多个逻辑斯特值和多个训练图像对应的标签表构建第一损失函数；根据多个逻辑斯特值构建表征多个逻辑斯特值之间的一致性损失的第二损失函数；然后根据第一损失函数和第二损失函数对分类神经网络进行训练，获得训练后的分类网络模型，替代了根据图像和标签注意力热图(the attention heatmap for images and labels)来构建损失函数的方式，有效地通过第二损失函数增加了多个逻辑斯特值之间的匹配度，从而提高了分类网络模型的准确率。

可选地，在本申请实施例中，在使用预先构建的分类神经网络对原始图像和多个变换图像进行前向传播运算之前，还包括：获得残差网络；根据残差网络、全局平均池化层和全连接层构建分类神经网络。

可选地，在本申请实施例中，多个变换图像包括：第一图像、第二图像和第三图像；获得多个训练图像，包括：获得原始图像；对原始图像进行第一空间变换操作，获得第一图像；对原始图像进行第二空间变换操作，获得第二图像，第一空间变换操作不同于第二空间变换操作；对原始图像进行第一空间变换操作和第二空间变换操作，获得第三图像。

可选地，在本申请实施例中，使用预先构建的分类神经网络对原始图像和多个变换图像进行前向传播运算，包括：计算原始图像、第一图像、第二图像和第三图像的均值和方差；使用均值和方差分别对原始图像、第一图像、第二图像和第三图像进行归一化处理，获得原始图像的输入特征、第一图像的输入特征、第二图像的输入特征和第三图像的输入特征；使用分类神经网络对原始图像对应的输入特征、第一图像的输入特征、第二图像的输入特征和第三图像的输入特征进行前向传播运算。

可选地，在本申请实施例中，根据多个逻辑斯特值构建第二损失函数，包括：根据

对所述多个逻辑斯特值进行计算；其中，l_a表示所述第二损失函数，N是图像的数量，L是图像对应的标签表的标签数量，

和

分别表示从所述原始图像、所述第一图像、所述第二图像和所述第三图像选择出的一对图像对应的逻辑斯特值，x_ijk∈R表示第i张图像第j个标签对应的第k对图像对应的逻辑斯特值。在上述的实现过程中，在第二损失函数的计算过程中，仅需要根据多个逻辑斯特值之间的损失值来计算一致性损失，而不是根据图像中的每个像素值来计算一致性损失，即根据获取的逻辑斯特值计算一致性损失来代替VAC算法中的根据注意力图计算一致性损失，从而简化了一致性损失的计算流程，有效的改善了注意力机制图的计算流程过于复杂的问题。

可选地，在本申请实施例中，根据第一损失函数和第二损失函数对分类神经网络进行训练，包括：根据第一损失函数和第二损失函数确定总损失函数；根据总损失函数对分类神经网络进行迭代训练。

可选地，在本申请实施例中，在获得训练后的分类网络模型之后，还包括：获得待预测图像，待预测图像包括待预测对象的至少一个标签；使用分类网络模型对待预测图像进行预测，获得待预测对象的至少一个标签对应具体值的概率。

本申请实施例还提供了一种网络模型训练装置，包括：图像标签获得模块，用于获得多个训练图像和多个训练图像对应的标签表，多个训练图像包括目标对象的原始图像和对原始图像进行空间变换获得的多个变换图像，标签表包括目标对象的至少一个标签；逻辑斯特获得模块，用于使用预先构建的分类神经网络对原始图像和多个变换图像进行前向传播运算，获得多个逻辑斯特值，多个逻辑斯特值与多个训练图像对应；第一函数构建模块，用于根据多个逻辑斯特值和多个训练图像对应的标签表构建第一损失函数，第一损失函数表征多个逻辑斯特值和多个训练图像对应的标签表之间的多标签图像分类损失；第二函数构建模块，用于根据多个逻辑斯特值构建第二损失函数，第二损失函数表征多个逻辑斯特值之间的一致性损失；网络模型获得模块，用于根据第一损失函数和第二损失函数对分类神经网络进行训练，获得训练后的分类网络模型。

可选地，在本申请实施例中，网络模型训练装置，还包括：残差网络获得模块，用于获得残差网络；神经网络构建模块，用于根据残差网络、全局平均池化层和全连接层构建分类神经网络。

可选地，在本申请实施例中，多个变换图像包括：第一图像、第二图像和第三图像；图像标签获得模块，包括：原始图像获得模块，用于获得原始图像；第一图像获得模块，用于对原始图像进行第一空间变换操作，获得第一图像；第二图像获得模块，用于对原始图像进行第二空间变换操作，获得第二图像，第一空间变换操作不同于第二空间变换操作；第三图像获得模块，用于对原始图像进行第一空间变换操作和第二空间变换操作，获得第三图像。

可选地，在本申请实施例中，逻辑斯特获得模块，包括：均值方差计算模块，用于计算原始图像、第一图像、第二图像和第三图像的均值和方差；输入特征获得模块，用于使用均值和方差分别对原始图像、第一图像、第二图像和第三图像进行归一化处理，获得原始图像的输入特征、第一图像的输入特征、第二图像的输入特征和第三图像的输入特征；前向传播运算模块，用于使用分类神经网络对原始图像对应的输入特征、第一图像的输入特征、第二图像的输入特征和第三图像的输入特征进行前向传播运算。

可选地，在本申请实施例中，网络模型获得模块，包括：损失函数确定模块，用于根据第一损失函数和第二损失函数确定总损失函数；网络迭代训练模块，用于根据总损失函数对分类神经网络进行迭代训练。

可选地，在本申请实施例中，网络模型训练装置，还包括：预测图像获得模块，用于获得待预测图像，待预测图像包括待预测对象的至少一个标签；图像标签预测模块，用于使用分类网络模型对待预测图像进行预测，获得待预测对象的至少一个标签对应具体值的概率。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的网络模型训练方法的流程示意图；

图2示出的本申请实施例提供的训练图片匹配关系的示意图；

图3示出的本申请实施例提供的对分类神经网络模型进行应用的流程示意图；

图4示出的本申请实施例提供的分类神经网络的结构示意图；

图5示出的本申请实施例提供的网络模型训练装置的结构示意图；

图6示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的网络模型训练方法之前，先介绍本申请实施例所涉及的一些概念：

多分类任务，是指对图像中的多个标签或属性进行分类，具体例如：多分类任务的输入是人体的整张图像，而要分析的却是一些只需要局部区域的属性，这些属性例如：图像中的人是否戴帽子或者是否穿皮鞋等等。

前向传播(Forward Propagation)，也叫正向传播，顾名思义，是在神经网络的运算过程中，由前往后进行的一个计算过程；前向传播算法也就是利用若干个权重系数矩阵W，偏置向量b来和输入值向量x；进行一系列线性运算和激活运算，从输入层开始，一层层的向后计算，一直到运算到输出层，然后得到输出结果为值。

梯度下降(Gradient Descent)是一个最优化算法，常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型；梯度下降是迭代法的其中一种，可以用于求解最小二乘问题(线性和非线性都可以使用)；在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降是最常采用的方法之一，另一种常用的方法是最小二乘法；在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。

随机梯度下降(Stochastic Gradient Descent，SGD)，是指在机器学习算法中，有时候需要对原始的模型构建损失函数，然后通过优化算法对损失函数进行优化，以便寻找到最优的参数，使得损失函数的值最小；而在求解机器学习参数的优化算法中，使用较多的就是基于梯度下降的优化算法。

全连接层(Fully Connected Layer，FC)，是指将将经过多个卷积层和池化层的图像特征图中的特征进行整合的线性运算单元层。全连接层将卷积层产生的特征图映射成一个固定长度的特征向量，这里的固定长度一般是指输入图像数据集中的图像类别数。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。当然在具体的实施过程中，上述的服务器可以具体选择大型机或者小型机，这里的小型机是指采用精简指令集计算(ReducedInstruction Set Computing，RISC)、单字长定点指令平均执行速度(MillionInstructions Per Second，MIPS)等专用处理器，主要支持UNIX操作系统的封闭且专用的提供计算服务的设备；这里的大型机，又名大型主机，是指使用专用的处理器指令集、操作系统和应用软件来提供计算服务的设备。

需要说明的是，本申请实施例提供的网络模型训练方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personaldigital assistant，PDA)、移动上网设备(mobile Internet device，MID)、网络交换机或网络路由器等。

在介绍本申请实施例提供的网络模型训练方法之前，先介绍该网络模型训练方法适用的应用场景，这里的应用场景包括但不限于：使用该网络训练方法训练分类神经网络，获得分类网络模型，该分类网络模型可以用于对图像中目标对象的多个标签进行分类，这里的分类神经网络包括：对图像中的单一属性或标签进行分类的神经网络，或者对图像中的多属性或多标签进行分类的神经网络；然后使用该分类网络模型对包括目标对象的多标签图像进行分类；其中，这里的目标对象包括：人体、动物和植物等等，为了便于理解，这里的目标对象以人为例进行说明，人的各种动作或特征均为一个标签，因此，这里的多个标签具体例如：第一标签为图像中的人戴了帽子，图像中的人戴帽子的概率为0.7；第二标签为图像中的人穿了皮鞋，图像中的人穿皮鞋的概率为0.9，更多的标签分类概率依此类推。

请参见图1示出的本申请实施例提供的网络模型训练方法的流程示意图；该网络模型训练方法可以应用于电子设备，通过使用预先构建的分类神经网络对原始图像和多个变换图像进行前向传播运算，获得多个逻辑斯特值，并根据多个逻辑斯特值构建第一损失函数和第二损失函数，然后根据第一损失函数和第二损失函数来训练分类神经网络，替代了根据图像和标签注意力热图(the attention heatmap for images and labels)构建损失函数的方式，有效地通过第二损失函数增加了多个逻辑斯特值之间的匹配度，从而提高了分类网络模型的准确率；上述的网络模型训练方法可以包括如下步骤：

步骤S110：获得多个训练图像和多个训练图像对应的标签表，多个训练图像包括目标对象的原始图像和对原始图像进行空间变换获得的多个变换图像。

训练图像，是指对分类神经网络进行训练的训练数据中的图像，这里的训练图像可以是人体图像，即包括人体部分的图像，具体例如：包括人的手臂和头部的图像、或者包括手臂和下肢的图像等等；其中，在人体图像中的部分人体特征或者动作可以理解为一个标签，具体例如：人的皮肤为黄色、黑色或白色，那么这里的皮肤具体颜色为其中的一个标签，图像中的人具体动作为走、跑或坐，这里的具体动作也可以为其中的一个标签。上述的训练图像应该包括应该包含一个或多个标签(属性)的相关区域，即训练图像应当包括：人的皮肤和肢体动作等能够体现人的标签或属性的区域，上述多个训练图像包括目标对象的原始图像和对原始图像进行空间变换获得的多个变换图像。在具体的实施过程中，还可以将训练图像划分为训练图像和测试图像，也就是说，将训练数据集划分为训练集和测试集，训练集占训练数据集的预设比例，这里的预设比例可以是70％。

上述步骤S110中的获得多个训练图像的实施方式包括：第一种方式，使用图像采集装置对目标人体进行采集，获得采集的人体图像，将人体图像作为训练图像；第二种方式，其他终端设备向电子设备发送训练图像，然后电子设备接收其他终端设备发送的训练图像；第三种方式，使用浏览器等软件获取互联网上的训练图像，或者使用其它应用程序访问互联网获得训练图像，例如可以使用imagenet数据集，或者使用公开数据集WiderAttribute作为训练图像数据集；第四种方式，获取预先存储的训练图像，具体例如：从文件系统中获取训练图像，或者从数据库中获取训练图像；第五种方式，使用图像增广的方式对已经获得的训练图像进行扩充，从而获得训练图像数据集，这里的图像增广是指对现有的训练图像进行图像增强操作，又称扩增训练数据集，以获得更多的训练图像，图像增强操作具体例如：改变背景颜色或亮度、旋转图像角度或者裁剪图像大小等。

标签表，是指训练图像中目标对象的多个标签构成的数据；这里的标签表包括目标对象的至少一个标签，这里标签的具体意思已经在上面描述过，在具体的实践过程中，上述的标签(label)有时候也被称为属性(attribute)，具体的属性例如：戴帽、戴眼镜和穿皮鞋等等。这里的标签表中的标签对应具体值的设置可以根据具体情况进行设置，例如：若在人体图像中的某属性的位置被遮挡或没有被拍摄到，则该属性对应数值可以设置为-1；若图像中存在该属性，则对应数值设置为1，若图像中不存在该属性，则设置为0；具体以脚上是否穿着皮鞋为例，也就是说，若根本没有拍摄到脚或鞋，那么将标签具体值设置为-1，若训练图像中存在穿着皮鞋的脚，那么将该标签具体值设置为1，若训练图像中不存在穿着皮鞋的脚，那么将该标签具体值设置为0；另外，人体图像数据集中的图像应该包含一个或多个属性的相关区域。

上述步骤S110中的获得训练图像对应的标签表的实施方式包括：第一种方式，人工观察训练图像中的特征或动作，人工设置该训练图像对应的标签表；第二种方式，其他终端设备向电子设备发送标签表，然后电子设备接收其他终端设备发送的标签表；第三种方式，直接使用浏览器等软件获取互联网上获取已经制作好的训练数据集，再从训练数据集中提取标签表；第四种方式，获取预先存储的标签表，具体例如：从文件系统中获取标签表，或者从数据库中获取标签表。

可以理解的是，上述的多个变换图像可以包括：第一图像、第二图像和第三图像，其中，这里的第一图像、第二图像和第三图像均是不同的空间变换操作获得的，具体的变换操作将在下面详细地说明；上述步骤S110中的获得多个训练图像的实施方式可以包括如下步骤：

步骤S111：获得原始图像。

其中，该步骤S111的实施原理和实施方式与步骤S110中的获得多个训练图像的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S110中的获得多个训练图像的描述。

步骤S112：对原始图像进行第一空间变换操作，获得第一图像。

步骤S113：对原始图像进行第二空间变换操作，获得第二图像，第一空间变换操作不同于第二空间变换操作。

步骤S114：对原始图像进行第一空间变换操作和第二空间变换操作，获得第三图像。

空间变换，是在对图像进行空间维度上的变换，具体地空间变换操作例如：水平翻转、垂直翻转、图像旋转、放大和缩小等等操作；因此，上述的第一空间变换操作和第二空间变换操作可以是水平翻转、垂直翻转、图像旋转、图像放大和缩小等其中两个不相同的操作。

上面的步骤S111至步骤S114的实施方式例如：采用图像采集装置对人体进行采集，获得的原始图像(original image)使用I_o表示；若第一空间变换操作为对图像水平翻转(flip horizontally)，那么第一图像为对原始图像水平翻转获得的图像，第一图像可以使用I_f表示；若第二空间变换操作为对图像进行缩放(scale)，这里的缩放就是放大或缩小的意思，第二图像为对原始图像进行缩放获得的图像，第二图像可以使用I_s表示；若第三图像为对原始图像进行水平翻转后，又进行放大或者缩小获得的图像，那么第三图像可以使用I_fs表示；将第一图像I_f、第二图像I_s和第三图像I_sf作为多个变换图像，将第一图像I_f、第二图像I_s和第三图像I_sf和原始图像I_o打包为分类神经网络的输入图像组，这里的输入图像组可以使用I表示，也就是说，将这些图像作为多个训练图像中的部分图像输入分类神经网络。

在步骤S110之后，执行步骤S120：使用预先构建的分类神经网络对原始图像和多个变换图像进行前向传播运算，获得多个逻辑斯特值。

分类神经网络，又被称为多标签分类神经网络(multi-label classificationneural network)，或者多属性分类神经网络，是指对神经网络进行训练后获得的用于对图像的多个属性或者多个标签进行分类的神经网络，即将图像作为图像分类神经网络模型的输入获得该图像对应的多个属性或者多个标签的概率列表，常见的多标签分类神经网络例如：卷积神经网络(Convolutional neural network，CNN)和深度神经网络(Deep NeuralNetworks，DNN)等等；其中，该分类神经网络的具体构建方式和训练方式将在后面详细地说明。当然，在具体的实施过程中，上述的网络模型训练方法也可以应用于针对二分类的神经网络训练过程中，这里的二分类的神经网络可以理解为单属性分类神经网络，或者单标签分类神经网络。

逻辑斯特(logits)值，是指模型中的未经过激活函数运算的参数值，这里的激活函数例如：sigmoid激活函数或者softmax激活函数，这里的逻辑斯特值可以理解为与标签具体值或者属性具体值正相关的参数值；其中，多个逻辑斯特值与多个训练图像是逐一对应的，即一个逻辑斯特值对应一个训练图像。

上述步骤S120的实施方式例如：获得残差网络，根据残差网络、全局平均池化层和全连接层来构建分类神经网络；其中，该分类神经网络的具体构建方式和训练方式将在后面详细地说明。将原始图像I_o、第一图像I_f、第二图像I_s和第三图像I_sf转换为多个图像矩阵，再分别计算多个图像矩阵的均值μ和方差σ；使用均值μ和方差σ分别对原始图像I_o、第一图像I_f、第二图像I_s和第三图像I_sf进行归一化处理，获得原始图像的输入特征、第一图像的输入特征、第二图像的输入特征和第三图像的输入特征；然后再使用分类神经网络对原始图像对应的输入特征、第一图像的输入特征、第二图像的输入特征和第三图像的输入特征进行前向传播(Forward Propagation)运算，获得各个图像对应的多个标签的逻辑斯特值，这里的逻辑斯特值可以使用x_i表示，其中，i＝1,2,3,……,n；这里的n为多个标签的数量。

在上述的实现过程中，通过计算原始图像、第一图像、第二图像和第三图像的均值和方差；使用均值和方差分别对原始图像、第一图像、第二图像和第三图像进行归一化处理，获得各个图像的输入特征；使用分类神经网络对各个图像的输入特征进行前向传播运算，获得多个逻辑斯特值；从而有效地提高了获得多个逻辑斯特值的计算速度。

在步骤S120之后，执行步骤S130：根据多个逻辑斯特值和多个训练图像对应的标签表构建第一损失函数，第一损失函数表征多标签图像分类损失。

第一损失函数，是指表征多个逻辑斯特值和多个训练图像对应的标签表之间的多标签图像分类损失的函数，可以简单地理解为，使用分类神经网络预测输出的预测值与实际应该输出的标签值之间的损失函数。

上述步骤S130的实施方式例如：根据多个逻辑斯特值和多个训练图像对应的标签表构建第一损失函数，第一损失函数表征多标签图像分类损失，这里的多标签图像分类损失又被称为多属性图像分类损失，该损失函数使用公式可以表示为：

其中，l_c表示为上述的第一损失函数，即多标签图像分类损失函数，N为图像的具体数量，i表示N张图像中的第i个图像，L为标签的具体数量，即属性的具体数量，j表示L个标签中的第j个标签，x_ij∈R是第i张图像的第j个属性对应的逻辑斯特值，x_ij之后会被

归一化，y_ij∈{0,1}表示第i张图像第j个标签对应的具体值，p_j是训练图像集中的第j个属性正样本所占的比例，这里的p_j是用来定义权重矩阵w_ij的，即根据属性正样本所占的比例来设置具体的权重矩阵，可以有效改善正负样本不均衡的问题。

在步骤S120之后，执行步骤S140：根据多个逻辑斯特值构建第二损失函数，第二损失函数表征多个逻辑斯特值之间的一致性损失。

其中，上述的步骤S130和步骤S140的执行顺序可以不作限制，可以步骤S130先执行且步骤S140后执行，也可以步骤S140先执行且步骤S130后执行，当然也可以步骤S130和步骤S140并行执行，即步骤S130和步骤S140一起执行。

请参见图2示出的本申请实施例提供的训练图像匹配关系的示意图；上述步骤S140的实施方式例如：根据多个逻辑斯特值构建的第二损失函数为

根据第二损失函数对多个逻辑斯特值进行计算；其中，l_a表示第二损失函数，N是图像的数量，L是图像对应的标签表的标签数量，x_ijk∈R表示第i张图像第j个标签对应的第k对图像对应的逻辑斯特值；

和

分别表示从原始图像、第一图像、第二图像和第三图像选择出的一对图像对应的逻辑斯特值，换句话说，

是在原始图像I_o、第一图像I_f、第二图像I_s和第三图像I_sf中选择出的一对输入

经过分类神经网络获得的逻辑斯特值对；具体的匹配关系可以参见图2所示，对上述图像只进行一次性的空间变换可以理解为一级匹配损失，这里的一级匹配损失例如包括：原始图像I_o和第一图像I_f、第二图像I_s和第三图像I_sf、原始图像I_o和第二图像I_s、第一图像I_f和第三图像I_sf；同理地，对上述图像进行二次性的空间变换可以理解为二级匹配损失，二级匹配损失例如包括：第一图像I_f和第二图像I_s、原始图像I_o和第三图像I_sf；在一致性损失中加入两个额外的二级匹配损失，这里的匹配机制可以被称为完备的，换句话说，利用完备二级一致性匹配机制，在多属性分类损失的基础上添加完备二级匹配损失，即通过多属性分类损失加上完备二级匹配损失作为总损失的方式，有效地提升了分类网络模型的准确率。在上述的实现过程中，在第二损失函数的计算过程中，仅需要根据多个逻辑斯特值之间的损失值来计算一致性损失，而不是根据图像中的每个像素值来计算一致性损失，即根据获取的逻辑斯特值计算一致性损失来代替VAC算法中的根据注意力图计算一致性损失，从而简化了一致性损失的计算流程，有效的改善了注意力机制图的计算流程过于复杂的问题。

在步骤S130和步骤S140之后，执行步骤S150：根据第一损失函数和第二损失函数对分类神经网络进行训练，获得训练后的分类网络模型。

上述步骤S150中的根据第一损失函数和第二损失函数对分类神经网络进行训练的实施方式可以包括如下步骤：

步骤S151：根据第一损失函数和第二损失函数确定总损失函数。

上述步骤S151的实施方式例如：根据第一损失函数和第二损失函数之和来确定总损失函数，这里的总损失函数使用公式表示为l＝l_c+l_a；其中，l表示总损失函数，l_c表示第一损失函数，l_a表示第二损失函数。

步骤S152：根据总损失函数对分类神经网络进行迭代训练，获得训练后的分类网络模型。

上述步骤S152的实施方式例如：调整分类神经网络的训练超参数，然后根据已经设置的训练超参数和总损失函数对分类神经网络进行迭代训练，获得训练后的分类网络模型；这里的训练超参数包括但不限于：输入图像的大小、批量大小(batch size)、学习率的初始值和权重衰退(weight decay)等等；其中，训练超参数的具体设置过程例如：将输入图像大小设置为224×224，训练图像的批量大小设置为16，网络优化器使用随机梯度下降(SGD)，动量(momentum)设置为0.9，学习率的初始值设置为1e-3，在训练过程中的步数每增加3个周期(epoch)，则将学习率设置为原来的50％。为了减少网络过拟合的可能性，还可以将权重衰退设置为5e-4，用输入图像和属性表对网络参数进行迭代训练。

在上述的实现过程中，通过使用预先构建的分类神经网络对原始图像和多个变换图像进行前向传播运算，获得多个逻辑斯特值；根据多个逻辑斯特值和多个训练图像对应的标签表构建第一损失函数；根据多个逻辑斯特值构建第二损失函数；然后根据第一损失函数和第二损失函数对分类神经网络进行训练，获得训练后的分类网络模型，替代了根据图像和标签注意力热图(the attention heatmap for images and labels)来构建损失函数的方式，第二损失函数不仅能够表征上述的一级匹配损失，而且能够表征上述的二级匹配损失，不仅简化了注意力机制图计算的流程，也有效地增加了多个逻辑斯特值之间的匹配度，从而提高了分类网络模型的准确率。

请参见图3示出的本申请实施例提供的对分类神经网络模型进行应用的流程示意图；可选地，在本申请实施例中，上述的网络模型训练方法可以被电子设备执行，在电子设备执行后，可以对训练获得的分类神经网络模型进行应用；具体例如：在对上述的分类网络模型进行训练之后，还可以该分类网络模型对图像的标签进行分类，即预测图像中的标签对应具体值的概率；那么对训练获得的分类神经网络模型进行应用的过程可以包括：

步骤S210：电子设备获得残差网络。

残差网络(Residual Network，ResNet)，又被称为残差神经网络，是指微软研究院的学者提出的卷积神经网络，ResNet的特点是容易优化，并且能够通过增加相当的深度来提高准确率；ResNet内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题；这里的ResNet具体例如：ResNet22、ResNet38、ResNet50、ResNet101和ResNet152等等。

上述步骤S210的实施方式包括：第一种方式，获取预先存储的残差网络，具体例如：从文件系统中获取残差网络，或者从数据库中获取残差网络；第二种方式，其他终端设备向电子设备发送残差网络，然后电子设备接收其他终端设备发送的残差网络；第三种方式，使用浏览器等软件获取互联网上的残差网络，或者使用其它应用程序访问互联网获得残差网络，具体例如：从互联网上下载ResNet22、ResNet38、ResNet50、ResNet101和ResNet152等残差网络模型。以残差网络模型是ResNet50为例，使用上述的网络模型训练方法可以将ResNet50的平均精度均值(mean average precision，MAP)从86.8％提升至87.1％，从而有效地提高了分类神经网络模型的平均精度均值。

步骤S220：电子设备根据残差网络、全局平均池化层和全连接层构建分类神经网络。

请参见图4示出的本申请实施例提供的分类神经网络的结构示意图；上述步骤S220的实施方式包括：将残差网络作为分类神经网络的骨干网，加载残差网络在预训练集上训练过的权重参数，能够有效地避免过拟合现象；然后新建全局平均池化(GlobalAverage Pooling，GAP)层和全连接(Full Connection，FC)层，在分类神经网络的骨干网后面连接全局平均池化层和全连接层，也就是说，将残差网络、全局平均池化层和全连接层连接，获得分类神经网络，具体地计算过程例如：残差网络的最后一层卷积特征使用F表示，那么对F进行GAP计算，获得维度为C的一维特征F_C，然后再对该一维特征F_C进行FC计算，获得图像中的各个标签(属性)最终的概率值；其中，这里的残差网络可以使用ResNet22、ResNet38、ResNet50、ResNet101和ResNet152等。也就是说，上述的残差网络可以理解为是普通的多分类神经网络，将普通的多分类神经网络尾部加上全局平均池化层和全连接层，就获得多标签分类神经网络，又被称为多属性分类神经网络。

步骤S230：电子设备获得多个训练图像和多个训练图像对应的标签表，多个训练图像包括目标对象的原始图像和对原始图像进行空间变换获得的多个变换图像。

步骤S240：使用预先构建的分类神经网络对原始图像和多个变换图像进行前向传播运算，获得多个逻辑斯特值。

步骤S250：根据多个逻辑斯特值和多个训练图像对应的标签表构建第一损失函数，第一损失函数表征多个逻辑斯特值和多个训练图像对应的标签表之间的多标签图像分类损失。

步骤S260：根据多个逻辑斯特值构建第二损失函数，第二损失函数表征多个逻辑斯特值之间的一致性损失。

步骤S270：根据第一损失函数和第二损失函数对分类神经网络进行训练，获得训练后的分类网络模型。

其中，上述步骤S230至步骤S270的实施原理和实施方式与步骤S110至步骤S150的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S110至步骤S150的描述。

步骤S280：获得待预测图像，待预测图像包括待预测对象的至少一个标签。

上述步骤S280中的待预测图像的获得方式包括：第一种方式，获取预先存储的待预测图像，具体例如：从文件系统中获取待预测图像，或者从数据库中获取待预测图像；第二种方式，其他终端设备向电子设备发送待预测图像，然后电子设备接收其他终端设备发送的待预测图像；第三种方式，使用浏览器等软件获取互联网上的待预测图像，或者使用其它应用程序访问互联网获得待预测图像。

步骤S290：使用分类网络模型对待预测图像进行预测，获得待预测对象的至少一个标签对应具体值的概率。

上述步骤S290的实施方式例如：使用所有训练图像的均值对待预测图像进行归一化处理，获得归一化后的待预测图像；使用分类网络模型对归一化后的待预测图像进行预测，获得待预测对象的至少一个标签对应具体值的概率，即获得待预测图像中的各个标签(属性)的概率值；这里的各个标签可以包括第一标签和第二标签等，具体例如：第一标签为图像中的人戴了帽子，图像中的人戴帽子的概率为0.7；第二标签为图像中的人穿了皮鞋，图像中的人穿皮鞋的概率为0.9，更多的标签分类概率依此类推。

请参见图5示出的本申请实施例提供的网络模型训练装置的结构示意图；本申请实施例提供了一种网络模型训练装置300，包括：

图像标签获得模块310，用于获得多个训练图像和多个训练图像对应的标签表，多个训练图像包括目标对象的原始图像和对原始图像进行空间变换获得的多个变换图像，标签表包括目标对象的至少一个标签。

逻辑斯特获得模块320，用于使用预先构建的分类神经网络对原始图像和多个变换图像进行前向传播运算，获得多个逻辑斯特值，多个逻辑斯特值与多个训练图像对应。

第一函数构建模块330，用于根据多个逻辑斯特值和多个训练图像对应的标签表构建第一损失函数，第一损失函数表征多个逻辑斯特值和多个训练图像对应的标签表之间的多标签图像分类损失。

第二函数构建模块340，用于根据多个逻辑斯特值构建第二损失函数，第二损失函数表征多个逻辑斯特值之间的一致性损失。

网络模型获得模块350，用于根据第一损失函数和第二损失函数对分类神经网络进行训练，获得训练后的分类网络模型。

可选地，在本申请实施例中，网络模型训练装置，还包括：

残差网络获得模块，用于获得残差网络。

神经网络构建模块，用于根据残差网络、全局平均池化层和全连接层构建分类神经网络。

可选地，在本申请实施例中，多个变换图像包括：第一图像、第二图像和第三图像；图像标签获得模块，包括：

原始图像获得模块，用于获得原始图像。

第一图像获得模块，用于对原始图像进行第一空间变换操作，获得第一图像。

第二图像获得模块，用于对原始图像进行第二空间变换操作，获得第二图像，第一空间变换操作不同于第二空间变换操作。

第三图像获得模块，用于对原始图像进行第一空间变换操作和第二空间变换操作，获得第三图像。

可选地，在本申请实施例中，逻辑斯特获得模块，包括：

均值方差计算模块，用于计算原始图像、第一图像、第二图像和第三图像的均值和方差。

输入特征获得模块，用于使用均值和方差分别对原始图像、第一图像、第二图像和第三图像进行归一化处理，获得原始图像的输入特征、第一图像的输入特征、第二图像的输入特征和第三图像的输入特征。

前向传播运算模块，用于使用分类神经网络对原始图像对应的输入特征、第一图像的输入特征、第二图像的输入特征和第三图像的输入特征进行前向传播运算。

可选地，在本申请实施例中，网络模型获得模块，包括：

损失函数确定模块，用于根据第一损失函数和第二损失函数确定总损失函数。

网络迭代训练模块，用于根据总损失函数对分类神经网络进行迭代训练。

可选地，在本申请实施例中，网络模型训练装置，还可以包括：

预测图像获得模块，用于获得待预测图像，待预测图像包括待预测对象的至少一个标签。

图像标签预测模块，用于使用分类网络模型对待预测图像进行预测，获得待预测对象的至少一个标签对应具体值的概率。

应理解的是，该装置与上述的网络模型训练方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图6示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种网络模型训练方法，其特征在于，包括：

获得多个训练图像和所述多个训练图像对应的标签表，所述多个训练图像包括目标对象的原始图像和对所述原始图像进行空间变换获得的多个变换图像，所述标签表包括所述目标对象的至少一个标签；

使用预先构建的分类神经网络对所述原始图像和所述多个变换图像进行前向传播运算，获得多个逻辑斯特值，所述多个逻辑斯特值与所述多个训练图像对应；

根据所述多个逻辑斯特值和所述多个训练图像对应的标签表构建第一损失函数，所述第一损失函数表征所述多个逻辑斯特值和所述多个训练图像对应的标签表之间的多标签图像分类损失；

根据所述多个逻辑斯特值构建第二损失函数，所述第二损失函数表征所述多个逻辑斯特值之间的一致性损失；

根据所述第一损失函数和所述第二损失函数对所述分类神经网络进行训练，获得训练后的分类网络模型。

2.根据权利要求1所述的方法，其特征在于，在所述使用预先构建的分类神经网络对所述原始图像和所述多个变换图像进行前向传播运算之前，还包括：

获得残差网络；

根据所述残差网络、全局平均池化层和全连接层构建所述分类神经网络。

3.根据权利要求1所述的方法，其特征在于，所述多个变换图像包括：第一图像、第二图像和第三图像；所述获得多个训练图像，包括：

获得原始图像；

对所述原始图像进行第一空间变换操作，获得第一图像；

对所述原始图像进行第二空间变换操作，获得第二图像，所述第一空间变换操作不同于所述第二空间变换操作；

对所述原始图像进行所述第一空间变换操作和所述第二空间变换操作，获得第三图像。

4.根据权利要求3所述的方法，其特征在于，所述使用预先构建的分类神经网络对所述原始图像和所述多个变换图像进行前向传播运算，包括：

计算所述原始图像、所述第一图像、所述第二图像和所述第三图像的均值和方差；

使用所述均值和所述方差分别对所述原始图像、所述第一图像、所述第二图像和所述第三图像进行归一化处理，获得所述原始图像的输入特征、所述第一图像的输入特征、所述第二图像的输入特征和所述第三图像的输入特征；

使用所述分类神经网络对所述原始图像对应的输入特征、所述第一图像的输入特征、所述第二图像的输入特征和所述第三图像的输入特征进行前向传播运算。

5.根据权利要求3所述的方法，其特征在于，所述根据所述多个逻辑斯特值构建第二损失函数，包括：

根据

对所述多个逻辑斯特值进行计算；

其中，l_a表示所述第二损失函数，N是图像的数量，L是图像对应的标签表的标签数量，

和

分别表示从所述原始图像、所述第一图像、所述第二图像和所述第三图像选择出的一对图像对应的逻辑斯特值，x_ijk∈R表示第i张图像第j个标签对应的第k对图像对应的逻辑斯特值。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一损失函数和所述第二损失函数对所述分类神经网络进行训练，包括：

根据所述第一损失函数和所述第二损失函数确定总损失函数；

根据所述总损失函数对所述分类神经网络进行迭代训练。

7.根据权利要求1-6任一所述的方法，其特征在于，在所述获得训练后的分类网络模型之后，还包括：

获得待预测图像，所述待预测图像包括待预测对象的至少一个标签；

使用所述分类网络模型对所述待预测图像进行预测，获得所述待预测对象的至少一个标签对应具体值的概率。

8.一种网络模型训练装置，其特征在于，包括：

图像标签获得模块，用于获得多个训练图像和所述多个训练图像对应的标签表，所述多个训练图像包括目标对象的原始图像和对所述原始图像进行空间变换获得的多个变换图像，所述标签表包括所述目标对象的至少一个标签；

逻辑斯特获得模块，用于使用预先构建的分类神经网络对所述原始图像和所述多个变换图像进行前向传播运算，获得多个逻辑斯特值，所述多个逻辑斯特值与所述多个训练图像对应；

第一函数构建模块，用于根据所述多个逻辑斯特值和所述多个训练图像对应的标签表构建第一损失函数，所述第一损失函数表征所述多个逻辑斯特值和所述多个训练图像对应的标签表之间的多标签图像分类损失；

第二函数构建模块，用于根据所述多个逻辑斯特值构建第二损失函数，所述第二损失函数表征所述多个逻辑斯特值之间的一致性损失；

网络模型获得模块，用于根据所述第一损失函数和所述第二损失函数对所述分类神经网络进行训练，获得训练后的分类网络模型。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。

10.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。