CN114723987A

CN114723987A - 图像标签分类网络的训练方法、图像标签分类方法及设备

Info

Publication number: CN114723987A
Application number: CN202210266515.0A
Authority: CN
Inventors: 马锦玙; 张有才; 李亚乾; 郭彦东
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-07-08

Abstract

本申请公开了一种图像标签分类网络的训练方法、图像标签分类方法、装置、电子设备及可读存储介质。该方法包括：将样本图像输入初始图像标签分类网络，得到初始图像标签分类网络输出的多个样本标签对应的样本标签分类结果；确定第一样本标签的标签分类结果的损失值，作为第一损失值，确定第二样本标签的标签分类结果的损失值，作为第二损失值；根据对应第一损失值的权重对第一损失值进行调整，得到第三损失值，权重是根据第一样本标签对应的样本标签分类结果确定的；根据第二损失值和第三损失值对初始图像标签分类网络进行训练，得到图像标签分类网络。通过本申请的方法得到图像标签分类网络的标签分类准确率较高。

Description

图像标签分类网络的训练方法、图像标签分类方法及设备

技术领域

本申请涉及信息技术领域，更具体地，涉及一种图像标签分类网络的训练方法、图像标签分类方法、装置、电子设备及可读存储介质。

背景技术

多标签分类(Multi-Label Classification)是一种识别图像中的多个物体并设置相应标签的技术，其作为人工智能中计算机视觉领域的基础技术，被广泛应用与目标检测和语义分割等场景。

标签缺失是指在样本图像包括某一个样本标签对应的对象时，标注人员忘记利用该样本标签对该样本图像进行标记，导致该样本图像变成该样本标签的负样本的现象。

在多标签对应的图像标签分类网络训练过程中，标签缺失现象不可避免，导致训练获得的图像标签分类网络的分类准确率较低。

发明内容

有鉴于此，本申请实施例提供了一种图像标签分类网络的训练方法、图像标签分类方法、装置、电子设备及可读存储介质。

第一方面，本申请实施例提供了一种图像标签分类网络的训练方法，方法包括：将样本图像输入初始图像标签分类网络，得到初始图像标签分类网络输出的多个样本标签对应的样本标签分类结果，多个样本标签分为将样本图像作为负样本的第一样本标签和将样本图像作为正样本的第二样本标签；确定第一样本标签的标签分类结果的损失值，作为第一损失值，确定第二样本标签的标签分类结果的损失值，作为第二损失值；根据对应第一损失值的权重对第一损失值进行调整，得到第三损失值，权重是根据第一样本标签对应的样本标签分类结果确定的，权重用于降低标签缺失的负样本对损失值的贡献；根据第二损失值和第三损失值对初始图像标签分类网络进行训练，得到图像标签分类网络。

第二方面，本申请实施例提供一种图像标签分类方法，方法包括：获取待分类图像；将待分类图像输入至利用上述第一方面的方法获得的训练后的图像标签分类网络中，得到待分类图像的标签分类结果。

第三方面，本申请实施例提供了一种图像标签分类网络的训练装置，装置包括：样本图像标签分类模块，用于将样本图像输入初始图像标签分类网络，得到初始图像标签分类网络输出的多个样本标签对应的样本标签分类结果，多个样本标签分为将样本图像作为负样本的第一样本标签和将样本图像作为正样本的第二样本标签；损失值确定模块，用于确定第一样本标签的标签分类结果的损失值，作为第一损失值，确定第二样本标签的标签分类结果的损失值，作为第二损失值；损失值调整模块，用于根据对应第一损失值的权重对第一损失值进行调整，得到第三损失值，权重是根据第一样本标签对应的样本标签分类结果确定的，权重用于降低标签缺失的负样本对损失值的贡献；网络训练模块，用于根据第二损失值和第三损失值对初始图像标签分类网络进行训练，得到图像标签分类网络。

第四方面，本申请实施例提供了一种图像标签分类装置，装置包括：图像获取模块，用于获取待分类图像；图像标签分类模块，用于将待分类图像输入至利用上述第一方面的方法获得的训练后的图像标签分类网络中，得到待分类图像的标签分类结果。

第五方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述的方法。

第七方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法。

本申请实施例提供的技术方案可以带来如下有益效果：

根据对应第一损失值的权重对第一损失值进行调整，得到第三损失值，其中，权重是根据第一样本标签对应的样本标签分类结果确定的，权重用于降低标签缺失的负样本对损失值的贡献，第一损失值为第一样本标签的标签分类结果的损失值，第一样本标签为多个样本标签中将样本图像作为负样本的样本标签。在本申请中，通过第一损失值对应的调整后的第三损失值对初始图像标签分类网络进行训练，有效的将低了初始图像标签分类网络在训练过程中对标签缺失现象的敏感度，从而提高了训练获得的图像标签分类网络的标签分类准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种图像标签分类网络的训练方法的流程图；

图2示出了本申请实施例中第三损失值的一种获取方法流程图；

图3示出了本申请实施例中一种样本图像的预测概率与梯度关系曲线图；

图4示出了本申请实施例中第二损失值的一种获取方法流程图；

图5示出了本申请实施例中又一种样本图像的预测概率与梯度关系曲线图；

图6示出了本申请实施例提供的又一种图像标签分类网络的训练方法的流程图；

图7示出了本申请实施例提供的一种图像标签分类方法的流程图；

图8示出了本申请实施例提供的一种图像标签分类网络的训练装置示意图；

图9示出了本申请实施例提供的一种图像标签分类装置示意图；

图10示出了本申请实施例提供的一种电子设备的示意图；

图11示出了本申请一个实施例提供的计算机可读存储介质的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

多标签分类(Multi-Label Classification)是一种识别图像中的多个物体并设置相应标签的技术，其作为人工智能中计算机视觉领域的基础技术，被广泛应用与目标检测和语义分割等场景。其中，一个标签可以是指某一类别的事物，例如人可以算作一个标签，猫可以算作一个标签，狗也可以算作一个标签。

标签缺失是指在对样本图像进行标记时，样本图像包括某一标签对应的对象，但标注人员对该样本图像进行标记时，该对象被漏标的现象。对于每张图像，理想情况下，标注人员要对每个标签对应的对象是否存在于图像中做一次独立的判断。当标签数量达到成百上千，这几乎是不可能的，因此，样本图像中一定会存在不同程度的标签缺失问题。

当某标签不存在与样本图像中时，该样本图像即为该标签的负样本图像，但实际上，该样本图像可能包括两种情况：图像中确实不存在该标签对应的物体，以及，图片中存在标签对应的对象，但是被漏标了。

因此，在多标签对应的图像标签分类网络训练过程中，标签缺失现象不可避免，标签缺失对应的样本图像实际上为正样本图像，但会被图像标签分类网络作为负样本图像进行训练，这导致训练获得的图像标签分类网络的分类准确率较低。

有鉴于此，本申请实施例提供一种图像标签分类网络的训练方法、图像标签分类方法、装置、电子设备及可读存储介质。具体地，将样本图像输入初始图像标签分类网络，得到初始图像标签分类网络输出的多个样本标签对应的样本标签分类结果，多个样本标签分为将样本图像作为负样本的第一样本标签和将样本图像作为正样本的第二样本标签；确定第一样本标签的标签分类结果的损失值，作为第一损失值，确定第二样本标签的标签分类结果的损失值，作为第二损失值；根据对应第一损失值的权重对第一损失值进行调整，得到第三损失值，权重是根据第一样本标签对应的样本标签分类结果确定的，权重用于降低标签缺失的负样本对损失值的贡献；根据第二损失值和第三损失值对初始图像标签分类网络进行训练，得到图像标签分类网络。在本申请中，通过第一损失值对应的调整后的第三损失值对初始图像标签分类网络进行训练，有效的将低了初始图像标签分类网络在训练过程中对标签缺失现象的敏感度，从而提高了训练获得的图像标签分类网络的标签分类准确率。

请参阅图1，图1示出了本申请实施例提供的一种图像标签分类网络的训练方法的流程图，用于电子设备，方法包括：

S110、将样本图像输入初始图像标签分类网络，得到初始图像标签分类网络输出的多个样本标签对应的样本标签分类结果，多个样本标签分为将样本图像作为负样本的第一样本标签和将样本图像作为正样本的第二样本标签。

样本图像可以包括多个对象，对象可以任何物体，例如人、狗、猫和车等。样本标签可以是指示样本图像中包括的对象的类别，例如样本图像包括的对象可以是中国人、黑狗、花猫和轿车等，对应的样本标签可以是人、狗、猫和车。

在一种可能的实施方式中，电子设备从样本图像集中获取样本图像，其中，不同样本图像对应的样本标签的数量可能相同，也可能不同。在一个示例性的例子中，电子设备使用公开的PASCAL VOC2007数据集以及MSCOCO数据集作为样本图像集。

多个样本标签可以是用于初始图像标签分类网络分类的全部样本标签，而样本图像可以包括多个样本标签中的部分样本标签对应的对象。当样本图像包括一个样本标签对应的对象时，样本图像为该样本标签的正样本，当样本图像不包括一个样本标签对应的对象时，样本图像为该样本标签的负样本。

在本申请中，初始图像标签分类网络可以是根据卷积神经网络构建的未经过训练的网络，用户可以基于需求，设定需要进行分类的多个样本标签，然后构建对多个样本标签进行分类初始图像标签分类网络。然后电子设备将样本图像输入构建的初始图像标签分类网络之后，初始图像标签分类网络输出多个样本标签各自的样本标签分类结果，一个样本标签的样本标签分类结果可以是该样本标签对应的对象在样本图像中的预测概率(该预测概率是未经过归一化处理的概率)。

样本图像可以作为一部分样本标签(第二样本标签)的正样本：样本图像包括样本标签对应的对象，样本图像也可以作为一部分样本标签(第一样本标签)的负样本：样本图像包括样本标签对应的对象。

示例的，样本图像包括人和狗，样本标签包括人、狗和车，则人和狗为第二样本标签，该样本图像为人和狗的正样本；车为第一样本标签，该样本图像为车的负样本。将该样本图像输入初始图像标签分类网络，得到人、狗和车在样本图像中的预测概率(该概率是未经过归一化处理的概率)。

S120、确定第一样本标签的标签分类结果的损失值，作为第一损失值，确定第二样本标签的标签分类结果的损失值，作为第二损失值。

在获得第一样本标签的标签分类结果以及第二样本标签的标签分类结果之后，可以根据损失函数，确定第一样本标签的标签分类结果的损失值，作为第一损失值，确定第二样本标签的标签分类结果的损失值，作为第二损失值。

在本申请中，损失函数可以是BCE损失函数(Binary Cross Entropy，交叉熵损失函数)、Focal损失函数或ASL损失函数。

其中，BCE损失函数如下表示：

其中，

为正样本的损失值，

为负样本的损失值，p为样本图像对应的标签分类结果归一化之后的预测概率。

Focal损失函数是BCE基础上的改进，用来解决正负样本不平衡的问题，并且加入了难样本挖掘机制：

其中，参数γ＞0时，难样本(预测概率低于0.2的样本称为难样本，预测概率在0.3-0.5的称为半难样本)的权重较大，起到难样本挖掘的作用，参数α₊和α_-用于平衡两部分损失的数值关系。

ASL损失函数是近年来对Focal的改进，它能减轻正负样本不平衡带来的影响，定义为：

其中，γ₊＜γ_-分别是正负样本的参数，设m是一个概率阈值，p_m表示为max(p-m，0).γ₊＜γ_-使得简单负样本的权重减少，此外通过m的设置，丢弃了预测概率很低的负样本所产生的损失。

S130、根据对应第一损失值的权重对第一损失值进行调整，得到第三损失值，权重是根据第一样本标签对应的样本标签分类结果确定的，权重用于降低标签缺失的负样本对损失值的贡献。

由于样本图像可能存在标签缺失现象，同时，将传统的损失函数作为初始图像标签分类网络的损失函数时，初始图像标签分类网络对标签缺失现象比较敏感，导致直接利用样本图像对应的第一损失值对初始图像标签分类网络进行训练之后，得到的图像标签分类网络的分类准确性较差。在本实施例中，根据第一样本标签对应的样本标签分类结果确定权重，然后根据权重对第一损失值进行调整，使得根据调整后获得的第三损失值对初始图像标签分类网络进行训练时，得到的图像标签分类网络对标签缺失不敏感，从而提高了训练获得的图像标签分类网络的分类准确性。

在本申请中，可以根据第一样本标签对应的样本标签分类结果，确定第一样本标签对应的样本标签分类结果的权重，然后通过该权重对第一损失值进行调整，得到调整后的第一损失值作为第三损失值。

可选地，第一样本标签对应的样本标签分类结果权重的获取方法，包括：通过归一化函数对第一样本标签对应的标签分类结果进行归一化处理，得到对应第一样本标签的标签分类结果的标签分类概率；将预设数值与标签分类概率的差值作为权重。

在本申请中，归一化函数可以是Sigmoid函数，通过Sigmoid函数对第一样本标签的标签分类结果进行归一化处理，得到值在(0,1)区间内的标签分类概率(第一样本标签的标签分类概率也即是指第一样本标签对应的预测概率)，然后将标签分类概率与预设数值的差作为权重。在本申请中，预设数值可以取值1.5。

在对初始图像标签分类网络训练过程的训练前期，初始图像标签分类网络能以较高的准确率和较低的召回率来分辨出哪些是标签缺失的样本。也就是说，如果划定一个预设数值，那么初始图像标签分类网络输出的第一样本标签对应的样本标签分类结果对应的预测概率大于该预设数值时，样本图像可能并不是第一样本标签的负样本，而是第一样本标签对应的缺失标签的正样本。这是因为，在多标签学习中，负样本是远多于正样本的，正负样本严重失衡，而标签缺失问题会进一步加剧这种不平衡。在这种情况下，如果初始图像标签分类网络仍能给出比较高的预测概率，这个预测概率的可信度应该是比较高的。通过本申请的方法，根据第一样本标签对应的样本标签分类结果，确定第一样本标签对应的样本标签分类结果对应的权重，通过该权重对第一样本标签对应的样本标签分类结果的损失值调整，降低了调整后的损失值对标签缺失的敏感度。

S140、根据第二损失值和第三损失值对初始图像标签分类网络进行训练，得到图像标签分类网络。

在本申请中，每一个样本标签对应一个损失值，多个第一样本标签与多个第三损失值一一对应，多个第二样本标签与多个第二损失值一一对应。得到多个样本标签各自对应的损失值之后，将多个样本标签各自的损失值进行加权求和，作为样本图像的最终损失值，根据最终损失值对初始图像标签分类网络进行训练，得到图像标签分类网络。

在一些实施例中，样本图像包括大量的样本图像，每一个样本图像均按照本申请S110-S140的方法对初始图像标签分类网络进行训练，当初始图像标签分类网络进行训练收敛时，得到图像标签分类网络。

可以理解的是，在本实施例中，当样本图像为负样本时，可以通过本申请的方法对其对应的标签分类结果的损失值进行调整，得到对应的调整后的损失值，在样本图像为正样本时，可以通过传统的损失函数求解其对应的标签分类结果的损失值。

示例的，对于一个样本图像A1，当他是某一样本标签A2的负样本时，将A1输入初始图像标签分类网络，得到初始图像标签分类网络输出的样本标签A2的样本标签分类结果A3，然后根据A3确定对应的第一损失值A4以及权重A5，然后通过权重A5对A4调整，得到对应的第三损失值A6。当样本图像A1是某一样本标签B1的负样本时，将A1输入初始图像标签分类网络，得到初始图像标签分类网络输出的样本标签B1的样本标签分类结果B2，然后根据B2确定对应的第二损失值B3。最后，根据第二损失值B3和第三损失值A6对初始图像标签分类网络进行训练。

在本实施例中，将样本图像输入初始图像标签分类网络，得到初始图像标签分类网络输出的多个样本标签对应的样本标签分类结果，多个样本标签分为将样本图像作为负样本的第一样本标签和将样本图像作为正样本的第二样本标签；确定第一样本标签的标签分类结果的损失值，作为第一损失值，确定第二样本标签的标签分类结果的损失值，作为第二损失值；根据对应第一损失值的权重对第一损失值进行调整，得到第三损失值，权重是根据第一样本标签对应的样本标签分类结果确定的；根据第二损失值和第三损失值对初始图像标签分类网络进行训练，得到图像标签分类网络。通过第一损失值对应的调整后的第三损失值对初始图像标签分类网络进行训练，有效的将低了初始图像标签分类网络在训练过程中对标签缺失现象的敏感度，从而提高了训练获得的图像标签分类网络的标签分类准确率。

请参阅图2，图2示出了本申请实施例中第三损失值的一种获取方法流程图，用于电子设备，方法包括：

S210、确定第一损失值与权重的数量积。

S220、将数量积的相反数作为第三损失值。

在本申请中，第三损失值的确定方法可以参照公式一，公式一如下：

其中，

为第一损失值，ω(p1)为权重，

为第三损失值。其中，ω(p1)＝λ-p1，p1为第一样本标签的标签分类结果的标签分类概率，λ为预设数值。

在本申请中，第一损失值的确定方法，包括：通过归一化函数对第一样本标签对应的标签分类结果进行归一化处理，得到对应第一样本标签的标签分类结果的标签分类概率；确定标签分类概率的均方误差，将均方误差作为第一损失值。

因此，在本申请中，

为标签分类概率的均方误差，将标签分类概率的均方误差带入公式一，得到公式二，公式二如下：

其中，MSE为标签分类概率的均方误差。

请参阅图3，图3示出了本申请实施例中一种样本图像的预测概率与梯度关系曲线图。

在图3中，横坐标表示训练过程中初始图像标签分类网络输出的样本图像的预测概率(对初始图像标签分类网络输出的样本图像对应的样本标签分类结果归一化后得到的值)，纵坐标为梯度。不同的线型代表不同的损失函数对应的图像标签分类网络的曲线。其中，图2中涉及的损失函数包括传统的BCE损失函数、Focal损失函数、ASL损失函数、MSE损失函数(均方误差损失函数)以及Hill损失函数，其中，Hill损失函数是指通过本申请的方法基于第一样本标签的标签分类结果得到对应的第三损失值的损失函数(Hill损失函数的运算过程包括根据第一样本标签的标签分类结果得到第一损失值的过程，以及根据权重对第一损失值进行调整的过程)。

在图2中，某一预测概率的梯度越高，表示初始图像标签分类网络对预测概率的重视程度越高。参照图2可知，相对于传统的各种损失函数对应的图像标签分类网络，根据本申请的Hill损失函数获得的图像标签分类网络更重视预测概率在0.3-0.8区间内的样本图像，换而言之，图像标签分类网络对缺失标签的敏感度较低。

请参阅图4，图4示出了本申请实施例中第二损失值的一种获取方法流程图，方法用于电子设备，方法包括：

S310、根据预设阈值对第二样本标签对应的标签分类结果进行预处理，得到预处理标签分类结果。

第二样本标签对应的标签分类结果与第一样本标签对应的标签分类结果的形式是相似的，第二样本标签对应的标签分类结果可以是指样本图像中存在第二样本标签对应的对象的预测概率，该预测概率也是未经过归一化处理的值。

其中，预设阈值可以是用户基于需求设定的，例如预设阈值为0.5、1或2等。在本申请具体实施时，可以是将第二样本标签对应的标签分类结果与预设阈值的差作为预处理标签分类结果。例如，第二样本标签对应的标签分类结果为C1，预设阈值为C2，得到的预处理标签分类结果为C3＝C1-C2。

传统的损失函数对正样本进行挖掘时，大量样本标签分类结果对应的预测概率介于0.3～0.5之间的半难正样本被忽略了。因此，在本申请中，通过预设阈值对第二样本标签对应的标签分类结果进行预处理，再确定预处理后的预处理标签分类结果的损失值，将预处理标签分类结果的损失值作为第二样本标签对应的标签分类结果的损失值，从而实现了高效挖掘预测概率介于0.3～0.5之间的半难正样本的目的。

S320、确定对应预处理标签分类结果的损失值，将预处理标签分类结果的损失值作为第二损失值。

电子设备确定预处理标签分类结果的损失值，将该损失值确定为第二样本标签对应的样本标签分类结果的损失值。

具体的，确定对应预处理标签分类结果的损失值，包括：通过归一化函数对预处理标签分类结果进行归一化处理，得到对应预处理标签分类结果的预处理标签分类概率；基于预处理标签分类概率，得到预处理标签分类结果的损失值。

本实施例的归一化函数也可以是Sigmoid函数。第二样本标签对应的标签分类结果未经过归一化处理，根据预设阈值对第二样本标签对应的标签分类结果进行预处理，得到的预处理标签分类结果也是未经过归一化处理的。可以通过Sigmoid函数对预处理标签分类结果进行归一化处理，得到在(0,1)区间内的预处理标签分类概率。

可以通过传统的值损失值求解方法(例如BCE损失函数、Focal损失函数以及ASL损失函数中的任意一者)，根据预处理标签分类概率，求得预处理标签分类结果的损失值。

本实施例的第二损失值的求解过程可以参照公式三，公式三如下：

其中，p_n＝σ(x-n)，n为预设阈值，

为第二损失值，γ与Focal损失函数的γ具有相同的含义，x为第二样本标签对应的样本标签分类结果，σ为归一化函数Sigmoid函数，其中，预处理样本标签分类结果z＝x-n。

请参阅图5，图5示出了本申请实施例中又一种样本图像的预测概率与梯度关系曲线图。

在图5中，横坐标表示训练过程中初始图像标签分类网络输出的样本图像对应的预测概率(对初始图像标签分类网络输出的样本图像对应的样本标签分类结果归一化后得到的值)，纵坐标为梯度。不同的线型代表不同的损失函数对应的图像标签分类网络曲线。其中，图5中涉及的损失函数包括传统的BCE损失函数以及本申请中的Focal margin损失函数。

其中，Focal margin损失函数是指通过本申请的方法基于第二样本标签的标签分类结果得到对应的第二损失值的损失函数(Focal margin损失函数的运算过程包括根据第一样本标签的标签分类结果得到预处理标签分类结果的过程，以及根据预处理标签分类结果求解第二损失值的过程)，n是指预设阈值，n＝0时，Focal margin损失函数变为传统的Focal损失函数，图5中包括四种不同的n值对应的Focal margin损失函数所对应的曲线。

在图5中，某一预测概率的梯度越高，表示初始图像标签分类网络对预测概率的重视程度越高。参照图5可知，相对于传统的各种损失函数对应的图像标签分类网络，根据本申请的Focal margin损失函数获得的图像标签分类网络更重视输出概率在0.3-0.5区间内的样本图；相较于取值较小的n，取值较大的n所对应的图像标签分类网络更重视输出概率在0.3-0.5区间内的样本图像，图像标签分类网络对半难样本的重视程度也较高。

请参阅图6，图6示出了本申请实施例提供的又一种图像标签分类网络的训练方法的流程图，方法可以用于电子设备，方法包括：

S410、将样本图像输入初始图像标签分类网络，得到初始图像标签分类网络输出的多个样本标签对应的样本标签分类结果，多个样本标签分为将样本图像作为负样本的第一样本标签和将样本图像作为正样本的第二样本标签；

S420、确定第一样本标签的标签分类结果的损失值，作为第一损失值，确定第二样本标签的标签分类结果的损失值，作为第二损失值；

S430、根据对应第一损失值的权重对第一损失值进行调整，得到第三损失值，权重是根据第一样本标签对应的样本标签分类结果确定的。

其中，S410-S430的描述参照上文S110-S130的描述，此处不在赘述。

S440、根据第二损失值、第三损失值以及第二损失值对应的权重系数，得到样本图像的最终损失值，其中，权重系数基于第一数量积的数量级以及第二数量积的数量级确定。

在本申请中，样本图像的最终损失值基于各个样本标签对应的损失值确定，具体的，最终损失值的计算公式参照公式四，公式四如下：

其中，α为权重系数，

为最终损失，K为多个样本标签的总数，y_i为样本标签i的监督，当样本图像中存在样本比标签i对应的对象时，当样本图像为样本标签i的正样本时，

为样本标签i的损失值——第二损失值，当样本图像为样本标签i的负样本时，

为样本标签i的损失值——第三损失值，当样本图像中存在样本比标签i对应的对象时，y_i＝1，当样本图像中不存在样本比标签i对应的对象时，y_i＝0。

基于公式四可知，样本图像为正样本时，y_i＝1，对于样本标签i的损失值取

第二损失值；样本图像为负样本时，y_i＝0，对于样本标签i的损失值取

第三损失值。

在本申请具体实施时，可以根据本申请的Hill损失函数得到第一样本标签(样本图像作为负样本的样本标签)的损失值，并按照传统的方法得到的第二样本标签(样本图像作为正样本的样本标签)的损失值(例如通过BCE损失函数、Focal损失函数以及ASL损失函数中的任意一者，基于第二样本标签对应的标签分类结果得到的第二样本标签的损失值)，然后基于第一样本标签的损失值和第二样本标签的损失值，得到最终损失值。

在一些实施例中，还可以根据传统的方法得到第一样本标签的损失值(例如通过BCE损失函数、Focal损失函数以及ASL损失函数中的任意一者，基于第一样本标签对应的标签分类结果得到的第一样本标签的损失值)，并按照本申请的Focal margin损失函数获得第二样本标签的损失值，然后基于第一样本标签的损失值和第二样本标签的损失值，得到最终损失值。

得到样本图像的最终损失值之后，根据最终损失值对初始图像标签分类网络的参数进行调整，以得到训练后的图像标签分类网络。

参照表1，表1为根据本申请方法获得的图像标签分类网络与根据传统的方法获得的图像标签分类网络的分类效果对比表，表1如下：

表1

其中，BCE是指对正样本和负样本均采用BCE损失函数求解损失值；Focal+是指对负样本采用BCE损失函数求解损失值，对正样本采用Focal损失函数求解损失值；Focalmargin+是指对负样本采用BCE损失函数求解损失值，对正样本采用本申请的Focalmargin损失函数求解损失值；Focal-是指对正样本采用BCE损失函数求解损失值，对负样本采用Focal损失函数求解损失值；ALS-是指对正样本采用BCE损失函数求解损失值，对负样本采用ALS损失函数求解损失值；Hill-是指对正样本采用BCE损失函数求解损失值，对负样本采用本申请的Hill损失哈数求解损失值；Hill+Focalmargin是指利用本申请的Hill损失函数对正样本求解损失值，并利用Focalmargin损失函数求解负样本损失值。

基于表1可知，通过本申请的Hill损失函数和/或Focalmargin损失函数求解对应的损失值，得到的图像标签分类网络的mAP评分、OF1评分以及CF1评分均较高，换而言之，通过本申请的Hill损失函数和/或Focalmargin损失函数求解对应的损失值，得到的图像标签分类网络的标签分类效果较优。

请参阅图7，图7示出了本申请实施例提供的一种图像标签分类方法的流程图，方法用于电子设备，方法包括：

S510、获取待分类图像；

S520、将待分类图像输入训练后的图像标签分类网络中，得到待分类图像的标签分类结果。

在本申请中，训练后的图像标签分类网络可以是指按照本申请的上述方法训练获得的图像标签分类网络。

待分类图像的标签分类结果可以是指待分类图像包括的各个样本标签的概率，示意性的，该标签分类结果为：人(0.95)、狗(0.90)、猫(0.15)、…、草坪(0.01)、汽车(0.001)。

与图像标签分类网络的训练过程类似的，电子设备将获取到的目标图像输入图像标签分类网络，得到输出的图像标签分类结果。

在一些实施例中，电子设备将获取到的目标图像输入图像标签分类网络，得到输出的图像标签分类结果，然后在对图像标签分类结果分类结果进行归一化处理，得到归一化后的图像标签分类结果，归一化后的图像标签分类结果可以是S520输出的标签分类结果。

请参阅图8，图8示出了本申请实施例提供的一种图像标签分类网络的训练装置示意图，用于电子设备，装置800包括：

样本图像标签分类模块810，用于将样本图像输入初始图像标签分类网络，得到初始图像标签分类网络输出的多个样本标签对应的样本标签分类结果，多个样本标签分为将样本图像作为负样本的第一样本标签和将样本图像作为正样本的第二样本标签；

损失值确定模块820，用于确定第一样本标签的标签分类结果的损失值，作为第一损失值，确定第二样本标签的标签分类结果的损失值，作为第二损失值；

损失值调整模块830，用于根据对应第一损失值的权重对第一损失值进行调整，得到第三损失值，权重是根据第一样本标签对应的样本标签分类结果确定的，权重用于降低标签缺失的负样本对损失值的贡献；

网络训练模块840，用于根据第二损失值和第三损失值对初始图像标签分类网络进行训练，得到图像标签分类网络。

可选地，装置800还包括：

权重获取模块，用于通过归一化函数对第一样本标签对应的标签分类结果进行归一化处理，得到对应第一样本标签的标签分类结果的标签分类概率；将预设数值与标签分类概率的差值作为权重。

可选地，损失值调整模块830，还用于确定第一损失值与权重的数量积；将数量积的相反数作为第三损失值。

可选地，损失值确定模块820，还用于通过归一化函数对第一样本标签对应的标签分类结果进行归一化处理，得到对应第一样本标签的标签分类结果的标签分类概率；确定标签分类概率的均方误差，将均方误差作为第一损失值。

可选地，损失值确定模块820，还用于根据预设阈值对第二样本标签对应的标签分类结果进行预处理，得到预处理标签分类结果；确定对应预处理标签分类结果的损失值，将预处理标签分类结果的损失值作为第二损失值。

可选地，损失值确定模块820，还用于通过归一化函数对预处理标签分类结果进行归一化处理，得到对应预处理标签分类结果的预处理标签分类概率；基于预处理标签分类概率，得到预处理标签分类结果的损失值。

可选地，网络训练模块840，还用于根据第二损失值、第三损失值以及第二损失值对应的权重系数，得到样本图像的最终损失值，其中，权重系数基于第一数量积的数量级以及第二数量积的数量级确定；根据最终损失值对初始图像标签分类网络进行训练，得到图像标签分类网络。

请参阅图9，图9示出了本申请实施例提供的一种图像标签分类装置示意图，用于电子设备，装置900包括：

图像获取模块910，用于获取待分类图像；

图像标签分类模块920，用于将待分类图像输入至训练后的图像标签分类网络中，得到待分类图像的标签分类结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

下面将结合图10对本申请提供的一种电子设备进行说明。

请参阅图10，图10示出了本申请实施例提供的一种电子设备的示意图，基于上述的数据展示方法。

电子设备1000还包括存储器1004。其中，该存储器1004中存储有可以执行前述实施例中内容的程序，而处理器1002可以执行该存储器1004中存储的程序。

其中，处理器1002可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器1002利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1004内的指令、程序、代码集或指令集，以及调用存储在存储器1004内的数据，执行电子设备1000的各种功能和处理数据。可选地，处理器1002可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable GateArray，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1002可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1002中，单独通过一块通信芯片进行实现。

存储器1004可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1004可用于存储指令、程序、代码、代码集或指令集。存储器1004可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现下述各个方法实施例提供的指令等。存储数据区还可以存储电子设备1000在使用中所获取的数据(如，待推荐数据以及操作方式)等。

电子设备1000还可以包括网络模块以及屏幕，网络模块用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。网络模块可包括各种传统的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。网络模块可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。屏幕可以进行界面内容的显示以及进行数据交互。

在一些实施例中，电子设备1000还可以包括有：外设接口和至少一个外围设备。处理器1002、存储器1004和外设接口1006之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外设接口连接。具体地，外围设备包括：射频组件1008、定位组件1012、摄像头1014、音频组件1016、显示屏1018以及电源1022等中的至少一种

外设接口1006可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1002和存储器1004。在一些实施例中，处理器1002、存储器1004和外设接口1006被集成在同一芯片或电路板上；在一些其他实施例中，处理器1002、存储器1004和外设接口1006中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

射频组件1008用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频组件1008通过电磁信号与通信网络以及其他通信设备进行通信。射频组件1008将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频组件1008包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频组件1008可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频组件1008还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

定位组件1012用于定位电子设备的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1012可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

摄像头1014用于采集图像或视频。可选地，摄像头1014包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备1000的前面板，后置摄像头设置在电子设备1000的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头1014还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频组件1016可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1002进行处理，或者输入至射频组件1008以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1002或射频组件1008的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频组件1014还可以包括耳机插孔。

显示屏1018用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1018是触摸显示屏时，显示屏1018还具有采集在显示屏1018的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1002进行处理。此时，显示屏1018还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1018可以为一个，设置电子设备1000的前面板；在另一些实施例中，显示屏1018可以为至少两个，分别设置在电子设备1000的不同表面或呈折叠设计；在又一些实施例中，显示屏1018可以是柔性显示屏，设置在电子设备1000的弯曲表面上或折叠面上。甚至，显示屏1018还可以设置成非矩形的不规则图形，也即异形屏。显示屏1018可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，机发光二极管)等材质制备。

电源1022用于为电子设备1000中的各个组件进行供电。电源1022可以是交流电、直流电、一次性电池或可充电电池。当电源1022包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

请参阅图11，图11示出了本申请一个实施例提供的计算机可读存储介质的示意图。该计算机可读存储介质1100中存储有程序代码，该程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中描述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像标签分类网络的训练方法，其特征在于，所述方法包括：

将样本图像输入初始图像标签分类网络，得到所述初始图像标签分类网络输出的多个样本标签对应的样本标签分类结果，所述多个样本标签分为将所述样本图像作为负样本的第一样本标签和将所述样本图像作为正样本的第二样本标签；

确定所述第一样本标签的标签分类结果的损失值，作为第一损失值，确定所述第二样本标签的标签分类结果的损失值，作为第二损失值；

根据对应所述第一损失值的权重对所述第一损失值进行调整，得到第三损失值，所述权重是根据所述第一样本标签对应的样本标签分类结果确定的，所述权重用于降低标签缺失的负样本对损失值的贡献；

根据所述第二损失值和所述第三损失值对所述初始图像标签分类网络进行训练，得到图像标签分类网络。

2.如权利要求1所述的方法，其特征在于，所述权重的获取方法，包括：

通过归一化函数对所述第一样本标签对应的标签分类结果进行归一化处理，得到对应所述第一样本标签的标签分类结果的标签分类概率；

将预设数值与所述标签分类概率的差值作为所述权重。

3.如权利要求1所述的方法，其特征在于，所述根据对应所述第一损失值的权重对所述第一损失值进行调整，得到第三损失值，包括：

确定所述第一损失值与所述权重的数量积；

将所述数量积的相反数作为所述第三损失值。

4.如权利要求1所述的方法，其特征在于，所述确定所述第一样本标签的标签分类结果的损失值，作为第一损失值，包括：

确定所述标签分类概率的均方误差，将所述均方误差作为所述第一损失值。

5.如权利要求1所述的方法，其特征在于，所述确定所述第二样本标签的标签分类结果的损失值，作为第二损失值，包括：

根据预设阈值对所述第二样本标签对应的标签分类结果进行预处理，得到预处理标签分类结果；

确定对应所述预处理标签分类结果的损失值，将所述预处理标签分类结果的损失值作为所述第二损失值。

6.如权利要求5所述的方法，其特征在于，所述确定对应所述预处理标签分类结果的损失值，包括：

通过归一化函数对所述预处理标签分类结果进行归一化处理，得到对应所述预处理标签分类结果的预处理标签分类概率；

基于所述预处理标签分类概率，得到所述预处理标签分类结果的损失值。

7.如权利要求1所述的方法，其特征在于，所述根据所述第二损失值和所述第三损失值对所述初始图像标签分类网络进行训练，得到图像标签分类网络，包括：

根据所述第二损失值、所述第三损失值以及所述所述第二损失值对应的权重系数，得到所述所述样本图像的最终损失值，其中，所述权重系数基于所述第一数量积的数量级以及所述第二数量积的数量级确定；

根据所述最终损失值对所述初始图像标签分类网络进行训练，得到图像标签分类网络。

8.一种图像标签分类方法，其特征在于，所述方法包括：

获取待分类图像；

将所述待分类图像输入至利用权利要求1-7任意一项获得的训练后的图像标签分类网络中，得到所述待分类图像的标签分类结果。

9.一种图像标签分类网络的训练装置，其特征在于，所述装置包括：

样本图像标签分类模块，用于将样本图像输入初始图像标签分类网络，得到所述初始图像标签分类网络输出的多个样本标签对应的样本标签分类结果，所述多个样本标签分为将所述样本图像作为负样本的第一样本标签和将所述样本图像作为正样本的第二样本标签；

损失值确定模块，用于确定所述第一样本标签的标签分类结果的损失值，作为第一损失值，确定所述第二样本标签的标签分类结果的损失值，作为第二损失值；

损失值调整模块，用于根据对应所述第一损失值的权重对所述第一损失值进行调整，得到第三损失值，所述权重是根据所述第一样本标签对应的样本标签分类结果确定的，所述权重用于降低标签缺失的负样本对损失值的贡献；

网络训练模块，用于根据所述第二损失值和所述第三损失值对所述初始图像标签分类网络进行训练，得到图像标签分类网络。

10.一种图像标签分类装置，其特征在于，所述装置包括：

图像获取模块，用于获取待分类图像；

图像标签分类模块，用于将所述待分类图像输入至利用权利要求1-7任意一项获得的训练后的图像标签分类网络中，得到所述待分类图像的标签分类结果。

11.一种电子设备，其特征在于，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现权利要求1-8任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-8任一项所述的方法。