CN110378410B

CN110378410B - 多标签场景分类方法、装置及电子设备

Info

Publication number: CN110378410B
Application number: CN201910640330.XA
Authority: CN
Inventors: 高永强
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Douyin Vision Co Ltd; Beijing Volcano Engine Technology Co Ltd; Douyin Vision Beijing Co Ltd
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2022-08-09
Anticipated expiration: 2039-07-16
Also published as: CN110378410A

Abstract

本公开实施例中提供了一种多标签场景分类方法、装置及电子设备，属于图像处理技术领域，该方法包括：构建场景分类标签体系，其中所述标签体系包含父类标签体系以及与所述父类标签体系对应的子类标签体系；构建多任务学习网络模型以通过所述多任务学习网络模型确定所述多标签场景的父类标签以及至少一个子类标签；以及根据所述父类标签将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签。本公开的处理方案通过单独的学习任务确定多标签场景的子类标签和父类标签，并根据父类标签来确定多标签场景的一个或者多个子类标签，因此能够更加准确地为多标签场景进行标签标注，并且能够更好地展示标签。

Description

多标签场景分类方法、装置及电子设备

技术领域

本公开涉及图像处理技术领域，尤其涉及一种多标签场景分类方法、装置及电子设备。

背景技术

随着数据信息的爆炸性增长，如何智能地使用数据并从中挖掘提取有效性息成为重要研究方向。其中，对图像进行标注以进行进一步的操作是对图像数据进行智能使用和挖掘的重要方式。

当前，在数据库中存在海量的场景标签，并且可以通过诸如单标签图像分类(Single-Label Classification)系统、零样本学习(Zero-Shot Learning)和多示例多标签学习(Multi-Instance Multi-Label，MIML)之类的方法来对图像进行标签标注。

然而，真实世界的对象往往具备多重语义，如某一图像中包括“大象”、“蓝天”、“白云”和“草地”，采用单一标签可能无法准确描述该图像的场景，也就是说该图像可能存在多个标签(例如，“大象”标签、“蓝天”标签、“白云”标签和“草地”标签，等等)。在这种一个图像存在多个标签的情况下，全部展示这些标签会存在困难甚至变得不可能，因此，需要选择性地、准确地展示能够反映该图像场景的标签。

发明内容

有鉴于此，本公开实施例提供一种多标签场景分类方法、装置及电子设备，以至少部分解决现有技术中存在的问题。

第一方面，本公开实施例提供了一种多标签场景分类方法，该方法包括：

构建场景分类标签体系，其中所述标签体系包含父类标签体系以及与所述父类标签体系对应的子类标签体系；

构建多任务学习网络模型以通过所述多任务学习网络模型确定所述多标签场景的父类标签以及至少一个子类标签；以及

根据所述父类标签将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签。

根据本公开实施例的一种具体实现方式，所述构建场景分类标签体系，包括：

根据预定规则构建父类标签体系以及与所述父类标签体系对应的子类标签体系；或者

使用现有标签体系作为所述场景分类标签体系，其中所述现有标签体系包含父类标签体系以及与所述父类标签体系对应的子类标签体系。

根据本公开实施例的一种具体实现方式，所述构建多任务学习网络模型以通过所述多任务学习网络模型确定所述多标签场景的父类标签以及至少一个子类标签，包括：

构建多任务学习网络模型；

对所述多任务学习网络模型进行训练；以及

将所述多标签场景输入到所述多任务学习网络模型以确定所述多标签场景的父类标签以及至少一个子类标签。

根据本公开实施例的一种具体实现方式，所述构建多任务学习网络模型，包括：

提供基础网络，其中所述基础网络用于对所述多标签场景进行分类；

针对每个任务提供全连接层；以及

将所述基础网络的卷积层与所述全连接层相连以得到所述多任务学习网络模型。

根据本公开实施例的一种具体实现方式，所述多任务学习网络模型，包括：

第一任务网络部分，所述第一任务网络部分用于确定所述多标签场景的父类标签；以及

第二任务网络部分，所述第二任务网络部分用于确定所述多标签场景的至少一个子类标签。

获取与每个任务对应的训练数据；

对每个任务的训练数据进行预处理；

将经预处理的训练数据输入到所述多任务学习网络模型，以对所述多任务学习网络模型进行训练直至所述多任务学习网络模型收敛；以及

将所述多标签场景输入到所述多任务学习网络模型，以分别通过所述第一任务网络部分和所述第二任务网络部分确定所述多标签场景的父类标签和至少一个子类标签。

根据本公开实施例的一种具体实现方式，所述对每个任务的训练数据进行预处理，包括：

将原始多标签场景按照长宽比例固定的方式进行缩放，以将最短边缩放为256；

从缩放后的多标签场景中剪切出224×224大小的图像；

对所述图像进行镜像翻转；以及

将每个图像与均值像相减以获得所述训练数据。

根据本公开实施例的一种具体实现方式，所述根据所述父类标签将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签，包括：

当所述父类标签包含所述至少一个子类标签中的一个或者多个标签时，将所述至少一个子类标签中属于所述父类标签的所述一个或者多个标签作为所述多标签场景的标签。

当所述父类标签不包含所述至少一个子类标签中的一个或者多个标签时，将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签。

根据本公开实施例的一种具体实现方式，所述当所述父类标签不包含所述至少一个子类标签中的一个或者多个标签时，将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签，包括：

将所述至少一个子类标签中的概率大于预定阈值的子类标签作为所述多标签场景的标签。

第二方面，本公开实施例提供了一种多标签场景分类装置，该装置包括：

场景分类标签体系构建模块，所述场景分类标签体系构建模块用于构建场景分类标签体系，其中所述标签体系包括父类标签体系以及与所述父类标签体系对应的子类标签体系；

多任务学习网络模块，所述多任务学习网络模块用于确定所述多标签场景的父类标签以及至少一个子类标签；以及

标签确定模块，所述标签确定模块用于根据所述父类标签将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签：

第三方面，本公开实施例还提供了一种电子设备，该电子设备包括：

至少一个处理器；以及，

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述任第一方面或第一方面的任一实现方式中的多标签场景分类。

第四方面，本公开实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的多标签场景分类。

第五方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述第一方面或第一方面的任一实现方式中的多标签场景分类。

本公开实施例中的图像质量评估方案，包括构建场景分类标签体系，其中所述标签体系包含父类标签体系以及与所述父类标签体系对应的子类标签体系；构建多任务学习网络模型以通过所述多任务学习网络模型确定所述多标签场景的父类标签以及至少一个子类标签；以及根据所述父类标签将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签。本公开的处理方案通过单独的学习任务确定多标签场景的子类标签和父类标签，并根据父类标签来确定多标签场景的一个或者多个子类标签，因此能够更加准确地为多标签场景进行标签标注，并且能够更好地展示标签。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本公开实施例提供的一种多标签场景分类方法流程示意图；

图2为本公开实施例提供的多任务学习网络模型的结构示意图；

图3为本公开实施例提供的训练多任务学习网络模型的流程示意图；

图4为本公开实施例提供的对训练数据进行预处理流程示意图；

图5为本公开实施例提供的一种多标签场景分类结构示意图；

图6为本公开实施例提供的电子设备示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种多标签场景分类方法。本实施例提供的多标签场景分类方法可以由一计算装置来执行，该计算装置可以实现为软件，或者实现为软件和硬件的组合，该计算装置可以集成设置在服务器、终端设备等中。

参见图1，本公开实施例提供的一种多标签场景分类方法，包括：

S100：构建场景分类标签体系。

一般而言，人们对于图像的理解广义上是对图像场景的理解。有鉴于此，可以首先识别图像的场景，并根据图像的场景对图像进行标注。也就是说，对图像的标注可以被转化为对图像所包含的场景的标注。场景的示例例如可以包括天空场景、办公室场景、足球场场景、电影院场景等。此外，在以下的描述中，以多标签场景表示要进行场景标注的图像。

为了能够对图像场景进行尽可能准确的标注，首先需要构建场景分类标签体系。标签体系是指能够对图像进行标注的所有标签的集合。

在现实中，对于一张图像，其一方面可以包含多个场景，即单个标签可能无法准确客观地描述该图像所包含的场景。例如，一张图像显示“天空下的大树”，则该图像具有典型的二义性，即其既包含“天空场景”又包含“大树场景”，单独的“天空场景”标签或“大树场景”标签不足以对该图像的场景进行描述。

另一方面，对于图像“天空下的大树”，采用比“天空场景”标签和“大树场景”标签更加上位和宽泛的诸如“室外场景”标签之类的标签，则能够较好地对该图像场景进行描述。也就是说，单个更下位的标签无法准确描述的场景可能通过更上位的标签进行准确描述。在本公开实施例中，将诸如“天空场景”标签或“大树场景”标签之类的更下位的标签称为子类标签，并且将诸如“室外场景”标签之类的更上位的标签称为父类标签。也可以看，父类标签包含子类标签的内容。

在本公开实施例中，为了更加准确地描述图像场景，所构建的场景分类标签体系既包括父类标签体系又包含与父类标签体系对应的子类标签体系。如上所述，“父类标签体系”例如可以指更加上位的概念，而“子类标签体系”可以是更加下位的概念。举例来说，“室外场景”标签可以是父类标签，并且“天空场景”标签和“大树场景”标签可以是与父类场景标签“室外场景”对应的子类标签。

在本公开实施例中，定义人像、美食、宠物/动物、自然环境(无人或者人很小区域)、交通工具、建筑、文本、植物、电子产品、路、雕塑、室内环境、室外环境(人文环境)、运动场地、二次元、游戏共16大类父类标签，并且对于每一父类标签，可以定义与其对应的子类标签，在本公开实施例中，该16大类父类标签对应有共计208个子类标签，为了不过度地模糊本发明，在此不对208个子类标签进行列举。

应当注意，在以上的描述中，以特定的16大类父类标签和208个子类标签描述了本公开实施例的场景分类标签体系，但是本发明不限于此。本公开实施例可以采用其他的标准对父类标签和子类标签进行划分。

另外，虽然以上以包含父类标签和子类标签的两极标签体系描述了本公开实施例的场景分类标签体系，但是本发明不限于此。本公开实施例还可以包含更多级的标签。也就是说，子类标签还可以包含子子类标签，在这种情况下，子类标签是子子类标签的父类标签。

S200：构建多任务学习网络模型以通过所述多任务学习网络模型确定所述多标签场景的父类标签以及至少一个子类标签。

在通过S100的步骤构建了场景分类标签体系之后，需要采用所构建的场景分类标签体系来对输入图像进行场景标注，在本公开实施例中，通过多任务学习网络模型来确定多标签场景的父类标签和子类标签。

在本公开实施例中，多任务学习网络模型包括基础网络，基础网络例如可以采用resNet-50网络和densenet161网络，并且该基础网络的卷积层与两层全连接层连接以实现分类。图2示出了本公开实施例的多任务学习网络模型的结构示意图。

如图2所示，在本公开实施例中，设置单独的学习任务来确定该多标签场景的父类标签和子类标签。也就是说，为了确定该多标签的父类标签，设置单独的任务来确定该多标签场景的父类标签。此外，为了确定该多标签的子类标签，设置单独的任务来确定该多标签场景的子类标签。并且在需要确定该多标签场景的多个子类标签的情况下，设置多个单独的学习任务。

在本公开实施例中，通过多任务学习网络模型来确定该多标签场景的父类标签和至少一个子类标签。具体地，该多任务学习网络模型包括主任务网络部分和两个辅助任务网络部分。

主任务网络部分用于确定该多标签场景的第一子类标签，在本文中，总共有208个子类标签。第一辅助任务网络部分用于确定该多标签场景的第二子类标签。例如，在图像包含天空和大树的情况下，第一子类标签可以是天空标签，并且第二子类标签可以是大树标签。应当注意，在该图像不存在多个场景的情况下，则仅保持第一子类标签。

本公开实施例的第二辅助任务网络部分用于确定该多标签场景的超标签，即父类标签。在本文中，共计存在16个父类标签。

如此，通过该多任务学习网络模型确定了该多标签场景的父类标签和至少一个子类标签。

应当注意，虽然以上描述了包含两个辅助任务网络部分的多任务学习网络模型，但还可以包含其他数量的辅助任务网络部分。例如，可以确定该多标签场景的两个或者更多个子类标签，并且辅助任务网络部分也可以确定该多标签场景的一个或者多个父类标签。

S300：根据所述父类标签将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签。

在通过步骤S200获得了输入图像的父类标签和至少一个子类标签之后，根据该父类标签来输出该多标签场景的子类标签。

具体地，由于父类标签和相应的子类标签之间存在业务逻辑关系，因此能够用子类标签进行标注的图像也能够采用与该子类标签对应的父类标签进行标注。在这种情况下，如果通过任务学习网络模型获得的该多标签场景的子类标签属于所获得的父类标签，则能够进一步保证该多标签场景的正确性。

具体地，对于所获得的父类标签而言，如果通过单独的学习任务确定的子类标签属于该父类标签，则意味着采用了单独的途径(确定子类标签)证明了该父类标签的准确性，因为能够采用子任务进行标注的场景必然也能够采用该子类标签的父类标签进行标注。

此外，对于所获得的子类标签而言，父类标签表明了该图像场景所包含的子类标签应该是该父类标签下的子类标签。因此，如果通过单独的学习任务确定的父类标签包含了该子类标签，则能够进一步提高该子类标签的置信度。

也就是说，在本公开实施例中，由于通过单独的学习任务来确定输入图像的父类标签和子类标签，而父类标签和子类标签之间存在业务逻辑关系，因此在所确定的父类标签和子类标签匹配的情况下，能够进一步提高所获得的子类标签的准确性。

如上所述，在本公开实施例中，根据所确定的父类标签和子类标签匹配的情况来确定该多标签场景的标签，但是本发明不限于此。

例如，根据一个实施例，可以输出一个或者多个父类标签。根据另一个实施例，可以输出一个或者多个子类标签。根据又一个实施例，可以输出一个或者多个子类标签以及与子类标签对应的父类标签。

以上，已经描述了根据本公开实施例的多标签场景分类方法，其通过单独的学习任务确定多标签场景的子类标签和父类标签，这对于提高该多标签场景标注的准确度具有重要意义。具体地，本公开实施例采用独立的学习任务来确定该多标签场景的父类标签和子类标签，其是相互独立的过程。如果所得到的父类标签包含所得到的子类标签，则能够互相确保所得到的标签的准确性，从而提高多标签场景标注的准确性。如果所得到的父类标签不包含所得到的子类标签，则证明所得到的父类标签和子类标签中的至少一个可能是不正确的。

因此，根据本公开实施例的方法能够更加准确地为图像进行标签标注，并且能够更好地展示标签。

根据本公开实施例的一种具体实现方式，可以人为构建父类标签体系以及与所述父类标签体系对应的子类标签体系。可替代地，也可以使用现有标签体系作为所述场景分类标签体系。

如上所述，在本公开实施例中，人为构建了共计16大类父类标签以及与之对应的共计208个子类标签。但是本公开实施例还可以根据特定标准构建其他的分类标签体系，例如，可以根据图像场景的情感来人为构建分类标签体系。具体地，设置“积极”、“消极”以及“正常”三大类父类标签，并且对于每一个父类标签，设置与之对应的子类标签。例如，对于“消极”父类标签，可以设置“火灾”标签、“打架”标签等与“消极”父类标签对应的子类标签。

另外，本公开实施例还可以按照其他的标准来构建分类标签体系。例如，可以将ImageNet图像库中的1000个类别作为子类标签，并根据这些子类标签设置任意数量的父类标签。

也就是说，新在本公开实施例中，所构建的场景分类标签体系可以是重按照一定标准人为构建的父类标签体系以及与所述父类标签体系对应的子类标签体系，也可以采用已知的标签体系作为场景分类标签体系。只要所构建的场景分类标签体系包含父类标签以及与这些父类标签对应的子类标签即可。

构建多任务学习网络模型；

对所述多任务学习网络模型进行训练；以及

如上所述，在本公开实施例中，所述多任务学习网络模型用于确定所述多标签场景的父类标签以及至少一个子类标签。

在本公开实施例中，可以通过训练多个单标签分类模型，从而将多标签场景问题分解成多个单标签问题。也就是说，可以针对每个子类标签和父类标签分别训练单独的标签分类模型，从而将图像输入到这些单独的标签分类模型中以确定该输入图像的子类标签和父类标签。

可替代地，可以采用多示例多标签(Multi-Instance Multi-Label，MIML)学习模型作为多任务学习网络模型。多示例多标签方法利用sub-concept(子概念)的方法来处理复杂的问题。例如，对于标签“山”，其可能具有“雪山”、“沙子山”和“覆盖有树的山”。即，标签“山”具有K个(3个)子概念。因此，对于具有标签l的给定示例，通过检查K个模型的预测值，然后选择具有最大预测值的子概念所在的标签作为其预测标签l_i。通过这样的方式，将MIML分类问题转换为了标签排序(label ranking)问题，因此，训练目标是将相关标签排序在非相关标签前面。

虽然以上以训练多个单标签分类模型和采用多示例多标签方法来确定所述多标签场景的父类标签以及至少一个子类标签，但是本发明不限于此。本公开实施例还可以采用其他的方法分别确定该多标签场景的父类标签以及至少一个子类标签。

针对每个任务提供全连接层；以及

在本公开实施例中，所构建的多任务学习的深度网络包含基础网络，基础网络例如可以采用resNet。

传统的深度卷积神经网络CNN达到一定深度后再一味地增加层数并不能带来进一步地分类性能提高。resNet网络引入了残差网络结构，它通过使用多个有参层来学习输入输出之间的残差表示，而非像一般CNN网络(如Alexnet/VGG等)那样使用有参层来直接尝试学习输入、输出之间的映射。通过残差网络，能够提高分类性能。

应当注意，在本公开实施例中，resNet网络可以是resNet v1网络、resNet v2网络或者其他的resNet网络。

可替代地，基础网络可以是DenseNet网络，DenseNet是一种具有密集连接的卷积神经网络。在该网络中，任何两层之间都有直接的连接，也就是说，网络每一层的输入都是前面所有层输出的并集，而该层所学习的特征图也会被直接传给其后面所有层作为输入。DenseNet网络的详细说明可以参见https://www.sohu.com/a/161923204_651893，其全部内容通过引用结合于此。

在确定了基础网络之后，为每个任务提供全连接层，全连接层与基础网络的卷积层相连接。在本示例性实施例中，全连接层在整个卷积神经网络中起到

“分类器”的作用。全连接层将学到的“分布式特征表示”映射到样本标记空间的作用。

全连接层中的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。为了提升网络性能，全连接层每个神经元的激励函数一般采用ReLU函数。最后一层全连接层的输出值被传递给一个输出，可以采用softmax逻辑回归(softmax regression)进行分类，该层也可称为softmax层。具体地，softmax层的值指示输入属于与之对应的分类的概率。

如此，通过设计单独的分类任务能够得到该多标签场景的父类标签和至少一个子类标签。

根据本公开实施例的一种具体实现方式，所述多任务学习网络模型具有多个任务，该多个任务包含第一任务，第一任务用于确定所述多标签场景的父类标签。此外，该多个任务包含第二任务，第二任务用于确定所述多标签场景的至少一个子类标签。

为了通过第一任务来确定该多标签场景的父类标签，并且通过第二任务来确定该多标签场景的至少一个子类标签。首先需要对该多任务学习网络模型进行训练。具体地，图3示出了训练该多任务学习网络模型以确定该多标签场景的父类标签以及至少一个子类标签的方法。

参见图3，训练该多任务学习网络模型以确定该多标签场景的父类标签以及至少一个子类标签的方法包括：

S301：获取与每个任务对应的训练数据。

为了通过第一任务和第二任务来确定该多标签场景的父类标签和至少一个子类标签，需要获得与每个任务对应的训练数据。具体地，例如对于16个父类标签，可以对于每个父类标签准备预定数量(例如10000个)的训练数据，以对第一任务的网络进行训练。此外，对于每个子类标签，可以分别准备预定数量的训练数据，以对第二任务的网络进行训练。

S302：对每个任务的训练数据进行预处理。

对于所准备的训练数据，需要经过预定的预处理才能够被输入网络以对网络进行训练。图4示出了典型的对训练数据进行预处理的步骤，其包括：

S401:将原始输入图像按照长宽比例固定的方式进行缩放，以将最短边缩放为256。

在本公开实施例中，图像的缩放是指对数字图像的大小进行调整的过程。图像放大可以采用内插值方法，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素，插值算法例如包括基于边缘的图像插值算法、基于区域的图像插值算法以及其他已知或未来开发的算法。此外，缩小图像例如可以采用CV_INETR_AREA来插值。

此外，虽然在以上描述中将原始输入图像按照长宽比例固定的方式缩放到最短边为256，但是本公开实施例不限于此，而是可以将最短边缩放到其他合适的数值，并且缩放的方式可以是长宽比例固定方式之外的其他方式。但是为了说明的方便，以下以将原始输入图像按照长宽比例固定的方式缩放到最短边为256为例进行说明。

S402:在将原始输入图像缩放到最短边为256之后，从图像的左上、右上、左下、右下和中间剪切出224×224大小的图。

由于质量评估网络模型的输入是224×224，因此，需要从图像中剪切出224×224大小的图。但是应当理解，所剪切的图像的位置不限于图像的左上、右上、左下、右下和中间，而是可以是其他合适的位置。

S403:将图像进行镜像翻转。

在本公开实施例中，由于来自智能手机的图像普遍存在着旋转或者镜像的问题，因此需要通过进行镜像翻转操作来使得图像处于正常状态。

S404:将每张图与均值图相减。

由于在大多数情况下，并不关注输入图像的整体明亮程度。更确切地说，图像块的平均亮度值信息不是关键信息，所以可以减去这个值来进行均值削减。具体地，在本公开实施例中，将每张图与均值图相减，以进行归一化处理。

如此，能够得到经过预处理的训练数据。

S303：将经预处理的训练数据输入到所述多任务学习网络模型中，以对所述多任务学习网络模型进行训练直至所述多任务学习网络模型收敛。

通过如上所述的方法获得训练数据之后，将这些训练数据输入到与第一任务和第二任务对应的网络中，进行训练，以得到经过训练的网络模型。

S304：将图片输入到所述多任务学习网络模型，以确定所述多标签场景的父类标签以及至少一个子类标签。

在得到经训练的网络模型之后，将图片输入到所述多任务学习网络模型，即可通过第一任务得到该多标签场景的父类标签，并且可以通过第二任务得到该标签场景的子类标签。

在通过多任务学习网络模型得到该多标签场景的父类标签以及至少一个子类标签，需要选择合适的标签作为所述多标签场景的标签。

根据本公开实施例的一种具体实现方式，当所述父类标签不包含所述至少一个子类标签中的一个或者多个标签，则将所述至少一个子类标签作为所述多标签场景的标签。此外，当所述父类标签包含所述至少一个子类标签中的一个或者多个标签，则将所述至少一个子类标签中属于所述父类标签的所述一个或者多个标签作为所述多标签场景的标签。

另外，当父类标签不包含所述至少一个子类标签中的一个或者多个标签时，则仅将所述至少一个子类标签中的概率大于预定阈值的子类标签作为所述多标签场景的标签

具体地，可以将概率值大于预定阈值的标签作为该多标签场景的子类标签。该预定阈值例如可以人为设定，也可以根据实验来获得。

在本公开实施例中，例如可以将概率值最大的两个子类标签作为该多标签场景的标签。另外，还可以要求只有这两个子类标签的概率大于所述预定阈值时才将该子类标签作为该多标签场景的标签。

在本公开实施例中，可以不输出该多标签场景的父类标签，一般而言，父类标签更加宽泛，而子类标签能够更加精确地描述该多标签场景。可替代地，也可以根据概率输出该多标签场景的父类标签。

与上面的方法实施例相对应，参见图5，本公开实施例还提供了一种多标签场景分类装置500，包括：

场景分类标签体系构建模块501，所述场景分类标签体系构建模块用于构建场景分类标签体系，其中所述标签体系包括父类标签体系以及与所述父类标签体系对应的子类标签体系；

多任务学习网络模块502，所述多任务学习网络模块用于确定所述多标签场景的父类标签以及至少一个子类标签；以及

标签确定模块503，所述标签确定模块用于根据所述父类标签将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签。

图5所示装置可以对应的执行上述方法实施例中的内容，本实施例未详细描述的部分，参照上述方法实施例中记载的内容，在此不再赘述。

参见图6，本公开实施例还提供了一种电子设备60，该电子设备包括：

至少一个处理器；以及，

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述方法实施例中多标签场景分类方法。

本公开实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述方法实施例中多标签场景分类方法。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述方法实施例中的多标签场景分类方法。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备60的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备60可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备60操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备60与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备60，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取至少两个网际协议地址；向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求，其中，所述节点评价设备从所述至少两个网际协议地址中，选取网际协议地址并返回；接收所述节点评价设备返回的网际协议地址；其中，所获取的网际协议地址指示内容分发网络中的边缘节点。

或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：接收包括至少两个网际协议地址的节点评价请求；从所述至少两个网际协议地址中，选取网际协议地址；返回选取出的网际协议地址；其中，接收到的网际协议地址指示内容分发网络中的边缘节点。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种多标签场景分类方法，其特征在于，包括：

构建多任务学习网络模型以通过所述多任务学习网络模型的多个独立的学习任务分别确定所述多标签场景的父类标签以及至少一个子类标签；以及

根据所述父类标签将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签且不输出该多标签场景的父类标签，包括：当所述父类标签包含所述至少一个子类标签中的一个或者多个标签时，将所述至少一个子类标签中属于所述父类标签的所述一个或者多个标签作为所述多标签场景的标签；或者，当所述父类标签不包含所述至少一个子类标签中的一个或者多个标签时，将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签。

2.根据权利要求1所述的多标签场景分类方法，其特征在于，所述构建场景分类标签体系，包括：

3.根据权利要求1所述的多标签场景分类方法，其特征在于，所述构建多任务学习网络模型以通过所述多任务学习网络模型确定所述多标签场景的父类标签以及至少一个子类标签，包括：

构建多任务学习网络模型；

对所述多任务学习网络模型进行训练；以及

4.根据权利要求3所述的多标签场景分类方法，其特征在于，所述构建多任务学习网络模型，包括：

针对每个任务提供全连接层；以及

5.根据权利要求1所述的多标签场景分类方法，其特征在于，所述多任务学习网络模型，包括：

6.根据权利要求5所述的多标签场景分类方法，其特征在于，所述构建多任务学习网络模型以通过所述多任务学习网络模型确定所述多标签场景的父类标签以及至少一个子类标签，包括：

获取与每个任务对应的训练数据；

对每个任务的训练数据进行预处理；

7.根据权利要求6所述的多标签场景分类方法，其特征在于，所述对每个任务的训练数据进行预处理，包括：

从缩放后的多标签场景中剪切出224×224大小的图像；

对所述图像进行镜像翻转；以及

将每个图像与均值像相减以获得所述训练数据。

8.根据权利要求1所述的多标签场景分类方法，其特征在于，所述当所述父类标签不包含所述至少一个子类标签中的一个或者多个标签时，将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签，包括：

9.一种多标签场景分类装置，其特征在于，包括：

多任务学习网络模块，所述多任务学习网络模块用于通过多个独立的学习任务分别确定所述多标签场景的父类标签以及至少一个子类标签；以及

标签确定模块，所述标签确定模块用于根据所述父类标签将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签且不输出该多标签场景的父类标签，包括：当所述父类标签包含所述至少一个子类标签中的一个或者多个标签时，将所述至少一个子类标签中属于所述父类标签的所述一个或者多个标签作为所述多标签场景的标签；或者，当所述父类标签不包含所述至少一个子类标签中的一个或者多个标签时，将所述至少一个子类标签中的一个或者多个标签作为所述多标签场景的标签。

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述权利要求1-8中任一项所述的多标签场景分类方法。

11.一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述权利要求1-8中任一项所述的多标签场景分类方法。