CN110162644B

CN110162644B - 一种图像集建立方法、装置和存储介质

Info

Publication number: CN110162644B
Application number: CN201811180283.7A
Authority: CN
Inventors: 吴保元; 陈卫东; 刘威; 樊艳波; 张潼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2022-12-20
Anticipated expiration: 2038-10-10
Also published as: US11853352B2; CN110162644A; WO2020073952A1; US20210034919A1

Abstract

本发明实施例公开了一种图像集建立方法、装置和存储介质；本发明实施例获取单标签图像集和多标签图像集；根据语义网络将标签的内容转换成词标识，得到词标识集合、转换后单标签图像集、转换后多标签图像集；根据词标识集合和语义网络构建层次语义结构；根据层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集；基于补充后单标签图像集中词标识、与转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，得到最终补充后图像集；根据最终补充后图像集和转换后多标签图像集建立目标多标签图像集。该方案可以提升大规模多标签图像集的建立效率和标签标注的质量。

Description

一种图像集建立方法、装置和存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种图像集建立方法、装置和存储介质。

背景技术

随着深度学习模型和训练方法的发展，计算机视觉领域也取得了很大的进步，且研究方向从低层的图像处理，图像识别逐渐向更高层的视觉理解转变。复杂的视觉任务需要利用具有更好视觉表示潜力的深度神经网络，而将这种潜力转化为视觉表示能力的重要条件是大规模的图像数据集。

其中，建立大规模图像数据集主要涉及图像来源和图像标注；目前图像来源很简单，可以廉价地从互联网上获取大量的图像，但是图像的标注代价很大，这也是建立大规模图像数据集的主要瓶颈之一。

由于图像标注的代价很大，目前公开的大型图像数据集，如ImageNet等大部分是单标签的图像数据集。但是，实际情况中，大部分图像中表达了多个物体，如果只给出一个单标签，不仅会造成信息的损失，还会造成信息的混淆(比如类似的图像，标注为两个不同的物体类别等)。并且，在单标签图像数据集上训练出来的深度神经网络，其表示能力也会受到相应的影响。因此，在深度学习中更多时候需要的是大规模多标签图像集，多标签图像能尽量避免这样的信息损失和混淆，从而训练出具有更好视觉表示能力的深度神经网络。

目前大规模多标签图像集建立方式还是采用传统人工标注方式，即人工对每张图像标注多个标签；由于人工标注方式比较标注速度比较慢会导致大规模多标签图像集建立的效率较低。

发明内容

本发明实施例提供一种图像集建立方法、装置和存储介质，可以提升大规模多标签图像集建立的效率。

本发明实施例提供一种图像集建立方法，包括：

获取单标签图像集和多标签图像集，所述单标签图像集包括标注了单个标签的图像，所述多标签图像集包括标注了多个标签的图像；

根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集；

根据所述词标识集合和所述语义网络构建层次语义结构；

根据所述层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集；

基于所述补充后单标签图像集中词标识、与所述转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，得到最终补充后图像集；

根据所述最终补充后图像集和转换后多标签图像集建立目标多标签图像集。

本发明实施例还提供一种图像集建立装置，包括：

图像获取单元，用于获取单标签图像集和多标签图像集，所述单标签图像集包括标注了单个标签的图像，所述多标签图像集包括标注了多个标签的图像；

标签转换单元，用于根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集；

语义构建单元，用于根据所述词标识集合和所述语义网络构建层次语义结构；

第一标签补充单元，用于根据所述层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集；

第二标签补充单元，用于基于所述补充后单标签图像集中词标识、与所述转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，得到最终补充后图像集；

建立单元，用于根据所述最终补充后图像集和转换后多标签图像集建立目标多标签图像集。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种图像集建立方法中的步骤。

本发明实施例可以获取单标签图像集和多标签图像集；根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集；根据词标识集合和语义网络构建层次语义结构；根据层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集；基于补充后单标签图像集中词标识、与转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，得到最终补充后图像集；根据最终补充后图像集和转换后多标签图像集建立目标多标签图像集。该方案可以自动将多个不同的图像集融合，并以单标签图像自带的标签为基础、基于标签之间的关系对单标签图像进行标签补充，以建立大规模多标签图像集，无需人工标注，提升了大规模多标签图像集建立的效率和标签标注的质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的图像集建立方法的场景示意图；

图1b是本发明实施例提供的图像集建立方法的流程示意图；

图1c是本发明实施例提供的OpenImage中类别/m/056mk(metropolis)的部分训练图像；

图1d是本发明实施例提供的OpenImage中类别/m/01n32(city)的部分训练图像；

图1e是本发明实施例提供的标签转换、去重示意图；

图1f是本发明实施例提供的层次语义结构的示意图；

图2a是本发明实施例提供的大规模多标签图像集建立的流程示意图；

图2b是本发明实施例提供的基于共现关系补充标签的示意图；

图2c是本发明实施例提供的在ML-Images数据集图片标注统计示意图；

图2d是本发明实施例提供的ML-Images数据集中各类别所对应训练图像的统计示意图；

图3a是本发明实施例提供的图像集建立装置的第一种结构示意图；

图3b是本发明实施例提供的图像集建立装置的第二种结构示意图；

图3c是本发明实施例提供的图像集建立装置的第三种结构示意图；

图3d是本发明实施例提供的图像集建立装置的第四种结构示意图；

图4是本发明实施例提供的网络设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种图像集建立方法、装置和存储介质。

其中，该图像集建立装置具体可以集成在网络设备，如终端或服务器等设备中，例如，参考图1a，网络设备可以获取单标签图像集和多标签图像集，比如，网络设备可以通过图像搜索引擎搜索单标签图像，得到单标签图像集，通过图像搜索引擎搜索多标签图像，得到多标签图像集(单标签图像集包括标注了单个标签的图像，多标签图像集包括标注了多个标签的图像)；然后，根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集；根据词标识集合和语义网络构建层次语义结构；根据层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集；基于补充后单标签图像集中词标识、与转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，得到最终补充后图像集；根据最终补充后图像集和转换后多标签图像集建立目标多标签图像集。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本发明实施例中，将图像集建立装置的角度进行描述，该图像集建立装置具体可以集成在网络设备如终端或服务器等设备中。

在一实施例中，提供了一种图像集建立方法，该方法可以由网络设备的处理器执行，如图1b所示，该图像集建立方法的具体流程可以如下：

101、获取单标签图像集和多标签图像集。

本发明实施例图像集建立的目的可以是建立大规模多标签图像集，其中，大规模多标签图像集包括多张图像，每张图像标注了多个标签。

其中，单标签图像集可以包括至少一张图像，并且每张图像标注了单个标签即一个标签(如一个物体类别)，该图像可以为称为单标签图像；该单标签图像集涵盖多个物体类别。

实际应用中，单标签图像集可以选择目前业内已公开的单标签图像集，比如，可以为：Corel5k图像集(包括4999图像，涵盖260物体类别)，ESP Game图像集(包括20770图像，涵盖268物体类别)，IAPRTC-12图像集(包括19627图像，涵盖291物体类别)，NUSWIDE(包括270K图像，涵盖81物体类别)，MS-COCO图像集(包括330K图像，涵盖80物体类别)，PASCALVOC 2007图像集(包括9963图像，涵盖20物体类别)、ImageNet图像集，ImageNet图像集可以包含14197122张图像，并且涵盖21841个物体类别。

其中，多标签图像集可以包括至少一张标注了多个标签(如多个物体类别)的图像，该图像可以称为多标签图像。多标签图像集可以包括多张多标签图像，并且涵盖多个物体类别。

实际应用中，多标签图像集可以选择目前业内已公开的多标签图像集；比如，可以为Open Images多标签图像集(包括9M图像，涵盖6K物体类别)，或者可以为谷歌内部数据集JFT-300M(包括300M图像，涵盖18921物体类别)。

比如，本发明实施例在构建大规模多标签图像集ML-Images时，可以选择两个较大的公开图像数据集，包括Open Images和ImageNet-11K，如下表所示：

表1

本发明实施例中，单标签和多标签图像集的获取方式可以有多种，比如，可以通过图像搜索引擎等搜索公开的单标签图像组成单标签图像集，搜索公开的多标签图像组成多标签图像集。又比如，可以直接下载或拉取已公开的单标签图像集和多标签图像集，比如Open Images和ImageNet-11K。

本发明实施例中，单标签图像集、多标签图像集的数量可以为一个或者多个，可以根据实际图像集建立需求设定，比如可以获取一个单标签图像集、两个多标签图像集，或者可以获取两个单标签图像集、一个多标签图像集，等等。

本发明实施例中，图像的标签内容可以包括图像所属的类别标识，比如，类别标识可以包括类别编号和/或类别名称，例如，某个单标签图像的标签可以包括类别编号/m/056mk、对应的类别名称metropolis(即都会、大都市)。

102、根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集。

本发明实施例可以将所有标签的转换成词标识，以便后续可以建立个统一的层次语义结构(即一个新的语义词典)，从而后续可以基于该层次语义结构对图像进行标签补充，实现不同图像集的融合。

具体地，可以根据语义网络将所有图像集中的标签内容转换成相应的词标识，比如，将单标签图像集中标签的内容(如类别标识)均转换成词标识，将多标签图像集中标签的内容(如类别标识)转换成词标识。

其中，语义网络为一个语义词典，是按照词的语义组成的网络，它是一个覆盖范围宽广的词汇语义网。名词，动词，形容词和副词各自被组织成一个同义词的网络，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也由各种关系连接。该语义网络可以包括词与词标识之间的映射关系、词标识与类别如类别标识(类别名称、类别编号)之间的映射关系、词标识之间的语义关系(可以由词标识对应的类别自之间的语义关系体现)等等。比如，语义网络可以为WordNet，其中，词标识即为WordID。

本发明实施例中，可以在语义网络中查询标签内容如类别标识对应的词标识，并将标签内容如类别标识替换成该词标识，从而实现词标识转换；比如，当图像的标签内容包括图像所属的类别标识如城市的类别编号/m/01n32时，可以在WordNet查找与类别标识(如城市的类别编号/m/01n32)对应的WordID(如city.n.01)，将类别标识(如城市的类别编号/m/01n32)替换为WordID(如city.n.01)。

其中，词标识如WordID用于在语义网络中唯一标识词，可以由词、词性以及词的意思标识构成，即词标识＝词+词性+词意思标识，词意思标识用于标识词的意思，比如，在给词的多个意思编号情况下，词意思可以为词意思编号，该编号表示当前词的意思为词的第几个意思。

例如，WordID(city.n.01)中city为词、n表示词性为名词、01表示取词city的第一个意思。

本发明实施例中，可以通过WordNet将所有图像集中的标签规范化成统一的WordID。

在一实施例中，为简化标签，提升图像集建立效率，在转换成词标识WordID之后，还可以对相同重复的WordID进行合并去重；也即对对应到同一WordID的标签(如类别)进行去重。

比如，以标签内容为类别为例，由于源图像集即单标签图像集、多标签图像集中可能存在多个类别对应到同一WordID的类别的情况，此时，可以将这些类别合并为同一类别，具体地，在转换WordID之后，可以将相同的WordID合并去重。

例如，OpenImage中类别编号/m/056mk对应的类别名称为metropolis(即都会,大都市)。该类别对应的部分图像如图1c所示。根据WordNet可以确定该类别对应的WordID为city.n.01。同样，参考图1d，对于类别编号/m/01n32(即city)的部分训练图像，根据WordNet可以确定该类别对应的WordID同样为city.n.01。因此，这两个类别为重复/冗余标签，可合并去重。此外，同时，ImageNet中类别n08540903(city)的WordID也为city.n.01,因此，需要将类别n08540903与/m/01n32、/m/01n32合并为同一类别，此时，可以对相同的WordID(如city.n.01。)合并去重，合并去重相同的WordID就是将类别n08540903与/m/01n32、/m/01n32合并为同一类别，简化标签。

具体地，步骤“根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集”，可以包括：

根据语义网络将标签的内容转换成相应的词标识，并对相同的词标识进行合并去重，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集。

其中，标签转换和去重的方式可以有多种，比如，可以先将图像集(单标签图像集和多标签图像集)中所有标签的内容转换成词标识，然后，再对词标识；具体地，步骤“根据语义网络将标签的内容转换成相应的词标识，并对相同的词标识进行合并去重，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集”，可以包括：

根据语义网络将标签的内容转换成相应的词标识，得到初始词标识集合、转换后单标签图像集、以及转换后多标签图像集；

对初始词标识集合中相同的词标识进行合并去重，得到词标识集合。

其中，初始词标识集合可以包括：单标签图像集中标签内容转换成的词标识、多标签图像集中标签内容转换成的词标识。比如，为{id1、id2……idn}。

比如，可以根据WordNet分别将单标签图像集中标签的内容转换成相应的WordID，将多标签图像集中标签的内容转换成相应的WordID，得到WordID集合{id1、id2……idn}、转换后单标签图像集、转换后多标签图像集；然后，将WordID集合{id1、id2……idn}中相同的WordID合并去重。

又比如，在一实施例中，可以一边对标签进行转换，一边去重，也即，在对每个标签内容转换后，进行相同WordID的合并去重。具体地，步骤“根据语义网络将标签的内容转换成相应的词标识，并对相同的词标识进行合并去重，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集”，可以包括：

确定当前需要转换的标签；

根据语义网络将标签的内容转换成相应的词标识，并将词标识添加到当前的词标识集合中；

在当前的词标识集合中存在与词标识相同的成员词标识时，对词标识进行合并去重处理；

返回执行确定当前需要转换的标签的步骤，直到所有标签均转换成词标识为止。

比如，可以确定当前需要转换的标签为标签A；然后，查询WordNet得到标签A对应的WordID如id1，此时，可以将id1添加到当前WordID集合如{id1、id2……idn}中，如果当前WordID集合中存在与id1相同的WordID时，对id1进行合并去除，然后，确定下一个需要转换的标签，如标签B重复执行前述过程，直至所有标签均转换成WordID。

在一实施例中，可以能出现一个标签内容对应多个WordID的情况下，比如，当标签内容为类别如arm时，arm的意思可以为手臂，也可以为武器，或者其他意思，那么通过查询WordNet可以得到多个WordID，如手臂的WordID、武器的WordID……等等。在此情况下，可以从多个WordID中选择唯一的WordID，提升层次语义结构的准确性，进而提升大规模图像集标签的准确性。

具体地，步骤“根据语义网络将标签的内容转换成相应的词标识”，可以包括：

根据语义网络将标签的内容转换成词标识，得到标签对应的多个候选词标识；

根据标签对应的图像从多个候选词标识选择唯一的词标识。

例如，参考图1e，WordID转换过程可以包括：查询WordNet得到标签A对应的WordID为id1、id2……idm(即候选词标识)，此时，可以根据标签A对应的训练图像选择唯一的WordID：id1，然后，将id1添加到当前WordID集合如{id1、id2……idn}中，如果当前WordID集合中存在与id1相同的WordID时，对id1进行合并去除，然后，确定下一个需要转换的标签，如标签B重复执行前述过程，直至所有标签均转换成WordID。

在一实施例中，为了便于形成简洁的层次语义结构，提升图像集建立的效率，可以将多标签图像集中一些罕见的标签去除，如标签包括类别时，可以将多标签图像集中罕见的类别去除，其中，罕见的标签为：多标签图像集中图像数量小于预设数量的标签；对于这类标签可以事先删除。

具体地，在根据语义网络将标签的内容转换成相应的词标识之前，本发明实施例方法还可以包括：

获取多标签图像集中标签对应的图像数量；

当图像数量小于预设数量时，将标签删除。

其中，预设数量可以根据实际需求设定，比如，可以为650等等。例如，将OpenImages中的罕见类别，即训练图像少于650幅的类别标签删除，最终保留了2039个常见类别。

103、根据词标识集合和语义网络构建层次语义结构。

其中，层次语义结构为一个语义词典，可以包括：词标识WordID与类别之间的映射关系(即对应关系)、词标识之间的语义关系(如词标识对应的词之间的语义关系)等等。该层次语义结构可以包括多个树形层次语义结构，每个树形语义结构由节点构成，每个节点代表一个WordID、或者WordID对应的类别(如类别名称)，节点之间的连线代表类别间或WordID间的语义关系。

比如，参考图1f，层次语义结构包括若干树形层次语义结构，每个层次树形语义结构包括多层次的节点，每个节点可以包括WordID对应的类别(如类别名称)；节点之间的路径表示类别之间的语义关系。

本发明实施例，在得到词标识集合，即将所有标签都归并到WordID之后，可以根据词标识在语义网络中的语义关系构建统一的层次语义结构。例如，可以根据WordID在WordNet中的语义关系来构建一个统一的层次语义结构。

例如，在去掉了Open Images中的罕见类别之后，经过上述介绍的方式可以构建出层次语义结构，该层次语义结构可以涵盖了11166种物体。这些类别形成的层次语义结构包括多个树结构。在该结构图中，节点(类别)的平均直接子节点数为57。其中，直接子节点最多的类别是“草本植物”，共300个直接子类。语义路径(从根节点到子节点)的平均深度为7.47，最深的路径为16层。

通过上述步骤对多种图像集的标签进行融合，并形成一个统一的语义标签体系即层次语义结构。

104、根据层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集。

本发明实施例在构建层次语义结构之后，可以基于层次语义结构中词标识之间的语义关系来实现单标签图像的标签补充；具体地，可以获取转换后单标签图像集中单标签图像的词标识，并在层次语义结构中查询与词标识具有语义关系的关联词标识；将关联词标识补充标注为单标签图像的标签，得到补充后单标签图像集。

其中，词标识之间的语义关系可以包括词标识对应的类别之间的语义关系，也即类别之间的语义关系，如city.n.01对应的类别为“城市”，与house.n.01对应的类别“房子”之间的语义关系。

其中，关联词标识可以包括与某个词标识对应的类别具有语义关系的类别所对应的词标识，比如，与某个WordID(city.n.01)对应的类别(城市)具有语义关系的类别(如国家)说对应的WordID(如country.n.01)。

其中，语义关系可以包括：上下层语义关系、从属语义关系、上下位语义关系等等。

比如，可以获取转换后单标签图像集中单标签图像的词标识，并在层次语义结构中查询词标识从属的上层词标识；将上层词标识补充标注为单标签图像的标签。

其中，上层词标识可以包括某个词标识对应的类别语义上从属的上层类别(或上位类别，或者祖先类别)所对应的词标识，例如，某个WordID对应的类别为“哈士奇”，那么其从属的上层类别(或上位类别)可以为“狗”、“哺乳动物”和“动物”，此时，上层WordID即为“狗”、“哺乳动物”和“动物”对应的WordID。

本发明实施例中，在得到层次语义结构之后，可以在层次语义结构内查询与单标签图像集中图像的WordID具有语义关系的关联词标识，然后，将关联词标识标注补充标注为该图像的新标签。

例如，某个单标签图像的WordID对应的类别为“哈士奇”，那么可以从层次语义结构内查询到该类别的祖先类别为例如“狗”，“哺乳动物”和“动物”；此时，可以将“狗”，“哺乳动物”和“动物”对应的WordID都标注为该图像的标签。

通过上述基于语义关系的标签补充方式可以对单标签图像集中单标签图像进行标签补充，得到补充后单标签图像集。此时，补充后单标签图像集中图像可能标注有一个或者多个标签。

105、基于补充后单标签图像集中词标识、与转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，得到最终补充后图像集。

在经过上述基于语义关系补充标签之后，本发明实施例还可以基于共现关系再次对补充后单标签图像集中图像进行标签补充，提升图像标注质量。

其中，共现概率可以为补充后单标签图像集中词标识(或词标识对应的类别)、转换后多标签图像集中词标识(或词标识对应的类别)同时出现在同一张图像中的概率、或者频率。该共现概率用于表征共现关系，概率或频率越大对应的共现关系越强。

为了便于描述，本发明实施例可以将补充后单标签图像集中的词标识称为第一类词标识，将转换后多标签图像集中的词标识称为第二类词标识。此时，概率即为第一类词标识与第二类词表同时出现在一张图像中的概率，比如，同时出现在补充后单标签图像集中一张图像中的概率。

为了提升标签补充的效率和质量，本发明实施例考虑到单标签图像集的标注时，往往会避免出现一幅图像可以标注为两种候选类别(尽管这也可能出现)。因此，对一幅单标签图像的标签补充范围可以不考虑其所在源图像集(即单标签图像集)的其他类别，只需要补充其他源图像集(即多标签图像集)中的候选类别。所以，建立强共现关系时，也只需要考虑分别来自于不同源图像数据集的类别组合；也即只需考虑单标签图像集与多标签图像集的类别之间的共现关系(无需考虑单标签图像集中类别之间的共现关系)；对应到WordID，就是只需计算单标签图像集中WordID(即第一类WordID)与多标签图像集中WordID(即第二类WordID)之间的共现概率。

基于共现概率进行标签补充的方式可以有多种，比如，可以基于共现概率确定与充后单标签图像集中词标识具有强共现关系的词标识，然后，将该词标识补充为补充后单标签图像集中词标识对应图像的标签。也即，步骤“基于补充后单标签图像集中词标识、与转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充”，可以包括：

获取第一类词标识与第二类词标识之间的共现概率，第一类词标识为补充后单标签图像集中的词标识，第二类词标识为述转换后多标签图像中的词标识；

根据共现概率在第二类词标识中确定与第一类词标识具有强共现关系的目标词标识；

将目标词标识补充为补充后单标签图像集中与第一类词标识对应的图像的标签。

比如，在一实施例中，当第一类词标识与第二类词标识之间的共现概率大于预设概率时，可以确定这两类词标识具有强共现关系，此时，可以将第二类词标识补充为第一类词标识对应的图像的标签。

其中，预设概率可以根据实际需求设定，比如，可以为0.5、0.6等等。

在一实施例中，考虑到很多具有强共现关系的类别之间还存在着语义关系，例如“哈士奇”和“狗”。但是，一幅图像标注为“哈士奇”，则“狗”也肯定是其标签；反之，标注为“狗”的图像，不一定能标注为“哈士奇”。为了避免这种不准确的标签补充，也为了避免跟基于语义关系的标签补充的重复，如果两个类别之间具有语义关系，其共现关系将被忽略，不用于对标签的补充，以提升标签补充的准确性和质量。

也即，步骤“根据共现概率在第二类词标识中确定与第一类词标识具有强共现关系的目标词标识”，可以包括：

根据共现概率、第一类词标识与第二类词标识之间的语义关系，在第二类词标识中确定与第一类词标识具有强共现关系的目标词标识。

比如，当第一类词标识(如id1)与第二类词标识(如id2)之间的共现概率大于预设概率，且第一类词标识与第二类词标识之间不存在语义关系时，确定第一类词标识(如id1)与第二类词标识(如id2)之间具有强共现关系，该第二类词标识(如id2)即为与第一类词标识(如id1)具有强共现关系的目标词标识。

在其他情况下，如共现概率小于预设概率、或者第一类词标识与第二类词标识之间存在语义关系的情况下，则确定这两类词标识不具有强共现关系。

因此，强共现关系的定义可以包括：两类词标识之间的共现概率大于预设概率，且不具有语义关系。

其中，本发明实施例可以获取第一类词标识与第二类词标识之间的共现概率，也就是补充后单标签图像集中类别、与转换多标签图像集中类别之间的共现概率(由于词标识与类别对应)。该共现概率为第一类词标识与第二类词标识在补充后单标签图像集中的共现概率，可以通过为补充后单标签图像集中图像确定标签，然后，统计得到。

比如，在一实施例中，为了提升共现概率的准确性，可以基于深度神经网络分类模型来预测补充后图像集中图像的可能类别即可能的词标识，然后，基于预测的词标识确定该图像的补充标签，在确定完各图像的补充标签之后，便可以统计得到共现概率。

具体地，步骤“获取第一类词标识与第二类词标识之间的共现概率”，可以包括：

采用深度神经网络分类模型对补充后单标签图像集中待补充标签图像进行分类，得到待补充标签图像的预测词标识，以及预测词标识的预测概率，其中，深度神经网络分类模型由转换后多标签图像集训练而成；

根据预测词标识的预测概率从预测词标识中确定待补充标签图像的候选补充标签，得到确定标签后图像集；

根据确定标签后图像集获取第一类词标识与第二类词标识之间的共现概率。

其中，深度神经网络分类模型是在转换后多标签图像集如Open Images上训练的，该深度神经网络分类模型的预测词标识(即预测类别)的范围为转换后多标签图像集如Open Images中的词标识(或类别)；也就说模型预测的类别或词标识均为转换后多标签图像集中的类别或词标识。

例如，可以在转换后的Open Images的训练数据集上训练一个深度神经网络分类器(即ResNet-101),然后利用该分类器对ImageNet-11K中的图像进行预测，且预测类别范围为Open Images中的候选类别。

本发明实施例，可以采用深度神经网络分类模型对补充后单标签图像集中每张图像进行分类，得到每张图像的预测词标识(即预测类别)以及预测概率，然后，对于每张图像，根据其预测词标识的预测概率选择相应的预测词标识，确定为该图像的补充标签。这样，对于补充后单标签图像集中的每张图像对应原本自带标签、以及确定的候选补充标签。最后，可以对确定后图像集中标签和图像进行统计，得到两类标签(自带标签、确定的标签)之间的共现概率，由于标签为词标识，也即得到两类词标识之间的共现概率。

在一实施例中，在得到待补充标签图像的预测词标识及其预测概率之后，可以根据预测词标识的预测概率从预测词标识中选择目标预测词标识，比如，选择预测概率大于预设阈值的预测词标识作为目标预测词标识。

例如，采用分类模型对补充后单标签图像集中图像a分类后，可以得到图像a的预测WordID及其对应的预测概率p，如id1(预测概率为p1)、id2(预测概率p2)等等，此时，可以选择预测概率p大于预设阈值如0.95的预测WordID作为图像a的候选补充标签，如p1大于0.95，那么可以选择id1作为图像a的候选补充标签，也即选择id1对应的类别作为图像a的候选类别。

在一实施例中，在得到确定标签后图像集之后，可以在该图像集中统计同时出现第一类词标识和第二类词标识的图像个数即共现图像数量，然后，根据图像个数来计算出共现概率。具体地，步骤“根据确定标签后图像集获取第一类词标识与第二类词标识之间的共现概率”，可以包括：

在确定标签后图像集中统计同时出现第一类词标识、和第二类词标识的图像个数，以及出现第一类词标识的图像总个数；

根据图像个数、和图像总个数，获取第一类词标识与第二类词标识之间的共现概率。比如，可以将图像个数除以图像总个数，得到的比例即为共现概率。

其中，图像个数为图像集中同时出现第一类词标识和第二类词标识的图像的个数，也即图像标签同时包括第一类词标识和第二类词标识的图像个数。

例如，可以在得到却标签后图像集之后，可以通过统计同时出现第一类词标识和第二类词标识的图像个数，构建一个共现关系矩阵，其中，共现关系矩阵包括同时出现第一类词标识、第二类词标识的图像数量；比如，共现关系矩阵的第一列内容可以为补充后单标签图像集中的第一类词标识(或者第一类词标识对应的类别如类别编号、名字等)、共现关系的第一行内容可以为转换后多标签图像集中的第二类词(第二类词标识对应的类别如类别编号、名字等)。

例如，以类别表示词标识为例，参考下表，在确定后候选补充标签之后，可以得到一个共现关系矩阵，大小为11K行和2039列，分别对应ImageNet-11K和Open Images的类别数。如下表所示，第一列中的内容表示ImageNet-11K中类别的编号及其名字，而第一行中的内容表示Open Images中类别的编号及其名字。表格中第(i，j)元素即矩阵元素中的数字表示ImageNet-11K中第i类的所有训练图像被预标注为Open Images中第j类的个数，也即同时ImageNet-11K中出现ImageNet-11K的第i类与Open Images的第j类的图像个数。

表2

然后，可以对表格进行归一化，得到共现概率分布矩阵，具体地，将第(i，j)元素除以ImageNet-11K中第i类的所有训练图像的个数，得到一个介于0和1之间的概率，表示ImageNet-11K中第i类的图像被标注为Open Images中第j类的概率；该概率即为ImageNet-11K中第i类与Open Images中第j类之间的共现概率或频率，也即ImageNet-11K中第i类的WordID与Open Images中第j类的WordID之间的共现概率或频率。

在归一化之后，便可以根据ImageNet-11K中类别与Open Images中类别之间的共现概率和语义关系确定强二者是否是强共现关系，若是，则将具有强共现关系的OpenImages中类别补充标注为ImageNet-11K中类别对应图像的标签。例如，概率大于0.5，且i,j类别之间不存在语义关系，则我们将这两类定义为强共现关系。进一步地，将与第i类别具有强共现关系的类别都补充为所有第i类训练图像的标签。

106、根据最终补充后图像集和转换后多标签图像集建立目标多标签图像集。

通过上述步骤可以对单标签图像集中图像进行多次标签补充，从而得到最终补充后图像集；然后，可以根据最终补充后图像集和转换后多标签图像集建立目标多标签图像集，该目标多标签图像可以为大规模多标签图像集。

比如，可以将最终补充后图像集和转换后多标签图像集融合，形成一个大规模的多标签图像集。

例如，通过上述步骤可以对单标签图像集ImageNet进行WordID转换，基于语义关系补充标签、基于共现关系补充标签，得到补充后ImageNet；可以对多标签图像集OpenImages进行WordID转换得到转换后的Open Images；然后，将补充后ImageNet与转换后的Open Images进行融合，便可以到所需的大规模多标签图像集ML-Images。

由上可知，本发明实施例获取单标签图像集和多标签图像集；根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集；根据词标识集合和语义网络构建层次语义结构；根据层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集；基于补充后单标签图像集中词标识、与转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，得到最终补充后图像集；根据最终补充后图像集和转换后多标签图像集建立目标多标签图像集。该方案可以自动将多个不同的图像集融合，并以单标签图像自带的标签为基础、基于标签之间的关系对单标签图像进行标签补充，以建立大规模多标签图像集，无需人工标注，提升了大规模多标签图像集建立的效率和标签标注的质量。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该图像集建立装置具体集成在网络设备中为例进行说明。

网络设备的建立大规模多标签图像集的流程，如图2a所示，如下：

201、网络设备获取单标签图像集和多标签图像集。

其中，单标签图像集可以包括至少一张图像，并且每张图像标注了单个标签即一个标签(如一个物体类别)，该图像可以为称为单标签图像；该单标签图像集涵盖多个物体类别。比如，单标签图像集可以为ImageNet图像集，ImageNet图像集可以包含14197122张图像，并且涵盖21841个物体类别

其中，多标签图像集可以包括至少一张标注了多个标签(如多个物体类别)的图像，该图像可以称为多标签图像。多标签图像集可以包括多张多标签图像，并且涵盖多个物体类别。比如，多标签图像集可以为Open Images多标签图像集(包括9M图像，涵盖6K物体类别)。

本发明实施例中，图像的标签内容可以包括图像所属的类别，比如，包括类别编号和/或类别名称，例如，某个单标签图像的标签可以包括类别编号/m/056mk、对应的类别名称metropolis(即都会、大都市)。

202、网络设备根据语义网络将标签的内容转换成相应的词标识，并对相同的词标识进行合并去重，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集。

比如，网络设备可以根据语义网络将所有图像集(如ImageNet图像集、OpenImages图像集)中标签的内容(如类别)转换成词标识。例如，网络设备可以根据WordNet语义网络，将所有数据源中的标签，规范化成统一的WordID。

其中，语义网络为一个语义词典，是按照词的语义组成的网络，它是一个覆盖范围宽广的词汇语义网。名词，动词，形容词和副词各自被组织成一个同义词的网络，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也由各种关系连接。该语义网络可以包括词与词标识之间的映射关系、词标识与类别如类别标识(类别名称、类别编号)之间的映射关系、词标识之间的语义关系(可以由词标识对应的类别之间的语义关系体现)等等。比如，语义网络可以为WordNet，其中，词标识即为WordID。

本发明实施例为看简化标签，提升图像集建立效率，在转换成词标识WordID之后，还可以对相同重复的WordID进行合并去重；也即对对应到同一WordID的标签(如类别)进行去重。

比如，在一实施例中，网络设备可以根据语义网络将标签的内容转换成相应的词标识，得到初始词标识集合、转换后单标签图像集、以及转换后多标签图像集；然后，对初始词标识集合中相同的词标识进行合并去重，得到词标识集合。

又比如，在一实施例中，网络设备可以一边对标签进行转换，一边去重，也即，在对每个标签内容转换后，进行相同WordID的合并去重。具体地，确定当前需要转换的标签；根据语义网络将标签的内容转换成相应的词标识，并将词标识添加到当前的词标识集合中；在当前的词标识集合中存在与词标识相同的成员词标识时，对词标识进行合并去重处理；返回执行确定当前需要转换的标签的步骤，直到所有标签均转换成词标识为止。

203、网络设备根据词标识集合和语义网络构建层次语义结构。

网络设备在得到词标识集合，即将所有标签都归并到WordID之后，可以根据词标识在语义网络中的语义关系构建统一的层次语义结构。例如，可以根据WordID在WordNet中的语义关系来构建一个统一的层次语义结构。

204、网络设备根据层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集。

比如，可以根据层次语义结构中词标识之间的语义关系，对转换WordID后的ImageNet-11K中图像进行标签补充。

具体地，网络设备可以获取转换后单标签图像集中单标签图像的词标识，并在层次语义结构中查询与词标识具有语义关系的关联词标识；将关联词标识补充标注为单标签图像的标签，得到补充后单标签图像集

例如，某个单标签图像的WordID对应的类别为“哈士奇”，那么网络设备可以从层次语义结构内查询到该类别的祖先类别为例如“狗”，“哺乳动物”和“动物”；此时，可以将“狗”，“哺乳动物”和“动物”对应的WordID都标注为该图像的标签。

205、网络设备采用深度神经网络分类模型对补充后单标签图像集中待补充标签图像进行分类，得到待补充标签图像的预测词标识，以及预测词标识的预测概率。

其中，深度神经网络分类模型由转换后多标签图像集训练而成。具体地，深度神经网络分类模型是在转换后多标签图像集如Open Images上训练的，该深度神经网络分类模型的预测词标识(即预测类别)的范围为转换后多标签图像集如Open Images中的词标识(或类别)；也就说模型预测的类别或词标识均为转换后多标签图像集中的类别或词标识。

例如，参考图2b，网络设备可以在转换后的Open Images的训练数据集上训练一个深度神经网络分类器(即ResNet-101),然后利用该分类器对经过语义关系补充标签后的ImageNet-11K中图像进行类别预测，且预测类别范围为Open Images中的候选类别。

206、网络设备根据预测词标识的预测概率从预测词标识中确定待补充标签图像的候选补充标签，得到确定标签后图像集。

比如，网络设备可以根据预测概率从待补充标签图像的预测词标识选择相应的目标预测词标识，然后，将该目标预测词表确定为待补充标签图像的候选补充标签。例如，可以预测概率大于预设阈值(如0.95)的预测词标识作为目标预测词标识。

网络设备可以采用深度神经网络分类模型对补充后单标签图像集中每张图像进行分类，得到每张图像的预测词标识(即预测类别)以及预测概率，然后，对于每张图像，根据其预测词标识的预测概率选择相应的预测词标识，确定为该图像的补充标签，最终得到确定标签后图像集。这样，对于补充后单标签图像集中的每张图像对应原本自带标签、以及确定的候选补充标签。

207、网络设备根据确定标签后图像集获取第一类词标识与第二类词标识之间的共现概率。

在一实施例中，网络设备在确定标签后图像集中统计同时出现第一类词标识、和第二类词标识的图像个数，以及出现第一类词标识的图像总个数；根据图像个数、和图像总个数，获取第一类词标识与第二类词标识之间的共现概率。

例如，以类别表示词标识为例，参考表2，在确定后候选补充标签之后，可以得到一个标签共现关系矩阵，大小为11K行和2039列，分别对应ImageNet-11K和Open Images的类别数。如下表所示，第一列中的内容表示ImageNet-11K中类别的编号及其名字，而第一行中的内容表示Open Images中类别的编号及其名字。表格中第(i，j)元素即矩阵元素中的数字表示ImageNet-11K中第i类的所有训练图像被预标注为Open Images中第j类的个数，也即同时ImageNet-11K中出现ImageNet-11K的第i类与Open Images的第j类的图像个数。

208、网络设备根据第一类词标识与第二类词标识之间的共现概率和语义关系，在第二类词标识中确定与第一类词标识具有强共现关系的目标词标识。

考虑到很多具有强共现关系的类别之间还存在着语义关系，例如“哈士奇”和“狗”。但是，一幅图像标注为“哈士奇”，则“狗”也肯定是其标签；反之，标注为“狗”的图像，不一定能标注为“哈士奇”。为了避免这种不准确的标签补充，也为了避免跟基于语义关系的标签补充的重复，如果两个类别之间具有语义关系，其共现关系将被忽略，不用于对标签的补充，以提升标签补充的准确性和质量。

具体地，当共现概率大于预设概率，且第一类词标识与第二类词标识之间不存在语义关系时，确定与第一类词标识与第二类词标识具有强共现关系。在其他情况下，如共现概率小于预设概率、或者第一类词标识与第二类词标识之间存在语义关系的情况下，则确定这两类词标识不具有强共现关系。

209、网络设备将目标词标识补充为补充后单标签图像集中与第一类词标识对应的图像的标签，得到最终补充后图像集。

参考表2，在表格归一化之后，便可以根据ImageNet-11K中类别与Open Images中类别之间的共现概率和语义关系确定强二者是否是强共现关系，若是，则将具有强共现关系的Open Images中类别补充标注为ImageNet-11K中类别对应图像的标签。例如，概率大于0.5，且i,j类别之间不存在语义关系，则我们将这两类定义为强共现关系。进一步地，将与第i类别具有强共现关系的类别都补充为所有第i类训练图像的标签。

210、网络设备对最终补充图像集和转换后多标签图像集进行融合，得到大规模多标签图像集。

其中，经过实际测试，ML-Images数据集共包含11166种物体类别，18019881幅图片。其中可以用来训练(类别对应训练数据>100张)共10505个类别,18018621幅图片。

如图2c所示，ML-Images数据集中大部分图像的标签数量在6到12之间，平均标签个数为9。有些图片的标签大于50个，主要是因为，其本身有较多的标签，在使用语义拓扑结构补充标签后，标签数目会显著增加。

如图2d所示为ML-Images数据集中各类别所对应的训练图像的统计图；从上图中可以看到，数据集中50％的类别集中在1000幅图片左右；20％的类别在4000幅以上；训练图片最多的类别包含约1700万图像，少量类别的样本数为0。各类别平均训练样本数约1500。

由上可知，本发明实施例可以自动将多个不同的图像集融合，并以单标签图像自带的标签为基础、基于标签之间的关系对单标签图像进行标签补充，以建立大规模多标签图像集，无需人工标注，提升了大规模多标签图像集建立的效率和标签标注的质量。

本发明实施例提出了基于多源图像数据集融合的大规模多标签图像数据集构建方法，并利用该方法可以构建当前业内最大规模的公开多标签图像数据集。该数据集为训练大规模的深度神经网络提供了原料，可以服务于各个视觉相关的业务。比如，可以应用在文章推送场景中的图像质量评价与推荐，游戏内物体识别等等。

为了更好地实施以上方法，本发明实施例还提供一种图像集建立装置，该图像集建立装置具体可以集成在网络设备如终端或服务器等设备中，该终端可以包括手机、平板电脑、笔记本电脑或PC等设备。

例如，如图3a所示，该图像集建立装置可以包括图像获取单元301、标签转换单元302、语义构建单元303、第一标签补充单元304、第二标签补充单元305以及建立单元306，如下：

图像获取单元301，用于获取单标签图像集和多标签图像集，所述单标签图像集包括标注了单个标签的图像，所述多标签图像集包括标注了多个标签的图像；

标签转换单元302，用于根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集；

语义构建单元303，用于根据所述词标识集合和所述语义网络构建层次语义结构；

第一标签补充单元304，用于根据所述层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集；

第二标签补充单元305，用于基于所述补充后单标签图像集中词标识、与所述转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，得到最终补充后图像集；

建立单元306，用于根据所述最终补充后图像集和转换后多标签图像集建立目标多标签图像集。

在一实施例中，参考图3b，所述第一标签补充单元304，可以包括：

查询子单元3041，用于获取转换后单标签图像集中单标签图像的词标识，并在所述层次语义结构中查询与所述词标识具有语义关系的关联词标识；

第一补充子单元3042，用于将关联词标识补充标注为所述单标签图像的标签，得到补充后单标签图像集。

在一实施例中，标签转换单元302，可以具体用于：根据语义网络将标签的内容转换成相应的词标识，并对相同的词标识进行合并去重，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集。

在一实施例中，标签转换单元302，可以具体用于根据语义网络将标签的内容转换成词标识，得到所述标签对应的多个候选词标识；根据所述标签对应的图像从多个候选词标识选择唯一的词标识；并对相同的词标识进行合并去重，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集。

在一实施例中，参考图3c，本发明实施例的图像集建立装置还可以包括：标签删除单元307；

所述标签删除单元307，可以具体用于在标签转换单元302根据语义网络将标签的内容转换成相应的词标识之前，获取所述多标签图像集中标签对应的图像数量；当所述图像数量小于预设数量时，将所述标签删除。

在一实施例中，参考图3d，所述第二标签补充单元305，可以包括：

概率获取子单元3051，用于获取第一类词标识与第二类词标识之间的共现概率，所述第一类词标识为所述补充后单标签图像集中的词标识，所述第二类词标识为述转换后多标签图像中的词标识；

确定子单元3052，用于根据所述共现概率在第二类词标识中确定与所述第一类词标识具有强共现关系的目标词标识；

第二补充子单元3053，用于将所述目标词标识补充为所述补充后单标签图像集中与第一类词标识对应的图像的标签。

在一实施例中，概率获取子单元3051，可以用于：

采用深度神经网络分类模型对所述补充后单标签图像集中待补充标签图像进行分类，得到所述待补充标签图像的预测词标识，以及预测词标识的预测概率，其中，所述深度神经网络分类模型由所述转换后多标签图像集训练而成；

根据预测词标识的预测概率从预测词标识中确定所述待补充标签图像的候选补充标签，得到确定标签后图像集；

根据所述确定标签后图像集获取第一类词标识与第二类词标识之间的共现概率。

在一实施例中，概率获取子单元3051，可以用于：

在确定标签后图像集中统计同时出现第一类词标识、和第二类词标识的图像个数，以及出现所述第一类词标识的图像总个数；

根据所述图像个数、和所述图像总个数，获取第一类词标识与第二类词标识之间的共现概率。

在一实施例中，所述确定子单元3052，可以用于：根据所述共现概率、第一类词标识与第二类词标识之间的语义关系，在第二类词标识中确定与所述第一类词标识具有强共现关系的目标词标识。具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的图像集建立别装置通过图像获取单元301获取单标签图像集和多标签图像集；由标签转换单元302根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集；由语义构建单元303根据所述词标识集合和所述语义网络构建层次语义结构；由第一标签补充单元304根据所述层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集；由第二标签补充单元305基于所述补充后单标签图像集中词标识、与所述转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，得到最终补充后图像集；由建立单元306根据所述最终补充后图像集和转换后多标签图像集建立目标多标签图像集。该方案可以自动将多个不同的图像集融合，并以单标签图像自带的标签为基础、基于标签之间的关系对单标签图像进行标签补充，以建立大规模多标签图像集，无需人工标注，提升了大规模多标签图像集建立的效率和标签标注的质量

本发明实施例还提供一种网络设备，该网络设备可以为服务器或终端等设备。如图4所示，其示出了本发明实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

网络设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取单标签图像集和多标签图像集，所述单标签图像集包括标注了单个标签的图像，所述多标签图像集包括标注了多个标签的图像；根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集；根据所述词标识集合和所述语义网络构建层次语义结构；根据所述层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集；基于所述补充后单标签图像集中词标识、与所述转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，得到最终补充后图像集；根据所述最终补充后图像集和转换后多标签图像集建立目标多标签图像集。

例如，具体可以获取转换后单标签图像集中单标签图像的词标识，并在所述层次语义结构中查询与所述词标识具有语义关系的关联词标识；将关联词标识补充标注为所述单标签图像的标签，得到补充后单标签图像集。

又例如，获取第一类词标识与第二类词标识之间的共现概率，所述第一类词标识为所述补充后单标签图像集中的词标识，所述第二类词标识为述转换后多标签图像中的词标识；根据所述共现概率在第二类词标识中确定与所述第一类词标识具有强共现关系的目标词标识；将所述目标词标识补充为所述补充后单标签图像集中与第一类词标识对应的图像的标签。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的网络设备可以获取单标签图像集和多标签图像集；根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集；根据所述词标识集合和所述语义网络构建层次语义结构；根据所述层次语义结构中词标识之间的语义关系对转换后单标签图像集中图像进行标签补充，得到补充后单标签图像集；基于所述补充后单标签图像集中词标识、与所述转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，得到最终补充后图像集；根据所述最终补充后图像集和转换后多标签图像集建立目标多标签图像集。该方案可以自动将多个不同的图像集融合，并以单标签图像自带的标签为基础、基于标签之间的关系对单标签图像进行标签补充，以建立大规模多标签图像集，无需人工标注，提升了大规模多标签图像集建立的效率和标签标注的质量。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种图像集建立方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种图像集建立方法中的步骤，因此，可以实现本发明实施例所提供的任一种图像集建立方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种图像集建立方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像集建立方法，其特征在于，包括：

根据所述词标识集合和所述语义网络构建层次语义结构；

获取转换后单标签图像集中单标签图像的词标识，并在所述层次语义结构中查询与所述词标识具有语义关系的关联词标识；

将关联词标识补充标注为所述单标签图像的标签，得到补充后单标签图像集；

2.如权利要求1所述的图像集建立方法，其特征在于，根据语义网络将标签的内容转换成相应的词标识，得到词标识集合、转换后单标签图像集、以及转换后多标签图像集，包括：

3.如权利要求2所述的图像集建立方法，其特征在于，根据语义网络将标签的内容转换成相应的词标识，包括：

根据语义网络将标签的内容转换成词标识，得到所述标签对应的多个候选词标识；

根据所述标签对应的图像从多个候选词标识选择唯一的词标识。

4.如权利要求1所述的图像集建立方法，其特征在于，在根据语义网络将标签的内容转换成相应的词标识之前，所述方法还包括：

获取所述多标签图像集中标签对应的图像数量；

当所述图像数量小于预设数量时，将所述标签删除。

5.如权利要求1所述的图像集建立方法，其特征在于，基于所述补充后单标签图像集中词标识、与所述转换后多标签图像集中词标识之间的共现概率，对补充后单标签图像中图像进行标签补充，包括：

获取第一类词标识与第二类词标识之间的共现概率，所述第一类词标识为所述补充后单标签图像集中的词标识，所述第二类词标识为述转换后多标签图像中的词标识；

根据所述共现概率在第二类词标识中确定与所述第一类词标识具有强共现关系的目标词标识；

将所述目标词标识补充为所述补充后单标签图像集中与第一类词标识对应的图像的标签。

6.如权利要求5所述的图像集建立方法，其特征在于，获取第一类词标识与第二类词标识之间的共现概率，包括：

7.如权利要求6所述的图像集建立方法，其特征在于，根据所述确定标签后图像集获取第一类词标识与第二类词标识之间的共现概率，包括：

8.如权利要求5所述的图像集建立方法，其特征在于，根据所述共现概率在第二类词标识中确定与所述第一类词标识具有强共现关系的目标词标识，包括：

根据所述共现概率、第一类词标识与第二类词标识之间的语义关系，在第二类词标识中确定与所述第一类词标识具有强共现关系的目标词标识。

9.一种图像集建立装置，其特征在于，包括：

第一标签补充单元，用于获取转换后单标签图像集中单标签图像的词标识，并在所述层次语义结构中查询与所述词标识具有语义关系的关联词标识；以及将关联词标识补充标注为所述单标签图像的标签，得到补充后单标签图像集；

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8任一项所述的图像集建立方法中的步骤。