CN111582409A

CN111582409A - 图像标签分类网络的训练方法、图像标签分类方法及设备

Info

Publication number: CN111582409A
Application number: CN202010603987.1A
Authority: CN
Inventors: 朱旭东; 孙众毅; 任玉强; 潘兴甲; 袁豪磊; 郭晓威; 黄小明; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-08-25
Anticipated expiration: 2040-06-29
Also published as: CN111582409B

Abstract

本申请公开了一种图像标签分类网络的训练方法、图像标签分类方法及设备，涉及人工智能领域，该方法包括：获取样本图像；通过特征提取网络对样本图像进行特征提取，得到特征提取网络输出的样本特征图；将样本特征图输入图网络分类器，得到图网络分类器输出的样本标签分类结果，图网络分类器基于目标图网络构建得到，目标图网络中的图节点对应图像标签，且不同图节点之间的边用于表征不同图像标签之间的共现概率；根据样本标签分类结果与样本图像标签之间的误差，训练特征提取网络和图网络分类器。本申请实施例中，利用图网络分类器对进行标签分类时，能够融入不同图像标签之间的关联性，有助于提高图像标签分类的效率和准确性。

Description

图像标签分类网络的训练方法、图像标签分类方法及设备

技术领域

本申请实施例涉及人工智能领域，特别涉及一种图像标签分类网络的训练方法、图像标签分类方法及设备。

背景技术

多标签分类(Multi-Label Classification)是一种识别图像中的多个物体并设置相应标签的技术，其作为人工智能中计算机视觉领域的基础技术，被广泛应用与目标检测和语义分割等场景。

相关技术中，多标签分类过程中通常采用卷积神经网络(Convolutional NeuralNetworks，CNN)对图像进行特征提取，然后使用分类器对提取到的图像特征进行分类，得到各个候选图像标签对应的概率，从而根据该概率从候选图像标签中确定出目标图像标签。

采用上述方法进行多标签分类时，将图像中的多个物体视作独立个体进行单独识别分类，分类效率较低且分类准确度较差。

发明内容

本申请实施例提供了一种图像标签分类网络的训练方法、图像标签分类方法及设备，可以提高图像标签分类的效率和准确性。所述技术方案如下：

一方面，本申请实施例提供了一种图像标签分类网络的训练方法，所述方法包括：

获取样本图像，所述样本图像包含对应的样本图像标签；

通过特征提取网络对所述样本图像进行特征提取，得到所述特征提取网络输出的样本特征图；

将所述样本特征图输入图网络分类器，得到所述图网络分类器输出的样本标签分类结果，所述图网络分类器基于目标图网络构建得到，所述目标图网络中的图节点对应图像标签，且不同图节点之间的边用于表征不同图像标签之间的共现概率；

根据所述样本标签分类结果与所述样本图像标签之间的误差，训练所述特征提取网络和所述图网络分类器。

另一方面，本申请实施例提供了一种图像标签分类方法，所述方法包括：

获取目标图像；

通过特征提取网络对所述目标图像进行特征提取，得到所述特征提取网络输出的目标特征图；

将所述目标特征图输入图网络分类器，得到所述图网络分类器输出的标签分类结果，所述图网络分类器基于图网络构建得到，所述图网络中的图节点对应图像标签，且不同图节点之间的边用于表征不同图像标签之间的共现概率；

根据所述标签分类结果为所述目标图像设置至少一个图像标签。

另一方面，本申请实施例提供了一种图像标签分类网络的训练装置，所述装置包括：

第一获取模块，用于获取样本图像，所述样本图像包含对应的样本图像标签；

第一特征提取模块，用于通过特征提取网络对所述样本图像进行特征提取，得到所述特征提取网络输出的样本特征图；

第一分类模块，用于将所述样本特征图输入图网络分类器，得到所述图网络分类器输出的样本标签分类结果，所述图网络分类器基于目标图网络构建得到，所述目标图网络中的图节点对应图像标签，且不同图节点之间的边用于表征不同图像标签之间的共现概率；

网络训练模块，用于根据所述样本标签分类结果与所述样本图像标签之间的误差，训练所述特征提取网络和所述图网络分类器。

另一方面，本申请实施例提供了一种图像标签分类装置，所述装置包括：

第二获取模块，用于获取目标图像；

第二特征提取模块，用于通过特征提取网络对所述目标图像进行特征提取，得到所述特征提取网络输出的目标特征图；

第二分类模块，用于将所述目标特征图输入图网络分类器，得到所述图网络分类器输出的标签分类结果，所述图网络分类器基于图网络构建得到，所述图网络中的图节点对应图像标签，且不同图节点之间的边用于表征不同图像标签之间的共现概率；

设置模块，用于根据所述标签分类结果为所述目标图像设置至少一个图像标签。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的图像标签分类网络的训练方法，或，实现如上述方面所述的图像标签分类方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的图像标签分类网络的训练方法，或，实现如上述方面所述的图像标签分类方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的图像标签分类网络的训练方法，或，执行上述方面提供的图像标签分类方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

本申请实施例中，通过预训练特征提取网络和图网络分类器，采用特征提取网络和图网络分类器的组合进行图像标签分类，由特征提取网络进行特征提取，并由图网络分类器对特征提取网络提取到的特征图进行分类，得到图像标签分类结果；由于图网络分类器基于图网络构建得到，且该图网络结构能够反映出不同图像标签之间的共现概率，因此利用图网络分类器对进行标签分类时，能够融入不同图像标签之间的关联性，有助于提高图像标签分类的效率和准确性(尤其是在进行多标签分类时)。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的图像标签分类网络的训练方法以及图像标签分类方法的实施示意图；

图2示出了本申请一个示例性实施例提供的实施环境的示意图；

图3示出了本申请一个示例性实施例提供的图像标签分类网络的训练方法的流程图；

图4示出了本申请一个示例性实施例提供的图网络分类器训练过程的流程图；

图5是本申请一个示例性实施例提供的目标图网络生成过程的实施示意图；

图6是本申请一个示例性实施例提供的图网络分类器构建过程的实施示意图；

图7示出了本申请另一个示例性实施例提供的图像标签分类网络的训练方法的流程图；

图8是一个示例性实施例提供的网络训练过程的实施示意图；

图9示出了本申请一个示例性实施例提供的图像标签分类方法的流程图；

图10是本申请一个示例性实施例提供的图像标签分类网络的训练装置的结构框图；

图11是本申请一个示例性实施例提供的图像标签分类装置的结构框图；

图12示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

计算机视觉技术(Computer Vision,CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的图像标签分类网络的训练方法以及图像标签分类方法，即计算机视觉技术在图像识别领域的一种应用。采用本申请实施例提供的方法，如图1所示，在训练阶段，计算机设备首先基于图像标签之间的共现情况，构建出表征图像标签(对应图节点)之间共现概率的图网络101，并基于图网络101构建用于进行图像标签分类的图网络分类器102。进一步的，计算机设备通过特征提取网络104，对样本图像集中的样本图像103进行特征提取，得到样本特征图105，并将样本特征图105输入图网络分类器102中，由图网络分类器102进行特征分类并输出样本标签分类结果106。根据样本标签分类结果106与样本图像103对应样本图像标签107之间的误差，计算机设备对图网络分类器102和特征提取网络104进行联合训练，直至满足收敛条件时停止训练。

在应用阶段，计算机设备将待设置图像标签的目标图像108输入特征提取网络104，由特征提取网络104进行特征提取，并将特征提取得到的目标特征图109输入图网络分类器102中。图网络分类器102对目标特征图109进行特征分类后输出样本分类结果110，计算机设备即根据样本分类结果110为目标图像108设置至少一个图像标签。

本申请实施例中，通过联合训练特征提取网络以及图网络分类器，并采用“特征提取网络+图网络分类器”的组合进行标签分类时(尤其是在进行多标签分类时)，由于特征提取网络能够从图像层面提取图像信息，而图网络分类器除了能够基于图像信息从图像层面进行标签分类外，还能够融入图像标签之间的关联性(即标签之间的共现情况)，即进行标签分类时能够融合多方面信息，因此相较于单纯从图像层面进行标签分类的效率以及准确性更高。

本申请施例提供的图像标签分类网络的训练方法(对运算能力要求较高)可以应用于个人计算机、工作站或服务器等计算机设备中，而本申请施例提供的图像标签分类方法(相对于训练过程，对运算能力要求较低)可以应用于终端、个人计算机或服务器等计算机设备中。在一种可能的实施方式中，本申请实施例提供的图像标签分类网络的训练方法应用于服务器，图像标签分类方法可以实现成为应用程序或应用程序的一部分，使安装有应用程序的终端具备为图像设备标签的能力；或者，可以应用于应用程序的后台服务器中，从而由服务器为终端中的应用程序提供标签分类功能。

请参考图2，其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端210和服务器220，其中，终端210与服务器220之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端210中安装有具有图像标签分类需求的应用程序，该应用程序可以是相册应用程序、社交类应用程序、视频播放应用程序、视频监控应用程序等等，本申请实施例对此不作限定。

可选的，终端210可以是平板电脑、膝上便携式笔记本电脑等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对此不做限定。

服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。在一种可能的实施方式中，服务器220是终端210中应用程序的后台服务器。

如图2所示，本申请实施例中，在网络训练阶段，服务器220利用样本图像集中的样本图像，对特征提取网络221和图网络分类器222进行联合训练。在网络应用阶段，终端210通过应用程序向服务器220发送待分类的目标图像，由服务器220中的特征提取网络221对目标图像进行特征提取，并利用图网络分类器222对提取到的特征图进行分类，从而根据分类结果确定出目标图像的图像标签223，并将图像标签223反馈至终端210，以便终端210对分类结果进行展示。

在其他可能的实施方式中，特征提取网络221和图网络分类器222也可以实现成为应用程序的部分或全部，相应的，终端210可以在本地进行图像标签分类，而无需借助服务器220，本实施例对此不作限定。

为了方便表述，下述各个实施例以图像标签分类网络的训练方法和图像标签分类方法由计算机设备执行为例进行说明。

请参考图3，其示出了本申请一个示例性实施例提供的图像标签分类网络的训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤301，获取样本图像，样本图像包含对应的样本图像标签。

在一种可能的实施方式中，计算机设备从样本图像集中获取样本图像，该样本图像集中的各张样本图像均包含至少一个样本图像标签，该样本图像标签即用于指示样本图像中包含的图像内容。其中，不同样本图像对应的样本图像标签的数量可能相同，也可能不同。

在一个示例性的例子中，计算机设备使用公开的PASCAL VOC2007数据集以及MSCOCO数据集作为样本图像集。

步骤302，通过特征提取网络对样本图像进行特征提取，得到特征提取网络输出的样本特征图。

其中，特征提取网络是用于从图像特征层面进行图像信息提取的神经网络，可选的，特征提取网络可以是卷积神经网络(Convolutional Neural Networks，CNN)。本申请实施例并不对特征提取网络的具体网络类型和结构进行限定。

在一种可能的实施方式中，该样本特征图可以是特征提取网络输出的最终特征图，或者，该样本特征图可以是特征提取网络输出的中间特征图。

步骤303，将样本特征图输入图网络分类器，得到图网络分类器输出的样本标签分类结果，图网络分类器基于目标图网络构建得到，目标图网络中的图节点对应图像标签，且不同图节点之间的边用于表征不同图像标签之间的共现概率。

计算机设备预先构建有目标图网络，该目标图网络中的图节点对应图像标签分类任务的图像标签。比如，当图像标签分类任务包括1000个图像标签时(即图像标签分类任务能够识别1000种图像内容)，目标图网络中图节点的数量为1000(或大于1000)。在一些实施例中，图网络分类器中图节点的特征采用向量特征或矩阵特征表示。

可选的，目标图网络中的图节点根据样本图像集中样本图像对应的样本图像标签确定。

在一些实施例中，该目标图网络为有向图网络，即图节点之间的边为有向边，而该有向边即用于表征图节点对应图像标签的共现概率。其中，不同图像标签之间的共现概率越高，当图像对应其中一个图像标签时，该图像对应另一图像标签的概率越高。

可选的，该共现概率基于样本图像集中样本图像对应样本图像标签的统计数据确定得到。

在一种可能的实施方式中，计算机设备通过将目标图网络中各个图节点的输出设计为与图像标签相关的分类器，得到目标图网络对应的图网络分类器。相应的，将样本特征图输入图网络分类器后，图网络分类器输出的样本标签分类结果即包括各个图像标签对应的概率。

比如，当目标图网络包含1000个图节点时，图网络分类器输出的样本标签分类结果即包含1000种图像标签各自对应的概率。

步骤304，根据样本标签分类结果与样本图像标签之间的误差，训练特征提取网络和图网络分类器。

进一步的，为了衡量图像标签分类网络(即由特征提取网络和图网络分类器构成)的标签分类效果，计算机设备计算样本标签分类结果与样本图像标签之间的误差，从而根据该误差对图像标签分类网络进行训练。

在一种可能的实施方式中，样本标签分类结果与样本图像标签之间的误差可以表示为：1-样本标签分类结果中样本图像标签对应的概率。

针对基于误差训练图像标签分类网络的过程，在一种可能的实施方式中，计算机设备采用随机梯度下降算法(Stochastic Gradient Descent，SDG)，更新特征提取网络以及图网络分类器的参数。迭代更新过程中，若误差满足收敛条件，计算机设备则停止网络训练。

在一些实施例中，完成网络训练后，计算机设备对训练得到的特征提取网络和图网络分类器进行编译，得到硬件能够识别的二进制程序(即预编译)；或者，在存在推理需求时，计算机设备对特征提取网络和图网络分类器进行实时编译，本实施例对此不作限定。

综上所述，本申请实施例中，通过预训练特征提取网络和图网络分类器，采用特征提取网络和图网络分类器的组合进行图像标签分类，由特征提取网络进行特征提取，并由图网络分类器对特征提取网络提取到的特征图进行分类，得到图像标签分类结果；由于图网络分类器基于图网络构建得到，且该图网络结构能够反映出不同图像标签之间的共现概率，因此利用图网络分类器对进行标签分类时，能够融入不同图像标签之间的关联性，有助于提高图像标签分类的效率和准确性(尤其是在进行多标签分类时)。

关于上述实施例中目标图网络构建过程，在一种可能的实施方式中，计算机设备根据样本图像集对应图像标签集中的样本图像标签，生成目标图网络中的图节点，并对样本图像标签的共现情况进行统计，生成图节点之间的边，即目标图网络的构建完全基于样本图像集。

然而，由于样本图像集中样本图像的数量有限，因此构建得到的目标图网络的网络信息较为单一，影响后续构建得到图网络分类器的标签分类质量。

为了丰富目标图网络的网络信息，进而提高图网络分类器的标签分类质量，在另一种可能的实施方式中，计算机设备根据样本图像集以及先验知识图谱构建目标图网络，将不同图像标签在先验知识图谱中的语义相关性融入构建的目标图网络，其中，样本图像集是样本图像构成的集合，图节点对应的图像标签属于样本图像集对应的图像标签集。

请参考图4，其示出了本申请一个示例性实施例提供的图网络分类器训练过程的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤401，生成与图像标签集中样本图像标签对应的图节点。

其中，图像标签集是样本图像集中各样本图像对应样本图像标签所构成的集合。基于图像标签集中的各个样本图像标签，计算机设备生成目标图网络中的图节点。

在一种可能的实施方式中，计算机设备获取样本图像集中各张样本图像对应的样本图像标签，并对样本图像标签进行去重合并，得到图像标签集，该图像标签集中的各个样本图像标签互不相同。

在一个示意性的例子中，如图5所示，计算机设备根据图像标签集51中的样本图像标签，生成各个样本图像标签对应的图节点52。

生成图节点后，计算机设备进一步根据图像标签在样本图像集以及先验知识图谱中的共现概率，分别构建指示样本图像集中图像标签共现情况的第一图网络，以及指示先验知识图谱中图像标签共现情况的第二图网络。需要说明的是，下述步骤402和403之间并不存在严格的先后时序，即步骤402和403可以同步执行，本实施例对此不作限定。

步骤402，根据不同图节点对应图像标签在样本图像集中的第一共现概率，构建第一图网络，第一图网络中不同图节点之间的边用于表征第一共现概率。

在一些实施例中，第一图网络为有向图网络，相应的不同图节点之间有向边对应的第一共现概率为条件概率。其中，从图节点A指向图节点B的有向边表征：在图像包含图节点A对应图像标签的前提下，该图像包含图节点B对应图像标签的概率，从图节点B指向图节点A的有向边表征：在图像包含图节点B对应图像标签的前提下，该图像包含图节点A对应图像标签的概率。

因此，在基于样本图像集构建第一图网络时，计算机设备需要分别统计图像标签在样本图像集中的出现次数，以此不同图像标签在样本图像集中的共现次数。

在一种可能的实施方式中，本步骤可以包括如下步骤。

一、获取第一图节点对应图像标签在样本图像集中的第一出现次数，第二图节点对应图像标签在样本图像集中的第二出现次数，以及第一图节点和第二图节点对应图像标签在样本图像集中的第一共现次数。

在一种可能的实施方式中，对于目标图网络中的第一图节点，计算机设备通过遍历样本图像集，确定包含第一图节点对应图像标签的样本图像的数量(即第一出现次数)；对于目标图网络中的第二图节点，计算机设备通过遍历样本图像集，确定包含第二图节点对应图像标签的样本图像的数量(即第二出现次数)；通过遍历样本图像集，确定同时包含第一图节点和第二图节点对应图像标签的样本图像的数量(即第一共现次数)。

在一个示意性的例子中，对于图节点“人”和图节点“猫”，计算机设备确定图节点“人”的第一出现次数为100次，图节点“猫”的第一出现次数为25次，图节点“人”和图节点“人”的第一共现次数为5次。

二、根据第一共现次数和第一出现次数的比值，设置第一图节点与第二图节点之间第一有向边的第一共现概率，第一有向边由第一图节点指向第二图节点。

进一步的，计算机设备将第一共现次数和第一出现次数的比值，确定为第一图节点和第二图节点之间第一有向边对应的第一(条件)共现概率，其中，第一(条件)共现概率表示存在第一图节点对应图像标签时，存在第二图节点对应图像标签的概率。

结合上述步骤中的示例，第一图网络中，由图节点“人”指向图节点“猫”的第一有向边的第一共现概率为5÷100＝0.05。

三、根据第一共现次数和第二出现次数的比值，设置第一图节点与第二图节点之间第二有向边的第一共现概率，第二有向边由第二图节点指向第一图节点。

与上述步骤类似的，计算机设备将第一共现次数和第二出现次数的比值，确定为第一图节点和第二图节点之间第二有向边对应的第二(条件)共现概率，其中，第二(条件)共现概率表示存在第二图节点对应图像标签时，存在第一图节点对应图像标签的概率。

结合上述步骤中的示例，第一图网络中，由图节点“猫”指向图节点“人”的第二有向边的第一共现概率为5÷25＝0.2。

需要说明的是，若两个图节点对应图像标签在样本图像集中的共现次数为0，则这两个图节点之间则不存在边。

对于图网络中的各个图节点，计算机设备循环执行上述步骤，最终构建得到基于样本图像集的第一图网络。示意性的，如图5所示，计算机设备基于样本图像集构建得到第一图网络53。

步骤403，根据不同图节点对应图像标签在先验知识图谱中的第二共现概率，构建第二图网络，第二图网络中不同图节点之间的边用于表征第二共现概率。

先验知识图谱是一种由代表概念的节点所构成语义知识网络，其中，概念的表现形式主要为自然语言单词或短语。相较于样本图像集，由于先验知识图谱中包含的信息量更大且信息覆盖的领域更广，因此本申请实施例中，利用先验知识图谱作为样本图像集的语义相关性补充，以此增加目标图网络的网络信息量。

在一些实施例中，该先验知识图谱可以采用ConceptNet、YAGO、FreeBase等等，本申请实施例并不对此进行限定。

与第一图网络类似的，第二图网络同样为有向图网络，因此在基于先验知识图谱构建第二图网络时，计算机设备需要分别统计图像标签在先验知识图谱中的出现次数，以此不同图像标签在先验知识图谱中的共现次数。

在一种可能的实施方式中，本步骤可以包括如下步骤。

一、获取第一图节点对应图像标签在先验知识图谱中的第三出现次数，第二图节点对应图像标签在先验知识图谱中的第四出现次数，以及第一图节点和第二图节点对应图像标签在先验知识图谱中的第二共现次数。

由于先验知识图谱中的概念以自然语言或短语形式展现，因此，在一种可能的实施方式中，计算机设备获取第一图节点对应图像标签在先验知识图谱中，以自然语言或者短语出现的第三出现次数，获取第二图节点对应图像标签在先验知识图谱中，以自然语言或者短语出现的第四出现次数，以及，获取第一图节点和第二图节点对应图像标签在先验知识图谱中，以自然语言或者短语形式共同出现的第二出现次数。

二、根据第二共现次数和第三出现次数的比值，设置第一图节点与第二图节点之间第一有向边的第二共现概率，第一有向边由第一图节点指向第二图节点。

进一步的，计算机设备将第二共现次数和第三出现次数的比值，确定为第一图节点和第二图节点之间第一有向边对应的第二(条件)共现概率，其中，第二(条件)共现概率表示存在第一图节点对应图像标签时，存在第二图节点对应图像标签的概率。

三、根据第二共现次数和第四出现次数的比值，设置第一图节点与第二图节点之间第二有向边的第二共现概率，第二有向边由第二图节点指向第一图节点。

与上述步骤类似的，计算机设备将第二共现次数和第四出现次数的比值，确定为第一图节点和第二图节点之间第二有向边对应的第二(条件)共现概率，其中，第二(条件)共现概率表示存在第二图节点对应图像标签时，存在第一图节点对应图像标签的概率。

需要说明的是，若两个图节点对应图像标签在先验知识图谱中的共现次数为0，则这两个图节点之间则不存在边。

对于图网络中的各个图节点，计算机设备循环执行上述步骤，最终构建得到基于先验知识图谱的第二图网络。示意性的，如图5所示，计算机设备基于先验知识图谱构建得到第二图网络54。

其中，第一图网络和第二图网络中包含的图节点一致，但图节点之间的边可能不同。比如，如图5所示，由于样本图像集中的样本图像有限，因此构建得到的第一图网络53中，图节点“草坪”和图节点“猫”之间并不存在边(即图像标签草坪和猫未出现在同一样本图像中)，图节点“猫”和图节点“汽车”之间并不存在边(即图像标签汽车和猫未出现在同一样本图像中)；而基于先验知识图谱构建的第二图网络54中，图节点“草坪”和图节点“猫”之间存在边，且图节点“猫”和图节点“汽车”之间存在边。

需要说明的是，上述实施例以图节点之间的边为有向边为例进行说明，在其他可能的实施方式中，构建得到的图网络还可以为无向无网络，即图节点之间的边为无向边。相应的，为无向边设置的共现概率可以为：标签共现次数÷(标签单独出现次数之和-标签共现次数)。比如，标签A和标签B各自的出现次数分别为25次和100次，且共现此处为5次时，为标签A和标签B对应图节点之间无向边设置的共现概率即为5÷(25+100-5)＝1/24。

步骤404，对第一图网络和第二图网络进行融合，得到目标图网络。

通过上述步骤构建得到第一图网络和第二图网络后，计算机设备进一步对两个图网络进行融合，得到综合样本共现特性以及语义共现特性的目标图网络。

在一种可能的实施方式中，对于第一图网络和第二图网络中的同一条边，即第一图网络和第二图网络中相同图节点之间的边，计算机设备对第一共现概率和第二共现概率进行加权计算，得到目标图网络中边对应的目标共现概率。

其中，第一图网络中边对应的第一权重以及第二图网络中边对应的第二权重可以为预先设置，且第一权重与第二权重之和为1。比如，第一权重为0.8，第二权重为0.2。

在一些实施例中，当第一图网络和第二图网络为有向图网络时，计算机设备对第一图网络和第二图网络中相同有向边对应的第一共现概率和第二共现概率进行加权计算，得到该有向边对应的目标共现概率。

在一个示例性的例子中，对于图节点A和图节点B，第一图网络中由图节点A指向图节点B的有向边的第一共现概率为0.2，第二图网络中由图节点A指向图节点B的有向边的第二共现概率为0.05，计算机设备通过加权计算得到图节点A指向图节点B的有向边的目标共现概率为2×0.8+0.05×0.2＝0.17。

示意性的，如图5所示，计算机设备对第一图网络53和第二图网络54进行加权融合，得到目标图网络55。

步骤405，通过图注意力机制对目标图网络中的图节点进行自注意力处理，得到图网络分类器，图网络分类器的类别数量与图节点数量一致。

对于构建得到的目标图网络，不同图节点对应的图节点特征无法反映出图节点之间关联关系，若直接基于目标图网络构建图网络分类器，构建得到的图网络分类器的分类效果不佳。因此，本申请实施例中通过引入注意力机制，在构建图网络分类器之前，首先基于图节点之间的共现概率，通过图注意力网络(Graph ATtention network，GAT)对目标图网络中图节点进行自注意力处理，对图节点之间的邻居关系进行加权学习，对影响图节点的相邻图节点进行加权学习。

在一种可能的实施方式中，本步骤可以包括如下步骤。

步骤405A，确定当前图节点与相邻图节点之间的注意力系数。

在一种可能的实施方式中，计算机设备根据目标图网络之间的图节点之间的邻居关系，获取当前图节点和相邻图节点对应的图节点特征(可以为特征向量)，以及当前图节点与相邻图节点之间的目标共现概率，从而根据图节点特征以及目标共现概率，确定当前图节点与相邻图节点之间的注意力系数(attentionco efficients)。

可选的，该相邻图节点与当前图节点直连，或者，相邻图节点与当前图节点之间间接相连(即相邻图节点与当前图节点之间存在至少一个中间图节点)。

在一个示意性的例子中，图节点之间注意力系数的公式如下：

其中，e_ij表示图节点i与图节点j之间的注意力系数，a()为注意力函数(比如单层的前馈神经网络)，

为图节点i的图节点特征，

为图节点j的图节点特征，W为图节点之间的权重矩阵(比如根据图节点之间的共现概率训练得到)。

步骤405B，根据注意力系数以及相邻图节点的图节点特征，更新当前图节点的图节点特征。

注意力机制的核心是将相邻图节点的图节点特征加权求和，因此确定出当前图节点与相邻图节点之间的注意力系数后，计算机设备进一步根据相邻图节点的图节点特征与注意力系数，更新当前图节点的图节点特征。

在一个示意性的例子中，根据相邻图节点的图节点特征更新当前图节点的图节点特征时可以采用如下公式：

其中，

为更新后图节点i的图节点特征，σ为非线性激活函数，W为权重矩阵，α_ij为图节点i与图节点j之间的注意力系数(经过归一化处理)，

为图节点j的图节点特征，N_i为图节点i对应相邻图节点的集合。

步骤405C，对更新后目标图网络中各个图节点的图节点特征进行特征分类处理，得到图网络分类器。

通过上述步骤完成对图节点更新后，为了能够利用图节点特征进行标签分类，计算机设备还需要对图节点特征进行特征分类处理，得到类别数量与图节点数量一致的图网络分类器。

在一种可能的实施方式中，计算机设备通过对图节点特征应用softmax函数，生成图网络分类器，实现图节点的标签分类预测。

示意性的，如图6所示，计算机设备首先对构建得到的目标图网络55进行自注意力处理，得到GAT图网络56，进而GAT图网络56中的各个图节点的图节点特征进行特征分类处理，得到与图节点数量一致的图网络分类器57。

本实施例中，在基于标签共现特性(样本图像集)构建图网络的基础上，基于标签语义特征(先验知识图谱)构建图网络，从而对两个图网络进行融合，得到目标图网络，增加了构建得到的目标图网络的网络信息量，进而提高了后续生成的图网络分类器的分类质量，有助于提高图像标签分类的准确性。

此外，本实施例中，计算机设备通过自注意力机制，对目标图网络中图节点的图节点特征进行更新，使相邻图节点的图节点特征能够进行相互传递，进一步优化了图节点的特征表达，提高了后续构建得到的图网络分类器的分类准确性。

上述实施例中，若直接将特征提取网络输出的样本特征图输入图网络分类器进行标签分类，标签分类准确性与样本特征图的特征提取质量密切相关。因此，为了进一步提高标签分类准确性，计算机设备通过特征提取网络提取得到样本特征图后，进一步对样本特征图进行空间分组增强(Spatial Group-wise Enhance，SGE)处理，并将SGE处理后的样本特征图用于标签分类。

请参考图7，其示出了本申请另一个示例性实施例提供的图像标签分类网络的训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤701，获取样本图像，样本图像包含对应的样本图像标签。

本步骤的实施方式可以参考上述步骤301，本实施例在此不再赘述。

步骤702，通过特征提取网络对样本图像进行特征提取，得到特征提取网络输出的样本特征图。

为了避免后续输入图网络分类器的特征过于抽象，不利于图网络分类器进行标签分类，在一种可能的实施方式中，计算机设备将样本图像输入特征提取网络，得到特征提取网络中预设深度的网络层输出的样本特征图，即将特征提取网络的中间特征图作为后续标签分类所使用的特征图。

在一个示例性的例子中，当特征提取网络采用残差网络50(ResNet50)作为基础网络，其网络结构如表一所示。

表一

其中，Conv2_x包括三个残差块(block)，Conv3_x包括4个残差块，Conv4_x包括6个残差块，Conv5_x包括3个残差块；Conv3_x和Conv4_x中第一层卷积层的步长均为2，且每个卷积层之后都接有激活层(ReLu)和批归一化层(Batch Normalization)。此外，Conv1_x至Conv5_x采用在ImageNet数据集上预训练的ResNet50的参数，新添加的Conv_new则采用方差为0.01，均值为0的高斯分布进行初始化。

计算机设备将样本图像输入上述特征提取网络后，将Conv4_x的最后一层(即Conv4_23)输出的特征图确定为样本特征图。

需要说明的是，当采用其他网络结构的特征提取网络时，该样本特征图可以为其他深度网络层输出的特征图，本实施例并不对此进行限定。

步骤703，以特征通道为维度，将样本特征图划分为至少两个样本特征组，样本特征组的数量与图网络分类器的类别数量一致。

一个完整特征是由若干子特征构成，且子特征会以组的形式分布在每一层的特征中，若对这些子特征均采用相同的处理方式，将会引入过多噪声和干扰。

本申请实施例中，通过引入空间分组注意力机制，将样本特征图划分为若干样本特征组，并对不同样本特征组单独进行空间注意力处理，以此改善组内不同语义特征的空间分布，增强语义区域的特征学习，从而抑制噪声和干扰。

在一些实施例中，对于获取到的样本特征图，计算机设备首先以特征通道(channel)为维度，根据图网络分类器的类别数量(即图节点数量)，将样本特征图划分为多个样本特征组。

示意性的，如图8所示，计算机设备将样本图像81输入特征提取网络82，得到特征提取网络82输出的样本特征图83后，以特征通道为维度，将样本特征图划分为若干样本特征组84。

步骤704，通过空间注意力机制对样本特征组语义增强，得到语义增强后的样本特征组。

完成特征分组后，对于每一个样本特征组，计算机设备利用空间注意力机制对样本特征组进行语义特征学习，以此增强样本特征组的语义特征。

在一种可能的实施方式中，计算机设备对样本特征组进行全局平均池化(GlobalAverage Pooling，GAP)处理，得到池化结果，从而将池化结果与各个样本特征组进行元素级点乘(element-wise dot)。进一步的，计算机设备对点乘结果进行归一化(normalization)处理，在使用S形函数(sigmoid)对归一化结果进行激活，最终与原始样本特征组进行元素级点乘，得到语义增强后的样本特征组。

示意性的，如图8所示，计算机设备通过空间注意力机制对样本特征组84进行语义增强，增到语义增强后的样本特征组85。

步骤705，对语义增强前的样本特征组和语义增强后的样本特征组进行融合，得到融合后的样本特征组。

进一步的，计算机设备将语义增强前后的样本特征组进行融合，得到融合后的样本特征组，其中，计算机设备可以通过拼接(concat)语义增强前后的样本特征组，得到融合后的样本特征组。

示意性的，如图8所示，计算机设备对语义增强前的样本特征组83和语义增强后的样本特征组85进行融合，得到融合后的样本特征组86。

步骤706，将融合后的样本特征组输入图网络分类器，得到图网络分类器输出的样本标签分类结果。

相应的，计算机设备将融合后的样本特征组输入图网络分类器，由图网络分类器根据该样本特征组进行标签分类，输出样本标签分类结果。

示意性的，如图8所示，计算机设备预先构建第一图网络871和第二图网络872，并对两者进行加权融合，得到目标图网络873。进一步的，计算机设备对目标图网络873的图节点进行自注意力处理，得到GAT图网络874，进而对GAT图网络874中图节点的图节点特征进行特征分类处理，得到图网络分类器875。训练过程中，计算机设备将融合后的样本特征组86输入图网络分类器875，得到图网络分类器875输出的样本标签分类结果88，该样本标签分类结果88中即包含各个图像标签对应的概率。

步骤707，根据样本标签分类结果与样本图像标签之间的误差，训练特征提取网络和图网络分类器。

本步骤的实施方式可以参考上述步骤304，本实施例在此不再赘述。

示意性的，如图8所示，计算机设备根据样本标签分类结果88和样本图像标签89，反向训练特征提取网络82以及图网络分类器875。

本实施例中，通过对特征提取网络输出的样本特征图进行SGE处理，并将SGE处理后的样本特征图与原始样本特征图进行融合，从而利用图网络分类器对融合后的样本特征图进行标签分类，由于SGE处理能够增强样本特征图的空间语义，因此基于融合后的样本特征图进行标签分类的准确性更高，有助于提高网络的训练质量。

上述实施例对图像标签分类网络的训练过程进行了说明，下面采用示例性的实施例对图像标签分类网络的使用过程进行说明。

请参考图9，其示出了本申请一个示例性实施例提供的图像标签分类方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤901，获取目标图像。

在一些实施例中，该目标图像为拍摄的单张图片，或者，该目标图像是从视频帧中提取的视频帧图像。本申请实施例对目标图像的来源和类型不做限定。

步骤902，通过特征提取网络对目标图像进行特征提取，得到特征提取网络输出的目标特征图。

与网络训练过程类似的，计算机设备将获取到的目标图像输入预训练的特征提取网络，得到特征提取网络输出的目标特征图。

在一些实施例中，通过特征提取网络进行特征提取前，计算机设备还需要对目标图像进行预处理，比如上采样、下采样、灰度处理等等，使输入特征提取网络的目标图像符合网络输出要求。

步骤903，将目标特征图输入图网络分类器，得到图网络分类器输出的标签分类结果，图网络分类器基于图网络构建得到，图网络中的图节点对应图像标签，且不同图节点之间的边用于表征不同图像标签之间的共现概率。

与网络训练过程类似的，计算机设备将特征提取得到的目标特征图输入预训练的图网络分类器，得到图网络分类器输出的标签分类结果，该标签分类结果中包含各个候选图像标签对应的概率。

示意性的，该标签分类结果为：人(0.95)、狗(0.90)、猫(0.15)、…、草坪(0.01)、汽车(0.001)。

在进行标签分类过程中，为了提高分类结果的准确性，获取特征提取网络输出的目标特征图后，在一种可能的实施方式中，计算机设备以特征通道为维度，将目标特征图划分为至少两个特征组，目标特征组的数量与图网络分类器的类别数量一致；通过空间注意力机制对特征组语义增强，得到语义增强后的特征组；对语义增强前的特征组和语义增强后的特征组进行融合，得到融合后的特征组；相应的，计算机设备将融合后的特征组输入图网络分类器，得到图网络分类器输出的标签分类结果。

其中，对目标特征图进行分组以及空间注意力处理的过程可以参考上述训练过程的实施例，本实施例在此不再赘述。

步骤904，根据标签分类结果为目标图像设置至少一个图像标签。

在一种可能的实施方式中，计算机设备将标签分类结果中概率大于概率阈值的图像标签，确定为目标图像对应的图像标签。

结合上述步骤中的示例，当概率阈值为0.85时，计算机设备为目标图像设置的图像标签包括标签“人”和标签“狗”。

下面对本申请实施例提供方法的几种应用场景进行说明。

1、内容审核场景

本申请实施例提供的方法可以应用于视频播放平台、短视频平台、直播平台或社交平台，以便平台方对视频内容、短视频内容、直播内容或社交分享内容进行审核。在一种可能的实施方式中，平台样本图像集和先验知识图谱构建目标图网络，并基于目标图网络构建图网络分类器，进而利用样本图像联合训练特征提取网络和图网络分类器。

进行内容审核时，平台获取待审核图像，将待审核图像输入预训练的特征提取网络，并将特征提取网络输出的特征图输入预训练的图网络分类器，从而获取图网络分类器输出的标签分类结果，其中，待审核图像可以是从视频流或直播流中截取的图像帧，或者，待审核图像可以是客户端上报的内容举报截图。进一步的，平台检测标签分类结果中，非法内容对应图像标签的概率是否高于阈值，若高于阈值，则确定待审核图像中包含非法内容，即该待审核图像未通过内容审核。

2、目标检测场景

应用于目标检测场景时，计算机设备首先根据样本图像集和先验知识图谱构建图网络，并通过图注意力机制对图网络中的图节点进行自注意力处理，得到图网络分类器，其中，该样本图像集对应的图像标签集中包含检测目标对应的图像标签。基于样本图像集中的样本图像，计算机设备联合训练图网络分类器和特征提取网络。

进行目标检测时，计算机设备可以对视频进行分帧处理，并将得到的每一视频帧输入特征提取网络，由图网络分类器对特征提取网络输出的特征图进行标签分类，输出标签分类结果。当标签分类结果中目标图像标签(即检测目标对应的图像标签)对应的概率高于概率阈值时，计算机设备即确定该视频帧中包含目标对象，并对该视频帧进行标记。后续过程中，计算机设备还可以在视频帧中对检测目标的位置进行标注，或者，从视频帧中分割出检测目标的图像。

3、图像分类场景

在一些实施例中，本申请实施例提供的图像标签分类方法可以应用于具有图像分类需求的终端或终端中安装的应用程序中。比如可以应用于终端的相册应用程序。

该场景下，应用程序的后台服务器预先根据样本图像集和先验知识图谱构建图网络，该图网络中的图节点即对应能够识别的图像内容。通过对图网络中的图节点进行自注意力处理，后台服务器构建得到图网络分类器，进而利用样本图像集对图网络分类器和特征提取网络进行联合训练。当存在图像分类需求时，终端将待分类图像上传至后台服务器，由后台服务器通过预训练的特征提取网络进行特征提取，并由预训练的图网络分类器对提取到的特征图进行标签分类，从而将各张待分类图像的分类标签反馈给终端，由终端根据分类标签与各个相册对应主题之间的相似度，将待分类图像添加至相应的相册中。

当然，除了应用于上述几种应用场景外，本申请实施例提供方法还可以应用于其他需要为图像设置图像标签，或者，需要利用图像标签的场景，本申请实施例并不对具体的应用场景进行限定。

图10是本申请一个示例性实施例提供的图像标签分类网络的训练装置的结构框图，如图10所示，该装置包括：

第一获取模块1001，用于获取样本图像，所述样本图像包含对应的样本图像标签；

第一特征提取模块1002，用于通过特征提取网络对所述样本图像进行特征提取，得到所述特征提取网络输出的样本特征图；

第一分类模块1003，用于将所述样本特征图输入图网络分类器，得到所述图网络分类器输出的样本标签分类结果，所述图网络分类器基于目标图网络构建得到，所述目标图网络中的图节点对应图像标签，且不同图节点之间的边用于表征不同图像标签之间的共现概率；

网络训练模块1004，用于根据所述样本标签分类结果与所述样本图像标签之间的误差，训练所述特征提取网络和所述图网络分类器。

可选的，所述装置还包括：

网络构建模块，用于根据样本图像集和先验知识图谱构建所述目标图网络，所述样本图像集是所述样本图像构成的集合，所述图节点对应的图像标签属于所述样本图像集对应的图像标签集；

分类器构建模块，用于通过图注意力机制对所述目标图网络中的所述图节点进行自注意力处理，得到所述图网络分类器，所述图网络分类器的类别数量与图节点数量一致。

可选的，所述网络构建模块，包括：

节点生成单元，用于生成与所述图像标签集中所述样本图像标签对应的图节点；

第一网络构建单元，用于根据不同图节点对应图像标签在所述样本图像集中的第一共现概率，构建第一图网络，所述第一图网络中不同图节点之间的边用于表征所述第一共现概率；

第二网络构建单元，用于根据不同图节点对应图像标签在所述先验知识图谱中的第二共现概率，构建第二图网络，所述第二图网络中不同图节点之间的边用于表征所述第二共现概率；

融合单元，用于对所述第一图网络和所述第二图网络进行融合，得到所述目标图网络。

可选的，所述第一网络构建单元，用于：

获取第一图节点对应图像标签在所述样本图像集中的第一出现次数，第二图节点对应图像标签在所述样本图像集中的第二出现次数，以及所述第一图节点和所述第二图节点对应图像标签在所述样本图像集中的第一共现次数；

根据所述第一共现次数和所述第一出现次数的比值，设置所述第一图节点与所述第二图节点之间第一有向边的所述第一共现概率，所述第一有向边由所述第一图节点指向所述第二图节点；

根据所述第一共现次数和所述第二出现次数的比值，设置所述第一图节点与所述第二图节点之间第二有向边的所述第一共现概率，所述第二有向边由所述第二图节点指向所述第一图节点。

可选的，所述第二网络构建单元，用于：

获取第一图节点对应图像标签在所述先验知识图谱中的第三出现次数，第二图节点对应图像标签在所述先验知识图谱中的第四出现次数，以及所述第一图节点和所述第二图节点对应图像标签在所述先验知识图谱中的第二共现次数；

根据所述第二共现次数和所述第三出现次数的比值，设置所述第一图节点与所述第二图节点之间第一有向边的所述第二共现概率，所述第一有向边由所述第一图节点指向所述第二图节点；

根据所述第二共现次数和所述第四出现次数的比值，设置所述第一图节点与所述第二图节点之间第二有向边的所述第二共现概率，所述第二有向边由所述第二图节点指向所述第一图节点。

可选的，所述融合单元，用于：

对于所述第一图网络和所述第二图网络中的同一条边，对所述第一共现概率和所述第二共现概率进行加权计算，得到所述目标图网络中所述边对应的目标共现概率。

可选的，所述分类器构建模块，包括：

注意力系数确定单元，用于确定当前图节点与相邻图节点之间的注意力系数；

特征更新单元，用于根据所述注意力系数以及所述相邻图节点的图节点特征，更新所述当前图节点的图节点特征；

分类处理单元，用于对更新后所述目标图网络中各个图节点的图节点特征进行特征分类处理，得到所述图网络分类器。

可选的，所述装置还包括：

分组模块，用于以特征通道为维度，将所述样本特征图划分为至少两个样本特征组，所述样本特征组的数量与所述图网络分类器的类别数量一致；

语义增强模块，用于通过空间注意力机制对所述样本特征组语义增强，得到语义增强后的所述样本特征组；

融合模块，用于对语义增强前的所述样本特征组和语义增强后的所述样本特征组进行融合，得到融合后的所述样本特征组；

所述第一分类模块1003，用于将融合后的所述样本特征组输入所述图网络分类器，得到所述图网络分类器输出的所述样本标签分类结果。

可选的，所述第一特征提取模块1002，用于：

将所述样本图像输入所述特征提取网络，得到所述特征提取网络中预设深度的网络层输出的所述样本特征图。

图11是本申请一个示例性实施例提供的图像标签分类装置的结构框图，如图11所示，该装置包括：

第二获取模块1101，用于获取目标图像；

第二特征提取模块1102，用于通过特征提取网络对所述目标图像进行特征提取，得到所述特征提取网络输出的目标特征图；

第二分类模块1103，用于将所述目标特征图输入图网络分类器，得到所述图网络分类器输出的标签分类结果，所述图网络分类器基于图网络构建得到，所述图网络中的图节点对应图像标签，且不同图节点之间的边用于表征不同图像标签之间的共现概率；

设置模块1104，用于根据所述标签分类结果为所述目标图像设置至少一个图像标签。

可选的，所述装置还包括：

分组模块，用于以特征通道为维度，将所述目标特征图划分为至少两个特征组，所述目标特征组的数量与所述图网络分类器的类别数量一致；

语义增强模块，用于通过空间注意力机制对所述特征组语义增强，得到语义增强后的所述特征组；

融合模块，用于对语义增强前的所述特征组和语义增强后的所述特征组进行融合，得到融合后的所述特征组；

所述第二分类模块1103，用于将融合后的所述特征组输入所述图网络分类器，得到所述图网络分类器输出的所述标签分类结果。

需要说明的是：上述实施例提供的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图12，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1200包括中央处理单元(Central Processing Unit，CPU)1201、包括随机存取存储器1202和只读存储器1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说，所述大容量存储设备1207可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1201执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1201执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述实施例所述的图像标签分类网络的训练方法，或，实现如上述实施例所述的图像标签分类方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的图像标签分类网络的训练方法，或，执行上述实施例提供的图像标签分类方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像标签分类网络的训练方法，其特征在于，所述方法包括：

获取样本图像，所述样本图像包含对应的样本图像标签；

2.根据权利要求1所述的方法，其特征在于，所述获取样本图像之前，所述方法还包括：

根据样本图像集和先验知识图谱构建所述目标图网络，所述样本图像集是所述样本图像构成的集合，所述图节点对应的图像标签属于所述样本图像集对应的图像标签集；

通过图注意力机制对所述目标图网络中的所述图节点进行自注意力处理，得到所述图网络分类器，所述图网络分类器的类别数量与图节点数量一致。

3.根据权利要求2所述的方法，其特征在于，所述根据训练图像集和先验知识图谱构构建所述目标图网络，包括：

生成与所述图像标签集中所述样本图像标签对应的图节点；

根据不同图节点对应图像标签在所述样本图像集中的第一共现概率，构建第一图网络，所述第一图网络中不同图节点之间的边用于表征所述第一共现概率；

根据不同图节点对应图像标签在所述先验知识图谱中的第二共现概率，构建第二图网络，所述第二图网络中不同图节点之间的边用于表征所述第二共现概率；

对所述第一图网络和所述第二图网络进行融合，得到所述目标图网络。

4.根据权利要求3所述的方法，其特征在于，所述根据不同图节点对应图像标签在所述样本图像集中的第一共现概率，构建第一图网络，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据不同图节点对应图像标签在所述先验知识图谱中的第二共现概率，构建第二图网络，包括：

6.根据权利要求3所述的方法，其特征在于，所述对所述第一图网络和所述第二图网络进行融合，得到所述目标图网络，包括：

7.根据权利要求2至6任一所述的方法，其特征在于，所述通过图注意力机制对所述目标图网络中的所述图节点进行自注意力处理，得到所述图网络分类器，包括：

确定当前图节点与相邻图节点之间的注意力系数；

根据所述注意力系数以及所述相邻图节点的图节点特征，更新所述当前图节点的图节点特征；

对更新后所述目标图网络中各个图节点的图节点特征进行特征分类处理，得到所述图网络分类器。

8.根据权利要求1至6任一所述的方法，其特征在于，所述通过特征提取网络对所述样本图像进行特征提取，得到所述特征提取网络输出的样本特征图之后，所述方法还包括：

以特征通道为维度，将所述样本特征图划分为至少两个样本特征组，所述样本特征组的数量与所述图网络分类器的类别数量一致；

通过空间注意力机制对所述样本特征组语义增强，得到语义增强后的所述样本特征组；

对语义增强前的所述样本特征组和语义增强后的所述样本特征组进行融合，得到融合后的所述样本特征组；

所述将所述样本特征图输入图网络分类器，得到所述图网络分类器输出的样本标签分类结果，包括：

将融合后的所述样本特征组输入所述图网络分类器，得到所述图网络分类器输出的所述样本标签分类结果。

9.根据权利要求8所述的方法，其特征在于，所述特征提取网络为残差网络，所述通过特征提取网络对所述样本图像进行特征提取，得到所述特征提取网络输出的样本特征图，包括：

10.一种图像标签分类方法，其特征在于，所述方法包括：

获取目标图像；

11.根据权利要求10所述的方法，其特征在于，所述通过特征提取网络对所述目标图像进行特征提取，得到所述特征提取网络输出的目标特征图之后，所述方法还包括：

以特征通道为维度，将所述目标特征图划分为至少两个特征组，所述目标特征组的数量与所述图网络分类器的类别数量一致；

通过空间注意力机制对所述特征组语义增强，得到语义增强后的所述特征组；

对语义增强前的所述特征组和语义增强后的所述特征组进行融合，得到融合后的所述特征组；

所述将所述目标特征图输入图网络分类器，得到所述图网络分类器输出的标签分类结果，包括：

将融合后的所述特征组输入所述图网络分类器，得到所述图网络分类器输出的所述标签分类结果。

12.一种图像标签分类网络的训练装置，其特征在于，所述装置包括：

13.一种图像标签分类装置，其特征在于，所述装置包括：

第二获取模块，用于获取目标图像；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的图像标签分类网络的训练方法，或，实现如权利要求10至11任一所述的图像标签分类方法。

15.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的图像标签分类网络的训练方法，或，实现如权利要求10至11任一所述的图像标签分类方法。