CN112836076A

CN112836076A - 一种图像标签生成方法、装置及设备

Info

Publication number: CN112836076A
Application number: CN202110108926.2A
Authority: CN
Inventors: 李月
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-25
Also published as: US11875554B2; US20220237901A1

Abstract

本发明实施例提供了一种图像标签生成方法、装置及设备，方法包括：将待处理图像输入至神经网络模型，通过特征提取网络对待处理图像进行特征提取，得到特征提取网络输出的中间层图像特征和输出层图像特征，中间层图像特征与输出层图像特征为不同尺度的图像特征；通过特征融合网络对中间层图像特征和输出层图像特征进行特征融合，得到特征融合网络输出的融合特征；通过第一标签识别网络对输出层图像特征进行识别，得到第一标签识别网络输出的第一类图像标签；通过第二标签识别网络对融合特征进行识别，得到第二标签识别网络输出的第二类图像标签。可见，本方案中，同一神经网络模型能够输出图像的多个标签，提供了一种能够生成图像的多标签的方案。

Description

一种图像标签生成方法、装置及设备

技术领域

本发明涉及图像识别技术领域，特别是涉及一种图像标签生成方法、装置及设备。

背景技术

一些场景中，需要对图像添加标签，标签有助于图像的归类、搜索，还可以用于数据分析、信息推荐等等。例如，对于画作类的图像，可以为其添加类别标签，如国画、油画、素描、水粉水彩等等，可以为其添加题材标签，如风景、人物、动物等等，也可以为其添加内容标签，如天空、房子、山、水、马等等。

一些相关的图像标签生成方案中，通过分类模型对图像进行分类，基于分类结果生成图像的标签。但是这种方案中，一张图像一般只能对应一种分类结果，这样，一张图像只能对应一个标签。可见，对于一些对应多标签的图像来说，例如上述画作类的图像，采用这种方案生成这些图像的标签，会有标签遗漏。因此，需要提供一种能够生成图像的多标签的方案。

发明内容

本发明实施例的目的在于提供一种图像标签生成方法、装置及设备，以提供一种能够生成图像的多标签的方案。

为达到上述目的，本发明实施例提供了一种图像标签生成方法，包括：

获取待处理图像；

将所述待处理图像输入至预先训练得到的神经网络模型；所述神经网络模型中包括：特征提取网络、与所述特征提取网络相连接的第一标签识别网络和特征融合网络、与所述特征融合网络相连接的第二标签识别网络；所述神经网络模型用于输出第一类图像标签和第二类图像标签；

通过所述特征提取网络对所述待处理图像进行特征提取，得到所述特征提取网络输出的中间层图像特征和输出层图像特征，所述中间层图像特征与所述输出层图像特征为不同尺度的图像特征；

通过所述特征融合网络对所述中间层图像特征和所述输出层图像特征进行特征融合，得到所述特征融合网络输出的融合特征；

通过所述第一标签识别网络对所述输出层图像特征进行识别，得到所述第一标签识别网络输出的第一类图像标签；

通过所述第二标签识别网络对所述融合特征进行识别，得到所述第二标签识别网络输出的第二类图像标签。

可选的，所述获取待处理图像，包括：

获取目标图像；

从所述目标图像中裁剪出细节图像；

将所述细节图像的尺寸调整至与所述目标图像的尺寸一致，得到调整后的细节图像；

所述将所述待处理图像输入至预先训练得到的神经网络模型，包括：

将所述目标图像和所述调整后的细节图像分别输入至预先训练得到的神经网络模型；

所述通过所述特征提取网络对所述待处理图像进行特征提取，得到所述特征提取网络输出的中间层图像特征和输出层图像特征，包括：

通过所述特征提取网络中的第一子网络对所述目标图像进行特征提取，得到所述特征提取网络输出的中间层图像特征和第一输出层图像特征；

通过所述特征提取网络中的第二子网络对所述调整后的细节图像进行特征提取，得到所述特征提取网络输出的第二输出层图像特征；

所述通过所述特征融合网络对所述中间层图像特征和所述输出层图像特征进行特征融合，得到所述特征融合网络输出的融合特征，包括：

通过所述特征融合网络对所述中间层图像特征和所述第一输出层图像特征进行特征融合，得到所述特征融合网络输出的融合特征；

所述通过所述第一标签识别网络对所述输出层图像特征进行识别，得到所述第一标签识别网络输出的第一类图像标签，包括：

通过所述第一标签识别网络对所述第二输出层图像特征进行识别，得到所述第一标签识别网络输出的第一类图像标签。

可选的，所述第一标签识别网络中包括第一长短期记忆网络，所述第二标签识别网络中包括第二长短期记忆网络；

所述第一长短期记忆网络的输入包括所述第二长短期记忆网络的状态信息，所述第二长短期记忆网络的状态信息用于所述第一长短期记忆网络学习所述第一长短期记忆网络与所述第二长短期记忆网络之间的图像标签的语义相关性；

或者，所述第二长短期记忆网络的输入包括所述第一长短期记忆网络的状态信息，所述第一长短期记忆网络的状态信息用于所述第二长短期记忆网络学习所述第一长短期记忆网络与所述第二长短期记忆网络之间的图像标签的语义相关性。

可选的，所述特征提取网络中包括多个子网络，其中一个子网络中包括多个层级，所述多个层级中包括至少一个中间层级和一个输出层级，每个中间层级中包括卷积层和池化层，每个中间层级分别输出不同尺度的中间层图像特征，所述输出层级包括池化层和全连接层，所述输出层级输出所述输出层图像特征；

所述特征融合网络中包括多个卷积层和多个依次连接的上采样层，所述多个卷积层分为第一类卷积层和至少一个第二类卷积层，所述第一类卷积层用于对所述输出层图像特征进行卷积处理，每个第二类卷积层分别用于对一个中间层级输出的中间层图像特征进行卷积处理；所述多个上采样层包括一个第一类上采样层和至少一个第二类上采样层，所述第一类上采样层用于对所述第一类卷积层输出的卷积特征和所述第一类卷积层相邻的第二类卷积层输出的卷积特征相加后的卷积特征进行上采样，每个第二类上采样层用于对上一个上采样层输出的上采样特征和一个第二类卷积层输出的卷积特征相加后的卷积特征进行上采样，所述特征融合网络输出的融合特征为：最后一个上采样层输出的上采样特征和一个第二类卷积层输出的卷积特征相加后的特征。

可选的，所述神经网络模型中还包括第三标签识别网络；

所述通过所述特征融合网络对所述中间层图像特征和所述输出层图像特征进行特征融合，得到所述特征融合网络输出的融合特征之后，还包括：

通过所述第三标签识别网络对所述融合特征进行识别，得到所述第三标签识别网络输出的第三类图像标签。

可选的，所述待处理图像为画作图像，所述第一类图像标签为画作的类别标签，所述第二类图像标签为画作的题材标签，所述第三类图像标签为画作的内容标签；

或者，所述待处理图像为画作图像，所述第一类图像标签为画作的类别标签，所述第二类图像标签为画作的内容标签，所述第三类图像标签为画作的题材标签。

可选的，训练得到所述神经网络模型的过程包括：

获取初始特征提取网络和初始特征融合网络；

获取第一类样本图像及其对应的标签、第二类样本图像及其对应的标签、以及第三类样本图像及其对应的第一类图像标签和第二类图像标签；

利用所述第一类样本图像及其对应的标签，对所述初始特征提取网络进行预训练，得到预训练特征提取网络；

利用所述第二类样本图像及其对应的标签，对所述初始特征融合网络进行预训练，得到预训练特征融合网络；

利用所述第三类样本图像及其对应的标签，对所述预训练特征提取网络和所述预训练特征融合网络进行联合调整，得到调整后的特征提取网络和调整后的特征融合网络；

利用所述第三类样本图像及其对应的第一类图像标签和第二类图像标签，对待训练的神经网络进行训练，得到训练完成的神经网络模型；其中，所述待训练的神经网络中包括：所述调整后的特征提取网络、与所述调整后的特征提取网络相连接的初始第一标签识别网络和所述调整后的特征融合网络、与所述调整后的特征融合网络相连接的初始第二标签识别网络。

可选的，所述待处理图像为画作图像，所述第一类样本图像和第二类样本图像均为非画作类的样本图像，所述第三类样本图像为画作类的样本图像。

为达到上述目的，本发明实施例还提供了一种图像标签生成装置，包括：

第一获取模块，用于获取待处理图像；

输入模块，用于将所述待处理图像输入至预先训练得到的神经网络模型；所述神经网络模型中包括：特征提取网络、与所述特征提取网络相连接的第一标签识别网络和特征融合网络、与所述特征融合网络相连接的第二标签识别网络；所述神经网络模型用于输出第一类图像标签和第二类图像标签；

特征提取模块，用于通过所述特征提取网络对所述待处理图像进行特征提取，得到所述特征提取网络输出的中间层图像特征和输出层图像特征，所述中间层图像特征与所述输出层图像特征为不同尺度的图像特征；

特征融合模块，用于通过所述特征融合网络对所述中间层图像特征和所述输出层图像特征进行特征融合，得到所述特征融合网络输出的融合特征；

第一识别模块，用于通过所述第一标签识别网络对所述输出层图像特征进行识别，得到所述第一标签识别网络输出的第一类图像标签；

第二识别模块，用于通过所述第二标签识别网络对所述融合特征进行识别，得到所述第二标签识别网络输出的第二类图像标签。

为达到上述目的，本发明实施例还提供了一种电子设备，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任意一种图像标签生成方法。

为达到上述目的，本发明实施例还提供了非瞬态计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现上述的图像标签生成方法。

应用本发明所示实施例，神经网络模型包括特征提取网络、与特征提取网络相连接的第一标签识别网络和特征融合网络、与特征融合网络相连接的第二标签识别网络；通过特征提取网络对待处理图像进行特征提取，得到特征提取网络输出的中间层图像特征和输出层图像特征，中间层图像特征与输出层图像特征为不同尺度的图像特征；通过特征融合网络对中间层图像特征和输出层图像特征进行特征融合，得到特征融合网络输出的融合特征；通过第一标签识别网络对输出层图像特征进行识别，得到第一标签识别网络输出的第一类图像标签；通过第二标签识别网络对融合特征进行识别，得到第二标签识别网络输出的第二类图像标签。可见，本方案中，同一神经网络模型能够输出图像的多个标签，提供了一种能够生成图像的多标签的方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图像标签生成方法的第一种流程示意图；

图2为本发明实施例提供的神经网络模型的第一种结构示意图；

图3为本发明实施例提供的一种特征提取网络的结构示意图；

图4为本发明实施例提供的一种特征提取网络和特征融合网络的结构示意图；

图5为本发明实施例提供的一种第一标签识别网络的结构示意图；

图6为本发明实施例提供的一种第二标签识别网络的结构示意图；

图7为本发明实施例提供的图像标签生成方法的第二种流程示意图；

图8为本发明实施例提供的一种图像裁剪示意图；

图9为本发明实施例提供的神经网络模型的第二种结构示意图；

图10为本发明实施例提供的一种第一子网络和特征融合网络的结构示意图；

图11为本发明实施例提供的神经网络模型的第三种结构示意图；

图12为本发明实施例提供的一种图像标签生成装置的结构示意图；

图13为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了达到上述目的，本发明实施例提供了一种图像标签生成方法、装置及设备，该方法及装置可以应用于各种电子设备，具体不做限定。下面首先对该图像标签生成方法进行详细介绍。以下方法实施例中的各个步骤按照合乎逻辑的顺序执行即可，步骤标号或者对各步骤进行介绍的先后顺序，并不对各步骤的执行顺序构成限定。

图1为本发明实施例提供的图像标签生成方法的第一种流程示意图，包括：

S101：获取待处理图像。

举例来说，待处理图像可以为画作图像，本方案可以生成画作图像的多个标签。或者，待处理图像也可以为摄影图像、抓拍图像、视频图像等等，图像的具体类型不做限定。

S102：将待处理图像输入至预先训练得到的神经网络模型。

神经网络模型的结构可以参考图2所示，包括：特征提取网络、与特征提取网络相连接的第一标签识别网络和特征融合网络、与特征融合网络相连接的第二标签识别网络。神经网络模型用于输出第一类图像标签和第二类图像标签。神经网络模型为：基于样本图像及其对应的第一类图像标签和第二类图像标签，对预设结构的神经网络训练得到的。后续内容中再对训练得到神经网络模型的过程进行详细介绍。

S103：通过特征提取网络对待处理图像进行特征提取，得到特征提取网络输出的中间层图像特征和输出层图像特征，中间层图像特征与输出层图像特征为不同尺度的图像特征。

仍参考图2所示，特征提取网络的输入为待处理图像，输出为中间层图像特征和输出层图像特征。

一种实施方式中，特征提取网络可以采用VGG(Visual Geometry Group，视觉几何组)-16网络的主干部分，其可以包括卷积(convolution)层、池化(pooling)层和全连接(fully connected)层。参考图3所示，特征提取网络中可以包括多个层级，第一层级中可以包括卷积层1、池化层1和卷积层2，第二层级中可以包括池化层2和卷积层3，第三层级中可以包括池化层3和卷积层4，第四层级中可以包括池化层4和卷积层5，第五层级中可以包括池化层5和全连接层。这些层级均可以输出图像特征，为了区分描述，将第一层级至第四层级输出的图像特征均称为中间层图像特征，将第五层级输出的图像特征称为输出层图像特征。每一层级输出的图像特征的尺度均不相同，这里所说的尺度可以理解为图像的分辨率，各层级输出的图像特征尺度越来越小，第二层级输出的图像特征尺度小于第一层级输出的图像特征，第三层级输出的图像特征尺度小于第二层级输出的图像特征，以此类推，不再赘述。各层级输出的图像特征所对应的图像内容越来越细节化。

或者，其他实施方式中，也可以采用其他结构的特征提取网络，特征提取网络主要用于对图像进行特征提取，具体的网络结构及网络形式不做限定。

S104：通过特征融合网络对中间层图像特征和输出层图像特征进行特征融合，得到特征融合网络输出的融合特征。

仍参考图2所示，特征提取网络输出的中间层图像特征和输出层图像特征进入特征融合网络，特征融合网络的输出为融合特征。参考图4所示，特征提取网络中可以包括中间层级和输出层级，中间层级的数量可以为一个，或者可以为多个，输出层级的数量为一个，为了区分描述，将中间层级输出的图像特征称为中间层图像特征，将输出层级输出的图像特征称为输出层图像特征。中间层图像特征和输出层图像特征一并输入至特征融合网络。

如上所述，每一层级输出的图像特征的尺度均不相同，特征融合网络可以理解为对不同尺度的图像特征进行融合的网络。融合特征既包括了细粒度信息又包括了图像整体信息。

S105：通过第一标签识别网络对输出层图像特征进行识别，得到第一标签识别网络输出的第一类图像标签。

仍参考图2所示，特征提取网络输出的输出层图像特征进入第一标签识别网络，第一标签识别网络的输出为第一类图像标签。

举例来说，第一标签识别网络可以包括全连接层、输出层、连接(concatenate)层、长短期记忆(LSTM：Long Short-Term Memory)网络等等。一种实施方式中，参考图5所示，第一标签识别网络包括：全连接层、与全连接层相连接的输出层(该输出层可以以softmax作为损失函数)、与该输出层相连接的连接层、与连接层相连接的长短期记忆网络、与长短期记忆网络相连接的全连接层、与全连接层相连接的输出层(该输出层可以以softmax作为损失函数)。图5仅为举例说明，并不对第一标签识别网络的具体结构构成限定。第一标签识别网络中的长短期记忆网络适合于处理时间序列中间隔和延迟较长的信息，或者该长短期记忆网络也可以替换成其他的时间循环神经网络。第一标签识别网络中也可以选择其他损失函数，损失函数的具体类型不做限定。可以理解，在训练第一标签识别网络中，需要利用损失函数判断网络是否收敛，但训练完成后使用第一标签识别网络进行标签识别时，不需要再使用损失函数。

上述一种情况下，待处理图像为画作图像，这种情况下，第一类图像标签可以为画作图像的类别标签，例如，国画、油画、素描、水粉、水彩等等。

一种实施方式中，S105中第一标签识别网络可以输出多个第一类图像标签以及每个第一类图像标签的置信度。这种实施方式中，可以由相关人员将置信度最高的第一类图像标签作为最终确定的第一类图像标签，或者也可以设定置信度阈值，将置信度高于该置信度阈值的第一类图像标签作为最终确定的第一类图像标签。或者，其他实施方式中，第一标签识别网络也可以输出一个最终确定的第一类图像标签，第一标签识别网络输出的具体数据不做限定。

S106：通过第二标签识别网络对融合特征进行识别，得到第二标签识别网络输出的第二类图像标签。

仍参考图2所示，特征融合网络输出的融合特征进入第二标签识别网络，第二标签识别网络的输出为第二类图像标签。

举例来说，第二标签识别网络可以包括长短期记忆网络、全连接层、输出层等等。一种实施方式中，参考图6所示，第二标签识别网络包括：长短期记忆网络、与长短期记忆网络相连接的全连接层、与全连接层相连接的输出层(该输出层可以以sigmoid作为损失函数)。可以理解，在训练第二标签识别网络中，需要利用损失函数判断网络是否收敛，但训练完成后使用第二标签识别网络进行标签识别时，不需要再使用损失函数。图6仅为举例说明，并不对第二标签识别网络的具体结构构成限定。第二标签识别网络中的长短期记忆网络适合于处理时间序列中间隔和延迟较长的信息，或者该长短期网络记忆也可以替换成其他的时间循环神经网络。第二标签识别网络中也可以选择其他损失函数，损失函数的具体类型不做限定。

上述一种情况下，待处理图像为画作图像，这种情况下，第二类图像标签可以包括画作图像的题材标签，如风景、人物、动物等等，也可以包括画作图像的内容标签，如天空、房子、山、水、马等等。

一种实施方式中，S106中第二标签识别网络可以输出多个第二类图像标签以及每个第二类图像标签的置信度。这种实施方式中，可以由相关人员将置信度最高的第二类图像标签作为最终确定的第二类图像标签，或者也可以设定置信度阈值，将置信度高于该置信度阈值的第二类图像标签作为最终确定的第二类图像标签。或者，其他实施方式中，第二标签识别网络也可以输出一个最终确定的第二类图像标签，第二标签识别网络输出的具体数据不做限定。

应用本发明图1实施例，第一方面，同一神经网络模型能够输出图像的多个标签，提供了一种能够生成图像的多标签的方案。第二方面，特征融合网络为对不同尺度的图像特征进行融合，融合特征既包括了细粒度信息又包括了图像整体信息，进一步提升了标签识别的准确性。

图7为本发明实施例提供的图像标签生成方法的第二种流程示意图，包括：

S701：获取目标图像，从目标图像中裁剪出细节图像。

图1实施例中，将待处理图像输入至神经网络模型，图7实施例中，待处理图像可以包括整张的目标图像以及从目标图像中裁剪出的部分区域，这样可以兼顾图像的全局信息和局部信息。

S702：将细节图像的尺寸调整至与目标图像的尺寸一致，得到调整后的细节图像。

举例来说，可以采用双线性插值算法，将细节图像的尺寸调整至与目标图像的尺寸一致。或者，也可以对细节图像进行放大，直至细节图像的尺寸与目标图像的尺寸一致。具体的尺寸调整方式不做限定。

一种实施方式中，可以对细节图像再进行裁剪，得到细节图像的细节图像，再对该细节图像的细节图像进行尺寸调整，这样，可以进一步放大局部信息。以画作图像为例来说，参考图8所示，可以将整幅画作图像中的A区域裁剪出来，得到A区域对应的细节图像，再将该细节图像中的A1区域裁剪出来，得到A1区域对应的细节图像。将这些细节图像进行双线性插值处理，得到尺寸一致的多张图像，将该多张图像均作为待处理图像输入至神经网络模型。

S703：将目标图像和调整后的细节图像分别输入至预先训练得到的神经网络模型。

神经网络模型的结构可以参考图9所示，包括：特征提取网络、与特征提取网络相连接的第一标签识别网络和特征融合网络、与特征融合网络相连接的第二标签识别网络，特征提取网络包括第一子网络和第二子网络。神经网络模型为：基于样本图像及其对应的第一类图像标签和第二类图像标签，对预设结构的神经网络训练得到的。后续内容中再对训练得到神经网络模型的过程进行详细介绍。

如上所述，可以对细节图像再进行裁剪，得到细节图像的细节图像，这样，便得到了多层次的细节图像，每个层次的细节图像分别对应特征提取网络中的一个子网络。分别对每个层次的细节图像进行尺寸调整，将调整后的每个层次的细节图像分别输入至其对应的子网络中。细节图像的层次数量不做限定，相应的，特征提取网络中的子网络数量也不做限定。特征提取网络中的每个子网络均可以采用图3所示的VGG-16网络结构，每个子网络的网络结构可以相同。或者，各子网络的网络结构也可以不同，子网络起到特征提取的作用即可，具体网络结构不做限定。

为了区分描述，将目标图像对应的子网络称为第一子网络，将调整后的细节图像对应的子网络称为第二子网络。或者说，将目标图像输入第一子网络中，将调整后的细节图像输入第二子网络中。

S704：通过特征提取网络中的第一子网络对目标图像进行特征提取，得到特征提取网络输出的中间层图像特征和第一输出层图像特征。

S705：通过特征提取网络中的第二子网络对调整后的细节图像进行特征提取，得到特征提取网络输出的第二输出层图像特征。

仍参考图9所示，特征提取网络中的第一子网络的输入为目标图像，输出为中间层图像特征和输出层图像特征。特征提取网络中的第二子网络的输入为调整后的细节图像，输出为输出层图像特征。为了区分描述，将特征提取网络中的第一子网络输出的输出层图像特征称为第一输出层图像特征，将特征提取网络中的第二子网络输出的输出层图像特征称为第二输出层图像特征。

S706：通过特征融合网络对中间层图像特征和第一输出层图像特征进行特征融合，得到特征融合网络输出的融合特征。

一种实施方式中，特征提取网络中包括多个子网络，其中一个子网络中包括多个层级，所述多个层级中包括至少一个中间层级和一个输出层级，每个中间层级中包括卷积层和池化层，每个中间层级分别输出不同尺度的中间层图像特征，所述输出层级包括池化层和全连接层，所述输出层级输出所述输出层图像特征；

特征融合网络中包括多个卷积层和多个依次连接的上采样层，所述多个卷积层分为第一类卷积层和至少一个第二类卷积层，所述第一类卷积层用于对所述输出层图像特征进行卷积处理，每个第二类卷积层分别用于对一个中间层级输出的中间层图像特征进行卷积处理；

所述多个上采样层包括一个第一类上采样层和至少一个第二类上采样层，所述第一类上采样层用于对所述第一类卷积层输出的卷积特征和所述第一类卷积层相邻的第二类卷积层输出的卷积特征进行上采样，每个第二类上采样层用于对上一个上采样层输出的上采样特征和一个第二类卷积层输出的卷积特征进行上采样，所述特征融合网络输出的融合特征为：最后一个上采样层输出的上采样特征和一个第二类卷积层输出的卷积特征相加后的特征。

下面参考图10对本实施方式进行解释说明，图10中的第一子网络采用图3所示的VGG-16网络结构。本实施方式中，特征提取网络中包括多个子网络，图10中主要展示了第一子网络的结构，第一子网络中包括4个中间层级(第一层级、第二层级、第三层级和第四层级)和1个输出层级。每个中间层级均包括卷积层和池化层，输出层级包括池化层和全连接层：第一层级包括卷积层1、池化层1和卷积层2，第二层级包括池化层2和卷积层3，第三层级包括池化层3和卷积层4，第四层级包括池化层4和卷积层5，第五层级包括池化层5和全连接层。

特征融合网络中包括5个卷积层和多个依次连接的3个上采样层，先对卷积层进行说明：特征融合网络中的卷积层1为第一类卷积层，特征融合网络中的卷积层2、卷积层3、卷积层4和卷积层5为第二类卷积层，第一类卷积层用于对输出层图像特征进行卷积处理，每个第二类卷积层分别用于对一个中间层级输出的中间层图像特征进行卷积处理。

再对上采样层进行说明：特征融合网络中的上采样层1为第一类上采样层，特征融合网络中的上采样层2和上采样层3为第二类上采样层，第一类上采样层用于对第一类卷积层(卷积层1)输出的卷积特征和第一类卷积层相邻的第二类卷积层(卷积层2)输出的卷积特征相加后的卷积特征进行上采样，上采样层2用于对上采样层1输出的上采样特征和卷积层3输出的卷积特征相加后的卷积特征进行上采样，上采样层3用于对上采样层2输出的上采样特征和卷积层4输出的卷积特征相加后的卷积特征进行上采样，上采样层3输出的上采样特征和卷积层5输出的卷积特征相加后即为特征融合网络的输出数据。

S707：通过第一标签识别网络对第二输出层图像特征进行识别，得到第一标签识别网络输出的第一类图像标签。

S708：通过第二标签识别网络对融合特征进行识别，得到第二标签识别网络输出的第二类图像标签。

图1实施例中已经对特征提取网络、特征融合网络、第一标签识别网络和第二标签识别网络进行了详细的介绍，这里不再赘述。

应用本发明图7所示实施例，神经网络模型的输入既包含整张图像又包含整张图像的局部区域，这样可以兼顾图像的全局信息和局部信息。

仍以画作图像为例来说，识别一些画作图像的类别标签比较困难，或者说，标签识别的准确性较低。例如，一些油画图像与一些水粉画图像容易混淆，识别这两种画作图像的类别标签的准确性较低。

应用本发明图7所示实施例，神经网络模型的输入包含整张图像的局部区域，该局部区域对画作图像的细节信息进行了放大，该局部区域能够反应图像的细节特征，例如笔触特征，根据笔触特征能够区分油画图像和水粉画图像。因此，本方案提高了标签识别的准确性。

一种实施方式中，第一标签识别网络中包括第一长短期记忆网络，所述第二标签识别网络中包括第二长短期记忆网络；

如上所述，第一标签识别网络和第二标签识别网络中均可以包括长短期记忆网络，为了区分描述，将第一标签识别网络中的长短期记忆网络称为第一长短期记忆网络，将第二标签识别网络中的长短期记忆网络称为第二长短期记忆网络。

LSTM的输入通常包括如下三种数据：当前时刻LSTM的输入值x_t、上一时刻LSTM的输出值h_t-1、以及上一时刻LSTM的状态信息c_t-1；LSTM的输出通常包括如下两种数据：当前时刻LSTM输出值h_t、以及当前时刻LSTM的状态信息c_t。本实施方式中，第一长短期记忆网络输出的c_t可以作为第一长短期记忆网络的输入c_t-1，和/或，第二长短期记忆网络输出的c_t可以作为第一长短期记忆网络的输入c_t-1。也就是说，第一长短期记忆网络与第二长短期记忆网络之间可以单向交互或者双向交互状态信息。

一些情况下，标签之间存在相关性，仍以画作图像为例来说，“国画”这一类别标签与“花鸟”这一题材标签之间存在相关性，“油画”这一类别标签和“神话”这一题材标签具有相关性，等等，具体相关情况不再一一列举。本实施方式中，LSTM之间交互状态信息，或者说，第一标签识别网络和第二标签识别网络之间通过LSTM相连接，能够学习标签之间的语义相关性，进而能够利用标签之间的语义相关性提升标签的识别准确度。

一种实施方式中，所述神经网络模型中还包括第三标签识别网络；还可以通过所述第三标签识别网络对所述融合特征进行识别，得到所述第三标签识别网络输出的第三类图像标签。

第三类标签识别网络的结构可以与第二类标签识别网络的结构相同，这里不再对第三类标签识别网络的具体结构进行赘述。

第三标签识别网络可以输出多个第三类图像标签以及每个第三类图像标签的置信度。这种实施方式中，可以由相关人员将置信度最高的第三类图像标签作为最终确定的第三类图像标签，或者也可以设定置信度阈值，将置信度高于该置信度阈值的第三类图像标签作为最终确定的第三类图像标签。或者，其他实施方式中，第三标签识别网络也可以输出一个最终确定的第三类图像标签，第三标签识别网络输出的具体数据不做限定。

本实施方式中，同一神经网络模型能够输出图像的三类标签。以待处理图像为画作图像为例来说，一种情况下，第一类图像标签为画作的类别标签，第二类图像标签为画作的题材标签，第三类图像标签为画作的内容标签。或者，另一种情况下，待处理图像为画作图像，第一类图像标签为画作的类别标签，第二类图像标签为画作的内容标签，第三类图像标签为画作的题材标签。

下面参考图11所示，介绍一种具体的神经网络模型的结构：

假设目标图像为图8中的画作图像，将该画作图像中的A区域裁剪出来，得到A区域对应的细节图像，也就是第一级细节图像，将第一级细节图像进行双线性插值处理，得到调整后的第一级细节图像。将第一级细节图像中的A1区域裁剪出来，得到A1区域对应的细节图像，也就是第二级细节图像，将第二级细节图像进行双线性插值处理，得到调整后的第二级细节图像。目标图像、调整后的第一级细节图像和调整后的第二级细节图像的尺寸一致。分别将目标图像、调整后的第一级细节图像和调整后的第二级细节图像输入至不同的VGG-16网络中。

图11中包括三个VGG-16网络，每个VGG-16网络分别连接一个全连接层，全连接层之后分别连接一个输出层(该输出层可以以softmax作为损失函数)，三个输出层全部连接同一个连接层，该连接层连接一个长短期记忆网络，该长短期记忆网络连接一个全连接层，该全连接层连接一个输出层(该输出层可以以sigmoid作为损失函数)，通过该输出层最终输出类别标签。此外，目标图像输入的VGG-16网络还连接一个特征融合网络，该特征融合网络连接两个不同的长短期记忆网络，这两个长短期记忆网络分别连接不同的全连接层，每个全连接层分别连接不同的输出层(该输出层可以以sigmoid作为损失函数)，两个输出层分别输出题材标签和内容标签。

图11中的VGG-16可以理解为上述实施例中的特征提取网络，每个VGG-16可以理解为特征提取网络中的一个子网络；VGG-16之后连接的全连接层、输出层、连接层、长短期记忆网络、全连接层和输出层可以理解为上述实施例中的第一标签识别网络，该第一标签识别网络输出类别标签；特征融合网络之后连接的长短期记忆网络、全连接层和输出层可以理解为上述实施例中的第二标签识别网络，该第二标签识别网络输出题材标签和类别标签。

可以理解，在训练神经网络中，需要利用损失函数判断网络是否收敛，但训练完成后使用神经网络模型时，不需要再使用损失函数。

图11中所示出的三个长短期记忆网络之间可以交互状态信息，图11中这三个长短期记忆网络之间的箭头方向仅为举例说明，并不对这三个长短期记忆网络之间之间的状态信息交互情况构成限定，这三个长短期记忆网络之间的箭头可以为单向箭头，也可以为双向箭头，箭头指向不做限定。通过长短期记忆网络之间交互状态信息，能够学习标签之间的语义相关性，进而能够利用标签之间的语义相关性提升标签的识别准确度。

延续上述例子，以图8所示的画作图像作为输入，图11所示的神经网络最终输出的类别标签可以包括“油画”，题材标签可以包括“写实”、“风景”，内容标签可以包括“人”、“水”、“船”、“天空”、“云”、“草”、“树”、“房子”、“鸟”。

应用图11所示结构的神经网络模型对画作图像进行标签识别，第一方面，识别画作图像的类别标签时，模型的输入包含画作图像的局部区域，该局部区域对画作图像的细节信息进行了放大，能够反应画作图像的细节特征，例如笔触特征，这样，能够更准确识别出画作图像的类别标签。第二方面，识别画作图像的题材标签和内容标签时，模型的输入为整体的画作图像，也就是从整体上识别题材标签和内容标签，识别逻辑更合理，而且特征融合网络为对不同尺度的图像特征进行融合，融合特征既包括了细粒度信息又包括了图像整体信息，进一步提升了识别题材标签和内容标签的准确性。第三方面，通过长短期记忆网络之间交互状态信息，能够学习标签之间的语义相关性，进而能够利用标签之间的语义相关性提升标签的识别准确度。

下面对神经网络模型的训练方式进行介绍：

如上所述，神经网络模型为：基于样本图像及其对应的第一类图像标签和第二类图像标签，对预设结构的神经网络训练得到的。一种实施方式中，可以获取预设结构的神经网络，该神经网络的结构可以如图2、或图9、或图11所示，或者为上述实施例中介绍的任意一种结构。将样本图像输入至该神经网络中，将神经网络的输出结果与样本图像对应的第一类图像标签和第二类图像标签进行对比，基于对比结果以及该神经网络中的损失函数，对该神经网络中的网络参数进行迭代调整，直到该神经网络收敛时，得到训练完成的神经网络模型。

下面介绍一种训练得到神经网络模型的具体实施方式，训练过程可以包括：

获取初始特征提取网络和初始特征融合网络；

可以理解，待训练的神经网络与训练完成的神经网络模型的结构是相同的，训练过程只是对网络参数进行迭代调整的过程。待训练的神经网络中也包含特征提取网络、特征融合网络、第一标签识别网络和第二标签识别网络等部分，为了区分描述，这些网络未经过训练时，将其称为初始网络，这些网络经过预训练后，将其称为调整后的网络。各部分网络的网络结构参考上述实施例中的相关描述，这里不再赘述。

一种实施方式中，所述第一类样本图像和第二类样本图像均为非画作类的图像，所述第三类样本图像为画作类的样本图像。

举例来说，第一类样本图像可以为Imagenet公开数据集，或者也可以为其他开源的的图像库。第二类样本图像可以为与画作类图像相近的摄影图像或者其他近似图像。第三类样本图像即为画作图像。可见，本实施方式中，先利用非画作类的样本图像对神经网络的部分网络进行预训练，然后再利用画作类的样本图像对预训练后的神经网络进行调整，这样，利用少量的画作样本图像便可以训练得到对画作图像进行标签识别的神经网络模型，减少了训练过程中对画作图像的需求，进而也就减少了训练成本。

第一类样本图像对应的标签为普通图像的单标签，例如，Imagenet公开数据集中本身即包括图像的标签。第二类样本图像对应的标签也可以为普通图像的单标签，例如，摄影图像可以对应人物、风景等标签。第三类样本图像对应的第一类图像标签和第二类图像标签可以为画作图像对应的类别标签、题材标签和内容标签。

上述第一类样本图像、第二类样本图像和第三类样本图像的具体类型不做限定，下面以第一类样本图像为Imagenet公开数据集、第二类样本图像为摄影图像、第三类样本图像为画作图像为例进行说明。

参考图11来说，先对整体网络中的VGG-16和特征融合网络进行训练。可以包括以下3个步骤：1)先基于Imagenet公开数据集对VGG-16进行预训练，得到VGG-16的预训练网络参数。2)基于摄影图像及其对应的标签对特征融合网络进行预训练，得到特征融合网络的预训练网络参数。3)将1)和2)中得到的预训练网络参数分别加载至图11中的VGG-16和特征融合网络中，然后基于画作图像及其对应的类别标签、题材标签和内容标签，对VGG-16和特征融合网络进行微调，这里的微调是对VGG-16和特征融合网络进行联合调整，将微调后得到的两部分网络参数进行保存。

然后对图11所示的整体网络进行训练，可以包括如下步骤：1)将保存的VGG-16和特征融合网络这两部分网络参数分别加载至图11中的VGG-16和特征融合网络中。2)基于画作图像及其对应的类别标签、题材标签和内容标签，对整个网络进行训练，得到最终的网络参数。将该最终的网络参数加载至整体网络中，便得到的神经网络模型。

一种实施方式中，获取第三类样本图像及其对应的第一类图像标签和第二类图像标签，可以包括：获取画作类的样本图像及其对应的第一类图像标签和第二类图像标签；在所获取的画作类的样本图像中，分别确定每种标签对应的画作类的样本图像的数量；若所述数量大于第一预设阈值，则对所述数量对应的画作类的样本图像进行欠采样处理，得到第三类样本图像；若所述数量小于第二预设阈值，则对所述数量对应的画作类的样本图像进行过采样处理，得到第三类样本图像，所述第二预设阈值小于所述第一预设阈值。

举例来说，如果“国画”这一标签对应的画作图像的数量为100张，而“油画”这一标签对应的画作图像的数量为1000张，则可以对“国画”这一标签对应的画作图像进行过采样处理，对“油画”这一标签对应的画作图像进行欠采样处理，这样可以使得用于训练的各标签对应的画作图像数量均衡。第一预设阈值和第二预设阈值的具体数值可以根据实际情况设定，这里不做限定。

可见，应用本实施方式，能够使得用于训练的各标签对应的画作图像数量均衡，提升训练效果，进一步提升神经网络模型的标签识别准确度。

一种实施方式中，若所述数量小于第二预设阈值，还可以对所述数量对应的画作类的样本图像进行数据增强处理，再对数据增强处理后的画作类的样本图像进行过采样处理，得到第三类样本图像。

上述实施方式中，如果某标签对应的画作类的样本图像数量较少，可以对这种标签对应的画作类的样本图像进行过采样处理。本实施方式中，可以先对这种标签对应的画作类的样本图像进行数据增强处理，然后再对数据增强处理后的画作类的样本图像进行过采样处理，这样，可以进一步补充数量较少的画作图像。

举例来说，数据增强方式可以包括：局部裁剪、图像旋转、增加噪声、改变颜色等等，具体增强方式不做限定。

应用本发明所示实施例，第一方面，同一神经网络模型能够输出图像的多个标签，提供了一种能够生成图像的多标签的方案。第二方面，特征融合网络为对不同尺度的图像特征进行融合，融合特征既包括了细粒度信息又包括了图像整体信息，进一步提升了标签识别的准确性。第三方面，神经网络模型的输入包含整张图像的局部区域，该局部区域对画作图像的细节信息进行了放大，该局部区域能够反应图像的细节特征，例如笔触特征，根据笔触特征能够区分油画图像和水粉画图像。因此，本方案提高了标签识别的准确性。第四方面，第一标签识别网络和第二标签识别网络之间通过LSTM相连接，能够学习标签之间的语义相关性，进而能够利用标签之间的语义相关性提升标签的识别准确度。第四方面，训练神经网络的过程中，先利用非画作类的样本图像对神经网络的部分网络进行预训练，然后再利用画作类的样本图像对预训练后的神经网络进行调整，这样，利用少量的画作样本图像便可以训练得到对画作图像进行标签识别的神经网络模型，减少了训练过程中对画作图像的需求，进而也就减少了训练成本。

与上述方法实施例相对应，本发明实施例还提供了一种图像标签生成装置，如图12所示，包括：

第一获取模块1201，用于获取待处理图像；

输入模块1202，用于将所述待处理图像输入至预先训练得到的神经网络模型；所述神经网络模型中包括：特征提取网络、与所述特征提取网络相连接的第一标签识别网络和特征融合网络、与所述特征融合网络相连接的第二标签识别网络；所述神经网络模型用于输出第一类图像标签和第二类图像标签；

特征提取模块1203，用于通过所述特征提取网络对所述待处理图像进行特征提取，得到所述特征提取网络输出的中间层图像特征和输出层图像特征，所述中间层图像特征与所述输出层图像特征为不同尺度的图像特征；

特征融合模块1204，用于通过所述特征融合网络对所述中间层图像特征和所述输出层图像特征进行特征融合，得到所述特征融合网络输出的融合特征；

第一识别模块1205，用于通过所述第一标签识别网络对所述输出层图像特征进行识别，得到所述第一标签识别网络输出的第一类图像标签；

第二识别模块1206，用于通过所述第二标签识别网络对所述融合特征进行识别，得到所述第二标签识别网络输出的第二类图像标签。

一种实施方式中，第一获取模块1201具体用于：获取目标图像；从所述目标图像中裁剪出细节图像；将所述细节图像的尺寸调整至与所述目标图像的尺寸一致，得到调整后的细节图像；

输入模块1202具体用于：将所述目标图像和所述调整后的细节图像分别输入至预先训练得到的神经网络模型；

特征提取模块1203具体用于：通过所述特征提取网络中的第一子网络对所述目标图像进行特征提取，得到所述特征提取网络输出的中间层图像特征和第一输出层图像特征；通过所述特征提取网络中的第二子网络对所述调整后的细节图像进行特征提取，得到所述特征提取网络输出的第二输出层图像特征；

特征融合模块1204具体用于：通过所述特征融合网络对所述中间层图像特征和所述第一输出层图像特征进行特征融合，得到所述特征融合网络输出的融合特征；

第一识别模块1205具体用于：通过所述第一标签识别网络对所述第二输出层图像特征进行识别，得到所述第一标签识别网络输出的第一类图像标签。

一种实施方式中，所述第一标签识别网络中包括第一长短期记忆网络，所述第二标签识别网络中包括第二长短期记忆网络；

一种实施方式中，所述特征提取网络中包括多个子网络，其中一个子网络中包括多个层级，所述多个层级中包括至少一个中间层级和一个输出层级，每个中间层级中包括卷积层和池化层，每个中间层级分别输出不同尺度的中间层图像特征，所述输出层级包括池化层和全连接层，所述输出层级输出所述输出层图像特征；

所述特征融合网络中包括多个卷积层和多个依次连接的上采样层，所述多个卷积层分为第一类卷积层和至少一个第二类卷积层，所述第一类卷积层用于对所述输出层图像特征进行卷积处理，每个第二类卷积层分别用于对一个中间层级输出的中间层图像特征进行卷积处理；所述多个上采样层包括一个第一类上采样层和至少一个第二类上采样层，所述第一类上采样层用于对所述第一类卷积层输出的卷积特征和所述第一类卷积层相邻的第二类卷积层输出的卷积特征进行上采样，每个第二类上采样层用于对上一个上采样层输出的上采样特征和一个第二类卷积层输出的卷积特征进行上采样，所述特征融合网络输出的融合特征为：最后一个上采样层输出的上采样特征和一个第二类卷积层输出的卷积特征相加后的特征。

一种实施方式中，所述神经网络模型中还包括第三标签识别网络；

所述装置还包括：第三识别模块(图中未示出)，用于通过所述第三标签识别网络对所述融合特征进行识别，得到所述第三标签识别网络输出的第三类图像标签。

一种实施方式中，所述待处理图像为画作图像，所述第一类图像标签为画作的类别标签，所述第二类图像标签为画作的题材标签，所述第三类图像标签为画作的内容标签；

一种实施方式中，所述装置还包括：第二获取模块、第三获取模块、第一训练模块、第二训练模块、第三训练模块和第四训练模块(图中未示出)，其中，

第二获取模块，用于获取初始特征提取网络和初始特征融合网络；

第三获取模块，用于获取第一类样本图像及其对应的标签、第二类样本图像及其对应的标签、以及第三类样本图像及其对应的第一类图像标签和第二类图像标签；

第一训练模块，用于利用所述第一类样本图像及其对应的标签，对所述初始特征提取网络进行预训练，得到预训练特征提取网络；

第二训练模块，用于利用所述第二类样本图像及其对应的标签，对所述初始特征融合网络进行预训练，得到预训练特征融合网络；

第三训练模块，用于利用所述第三类样本图像及其对应的标签，对所述预训练特征提取网络和所述预训练特征融合网络进行联合调整，得到调整后的特征提取网络和调整后的特征融合网络；

第四训练模块，用于利用所述第三类样本图像及其对应的第一类图像标签和第二类图像标签，对待训练的神经网络进行训练，得到训练完成的神经网络模型；其中，所述待训练的神经网络中包括：所述调整后的特征提取网络、与所述调整后的特征提取网络相连接的初始第一标签识别网络和所述调整后的特征融合网络、与所述调整后的特征融合网络相连接的初始第二标签识别网络。

一种实施方式中，所述待处理图像为画作图像，所述第一类样本图像和第二类样本图像均为非画作类的样本图像，所述第三类样本图像为画作类的样本图像。

本发明实施例还提供了一种电子设备，如图13所示，包括处理器1301和存储器1302，

存储器1302，用于存放计算机程序；

处理器1301，用于执行存储器1302上所存放的程序时，实现上述任意一种图像标签生成方法。

上述电子设备提到的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种非瞬态计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种图像标签生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任意一种图像标签生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、设备实施例、计算机可读存储介质实施例、以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像标签生成方法，其特征在于，包括：

获取待处理图像；

2.根据权利要求1所述的方法，其特征在于，所述获取待处理图像，包括：

获取目标图像；

从所述目标图像中裁剪出细节图像；

3.根据权利要求1所述的方法，其特征在于，所述第一标签识别网络中包括第一长短期记忆网络，所述第二标签识别网络中包括第二长短期记忆网络；

4.根据权利要求1所述的方法，其特征在于，所述特征提取网络中包括多个子网络，其中一个子网络中包括多个层级，所述多个层级中包括至少一个中间层级和一个输出层级，每个中间层级中包括卷积层和池化层，每个中间层级分别输出不同尺度的中间层图像特征，所述输出层级包括池化层和全连接层，所述输出层级输出所述输出层图像特征；

5.根据权利要求1所述的方法，其特征在于，所述神经网络模型中还包括第三标签识别网络；

6.根据权利要求5所述的方法，其特征在于，所述待处理图像为画作图像，所述第一类图像标签为画作的类别标签，所述第二类图像标签为画作的题材标签，所述第三类图像标签为画作的内容标签；

7.根据权利要求1所述的方法，其特征在于，训练得到所述神经网络模型的过程包括：

获取初始特征提取网络和初始特征融合网络；

8.根据权利要求7所述的方法，其特征在于，所述待处理图像为画作图像，所述第一类样本图像和第二类样本图像均为非画作类的样本图像，所述第三类样本图像为画作类的样本图像。

9.一种图像标签生成装置，其特征在于，包括：

第一获取模块，用于获取待处理图像；

10.一种电子设备，其特征在于，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。

11.一种非瞬态计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1至8任一项所述的图像标签生成方法。