CN111061889A

CN111061889A - 图片多标签的自动识别方法和装置

Info

Publication number: CN111061889A
Application number: CN201811202664.0A
Authority: CN
Inventors: 李月; 王婷婷
Original assignee: BOE Technology Group Co Ltd
Current assignee: Boe Yiyun Hangzhou Technology Co ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2020-04-24
Anticipated expiration: 2038-10-16
Also published as: EP3867808A1; US20220180624A1; WO2020077940A1; CN111061889B

Abstract

公开了一种自动识别图片中的多标签的方法、装置及其计算机程序实现。该方法包括：由主干网络模块从图片中提取图片的特征图，并对特征图进行多标签分类，得到图片的类别、题材和第一内容标签预测结果；由特征增强模块基于特征图获得每个特征通道的重要程度，并根据每个特征通道的重要程度增强特征图中的重要程度高的特征，输出经特征增强的特征图；以及将经特征增强的特征图输入空间正则化模块，经过空间正则化模块中的正则化处理得到图片的第二内容标签预测结果；对第一内容标签预测结果和第二内容标签预测结果进行加权平均以得到加权的内容标签预测结果；和从类别、题材和加权的内容标签预测结果组成的标签预测结果向量生成图片的标签集合。

Description

图片多标签的自动识别方法和装置

技术领域

本公开总地涉及图片标签的识别，更具体而言，涉及一种用于图片多标签自动识别的方法和装置。

背景技术

多标签图片分类是一项极具挑战性的工作，在诸如场景识别、多目标识别、人体属性识别之类的领域中具有广泛的应用前景。图片的标签，以画作标签为例，一般分为类别标签（国画、油画、素描、水粉水彩等）、题材标签（风景、人物、动物等）、内容标签（天空、房子、山、水、马等）等，其中类别标签与题材标签针对整幅画作的特征进行判断和分类，而内容标签则针对画作的局部特征进行判断和分类。

目前已有的图片标签识别方法主要分为单标签识别与多标签识别，两类识别方法具有一定差异。单标签识别方法基于基础分类网络，而多标签识别多基于注意力机制，通过局部关键特征和位置信息进行标签的识别，适用于对两个相似主题通过各个局部比较来识别标签。但目前已有的方法均是基于普通图片（包括例如照片、图片或者画作）来生成对应的内容标签或者场景标签，没有考虑图片（例如艺术画作）标签的特点，使得识别效果较差。同时，还需要单独的网络来分别生成单标签与多标签，使得模型的计算量较大。

发明内容

根据本公开的第一方面，提供了一种自动识别图片中的多标签的方法，所述方法包括：由主干网络模块从图片中提取所述图片的特征图，并对所述特征图进行多标签分类，得到所述图片的类别标签预测结果

、题材标签预测结果

和第一内容标签预测结果

；由特征增强模块基于所述特征图获得每个特征通道的重要程度，并根据所述每个特征通道的重要程度增强所述特征图中的重要程度高的特征，并输出经特征增强的特征图；以及将所述经特征增强的特征图输入空间正则化模块，经过所述空间正则化模块中的正则化处理得到所述图片的第二内容标签预测结果

；对第一内容标签预测结果

和第二内容标签预测结果

进行加权平均以得到加权的内容标签预测结果

；和从类别标签预测结果

、题材标签预测结果

和加权的内容标签预测结果

组成的标签预测结果向量

来生成所述图片的标签集合。

在一些实施例中，特征增强模块包括第一卷积模块且该第一卷积模块包括顺序连接的全局池化层、第一卷积层、非线性激活函数、第二卷积层与激活函数，以及该方法包括使用所述特征增强模块生成多个特征通道的加权权值来增强所述特征图中与要识别的所述标签的特征关联程度较高的特征。

在一些实施例中，在通过所述特征增强模块增强所述特征图中的重要程度高的特征之前，还包括通过第二卷积模块来提取所述特征图中针对整体图片的高级语义特征。

在一些实施例中，所述第一卷积模块和第二卷积模块组成集成卷积结构，且串联连接的集成卷积结构的个数通过超参数M来设置，其中M为大于等于2的整数，并且M是基于不同内容标签个数和训练数据集的大小确定的。

在一些实施例中，生成图片的标签集合还包括通过K维全连接模块处理标签预测结果向量

，以输出语义关联增强的标签预测结果向量

，其中K是包括类别标签、题材标签和内容标签在内的所有标签的数量，

是语义关联增强的类别标签预测结果，

是语义关联增强的题材标签预测结果，

是语义关联增强的内容标签预测结果。

在一些实施例中，将语义关联增强的题材标签预测结果

和语义关联增强的内容标签预测结果

分别与各自的置信度阈值进行比较，以确定它们中的各个标签是否存在。

在一些实施例中，采用回归学习的方式，通过训练来得到与题材标签预测结果

和内容标签预测结果

中的每个标签对应的置信度阈值。

在一些实施例中，阈值设定模块包括两层卷积网络Con 1*n和Conv n*1，所述两层卷积网络Con 1*n和Conv n*1后面分别接有Batchnorm和Relu函数的网络结构，其中n可以根据标签个数和训练效果进行调整。

在一些实施例中，在对图片进行识别之前，还包括以下训练步骤：利用所有标签数据训练所述主干网络模块的第一网络参数，并固定所述第一网络参数；以及在所述第一网络参数固定的情况下，利用带有内容标签的训练数据训练所述特征增强模块和空间正则化网络的第二网络参数，并固定所述第二网络参数。

在一些实施例中，在通过K维全连接模块处理标签预测结果向量

之前，还包括以下训练步骤：在训练并固定所述第一网络参数和第二网络参数的情况下，利用所有训练数据训练所述K维全连接模块的第三网络参数，并固定所述第三网络参数；其中，K是包括类别标签、题材标签和内容标签在内的所有标签的数量。

在一些实施例中，利用阈值设定模块训练得到所述置信度阈值是在训练并固定所述第一网络参数、第二网络参数、第三网络参数的情况下进行的。

根据本公开的第二方面，提供了一种自动识别图片中的多标签的装置，包括：主干网络模块，被配置为从所述图片中提取所述图片的特征图，并对所述特征图进行多标签分类，得到所述图片的类别标签预测结果

、题材标签预测结果

和第一内容标签预测结果

；特征增强模块，被配置为基于所述特征图获得每个特征通道的重要程度，并根据所述每个特征通道的重要程度来增强所述特征图中的重要程度较高的特征并输出经特征增强的特征图；以及空间正则化模块，被配置为将所述经特征增强的特征图输入空间正则化模块，经过所述空间正则化模块中的正则化处理得到所述图片的第二内容标签预测结果

；加权模块，被配置为对第一内容标签预测结果

和第二内容标签预测结果

进行加权平均以得到加权的内容标签预测结果

；和标签生成模块，被配置为从类别标签预测结果

、题材标签预测结果

和加权的内容标签预测结果

组成的标签预测结果向量

来生成所述图片的标签集合。

在一些实施例中，特征增强模块包括第一卷积模块。该第一卷积模块包括顺序连接的全局池化层、第一卷积层、非线性激活函数、第二卷积层与激活函数，以生成多个特征通道的加权权值来增强所述特征图中的重要程度较高的特征。

在一些实施例中，所述装置还包括特征提取模块，其包括第二卷积模块以提取所述特征图中针对整体图片的高级语义特征。所述特征提取模块的输出被提供给所述特征增强模块作为输入。

在一些实施例中，所述第一卷积模块和第二卷积模块组成集成卷积结构。串联连接的集成卷积结构的个数通过超参数M来设置，其中M为大于等于2的整数，并且M是基于不同内容标签个数和训练数据集的大小确定的。

在一些实施例中，所述标签生成模块还包括K维全连接模块，其被配置为对标签预测结果向量

进行处理，以输出语义关联增强的标签预测结果向量

是语义关联增强的类别标签预测结果，

是语义关联增强的题材标签预测结果，

是语义关联增强的内容标签预测结果。

在一些实施例中，所述标签生成模块还包括标签判定模块，被配置为将语义关联增强的题材标签预测结果

和语义关联增强的内容标签预测结果

在一些实施例中，所述标签生成模块还包括阈值设定模块，被配置为采用回归学习的方式，通过训练来得到与题材标签预测结果

和内容标签预测结果

中的每个标签对应的置信度阈值。

在一些实施例中，所述主干网络模块、特征增强模块和空间正则化模块还被配置为在对图片进行识别之前进行如下的训练：利用所有标签数据训练所述主干网络模块的第一网络参数；以及在所述第一网络参数固定的情况下，利用带有内容标签的训练数据训练所述特征增强模块和空间正则化网络的第二网络参数。

在一些实施例中，K维全连接模块还被配置为在对标签预测结果向量

进行处理之前进行如下的训练：在训练并固定所述第一网络参数和第二网络参数的情况下，利用所有训练数据训练所述K维全连接模块的第三网络参数，并固定所述第三网络参数。

在一些实施例中，阈值设定模块还被配置为在训练并固定所述第一网络参数、第二网络参数、第三网络参数的情况下训练得到所述置信度阈值。

根据本公开的第三方面，提供了一种用于自动识别图片中的多标签的计算机设备，包括：一个或多个处理器；和耦合到所述一个或多个处理器的存储器，该存储器存储指令，所述指令在被所述一个或多个处理器执行时使得该计算机设备执行根据本公开第一方面所述的方法。

根据本公开的第四方面，提供了一种计算机程序产品，所述计算机程序产品包括存储有指令的计算机可读存储介质，所述指令在被计算系统的至少一个处理器执行时使得计算系统执行本公开第一方面所述的方法。

附图说明

通过阅读以下的详细说明和仔细查看相关联的附图，这些和其它的特征与优点将是明显的。应当明白，上述的一般性说明和以下的详细说明均仅仅是说明性的，而不是对所要求保护的方面的限制。

图1图示了根据本公开实施例的自动识别图片多标签的方法的流程图。

图2图示了根据本公开一个实施例的用于自动识别图片的多标签的装置的一个示例性框图。

图3图示了根据本公开一个实施例的一种卷积结构。

图4图示了根据本公开另一个实施例的另一种卷积结构。

图5图示了根据本公开一个实施例的阈值设定模块中的卷积结构。

图6图示了根据本发明一个实施例的用于自动识别图片的多标签的装置的另一示例性框图。

具体实施方式

图片所涉及的标签可以分为类别标签、题材标签、内容标签等多种标签。以画作为例，类别标签可以是例如国画、油画、素描、水彩画等，题材标签可以是例如风景、人物、动物等，而内容标签可以是天空、房子、山、水、马等。类别标签为单标签，即每幅画仅与诸如油画、素描之类的一个类别标签相对应。题材标签和内容标签为多标签，即每幅画可以与多个标签相对应（例如该幅画既包含风景又包含人物，既包括天空又包括马等）。图片的特征分为整体特征和局部特征。类别标签与题材标签针对图片的整体特征进行分类，而内容标签针对图片的局部特征进行分类，即利用局部图片特征来进行识别。

本公开以空间正则化网络模型为基本模型。所述空间正则化网络模型包括两个主要组成部分：主干网络模块和空间正则化模块。主干网络模块主要针对图片的整体特征进行分类，而空间正则化模块主要针对图片的局部特征进行分类。

图1图示了按照本公开实施例的自动识别图片多标签的方法100的流程图。该方法可以结合任何合适的硬件、软件、固件或其组合来执行。

在步骤102中，由主干网络模块从待处理的图片中提取所述图片的特征图。在一些实施例中，该特征图可以是3维的，维度为W×H×C，其中W代表宽，H代表高，C代表特征的通道数。主干网络模块还对所述特征图进行标签分类，得到图片的类别标签预测结果

、题材标签预测结果

和第一内容标签预测结果

，第一内容标签预测结果也即给予主干网络提取特征的内容标签预测结果。可选地，图片在被转换为预定尺寸（例如224×224）的图片后被输入到主干网络模块进行处理。

主干网络可以具有各种不同的卷积结构，诸如深度残差网络ResNet 101、LeNet、AlexNet、GoolgeNet等。示例性地，在主干网络为ResNet 101的情况下，主干网络中包括例如卷积层ResNet Conv 1-5、平均池化层（average pooling）和全连接层。ResNet101的一种具体结构可以如表1所示。

表1 ResNet 101的卷积结构示例。

在一个实施例中，主干网络模块中的ResNet Conv 1-4被用于提取待处理的图片所代表的图片的特征图。在一个实施例中，主干网络模块中的ResNet Conv 5、平均池化层和全连接层被用于对所述特征图进行标签分类。

在步骤104中，由特征增强模块基于所述特征图获得每个特征通道的重要程度，根据所述每个特征通道的重要程度增强所述特征图中的重要程度高的特征，并输出经特征增强的特征图。正如已知的，特征图的每个特征通道的特征会突出显示一些信息（如某些位置处的值较大）。特征通道的重要程度可以基于与要识别的所述标签的特征的关联程度来确定。在一些实施例中，当要识别某个标签时，可以通过判断某个特征通道是否具有与该标签的特征相符合的特征分布来确定该特征通道的重要程度。当某个特征通道具有与该标签的特征相符合的特征分布时，可以确定该特征通道的重要程度较高或者是有用的，反之则是不重要或者用处不大的。可以通过增强重要程度高的特征通道来突出标签出现的位置。举例而言，如果要识别的标签中有太阳标签，那么因为太阳多出现在图片中的上方位置，所以如果某个特征通道的特征图靠上方位置处的元素的数值较大，则认为该特征通道的重要程度较高。

在一些实施例中，特征增强模块通过生成对应于各特征通道的加权权值，且使用所述加权权值来对特征通道进行加权而增强特征图中的重要程度高的特征。在这些实施例中，重要程度高的特征被赋予更大的加权权值。

在步骤106中，将经特征增强的特征图输入空间正则化模块，经过所述空间正则化模块中的正则化处理得到所述图片的第二内容标签预测结果

，第二内容标签预测结果

是经正则化的内容标签预测结果。在一个实施例中，使用空间正则化模块对图片的局部图片特征进行区分且进行标签语义和空间的关联。可选地，可以通过空间正则化模块对特征图进行注意力特征提取和正则化处理。

在步骤108中，对第一内容标签预测结果

和第二内容标签预测结果

进行加权平均以得到加权的内容标签预测结果

。所述加权平均可以是例如

，或者也可以使用其它适用的加权系数进行加权平均。

在步骤110中，从类别标签预测结果

、题材标签预测结果

和加权的内容标签预测结果

组成的标签预测结果向量

生成图片的标签集合。

通过按照本公开实施例的方案，使得能够增加对各个特征通道之间的相对关系（例如重要程度）的考虑。而且通过以学习的方式自动获取每个特征通道的重要程度，从而提升了有用的特征、抑制用处不大的特征。作为一个区分各局部特征的预处理手段，按照本公开实施例的特征增强为后面获取各个标签的注意力图的生成提供更加有区分性的特征图。

在一些实施例中，按照本公开实施例的方案还考虑了在图片的各类型标签（比如类别标签与题材标签、内容标签与类别标签等）之间存在的较强语义相关性，比如竹子内容标签常常出现在国画类型的作品中，宗教题材标签常常出现在油画中。为了加强这种标签之间的相关性，在得到标签预测结果向量

之后，再次增加标签语义关联。示例性地，可以通过K维全连接模块处理标签预测结果向量

，以输出语义关联增强的标签预测结果向量

，其中K是所要识别的、包括类别标签、题材标签和内容标签在内的所有标签的数量，

是语义关联增强的类别标签预测结果，

是语义关联增强的题材标签预测结果，

是语义关联增强的内容标签预测结果。可选地，可以通过学习得到各个标签之间的加权关系即权值，从而得到了加入整体标签语义关联后的识别结果y₂。

在一些实施例中，因为类别标签为单标签分类，因此可以直接对输出的类别标签预测结果向量进行softmax函数计算，取其中置信度最高的标签作为预测的类别标签。softmax函数的输入是一向量y_class，输出的是归一化后的向量，即向量中的每个元素是每个类别对应的置信度。经过归一化之后这些元素之和为1。示例性地，如果对某个图片的类别标签的预测结果进行softmax函数计算后得到的结果是：国画0.1、油画0.2、素描0.4、水粉水彩0.3，那么判定所预测的类别标签的结果为置信度最高的素描标签。

在一些实施例中，题材标签和内容标签二者属于多标签分类，即每幅画可以与多个标签相对应（例如该幅画既包含风景又包含人物，既包括天空又包括马等）。这样，它们二者的置信度可借助阈值

进行筛选，即如果某个标签预测的置信度大于阈值

，则该标签预测为真，即存在该标签；否则该标签预测为假，即不存在该标签。示例性地，借助阈值

的筛选可如下式（1）所示地进行，

（1）

其中

为题材和内容标签个数，

是用于每个标签预测的置信度，

为置信度阈值，

为最终预测的题材和内容标签真假结果。

由于每个标签的识别难度、训练数据量大小与分布不同，如果为所有类标签的置信度阈值设定统一的一个阈值

，会降低某些标签的识别准确率。在一些实施例中，取代使用统一的阈值，可以通过训练得到针对每类题材和内容标签的分别的置信度阈值

。示例性地，可采用回归学习的方式，通过训练来分别获取每类题材和内容标签的置信度阈值

。

按照本公开的实施例，在使用上文所述的自动识别图片多标签的方法之前，还包括对所述模型进行训练的过程。

在第一训练阶段中，在自动识别图片中的标签之前，利用所有标签训练数据来训练主干网络模块的第一网络参数。以使用Resnet101作为主干网络为例，可以仅训练Conv1-4和Conv 5。训练主干网络模块输出类别标签预测结果

、题材标签预测结果

和第一内容标签预测结果

。第一训练阶段可以利用损失函数来进行。第一训练阶段的损失函数被设定为：

，其中类别标签损失函数

可以按照softmax交叉熵损失函数方式计算，而题材标签损失函数

和内容标签损失函数

可以按照sigmoid交叉熵损失函数方式计算。

在第二训练阶段中，在固定第一网络参数的情况下，可以利用带有内容标签的训练数据去训练特征增强模块和空间正则化模块的第二网络参数。训练特征增强模块和空间正则化模块输出第二内容标签预测结果

。第二训练阶段的损失函数被设定为

。

对第一内容标签预测结果

和第二内容标签预测结果

进行加权平均以得到加权的内容标签预测结果

。所述加权平均可以是例如

，或可以使用其它加权系数的加权平均。

训练数据可以由图片和每张图片所对应的真实标签组成，其中标签可以为类别、题材与内容标签中的一个或多个。举例而言，一幅图片对应的真实标签（可以通过人工标注得到）可以是：油画（类别标签）、风景（题材标签）、写实（题材标签）、人（内容标签）、山（内容标签）、水（内容标签）。在训练过程中，有些训练阶段会利用所有的图片与标签，而有些训练阶段会利用带有某个或某些特定分类（例如类别、题材、内容中的一个或多个）的标签的图片。示例性地，在第二训练阶段中仅用带有内容标签的图片训练网络。

可选地，在通过K维全连接模块处理标签预测结果向量y₁的情况下，训练过程还包括第三训练阶段。在第三训练阶段中，在通过K维全连接模块处理标签预测结果向量y₁之前，在已经训练并固定第一网络参数和第二网络参数的情况下，可以利用所有训练数据来训练K维全连接模块的第三网络参数，即对标签之间的加权参数进行训练。对K维全连接模块的训练输出语义标签关系增强的标签预测结果向量

是语义关联增强的类别标签预测结果，

是语义关联增强的题材标签预测结果，

是语义关联增强的内容标签预测结果。第三训练阶段的损失函数被设定为

。

可选地，训练过程还包括用于分别获取每类题材和内容标签的置信度阈值

的第四训练阶段。在第四训练阶段中，将第三训练阶段中得到的类别标签

置信度中softmax数值最高的类别作为该图片的类别标签。固定第一至第三训练阶段的所有网络参数（即第一、第二和第三网络产生），仅对阈值训练中用到的阈值回归模型的参数进行训练。第四训练阶段的损失函数被设定为

，其中i为训练的第i幅图，j为第j个标签，

为第j个标签的groundtruth（0或1），

与

分别为标签j的置信度和阈值。基于这一损失函数而得到了每个标签j对应的阈值

，从而得到借助阈值筛选后的题材和内容标签置信度预测结果，作为最终的题材和内容标签的预测结果。三类标签合起来则为最终的标签预测结果。

图2示出了用于自动识别图片的多标签的装置200的框图。装置200主要包括主干网络模块202、特征增强网络模块204、空间正则化模块206、加权模块208和标签生成模块210。

主干网络模块202被配置为从待处理的图片中提取所述图片的特征图。该特征图是3维的，维度为W×H×C，其中W代表宽，H代表高，C代表特征的通道数。主干网络模块202还被配置为对所述特征图进行标签分类，得到图片的类别标签预测结果

、题材标签预测结果

和第一内容标签预测结果

。示例性地，在主干网络为ResNet 101的情况下，ResNet 101中的ResNet Conv 1-4被用于提取待处理的图片中的所述图片的特征图。在一个实施例中，ResNet 101中的ResNet Conv 5、平均池化层（average pooling）和全连接层被用于对所述特征图进行标签分类，且输出图片的类别标签预测结果

、题材标签预测结果

和第一内容标签预测结果

。

特征增强模块204被配置为基于所述特征图获得每个特征通道的重要程度，根据所述每个特征通道的重要程度增强所述特征图中的重要程度高的特征，并输出经特征增强的特征图。具体地，特征增强模块是通过卷积结构来实现的。

空间正则化模块206被配置为对经特征增强的特征图进行正则化处理以得到所述图片的第二内容标签预测结果

。在一个实施例中，空间正则化模块中包括注意力网络、置信度网络以及空间正则化网络。注意力网络用于生成注意力图，该注意力图的通道个数与内容标签的个数相同。置信度网络用于对注意力图进一步加权。由于注意力图的通道个数与内容标签的个数一致，即每个通道的注意力图代表了一个内容标签分类的特征分布。在通过置信度网络进行加权时，可以将大的权值赋予当前图片中出现的内容标签分类所对应的注意力图，而将小的权值赋予当前图片中没有的内容标签所对应的注意力图。通过这种方式可以实现内容标签有无的判断。而空间正则化网络则对注意力图输出的结果进行语义和空间关联。在这个实施例中，空间正则化模块206被配置为对经特征增强的特征图进行注意力特征提取和正则化处理以得到所述图片的第二内容标签预测结果。

加权模块208被配置为对第一内容标签预测结果

和第二内容标签预测结果

进行加权平均以得到加权的内容标签预测结果

。所述加权平均可以是例如

，或者以可以使用其它适用的加权系数来进行加权平均。

标签生成模块210被配置为从类别标签预测结果

、题材标签预测结果

和加权的内容标签预测结果

组成的标签预测结果向量

来生成图片的标签集合。标签集合包括类别标签、题材标签和内容标签中的一个或多个。类别标签可以是单标签。题材标签和内容标签可以是多标签。在一些实施例中，标签生成模块210可以为一个图片生成多于一个的题材标签和/或内容标签。

在一些实施例中，标签生成模块210包括标签判定模块212，用于基于标签预测的置信度来从标签预测结果向量

判定图片的标签集合。

在一些实施例中，为了加强各大类标签的语义关联，标签生成模块210还包括K维全连接模块214。K维全连接模块214在得到标签预测结果向量

之后，对其进行处理以输出语义关联增强的标签预测结果向量

是语义关联增强的类别标签预测结果，

是语义关联增强的题材标签预测结果，

是语义关联增强的内容标签预测结果。K维全连接模块214通过K个元素全连接层方式（K-d fc，K为要识别的所有标签的个数），经由学习得到各个标签之间的加权关系即权值，从而得到了加入整体标签语义关联后的识别结果y₂。在一些实施例中，标签判定模块212基于标签预测的置信度来从语义关联增强的标签预测结果向量

判定图片的标签集合。

题材标签和内容标签二者属于多标签分类，因而它们二者的置信度需要借助阈值

进行判定。在一些实施例中，标签生成模块210还包括阈值设定模块216，阈值设定模块216被配置为采用回归学习的方式，通过训练来得到并设定每个标签（包括题材标签和内容标签）对应的置信度阈值。举例而言，如果有10个题材标签和10个内容标签，则对应有20个置信度阈值。在一些实施例中，标签判定模块212使用阈值设定模块216所设定的置信度阈值来判定每个标签的存在与否。

主干网络模块202、特征增强模块204和空间正则化模块206还被配置为在对图片中的标签进行自动识别之前进行训练。可以利用所有标签数据训练所述主干网络模块的第一网络参数。以使用Resnet101作为主干网络为例，第一网络参数可以包括用于Resnet101Conv 1-Conv 4和Conv 5的参数。在固定第一网络参数的情况下，可以利用带有内容标签的训练数据训练用于所述特征增强模块和空间正则化模块的第二网络参数。

在一些实施例中，K维全连接模块212还被配置为在对标签预测结果向量

进行处理之前进行训练。K是包括类别标签、题材标签和内容标签在内的所有标签的数量。在训练并固定所述第一网络参数和第二网络参数的情况下，可以利用所有训练数据训练所述K维全连接模块的第三网络参数，例如标签之间的加权参数。

在一些实施例中，对阈值设定模块216进行的训练是在训练并固定所述第一网络参数、第二网络参数、第三网络参数的情况下进行的。

图3示出了按照本公开一个实施例的构成特征增强模块的卷积模块。如图3所示，卷积模块包括顺序连接的全局池化层（Global pooling）、第一卷积层、非线性激活函数、第二卷积层与激活函数。通过输入特征图，使之通过该卷积结构，可以生成并输出用于多个特征通道的加权权值。示例性地，第一卷积层可以是1*1*64卷积层、非线性激活函数可以是relu函数、第二卷积层可以是1*1*1024卷积层，以及激活函数可以是sigmoid函数。通过如此构造的卷积模块可以生成1024个特征通道的加权权值。可以理解，第一和第二卷积层的卷积核大小和通道数量可以依据给定的实现而基于训练来适当地选择。

通过将生成的权值叠加在特征图的特征通道上，可以增强所述特征图中重要程度较高的特征，也即与要识别标签的特征的关联程度较高的特征。这里，全局池化层可以采用全局最大池化或全局平均池化。按照本公开的实施例，可以根据实际增强效果来选择全局最大池化或全局平均池化。正如已知的，relu函数是一种激活函数，其是分段线性函数，可以把所有的负值都变为0，而正值不变；而sigmoid函数同样是一种激活函数，其可以将一个实数映射到(0,1)的区间。

按照本公开的实施例，在特征增强模块中所使用的卷积模块的个数（即卷积深度）可以被设置为超参数M，M为大于等于2的整数。当特征增强模块中有多个卷积模块，这些卷积模块被顺序地串联在一起。可选地，M可以基于不同内容标签个数和训练数据集的大小来确定。举例而言，当标签个数越多、需要训练的数据集越大时，可以增加M使网络更深。可选地，如果训练数据较少，如训练图片为几万张，那么可以将M选择为2个。如果是训练图片是百万级的数据量，则可以将M调整为5个。附加地，M还可以根据训练效果进行调节。

在一些实施例中，在特征图被输入到特征增强模块之前还可以包括特征提取模块来提取所述特征图中针对整体图片的高级语义特征。高级语义特征更关注语义信息，更少关注细节信息，而低级特征包含更多细节信息。

图4示出了按照本公开实施例的构成特征提取模块和特征增强模块的卷积结构。特征提取模块由第一卷积模块组成，而特征增强模块由第二卷积模块组成。示例性地，如图4所示，第一卷积模块可包含三个卷积层，例如1*1*256卷积层、3*3*256卷积层与1*1*1024卷积层。第二卷积模块可包括全局池化层（Global pooling）、1*1*64卷积层、relu非线性激活函数、1*1*1024卷积层与sigmoid激活函数。

当特征图被输入到该第一卷积模块中时，所述特征图中针对整体图片的高级语义特征可以被提取。被进行特征提取的特征图随后被输入到第二卷积模块。第二卷积模块可以生成1024个特征通道的加权权值。该生成的权值被叠加在原来特征提取模块（也即第一卷积结构）的输出结果上来增强所述特征图中重要程度较高的特征。

可选地，第一卷积模块和第二卷积模块可以组成一个集成卷积结构。可以使多个集成卷积结构通过串联连接方式连接以实现特征提取和增强功能。串联连接的集成卷积结构的个数可以被设置为超参数M，M为大于等于2的整数。

图5示出了按照本公开实施例的阈值设定模块的一种网络结构。参见图5，阈值设定模块的网络结构包含两个卷积层Con 1*n和Conv n*1，且在每个卷积层后面分别连接有batchnorm和relu函数，其中n可以根据标签个数和训练效果进行调整。Batchnorm是常用的加速神经网络训练、加速收敛速度及稳定性的算法。在图5所示的网络结构中，针对每一步训练，训练数据都是批量输入的，例如一次输入24张图片。在这种情况下，使batchnorm接在卷积层后便可以根据卷积计算得到的批量中间结果，计算批量中间结果的均值方差，对批量中间结果进行归一化，从而解决输入数据分布不一致的问题。这可以减少图像之间的绝对差异，突出相对差异，从而加快训练速度。在一些实施例中，n在实际训练过程中可以根据训练效果增加或者减小。在一些实施例中，标签个数越多，n越大。

阈值设定模块使用阈值回归模型，其损失函数被设定为

,其中i为训练的第i幅图，j为第j个标签，

为第j个标签的groundtruth（0或1）,

与

分别为标签j的置信度和阈值。可以通过训练该阈值回归模型来得到并设定每个标签对应的置信度阈值

。正如已知的，在机器学习中groundtruth可以表示有监督的机器学习技术的训练集分类的准确性，在统计模型中用于证明或者推翻某个假设。示例性地，在进行训练时，首先会以人工方式筛选出一些图片来作为模型训练的训练数据。之后，同样以人工方式对其进行标签的标注，即每幅图片都有什么标签。这些图片所对应的真实标签数据就是groundtruth。

在得到每个标签对应的置信度阈值

后，可以根据下式（2）来确定每个标签的预测结构：

（2）

其中

为题材和内容标签个数，

是每个标签预测的置信度，

为每个标签的置信度阈值，

为最终预测的标签真假结果。

图6图示了根据本公开实施例的用于自动识别图像的多标签的装置的另一示例性框图。如图6所示，图片被输入主干网络模块602后，多个卷积层（即Resnet101 Conv 1-4）用于从图片中提取所述图片的特征图。特征图依次经过主干网络模块602中的又一卷积层（即Resnet 101 Conv 5）、平均池化层和全连接层的处理，得到所述图片的类别标签预测结果

、题材标签预测结果

和第一内容标签预测结果

。

特征图还被输入到特征增强模块604。特征增强模块604基于所述特征图获得每个特征通道的重要程度，根据所述每个特征通道的重要程度增强所述特征图中的重要程度高的特征，并输出经特征增强的特征图。

经特征增强的特征图被输入到空间正则化模块606。经过所述空间正则化模块中注意力网络和置信度网络以及正则化网络的处理得到所述图片的第二内容标签预测结果

。

加权模块608对第一内容标签预测结果

和第二内容标签预测结果

进行加权平均以得到加权的内容标签预测结果

。标签生成模块610从类别标签预测结果

、题材标签预测结果

和加权的内容标签预测结果

生成标签预测结果向量

。

在标签判定模块612中通过对类别标签预测结果进行softmax函数的计算而判定该图片的类别标签，以及通过对题材标签预测结果和内容标签预测结果进行sigmoid函数的计算而判定该图片的题材标签和内容标签。

在一些实施例中，如图6所示，在被输入到标签判定模块612之前，标签预测结果向量

被输入到K维全连接模块614，以经由其输出语义关联增强的标签预测结果向量

是语义关联增强的类别标签预测结果，

是语义关联增强的题材标签预测结果，

是语义关联增强的内容标签预测结果。K维全连接模块614输出的语义关联增强的标签预测结果向量

被输入到标签判定模块612以生成标签集合

在一些实施例中。阈值设定模块616为每个标签设定的置信度阈值，且标签判定模块612基于阈值设定模块616设定的置信度阈值来筛选题材标签预测结果

和内容标签预测结果

中各标签的置信度，由此而判定该图片的题材和内容标签，进而生成由类别标签、题材标签和内容标签中的一个或多个组成的标签集合。

按照本公开的实施例，通过结合图片标签的特点对现有的标签分类方案进行了改进。通过加入对不同标签之间关系的增强和各类标签阈值的学习，实现了用一个网络同时生成画作的单标签（类别标签）与多标签（题材标签与内容标签）的技术效果。由此，在提高标签识别效果的同时，还降低了模型计算量。按照本公开实施例的方案生成的标签数据可用于图片的网络搜索、大数据分析等应用方向。

本公开的各种实施例中的“装置”、“模块”等可以通过使用硬件单元、软件单元或它们的组合而被实施。硬件单元的示例可包括设备、构件、处理器、微处理器、电路、电路元件（例如，晶体管、电阻器、电容器、电感器等等）、集成电路、专用集成电路（ASIC）、可编程逻辑器件（PLD）、数字信号处理器（DSP）、现场可编程门阵列（FPGA）、存储器单元、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等等。软件单元的示例可包括软件构件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例行程序、子程序、函数、方法、过程、软件接口、应用程序接口（API）、指令集、计算代码、计算机代码、代码段、计算机代码段、单词、值、符号、或它们的任何组合。确定实施例是否通过使用硬件单元和/或软件单元被实施可以根据任意数量的因素而变化，诸如想要的计算速率、功率电平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度、和其它设计或性能约束，正如对于给定的实现所想要的。

某些实施例可包括制造品。制造品可包括用来存储逻辑的存储介质。存储介质的示例可包括能够存储电子数据的一种或多种类型的有形的计算机可读存储媒体，包括易失性存储器或非易失性存储器、可拆卸或不可拆卸存储器、可擦除或不可擦除存储器、可写或可再写存储器等等。逻辑的示例可包括各种软件单元，诸如软件构件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例行程序、子程序、函数、方法、过程、软件接口、应用程序接口（API）、指令集、计算代码、计算机代码、代码段、计算机代码段、单词、值、符号、或它们的任何组合。在一个实施例中，例如，制造品可以存储可执行计算机程序指令，它们在被计算机执行时使得计算机执行按照所描述的实施例的方法和/或操作。可执行计算机程序指令可包括任何适当类型的代码，诸如源代码、编译的代码、解释的代码、可执行代码、静态代码、动态代码等等。可执行计算机程序指令可以按照预定义的计算机语言、方式或语法被实施，用于指令计算机去执行一定的功能。指令可以通过使用任何适当的高级、低级、面向对象的、视觉的、编译的和/或解释的编程语言而被实施。

一些实施例可以通过使用表达“一个实施例”或“一些实施例”连同它们的派生词而被描述。这些术语是指结合实施例描述的特定特征、结构或特性被包括在至少一个实施例中。在申请书的各个地方出现的词组“在一个实施例中”不一定必须全都指同一个实施例。

附加地，在上述的详细说明中，可以看到，为了简化公开内容，各种特征在单个实施例中被聚合在一起。这种公开的方法不被解译为反映了所要求保护的实施例需要比在每项权利要求中明确叙述的特征更多特征的意图。相反，正如以下的权利要求反映的，本公开的主题在于少于单个公开的实施例的所有特征。因此，以下的权利要求据此被合并到详细说明中，每项权利要求独自地作为单独的实施例。在所附权利要求中，术语“包括(including)实和“其中 (in which))分别被用作为相应术语“包括（comprising）”和“其中（wherein）”的简明英语的等同物。而且，术语“第一”、“第二”、“第三”等等仅仅被用作为标签，且不打算对它们的对象施加数值要求。

虽然本主题是以特定于结构特征和/或方法动作的语言被描述的，但应当明白，在所附权利要求中限定的主题不是必须限于以上描述的具体特征或动作。相反，上面描述的具体的特征和动作是作为实施权利要求的示例性形式被公开的。

Claims

1.一种自动识别图片中的多标签的方法，所述方法包括：

由主干网络模块从图片中提取所述图片的特征图，并对所述特征图进行多标签分类，得到所述图片的类别标签预测结果

、题材标签预测结果

和第一内容标签预测结果

；

由特征增强模块基于所述特征图获得每个特征通道的重要程度，并根据所述每个特征通道的重要程度增强所述特征图中的重要程度高的特征，并输出经特征增强的特征图；以及

将所述经特征增强的特征图输入空间正则化模块，经过所述空间正则化模块中的正则化处理得到所述图片的第二内容标签预测结果

；

对第一内容标签预测结果

和第二内容标签预测结果

进行加权平均以得到加权的内容标签预测结果

；和

从类别标签预测结果

、题材标签预测结果

和加权的内容标签预测结果

组成的标签预测结果向量

来生成所述图片的标签集合。

2.根据权利要求1所述的方法，其中所述特征增强模块包括第一卷积模块且该第一卷积模块包括顺序连接的全局池化层、第一卷积层、非线性激活函数、第二卷积层、线性激活函数，以及该方法包括使用所述特征增强模块生成多个特征通道的加权权值来增强所述特征图中与要识别的所述标签的特征的关联程度较高的特征。

3.根据权利要求2所述的方法，在通过所述特征增强模块增强所述特征图中的重要程度高的特征之前，还包括通过第二卷积模块来提取所述特征图中针对整体图片的高级语义特征。

4.根据权利要求3所述的方法，其中所述第一卷积模块和第二卷积模块组成集成卷积结构，且串联连接的集成卷积结构的个数通过超参数M来设置，M为大于等于2的整数，并且M是基于不同内容标签个数和训练数据集的大小确定的。

5.根据权利要求1所述方法，其中生成图片的标签集合还包括通过K维全连接模块处理标签预测结果向量

，以输出语义关联增强的标签预测结果向量

是语义关联增强的类别标签预测结果，

是语义关联增强的题材标签预测结果，

是语义关联增强的内容标签预测结果。

6.根据权利要求5所述的方法，其中通过将语义关联增强的题材标签预测结果

和语义关联增强的内容标签预测结果

7.根据权利要求6所述的方法，还包括利用阈值设定模块采用回归学习的方式，通过训练来得到与题材标签预测结果

和内容标签预测结果

中的每个标签对应的置信度阈值。

8.根据权利要求7所述的方法，其中所述阈值设定模块包括两层卷积网络con n×1和con 1×n，所述两层卷积网络con n×1和con 1×n后面分别接有batch norm和relu函数的网络结构，其中n是根据标签个数和训练效果而调整的。

9.根据权利要求7所述的方法，其中在对图片进行识别之前，还包括以下的训练步骤：

利用所有标签数据训练所述主干网络模块的第一网络参数，并固定所述第一网络参数；以及

在所述第一网络参数固定的情况下，利用带有内容标签的训练数据训练所述特征增强模块和空间正则化模块的第二网络参数，并固定所述第二网络参数。

10.根据权利要求9所述的方法，其中在通过K维全连接模块处理标签预测结果向量

之前，还包括以下的训练步骤：

在训练并固定所述第一网络参数和第二网络参数的情况下，利用所有标签数据训练所述K维全连接模块的第三网络参数，并固定所述第三网络参数；

其中，K是包括类别标签、题材标签和内容标签在内的所有标签的数量。

11.根据权利要求10所述的方法，其中利用阈值设定模块训练得到所述置信度阈值是在训练并固定所述第一网络参数、第二网络参数、第三网络参数的情况下进行的。

12.一种自动识别图片中的多标签的装置，包括：

主干网络模块，被配置为从所述图片中提取所述图片的特征图，并对所述特征图进行多标签分类，得到所述图片的类别标签预测结果

、题材标签预测结果

和第一内容标签预测结果

；

特征增强模块，被配置为基于所述特征图获得每个特征通道的重要程度，并根据所述每个特征通道的重要程度来增强所述特征图中的重要程度较高的特征并输出经特征增强的特征图；以及

空间正则化模块，被配置为将所述经特征增强的特征图输入空间正则化模块，经过所述空间正则化模块中的正则化处理得到所述图片的第二内容标签预测结果

；

加权模块，被配置为对第一内容标签预测结果

和第二内容标签预测结果

进行加权平均以得到加权的内容标签预测结果

；和

标签生成模块，被配置为从类别标签预测结果

、题材标签预测结果

和加权的内容标签预测结果

组成的标签预测结果向量

来生成所述图片的标签集合。

13.根据权利要求12所述的装置，其中所述特征增强模块包括第一卷积模块，且该第一卷积模块包括连接的全局池化层、第一卷积层、非线性激活函数、第二卷积层、线性激活函数，以生成多个特征通道的加权权值来增强所述特征图中的重要程度较高的特征。

14.根据权利要求12所述的装置，还包括特征提取模块，其包括第二卷积模块以提取所述特征图中针对整体图片的高级语义特征，且所述特征提取模块的输出被提供给所述特征增强模块作为输入。

15.根据权利要求14所述的装置，其中所述第一卷积模块和第二卷积模块组成集成卷积结构，以及串联连接的集成卷积结构的个数通过超参数M来设置，其中M为大于等于2的整数，并且M是基于不同内容标签个数和训练数据集的大小确定的。

16.根据权利要求12所述装置，其中所述标签生成模块还包括K维全连接模块，其被配置为对标签预测结果向量

进行处理，以输出语义关联增强的标签预测结果向量

是语义关联增强的类别标签预测结果，

是语义关联增强的题材标签预测结果，

是语义关联增强的内容标签预测结果。

17.根据权利要求16所述的装置，所述标签生成模块还包括标签判定模块，被配置为将语义关联增强的题材标签预测结果

和语义关联增强的内容标签预测结果

18.根据权利要求17所述的装置，所述标签生成模块还包括阈值设定模块，被配置为采用回归学习的方式，通过训练来得到与题材标签预测结果

和内容标签预测结果

中的每个标签对应的置信度阈值。

19.根据权利要求18所述的装置，其中所述阈值设定模块包括两层卷积网络con n×1和con 1×n，所述两层卷积网络con n×1和con 1×n后面分别接有batchnorm和relu函数的网络结构，其中n是根据标签个数和训练效果而调整的。

20.根据权利要求12所述的装置，所述主干网络模块、特征增强模块和空间正则化模块还被配置为在对图片进行识别之前进行如下的训练：

利用所有标签数据训练所述主干网络模块的第一网络参数；以及

在所述第一网络参数固定的情况下，利用带有内容标签的训练数据训练所述特征增强模块和空间正则化模块的第二网络参数。

21.根据权利要求20所述的装置，其中K维全连接模块还被配置为在对标签预测结果向量

进行处理之前进行如下的训练：

在训练并固定所述第一网络参数和第二网络参数的情况下，利用所有训练数据训练所述K维全连接模块的第三网络参数。

22.根据权利要求21所述的装置，其中阈值设定模块还被配置为在训练并固定所述第一网络参数、第二网络参数、第三网络参数的情况下训练得到所述置信度阈值。

23.一种用于自动识别图片中的多标签的计算机设备，包括：

一个或多个处理器；和

耦合到所述一个或多个处理器的存储器，该存储器存储指令，所述指令在被所述一个或多个处理器执行时使得该计算机设备执行根据权利要求1-11中任一项所述的方法。

24.一种计算机程序产品，所述计算机程序产品包括存储有指令的计算机可读存储介质，所述指令在被计算系统的至少一个处理器执行时使得计算系统执行根据权利要求1-11中任一项所述的方法。