CN111126514A

CN111126514A - 图像多标签分类方法、装置、设备及介质

Info

Publication number: CN111126514A
Application number: CN202010233645.5A
Authority: CN
Inventors: 包月青; 黄小刚; 李宏宇; 李晓林
Original assignee: Tongdun Holdings Co Ltd
Current assignee: Tongdun Holdings Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-05-08

Abstract

本发明公开了一种图像多标签分类方法，涉及图像分类技术领域，用于解决现有图像单标签分类不准确的问题，该方法包括以下步骤：接收图像及所述图像的标注数据，将预处理后的所述图像及所述图像的标注数据按预设比例分成训练集及测试集；将所述训练集输入预设卷积神经网络模型进行训练；将图像特征数据输入Attention机制模型进行标签相关性学习，得到初始模型；通过所述测试集对所述初始模型进行校正测试，输出多标签分类模型。本发明还公开了一种图像多标签分类装置、电子设备和计算机存储介质。本发明通过卷积神经网络加Attention机制进行图像标签分类学习，进而获得一个可识别图像多标签的模型。

Description

图像多标签分类方法、装置、设备及介质

技术领域

本发明涉及图像分类技术领域，尤其涉及一种图像多标签分类方法、装置、设备及介质。

背景技术

图像分类技术是当前应用最为广泛的人工智能技术之一，图像分类指的是从给定的分类集合中为图像分配标签的过程，这些标签通常是来自预先定义好的指定类别集。

目前的图像分类技术主要是单标签图像分类技术，即对一个图像只分配一个标签，单标签图像分类技术已是成熟的现有技术；但是在很多时候，单标签并不能充分表达图像中所包含的具体内容，例如，一张图像中有爆炸和军装，常用的内容审核图像单标签分类是看爆炸和军装哪个类别标签在图片中占比较大，就给这张图像分配哪个标签，但得到图像中既有爆炸标签又有军装标签的结果才更能充分表达图像内容。因此，亟需一种可以为图像匹配多标签的方法。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种图像多标签分类方法，其通过卷积神经网络提取标签的图像特征，并通过Attention机制模型得到各标签之间的相关性，进而得到一个高准确度的图像多标签分类模型。

本发明的目的之一采用以下技术方案实现：

一种图像多标签分类方法，包括以下步骤：

接收图像及所述图像的标注数据，并对所述图像进行预处理，将预处理后的所述图像及所述图像的标注数据按预设比例分成训练集及测试集；

将所述训练集输入预设卷积神经网络模型进行训练，得到图像特征数据；

将所述图像特征数据及所述预设卷积神经网络模型的中间计算参数，输入Attention机制模型进行标签相关性学习，得到初始模型；

通过所述测试集对所述初始模型进行校正测试，将满足评价指标的所述初始模型作为多标签分类模型输出。

进一步地，所述预处理包括图像均衡化、图像翻转、仿射变换、图像增强、图像格式转换、数据去重中的一种或多种。

进一步地，所述预设卷积神经网络模型为DenseNet模型。

进一步地，所述图像为同一标签集合下的图像。

进一步地，通过所述测试集对所述初始模型进行校正测试，还包括以下步骤：

构建损失函数，通过随机梯度下降法优化所述初始模型；

通过测试集对优化后的所述初始模型进行测试；

当优化后的所述初始模型达到或超过评价指标时，所述初始模型作为多标签分类模型。

进一步地，所述损失函数为交叉熵损失函数。

进一步地，所述评价指标包括召回率、精准率、准确率和综合评价指标。

本发明的目的之二在于提供一种图像多标签分类装置，其通过卷积神经网络提取标签的图像特征，并通过Attention机制模型得到各标签之间的相关性，进而得到一个高准确度的图像多标签分类模型。

本发明的目的之二采用以下技术方案实现：

一种图像多标签分类装置，其包括：

接收模块，用于接收图像及所述图像的标注数据，并对所述图像进行预处理，将预处理后的所述图像及所述图像的标注数据按预设比例分成训练集及测试集；

训练模块，用于将所述训练集输入预设卷积神经网络模型进行训练，得到图像特征数据；并将所述图像特征数据及所述预设卷积神经网络模型的中间计算参数，输入Attention机制模型进行标签相关性学习，得到初始模型；

测试模块，用于通过所述测试集对所述初始模型进行校正测试，将满足评价指标的所述初始模型作为多标签分类模型输出。

本发明的目的之三在于提供执行发明目的之一的电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现上述的图像多标签分类方法。

本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的图像多标签分类方法。

相比现有技术，本发明的有益效果在于：

本发明通过卷积神经网络模型结合Attention机制模型可以学习到各标签之间以及标签及图像之间的相关性，有效地提高了多标签分类的精度，通过得到的多标签分类模型，就可以实现对图像的多标签分类。

附图说明

图1是实施例一的图像多标签分类方法的流程图；

图2是实施例二的模型微调方法的流程图；

图3是实施例三的图像多标签分类装置的结构框图；

图4是实施例四的电子设备的结构框图。

具体实施方式

以下将结合附图，对本发明进行更为详细的描述，需要说明的是，以下参照附图对本发明进行的描述仅是示意性的，而非限制性的。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例一

实施例一提供了一种图像多标签分类方法，旨在特征提取网络提取图像特征，得到图像特征与各标签的对应关系，并利用Attention机制模型学习得到各标签之间的相关性，以得到一个高精度的图像多标签分类模型。

请参照图1所示，一种图像多标签分类方法，包括以下步骤：

S110、接收图像及所述图像的标注数据，并对所述图像进行预处理，将预处理后的所述图像及所述图像的标注数据按预设比例分成训练集及测试集；

S110中的预处理包括图像均衡化、图像翻转、仿射变换、图像增强、图像格式转换、数据去重中的一种或多种。

上述的预处理主要是为了让图像数据分布平衡，并且通过图像翻转、图像增强等处理可以增加训练时的数据量。

为了增加训练的准确度，本实施例所涉及的图像都是同一标签集合下的图像，例如所有图像都是{爆炸，枪支，军装，血腥}这一标签集合下的图像，S110中的图像标注数据指的是图像标签及标签在图像上的对应位置；图像标注数据包括人工标注好的图像标注数据，以及通过本实施例中多标签分类模型识别出的图像标注数据，即通过多标签模型识别出的图像及对应标签可以继续用来进行模型训练，以增加模型识别的准确率。

为了便于测试最终模型的准确度，本实施例还会将图像划分为训练集和测试集，训练集和测试集的预设比例本实施例不作具体限定，可以根据实际图像数量进行划分，例如训练集:测试集=9:1。

S120、将所述训练集输入预设卷积神经网络模型进行训练，得到图像特征数据；

在S120中的预设卷积神经网络本实施例中选用DenseNet模型。

相比于传统的卷积网络模型，DenseNet脱离了加深网络层数(ResNet)和加宽网络结构(Inception)来提升网络性能的定式思维,从特征的角度考虑,通过特征重用和旁路(Bypass)设置达到更好的效果和更少的参数。

在 DenseNet中，通过特征在channel上的连接来实现特征重用，即每个层从前面的所有层获得额外的输入，并将自己的特征映射传递到后续的所有层，使用级联方式，每一层都在接受来自前几层的“集体知识（collective knowledge）”，通过DenseNet的特征重用机制，可以缓解梯度消失现象，减少了模型参数。

将图像及图像的标注文件输入到DenseNet模型中，就可以得到图像的特征及该图像特征对应的标签名称，DenseNet的具体计算过程是常见的现有技术，本实施例不对此作过多赘述。

S130、将所述图像特征数据及所述预设卷积神经网络模型的中间计算参数，输入Attention机制模型进行标签相关性学习，得到初始模型；

Attention机制类似于人类的视觉注意力机制，视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息，Attention机制是一个学习权重分布的机制，其模型通常是一个Encoder-Decoder（解码器编码器）模型，在本实施例中Encoder为输入的图片，即S120中的图像特征文件及DenseNet模型的中间计算参数，Decoder即图片对应的标签，通常Decoder通过LSTM（Long Short Term Memory networks）网络实现，其是一种特殊的RNN网络，用以解决长依赖问题。

S130中的图像特征文件即S120中通过DenseNet模型得到的图像特征及图像特征对应的标签，中间计算参数指的是DenseNet模型在计算时，每一层的特征图，具体地，DenseNet模型在计算时，每一层都会输出一个C*H*W的特征图，C就是通道，代表卷积核的数量，亦为特征的数量，H 和W就是原始图片经过压缩后的图，Attention机制模型可以对C进行权重计算，也可以对H*W进行权重计算；通过将图像特征及对应标签输入Attention机制模型，就可以使模型学习到图像各特征处的相关性，进而得到特征对应各个标签之间的相关性，例如军装标签和枪支标签的相关性。

S140、通过所述测试集对所述初始模型进行校正测试，将满足评价指标的所述初始模型作为多标签分类模型输出。

S140中的校正测试会通过若干评价指标进行判定，本实施例中评价指标包括召回率Recall、精准率Precision、准确率Accuracy和综合评价指标F1-score，这也是自然语言处理领域中常用的几个评价指标；当然，在实际运用中，也可以设置其他评价指标。

其中，计算公式为：Precision（P） = tp/(tp + fp)；Recall（R） = tp / (tp +fn)；Accuracy=（tp+tn）/（tp+tn+fn+fp）；F=2P*R/（P+R）；tp指的是将正类预测为正类数，tn指的是将负类预测为负类数，fp表示误报，fn表示漏报，F表示综合评价指标，P表示精准率，R表示召回率。

实施例二

实施例二是在实施例一的基础上进行的，其主要对初始模型的微调过程进行了解释和说明。

请参照图2所示，通过所述初始模型进行校正测试，包括以下步骤：

S210、构建损失函数，通过随机梯度下降法优化所述初始模型；

上述的损失函数为交叉熵损失函数。

损失函数可以有助于优化神经网络的参数。其通过优化神经网络的参数来最大程度地减少神经网络的损失，并通过梯度下降法来优化网络权重，即优化Attention机制模型计算过程中的参数，以使损失最小化，使得模型在训练计算过程中可以关注于不同的区域，以保证区域之间的判别性；通常情况下，损失函数越小，就代表模型拟合的越好，为了使损失函数收敛，本实施例选用随机梯度下降的方法，因为随机梯度下降在计算下降最快的方向时会随机选一个数据进行计算，并非扫描全部训练数据集，这样就可以加快迭代速度。

在对图像进行交叉熵损失函数计算时，通常为了在训练时提供目标值，还需要对图片进行one-hot编码。例如图像是枪支，则目标向量将为(1，0)，如果图像是爆炸，则目标向量将为(0，1)。目标向量的大小将与类的数目相同，即与标签集合中的标签数量相同，并且对应于实际类的索引位置将为1，所有其他的位置都为零。

S220、通过测试集对优化后的所述初始模型进行测试；

S220中的测试集即实施例一划分出的测试集，其包括图像和图像对应的标注数据。

S230、当优化后的所述初始模型达到或超过评价指标时，将所述初始模型作为多标签分类模型。

S230具体过程请参考实施例一中的S140步骤。

实施例三

实施例三公开了一种对应上述实施例的图像多标签分类方法对应的装置，为上述实施例的虚拟装置结构，请参照图3所示，包括：

接收模块310，用于接收图像及所述图像的标注数据，并对所述图像进行预处理，将预处理后的所述图像及所述图像的标注数据按预设比例分成训练集及测试集；

训练模块320，用于将所述训练集输入预设卷积神经网络模型进行训练，得到图像特征数据；并将所述图像特征数据及所述预设卷积神经网络模型的中间计算参数，输入Attention机制模型进行标签相关性学习，得到初始模型；

测试模块330，用于通过所述测试集对所述初始模型进行校正测试，将满足评价指标的所述初始模型作为多标签分类模型输出。

优选地，所述预处理包括图像均衡化、图像翻转、仿射变换、图像增强、图像格式转换、数据去重中的一种或多种。

优选地，所述预设卷积神经网络模型为DenseNet模型。

实施例四

图4为本发明实施例四提供的一种电子设备的结构示意图，如图4所示，该电子设备包括处理器410、存储器420、输入装置430和输出装置440；计算机设备中处理器410的数量可以是一个或多个，图4中以一个处理器410为例；电子设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的图像多标签分类方法对应的程序指令/模块（例如，图像多标签分类方法装置中的接收模块310、训练模块320和测试模块330）。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述实施例一和实施例二的图像多标签分类方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的用户身份信息、图像以及标注数据等。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，该存储介质可用于计算机执行图像多标签分类方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于图像多标签分类方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器（Read-Only Memory， ROM）、随机存取存储器（RandomAccess Memory， RAM）、闪存（FLASH）、硬盘或光盘等，包括若干指令用以使得一台电子设备（可以是手机，个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

值得注意的是，上述基于图像多标签分类方法装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种图像多标签分类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的图像多标签分类方法，其特征在于，所述预处理包括图像均衡化、图像翻转、仿射变换、图像增强、图像格式转换、数据去重中的一种或多种。

3.如权利要求1所述的图像多标签分类方法，其特征在于，所述预设卷积神经网络模型为DenseNet模型。

4.如权利要求1所述的图像多标签分类方法，其特征在于，所述图像为同一标签集合下的图像。

5.如权利要求1所述的图像多标签分类方法，其特征在于，通过所述测试集对所述初始模型进行校正测试，还包括以下步骤：

构建损失函数，通过随机梯度下降法优化所述初始模型；

通过测试集对优化后的所述初始模型进行测试；

6.如权利要求5所述的图像多标签分类方法，其特征在于，所述损失函数为交叉熵损失函数。

7.如权利要求1或5所述的图像多标签分类方法，其特征在于，所述评价指标包括召回率、精准率、准确率和综合评价指标。

8.一种图像多标签分类装置，其特征在于，其包括：

9.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的图像多标签分类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的图像多标签分类方法。