CN111897985A

CN111897985A - 图像多标签分类方法、系统、设备及可读存储介质

Info

Publication number: CN111897985A
Application number: CN202010581393.5A
Authority: CN
Inventors: 蔺琛皓; 沈超; 朱炯历; 王骞; 李琦
Original assignee: Xian Jiaotong University
Current assignee: First Affiliated Hospital of Medical College of Xian Jiaotong University
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-11-06
Anticipated expiration: 2040-06-23
Also published as: CN111897985B

Abstract

本发明属于图像分类领域，公开了一种图像多标签分类方法、系统、设备及可读存储介质，所述方法包括：S1：获取待分类的多标签各自对应的原始图像，生成样本集；S2：获取用于图像多标签分类的初始深度卷积神经网络，添加门激活函数层得到深度卷积神经网络；S3：通过样本集迭代训练深度卷积神经网络，得到各标签对应的显著性图；S4：选取预设要求的标签对应的显著性图，通过显著性图从对应的原始图像中提取目标；S5：设置待生成图像，将目标区域迁移至待生成图像上得到目标图像；S6：将目标图像添加至样本集中，迭代S3至S5预设次数，通过最终的深度卷积神经网络进行输入图像的图像多标签分类。本方法有效提升图像多标签分类的精度和准确率。

Description

图像多标签分类方法、系统、设备及可读存储介质

技术领域

本发明属于图像分类领域，涉及一种图像多标签分类方法、系统、设备及可读存储介质。

背景技术

图像多标签分类问题一直是计算机视觉领域的热点问题，随着人工智能技术的兴起和发展，基于深度学习的图像多标签分类方法，尤其是采用深度卷积神经网络的图像多标签分类取得了重大的突破，其分类准确率远超传统机器学习的方法。但是由于基于深度卷积神经网络的模型参数量巨大，结果普遍缺乏可解释性，使得基于此方法的图像多标签分类结果不够置信，这已成为深度学习进一步发展和应用的瓶颈。与此同时，真实数据还存在长尾分布、多目标物体遮挡、尺度多变等现象，由此带来的数据不均衡、目标物体特征学习困难问题，造成了部分类别物体的分类准确率较低，无法满足真实场景中部署应用的需求。

针对以上问题，有研究者提出了图像可解释性定位的方法，用以对深度卷积神经网络的图像分类结果进行可视化解释和说明，增强图像分类结果的可信性。然而现有的工作多仅提供可解释的可视化图像显著性图或类激活图，而很少有利用这些可解释性的结果进一步提升图像多标签分类的准确率。研究论文《Learning Deep Features forDiscriminative Localization》[1]公开了一种基于深度卷积神经网络及全局平均池化(Global Average Pooling)的图像可解释分析及目标特征定位的方法。研究论文《Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization》[2]公开了一种基于梯度定位的深度卷积网络结构可视化可解释性方法，该方法基于[1]，提出引入ReLU激活函数及结合梯度反向传播原理获得更精细的可解释性可视化结果。以上方法都对基于深度卷积神经网络的图像分类的可解释做了分析及可视化呈现，但没有利用可解释性的结果对图像多标签分类的准确率做进一步的改进。

综上所述，现有的基于深度学习的图像分类中的可解释性方法，对目标物体的定位及描述不够准确，仅定位到目标物体的局部非重点区域，或将非目标物体定位为目标物体。现有的方法大多数仅给出了可解释性的可视化显著性图，而没有利用目标物体的可解释性对图像多标签分类效果做进一步的改善和提升。真实图像数据存在数据长尾分布(少见类别数据不足)、目标物体遮挡、尺度多变等特点，现有的方法多采用通用性的数据增广的方式解决数据不足的问题，而没有针对少样本数据、遮挡数据、分类效果差的类别设计专门的方法，这也一定程度上使得某些类别的图像多标签分类精度不够高。

发明内容

本发明的目的在于克服上述现有技术中图像多标签分类精度不够高、准确率低的缺点，提供一种图像多标签分类方法、系统、设备及可读存储介质。

为达到上述目的，本发明采用以下技术方案予以实现：

本发明第一方面，一种图像多标签分类方法，包括以下步骤：

S1：获取待分类的多标签各自对应的原始图像，生成样本集；

S2：获取用于图像多标签分类的初始深度卷积神经网络；在初始深度卷积神经网络内添加门激活函数层得到深度卷积神经网络；

S3：通过样本集迭代训练深度卷积神经网络，得到各标签对应的显著性图；

S4：选取预设要求的标签对应的显著性图，通过显著性图从对应的原始图像中提取目标，目标为预设要求的标签对应的目标物体；

S5：设置待生成图像，将目标区域迁移至待生成图像上得到目标图像；

S6：将目标图像添加至样本集中，迭代S3至S5预设次数，通过最终的深度卷积神经网络进行输入图像的图像多标签分类。

本发明图像多标签分类方法进一步的改进在于：

所述S1还包括：将原始图像进行预处理，预处理包括图像去噪、图像增强和/或数据增广。

所述S3的具体方法为：

通过样本集迭代训练深度卷积神经网络，将深度卷积神经网络的低层神经网络输出和高层神经网络输出融合，得到各标签对应的可视化的显著性图。

所述S4中预设要求的标签为标签对应的原始图像数量小于预设数量的标签，或者为标签的分类效果不满足预设要求的标签。

所述S4中通过显著性图从对应的原始图像中提取目标的具体方法为：

将显著性图归一化到0-1之间，以随机阈值设计二值化掩码从对应的原始图像中提取目标。

所述S5的具体方法为：

S5-1：设置待生成图像，将目标置于待生成图像；

S5-2：将目标进行随机平移及缩放；根据待生成图像的边缘范围及待生成图像内其他物体的区域范围，得到目标的区域及大小的生成条件，根据生成条件选取随机平移及缩放后的目标；

S5-3：重复S5-2至达到预设的最大选取次数，将满足生成条件的目标的颜色风格迁移到待生成图像，得到目标图像。

所述S5-3中将满足生成条件的目标的颜色风格迁移到待生成图像的具体方法为：

计算待生成图像和目标在Lab颜色空间的均值和方差，将目标的颜色风格迁移到待生成图像的颜色风格。

本发明第二方面，一种图像多标签分类系统，包括：

样本集模块，用于获取待分类的多标签各自对应的原始图像，生成样本集；

模型建立模块，用于获取用于图像多标签分类的初始深度卷积神经网络；在初始深度卷积神经网络内添加门激活函数层得到深度卷积神经网络；

模型训练模块，用于通过样本集迭代训练深度卷积神经网络，得到各标签对应的显著性图；

目标提取模块，用于选取预设要求的标签对应的显著性图，通过显著性图从对应的原始图像中提取目标，目标为预设要求的标签对应的目标物体；

目标图像生成模块，用于设置待生成图像，将目标区域迁移至待生成图像上得到目标图像；

样本集更新模块，用于将目标图像添加至样本集中；

循环控制模块，用于控制模型训练模块、目标提取模块、目标图像生成模块以及样本集更新模块循环进行预设次数；以及

图像多标签分类模块，用于通过最终的深度卷积神经网络进行输入图像的图像多标签分类。

本发明第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述图像多标签分类方法的步骤。

本发明第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述图像多标签分类方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明图像多标签分类方法，通过在初始深度卷积神经网络内添加门激活函数层得到深度卷积神经网络，将低于阈值的神经网络输出过滤掉，从而将非目标物体的扰动干扰排除；支持更可信的图像分类可解释性可视化，对目标有更准确的识别和定位，并能一定程度解决目标误判的问题。同时，选取预设要求的标签对应的显著性图，进行目标提取和目标图像生成，并将目标图像添加至样本集中，迭代进行训练深度卷积神经网络，在一定程度上缓解了图像多标签领域中部分类别数据严重缺少，尺度多变等问题，使深度卷积神经网络的训练数据更加均衡，提升分类的精度和准确率。同时，该方法可以迁移使用到基于不同深度卷积神经网络的图像多标签分类方法中，增强可解释性并提升图像多标签分类精度。

进一步的，将深度卷积神经网络的低层神经网络输出和高层神经网络输出融合，得到各标签对应的可视化的显著性图，由于处于低层神经网络的样本像素值高，包含更多的位置信息，处于高层神经元包含样本更多的语义信息，采用低层与高层神经网络相融合的方式获得效果更好的可解释性可视化多分类目标图像。

附图说明

图1为本发明实施例的图像多标签分类方法流程示意图；

图2为本发明实施例的门激活函数层的功能流程示意图；

图3为本发明实施例的目标提取及生成流程示意图；

图4为本发明实施例的终端设备结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明一种实施例中提供了一种图像多标签分类方法，包括以下步骤：

S1：获取待分类的多标签各自对应的原始图像，生成样本集。

S2：获取用于图像多标签分类的初始深度卷积神经网络；在初始深度卷积神经网络内添加门激活函数层得到深度卷积神经网络。

S3：通过样本集迭代训练深度卷积神经网络，得到各标签对应的显著性图。

S4：选取预设要求的标签对应的显著性图，通过显著性图从对应的原始图像中提取目标，目标为预设要求的标签对应的目标物体。

S5：设置待生成图像，将目标区域迁移至待生成图像上得到目标图像。

其中，S1中的待分类的多标签各自对应的原始图像为常见的用于多标签分类任务的图片。S2中的初始深度卷积神经网络可以选择并使用图像多标签分类领域中先进的深度卷积网络实现对图像的多标签分类以及目标物体的识别。在初始深度卷积神经网络内添加门激活函数层，具体是：基于上述深度卷积神经网络的结构，添加带有门激活函数的层，即门激活函数层来生成显著图，参见图2，通过ReLU激活函数和特定阈值，设计门ReLU机制，将低于阈值的深度卷积神经网络输出过滤掉，满足门机制的阈值的输出生成可解释性可视化结果，即对应的可视化显著性图，不满足门机制的阈值的输出将输出值置为0，不计入可解释性区域，从而达到将非目标物体的扰动干扰排除的目的。

本发明图像多标签分类方法，通过设计门激活函数层，使图像多标签分类结果的可解释性更加可信，对目标物体有更准确的识别和定位，并能一定程度解决目标定位误判、目标定位不全的问题。充分利用可解释性的图像结果，即显著性图，成功的分离出目标物体，并基于此迭代式的学习和生成新的模拟图像，将此生成的样本加入图像分类网络的训练过程中，成功的提升图像多标签分类的准确率。通过新图像的生成，在一定程度上缓解了部分类别标签的数据严重缺少的问题，从而使网络的训练数据比较均衡，多标签分类的精度有所提升。除此之外，本发明提出的方法是插件式的且具有通用性，可迁移使用到不同的深度卷积神经网络的图像多标签分类方法中，增强可解释性并提升图像多标签分类精度。

在具体实施时，优选的，在生成样本集时，对于原始图像，采用一般化针对性的通用图片预处理方法，如图像去噪，图像增强，数据增广等方式。

本实施例中还提供了通过样本集迭代训练深度卷积神经网络，得到各标签对应的显著性图的一种具体方式，即通过样本集迭代训练深度卷积神经网络，将深度卷积神经网络的低层神经网络输出和高层神经网络输出融合，得到各标签对应的可视化的显著性图。由于处于低层神经网络的样本像素值高，包含更多的位置信息，处于高层神经网络包含样本更多的语义信息，因此采用低层神经网络与高层神经网络输出相融合的方式获得效果更好的可解释性可视化多分类目标图像。

本实施例中，选取预设要求的标签对应的显著性图时，预设要求的标签是指标签对应的原始图像数量小于预设数量的标签，或者指标签的分类效果不满足预设要求的标签。将这些标签设置为预设要求的标签的目的，就是通过S4和S5的过程，提升其的数据量，在一定程度上缓解了图像多标签领域中部分类别数据严重缺少，尺度多变等问题，使深度卷积神经网络的训练数据更加均衡，进而提升图像多标签分类的准确率。

本实施例中，在通过显著性图从对应的原始图像中提取目标时，采用的具体方法为：先将此显著性图归一化到0-1之间，之后以一定范围内的随机阈值，基于原始图像，对特定的目标区域进行提取，特定的目标区域指满足随机阈值的区域。

本实施例中，在设置待生成图像，将目标区域迁移至待生成图像上得到目标图像时，采用的具体步骤如下：S5-1：设置待生成图像，待生成图像为数据集中非选取目标的图像，生成过程就是将选取的目标融合到待生成图像中，并且基本不遮挡该图像中原本存在的其他类别物体，将目标置于待生成图像；S5-2：将目标进行随机平移及缩放；根据待生成图像的边缘范围及待生成图像内其他物体的区域范围，得到目标的区域及大小的生成条件，根据生成条件选取随机平移及缩放后的目标；S5-3：重复S5-2至达到预设的最大选取次数，将满足生成条件的目标的颜色风格迁移到待生成图像，得到目标图像。

参见图3，具体的，根据待生成图像的尺寸范围及待生成图像中原有的其他标签类别目标物体的潜在区域，计算可能的目标物体的区域及大小，选定随机平移和缩放的目标区域的生成条件，设定最大选取次数对不满足条件的区域重新生成、选取，若超过最大选取次数则丢弃。根据待生成的图像颜色风格及提取的目标，实现颜色迁移。本实施例中，颜色迁移的具体方法为：通过计算待生成图像和目标物体在Lab颜色空间的均值和方差，将目标的颜色风格迁移到待生成图像的颜色风格，实现目标图像生成。

本实施例中，将生成的目标图像加入到样本集中，迭代循环S3至S5预设次数，借鉴图像混合机制(mixup)，将自适应生成的目标图像和样本集中的原始图像进行混合，以达到进一步数据增强的效果，缓解训练过拟合问题，迭代式地提升图像多标签分类的准确率和可解释性效果。

再一个实施例中，本发明提供了一种图像多标签分类系统，包括样本集模块、模型建立模块、模型训练模块、目标提取模块、目标图像生成模块、样本集更新模块、循环控制模块以及图像多标签分类模块。

样本集模块用于获取待分类的多标签各自对应的原始图像，生成样本集；模型建立模块用于获取用于图像多标签分类的初始深度卷积神经网络；在初始深度卷积神经网络内添加门激活函数层得到深度卷积神经网络；模型训练模块用于通过样本集迭代训练深度卷积神经网络，得到各标签对应的显著性图；目标提取模块用于选取预设要求的标签对应的显著性图，通过显著性图从对应的原始图像中提取目标；目标图像生成模块用于设置待生成图像，将目标区域迁移至待生成图像上得到目标图像；样本集更新模块，用于将目标图像添加至样本集中；循环控制模块用于控制模型训练模块、目标提取模块、目标图像生成模块以及样本集更新模块循环进行预设次数；图像多标签分类模块用于通过最终的深度卷积神经网络进行输入图像的图像多标签分类。

参见图4，再一个实施例中，本发明提供一种终端设备，该终端设备至少包括处理器、输入设备、输出设备以及计算机存储介质。其中，终端内的处理器、输入设备、输出设备以及计算机存储介质可通过总线或其他方式连接。

计算机存储介质可以存储在终端的存储器中，所述计算机存储介质用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器可以用于图像多标签分类方法的操作，包括：S1：获取待分类的多标签各自对应的原始图像，生成样本集；S2：获取用于图像多标签分类的初始深度卷积神经网络；在初始深度卷积神经网络内添加门激活函数层得到深度卷积神经网络；S3：通过样本集迭代训练深度卷积神经网络，得到各标签对应的显著性图；S4：选取预设要求的标签对应的显著性图，通过显著性图从对应的原始图像中提取目标；S5：设置待生成图像，将目标区域迁移至待生成图像上得到目标图像；S6：将目标图像添加至样本集中，迭代S3至S5预设次数，通过最终的深度卷积神经网络进行输入图像的图像多标签分类。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

再一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或一条以上指令，以实现上述有关数据中心能效比优化方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：S1：获取待分类的多标签各自对应的原始图像，生成样本集；S2：获取用于图像多标签分类的初始深度卷积神经网络；在初始深度卷积神经网络内添加门激活函数层得到深度卷积神经网络；S3：通过样本集迭代训练深度卷积神经网络，得到各标签对应的显著性图；S4：选取预设要求的标签对应的显著性图，通过显著性图从对应的原始图像中提取目标；S5：设置待生成图像，将目标区域迁移至待生成图像上得到目标图像；S6：将目标图像添加至样本集中，迭代S3至S5预设次数，通过最终的深度卷积神经网络进行输入图像的图像多标签分类。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种图像多标签分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的图像多标签分类方法，其特征在于，所述S1还包括：将原始图像进行预处理，预处理包括图像去噪、图像增强和/或数据增广。

3.根据权利要求1所述的图像多标签分类方法，其特征在于，所述S3的具体方法为：

4.根据权利要求1所述的图像多标签分类方法，其特征在于，所述S4中预设要求的标签为标签对应的原始图像数量小于预设数量的标签，或者为标签的分类效果不满足预设要求的标签。

5.根据权利要求1所述的图像多标签分类方法，其特征在于，所述S4中通过显著性图从对应的原始图像中提取目标的具体方法为：

6.根据权利要求1所述的图像多标签分类方法，其特征在于，所述S5的具体方法为：

S5-1：设置待生成图像，将目标置于待生成图像；

7.根据权利要求6所述的图像多标签分类方法，其特征在于，所述S5-3中将满足生成条件的目标的颜色风格迁移到待生成图像的具体方法为：

8.一种图像多标签分类系统，其特征在于，包括：

样本集更新模块，用于将目标图像添加至样本集中；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述图像多标签分类方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像多标签分类方法的步骤。