CN113537286A

CN113537286A - 一种图像分类方法、装置、设备及介质

Info

Publication number: CN113537286A
Application number: CN202110654650.8A
Authority: CN
Inventors: 廖丹萍
Original assignee: Zhejiang Smart Video Security Innovation Center Co Ltd
Current assignee: Zhejiang Smart Video Security Innovation Center Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-10-22
Anticipated expiration: 2041-06-11

Abstract

本公开提供了一种图像分类方法、装置、介质及设备，其中，所述方法包括：采集输入图像数据进行预处理，并根据预处理后的数据构建图像标签；构建神经网络，并设计损失函数；将所述图像标签分为训练集图像和测试集图像，并根据所述训练集图像训练所述神经网络；利用所述测试集图像对训练后的所述神经网络进行图像分类测试。本公开设计了一种由基于类别相关性的标签平滑方法；本公开对神经网络的输出概率加上组稀疏约束，使得神经网络在不相似的大类之间实现互斥。

Description

一种图像分类方法、装置、设备及介质

技术领域

本公开涉及深度学习技术领域，更为具体来说，本公开涉及一种图像分类方法、装置、设备及介质。

背景技术

图像分类是一种根据图像信息中的不同特征，把图像归为不同类别的算法。图像分类算法的输入为一张图像，输出为类别集合中的某个类别。

目前，基于深度神经网络的图像分类算法得到了广泛的关注和研究。有监督的深度学习算法首先需要对数据进行标注，即为每一张训练图像标记类别标签。标签通常用一个类别向量来表示。一般而言，类别向量以一种one-hot(独热)向量的方式呈现，即当图像属于某一类时，类别向量中的那一分量为1，其他分量为0。

然而，拟合one-hot的真实概率会带来一个问题：1概率和0概率鼓励图像所属类别和其他类别之间的特征差距尽可能加大。这会造成模型过于相信预测的类别，在所属的类别上有很大的值，而在其他类别上的值非常小。由于类别之间经常不是完全互斥的，使用one-hot标签会使得模型过度相信标记为1的标签，这会降低模型的泛化能力。

发明内容

为解决现有技术的深度学习诊断工具不能满足对于深度学习的诊断的准确度的要求的技术问题。

为实现上述技术目的，本公开提供了一种图像分类方法，包括：

采集输入图像数据进行预处理，并对预处理后的数据构建图像标签；

构建神经网络，并设计损失函数；

将预处理后的图像数据分为训练集图像和测试集图像，并根据所述训练集图像训练所述神经网络；

利用所述测试集图像对训练后的所述神经网络进行图像分类测试。

进一步，所述根据预处理后的图像数据构建图像标签具体包括：

将所述图像数据中的类别属性相似的分为同一组；

根据所述图像数据原始的独热标签类别相似度，设置组内和组外类别标签；

对数据集中的类别，根据类别相似度，分成N个大组，每个子类归属到一个大组；其中，N为正整数；

对每一张训练图像，构建其对应的标签y。

进一步，所述构建其对应的标签y具体包括：

将其原始的独热标签进行组外平滑，使得其他组的类别分量为ε₁/K,K为数据集所有类别的数量；

将组内其他类别的标签分量设置成ε₂/K,其中，ε₂>ε₁，ε₂和ε₁为预设参数；

图像所属子类别对应的标签分量为1-ε₁/K×K₁-ε₂/K×K₂；

其中，K₁是组外其他类别的类别总数，K₂是组内其他类别的类别总数。

进一步，所述预先设计好的损失函数具体为：

loss(y,z)＝-∑_iy_ilog(z_i)+∑_nλ||Z_n||_1,，其中，y_i表示图像数据的真实标签在第i类的概率；

z_i是第i类的预测概率值；

λ为组稀疏约束的权重，n表示所属组之外的其他大组的下标，

k表示遍历第n组的所有类别概率分量；

i为自然数。

进一步，所述根据所述训练集图像训练所述神经网络具体包括：

利用梯度下降法对所述训练集图像进行训练，得到所述神经网络。

进一步，所述利用梯度下降法对所述训练集图像进行训练，得到所述神经网络具体包括：

根据所述训练集图像的数量以及预训练模型，设置网络训练的超参数；

对神经网络的预测概率利用所述损失函数计算损失值；

利用随机梯度下降法对网络参数进行更新，使得网络损失值逐步收敛；

其中，所述超参数包括图像的批大小、初始学习率和/或学习率动量。

进一步，所述利用所述测试集图像对训练后的所述神经网络进行图像分类测试具体包括：

选择一张测试集图像中的图像数据，将其输入训练好的神经网络中，得到其在所有类别上的概率分布；

选择概率值最大的类别作为其所属类别。

为实现上述技术目的，本公开还能够提供一种图像分类装置，包括：

预处理模块，用于采集输入图像数据并进行预处理，并根据预处理后的图像数据构建图像标签；

神经网络构建模块，用于根据预先设计好的损失函数构建神经网络；

神经网络训练模块，用于将所述图像标签分为训练集图像和测试集图像，并根据所述训练集图像训练所述神经网络；

分类测试模块，用于利用所述测试集图像对训练后的所述神经网络进行图像分类测试。

进一步，所述预先设计好的损失函数具体为：

z_i是第i类的预测概率值；

k表示遍历第n组的所有类别概率分量；

i为自然数。

为实现上述技术目的，本公开还能够提供一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时用于实现上述的图像分类方法的步骤。

为实现上述技术目的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的图像分类方法的步骤。

本公开的有益效果为：

本公开设计了一种由基于类别相关性的标签平滑方法；

本公开对神经网络的输出概率加上组稀疏约束，使得神经网络在不相似的大类之间实现互斥。

附图说明

图1示出了本公开的实施例1的流程示意图；

图2示出了本公开与传统One hot及label smooth的对比示意图；

图3示出了本公开的实施例2的结构示意图；

图4示出了本公开的实施例4的结构示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

对于现有技术而言，各类别之间的相关性一般是不相同的。

比如，在狗、狼、汽车的三类分类问题中，狗和狼是更相似的，而狗和汽车是更不相似的。

在实际生活中，存在大量相似的类别和不相似的类别。比如，在ImageNet1000类数据集中，包含了45种鱼，12种鸟，11种蜥蜴，9种蜘蛛，124种狗，8种猫等等。如果把一类动物分为同一组，显然，同组内部的种类之间的相似度比较高。不同组的种类之间的相似度则较低。有些组，比如狗和蜘蛛，具有极少的相似性。有些组，如狗和猫，则具有一定的相似性。传统的one-hot标签和label-smooth标签没有考虑到组内的相似性和组间的相关性。

为了缓解模型输出过度自信的概率预测，进而导致过拟合的问题，标签平滑(label smooth)方法被提出。标签平滑改变了标签向量的最小值，使它为ε/K,K为类别总数。

因此，当模型进行分类时，其结果不再仅是1或0，而是由如下公式产生：

q′(k)＝(1-ε)δ_k,y+εμ(K)

其中，δ_k,y在k＝y时为1，否则为0。μ(K)是均匀分布。采用标签平滑，则图像所属的类别对应的标签分量为1-ε+ε/K，其他类别对应的标签分量为ε/K。

本专利公开了一种新型的损失函数，基于以下原则：

1.组内应该采用比组外更加平滑的标签。

由于大组内部的类别具有较高的相似性，因此属于同一个大组的类别之间应该采用较平滑的标签。

2.不相似的大组之间应该完全互斥。

当两个大组不相似时，算法在彼此的输出概率分量应该全部为0。

比如，狗和飞机这两个大组相似性很低，则对某张狗的输入图像，其在所有飞机子类别上的分量应该都为0。

基于原则1，本专利设计了一种组内和组间的标签平滑方法。

基于原则2，本专利对网络的输出概率加上组稀疏约束，使得网络在不相似的大类之间实现互斥。

实施例一：

如图1所示：

本公开提供了一种图像分类方法，包括：

S101：采集输入图像数据进行预处理，并对预处理后的数据构建图像标签。

进一步，所述对预处理后的数据构建图像标签具体包括：

将所述图像数据中的类别属性相似的分为同一组；

根据所述图像数据原始的独热标签类别相似度，设置组内和组外类别标签。

具体地，

对数据集中的类别，根据类别相似度，分成N个大组，每个子类归属到一个大组。对每一张训练图像，构建其对应的标签。

构建标签分成两步：

第一步构建组外类别标签，将其原始的One-hot标签进行组外平滑，使得其他组的类别分量为ε₁/K,K为数据集所有类别的数量；

第二步构建组内类别标签，将组内其他类别的标签分量设置成ε₂/K,其中，ε₂>ε₁。

图像所属子类别对应的标签分量为1-ε₁/K×K₁-ε₂/K×K₂。其中，K₁是组外其他类别的类别总数，K₂是组内其他类别的类别总数。

可以看出，当K₂＝0时，本方案退化为传统的label smooth方案。

S102：根据预先设计好的损失函数构建神经网络。

具体地，

基于神经网络的分类模型一般包含两个模块：特征提取模块和分类模块，其中，特征提取模块对图像提取特征；分类模块将提取的特征转化成类别的概率分布。在训练过程中，将网络得到的概率分布与图像的真实标签计算差异损失，指导网络利用梯度下降进行优化。

本专利不限制采用的特征提取模型和分类模型。特征提取可以采用VGG-NET,ResNet或者MobileNet等。分类模块可以采用全连接层或者直接利用全局池化层进行分类。

S103：将所述图像标签分为训练集图像和测试集图像，并根据所述训练集图像训练所述神经网络。

利用随机梯度下降法对所述训练集图像进行训练，得到所述神经网络。

对神经网络的预测概率利用所述损失函数计算损失值；

进一步，所述预先设计好的损失函数具体为：

loss(y,z)＝-∑_iy_ilog(z_i)+∑_nλ||Z_n||_1,2，其中，y_i表示图像数据的真实标签在第i类的概率；

z_i是第i类的预测概率值；

k表示遍历第n组的所有类别概率分量；

i为自然数。

S104：利用所述测试集图像对训练后的所述神经网络进行图像分类测试。

进一步，所述利用所述测试集图像对训练后的所述神经网络进行图像分类测试，具体包括：

选择概率值最大的类别作为其所属类别。

本公开提出的方法与传统One hot及label smooth的对比见图2。该图上部分表示当输入的图像属于狗2类时，其对应的标签情况。

其中，One hot的方法没有考虑到类别之间的相关性。Label smooth的方法将其他类别一视同仁，也没有考虑到类别之间的相关关系。

本专利提出的方法不仅在组间进行了轻度的标签平滑，同时在组内进行了更高程度的标签平滑。

同时，对网络的预测值加入组稀疏约束，使得不相关的组之间实现互斥。通过重构组内平滑标签，和组间稀疏约束，本方案可以很好地处理数据的组内相似性和组间关系。

实施例二：

如图3所示，

本公开还能够提供一种图像分类装置，包括：

预处理模块201，用于采集输入图像数据进行预处理，并根据预处理后的数据构建图像标签；

神经网络构建模块202，用于构建神经网络，并设计损失函数；

神经网络训练模块203，用于将所述图像标签分为训练集图像和测试集图像，并根据所述训练集图像训练所述神经网络；

分类测试模块204，用于利用所述测试集图像对训练后的所述神经网络进行图像分类测试。

其中，本公开所述的预处理模块201依次与所述神经网络构建模块202以及所述神经网络训练模块203和所述分类测试模块204相连接。

进一步，所述预先设计好的损失函数具体为：

z_i是第i类的预测概率值；

k表示遍历第n组的所有类别概率分量；

i为自然数。

实施例三：

本公开还能够提供一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时用于实现上述的图像分类方法的步骤。

本公开的计算机存储介质可以采用半导体存储器、磁芯存储器、磁鼓存储器或磁盘存储器实现。

半导体存储器，主要用于计算机的半导体存储元件主要有Mos和双极型两种。Mos元件集成度高、工艺简单但速度较慢。双极型元件工艺复杂、功耗大、集成度低但速度快。NMos和CMos问世后，使Mos存储器在半导体存储器中开始占主要地位。NMos速度快，如英特尔公司的1K位静态随机存储器的存取时间为45ns。而CMos耗电省，4K位的CMos静态存储器存取时间为300ns。上述半导体存储器都是随机存取存储器(RAM),即在工作过程中可随机进行读出和写入新内容。而半导体只读存储器(ROM)在工作过程中可随机读出但不能写入，它用来存放已固化好的程序和数据。ROM又分为不可改写的熔断丝式只读存储器──PROM和可改写的只读存储器EPROM两种。

磁芯存储器，具有成本低，可靠性高的特点，且有20多年的实际使用经验。70年代中期以前广泛使用磁芯存储器作为主存储器。其存储容量可达10位以上，存取时间最快为300ns。国际上典型的磁芯存储器容量为4MS～8MB，存取周期为1.0～1.5μs。在半导体存储快速发展取代磁芯存储器作为主存储器的位置之后，磁芯存储器仍然可以作为大容量扩充存储器而得到应用。

磁鼓存储器，一种磁记录的外存储器。由于其信息存取速度快，工作稳定可靠，虽然其容量较小，正逐渐被磁盘存储器所取代，但仍被用作实时过程控制计算机和中、大型计算机的外存储器。为了适应小型和微型计算机的需要，出现了超小型磁鼓，其体积小、重量轻、可靠性高、使用方便。

磁盘存储器，一种磁记录的外存储器。它兼有磁鼓和磁带存储器的优点，即其存储容量较磁鼓容量大，而存取速度则较磁带存储器快，又可脱机贮存，因此在各种计算机系统中磁盘被广泛用作大容量的外存储器。磁盘一般分为硬磁盘和软磁盘存储器两大类。

硬磁盘存储器的品种很多。从结构上，分可换式和固定式两种。可换式磁盘盘片可调换，固定式磁盘盘片是固定的。可换式和固定式磁盘都有多片组合和单片结构两种，又都可分为固定磁头型和活动磁头型。固定磁头型磁盘的容量较小，记录密度低存取速度高，但造价高。活动磁头型磁盘记录密度高(可达1000～6250位/英寸)，因而容量大,但存取速度相对固定磁头磁盘低。磁盘产品的存储容量可达几百兆字节，位密度为每英寸6 250位,道密度为每英寸475道。其中多片可换磁盘存储器由于盘组可以更换,具有很大的脱体容量,而且容量大,速度高,可存储大容量情报资料，在联机情报检索系统、数据库管理系统中得到广泛应用。

实施例四：

本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的图像分类方法的步骤。

图4为一个实施例中电子设备的内部结构示意图。如图4所示，该电子设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中，该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种图像分类方法。该电设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种图像分类方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

该电子设备包括但不限于智能电话、计算机、平板电脑、可穿戴智能设备、人工智能设备、移动电源等。

所述处理器在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器内的程序或者模块(例如执行远端数据读写程序等)，以及调用存储在所述存储器内的数据，以执行电子设备的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。

图4仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图4示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。

可选地，该电子设备还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种图像分类方法，其特征在于，包括：

采集输入图像数据进行预处理，并根据预处理后的数据构建图像标签；

构建神经网络，并设计损失函数；

将所述图像标签分为训练集图像和测试集图像，并根据所述训练集图像训练所述神经网络；

2.根据权利要求1所述的方法，其特征在于，所述根据预处理后的数据构建图像标签，具体包括：

将所述图像数据中的类别属性相似的分为同一组；

对每一张训练图像，构建其对应的标签y。

3.根据权利要求2所述的方法，其特征在于，所述构建其对应的标签y具体包括：

将其原始的独热标签进行组外平滑，使得其他组的类别分量为ε₁/K，K为数据集所有类别的数量；

将组内其他类别的标签分量设置成ε₂/K，其中，ε₂＞ε₁，ε₂和ε₁为预设参数；

图像所属子类别对应的标签分量为1-ε₁/K×K₁-ε₂/K×K₂；

4.根据权利要求1所述的方法，其特征在于，所述预先设计好的损失函数具体为：

loss(y，z)＝-∑_iy_ilog(z_i)+∑_nλ||Z_n||_1，2，其中，y_i表示图像数据的真实标签在第i类的概率；

z_i是第i类的预测概率值；

k表示遍历第n组的所有类别概率分量；

i为自然数。

5.根据权利要求1所述的方法，其特征在于，所述根据所述训练集图像训练所述神经网络，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述利用随机梯度下降法对所述训练集图像进行训练，得到所述神经网络具体包括：

对神经网络的预测概率利用所述损失函数计算损失值；

7.根据权利要求1所述的方法，其特征在于，所述利用所述测试集图像对训练后的所述神经网络进行图像分类测试具体包括：

选择概率值最大的类别作为其所属类别。

8.一种图像分类装置，其特征在于，包括：

预处理模块，用于采集输入图像数据进行预处理，并根据预处理后的数据构建图像标签；

神经网络构建模块，用于构建神经网络，并设计损失函数；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现权利要求1～7任一项中所述的图像分类方法对应的步骤。

10.一种计算机存储介质，其上存储有计算机程序指令，其特征在于，所述程序指令被处理器执行时用于实现权利要求1～7任一项中所述的图像分类方法对应的步骤。