CN112949750A

CN112949750A - 一种图像分类方法及计算机可读存储介质

Info

Publication number: CN112949750A
Application number: CN202110319053.XA
Authority: CN
Inventors: 王好谦; 李卓凌
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-11
Anticipated expiration: 2041-03-25
Also published as: CN112949750B

Abstract

本发明提供一种图像分类方法及计算机可读存储介质，包括：构建一个待训练的深度学习网络并准备用于训练的图像数据集，网络参数进行随机初始化并初始化一个先进先出队列，图像数据集中的图片未进行标注；分别从图像数据集中采样出图片用于迭代训练，对每张图片进行增强变化得到查询样本图片和正样本图片；对表征向量进行提取得到对应的查询样本向量和正样本向量，将正样本向量压入先进先出队列中，同时移除队列中存储时间最久的元素；分别获取查询样本向量和先进先出队列中每个样本的相似度，并构建损失函数计算损失值；在与测试数据集上对深度学习网络的正确率进行测试直至收敛；采用训练好的网络对目标任务的图像进行分类。

Description

一种图像分类方法及计算机可读存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种图像分类方法及计算机可读存储介质。

背景技术

基于深度学习的图像分类方法是一项近几年发展迅速且得到广泛应用的技术，该技术建立在神经网络理论、神经动力学的基础上，通过构建多层人造神经网络的方式，组合出具有强大非线性拟合能力的映射函数。

为了得到正确的从图像像素输入到对应类别的映射关系，基于深度学习的神经网络往往具有大量的参数，通过这些参数让模型能够拟合复杂的映射函数关系。为了使得具有大量参数的网络能够拟合出目标的函数映射关系，往往需要大量的有标注数据供神经网络训练学习。而标注数据的过程会耗费大量的人力物力。

为了缓解数据标注对深度学习技术发展带来的阻碍，小样本学习应运而生。小样本学习旨在让深度学习模型仅仅使用很少量的标注数据，就能学会需要学习到的任务，进而在低标注成本的情况下完成任务。小样本学习的出发点来自于对人认识事物过程的思考，人并不需要大量的标注数据来认识事物，当遇到新的事物时，人只需要少量的新事物样本就可以学会如何辨认新事物。出于以上思考，研究者们认为，深度学习模型应该也可以像人一样，仅使用少量标注样本就学会新的任务，这种仅使用少量标注样本进行学习的训练模式被称为小样本学习。

值得注意的是，人之所以能仅使用少量标注样本就学会辨认新的事物，是由于人在之前的生活中已经积累了大量的先验知识，已经学会了如果通过事物的形状、纹理等对其进行辨认。基于该思考，深度学习模型在进行仅使用少量样本学习辨认新事物之前也应该先通过某种方式获得充足的先验知识，积累足够的相关经验，以便于后续快速学会新任务。

为了让模型能够获得所需的先验知识，一种最常用也最直接的思路是将训练过程分为两部分：预训练和目标训练。在预训练过程中，我们让模型在一个较大的和目标场景数据类似的数据集上进行相似任务的预训练，模型会在预训练的过程中学会如何利用给定图片特征、如何进行该类型任务。而目标训练阶段的任务则是让模型学会实际希望它完成的目标任务。由于经过了预训练阶段获取了先验知识，当模型在目标训练阶段被赋予新的只有少量标注数据的任务时，就能快速高效地学会新任务。

然而，该思路的问题在于预训练的过程需要使用一个较大规模的相似有标注数据集，该数据集未必一定可得。当不存在和目标任务所用数据较为相似的大规模数据集时，直接使用一些不相似有标注数据集进行预训练反而可能降低模型的性能，而标注一个大规模相似数据集则会付出远高于原任务的标注成本，适得其反，因此，在相似大规模数据集上进行预训练再利用少量新任务标注样本进行快速学习的小样本学习思路并非一定可行。

获得有标注数据的昂贵成本主要来自于依靠人力给数据打标签的过程，获得数据本身并不需要太多成本。随着大数据时代的到来，我们较为容易通过各种渠道获得大量的无标注数据，如果能够利用这些无标注数据来进行模型预训练，进而完成小样本学习，将极大地降低数据标注成本，进而将深度学习技术推广向更多应用领域。

现有技术中缺乏一种在无需人工标注数据的前提下训练深度学习分类模型的方法。

以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明为了解决现有的问题，提供一种图像分类方法及计算机可读存储介质。

为了解决上述问题，本发明采用的技术方案如下所述：

一种图像分类方法，包括如下步骤：S1：构建一个待训练的深度学习网络并准备用于训练所述深度学习网络的图像数据集，所述深度学习网络的参数进行随机初始化并初始化一个先进先出队列，所述图像数据集中的图片未进行标注；S2：分别从所述图像数据集中采样出图片用于所述深度学习网络的迭代训练，对每张所述图片进行增强变化得到2张强化图片，2张所述强化图片分别作为查询样本图片和正样本图片；S3：采用所述深度学习网络对所述查询样本图片和所述正样本图片的表征向量进行提取得到对应的查询样本向量和正样本向量，将所述正样本向量压入所述先进先出队列中，同时移除所述队列中存储时间最久的元素；S4：分别获取所述查询样本向量和所述先进先出队列中每个样本的相似度，并构建损失函数计算损失值，以最小化损失值为目标使用基于梯度的神经网络优化算法对所述深度学习网络的参数进行更新；S5：在与预先设置的目标任务相关的测试数据集上对所述深度学习网络的正确率进行测试直至所述深度学习网络收敛；S6：采用训练好的所述深度学习网络对所述目标任务的图像进行分类。

优选地，所述深度学习网络是包含VGG16、Resnet或GoogleNet在内的任意端到端分类神经网络。

优选地，每一轮所述深度学习网络的迭代训练对所述图像数据集中的图片遍历一次，在迭代过程中，每次使用的数据包尺寸为大于256的任意值。

优选地，对每张所述图片进行增强变化是采用裁剪、旋转、翻转、施加噪声、滤波或边缘提取中至少一种处理方法。

优选地，所述查询样本向量和所述正样本向量的长度相等且均大于64。

优选地，对所述查询样本向量和所述先进先出队列中每个样本的相似度，对其中任意两条向量A和B的相似度计算公式为：

其中，||A||₂、||B||₂分别指A和B的二范数，A·B指A和B的向量点乘。

优选地，所述损失函数基于所述深度学习网络的优化目标设计；所述优化目标为最大化所述查询样本向量和所述正样本向量之间的相似度，最小化所述查询样本向量与所述先进先出队列中正样本向量以外其它向量的相似度。

优选地，采用基于梯度的优化算法对所述深度学习网络的参数进行更新，所述优化算法的优化目标为最小化预设损失函数计算得到的损失值L，计算公式如下：

其中，d_i为查询样本和队列中第i个样本之间的相似度，d_p为查询样本和队列中正样本之间的相似度。

优选地，所述深度学习网络的参数进行更新的公式表示为：

其中，w为更新前的参数，w^*为更新后的参数，α为学习率。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本发明的有益效果为：提供一种图像分类方法及计算机可读存储介质，通过利用对同一张图片进行增强变换得到的两张强化图片，相较于其它图片更为相似的特性，构造出将由同一张图片增强变换得到的两张图片分类为同一类，将不同图片增强变换得到的两张图片分类为不同类的优化目标，在不需要人工标注的前提下，让模型学到能够用于目标分类任务的表征。

附图说明

图1是本发明实施例中一种图像分类方法的示意图。

图2是本发明实施例中一种训练深度学习网络模型的方法示意图。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接既可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

如图1所示，本发明提供一种图像分类方法，包括如下步骤：

S1：构建一个待训练的深度学习网络并准备用于训练所述深度学习网络的图像数据集，所述深度学习网络的参数进行随机初始化并初始化一个先进先出队列，所述图像数据集中的图片未进行标注；

在本发明的一种实施例中，深度学习网络是包含VGG16、Resnet或GoogleNet在内的任意端到端分类神经网络。对深度学习网络的网络参数进行随机初始化，可以将参数初始化为包含正态分布、平均分布等各种概率分布在内的随机值；并初始化一个先进先出队列，该队列长度应至少大于1024。

S2：分别从所述图像数据集中采样出图片用于所述深度学习网络的迭代训练，对每张所述图片进行增强变化得到2张强化图片，2张所述强化图片分别作为查询样本图片和正样本图片；

在本发明的一种实施例中，每一轮所述深度学习网络的迭代训练对所述图像数据集中的图片遍历一次，在迭代过程中，每次使用的数据包尺寸为大于256的任意值。

在一种具体的实施例中，对每张所述图片进行增强变化是采用裁剪、旋转、翻转、施加噪声、滤波或边缘提取中至少一种处理方法。

可以理解的是，两张增强样本中的一张作为查询样本，名为查询样本是指在后续训练过程中将以让深度学习网络查询判别它和哪一个其它样本最相似为优化任务训练网络；两张增强样本中的另一张作为正样本，名为正样本是因为在后续判别查询样本和其余哪个样本最相似的优化任务中，该样本将作为唯一正确答案。相应的，除查询样本、正样本外其余所有样本均被称为负样本。

在一种具体的实施例中，查询样本向量和正样本向量的长度相等且均大于64。

S3：采用所述深度学习网络对所述查询样本图片和所述正样本图片的表征向量进行提取得到对应的查询样本向量和正样本向量，将所述正样本向量压入所述先进先出队列中，同时移除所述队列中存储时间最久的元素；

S4：分别获取所述查询样本向量和所述先进先出队列中每个样本的相似度，并构建损失函数计算损失值，以最小化损失值为目标使用基于梯度的神经网络优化算法对所述深度学习网络的参数进行更新；

在本发明的一种实施例中，计算查询样本和队列中所有样本的相似度，相似度可以使用包含余弦距离、欧氏距离在内的任意衡量向量间相似度的方法。以此计算相似度任务构造优化目标，优化目标为最大化查询样本和正样本之间的相似度，最小化查询样本和队列中其它样本的相似度，以此构造损失函数计算损失值，损失函数为可以达到该优化目标的任意形式。接下来，以最小化损失值为目标使用梯度下降算法对深度学习模型的参数进行更新。

S5：在与预先设置的目标任务相关的测试数据集上对所述深度学习网络的正确率进行测试直至所述深度学习网络收敛；

在本发明的一种实施例中，网络的收敛条件为在连续十个迭代循环中，网络在测试集上测试出的正确率没有出现较之前测试达到的最优正确率更优的结果。

S6：采用训练好的所述深度学习网络对所述目标任务的图像进行分类。

如图2所示，是本发明的一种训练深度学习网络模型的方法示意图。

本发明提供的方法相较于现存使用人工标注作为正确分类结果构造优化目标的方法，提出一种无需使用人工标注的优化目标，使得所述方法在无需人工标注的前提下能够保持收敛。优化目标利用对同一张图片进行增强变换得到的两张图片相较于其它图片更为相似的特性，构造出将由同一张图片增强变换得到的两张图片分类为同一类，将不同图片增强变换得到的两张图片分类为不同类的优化目标，在不需要人工标注的前提下，让深度学习网络模型学到能够用于目标分类任务的表征。解决训练深度学习分类模型的过程中人力标注成本过高的问题，通过本发明可以极大地降低在实际应用场景中部署深度学习模型对人力的消耗，降低成本。

进一步地，在本发明的一种实施例中，对查询样本向量和所述先进先出队列中每个样本的相似度，对其中任意两条向量A和B的相似度计算公式为：

分别获取查询样本向量和先进先出队列中每个样本的相似度，并构建损失函数计算损失值。损失函数基于所述深度学习网络的优化目标设计；所述优化目标为最大化所述查询样本向量和所述正样本向量之间的相似度，最小化所述查询样本向量与所述先进先出队列中正样本向量以外其它向量的相似度。

以最小化损失值为目标使用基于梯度的神经网络优化算法对深度学习网络的参数进行更新，采用基于梯度的优化算法对所述深度学习网络的参数进行更新，所述优化算法的优化目标为最小化预设损失函数计算得到的损失值L，计算公式如下：

深度学习网络的参数进行更新的公式表示为：

其中，w为更新前的参数，w^*为更新后的参数，α为学习率。该学习率可以为人为设定的固定值，也可以为随训练过程变化的自适应参数。

在与预先设置的目标任务相关的测试数据集上对深度学习网络的正确率进行测试直至所述深度学习网络收敛。

在本发明的一种具体的实施例中，以下实施的训练过程使用的是ImageNet数据集，在使用过程中仅使用其图像数据，不使用数据集中附带的人工标注，在将数据集中的图像加载到内存中以后要对其随机打乱。首先，初始化一个待训练的神经网络，本例中使用的是由Pytorch提供的标准Resnet50网络，除Resnet50外，也可以使用其它任意深度学习分类神经网络。并在8块GPU上对其进行训练。本例创建的用于存储数据的队列长度为65536。

本例对模型的训练包括100轮迭代，每一轮迭代会对整个ImageNet数据集中的数据遍历一次。在迭代过程中，每次使用的数据包尺寸为512，即单次向模型送入512张图。对于每张图首先进行增强变化，本例中所用的变换操作包括随机裁剪、灰度化、随机翻转，对于每1张输入图片对应产生2张强化图片，分别作为查询样本图片和正样本图片。用待训练的Resnet50网络分别对两张图片进行编码得到两条对应的查询样本向量和正样本向量，在本例中向量长度均为1024。将正样本向量压入队列，作为本轮训练的匹配目标。

对查询样本向量和队列中512条样本向量之间的相似度分别进行计算，对其中任意两条向量A和B的相似度计算公式为：

而网络的训练优化目标为最大化查询样本向量和正样本向量之间的相似度，最小化查询样本向量与队列中正样本向量以外其它向量的相似度。基于此目标设计损失函数。假设查询样本向量和正样本向量之间的相似度为d_p，查询样本向量与队列中第i条向量的相似度为d_i，则损失函数可以定义为：

训练网络的优化目标即为最小化损失值L，在本例中，用梯度下降算法进行网络的参数更新并完成优化目标。该算法在Pytorch等库中已有直接可调用的开源实现，其对参数的更新公式可表示为：

其中，w为更新前的参数，w^*为更新后的参数，α为学习率，是一个提前设定好的超参数。在本例中α设为0.01。

为了验证提出方法的有效性，在miniImageNet数据集上对本发明提出的方法以及当前较为有代表性的需要人工标注数据的方法进行了效果对比，结果见表1。该结果表明，本发明的方法不仅不需要人工标注数据，还达到了和当前最佳的需要人工标注数据的方法持平的性能。

表1效果对比

本申请实施例还提供一种控制装置，包括处理器和用于存储计算机程序的存储介质；其中，处理器用于执行所述计算机程序时至少执行如上所述的方法。

本申请实施例还提供一种存储介质，用于存储计算机程序，该计算机程序被执行时至少执行如上所述的方法。

本申请实施例还提供一种处理器，所述处理器执行计算机程序，至少执行如上所述的方法。

所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random AccessMemory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random AccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAMEnhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，Sync Link Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种图像分类方法，其特征在于，包括如下步骤：

2.如权利要求1所述的图像分类方法，其特征在于，所述深度学习网络是包含VGG16、Resnet或GoogleNet在内的任意端到端分类神经网络。

3.如权利要求2所述的图像分类方法，其特征在于，每一轮所述深度学习网络的迭代训练对所述图像数据集中的图片遍历一次，在迭代过程中，每次使用的数据包尺寸为大于256的任意值。

4.如权利要求3所述的图像分类方法，其特征在于，对每张所述图片进行增强变化是采用裁剪、旋转、翻转、施加噪声、滤波或边缘提取中至少一种处理方法。

5.如权利要求4所述的图像分类方法，其特征在于，所述查询样本向量和所述正样本向量的长度相等且均大于64。

6.如权利要求5所述的图像分类方法，其特征在于，对所述查询样本向量和所述先进先出队列中每个样本的相似度，对其中任意两条向量A和B的相似度计算公式为：

7.如权利要求6所述的图像分类方法，其特征在于，所述损失函数基于所述深度学习网络的优化目标设计；所述优化目标为最大化所述查询样本向量和所述正样本向量之间的相似度，最小化所述查询样本向量与所述先进先出队列中正样本向量以外其它向量的相似度。

8.如权利要求7所述的图像分类方法，其特征在于，采用基于梯度的优化算法对所述深度学习网络的参数进行更新，所述优化算法的优化目标为最小化预设损失函数计算得到的损失值L，计算公式如下：

9.如权利要求8所述的图像分类方法，其特征在于，所述深度学习网络的参数进行更新的公式表示为：

其中，w为更新前的参数，w^*为更新后的参数，α为学习率。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-9任一所述方法的步骤。