CN111275107A

CN111275107A - 一种基于迁移学习的多标签场景图像分类方法及装置

Info

Publication number: CN111275107A
Application number: CN202010063643.6A
Authority: CN
Inventors: 李安亚
Original assignee: Orca Data Technology Xian Co Ltd
Current assignee: Orca Data Technology Xian Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-12

Abstract

本发明公开了一种基于迁移学习的多标签场景图像分类方法及装置，对待识别场景图像进行归一化处理和降冗处理，得到中间图像；将中间图像输入基于深度迁移学习的神经网络模型，并输出待识别场景图像的多个场景分类标签；其中，基于深度迁移学习的神经网络模型包括由卷积神经网络Inception‑V3模型中的卷积层和池化层组成的特征提取器，以及训练好的场景图像分类器；本发明基于已经训练好的卷积神经网络Inception‑V3模型，修改其全连接层以满足多标签分类输出要求，在训练全连接层时只需要Inception‑V3模型输出的图像的有意义且紧凑的摘要，它包含足够的图像特征信息，且数据较少，减少了训练需要的分类数据图像，且降低了模型训练时间。

Description

一种基于迁移学习的多标签场景图像分类方法及装置

【技术领域】

本发明属于图像分类技术领域，尤其涉及一种基于迁移学习的多标签场景图像分类方法及装置。

【背景技术】

图像中的实体对象一般可以与语义层面的含义相关联，其中的区域可以用如蓝天、树木、湖泊等语义表示，这些含有特定语义内容的图像被称为场景图像。场景分类作为图像分类领域的一种特殊情况，由于图像往往包含复杂多样的语义信息，以图像对应的语义标签类别为基准，通常并不是只由一个标签来描述，因此非常有必要考虑多标签描述的情况。多标签场景分类是多标签分类在图像识别中的一种扩展应用。

场景图像分类问题的解决思路一般分为两种：一种是通过肉眼的观察实现人工标注，另一种是通过计算机辅助其他相关技术实现智能分类。显然后者更具优势，人工标注首先有着极大的人力物力需求，同时由于难以实现后验，因此错误的发生具有随机性和不可预测性。

近年来，基于深度学习实现场景图像分类优势明显，该方法能够提取出场景图像的高层次特征，表征出场景间的细微差别。但是，为了保证分类的实现效果，需要训练数据图像和待分类数据图像具有相同的输入特征空间和相同的数据分布，而且，训练一个性能优异的分类模型进行图像分类，不仅需要大量计算资源还需要很长的时间。

【发明内容】

本发明的目的是提供一种基于迁移学习的多标签场景图像分类方法及装置，以通过少量的分类数据图像及模型训练时间实现图像的多标签场景分类，

本发明采用以下技术方案：一种基于迁移学习的多标签场景图像分类方法，包括：

对待识别场景图像进行归一化处理和降冗处理，得到中间图像；

将中间图像输入基于深度迁移学习的神经网络模型，并输出待识别场景图像的多个场景分类标签；

其中，基于深度迁移学习的神经网络模型包括由卷积神经网络Inception-V3模型中的卷积层和池化层组成的特征提取器，以及训练好的场景图像分类器。

进一步地，基于深度迁移学习的神经网络模型对中间图像进行分类包括：

通过特征提取器提取中间图像的特征图；其中，特征图为表征中间图像中场景间的细微差别特征；

将特征图输入到训练好的场景图像分类器，得出待识别场景图像的多个分类标签。

进一步地，训练好的场景图像分类器为采用多组训练数据训练得到的，多组训练数据中的每组训练数据均包括训练图像的特征图和训练图像的多个真实场景分类标签。

进一步地，场景图像分类器的训练方法为：

获取多组训练数据；

将每组训练数据中的训练图像的特征图输入到初始化的场景图像分类器中，通过场景图像分类器输出每组训练数据中的训练图像的多个训练场景分类标签；

根据多个训练场景分类标签和多个真实场景分类标签，生成训练好的场景图像分类器。

进一步地，根据多个训练场景分类标签和多个真实场景分类标签，生成训练好的场景图像分类器包括：

求取多个训练场景分类标签和多个真实场景分类标签之间的偏差；

根据偏差计算反向误差；

通过反向误差以及损失函数更新场景图像分类器的参数值，直至损失函数值小于等于预定阈值，得到训练好的场景图像分类器。

进一步地，特征图为2048维向量。

本发明的另一种技术方案：一种基于迁移学习的多标签场景图像分类装置，其特征在于，包括：

处理模块，用于对待识别场景图像进行归一化处理和降冗处理，得到中间图像；

识别输出模块，用于将中间图像输入基于深度迁移学习的神经网络模型，并输出待识别场景图像的多个场景分类标签；

提取模块，用于通过特征提取器提取中间图像的特征图；其中，特征图为表征中间图像中场景间的细微差别特征；

分类模块，用于将特征图输入到训练好的场景图像分类器，得出待识别场景图像的多个分类标签。

本发明的在一种技术方案：一种基于迁移学习的多标签场景图像分类设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法技术方案中的方法。

本发明的在一种技术方案：一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述方法技术方案中的方法。

本发明的有益效果是：本发明基于已经训练好的卷积神经网络Inception-V3模型，在其基础上进行参数与知识迁移，保留Inception-V3模型用于图像特征提取的卷积层和池化层，修改其全连接层以满足多标签分类输出要求，在训练全连接层时只需要Inception-V3模型输出的图像的有意义且紧凑的摘要，它包含足够的图像特征信息，且数据较少，减少了训练需要的分类数据图像，且降低了模型训练时间。

【附图说明】

图1为本发明实施例中基于迁移学习的多标签场景图像分类方法的框架图；

图2为本发明实施例选用Inception-V3模型中卷积分结构的结构图；

图3为本发明实施例中迁移学习部分的流程图；

图4为本发明实施例中反向传播训练过程图；

图5为本发明实施例中场景图像分类器的训练方法流程图。

【具体实施方式】

下面结合附图和具体实施方式对本发明进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本发明说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

如在本发明说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本发明说明书和所附权利要求书的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本发明实施例提供的一种基于迁移学习的多标签场景图像分类方法可以应用于手机、平板电脑、车载设备、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本发明实施例对终端设备的具体类型不作任何限制。

本发明提出了一种新的多标签场景图像分类方法，即通过迁移学习相关理论建立分类模型，给定一组图像，识别图像中包含的场景或对象来对它们进行多标签分类。

迁移的模型往往是使用大量样本训练出来的，比如Google提供的Inception-V3网络模型使用ImageNet数据集训练，而ImageNet中有120万标注图片，然而，在实际应用中，很难收集到如此多的样本数据，也难以拥有足够的算力(Inception-v3模型在一台配有8TeslaK40 GPUs，大概价值$30,000的超级计算机上训练了几个星期，因此，不可能在一台普通的PC上训练，即使用实验室级别的服务器也要训练几个月)。作为一种具有优良局部拓扑结构的网络，Inception-V3网络模型通过对输入图像并行地执行多个卷积运算或池化操作，并将所有输出结果拼接为一个非常深的特征图。同样一个模型在使用大样本很好的解决了某个问题，那么，有理由相信该模型中训练出的权重参数能够很好的完成特征提取任务。

在很多现实情况中获取与待分类数据图像的分布和特征空间完全匹配的训练数据是难以实现的，如何在消耗少量计算和时间资源时创建高性能的学习器，这就是迁移学习的动机，它通过将信息从一个领域转移到另一个领域来提高学习者的学习能力。

基于迁移学习的多标签场景图像分类方案，消耗少量的计算资源与训练时间即可实现场景图像的有效分类。在计算机视觉任务中运用深度学习技术，将已训练的模型作为新模型的起点是一种常用的方法。本方案基于已经训练好的卷积神经网络Inception-V3模型，在其基础上进行参数与知识迁移，保留Inception-V3模型用于图像特征提取的卷积层，修改其全连接层以满足多标签分类输出要求。卷积层的参数使用的是原始模型已经训练好的，全连接层的参数需要初始化并使用自己的场景图像数据来训练和学习。

如图1所示，本发明中构建基于迁移学习的多标签场景图像分类器模型的思路为：

先把数据集传入已经训练好的Inception-V3模型，得到全连接层之前的输出，这个输出值相当于是从图片中提取出的图像特征，然后把图像特征以文本形式保存到本地文件夹中。根据图片类别数量重新构建多标签输出的全连接层，把每张图片的特征输出传到新的全连接层中做训练，经训练收敛后得出全连接层相关参数。将Inception-V3中的卷积层与后面训练好的全连接层结合得到新的模型，可用于多标签场景图像的有效分类。

具体的，本发明实施例提供了一种基于迁移学习的多标签场景图像分类方法，包括：

对待识别场景图像进行归一化处理和降冗处理，得到中间图像；将中间图像输入基于深度迁移学习的神经网络模型，并输出待识别场景图像的多个场景分类标签；其中，基于深度迁移学习的神经网络模型包括由卷积神经网络Inception-V3模型中的卷积层和池化层组成的特征提取器，以及训练好的场景图像分类器。

本发明基于已经训练好的卷积神经网络Inception-V3模型，在其基础上进行参数与知识迁移，保留Inception-V3模型用于图像特征提取的卷积层和池化层，修改其全连接层以满足多标签分类输出要求，在训练全连接层时只需要Inception-V3模型输出的图像的有意义且紧凑的摘要，它包含足够的图像特征信息，且数据较少，减少了训练需要的分类数据图像，且降低了模型训练时间。

对于归一化处理和降冗处理，在构建分类器之前，先进行场景图像的预处理，得到迁移学习图像数据集。场景图像一般在尺寸、亮度等方面存在极大差异，因此，需要先对图像进行图像尺寸归一化，同时完成图像亮度和对比度的归一化处理。为去除图像像素的冗余性影响，还需要对图像进行了降冗处理。

本发明中，基于迁移学习的多标签场景图像分类器模型训练完成后，还可以进入模型的测试环节，通过如汉明损失、单一错误、覆盖率、排序损失和平均精度等评价标准对得到的分类模型进行场景图像多标签分类结果评价，若满足预定的分类准确率，则可采用该模型进行图像的场景多标签分类，否则，循环执行上述步骤，重复训练，直至满足要求。同时，还可以与采用一般的多标签分类方法进行的场景图像分类结果做对比，以区分分类结果优缺点。

对于选取的模型，如图2所示，在Inception-V3模型中，主要使用了3×3的卷积核，这里主要是借鉴了VGGNet的思想。同时Inception-V3模型还充分利用了Factorizationinto small convolutions的思想，利用了两个1维卷积来模拟2维卷积，如将7×7的卷积使用1×7和7×1来代替，减少参数量的同时还能增加非线性。在Inception-V3模型中还存在不少的1×1的卷积，通过使用1×1的卷积来进行低成本的跨通道对特征进行组合。除了第一层卷积步长为2，其余的卷积层步长均为1，而池化层则是采用3×3的卷积核，使用步长为2的重叠最大池化。对于这种非对称的方式，不仅减少了参数量，同时也极大地降低了计算量。

本实施例基于ImageNet图像训练的卷积神经网络Inception-V3模型所导出的pb文件，更改最后的softmax layer为场景图像分类需要的分类器，然后对这一更改的softmax layer进行训练。

如图3所示，在模型训练中，先将数据集(包含训练集、验证集和测试集)中的所有图片导入到Inception-V3模型中，获取最后一层的输入，或者说是倒数第二层的输出，定义为瓶颈。这意味着它必须是图像的有意义且紧凑的摘要，它包含足够的图像特征信息，以使得分类器在非常小的值集合中做出正确的选择。直接使用瓶颈数据对最后更改的softmaxlayer进行训练，其训练速度得到大幅提升。

总的来说训练采用传递学习方法，保留前一层的参数，去掉初始Inception-V3模型的最后一层，重训练的最后一层的输出节点数为多标签场景图像的类别数目。删除原有的全连接层，新添加的全连接层的输入数据便是最后一个卷积层激活函数的输出的2048维度的特征值，模型通过交叉熵损失函数进行反向传播训练，训练的参数并不是模型的所有参数，仅仅是全连接层的参数，卷积层的参数是不变的。

如图4所示，反向传播训练一般在实现时主要分为两步，在第一个过程中输入信息会进行正向传播，从输入层到隐藏层，再到输出层；第二个过程将会完成误差的反向传播，为减少误差函数值，会依次对隐藏层到输出层以及输入层到隐藏层的权重和偏置进行参数调节。

当输入图像特征值后，信息进入隐藏层，并通过权值连续整合实现信息的参数化变换，此时学习的目的是获得正确的权重参数取值，使得输入经过数据变换后映射到正确的预测值目标，即输出的图像分类结果要与实际类别对应。损失值作为反馈信号进行反向传播，实现对隐藏层权值的微调，从而使损失值得以下降。下降后的损失值会继续作为反向传播的信号进一步调整权重，直至损失值收敛，基于迁移学习的多标签场景图像分类模型训练完成。

作为一种可能的实现方式，基于深度迁移学习的神经网络模型对中间图像进行分类包括：

通过特征提取器提取中间图像的特征图；其中，特征图为表征中间图像中场景间的细微差别特征；将特征图输入到训练好的场景图像分类器，得出待识别场景图像的多个分类标签。本实施例中特征图为2048维向量。

训练好的场景图像分类器为采用多组训练数据训练得到的，多组训练数据中的每组训练数据均包括训练图像的特征图和训练图像的多个真实场景分类标签。对于场景分类标签，在本实施例中具体指的是图像所要体现的内容，如蓝天标签、白云标签、山谷标签、河水标签、城市标签等等。

具体的，如图5所示，场景图像分类器的训练方法为：

获取多组训练数据；将每组训练数据中的训练图像的特征图输入到初始化的场景图像分类器中，通过场景图像分类器输出每组训练数据中的训练图像的多个训练场景分类标签；根据多个训练场景分类标签和多个真实场景分类标签，生成训练好的场景图像分类器。其中，根据多个训练场景分类标签和多个真实场景分类标签，生成训练好的场景图像分类器包括：

求取多个训练场景分类标签和多个真实场景分类标签之间的偏差；根据偏差计算反向误差；通过反向误差以及损失函数更新场景图像分类器的参数值，直至损失函数值小于等于预定阈值，得到训练好的场景图像分类器。

本发明基于迁移学习的多标签场景图像分类方案，消耗少量的计算资源与训练时间即可实现场景图像的有效分类。在计算机视觉任务中运用深度学习技术，将已训练的模型作为新模型的起点，基于训练好的Inception-V3网络模型，在其基础上进行参数与知识迁移，保留Inception-V3模型用于图像特征提取的卷积层，修改其全连接层以满足多标签分类输出要求。该方案可以高效地提取出图像的本质特征，实现多标签场景图像的有效分类。

在图像分类领域，卷积神经网络有着其他方法不可比拟的优势，卷积神经网络通过深层次的学习，可以有效地提取出图像的本质特征，对提高场景图像分类准确率起到了关键性作用。

利用迁移学习的理论思想，将在ImageNet上训练好的Inception-V3模型以微调的方式转移应用到多标签场景图像分类数据集上，保留原模型的卷积层进行图像特征提取，修改全连接层完成多标签图像分类，得到的基于迁移学习的多标签场景图像分类模型不仅训练时间短，而且在小数据集上依然能够实现场景图像的有效分类。

本发明的另一实施例提供了一种基于迁移学习的多标签场景图像分类装置，包括：

基于深度迁移学习的神经网络模型对中间图像进行分类包括：

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明再一实施例提供了一种基于迁移学习的多标签场景图像分类设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法实施例中的方法。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所称存储器在一些实施例中可以是设备的内部存储单元，例如设备的硬盘或内存。所述存储器在另一些实施例中也可以是设备的外部存储设备，例如设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器还可以既包括设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

本发明的再一种实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的方法。

本发明实施例还提供了一种计算机程序产品，当计算机程序产品在制造文件碎片的装置上运行时，使得制造文件碎片的装置执行时可实现上述方法实施例中的步骤。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/设备实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，模块可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

Claims

1.一种基于迁移学习的多标签场景图像分类方法，其特征在于，包括：

将所述中间图像输入基于深度迁移学习的神经网络模型，并输出所述待识别场景图像的多个场景分类标签；

其中，所述基于深度迁移学习的神经网络模型包括由卷积神经网络Inception-V3模型中的卷积层和池化层组成的特征提取器，以及训练好的场景图像分类器。

2.如权利要求1所述的一种基于迁移学习的多标签场景图像分类方法，其特征在于，所述基于深度迁移学习的神经网络模型对中间图像进行分类包括：

通过所述特征提取器提取所述中间图像的特征图；其中，所述特征图为表征中间图像中场景间的细微差别特征；

将所述特征图输入到训练好的场景图像分类器，得出所述待识别场景图像的多个分类标签。

3.如权利要求2所述的一种基于迁移学习的多标签场景图像分类方法，其特征在于，所述训练好的场景图像分类器为采用多组训练数据训练得到的，所述多组训练数据中的每组训练数据均包括训练图像的特征图和训练图像的多个真实场景分类标签。

4.如权利要求2或3所述的一种基于迁移学习的多标签场景图像分类方法，其特征在于，所述场景图像分类器的训练方法为：

获取所述多组训练数据；

将每组训练数据中的训练图像的特征图输入到初始化的场景图像分类器中，通过所述场景图像分类器输出所述每组训练数据中的训练图像的多个训练场景分类标签；

根据所述多个训练场景分类标签和多个真实场景分类标签，生成训练好的场景图像分类器。

5.如权利要求4所述的一种基于迁移学习的多标签场景图像分类方法，其特征在于，根据所述多个训练场景分类标签和多个真实场景分类标签，生成训练好的场景图像分类器包括：

求取所述多个训练场景分类标签和多个真实场景分类标签之间的偏差；

根据所述偏差计算反向误差；

通过所述反向误差以及损失函数更新所述场景图像分类器的参数值，直至所述损失函数值小于等于预定阈值，得到训练好的场景图像分类器。

6.如权利要求2所述的一种基于迁移学习的多标签场景图像分类方法，其特征在于，所述特征图为2048维向量。

7.一种基于迁移学习的多标签场景图像分类装置，其特征在于，包括：

识别输出模块，用于将所述中间图像输入基于深度迁移学习的神经网络模型，并输出所述待识别场景图像的多个场景分类标签；

8.如权利要求7所述的一种基于迁移学习的多标签场景图像分类装置，其特征在于，所述基于深度迁移学习的神经网络模型对中间图像进行分类包括：

提取模块，用于通过所述特征提取器提取所述中间图像的特征图；其中，所述特征图为表征中间图像中场景间的细微差别特征；

分类模块，用于将所述特征图输入到训练好的场景图像分类器，得出所述待识别场景图像的多个分类标签。

9.一种基于迁移学习的多标签场景图像分类设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。