CN108427740B

CN108427740B - 一种基于深度度量学习的图像情感分类与检索算法

Info

Publication number: CN108427740B
Application number: CN201810173303.1A
Authority: CN
Inventors: 杨巨峰; 程明明; 折栋宇; 王恺
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2022-02-18
Anticipated expiration: 2038-03-02
Also published as: CN108427740A

Abstract

本发明公开了一种基于深度度量学习的图像情感分类与检索方法，属于图像处理技术领域。该方法的目的是结合情感标签间的相互关系进行图像情感的分类及检索。该方法设计了一种多任务的卷积神经网络架构，用于同时优化分类及检索两个任务。这种卷积神经网络架构利用基于多层卷积层的情感向量来作为图像的纹理信息表达，用于区别不同图像中的情感，并提出新型的情感约束考虑不同情感间的关系。最终将得到的模型用于图像情感分类，得到的情感向量作为嵌入特征用于图像情感检索。

Description

一种基于深度度量学习的图像情感分类与检索算法

技术领域

本发明属于图像处理技术领域，特别涉及到一种基于深度度量学习的图像情感分类与检索的方法。

背景技术

伴随多媒体技术的迅速发展，图片、视频等媒介已变成网络社交文化中的一种主流，人们更多地利用多媒体内容来表达自己的情感或观念。图像情感分析旨在使机器可以辨认甚至产生类似于人的情绪，是计算机视觉、模式识别等范畴的重要挑战之一。与传统物体分类不同，情感分类更为主观也更具有挑战性，一个主要原因是情感类别之间并非完全独立，有着不同文化背景的人对同一幅图像产生的感觉可能不尽相同。

传统的情感分析方法提取低层人工特征用于情感分类，如颜色、纹理、线条等特征，或者利用名词形容词对探测器Sentibank提取图像中的中层表征。近年来，卷积神经网络的运用在很多视觉任务中取得较好的效果，例如图像分类、物体检测、语义分割等。卷积神经网络具有很强的学习图像高层次特征表征的能力，因此一些研究者开始使用卷积神经网络进行情感分类。如You Quanzeng等2016年在AAAI(308-314)发表的论文“Building alarge scale dataset for image emotion recognition:The fine print and thebenchmark”中在大规模情感数据集上微调AlexNet网络。但是大多数基于卷积神经网络的方法都利用softmax损失函数优化分类任务，该函数只用于最大化正确类别的概率，而不能考虑到情感标签间天然存在的关系，如属于相同极性的情感(积极、消极)之间会比不同极性间更为相似。度量学习在过去几十年被广泛用于图像处理当中，近来一些方法将卷积神经网络与三元约束结合用来学习嵌入特征能够捕捉图像中的语义相似度。这类深度度量学习方法也被成功运用在了很多领域当中，如人脸识别，图像检索等。Zhang xiaofan等2016年在CVPR(1114-1123)发表的论文“Embedding label structures for fine-grainedfeature representation”中协同训练softmax及三元损失函数来获取图像语义特征，但利用全卷积特征并不能充分捕捉图像中的情感信息，此外，细分类物体类别间的三元约束也不适用于为情感种类间的关系建模。

上述领域的一些最新成果激发了我们的灵感，也为我们开发基于分层特征选择的高效分割方法提供了坚实的技术基础。

发明内容

本发明需要解决的技术问题是输入一张任意大小的图片，系统可以预测其所属的情感种类，及用于检索情感相近的图像的嵌入特征。

为了实现本发明的目的，我们依靠以下技术方案来实现：

a.将训练样本输入到卷积神经网络模型中，计算样本的各层特征表示，并根据真实类别得到分类损失。

b.将卷积神经网络中的所有卷积层特征的gram矩阵结合到一起作为情感向量，实现多层次的纹理信息充分的结合。

c.利用情感约束建模情感标签的混合关系，计算得到相似性损失，保证输入样本在特征空间中与所有相同类别的样本距离比其他具有相同极性情感的样本近，而距具有相反极性情感的样本最远。

d.结合分类损失及相似度损失为总损失，通过随机梯度下降方法训练整个卷积神经网络。

e.利用训练好的卷积神经网络预测输入图像的情感类别，同时提取情感向量用于检索相应情感的图片。

本发明的有益效果为：该方法设计了一种多任务的卷积神经网络架构，用于同时优化分类及检索两个任务。这种卷积神经网络架构利用基于多层卷积层的情感向量来作为图像的纹理信息表达，用于区别不同图像中的情感，并提出新型的情感约束考虑不同情感间的关系。最终将得到的模型用于图像情感分类，得到的情感向量作为嵌入特征用于图像情感检索。该发明方法具有按照图像情感语义检索相关图片的效果。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明:

图1为进行图像情感分类与检索型设计的卷积神经网络架构图。

图2为进行图像情感分类与检索的流程图。

图3为基于新的卷积神经网络架构进行图像检索的效果图。

具体实施方式

本发明设计了一种新的卷积神经网络架构，结合了所有的可用的卷积层gram矩阵，利用基于三元约束的情感约束来对不同情感标签间的关系建模。

本发明方法包含如下步骤：

a.用户输入一张任意大小的图像，输入到卷积神经网络中，系统输出图像的情感类别，并获得情感向量用于图像检索；

b.此网络模型可以利用全部的卷积层的gram矩阵来获得图像中丰富的纹理特征，并作为图像情感检索的嵌入特征；

c.此网络模型使用基于三元约束的情感约束计算得到相似度损失，将情感类别之间的极性关系考虑到训练过程中，即输入图像在特征空间中与所有相同类别的图像距离比其他具有相同极性情感的图像近，而与具有相反极性情感的图像距离最远。

d.此网络模型结合分类损失及相似度损失两种损失为总损失，用于同时优化分类及检索两种任务。

下面结合附图，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

参照图1，表示本发明改进的卷积神经网络架构，下面详述设计过程：

本网络模型是由两个分支组成，第一个分支使用全连接层映射为预测的情感类别，并计算softmax损失函数，用于分类；第二个分支将所有的卷积层连接到一起以充分利用纹理特征并通过情感约束计算相似度损失函数，用于检索任务。我们利用ChristianSzegedy等2015在CVPR(1-9)发表的“Going deeper with convolutions”文章中提到的GoogleNet-Inception架构，在这个架构的基础上进行实验改进，首先我们在每个卷积层后都新增一个计算gram矩阵的层，并将所有的特征合并为情感向量SV。对于输入样本a，本发明随机从送入的样本集中选取具有相同情感类别的样本p，具有相同极性但不同情感类别的样本r，及具有相反情感极性的样本n，则情感约束可表示为：

其中，α₁及a₂控制不同情感标签间的远近，D(·，·)为两个样本间情感向量的欧式距离。

通过情感约束条件计算得到相似度损失函数，该约束基于三元约束，保证输入图像在特征空间中与所有相同类别的图像距离比其他具有相同极性情感的图像近，而与具有相反极性情感的图像距离最远。在情感数据集上训练此网络模型，得到用于分类及检索的卷积神经网络模型。

参照图2，表示本发明的方法流程图，下面详述使用过程：

本发明首先利用改进的卷积神经网络在大规模图像情感数据集上微调，调整框架下的全部模型参数。对于用户输入的任意图像，先将该图像送入训练好的神经网络中，得到分类分支下的输出做为分类结果；同时，可以将检索分支中的情感向量SV提取出来作为这张图像的特征表达，计算其与其他已知样本情感向量的欧式距离，选择距离最近的样本作为检索结果并返回。

图3展示了两个图像情感检索的例子。左侧图是用户输入图像，右侧图是根据输出的嵌入特征间的欧式距离得到的最相近的三个情感检索结果图，成功检索到与查询图像属于相同情感的结果，分别为搞笑及伤心。该发明方法具有按照图像情感语义检索相关图片的效果。

Claims

1.一种基于深度度量学习的图像情感分类与检索方法，其特征在于，该方法包含如下步骤：

b.此卷积神经网络利用全部的卷积层的gram矩阵来获得图像中丰富的纹理特征，并作为图像情感检索的嵌入特征；

c.此卷积神经网络使用基于三元约束的情感约束计算得到相似度损失，将情感类别之间的极性关系考虑到训练过程中，即输入图像在特征空间中与所有相同类别的图像距离比其他具有相同极性情感的图像近，而与具有相反极性情感的图像距离最远；

d.此卷积神经网络结合分类损失及相似度损失两种损失为总损失，用于同时优化分类及检索两种任务；

卷积神经网络是由两个分支组成，两个分支共享网络卷积层，第一个分支使用全连接层映射为预测的情感类别，并计算softmax损失函数，用于分类；第二个分支将所有的卷积层gram矩阵连接到一起作为情感向量SV，以充分利用纹理特征并通过情感约束计算相似度损失函数，用于检索任务；对于输入样本a，随机从送入的训练样本集中选取具有相同情感类别的样本p，具有相同极性但不同情感类别的样本r，及具有相反情感极性的样本n，则情感约束可表示为：

其中，α₁及α₂为控制不同情感标签间的远近的阈值，D(·，·)为两个样本间情感向量SV的欧式距离。

2.根据权利要求1所述的基于深度度量学习的图像情感分类与检索方法，其特征在于：通过情感约束条件计算得到相似度损失函数，该约束基于三元约束，保证输入图像在特征空间中与所有相同类别的图像距离比其他具有相同极性情感的图像近，而与具有相反极性情感的图像距离最远，在情感数据集上训练此卷积神经网络，得到用于分类及检索的卷积神经网络模型。