CN110188791A

CN110188791A - 基于自动估计的视觉情感标签分布预测方法

Info

Publication number: CN110188791A
Application number: CN201910311129.7A
Authority: CN
Inventors: 杨巨峰; 折栋宇; 姚星旭; 孙明
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-08-30
Anticipated expiration: 2039-04-18
Also published as: CN110188791B

Abstract

本发明公开了基于自动估计的视觉情感标签分布预测方法，属于计算机视觉技术领域。该方法通过标签分布学习解决了视觉情感中存在的模糊性的问题，同时，该方法提出了一个可以同时进行情感标签分类和标签分布预测的深度框架。除此之外，由于大部分视觉情感数据集只提供了单个类别标签，为了提高该框架的实用性，本发明利用一种弱先验知识即标签之间的相似性信息，根据情感类别生成对应的情感标签分布。在框架学习的过程中，对于分类任务，用Softmax函数进行约束，对于分布任务，用Kullback‑Leibler(KL)损失进行约束。将两个损失赋权值相加得到最后的损失函数，实现框架端到端的标签分布预测。

Description

基于自动估计的视觉情感标签分布预测方法

技术领域

本发明属于计算机视觉技术领域，涉及一种可以同时解决视觉情感分类问题和标签分布预测问题的深度卷积神经网络方法。

背景技术

视觉情感分类工作大致分为两类：基于维度的方法和基于分类的方法。基于维度的方法在二维或三维空间上表示情感，而基于分类的方法则可以将情感映射到独立的类别。2010年，Machajdik和Hanbury基于美学和心理学理论在文献1中对视觉情感分析问题定义了一组低层特征，包括成分、颜色、纹理等。Zhao等人于2014年在文献2中依据艺术原则引入了更加鲁棒且具有不变性的视觉特征，但这些手工特征只对一些从特定范围内选择的小数据集比较有效，比如抽象画和艺术图片。最近，以卷积神经网络为基础的方法在很多计算机视觉任务上都取得了成功，Chen等人于2014年在文献3中构建了一种视觉情感概念的深度分类模型DeepSentiBank，为预测图片中的情感提供给了丰富的信息。Campos等人于2015年在大规模数据集上训练模型，用于视觉情感预测的任务。You等人于2015年在文献4中提出了一个利用渐进革新学习的策略训练卷积神经网络，利用大量网络噪声数据提高有限规模的情感分类数据集上的结果。 2016年，Rao等人在文献5中，利用了同时提取低层图片特征和高层图片特征的深度网络进行视觉情感分析。

标签分布学习是Geng等人于2016年在文献6中提出一种新颖的机器学习算法去准确地表示每个标签的概率，该算法包括三个策略：(1)问题迁移；(2) 算法适应；(3)算法专门化。Zhao等人于2015年在文献7中利用基于低层特征的共享稀疏学习模型预测情感图片的概率分布，取得了较好的效果。Peng等人于2015年在文献8中用带有欧几里得损失的深度卷积神经网络为每一类标签训练回归模型，最终实现标签分布学习。基于条件概率神经网络(CPNN)，Yang 等人于2017年在文献9“Learning visual sentiment distributionvia augmented conditional probability neural network”提出了BCPNN和ACPNN 来预测情感分布。然而，基于CPNN的方法只被设计成一个三层的神经网络分类器，输入的是现成的特征。这种方法是次优的，因为提取的特征没有考虑标签之间的联系。最近，DLDL使用了深度学习的框架来学习连续标签的预测任务，并且在文献10“Deep labeldistribution learning with label ambiguity” 中用深度标签分布学习来进行年龄和头部姿势预测。

上述领域的一些最新成果激发了我们的灵感，也为我们使用深度卷积神经网络实现视觉情感分类和分布共同学习的方法提供了坚实的理论技术基础。

文献：

1、Affective image classification using features inspired bypsychology and art theory.In ACM MM,2010.

2、Exploring principles-of-art features for image emotion recognition.In ACM MM,2014.

3、Deepsentibank:Visual sentiment concept classification with deepconvolutional neural networks.arXiv preprint arXiv:1410.8586,2014.

4、Robust image sentiment analysis using progressively trained anddomain transferred deep networks.In AAAI,2015.

5、Learning multi-level deep representations for image emotionclassification.arXiv preprint arXiv:1611.07145,2016.

6、Label distribution learning.TKDE,28(7):1734–1748,2016.

7、Predicting discrete probability distribution of image emotions.InICIP,2015.

8、A mixed bag of emotions:Model,predict,and transfer emotiondistributions.In CVPR,2015.

9、Learning visual sentiment distribution via augmented conditionalprobability neural network.In AAAI,2017.

10、Deep label distribution learning with label ambiguity.IEEETransactions on Image Processing,26(6):2825–2838,2017.

发明内容

本发明需要解决的技术问题是视觉情感分析领域中存在的模糊性问题，并使用标签分布的方式解决情感的模糊性，将情感图片标签分类任务和标签分布预测任务结合到同一个网络架构中学习。除此之外，对于只含有单标签的训练数据，提出了两种利用弱先验规则(推测规则、互斥规则)生成分布标签的方法。

为了实现本发明的目的，我们依靠以下技术方案来实现：

a.将数据输入到多任务的深度卷积网络；

b.判断输入的数据是否有分布标签，若有，直接进入c步骤，否则依靠两个弱先验知识和单标签信息为输入数据生成多标签分布；

c.使用Softmax损失函数处理网络最后一层连接层输出的向量，得到分类任务的损失；

d.与c同时，使用KL损失函数处理网络最后一层连接层输出的向量，得到分布任务的损失；

e.将Softmax损失和KL损失加权求和，得到最后的损失函数，通过最小化最后的损失函数训练模型。

进一步的，本发明使用只提供单标签的图片训练时，提出了一种由单标签生成多标签分布的方法，利用的两种弱先验规则分别为：

1)推测规则：两种情感之间的关系可以利用Mikel转轮进行度量，即离原始标签较近的类别概率值较大，离原始标签远的类别概率值较小，从而能够得出图片多标签分布的情况；

2)互斥规则：情感标签具有分层结构，可以分为积极情感和消极情感两大类，其中积极情感包括愉悦、满足、敬畏、兴奋，消极情感包括伤心、生气、恐惧、恶心，因此每张图片的标签分布都限制在一个大类中，而且多标签的概率值和为1。

进一步的，本发明提出了一个端到端的多任务的卷积神经网络，将分类任务的损失函数和分布任务的损失函数进行赋权值(权值利用消融实验进行选取) 相加，最小化最后的联合损失，在端到端的训练过程中情感标签分类和标签分布任务能够相互促进。

本发明的有益效果为：本方法能够应用在多种卷积神经网络上，在选择不同模型的情况下，只需要将网络的最后一层的输出个数设置为标签的类别数，并根据模型的能力和特点设置模型的学习参数和数据处理批量的大小。该方法可以对情感图片的标签分类和分布的任务同时进行端到端地训练和学习，解决了视觉情感的模糊性问题。总的来说，本方法为视觉情感的标签分类任务和分布任务提供了一个全新的解决方案，两个学习过程互相促进，得到了更好的模型。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明:

图1为通过深度卷积神经网络共同学习视觉情感分类和分布的方法的流程图。

图2为单标签转化为多标签的示意图。

具体实施方式

参照图1，表示通过深度卷积神经网络共同学习视觉情感分类和分布方法的流程图，图中表示的步骤为：

a.对图片进行重置大小、数据增强等操作后送入模型，原始模型在大规模数据集ImageNet上预训练。

b.对于单标签的训练数据，利用两种弱先验知识生成多标签的标签分布，两种先验知识以及计算原则是：

(1)推测原则：两种情感之间的距离可以利用Mikel转轮进行度量，借助高斯函数，计算相关类别的概率值，离原始标签较近的类别概率值较大，否则较小，从而能够得出图片多标签分布的情况；

(2)互斥原则：情感标签具有分层结构，可以分为积极情感和消极情感两大类，其中积极情感包括愉悦、满足、敬畏、兴奋，消极情感包括伤心、生气、恐惧、恶心，因此每张图片的标签分布都限制在一个大类中，而且多标签的概率值和为1。

以上两个原则分别靠公式(1)、(2)实现

首先，对于图片x，Y_μ表示和原单标签μ属于的大类(积极情感或消极情感)，我们只在原单标签所属大类中考虑情感分布，另一大类的情感概率值均为0； σ_conf表示每种情绪影响的程度；ε确保将整体情绪以概率的形式考虑进去，设置为0.1；因此，情感标签的分布可以被表示为i表示第i个情感类别，C表示情感总类别数。

c.在训练过程中，利用a中模型最后一层全连接层的输出特征，计算Softmax 损失。

d.在训练过程中，利用a中模型最后一层全连接层的输出特征，计算KL损失。

e.该步骤针对训练过程，将Softmax损失和KL损失加权求和，得到最后的损失函数，通过最小化最后的损失函数端到端地训练模型。

图2展示了将单标签转化为多标签的示意图，其中(b)推测原则基于(a) Mikels转轮中情感之间的距离利用高斯概率分布函数计算多标签分布概率，(c) 互斥原则将多标签的情感都限制在一个大类(积极情感或消极情感)中。

Claims

1.基于自动估计的视觉情感标签分布预测方法，其特征在于，该方法包含如下步骤：

a.将数据输入到多任务的深度卷积网络；

2.根据权利要求1所述的一种基于自动估计的视觉情感标签分布预测方法，其特征在于：使用只提供单标签的图片训练时，提出了一种由单标签生成多标签分布的方法，利用的两种弱先验规则分别为：

3.根据权利要求1所述的一种基于自动估计的视觉情感标签分布预测方法，其特征在于：提出了一个端到端的多任务的卷积神经网络，将分类任务的损失函数和分布任务的损失函数进行赋权值相加，最小化最后的联合损失，在端到端的训练过程中情感标签分类和标签分布任务能够相互促进。