CN114937182B

CN114937182B - 一种基于情感轮和卷积神经网络的图像情感分布预测方法

Info

Publication number: CN114937182B
Application number: CN202210406659.1A
Authority: CN
Inventors: 赖金水; 东雨畅; 万中英; 曾雪强
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2024-04-09
Anticipated expiration: 2042-04-18
Also published as: CN114937182A

Abstract

本申请涉及一种基于情感轮和卷积神经网络的图像情感分布预测方法，它包括如下步骤：选取图像数据集并将图像数据集划分为测试集和训练集；构建图像情感分布学习模型；将训练集的图片输入模型进行训练；将测试集输入至训练后的模型，得到情感分布预测输出，用于情感分布预测任务和情绪分类任务；采用十折交叉验证方式重复十次上述过程，并对每次训练的模型性能取均值，作为模型的最终性能。本发明将Mikel's情感轮心理学先验知识引入情感分布学习，基于Mikel's情感轮计算成对情绪之间的相关性，采用多任务卷积神经网络以端到端的方式进行训练，有效利用情绪之间的相关性，同时优化情感分布预测与情绪分类任务。

Description

一种基于情感轮和卷积神经网络的图像情感分布预测方法

技术领域

本申请涉及图像情感分析技术领域，具体涉及一种基于情感轮和卷积神经网络的图像情感分布预测方法。

背景技术

图像情感分析任务的目标是挖掘图片中隐含的人们的情感倾向，是一项涉及计算机视觉、心理学和美学的多学科交叉任务，目前图像情感分析方法主要包括两大类，一类是基于单标签学习或多标签学习的方法，该方法可以借鉴经典的分类模型实现情绪标签的预测，但是不能对图片在各种情绪上的表达程度进行定量分析，另一类是基于情感分布学习的方法，该方法对图片中蕴含的多种情绪同时建模，可以更好地处理多情绪标签的相关性和模糊性。但是，目前较少有基于图像的情感分布学习研究工作，在预测模型中直接运用心理学先验知识考虑情绪之间的相关性。

发明内容

本发明的目的在于，提供一种基于情感轮和卷积神经网络的图像情感分布预测方法，克服现有的图像情感分布学习模型在考虑情绪之间的相关性方面上的不足，提高图像情感分析模型在情绪分类任务和情感分布预测任务上的性能，将Mikel's情感轮心理学先验知识引入情感分布学习，基于Mikel's情感轮计算成对情绪之间的相关性，采用多任务卷积神经网络以端到端的方式进行训练，有效利用情绪之间的相关性，同时优化情感分布预测与情绪分类任务。

本发明采取的技术方案是：一种基于情感轮和卷积神经网络的图像情感分布预测方法，包括如下步骤：

S1：选取图像数据集，将图像数据集中的图片按照情绪种类进行分类，将每种情绪的图片随机均分成十份，再从每种情绪的十份数据中随机抽取一份数据，将从各种情绪中随机抽取出的一份数据合并作为测试集使用一次，将其余数据合并作为训练集；

S2：构建图像情感分布学习模型，所述图像情感分布学习模型包括图像特征提取层、情感轮先验知识层和多任务损失层；图像特征提取层用于提取图片中的特征信息，并将图片中的特征信息映射到目标情绪；情感轮先验知识层基于Mikel's情感轮计算成对情绪间的相关程度，将图像特征提取层的输出转换为情感分布；多任务损失层用于实现情绪分类和情感分布预测两个任务；

S3：对图像情感分布学习模型的参数和超参数进行初始化设置，随后将训练集原始图片随机裁剪至224*224*3的形状并进行标准化，将训练集随机均分为若干个批量，每次输入一个批量的样本图片对图像情感分布学习模型的网络参数进行训练，直至每个批量的样本图片都已参与模型训练；将样本图片输入至图像特征提取层，得到图像信息表征向量其中C为目标情绪的数量，v_C为图像在第C种目标情绪的表达程度；

S4：将图像信息表征向量输入情感轮先验知识层，根据每种情绪在Mikel's情感轮上的位置关系，为每个情绪μ生成一个先验情感分布其中μ∈{1,2,…,C}，C为目标情绪的数量，/>代表情绪j在先验情感分布f_μ上的表达程度；

并使用先验情感分布f_μ对图像特征提取层输出的图像信息表征向量进行加权计算，得到包含心理学先验知识的情感分布向量/>情感分布向量/>的具体表达式如下：

S5：将情感分布向量输入多任务损失层，采用交叉熵损失函数和KL损失函数分别度量情绪分类任务和情感分布预测任务；通过加权的方式，将两种损失函数综合起来，作为多任务损失层的损失函数，对情绪分类和情感分布预测任务同时进行优化，多任务损失层的损失函数L具体表达式如下：

L＝(1-λ)L_cls(x,y)+λL_sdl(x,d)

其中，L_cls表示情绪分类损失函数，即交叉熵损失函数；L_sdl表示情感分布预测损失函数，即KL损失函数；x为图片，y为图片对应的情绪标签，d为图片对应的真实情感分布；λ为多任务损失函数中情感分布预测损失函数的权重系数；

采用随机梯度下降SGD来最小化损失函数L，完成对图像情感分布学习模型网络参数的训练；

S6：将测试集中的原始图片随机裁剪至224*224*3的形状并进行标准化，输入至训练后的图像情感分布学习模型，得到情感分布预测输出将情感分布预测输出/>用于情感分布预测任务，取情感分布预测输出/>中最大值对应的情绪作为图片的主导情绪用于情绪分类任务；

S7：采用十折交叉验证方式从S1中重新选取测试集和训练集，并重复S3～S6十次，使图像数据集中的每张图片都作为测试集被使用一次；分别对十次训练过程中图像情感分布学习模型在情感分布预测任务和情绪分类任务上的性能取均值，作为图像情感分布学习模型在情感分布预测任务和情绪分类任务上的最终性能。

进一步地，所述图像特征提取层由两部分构成，前端部分由VGGNet的5组卷积层与池化层和2层全连接层组成，通过多层卷积神经网络提取图片中的特征信息，后端部分由一个全连接层组成。

进一步地，S3中对图像情感分布学习模型参数的初始化设置具体为：将图像特征提取层前端部分的参数初始化为VGGNet在ImageNet图像数据集上预训练的参数，对后段部分的参数采用正态分布初始化。

进一步地，S3中对图像情感分布学习模型超参数的初始化设置具体为：多任务损失函数中情感分布预测损失函数的权重系数λ设为0.7，图像特征提取层前端部分卷积层学习率为0.001，前端部分全连接层和后端部分全连接层的学习率Learning Rate为0.01，并设置丢弃率Dropout为0.5，每个批量的样本数量Batch Size为32。

进一步地，的具体计算公式为：

其中，σ为先验情感分布标准差，|j-μ|是情绪j与情绪μ在Mikel's情感轮上的距离，为情绪j与情绪μ之间的相关程度，对/>进行归一化得到/>

进一步地，交叉熵损失函数的具体表达式为：

其中，函数N为训练集的样本数，i为第i张图片，j为第j种情绪，y_i为第i张图片对应的情绪标签，/>为第i张图片在第j类情绪上的表达程度；KL损失函数的具体表达式为：

其中，为第i张图片在第j个情绪上的真实表达强度。

进一步地，S6中情感分布预测任务采用6种评价真实情感分布和情感分布预测之间距离或相似度的指标作为图像情感分布学习模型的性能指标，分别为Chebyshev距离、Clark距离、Canberra测度、KL散度、余弦系数和Intersection相似度；情绪分类任务采用准确率作为图像情感分布学习模型的性能指标。

本发明的有益效果在于：

(1)本发明通过情感轮先验知识层将心理学情感知识直接引入深度神经网络，基于Mikel's情感轮定义成对情绪之间的相关性，采用多任务卷积神经网络综合考虑情绪分类任务和情感分布预测任务，能够有效利用成对情绪之间的相关性，在情绪分类任务和情感分布预测任务上的性能均优于现有的图像情感分布学习模型；

(2)本发明将图像特征提取层参数初始化为VGGNet在ImageNet数据集上预训练的参数，在给定数据集上对参数进行微调，这种训练方法能够有效提高模型的收敛速率，提高了工作效率，且适用于大规模数据集上的训练。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例图像情感分布学习模型的结构示意图；

图3为Mikel's情感轮示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

除非另作定义，此处使用的技术术语或者科学术语应当为本申请所述领域内具有一般技能的人士所理解的通常意义。本专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也相应地改变。

如图1所示，一种基于情感轮和卷积神经网络的图像情感分布预测方法，包括如下步骤：

S1：选取图像数据集，将图像数据集中的图片按照情绪种类进行分类，将每种情绪的图片随机均分成十份，再从每种情绪的十份数据中随机抽取一份数据，将从各种情绪中随机抽取出的一份数据合并作为测试集使用一次，将其余数据合并作为训练集。

S2：构建图像情感分布学习模型，所述图像情感分布学习模型如图2所示，包括图像特征提取层、情感轮先验知识层和多任务损失层；图像特征提取层用于提取图片中的特征信息，并将图片中的特征信息映射到目标情绪；情感轮先验知识层基于Mikel's情感轮计算成对情绪间的相关程度，将图像特征提取层的输出转换为情感分布；多任务损失层用于实现情绪分类和情感分布预测两个任务。

在本发明实施例中，所述图像特征提取层由两部分构成，前端部分为基于VGGNet构建的特征提取器，包括5组卷积层与池化层和2层全连接层组成，全连接层神经元数量为2048，连接在第五组卷积层与池化层之后，卷积层通过多层卷积神经网络提取图片中的特征信息，全连接层将图像特征信息映射至图像特征信息向量；后端部分由一个全连接层组成，连接在前端部分的全连接层之后，用于将图像特征信息向量映射到目标情绪。

情感轮先验知识层由转换矩阵组成，转换矩阵W＝[f₁,f₂,…,f_C]，其中C为情绪类别数量，f_C为第C种情绪的先验情感分布。转换矩阵W基于Mikel's情感轮计算成对情绪间的相关程度，用于将图像特征提取层的输出转换为情感分布。

多任务损失层采用情绪分类和情感分布预测两个任务，同时对神经网络进行训练，基于情感轮先验知识层预测的情感分布，多任务损失层采用交叉熵损失和Kullback-Leibler(KL)损失分别度量情绪分类任务和情感分布预测任务，通过加权的方式，将两种损失函数综合起来，同时优化情绪分类和情感分布预测任务，多任务损失层采用随机梯度下降(SGD)来最小化损失函数，根据链式法则，进行梯度的反向传播。

S3：对图像情感分布学习模型的参数和超参数进行初始化设置，随后将训练集原始图片随机裁剪至224*224*3的形状并进行标准化，将训练集随机均分为若干个批量，每次输入一个批量的样本图片对图像情感分布学习模型的网络参数进行训练，直至每个批量的样本图片都已参与模型训练；将样本图片输入至图像特征提取层，得到图像信息表征向量其中C为目标情绪的数量，v_C为图像在第C种目标情绪的表达程度。

在本发明实施例中，图像情感分布学习模型参数的初始化设置具体为：将图像特征提取层前端部分的参数初始化为VGGNet在ImageNet图像数据集上预训练的参数，对后段部分的参数采用正态分布初始化。图像情感分布学习模型超参数的初始化设置具体为：设多任务损失函数中情感分布预测损失函数的权重系数λ设为0.7，图像特征提取层前端部分卷积层学习率为0.001，前端部分全连接层和后端部分全连接层的学习率Learning Rate为0.01，并设置丢弃率Dropout为0.5，每个批量的样本数量Batch Size为32，训练集的批量数＝训练集的样本数/每个批量的样本数量。

S4：将图像信息表征向量输入情感轮先验知识层，根据每种情绪在Mikel's情感轮上的位置关系，为每个情绪μ生成一个先验情感分布其中μ∈{1,2,…,C}，C为目标情绪的数量；/>代表情绪j在先验情感分布f_μ上的表达程度，情绪μ在先验情感分布f_μ中的表达程度最大，其余情绪的表达程度随着在Mikel's情感轮上与情绪μ之间的距离增加而逐步递减，因此，总体上先验情感分布f_μ是以情绪μ为最大值，两边逐渐递减的对称分布。

的具体计算公式为：

其中，σ为先验情感分布标准差；|j-μ|是情绪j与情绪μ在Mikel's情感轮上的距离，计算方法如图3所示，例如“惊讶”与“兴奋”在Mikel's情感轮上的距离为1，“恐惧”与“高兴”在Mikel's情感轮上的距离为4；为情绪j与情绪μ之间的相关程度，对/>进行归一化得到/>

使用先验情感分布f_μ对图像特征提取层输出的图像信息表征向量进行加权计算，得到包含心理学先验知识的情感分布向量/>情感分布向量/>的具体表达式如下：

L＝(1-λ)L_cls(x,y)+λL_sdl(x,d)

其中，L_cls表示情绪分类损失函数，即交叉熵损失函数；L_sdl表示情感分布预测损失函数，即KL损失函数；x为图片，y为图片对应的情绪标签，d为图片对应的真实情感分布；λ为多任务损失函数中情感分布预测损失函数的权重系数。

在训练过程中，交叉熵损失用于最大化正确类别的概率，用于情绪分类任务，交叉熵损失函数的具体表达式为：

其中，函数N为训练集的样本数，i为第i张图片，j为第j种情绪，y_i为第i张图片对应的情绪标签，/>为第i张图片在第j类情绪上的表达程度。

KL损失是度量预测情感分布与先验情感分布或真实情感分布之间的相似性的指标之一，因此，将KL损失用于情感分布预测任务，KL损失函数的具体表达式为：

其中，为第i张图片在第j个情绪上的真实表达强度。

多任务损失层采用随机梯度下降(SGD)来最小化损失函数L，根据链式法则，梯度的计算公式为：

其中，v_i为图像信息表征向量的第i个分量，p_k为情感分布向量/>的第k个分量，y_k为情绪标签向量的第k个分量，/>为先验情感分布f_k的第i个分量，d_k为真实情感分布的第k个分量。多任务损失层根据上式进行梯度的反向传播，完成对图像情感分布学习模型网络参数的训练；

S6：将测试集中的原始图片随机裁剪至224*224*3的形状并进行标准化，输入至训练后的图像情感分布学习模型，得到情感分布预测输出将情感分布预测输出/>用于情感分布预测任务，取情感分布预测输出/>中最大值对应的情绪作为图片的主导情绪用于情绪分类任务；情感分布预测任务采用6种评价真实情感分布和情感分布预测之间距离或相似度的指标作为图像情感分布学习模型的性能指标，分别为Chebyshev距离、Clark距离、Canberra测度、KL散度、余弦系数和Intersection相似度；情绪分类任务采用准确率作为图像情感分布学习模型的性能指标。

S7：采用十折交叉验证方式从S1中重新选取测试集和训练集，并重复S3～S6十次，使图像数据集中的每张图片都作为测试集被使用一次；十折交叉验证方式可提高图像数据集的数据利用率，使图像情感分布学习模型评估效果更准确。分别对十次训练过程中图像情感分布学习模型在情感分布预测任务和情绪分类任务上的性能取均值，作为图像情感分布学习模型在情感分布预测任务和情绪分类任务上的最终性能。

本发明实施例通过情感轮先验知识层将心理学情感知识直接引入深度神经网络，基于Mikel's情感轮定义成对情绪之间的相关性，采用多任务卷积神经网络综合考虑情绪分类任务和情感分布预测任务，能够有效利用成对情绪之间的相关性，如表1所示，在情绪分类任务和情感分布预测任务上的性能均优于对比的图像情感分布学习模型；同时本发明实施例将图像特征提取层参数初始化为VGGNet在ImageNet数据集上预训练的参数，在给定数据集上对参数进行微调，这种训练方法能够有效提高模型的收敛速率，提高了工作效率，且适用于大规模数据集上的训练。

表1 Emotion6数据集上9种情感分布学习模型的性能对比

注：↑表示该指标越大越好，↓表示该指标越小越好

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于情感轮和卷积神经网络的图像情感分布预测方法，其特征在于，包括如下步骤：

L＝(1-λ)L_cls(x,y)+λL_sdl(x,d)

2.根据权利要求1所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法，其特征在于，所述图像特征提取层由两部分构成，前端部分由VGGNet的5组卷积层与池化层和2层全连接层组成，通过多层卷积神经网络提取图片中的特征信息，后端部分由一个全连接层组成。

3.根据权利要求2所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法，其特征在于，S3中对图像情感分布学习模型参数的初始化设置具体为：将图像特征提取层前端部分的参数初始化为VGGNet在ImageNet图像数据集上预训练的参数，对后段部分的参数采用正态分布初始化。

4.根据权利要求2所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法，其特征在于，S3中对图像情感分布学习模型超参数的初始化设置具体为：多任务损失函数中情感分布预测损失函数的权重系数λ设为0.7，图像特征提取层前端部分卷积层学习率为0.001，前端部分全连接层和后端部分全连接层的学习率Learning Rate为0.01，并设置丢弃率Dropout为0.5，每个批量的样本数量Batch Size为32。

5.根据权利要求1所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法，其特征在于，的具体计算公式为：

其中，σ为先验情感分布标准差；|j-μ|是情绪j与情绪μ在Mikel's情感轮上的距离；为情绪j与情绪μ之间的相关程度，对/>进行归一化得到/>

6.根据权利要求1所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法，其特征在于，交叉熵损失函数的具体表达式为：

其中，函数N为训练集的样本数，i为第i张图片，j为第j种情绪，y_i为第i张图片对应的情绪标签，/>为第i张图片在第j类情绪上的表达程度；

KL损失函数的具体表达式为：

其中，为第i张图片在第j个情绪上的真实表达强度。

7.根据权利要求1所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法，其特征在于，S6中情感分布预测任务采用6种评价真实情感分布和情感分布预测之间距离或相似度的指标作为图像情感分布学习模型的性能指标，分别为Chebyshev距离、Clark距离、Canberra测度、KL散度、余弦系数和Intersection相似度；情绪分类任务采用准确率作为图像情感分布学习模型的性能指标。