CN114937182B - 一种基于情感轮和卷积神经网络的图像情感分布预测方法 - Google Patents
一种基于情感轮和卷积神经网络的图像情感分布预测方法 Download PDFInfo
- Publication number
- CN114937182B CN114937182B CN202210406659.1A CN202210406659A CN114937182B CN 114937182 B CN114937182 B CN 114937182B CN 202210406659 A CN202210406659 A CN 202210406659A CN 114937182 B CN114937182 B CN 114937182B
- Authority
- CN
- China
- Prior art keywords
- emotion
- image
- distribution
- picture
- emotion distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 340
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种基于情感轮和卷积神经网络的图像情感分布预测方法,它包括如下步骤:选取图像数据集并将图像数据集划分为测试集和训练集;构建图像情感分布学习模型;将训练集的图片输入模型进行训练;将测试集输入至训练后的模型,得到情感分布预测输出,用于情感分布预测任务和情绪分类任务;采用十折交叉验证方式重复十次上述过程,并对每次训练的模型性能取均值,作为模型的最终性能。本发明将Mikel's情感轮心理学先验知识引入情感分布学习,基于Mikel's情感轮计算成对情绪之间的相关性,采用多任务卷积神经网络以端到端的方式进行训练,有效利用情绪之间的相关性,同时优化情感分布预测与情绪分类任务。
Description
技术领域
本申请涉及图像情感分析技术领域,具体涉及一种基于情感轮和卷积神经网络的图像情感分布预测方法。
背景技术
图像情感分析任务的目标是挖掘图片中隐含的人们的情感倾向,是一项涉及计算机视觉、心理学和美学的多学科交叉任务,目前图像情感分析方法主要包括两大类,一类是基于单标签学习或多标签学习的方法,该方法可以借鉴经典的分类模型实现情绪标签的预测,但是不能对图片在各种情绪上的表达程度进行定量分析,另一类是基于情感分布学习的方法,该方法对图片中蕴含的多种情绪同时建模,可以更好地处理多情绪标签的相关性和模糊性。但是,目前较少有基于图像的情感分布学习研究工作,在预测模型中直接运用心理学先验知识考虑情绪之间的相关性。
发明内容
本发明的目的在于,提供一种基于情感轮和卷积神经网络的图像情感分布预测方法,克服现有的图像情感分布学习模型在考虑情绪之间的相关性方面上的不足,提高图像情感分析模型在情绪分类任务和情感分布预测任务上的性能,将Mikel's情感轮心理学先验知识引入情感分布学习,基于Mikel's情感轮计算成对情绪之间的相关性,采用多任务卷积神经网络以端到端的方式进行训练,有效利用情绪之间的相关性,同时优化情感分布预测与情绪分类任务。
本发明采取的技术方案是:一种基于情感轮和卷积神经网络的图像情感分布预测方法,包括如下步骤:
S1:选取图像数据集,将图像数据集中的图片按照情绪种类进行分类,将每种情绪的图片随机均分成十份,再从每种情绪的十份数据中随机抽取一份数据,将从各种情绪中随机抽取出的一份数据合并作为测试集使用一次,将其余数据合并作为训练集;
S2:构建图像情感分布学习模型,所述图像情感分布学习模型包括图像特征提取层、情感轮先验知识层和多任务损失层;图像特征提取层用于提取图片中的特征信息,并将图片中的特征信息映射到目标情绪;情感轮先验知识层基于Mikel's情感轮计算成对情绪间的相关程度,将图像特征提取层的输出转换为情感分布;多任务损失层用于实现情绪分类和情感分布预测两个任务;
S3:对图像情感分布学习模型的参数和超参数进行初始化设置,随后将训练集原始图片随机裁剪至224*224*3的形状并进行标准化,将训练集随机均分为若干个批量,每次输入一个批量的样本图片对图像情感分布学习模型的网络参数进行训练,直至每个批量的样本图片都已参与模型训练;将样本图片输入至图像特征提取层,得到图像信息表征向量其中C为目标情绪的数量,vC为图像在第C种目标情绪的表达程度;
S4:将图像信息表征向量输入情感轮先验知识层,根据每种情绪在Mikel's情感轮上的位置关系,为每个情绪μ生成一个先验情感分布其中μ∈{1,2,…,C},C为目标情绪的数量,/>代表情绪j在先验情感分布fμ上的表达程度;
并使用先验情感分布fμ对图像特征提取层输出的图像信息表征向量进行加权计算,得到包含心理学先验知识的情感分布向量/>情感分布向量/>的具体表达式如下:
S5:将情感分布向量输入多任务损失层,采用交叉熵损失函数和KL损失函数分别度量情绪分类任务和情感分布预测任务;通过加权的方式,将两种损失函数综合起来,作为多任务损失层的损失函数,对情绪分类和情感分布预测任务同时进行优化,多任务损失层的损失函数L具体表达式如下:
L=(1-λ)Lcls(x,y)+λLsdl(x,d)
其中,Lcls表示情绪分类损失函数,即交叉熵损失函数;Lsdl表示情感分布预测损失函数,即KL损失函数;x为图片,y为图片对应的情绪标签,d为图片对应的真实情感分布;λ为多任务损失函数中情感分布预测损失函数的权重系数;
采用随机梯度下降SGD来最小化损失函数L,完成对图像情感分布学习模型网络参数的训练;
S6:将测试集中的原始图片随机裁剪至224*224*3的形状并进行标准化,输入至训练后的图像情感分布学习模型,得到情感分布预测输出将情感分布预测输出/>用于情感分布预测任务,取情感分布预测输出/>中最大值对应的情绪作为图片的主导情绪用于情绪分类任务;
S7:采用十折交叉验证方式从S1中重新选取测试集和训练集,并重复S3~S6十次,使图像数据集中的每张图片都作为测试集被使用一次;分别对十次训练过程中图像情感分布学习模型在情感分布预测任务和情绪分类任务上的性能取均值,作为图像情感分布学习模型在情感分布预测任务和情绪分类任务上的最终性能。
进一步地,所述图像特征提取层由两部分构成,前端部分由VGGNet的5组卷积层与池化层和2层全连接层组成,通过多层卷积神经网络提取图片中的特征信息,后端部分由一个全连接层组成。
进一步地,S3中对图像情感分布学习模型参数的初始化设置具体为:将图像特征提取层前端部分的参数初始化为VGGNet在ImageNet图像数据集上预训练的参数,对后段部分的参数采用正态分布初始化。
进一步地,S3中对图像情感分布学习模型超参数的初始化设置具体为:多任务损失函数中情感分布预测损失函数的权重系数λ设为0.7,图像特征提取层前端部分卷积层学习率为0.001,前端部分全连接层和后端部分全连接层的学习率Learning Rate为0.01,并设置丢弃率Dropout为0.5,每个批量的样本数量Batch Size为32。
进一步地,的具体计算公式为:
其中,σ为先验情感分布标准差,|j-μ|是情绪j与情绪μ在Mikel's情感轮上的距离,为情绪j与情绪μ之间的相关程度,对/>进行归一化得到/>
进一步地,交叉熵损失函数的具体表达式为:
其中,函数N为训练集的样本数,i为第i张图片,j为第j种情绪,yi为第i张图片对应的情绪标签,/>为第i张图片在第j类情绪上的表达程度;KL损失函数的具体表达式为:
其中,为第i张图片在第j个情绪上的真实表达强度。
进一步地,S6中情感分布预测任务采用6种评价真实情感分布和情感分布预测之间距离或相似度的指标作为图像情感分布学习模型的性能指标,分别为Chebyshev距离、Clark距离、Canberra测度、KL散度、余弦系数和Intersection相似度;情绪分类任务采用准确率作为图像情感分布学习模型的性能指标。
本发明的有益效果在于:
(1)本发明通过情感轮先验知识层将心理学情感知识直接引入深度神经网络,基于Mikel's情感轮定义成对情绪之间的相关性,采用多任务卷积神经网络综合考虑情绪分类任务和情感分布预测任务,能够有效利用成对情绪之间的相关性,在情绪分类任务和情感分布预测任务上的性能均优于现有的图像情感分布学习模型;
(2)本发明将图像特征提取层参数初始化为VGGNet在ImageNet数据集上预训练的参数,在给定数据集上对参数进行微调,这种训练方法能够有效提高模型的收敛速率,提高了工作效率,且适用于大规模数据集上的训练。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的方法流程图;
图2为本发明实施例图像情感分布学习模型的结构示意图;
图3为Mikel's情感轮示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
除非另作定义,此处使用的技术术语或者科学术语应当为本申请所述领域内具有一般技能的人士所理解的通常意义。本专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也相应地改变。
如图1所示,一种基于情感轮和卷积神经网络的图像情感分布预测方法,包括如下步骤:
S1:选取图像数据集,将图像数据集中的图片按照情绪种类进行分类,将每种情绪的图片随机均分成十份,再从每种情绪的十份数据中随机抽取一份数据,将从各种情绪中随机抽取出的一份数据合并作为测试集使用一次,将其余数据合并作为训练集。
S2:构建图像情感分布学习模型,所述图像情感分布学习模型如图2所示,包括图像特征提取层、情感轮先验知识层和多任务损失层;图像特征提取层用于提取图片中的特征信息,并将图片中的特征信息映射到目标情绪;情感轮先验知识层基于Mikel's情感轮计算成对情绪间的相关程度,将图像特征提取层的输出转换为情感分布;多任务损失层用于实现情绪分类和情感分布预测两个任务。
在本发明实施例中,所述图像特征提取层由两部分构成,前端部分为基于VGGNet构建的特征提取器,包括5组卷积层与池化层和2层全连接层组成,全连接层神经元数量为2048,连接在第五组卷积层与池化层之后,卷积层通过多层卷积神经网络提取图片中的特征信息,全连接层将图像特征信息映射至图像特征信息向量;后端部分由一个全连接层组成,连接在前端部分的全连接层之后,用于将图像特征信息向量映射到目标情绪。
情感轮先验知识层由转换矩阵组成,转换矩阵W=[f1,f2,…,fC],其中C为情绪类别数量,fC为第C种情绪的先验情感分布。转换矩阵W基于Mikel's情感轮计算成对情绪间的相关程度,用于将图像特征提取层的输出转换为情感分布。
多任务损失层采用情绪分类和情感分布预测两个任务,同时对神经网络进行训练,基于情感轮先验知识层预测的情感分布,多任务损失层采用交叉熵损失和Kullback-Leibler(KL)损失分别度量情绪分类任务和情感分布预测任务,通过加权的方式,将两种损失函数综合起来,同时优化情绪分类和情感分布预测任务,多任务损失层采用随机梯度下降(SGD)来最小化损失函数,根据链式法则,进行梯度的反向传播。
S3:对图像情感分布学习模型的参数和超参数进行初始化设置,随后将训练集原始图片随机裁剪至224*224*3的形状并进行标准化,将训练集随机均分为若干个批量,每次输入一个批量的样本图片对图像情感分布学习模型的网络参数进行训练,直至每个批量的样本图片都已参与模型训练;将样本图片输入至图像特征提取层,得到图像信息表征向量其中C为目标情绪的数量,vC为图像在第C种目标情绪的表达程度。
在本发明实施例中,图像情感分布学习模型参数的初始化设置具体为:将图像特征提取层前端部分的参数初始化为VGGNet在ImageNet图像数据集上预训练的参数,对后段部分的参数采用正态分布初始化。图像情感分布学习模型超参数的初始化设置具体为:设多任务损失函数中情感分布预测损失函数的权重系数λ设为0.7,图像特征提取层前端部分卷积层学习率为0.001,前端部分全连接层和后端部分全连接层的学习率Learning Rate为0.01,并设置丢弃率Dropout为0.5,每个批量的样本数量Batch Size为32,训练集的批量数=训练集的样本数/每个批量的样本数量。
S4:将图像信息表征向量输入情感轮先验知识层,根据每种情绪在Mikel's情感轮上的位置关系,为每个情绪μ生成一个先验情感分布其中μ∈{1,2,…,C},C为目标情绪的数量;/>代表情绪j在先验情感分布fμ上的表达程度,情绪μ在先验情感分布fμ中的表达程度最大,其余情绪的表达程度随着在Mikel's情感轮上与情绪μ之间的距离增加而逐步递减,因此,总体上先验情感分布fμ是以情绪μ为最大值,两边逐渐递减的对称分布。
的具体计算公式为:
其中,σ为先验情感分布标准差;|j-μ|是情绪j与情绪μ在Mikel's情感轮上的距离,计算方法如图3所示,例如“惊讶”与“兴奋”在Mikel's情感轮上的距离为1,“恐惧”与“高兴”在Mikel's情感轮上的距离为4;为情绪j与情绪μ之间的相关程度,对/>进行归一化得到/>
使用先验情感分布fμ对图像特征提取层输出的图像信息表征向量进行加权计算,得到包含心理学先验知识的情感分布向量/>情感分布向量/>的具体表达式如下:
S5:将情感分布向量输入多任务损失层,采用交叉熵损失函数和KL损失函数分别度量情绪分类任务和情感分布预测任务;通过加权的方式,将两种损失函数综合起来,作为多任务损失层的损失函数,对情绪分类和情感分布预测任务同时进行优化,多任务损失层的损失函数L具体表达式如下:
L=(1-λ)Lcls(x,y)+λLsdl(x,d)
其中,Lcls表示情绪分类损失函数,即交叉熵损失函数;Lsdl表示情感分布预测损失函数,即KL损失函数;x为图片,y为图片对应的情绪标签,d为图片对应的真实情感分布;λ为多任务损失函数中情感分布预测损失函数的权重系数。
在训练过程中,交叉熵损失用于最大化正确类别的概率,用于情绪分类任务,交叉熵损失函数的具体表达式为:
其中,函数N为训练集的样本数,i为第i张图片,j为第j种情绪,yi为第i张图片对应的情绪标签,/>为第i张图片在第j类情绪上的表达程度。
KL损失是度量预测情感分布与先验情感分布或真实情感分布之间的相似性的指标之一,因此,将KL损失用于情感分布预测任务,KL损失函数的具体表达式为:
其中,为第i张图片在第j个情绪上的真实表达强度。
多任务损失层采用随机梯度下降(SGD)来最小化损失函数L,根据链式法则,梯度的计算公式为:
其中,vi为图像信息表征向量的第i个分量,pk为情感分布向量/>的第k个分量,yk为情绪标签向量的第k个分量,/>为先验情感分布fk的第i个分量,dk为真实情感分布的第k个分量。多任务损失层根据上式进行梯度的反向传播,完成对图像情感分布学习模型网络参数的训练;
S6:将测试集中的原始图片随机裁剪至224*224*3的形状并进行标准化,输入至训练后的图像情感分布学习模型,得到情感分布预测输出将情感分布预测输出/>用于情感分布预测任务,取情感分布预测输出/>中最大值对应的情绪作为图片的主导情绪用于情绪分类任务;情感分布预测任务采用6种评价真实情感分布和情感分布预测之间距离或相似度的指标作为图像情感分布学习模型的性能指标,分别为Chebyshev距离、Clark距离、Canberra测度、KL散度、余弦系数和Intersection相似度;情绪分类任务采用准确率作为图像情感分布学习模型的性能指标。
S7:采用十折交叉验证方式从S1中重新选取测试集和训练集,并重复S3~S6十次,使图像数据集中的每张图片都作为测试集被使用一次;十折交叉验证方式可提高图像数据集的数据利用率,使图像情感分布学习模型评估效果更准确。分别对十次训练过程中图像情感分布学习模型在情感分布预测任务和情绪分类任务上的性能取均值,作为图像情感分布学习模型在情感分布预测任务和情绪分类任务上的最终性能。
本发明实施例通过情感轮先验知识层将心理学情感知识直接引入深度神经网络,基于Mikel's情感轮定义成对情绪之间的相关性,采用多任务卷积神经网络综合考虑情绪分类任务和情感分布预测任务,能够有效利用成对情绪之间的相关性,如表1所示,在情绪分类任务和情感分布预测任务上的性能均优于对比的图像情感分布学习模型;同时本发明实施例将图像特征提取层参数初始化为VGGNet在ImageNet数据集上预训练的参数,在给定数据集上对参数进行微调,这种训练方法能够有效提高模型的收敛速率,提高了工作效率,且适用于大规模数据集上的训练。
表1 Emotion6数据集上9种情感分布学习模型的性能对比
注:↑表示该指标越大越好,↓表示该指标越小越好
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于情感轮和卷积神经网络的图像情感分布预测方法,其特征在于,包括如下步骤:
S1:选取图像数据集,将图像数据集中的图片按照情绪种类进行分类,将每种情绪的图片随机均分成十份,再从每种情绪的十份数据中随机抽取一份数据,将从各种情绪中随机抽取出的一份数据合并作为测试集使用一次,将其余数据合并作为训练集;
S2:构建图像情感分布学习模型,所述图像情感分布学习模型包括图像特征提取层、情感轮先验知识层和多任务损失层;图像特征提取层用于提取图片中的特征信息,并将图片中的特征信息映射到目标情绪;情感轮先验知识层基于Mikel's情感轮计算成对情绪间的相关程度,将图像特征提取层的输出转换为情感分布;多任务损失层用于实现情绪分类和情感分布预测两个任务;
S3:对图像情感分布学习模型的参数和超参数进行初始化设置,随后将训练集原始图片随机裁剪至224*224*3的形状并进行标准化,将训练集随机均分为若干个批量,每次输入一个批量的样本图片对图像情感分布学习模型的网络参数进行训练,直至每个批量的样本图片都已参与模型训练;将样本图片输入至图像特征提取层,得到图像信息表征向量其中C为目标情绪的数量,vC为图像在第C种目标情绪的表达程度;
S4:将图像信息表征向量输入情感轮先验知识层,根据每种情绪在Mikel's情感轮上的位置关系,为每个情绪μ生成一个先验情感分布其中μ∈{1,2,…,C},C为目标情绪的数量,/>代表情绪j在先验情感分布fμ上的表达程度;
并使用先验情感分布fμ对图像特征提取层输出的图像信息表征向量进行加权计算,得到包含心理学先验知识的情感分布向量/>情感分布向量/>的具体表达式如下:
S5:将情感分布向量输入多任务损失层,采用交叉熵损失函数和KL损失函数分别度量情绪分类任务和情感分布预测任务;通过加权的方式,将两种损失函数综合起来,作为多任务损失层的损失函数,对情绪分类和情感分布预测任务同时进行优化,多任务损失层的损失函数L具体表达式如下:
L=(1-λ)Lcls(x,y)+λLsdl(x,d)
其中,Lcls表示情绪分类损失函数,即交叉熵损失函数;Lsdl表示情感分布预测损失函数,即KL损失函数;x为图片,y为图片对应的情绪标签,d为图片对应的真实情感分布;λ为多任务损失函数中情感分布预测损失函数的权重系数;
采用随机梯度下降SGD来最小化损失函数L,完成对图像情感分布学习模型网络参数的训练;
S6:将测试集中的原始图片随机裁剪至224*224*3的形状并进行标准化,输入至训练后的图像情感分布学习模型,得到情感分布预测输出将情感分布预测输出/>用于情感分布预测任务,取情感分布预测输出/>中最大值对应的情绪作为图片的主导情绪用于情绪分类任务;
S7:采用十折交叉验证方式从S1中重新选取测试集和训练集,并重复S3~S6十次,使图像数据集中的每张图片都作为测试集被使用一次;分别对十次训练过程中图像情感分布学习模型在情感分布预测任务和情绪分类任务上的性能取均值,作为图像情感分布学习模型在情感分布预测任务和情绪分类任务上的最终性能。
2.根据权利要求1所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法,其特征在于,所述图像特征提取层由两部分构成,前端部分由VGGNet的5组卷积层与池化层和2层全连接层组成,通过多层卷积神经网络提取图片中的特征信息,后端部分由一个全连接层组成。
3.根据权利要求2所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法,其特征在于,S3中对图像情感分布学习模型参数的初始化设置具体为:将图像特征提取层前端部分的参数初始化为VGGNet在ImageNet图像数据集上预训练的参数,对后段部分的参数采用正态分布初始化。
4.根据权利要求2所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法,其特征在于,S3中对图像情感分布学习模型超参数的初始化设置具体为:多任务损失函数中情感分布预测损失函数的权重系数λ设为0.7,图像特征提取层前端部分卷积层学习率为0.001,前端部分全连接层和后端部分全连接层的学习率Learning Rate为0.01,并设置丢弃率Dropout为0.5,每个批量的样本数量Batch Size为32。
5.根据权利要求1所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法,其特征在于,的具体计算公式为:
其中,σ为先验情感分布标准差;|j-μ|是情绪j与情绪μ在Mikel's情感轮上的距离;为情绪j与情绪μ之间的相关程度,对/>进行归一化得到/>
6.根据权利要求1所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法,其特征在于,交叉熵损失函数的具体表达式为:
其中,函数N为训练集的样本数,i为第i张图片,j为第j种情绪,yi为第i张图片对应的情绪标签,/>为第i张图片在第j类情绪上的表达程度;
KL损失函数的具体表达式为:
其中,为第i张图片在第j个情绪上的真实表达强度。
7.根据权利要求1所述的一种基于情感轮和卷积神经网络的图像情感分布预测方法,其特征在于,S6中情感分布预测任务采用6种评价真实情感分布和情感分布预测之间距离或相似度的指标作为图像情感分布学习模型的性能指标,分别为Chebyshev距离、Clark距离、Canberra测度、KL散度、余弦系数和Intersection相似度;情绪分类任务采用准确率作为图像情感分布学习模型的性能指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210406659.1A CN114937182B (zh) | 2022-04-18 | 2022-04-18 | 一种基于情感轮和卷积神经网络的图像情感分布预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210406659.1A CN114937182B (zh) | 2022-04-18 | 2022-04-18 | 一种基于情感轮和卷积神经网络的图像情感分布预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114937182A CN114937182A (zh) | 2022-08-23 |
CN114937182B true CN114937182B (zh) | 2024-04-09 |
Family
ID=82861698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210406659.1A Active CN114937182B (zh) | 2022-04-18 | 2022-04-18 | 一种基于情感轮和卷积神经网络的图像情感分布预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114937182B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100390B (zh) * | 2022-08-24 | 2022-11-18 | 华东交通大学 | 一种联合对比学习与自监督区域定位的图像情感预测方法 |
CN117251785A (zh) * | 2023-11-14 | 2023-12-19 | 天科大(天津)科技园有限责任公司 | 基于多任务学习的多模态情感分析和情绪识别方法及系统 |
CN118445628B (zh) * | 2024-07-11 | 2024-09-03 | 江西师范大学 | 一种融合情感分布的多标签表情符号预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263822A (zh) * | 2019-05-29 | 2019-09-20 | 广东工业大学 | 一种基于多任务学习方式的图像情感分析方法 |
AU2020100710A4 (en) * | 2020-05-05 | 2020-06-11 | Chen, Dadu Mr | A method for sentiment analysis of film reviews based on deep learning and natural language processing |
CN111797936A (zh) * | 2020-07-13 | 2020-10-20 | 长沙理工大学 | 基于显著性检测和多层次特征融合的图像情感分类方法及装置 |
CN112613552A (zh) * | 2020-12-18 | 2021-04-06 | 北京工业大学 | 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法 |
-
2022
- 2022-04-18 CN CN202210406659.1A patent/CN114937182B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263822A (zh) * | 2019-05-29 | 2019-09-20 | 广东工业大学 | 一种基于多任务学习方式的图像情感分析方法 |
AU2020100710A4 (en) * | 2020-05-05 | 2020-06-11 | Chen, Dadu Mr | A method for sentiment analysis of film reviews based on deep learning and natural language processing |
CN111797936A (zh) * | 2020-07-13 | 2020-10-20 | 长沙理工大学 | 基于显著性检测和多层次特征融合的图像情感分类方法及装置 |
CN112613552A (zh) * | 2020-12-18 | 2021-04-06 | 北京工业大学 | 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法 |
Non-Patent Citations (1)
Title |
---|
基于深度卷积网络和谱图的语音情感识别;张家铭;王晓曼;景文博;;长春理工大学学报(自然科学版);20200215(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114937182A (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114937182B (zh) | 一种基于情感轮和卷积神经网络的图像情感分布预测方法 | |
CN109165692B (zh) | 一种基于弱监督学习的用户性格预测装置及方法 | |
CN110399850A (zh) | 一种基于深度神经网络的连续手语识别方法 | |
CN109740655B (zh) | 基于矩阵分解及神经协同过滤的物品评分预测方法 | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及系统 | |
CN113157678B (zh) | 一种多源异构数据关联方法 | |
CN110210380B (zh) | 基于表情识别与心理学测试生成性格的分析方法 | |
CN115688024B (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN111401105B (zh) | 一种视频表情识别方法、装置及设备 | |
CN106485289A (zh) | 一种菱镁矿矿石的品级的分类方法及设备 | |
CN113723238A (zh) | 一种人脸轻量网络模型构建方法和人脸识别方法 | |
CN113361653A (zh) | 基于数据样本增强的深度学习模型去偏方法和装置 | |
Lv et al. | MarsNet: Automated rock segmentation with transformers for Tianwen-1 mission | |
CN114048361A (zh) | 基于深度学习的众包软件开发者推荐方法 | |
CN111708865B (zh) | 一种基于改进XGBoost算法的技术预见及专利预警分析方法 | |
CN114595693A (zh) | 一种基于深度学习的文本情感分析方法 | |
Meeki et al. | Deep learning for non verbal sentiment analysis: facial emotional expressions | |
CN116503127A (zh) | 模型训练方法、检索方法及相关装置 | |
CN114357160B (zh) | 基于生成传播结构特征的早期谣言检测方法及装置 | |
CN113792541B (zh) | 一种引入互信息正则化器的方面级情感分析方法 | |
CN115083511A (zh) | 基于图表示学习与注意力的外围基因调控特征提取方法 | |
CN114626594A (zh) | 一种基于聚类分析和深度学习的中长期电量预测方法 | |
Mansouri et al. | Post-based prediction of users' opinions employing the social impact model improved by emotion | |
CN110472198B (zh) | 一种关键词的确定方法、文本处理的方法及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |