CN111523574A

CN111523574A - 一种基于多模态数据的图像情感识别方法及系统

Info

Publication number: CN111523574A
Application number: CN202010284300.2A
Authority: CN
Inventors: 普园媛; 阿曼; 徐丹; 赵征鹏; 钱文华; 袁国武; 杨文武; 陈云龙
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-08-11
Anticipated expiration: 2040-04-13
Also published as: CN111523574B

Abstract

本发明涉及一种基于多模态数据的图像情感识别方法及系统，包括：获取训练样本数据；根据训练样本数据得训练好的循环神经网络以及训练好的卷积神经网络；获取待识别数据；将待识别文本数据输入训练好的循环神经网络，得文本特征；将待识别图像输入训练好的卷积神经网络，得美感特征、情感特征以及共享特征；采用TFN方法对美感特征、共享特征和文本特征进行融合，得第一待识别融合特征；采用TFN方法对情感特征、图像特征和文本特征进行融合，得第二待识别融合特征；根据待识别融合特征确定待识别数据的情感。通过本发明的上述方法提高了情感识别的准确性。

Description

一种基于多模态数据的图像情感识别方法及系统

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于多模态数据的图像情感识别方法及系统。

背景技术

对于多媒体数据的情感分析一直以来都是一项具有挑战性的任务，国内外已经有许多学者、企业展开了对各个模态数据情感分析的研究。但较长时间来，研究人员主要关注单个模态的情感分析算法，而较少关注多种模态数据的联合分析。

传统的情感分析方法提取图片的纹理、聚类各种颜色，构建颜色、形状、纹理和情感之间的相关性。然而，一幅图像的情感受到多方面的影响，传统的情感分析方法考虑的因素不够全面和准确，导致情感识别的准确性不佳。

发明内容

基于此，本发明的目的是提供一种基于多模态数据的图像情感识别方法及系统，通过结合图像数据以及对图像数据进行描述的文本数据对图像的情感进行识别，提高情感识别的准确性。

为实现上述目的，本发明提供了如下方案：

一种基于多模态数据的图像情感识别方法，所述图像情感识别方法包括：

获取训练样本数据；所述训练样本数据包括训练图像数据以及训练文本数据；

获取预设共享参数；

根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征；

根据所述训练文本数据对循环神经网络进行训练，获得训练过的循环神经网络和训练文本特征。

采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合，获得第一训练融合特征；

采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合，获得第二训练融合特征；

根据所述第一训练融合特征和所述第二训练融合特征，采用交叉熵损失函数确定训练美感损失以及训练情感分布损失；

根据所述训练文本特征，采用交叉熵损失函数确定训练文本损失；

根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失；

根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数，并分别调节卷积神经网络和循环神经网络中的参数；

判断迭代次数是否小于预设迭代次数，获得判断结果；

若所述判断结果表示所述迭代次数小于预设迭代次数，返回“根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征”步骤；

若所述判断结果表示所述迭代次数大于或等于预设迭代次数，将所述训练过的卷积神经网络确定为训练好的卷积神经网络，将所述训练过的循环神经网络确定为训练好的循环神经网络；

获取待识别数据；所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据；

将所述待识别文本数据输入所述训练好的循环神经网络，获得待识别文本特征；

将所述待识别图像输入所述训练好的卷积神经网络，获得待识别美感特征、待识别情感特征以及待识别共享特征；

采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合，获得第一待识别融合特征；

采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合，获得第二待识别融合特征；

将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中，确定待识别数据的情感；所述情感包括：愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。

可选的，所述根据所述训练文本数据对循环神经网络进行训练，获得训练过的循环神经网络，具体包括：

将所述训练文本数据分为第一训练文本数据和第二训练文本数据；

采用Python中的jieba分词库对所述第一训练文本数据进行分词，得到第一训练文本数据的词库；

根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练，构建情感词嵌入模型；

采用Python中的jieba分词库对所述第二训练文本数据进行分词，得到第二训练文本数据的特征词；

根据所述第二训练文本数据的特征词，调用所述情感词嵌入模型确定训练词嵌入矩阵；

根据所述训练词嵌入矩阵对循环神经网络进行训练，获得训练过的循环神经网络；其中，所述训练过的循环神经网络中输出的隐层状态为训练文本特征。

可选的，所述根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征，具体包括：

获取原始卷积神经网络；

将所述训练图像数据分为第一训练图像数据和第二训练图像数据；

利用所述第一训练图像数据对原始卷积神经网络进行训练，获得预训练的卷积神经网络；

根据所述预设共享参数，利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征；其中，训练过程中，利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。

可选的，所述根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失，具体包括：

根据公式L_all＝γL_afuse+θL_efuse+δL_T确定训练样本数据的总损失；其中，L_all为训练样本数据的总损失，L_afuse为训练美感损失，L_efuse为训练情感分布损失，L_T为训练文本损失，γ为训练美感损失权重，θ为训练情感分布损失权重，δ为训练文本损失权重。

一种基于多模态数据的图像情感识别系统，所述图像情感识别系统包括：

训练样本数据获取模块，用于获取训练样本数据；所述训练样本数据包括训练图像数据以及训练文本数据；

预设共享参数获取模块，用于获取预设共享参数；

卷积神经网络训练模块，用于根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征；

循环神经网络训练模块，用于根据所述训练文本数据对循环神经网络进行训练，获得训练过的循环神经网络和训练文本特征；

第一训练融合特征获得模块，用于采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合，获得第一训练融合特征；

第二训练融合特征获得模块，用于采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合，获得第二训练融合特征；

训练美感损失以及训练情感分布损失确定模块，用于根据所述第一训练融合特征和所述第二训练融合特征，采用交叉熵损失函数确定训练美感损失以及训练情感分布损失；

训练文本损失确定模块，用于根据所述训练文本特征，采用交叉熵损失函数确定训练文本损失；

训练样本数据的总损失确定模块，用于根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失；

参数确定模块，用于根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数，并分别调节卷积神经网络和循环神经网络中的参数；

判断模块，用于判断迭代次数是否小于预设迭代次数，获得判断结果；

返回模块，用于若所述判断结果表示所述迭代次数小于预设迭代次数，返回所述卷积神经网络训练模块；

网络确定模块，用于若所述判断结果表示所述迭代次数大于或等于预设迭代次数，将所述训练过的卷积神经网络确定为训练好的卷积神经网络，将所述训练过的循环神经网络确定为训练好的循环神经网络；

待识别数据获取模块，用于获取待识别数据；所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据；

待识别文本特征获得模块，用于将所述待识别文本数据输入所述训练好的循环神经网络，获得待识别文本特征；

待识别美感特征、待识别情感特征以及待识别共享特征获得模块，用于将所述待识别图像输入所述训练好的卷积神经网络，获得待识别美感特征、待识别情感特征以及待识别共享特征；

第一待识别融合特征获得模块，用于采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合，获得第一待识别融合特征；

第二待识别融合特征获得模块，用于采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合，获得第二待识别融合特征；

待识别数据情感确定模块，用于将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中，确定待识别数据的情感；所述情感包括：愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。

可选的，所述循环神经网络训练模块具体包括：

训练文本数据分割单元，用于将所述训练文本数据分为第一训练文本数据和第二训练文本数据；

第一训练文本数据词库获得单元，用于采用Python中的jieba分词库对所述第一训练文本数据进行分词，得到第一训练文本数据的词库；

情感词嵌入模型构建单元，用于根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练，构建情感词嵌入模型；

第二训练文本数据特征词获得单元，用于采用Python中的jieba分词库对所述第二训练文本数据进行分词，得到第二训练文本数据的特征词；

训练词嵌入矩阵确定单元，用于根据所述第二训练文本数据的特征词，调用所述情感词嵌入模型确定训练词嵌入矩阵；

训练过的循环神经网络获得单元，用于根据所述训练词嵌入矩阵对循环神经网络进行训练，获得训练过的循环神经网络；其中，所述训练过的循环神经网络中输出的隐层状态为训练文本特征。

可选的，所述卷积神经网络训练模块具体包括：

原始卷积神经网络获取单元，用于获取原始卷积神经网络；

训练图像数据分割单元，用于将所述训练图像数据分为第一训练图像数据和第二训练图像数据；

预训练的卷积神经网络获得单元，用于利用所述第一训练图像数据对原始卷积神经网络进行训练，获得预训练的卷积神经网络；

卷积神经网络训练单元，用于根据所述预设共享参数，利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征；其中，训练过程中，利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。

可选的，所述训练样本数据的总损失确定模块具体包括：

训练样本数据的总损失确定单元，用于根据公式L_all＝γL_afuse+θL_efuse+δL_T确定训练样本数据的总损失；其中，L_all为训练样本数据的总损失，L_afuse为训练美感损失，L_efuse为训练情感分布损失，L_T为训练文本损失，γ为训练美感损失权重，θ为训练情感分布损失权重，δ为训练文本损失权重。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于多模态数据的图像情感识别方法及系统，采用循环神经网络对文本数据进行特征提取获得文本特征，根据文本特征计算文本损失；采用卷积神经网络对图像数据进行特征提取获得美感特征、情感特征以及共享特征，并采用TFN方法对提取后的特征进行融合，根据融合后的特征采用交叉熵损失函数确定美感损失以及情感分布损失。根据美感损失、情感分布损失以及文本损失确定总损失，用于更新网络参数，最终利用判别器对图像情感进行识别。本发明在分析图像情感时，增加文本特征、美感特征、情感特征以及共享特征进行多模态数据的联合情感分析，能够全面、准确地用数据来概括情感，并最终进行较为准确的情感判别，提高情感识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种基于多模态数据的图像情感识别方法的流程图；

图2为本发明实施例所提供的训练好的卷积神经网络结构图；

图3为本发明实施例所提供的一种基于多模态数据的图像情感识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于多模态数据的图像情感识别方法及系统，通过结合图像数据以及对图像数据进行描述的文本数据对图像的情感进行识别，提高情感识别的准确性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例所提供的一种基于多模态数据的图像情感识别方法的流程图，如图1所示，本发明所述图像情感识别方法包括：

S101，获取训练样本数据；所述训练样本数据包括训练图像数据以及训练文本数据。

S102，获取预设共享参数，所述预设共享参数包括α_p,α_s,β_p,β_s。

S103，根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征，具体包括：

301，获取原始卷积神经网络。

302，将所述训练图像数据分为第一训练图像数据和第二训练图像数据。

具体的，第一训练图像数据包括ImageNet的图像数据、AVA美感评价数据及DeepEmotion情感识别数据，第二训练图像数据包括Flickr_LDL多分类情感数据图像。

303，利用第一训练图像数据对原始卷积神经网络进行训练，获得预训练的卷积神经网络。

304，根据所述预设共享参数，利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征；其中，训练过程中，利用预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。

具体的，将卷积神经网络的训练分为三个支路：上支路为图像美感支路，下支路为图像情感支路，中间支路为共享参数网络支路，如图2所示。

上支路：利用第一训练图像数据中的AVA美感评价数据对原始卷积神经网络进行训练，获得上支路预训练的卷积神经网络，再利用第二训练图像数据进行二次训练，在二次训练过程中利用第二训练图像数据的美感标签控制上支路卷积神经网络损失函数，获取训练过的美感卷积神经网络，将该网络最后一个卷积块的输出视为图像美感特征。

上支路的损失函数表示如下：

其中，L_a表示图像的美感损失，ai表示图像美感的类别，有两个取值，分别表示图像美感质量的高和低，y_ai表示图像的美感参考标签，

表示图像美感的预测标签值，

可以使用softmax公式计算，如公式(2)：

其中，

表示第ai类图像美感的预测标签值，e_ai表示网络神经元的中间输出，在卷积神经网络中，可以使用公式(3)计算：

其中，e_ai表示卷积网络神经元的中间输出，x_a表示前一层神经元的输出，W_a和b_a表示网络中神经元的权值矩阵和偏置，可以在迭代中更新，

表示该神经元的激活函数，用于计算神经元的输出，在卷积神经网络模型中选用Relu函数作为激活函数。

下支路：利用第一训练图像数据中的Deep Emotion数据集对原始卷积神经网络进行训练，获得下支路预训练的卷积神经网络，再利用第二训练图像数据进行二次训练，在二次训练过程中利用第二训练图像数据的情感标签控制卷积神经网络损失函数，获取情感卷积神经网络，将该网络最后一个卷积块的输出视为图像情感特征。在上述训练过程中，需要修改卷积神经网络，将最后一个全连接层的输出改为8个，分别表示图像情感的8个情感分类。

图像的8情感标签可以表示为P＝{P₁,P₂,...,P₇,P₈}，网络最后的输出为和P结构相似的概率分布，通过计算标签损失来调整网络参数，优化网络模型。

具体的，下支路的损失函数如下所示：

其中，L_e表示图像的情感损失，ei表示图像情感的类别，取值范围为1～8，yei表示图像情感的参考标签，

表示图像情感的预测标签值，

可以使用softmax公式计算，如公式(5)：

其中，

表示第i类图像情感的预测标签值，e_ei表示网络神经元的中间输出，可以使用公式(6)计算：

其中，e_ei表示网络神经元的中间输出，其中，x_e表示前一层神经元的输出，W_e和b_e表示网络中神经元的权值矩阵和偏置，可以在迭代中更新，

表示该神经元的激活函数，此处为Relu函数。

中间支路：利用第一训练图像数据中的ImageNet数据对原始卷积神经网络进行训练，获得中间支路预训练的卷积神经网络，该支路不使用特定的标签来计算损失和更新参数，而是将该支路的输出和上支路、下支路融合后再计算损失。即增加共享参数，利用预设共享参数对上支路的中间输出和下支路的中间输出作线性变换，并在网络迭代的过程中，将线性变换计算得出的特征结果传输到下一层实现卷积神经网络的前向传播，使用参数α_p，α_s控制共享参数网络及图像美感支路的输出特征，并使用β_p，β_s控制共享参数网络及图像情感支路的输出特征。计算方法如下：

其中，

表示共享参数网络和上支路中间输出结合后向前传播的中间输出，f_s(x,y)表示共享参数网络向前传播的中间输出，

表示共享参数网络和下支路中间输出结合后的中间输出，α_p，α_s分别表示共享参数网络中间输出和上支路中间输出的结合系数，β_p，β_s分别表示共享参数网络中间输出和下支路中间输出的结合系数，f_a(x,y)表示图像美感支路的中间输出，f_e(x,y)表示图像情感支路的中间输出。

S104，根据所述训练文本数据对循环神经网络进行训练，获得训练过的循环神经网络和训练文本特征，具体包括：

401，将所述训练文本数据分为第一训练文本数据和第二训练文本数据。

所述第一训练文本数据包括维基百科语料库以及一部分第二训练图像数据所对应的训练文本数据。

所述第二训练文本数据包括另一部分训练图像数据所对应的训练文本数据。

402，采用Python中的jieba分词库对所述第一训练文本数据进行分词，得到第一训练文本数据的词库。

403，根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练，构建情感词嵌入模型，也就是构建词嵌入向量库。

情感词嵌入模型的思想是根据文本语句中某个词的相邻n个词汇，判断该词位置上某个词语出现的概率，其中，n是GloVe模型的窗口大小，可以提前设置该参数，GloVe模型是基于语料库构建词语的共现矩阵，再基于共现矩阵和GloVe模型学习词向量。

在GloVe模型训练过程中，共现矩阵用X表示，则矩阵X中的元素表示为X_i,j，X_i,j表示整个语料库中，单词i和单词j共同出现在一个窗口中的次数，模型的代价函数如公式(1)所示：

其中，v_i和v_j表示单词i和单词j的词向量，b_i和b_j表示偏置，N表示词汇表大小，f(·)是权重函数，在GloVe模型中可以表示为公式(9)：

404，采用Python中的jieba分词库对所述第二训练文本数据进行分词，得到第二训练文本数据的特征词。

405，根据所述第二训练文本数据的特征词，调用所述情感词嵌入模型确定训练词嵌入矩阵。

具体的，每个文本句子的长度不同，因此，在训练词嵌入矩阵表示前还要设定文本语句中词语的最大长度，对于词语数量不足的，则采取补0向量的方式来填充，对于词语过多的，则直接截取。

406，根据所述训练词嵌入矩阵对循环神经网络进行训练，获得训练过的循环神经网络；其中，所述训练过的循环神经网络中输出的隐层状态为训练文本特征。

S105，采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合，获得第一训练融合特征。

采用TFN(tensorfusionnetwork)融合方法融合文本特征和美感特征，即使用向量的笛卡尔积融合美感特征、文本特征、共享参数网络输出的共享特征，采用公式(10)完成，

其中，

为训练美感特征，f_T为训练文本特征，f_s为训练共享特征，f_afuse为第一训练融合特征。

S106，采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合，获得第二训练融合特征。

采用TFN融合方法融合文本特征和情感特征，即使用向量的笛卡尔积融合情感特征、文本特征以及共享参数网络输出的共享特征，采用公式(11)完成，

其中，

为训练情感特征，f_T为训练文本特征，f_s为训练共享特征，f_efuse为第二训练融合特征。

S107，根据所述第一训练融合特征和所述第二训练融合特征，采用交叉熵损失函数确定训练美感损失以及训练情感分布损失。

根据交叉熵损失函数，计算第一训练融合特征导致的损失，具体计算公式如下：

其中，L_afuse表示训练美感损失，y_afuse表示美感特征参考标签，

表示美感特征的预测标签。

根据交叉熵损失函数，计算第二训练融合特征导致的损失，具体计算公式如下：

其中，L_efuse表示训练情感分布损失，y_efuse表示图像情感参考标签，

表示图像情感特征的预测标签。

S108，根据所述训练文本特征，采用交叉熵损失函数确定训练文本损失。

具体的，根据图像的情感标签计算LSTM循环神经网络的损失，实现LSTM网络的训练，LSTM网络的文本损失使用交叉熵损失函数来计算，如公式(14)所示：

其中，L_T表示文本损失，Ti表示文本情感的类别，有八个取值，分别表示8个情感类别，y_Ti表示文本情感参考标签，

表示文本情感的预测标签值。

S109，根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失。

设置参数γ，θ和δ控制三种损失所占的比重。在实验中，利用网格法(即以0.1为步长，从0开始分别遍历参数γ，θ和δ，保持各个参数总和等于1，分别尝试γ，θ和δ不同值的组合，选取最优条件)设置参数γ，θ和δ，通常选取γ＝0.4，θ＝0.5和δ＝0.1作为最优组合值。具体计算公式如下：

L_all＝γL_afuse+θL_efuse+δL_T (15)

其中，L_all为训练样本数据的总损失，L_afuse为训练美感损失，L_efuse为训练情感分布损失，L_T为训练文本损失，γ为训练美感损失权重，θ为训练情感分布损失权重，δ为训练文本损失权重。

S110，根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数，并分别调节卷积神经网络和循环神经网络中的参数。

具体的，参数α_p、α_s、β_p、β_s设定初始值分别为α_p＝β_p＝0.9，α_s＝β_s＝0.1，并根据总损失通过反向传播实现更新，反向传播计算过程如公式(16)和公式(17)所示：

所述的卷积神经网络为ResNet-50，由于在ResNet-50网络结构中，存在短路(Shortcut)结构，，因此，卷积神经网络的反向传播如公式(18)所示：

其中，x_l和x_L分别表示非短路结构的输出和短路结构的输出，w_i和b_i表示反向传播过程中第i个神经元的权值矩阵和偏置，

表示该神经元的激活函数，此处为Relu函数。

在循环神经网络LSTM中，将LSTM的隐层状态视作文本特征，隐层状态的反向传播过程如下：假设当前时刻为τ，可以将当前时刻的隐层状态表示为H(τ)＝{h(τ)₁,h(τ)₂,...,h(τ)_l}，其中h(τ)_l的下标表示LSTM中具有l个隐藏层单元。损失计算可以分为两部分，即当前时刻的损失和当前时刻之后时刻的总损失，分别用l(τ)和L(τ+1)表示，则当前时刻隐层状态H(τ)的反向传播计算公式如公式(19)所示：

S111，判断迭代次数是否小于预设迭代次数，获得判断结果。

若所述判断结果表示所述迭代次数小于预设迭代次数，返回S103。具体的，根据重新确定的预设共享参数、卷积神经网络和循环神经网络的参数，对卷积神经网络进行训练直到达到迭代次数。

S112，若所述判断结果表示所述迭代次数大于或等于预设迭代次数，将所述训练过的卷积神经网络确定为训练好的卷积神经网络，将所述训练过的循环神经网络确定为训练好的循环神经网络。

S113，获取待识别数据；所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据。

S114，将所述待识别文本数据输入所述训练好的循环神经网络，获得待识别文本特征。

具体的，使用训练好的LSTM网络结构提取待识别文本特征，将文本数据经过训练好的LSTM网络得到的隐层输出H(τ)＝{h(τ)₁,h(τ)₂,...,h(τ)_l}，其中h(τ)_l的下标表示LSTM网络隐藏层单元数量。设置LSTM网络的神经元为512个，将隐藏层输出作为文本的特征。提取特征过程具体表示如下：

输入的文本数据可以表示为T＝{T₁,T₂,...,T_i,...,T_n}，其中，i表示文本数据的第i个样本，利用jieba分词工具进行分词，根据预设的文本最大词长度来调整每个样本的词语长度后，可以将第i个文本T_i表示为T_i＝{w₁,w₂,…,w_m,…,w_L}，其中，w_m表示文本的第m个词语，L为预先设定的文本最大词语长度。使用词嵌入模型对文本T_i进行词嵌入后，第i个文本的词嵌入矩阵可以表示为

其中，v_m表示第m个词语的词嵌入向量，L为预先设定的文本最大词语长度，E表示词嵌入的维度，词嵌入维度为400，之后利用LSTM网络进行特征表示，将每个文本的特征表示为H(τ)＝{h(τ)₁,h(τ)₂,...,h(τ)_l}，即所需的文本特征，其中，l表示LSTM网络的隐藏层单元数量，也就是512。

S115，将所述待识别图像输入所述训练好的卷积神经网络，获得待识别美感特征、待识别情感特征以及待识别共享特征。

S116，采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合，获得第一待识别融合特征。

S117，采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合，获得第二待识别融合特征。

S118，将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中，确定待识别数据的情感；所述情感包括8个情感类别，分别为：愉悦(amusement)，敬畏(awe)，满足(contentment)，激动(excitement)，愤怒(anger)，厌恶(disgust)，恐惧(fear)，悲伤(sadness)。

具体的，所述判别器为SVM分类器。

本发明还提供了一种基于多模态数据的图像情感识别系统，如图3所示，所述图像情感识别系统包括：

训练样本数据获取模块1，用于获取训练样本数据；所述训练样本数据包括训练图像数据以及训练文本数据。

预设共享参数获取模块2，用于获取预设共享参数。

卷积神经网络训练模块3，用于根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征。

循环神经网络训练模块4，用于根据所述训练文本数据对循环神经网络进行训练，获得训练过的循环神经网络和训练文本特征。

第一训练融合特征获得模块5，用于采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合，获得第一训练融合特征。

第二训练融合特征获得模块6，用于采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合，获得第二训练融合特征。

训练美感损失以及训练情感分布损失确定模块7，用于根据所述第一训练融合特征和所述第二训练融合特征，采用交叉熵损失函数确定训练美感损失以及训练情感分布损失。

训练文本损失确定模块8，用于根据所述训练文本特征，采用交叉熵损失函数确定训练文本损失。

训练样本数据的总损失确定模块9，用于根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失。

参数确定模块10，用于根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数，并分别调节卷积神经网络和循环神经网络中的参数；

判断模块11，用于判断迭代次数是否小于预设迭代次数，获得判断结果。

返回模块12，用于若所述判断结果表示所述迭代次数小于预设迭代次数，返回所述卷积神经网络训练模块3。

网络确定模块13，用于若所述判断结果表示所述迭代次数大于或等于预设迭代次数，将所述训练过的卷积神经网络确定为训练好的卷积神经网络，将所述训练过的循环神经网络确定为训练好的循环神经网络。

待识别数据获取模块14，用于获取待识别数据；所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据。

待识别文本特征获得模块15，用于将所述待识别文本数据输入所述训练好的循环神经网络，获得待识别文本特征。

待识别美感特征、待识别情感特征以及待识别共享特征获得模块16，用于将所述待识别图像输入所述训练好的卷积神经网络，获得待识别美感特征、待识别情感特征以及待识别共享特征。

第一待识别融合特征获得模块17，用于采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合，获得第一待识别融合特征。

第二待识别融合特征获得模块18，用于采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合，获得第二待识别融合特征。

待识别数据情感确定模块19，用于将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中，确定待识别数据的情感；所述情感包括：愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。

优选的，所述循环神经网络训练模块4具体包括：

训练文本数据分割单元，用于将所述训练文本数据分为第一训练文本数据和第二训练文本数据。

第一训练文本数据词库获得单元，用于采用Python中的jieba分词库对所述第一训练文本数据进行分词，得到第一训练文本数据的词库。

情感词嵌入模型构建单元，用于根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练，构建情感词嵌入模型。

第二训练文本数据特征词获得单元，用于采用Python中的jieba分词库对所述第二训练文本数据进行分词，得到第二训练文本数据的特征词。

训练词嵌入矩阵确定单元，用于根据所述第二训练文本数据的特征词，调用所述情感词嵌入模型确定训练词嵌入矩阵。

训练过的循环神经网络获得单元，用于根据所述训练词嵌入矩阵对循环神经网络进行训练，获得训练过的循环神经网络，其中，所述训练过的循环神经网络中输出的隐层状态为训练文本特征。

优选的，所述卷积神经网络训练模块3具体包括：

原始卷积神经网络获取单元，用于获取原始卷积神经网络。

训练图像数据分割单元，用于将所述训练图像数据分为第一训练图像数据和第二训练图像数据。

预训练的卷积神经网络获得单元，用于利用所述第一训练图像数据对原始卷积神经网络进行训练，获得预训练的卷积神经网络。

卷积神经网络训练单元，用于根据所述预设共享参数，利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征，其中，训练过程中，利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。

优选的，所述训练样本数据的总损失确定模块9具体包括：

本发明一种基于多模态数据的图像情感识别方法即系统，同时关注图像的美感和情感特征，同时，结合描述图像内容的相关文本的特征来进行最终的情感判别。其中，文本特征分别融合到图像的美感特征、分布式情感特征中，使用卷积神经网络(CNN)提取图像的特征图，采用循环神经网络(RNN)提取文本特征，采用张量融合网络(TFN)用于融合来自不同模态的特征，并采用交叉熵损失函数计算损失来调整卷积神经网络和循环神经网络的模型参数，并进行情感判别。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多模态数据的图像情感识别方法，其特征在于，所述图像情感识别方法包括：

获取预设共享参数；

根据所述训练文本数据对循环神经网络进行训练，获得训练过的循环神经网络和训练文本特征；

判断迭代次数是否小于预设迭代次数，获得判断结果；

2.根据权利要求1所述的基于多模态数据的图像情感识别方法，其特征在于，所述根据所述训练文本数据对循环神经网络进行训练，获得训练过的循环神经网络，具体包括：

3.根据权利要求1所述的基于多模态数据的图像情感识别方法，其特征在于，所述根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练，获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征，具体包括：

获取原始卷积神经网络；

4.根据权利要求1所述的基于多模态数据的图像情感识别方法，其特征在于，所述根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失，具体包括：

5.一种基于多模态数据的图像情感识别系统，其特征在于，所述图像情感识别系统包括：

预设共享参数获取模块，用于获取预设共享参数；

6.根据权利要求5所述的基于多模态数据的图像情感识别系统，其特征在于，所述循环神经网络训练模块具体包括：

7.根据权利要求5所述的基于多模态数据的图像情感识别系统，其特征在于，所述卷积神经网络训练模块具体包括：

原始卷积神经网络获取单元，用于获取原始卷积神经网络；

8.根据权利要求5所述的基于多模态数据的图像情感识别系统，其特征在于，所述训练样本数据的总损失确定模块具体包括：