CN111523574A - 一种基于多模态数据的图像情感识别方法及系统 - Google Patents
一种基于多模态数据的图像情感识别方法及系统 Download PDFInfo
- Publication number
- CN111523574A CN111523574A CN202010284300.2A CN202010284300A CN111523574A CN 111523574 A CN111523574 A CN 111523574A CN 202010284300 A CN202010284300 A CN 202010284300A CN 111523574 A CN111523574 A CN 111523574A
- Authority
- CN
- China
- Prior art keywords
- training
- neural network
- feature
- recognized
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 510
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 115
- 230000008451 emotion Effects 0.000 claims abstract description 87
- 238000013528 artificial neural network Methods 0.000 claims abstract description 78
- 230000002996 emotional effect Effects 0.000 claims abstract description 68
- 230000004927 fusion Effects 0.000 claims abstract description 57
- 230000000306 recurrent effect Effects 0.000 claims abstract description 41
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 22
- 210000002569 neuron Anatomy 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000004913 activation Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多模态数据的图像情感识别方法及系统,包括:获取训练样本数据;根据训练样本数据得训练好的循环神经网络以及训练好的卷积神经网络;获取待识别数据;将待识别文本数据输入训练好的循环神经网络,得文本特征;将待识别图像输入训练好的卷积神经网络,得美感特征、情感特征以及共享特征;采用TFN方法对美感特征、共享特征和文本特征进行融合,得第一待识别融合特征;采用TFN方法对情感特征、图像特征和文本特征进行融合,得第二待识别融合特征;根据待识别融合特征确定待识别数据的情感。通过本发明的上述方法提高了情感识别的准确性。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于多模态数据的图像情感识别方法及系统。
背景技术
对于多媒体数据的情感分析一直以来都是一项具有挑战性的任务,国内外已经有许多学者、企业展开了对各个模态数据情感分析的研究。但较长时间来,研究人员主要关注单个模态的情感分析算法,而较少关注多种模态数据的联合分析。
传统的情感分析方法提取图片的纹理、聚类各种颜色,构建颜色、形状、纹理和情感之间的相关性。然而,一幅图像的情感受到多方面的影响,传统的情感分析方法考虑的因素不够全面和准确,导致情感识别的准确性不佳。
发明内容
基于此,本发明的目的是提供一种基于多模态数据的图像情感识别方法及系统,通过结合图像数据以及对图像数据进行描述的文本数据对图像的情感进行识别,提高情感识别的准确性。
为实现上述目的,本发明提供了如下方案:
一种基于多模态数据的图像情感识别方法,所述图像情感识别方法包括:
获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据;
获取预设共享参数;
根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;
根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征。
采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征;
采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征;
根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失;
根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失;
根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失;
根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数;
判断迭代次数是否小于预设迭代次数,获得判断结果;
若所述判断结果表示所述迭代次数小于预设迭代次数,返回“根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征”步骤;
若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络;
获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据;
将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征;
将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征;
采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征;
采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征;
将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括:愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。
可选的,所述根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络,具体包括:
将所述训练文本数据分为第一训练文本数据和第二训练文本数据;
采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库;
根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型;
采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词;
根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵;
根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络;其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
可选的,所述根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征,具体包括:
获取原始卷积神经网络;
将所述训练图像数据分为第一训练图像数据和第二训练图像数据;
利用所述第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络;
根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;其中,训练过程中,利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。
可选的,所述根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失,具体包括:
根据公式Lall=γLafuse+θLefuse+δLT确定训练样本数据的总损失;其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
一种基于多模态数据的图像情感识别系统,所述图像情感识别系统包括:
训练样本数据获取模块,用于获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据;
预设共享参数获取模块,用于获取预设共享参数;
卷积神经网络训练模块,用于根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;
循环神经网络训练模块,用于根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征;
第一训练融合特征获得模块,用于采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征;
第二训练融合特征获得模块,用于采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征;
训练美感损失以及训练情感分布损失确定模块,用于根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失;
训练文本损失确定模块,用于根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失;
训练样本数据的总损失确定模块,用于根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失;
参数确定模块,用于根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数;
判断模块,用于判断迭代次数是否小于预设迭代次数,获得判断结果;
返回模块,用于若所述判断结果表示所述迭代次数小于预设迭代次数,返回所述卷积神经网络训练模块;
网络确定模块,用于若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络;
待识别数据获取模块,用于获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据;
待识别文本特征获得模块,用于将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征;
待识别美感特征、待识别情感特征以及待识别共享特征获得模块,用于将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征;
第一待识别融合特征获得模块,用于采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征;
第二待识别融合特征获得模块,用于采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征;
待识别数据情感确定模块,用于将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括:愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。
可选的,所述循环神经网络训练模块具体包括:
训练文本数据分割单元,用于将所述训练文本数据分为第一训练文本数据和第二训练文本数据;
第一训练文本数据词库获得单元,用于采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库;
情感词嵌入模型构建单元,用于根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型;
第二训练文本数据特征词获得单元,用于采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词;
训练词嵌入矩阵确定单元,用于根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵;
训练过的循环神经网络获得单元,用于根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络;其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
可选的,所述卷积神经网络训练模块具体包括:
原始卷积神经网络获取单元,用于获取原始卷积神经网络;
训练图像数据分割单元,用于将所述训练图像数据分为第一训练图像数据和第二训练图像数据;
预训练的卷积神经网络获得单元,用于利用所述第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络;
卷积神经网络训练单元,用于根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;其中,训练过程中,利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。
可选的,所述训练样本数据的总损失确定模块具体包括:
训练样本数据的总损失确定单元,用于根据公式Lall=γLafuse+θLefuse+δLT确定训练样本数据的总损失;其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种基于多模态数据的图像情感识别方法及系统,采用循环神经网络对文本数据进行特征提取获得文本特征,根据文本特征计算文本损失;采用卷积神经网络对图像数据进行特征提取获得美感特征、情感特征以及共享特征,并采用TFN方法对提取后的特征进行融合,根据融合后的特征采用交叉熵损失函数确定美感损失以及情感分布损失。根据美感损失、情感分布损失以及文本损失确定总损失,用于更新网络参数,最终利用判别器对图像情感进行识别。本发明在分析图像情感时,增加文本特征、美感特征、情感特征以及共享特征进行多模态数据的联合情感分析,能够全面、准确地用数据来概括情感,并最终进行较为准确的情感判别,提高情感识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种基于多模态数据的图像情感识别方法的流程图;
图2为本发明实施例所提供的训练好的卷积神经网络结构图;
图3为本发明实施例所提供的一种基于多模态数据的图像情感识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于多模态数据的图像情感识别方法及系统,通过结合图像数据以及对图像数据进行描述的文本数据对图像的情感进行识别,提高情感识别的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例所提供的一种基于多模态数据的图像情感识别方法的流程图,如图1所示,本发明所述图像情感识别方法包括:
S101,获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据。
S102,获取预设共享参数,所述预设共享参数包括αp,αs,βp,βs。
S103,根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征,具体包括:
301,获取原始卷积神经网络。
302,将所述训练图像数据分为第一训练图像数据和第二训练图像数据。
具体的,第一训练图像数据包括ImageNet的图像数据、AVA美感评价数据及DeepEmotion情感识别数据,第二训练图像数据包括Flickr_LDL多分类情感数据图像。
303,利用第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络。
304,根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;其中,训练过程中,利用预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。
具体的,将卷积神经网络的训练分为三个支路:上支路为图像美感支路,下支路为图像情感支路,中间支路为共享参数网络支路,如图2所示。
上支路:利用第一训练图像数据中的AVA美感评价数据对原始卷积神经网络进行训练,获得上支路预训练的卷积神经网络,再利用第二训练图像数据进行二次训练,在二次训练过程中利用第二训练图像数据的美感标签控制上支路卷积神经网络损失函数,获取训练过的美感卷积神经网络,将该网络最后一个卷积块的输出视为图像美感特征。
上支路的损失函数表示如下:
其中,eai表示卷积网络神经元的中间输出,xa表示前一层神经元的输出,Wa和ba表示网络中神经元的权值矩阵和偏置,可以在迭代中更新,表示该神经元的激活函数,用于计算神经元的输出,在卷积神经网络模型中选用Relu函数作为激活函数。
下支路:利用第一训练图像数据中的Deep Emotion数据集对原始卷积神经网络进行训练,获得下支路预训练的卷积神经网络,再利用第二训练图像数据进行二次训练,在二次训练过程中利用第二训练图像数据的情感标签控制卷积神经网络损失函数,获取情感卷积神经网络,将该网络最后一个卷积块的输出视为图像情感特征。在上述训练过程中,需要修改卷积神经网络,将最后一个全连接层的输出改为8个,分别表示图像情感的8个情感分类。
图像的8情感标签可以表示为P={P1,P2,...,P7,P8},网络最后的输出为和P结构相似的概率分布,通过计算标签损失来调整网络参数,优化网络模型。
具体的,下支路的损失函数如下所示:
中间支路:利用第一训练图像数据中的ImageNet数据对原始卷积神经网络进行训练,获得中间支路预训练的卷积神经网络,该支路不使用特定的标签来计算损失和更新参数,而是将该支路的输出和上支路、下支路融合后再计算损失。即增加共享参数,利用预设共享参数对上支路的中间输出和下支路的中间输出作线性变换,并在网络迭代的过程中,将线性变换计算得出的特征结果传输到下一层实现卷积神经网络的前向传播,使用参数αp,αs控制共享参数网络及图像美感支路的输出特征,并使用βp,βs控制共享参数网络及图像情感支路的输出特征。计算方法如下:
其中,表示共享参数网络和上支路中间输出结合后向前传播的中间输出,fs(x,y)表示共享参数网络向前传播的中间输出,表示共享参数网络和下支路中间输出结合后的中间输出,αp,αs分别表示共享参数网络中间输出和上支路中间输出的结合系数,βp,βs分别表示共享参数网络中间输出和下支路中间输出的结合系数,fa(x,y)表示图像美感支路的中间输出,fe(x,y)表示图像情感支路的中间输出。
S104,根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征,具体包括:
401,将所述训练文本数据分为第一训练文本数据和第二训练文本数据。
所述第一训练文本数据包括维基百科语料库以及一部分第二训练图像数据所对应的训练文本数据。
所述第二训练文本数据包括另一部分训练图像数据所对应的训练文本数据。
402,采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库。
403,根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型,也就是构建词嵌入向量库。
情感词嵌入模型的思想是根据文本语句中某个词的相邻n个词汇,判断该词位置上某个词语出现的概率,其中,n是GloVe模型的窗口大小,可以提前设置该参数,GloVe模型是基于语料库构建词语的共现矩阵,再基于共现矩阵和GloVe模型学习词向量。
在GloVe模型训练过程中,共现矩阵用X表示,则矩阵X中的元素表示为Xi,j,Xi,j表示整个语料库中,单词i和单词j共同出现在一个窗口中的次数,模型的代价函数如公式(1)所示:
其中,vi和vj表示单词i和单词j的词向量,bi和bj表示偏置,N表示词汇表大小,f(·)是权重函数,在GloVe模型中可以表示为公式(9):
404,采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词。
405,根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵。
具体的,每个文本句子的长度不同,因此,在训练词嵌入矩阵表示前还要设定文本语句中词语的最大长度,对于词语数量不足的,则采取补0向量的方式来填充,对于词语过多的,则直接截取。
406,根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络;其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
S105,采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征。
采用TFN(tensorfusionnetwork)融合方法融合文本特征和美感特征,即使用向量的笛卡尔积融合美感特征、文本特征、共享参数网络输出的共享特征,采用公式(10)完成,
S106,采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征。
采用TFN融合方法融合文本特征和情感特征,即使用向量的笛卡尔积融合情感特征、文本特征以及共享参数网络输出的共享特征,采用公式(11)完成,
S107,根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失。
根据交叉熵损失函数,计算第一训练融合特征导致的损失,具体计算公式如下:
根据交叉熵损失函数,计算第二训练融合特征导致的损失,具体计算公式如下:
S108,根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失。
具体的,根据图像的情感标签计算LSTM循环神经网络的损失,实现LSTM网络的训练,LSTM网络的文本损失使用交叉熵损失函数来计算,如公式(14)所示:
S109,根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失。
设置参数γ,θ和δ控制三种损失所占的比重。在实验中,利用网格法(即以0.1为步长,从0开始分别遍历参数γ,θ和δ,保持各个参数总和等于1,分别尝试γ,θ和δ不同值的组合,选取最优条件)设置参数γ,θ和δ,通常选取γ=0.4,θ=0.5和δ=0.1作为最优组合值。具体计算公式如下:
Lall=γLafuse+θLefuse+δLT (15)
其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
S110,根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数。
具体的,参数αp、αs、βp、βs设定初始值分别为αp=βp=0.9,αs=βs=0.1,并根据总损失通过反向传播实现更新,反向传播计算过程如公式(16)和公式(17)所示:
所述的卷积神经网络为ResNet-50,由于在ResNet-50网络结构中,存在短路(Shortcut)结构,,因此,卷积神经网络的反向传播如公式(18)所示:
在循环神经网络LSTM中,将LSTM的隐层状态视作文本特征,隐层状态的反向传播过程如下:假设当前时刻为τ,可以将当前时刻的隐层状态表示为H(τ)={h(τ)1,h(τ)2,...,h(τ)l},其中h(τ)l的下标表示LSTM中具有l个隐藏层单元。损失计算可以分为两部分,即当前时刻的损失和当前时刻之后时刻的总损失,分别用l(τ)和L(τ+1)表示,则当前时刻隐层状态H(τ)的反向传播计算公式如公式(19)所示:
S111,判断迭代次数是否小于预设迭代次数,获得判断结果。
若所述判断结果表示所述迭代次数小于预设迭代次数,返回S103。具体的,根据重新确定的预设共享参数、卷积神经网络和循环神经网络的参数,对卷积神经网络进行训练直到达到迭代次数。
S112,若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络。
S113,获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据。
S114,将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征。
具体的,使用训练好的LSTM网络结构提取待识别文本特征,将文本数据经过训练好的LSTM网络得到的隐层输出H(τ)={h(τ)1,h(τ)2,...,h(τ)l},其中h(τ)l的下标表示LSTM网络隐藏层单元数量。设置LSTM网络的神经元为512个,将隐藏层输出作为文本的特征。提取特征过程具体表示如下:
输入的文本数据可以表示为T={T1,T2,...,Ti,...,Tn},其中,i表示文本数据的第i个样本,利用jieba分词工具进行分词,根据预设的文本最大词长度来调整每个样本的词语长度后,可以将第i个文本Ti表示为Ti={w1,w2,…,wm,…,wL},其中,wm表示文本的第m个词语,L为预先设定的文本最大词语长度。使用词嵌入模型对文本Ti进行词嵌入后,第i个文本的词嵌入矩阵可以表示为其中,vm表示第m个词语的词嵌入向量,L为预先设定的文本最大词语长度,E表示词嵌入的维度,词嵌入维度为400,之后利用LSTM网络进行特征表示,将每个文本的特征表示为H(τ)={h(τ)1,h(τ)2,...,h(τ)l},即所需的文本特征,其中,l表示LSTM网络的隐藏层单元数量,也就是512。
S115,将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征。
S116,采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征。
S117,采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征。
S118,将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括8个情感类别,分别为:愉悦(amusement),敬畏(awe),满足(contentment),激动(excitement),愤怒(anger),厌恶(disgust),恐惧(fear),悲伤(sadness)。
具体的,所述判别器为SVM分类器。
本发明还提供了一种基于多模态数据的图像情感识别系统,如图3所示,所述图像情感识别系统包括:
训练样本数据获取模块1,用于获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据。
预设共享参数获取模块2,用于获取预设共享参数。
卷积神经网络训练模块3,用于根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征。
循环神经网络训练模块4,用于根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征。
第一训练融合特征获得模块5,用于采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征。
第二训练融合特征获得模块6,用于采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征。
训练美感损失以及训练情感分布损失确定模块7,用于根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失。
训练文本损失确定模块8,用于根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失。
训练样本数据的总损失确定模块9,用于根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失。
参数确定模块10,用于根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数;
判断模块11,用于判断迭代次数是否小于预设迭代次数,获得判断结果。
返回模块12,用于若所述判断结果表示所述迭代次数小于预设迭代次数,返回所述卷积神经网络训练模块3。
网络确定模块13,用于若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络。
待识别数据获取模块14,用于获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据。
待识别文本特征获得模块15,用于将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征。
待识别美感特征、待识别情感特征以及待识别共享特征获得模块16,用于将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征。
第一待识别融合特征获得模块17,用于采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征。
第二待识别融合特征获得模块18,用于采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征。
待识别数据情感确定模块19,用于将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括:愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。
优选的,所述循环神经网络训练模块4具体包括:
训练文本数据分割单元,用于将所述训练文本数据分为第一训练文本数据和第二训练文本数据。
第一训练文本数据词库获得单元,用于采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库。
情感词嵌入模型构建单元,用于根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型。
第二训练文本数据特征词获得单元,用于采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词。
训练词嵌入矩阵确定单元,用于根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵。
训练过的循环神经网络获得单元,用于根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络,其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
优选的,所述卷积神经网络训练模块3具体包括:
原始卷积神经网络获取单元,用于获取原始卷积神经网络。
训练图像数据分割单元,用于将所述训练图像数据分为第一训练图像数据和第二训练图像数据。
预训练的卷积神经网络获得单元,用于利用所述第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络。
卷积神经网络训练单元,用于根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征,其中,训练过程中,利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。
优选的,所述训练样本数据的总损失确定模块9具体包括:
训练样本数据的总损失确定单元,用于根据公式Lall=γLafuse+θLefuse+δLT确定训练样本数据的总损失;其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
本发明一种基于多模态数据的图像情感识别方法即系统,同时关注图像的美感和情感特征,同时,结合描述图像内容的相关文本的特征来进行最终的情感判别。其中,文本特征分别融合到图像的美感特征、分布式情感特征中,使用卷积神经网络(CNN)提取图像的特征图,采用循环神经网络(RNN)提取文本特征,采用张量融合网络(TFN)用于融合来自不同模态的特征,并采用交叉熵损失函数计算损失来调整卷积神经网络和循环神经网络的模型参数,并进行情感判别。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于多模态数据的图像情感识别方法,其特征在于,所述图像情感识别方法包括:
获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据;
获取预设共享参数;
根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;
根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征;
采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征;
采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征;
根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失;
根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失;
根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失;
根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数;
判断迭代次数是否小于预设迭代次数,获得判断结果;
若所述判断结果表示所述迭代次数小于预设迭代次数,返回“根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征”步骤;
若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络;
获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据;
将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征;
将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征;
采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征;
采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征;
将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括:愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。
2.根据权利要求1所述的基于多模态数据的图像情感识别方法,其特征在于,所述根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络,具体包括:
将所述训练文本数据分为第一训练文本数据和第二训练文本数据;
采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库;
根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型;
采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词;
根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵;
根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络;其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
3.根据权利要求1所述的基于多模态数据的图像情感识别方法,其特征在于,所述根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征,具体包括:
获取原始卷积神经网络;
将所述训练图像数据分为第一训练图像数据和第二训练图像数据;
利用所述第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络;
根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;其中,训练过程中,利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。
4.根据权利要求1所述的基于多模态数据的图像情感识别方法,其特征在于,所述根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失,具体包括:
根据公式Lall=γLafuse+θLefuse+δLT确定训练样本数据的总损失;其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
5.一种基于多模态数据的图像情感识别系统,其特征在于,所述图像情感识别系统包括:
训练样本数据获取模块,用于获取训练样本数据;所述训练样本数据包括训练图像数据以及训练文本数据;
预设共享参数获取模块,用于获取预设共享参数;
卷积神经网络训练模块,用于根据所述预设共享参数以及所述训练图像数据对卷积神经网络进行训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;
循环神经网络训练模块,用于根据所述训练文本数据对循环神经网络进行训练,获得训练过的循环神经网络和训练文本特征;
第一训练融合特征获得模块,用于采用TFN方法对所述训练美感特征、所述训练共享特征和所述训练文本特征进行融合,获得第一训练融合特征;
第二训练融合特征获得模块,用于采用TFN方法对所述训练情感特征、所述训练共享特征和所述训练文本特征进行融合,获得第二训练融合特征;
训练美感损失以及训练情感分布损失确定模块,用于根据所述第一训练融合特征和所述第二训练融合特征,采用交叉熵损失函数确定训练美感损失以及训练情感分布损失;
训练文本损失确定模块,用于根据所述训练文本特征,采用交叉熵损失函数确定训练文本损失;
训练样本数据的总损失确定模块,用于根据所述训练美感损失、所述训练情感分布损失以及所述训练文本损失确定所述训练样本数据的总损失;
参数确定模块,用于根据所述训练样本数据的总损失采用反向传播方法重新确定所述预设共享参数,并分别调节卷积神经网络和循环神经网络中的参数;
判断模块,用于判断迭代次数是否小于预设迭代次数,获得判断结果;
返回模块,用于若所述判断结果表示所述迭代次数小于预设迭代次数,返回所述卷积神经网络训练模块;
网络确定模块,用于若所述判断结果表示所述迭代次数大于或等于预设迭代次数,将所述训练过的卷积神经网络确定为训练好的卷积神经网络,将所述训练过的循环神经网络确定为训练好的循环神经网络;
待识别数据获取模块,用于获取待识别数据;所述待识别数据包括待识别图像以及所述待识别图像对应的待识别文本数据;
待识别文本特征获得模块,用于将所述待识别文本数据输入所述训练好的循环神经网络,获得待识别文本特征;
待识别美感特征、待识别情感特征以及待识别共享特征获得模块,用于将所述待识别图像输入所述训练好的卷积神经网络,获得待识别美感特征、待识别情感特征以及待识别共享特征;
第一待识别融合特征获得模块,用于采用TFN方法对所述待识别美感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第一待识别融合特征;
第二待识别融合特征获得模块,用于采用TFN方法对所述待识别情感特征、所述待识别共享特征和所述待识别文本特征进行融合,获得第二待识别融合特征;
待识别数据情感确定模块,用于将所述第一待识别融合特征和所述第二待识别融合特征输入判别器中,确定待识别数据的情感;所述情感包括:愉悦、敬畏、满足、激动、愤怒、厌恶、恐惧和悲伤。
6.根据权利要求5所述的基于多模态数据的图像情感识别系统,其特征在于,所述循环神经网络训练模块具体包括:
训练文本数据分割单元,用于将所述训练文本数据分为第一训练文本数据和第二训练文本数据;
第一训练文本数据词库获得单元,用于采用Python中的jieba分词库对所述第一训练文本数据进行分词,得到第一训练文本数据的词库;
情感词嵌入模型构建单元,用于根据所述第一训练文本数据的词库对词嵌入GloVe模型进行训练,构建情感词嵌入模型;
第二训练文本数据特征词获得单元,用于采用Python中的jieba分词库对所述第二训练文本数据进行分词,得到第二训练文本数据的特征词;
训练词嵌入矩阵确定单元,用于根据所述第二训练文本数据的特征词,调用所述情感词嵌入模型确定训练词嵌入矩阵;
训练过的循环神经网络获得单元,用于根据所述训练词嵌入矩阵对循环神经网络进行训练,获得训练过的循环神经网络;其中,所述训练过的循环神经网络中输出的隐层状态为训练文本特征。
7.根据权利要求5所述的基于多模态数据的图像情感识别系统,其特征在于,所述卷积神经网络训练模块具体包括:
原始卷积神经网络获取单元,用于获取原始卷积神经网络;
训练图像数据分割单元,用于将所述训练图像数据分为第一训练图像数据和第二训练图像数据;
预训练的卷积神经网络获得单元,用于利用所述第一训练图像数据对原始卷积神经网络进行训练,获得预训练的卷积神经网络;
卷积神经网络训练单元,用于根据所述预设共享参数,利用所述第二训练图像数据对所述预训练的卷积神经网络进行二次训练,获得训练过的卷积神经网络、训练美感特征、训练情感特征以及训练共享特征;其中,训练过程中,利用所述预设共享参数来使所述训练美感特征和所述训练情感特征进行协同训练。
8.根据权利要求5所述的基于多模态数据的图像情感识别系统,其特征在于,所述训练样本数据的总损失确定模块具体包括:
训练样本数据的总损失确定单元,用于根据公式Lall=γLafuse+θLefuse+δLT确定训练样本数据的总损失;其中,Lall为训练样本数据的总损失,Lafuse为训练美感损失,Lefuse为训练情感分布损失,LT为训练文本损失,γ为训练美感损失权重,θ为训练情感分布损失权重,δ为训练文本损失权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010284300.2A CN111523574B (zh) | 2020-04-13 | 2020-04-13 | 一种基于多模态数据的图像情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010284300.2A CN111523574B (zh) | 2020-04-13 | 2020-04-13 | 一种基于多模态数据的图像情感识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523574A true CN111523574A (zh) | 2020-08-11 |
CN111523574B CN111523574B (zh) | 2022-09-06 |
Family
ID=71902750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010284300.2A Active CN111523574B (zh) | 2020-04-13 | 2020-04-13 | 一种基于多模态数据的图像情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523574B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784801A (zh) * | 2021-02-03 | 2021-05-11 | 紫东信息科技(苏州)有限公司 | 基于文本和图片的双模态胃部疾病分类方法及装置 |
CN113255819A (zh) * | 2021-06-11 | 2021-08-13 | 京东数科海益信息科技有限公司 | 用于识别信息的方法和装置 |
CN113344121A (zh) * | 2021-06-29 | 2021-09-03 | 北京百度网讯科技有限公司 | 训练招牌分类模型和招牌分类的方法 |
CN113392887A (zh) * | 2021-05-31 | 2021-09-14 | 北京达佳互联信息技术有限公司 | 图片识别方法、装置、电子设备及存储介质 |
CN113946683A (zh) * | 2021-09-07 | 2022-01-18 | 中国科学院信息工程研究所 | 一种知识融合的多模态虚假新闻识别方法及装置 |
WO2022183363A1 (zh) * | 2021-03-02 | 2022-09-09 | 深圳市锐明技术股份有限公司 | 一种模型的训练方法、装置、终端设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168968A (zh) * | 2016-03-07 | 2017-09-15 | 中国艺术科技研究所 | 面向情感的图像色彩提取方法及系统 |
CN108427740A (zh) * | 2018-03-02 | 2018-08-21 | 南开大学 | 一种基于深度度量学习的图像情感分类与检索算法 |
CN108985377A (zh) * | 2018-07-18 | 2018-12-11 | 太原理工大学 | 一种基于深层网络的多特征融合的图像高级语义识别方法 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
KR20190060630A (ko) * | 2017-11-24 | 2019-06-03 | 주식회사 제네시스랩 | 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 |
CN109978074A (zh) * | 2019-04-04 | 2019-07-05 | 山东财经大学 | 基于深度多任务学习的图像美感和情感联合分类方法及系统 |
-
2020
- 2020-04-13 CN CN202010284300.2A patent/CN111523574B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168968A (zh) * | 2016-03-07 | 2017-09-15 | 中国艺术科技研究所 | 面向情感的图像色彩提取方法及系统 |
KR20190060630A (ko) * | 2017-11-24 | 2019-06-03 | 주식회사 제네시스랩 | 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 |
CN108427740A (zh) * | 2018-03-02 | 2018-08-21 | 南开大学 | 一种基于深度度量学习的图像情感分类与检索算法 |
CN108985377A (zh) * | 2018-07-18 | 2018-12-11 | 太原理工大学 | 一种基于深层网络的多特征融合的图像高级语义识别方法 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN109978074A (zh) * | 2019-04-04 | 2019-07-05 | 山东财经大学 | 基于深度多任务学习的图像美感和情感联合分类方法及系统 |
Non-Patent Citations (3)
Title |
---|
MAN A 等: "Multi-Feature Fusion for Multimodal Attentive Sentiment Analysis", 《MMASIA "19: PROCEEDINGS OF THE ACM MULTIMEDIA ASIADECEMBER 2019 ARTICLE》 * |
李志义 等: "基于深度学习CNN模型的图像情感特征抽取研究", 《图书情报工作》 * |
汪珊娜: "基于卷积神经网络的织物美感分类与情感标注研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅰ辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784801A (zh) * | 2021-02-03 | 2021-05-11 | 紫东信息科技(苏州)有限公司 | 基于文本和图片的双模态胃部疾病分类方法及装置 |
WO2022183363A1 (zh) * | 2021-03-02 | 2022-09-09 | 深圳市锐明技术股份有限公司 | 一种模型的训练方法、装置、终端设备及存储介质 |
CN113392887A (zh) * | 2021-05-31 | 2021-09-14 | 北京达佳互联信息技术有限公司 | 图片识别方法、装置、电子设备及存储介质 |
CN113255819A (zh) * | 2021-06-11 | 2021-08-13 | 京东数科海益信息科技有限公司 | 用于识别信息的方法和装置 |
CN113255819B (zh) * | 2021-06-11 | 2024-04-19 | 京东科技信息技术有限公司 | 用于识别信息的方法和装置 |
CN113344121A (zh) * | 2021-06-29 | 2021-09-03 | 北京百度网讯科技有限公司 | 训练招牌分类模型和招牌分类的方法 |
CN113344121B (zh) * | 2021-06-29 | 2023-10-27 | 北京百度网讯科技有限公司 | 训练招牌分类模型和招牌分类的方法 |
CN113946683A (zh) * | 2021-09-07 | 2022-01-18 | 中国科学院信息工程研究所 | 一种知识融合的多模态虚假新闻识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111523574B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523574B (zh) | 一种基于多模态数据的图像情感识别方法及系统 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
Wu et al. | Are you talking to me? reasoned visual dialog generation through adversarial learning | |
CN113158875B (zh) | 基于多模态交互融合网络的图文情感分析方法及系统 | |
CN111881262B (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN108363690A (zh) | 基于神经网络的对话语义意图预测方法及学习训练方法 | |
CN110866542B (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN111275085A (zh) | 基于注意力融合的在线短视频多模态情感识别方法 | |
CN109241255A (zh) | 一种基于深度学习的意图识别方法 | |
Chen et al. | Adaptive feature selection-based AdaBoost-KNN with direct optimization for dynamic emotion recognition in human–robot interaction | |
CN110298043B (zh) | 一种车辆命名实体识别方法及系统 | |
CN110263257B (zh) | 基于深度学习处理多源异构数据的推荐方法 | |
CN108596329A (zh) | 基于端到端深度集成学习网络的三维模型分类方法 | |
CN112579778A (zh) | 基于多层次的特征注意力的方面级情感分类方法 | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及系统 | |
CN112732921B (zh) | 一种虚假用户评论检测方法及系统 | |
CN113435211B (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN114398976A (zh) | 基于bert与门控类注意力增强网络的机器阅读理解方法 | |
CN115601772A (zh) | 一种基于多模态学习的美学质量评价模型和方法 | |
CN111046178A (zh) | 一种文本序列生成方法及其系统 | |
CN114385802A (zh) | 一种融合主题预测和情感推理的共情对话生成方法 | |
CN113673535A (zh) | 一种多模态特征融合网络的图像描述生成方法 | |
CN113987167A (zh) | 基于依赖感知图卷积网络的方面级情感分类方法及系统 | |
CN111400525A (zh) | 基于视觉组合关系学习的时尚服装智能搭配与推荐方法 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |