CN110188791A - 基于自动估计的视觉情感标签分布预测方法 - Google Patents
基于自动估计的视觉情感标签分布预测方法 Download PDFInfo
- Publication number
- CN110188791A CN110188791A CN201910311129.7A CN201910311129A CN110188791A CN 110188791 A CN110188791 A CN 110188791A CN 201910311129 A CN201910311129 A CN 201910311129A CN 110188791 A CN110188791 A CN 110188791A
- Authority
- CN
- China
- Prior art keywords
- label
- distribution
- tag
- emotion
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于自动估计的视觉情感标签分布预测方法,属于计算机视觉技术领域。该方法通过标签分布学习解决了视觉情感中存在的模糊性的问题,同时,该方法提出了一个可以同时进行情感标签分类和标签分布预测的深度框架。除此之外,由于大部分视觉情感数据集只提供了单个类别标签,为了提高该框架的实用性,本发明利用一种弱先验知识即标签之间的相似性信息,根据情感类别生成对应的情感标签分布。在框架学习的过程中,对于分类任务,用Softmax函数进行约束,对于分布任务,用Kullback‑Leibler(KL)损失进行约束。将两个损失赋权值相加得到最后的损失函数,实现框架端到端的标签分布预测。
Description
技术领域
本发明属于计算机视觉技术领域,涉及一种可以同时解决视觉情感分类问 题和标签分布预测问题的深度卷积神经网络方法。
背景技术
视觉情感分类工作大致分为两类:基于维度的方法和基于分类的方法。基 于维度的方法在二维或三维空间上表示情感,而基于分类的方法则可以将情感 映射到独立的类别。2010年,Machajdik和Hanbury基于美学和心理学理论 在文献1中对视觉情感分析问题定义了一组低层特征,包括成分、颜色、纹理 等。Zhao等人于2014年在文献2中依据艺术原则引入了更加鲁棒且具有不变 性的视觉特征,但这些手工特征只对一些从特定范围内选择的小数据集比较有 效,比如抽象画和艺术图片。最近,以卷积神经网络为基础的方法在很多计算 机视觉任务上都取得了成功,Chen等人于2014年在文献3中构建了一种视觉情感概念的深度分类模型DeepSentiBank,为预测图片中的情感提供给了丰富的信 息。Campos等人于2015年在大规模数据集上训练模型,用于视觉情感预测的任 务。You等人于2015年在文献4中提出了一个利用渐进革新学习的策略训练卷 积神经网络,利用大量网络噪声数据提高有限规模的情感分类数据集上的结果。 2016年,Rao等人在文献5中,利用了同时提取低层图片特征和高层图片特征 的深度网络进行视觉情感分析。
标签分布学习是Geng等人于2016年在文献6中提出一种新颖的机器学习 算法去准确地表示每个标签的概率,该算法包括三个策略:(1)问题迁移;(2) 算法适应;(3)算法专门化。Zhao等人于2015年在文献7中利用基于低层特征 的共享稀疏学习模型预测情感图片的概率分布,取得了较好的效果。Peng等人 于2015年在文献8中用带有欧几里得损失的深度卷积神经网络为每一类标签训 练回归模型,最终实现标签分布学习。基于条件概率神经网络(CPNN),Yang 等人于2017年在文献9“Learning visual sentiment distributionvia augmented conditional probability neural network”提出了BCPNN和ACPNN 来预测情感分布。然而,基于CPNN的方法只被设计成一个三层的神经网络分类 器,输入的是现成的特征。这种方法是次优的,因为提取的特征没有考虑标签 之间的联系。最近,DLDL使用了深度学习的框架来学习连续标签的预测任务, 并且在文献10“Deep labeldistribution learning with label ambiguity” 中用深度标签分布学习来进行年龄和头部姿势预测。
上述领域的一些最新成果激发了我们的灵感,也为我们使用深度卷积神经 网络实现视觉情感分类和分布共同学习的方法提供了坚实的理论技术基础。
文献:
1、Affective image classification using features inspired bypsychology and art theory.In ACM MM,2010.
2、Exploring principles-of-art features for image emotion recognition.In ACM MM,2014.
3、Deepsentibank:Visual sentiment concept classification with deepconvolutional neural networks.arXiv preprint arXiv:1410.8586,2014.
4、Robust image sentiment analysis using progressively trained anddomain transferred deep networks.In AAAI,2015.
5、Learning multi-level deep representations for image emotionclassification.arXiv preprint arXiv:1611.07145,2016.
6、Label distribution learning.TKDE,28(7):1734–1748,2016.
7、Predicting discrete probability distribution of image emotions.InICIP,2015.
8、A mixed bag of emotions:Model,predict,and transfer emotiondistributions.In CVPR,2015.
9、Learning visual sentiment distribution via augmented conditionalprobability neural network.In AAAI,2017.
10、Deep label distribution learning with label ambiguity.IEEETransactions on Image Processing,26(6):2825–2838,2017.
发明内容
本发明需要解决的技术问题是视觉情感分析领域中存在的模糊性问题,并 使用标签分布的方式解决情感的模糊性,将情感图片标签分类任务和标签分布 预测任务结合到同一个网络架构中学习。除此之外,对于只含有单标签的训练 数据,提出了两种利用弱先验规则(推测规则、互斥规则)生成分布标签的方 法。
为了实现本发明的目的,我们依靠以下技术方案来实现:
a.将数据输入到多任务的深度卷积网络;
b.判断输入的数据是否有分布标签,若有,直接进入c步骤,否则依靠两 个弱先验知识和单标签信息为输入数据生成多标签分布;
c.使用Softmax损失函数处理网络最后一层连接层输出的向量,得到分 类任务的损失;
d.与c同时,使用KL损失函数处理网络最后一层连接层输出的向量,得到 分布任务的损失;
e.将Softmax损失和KL损失加权求和,得到最后的损失函数,通过最小 化最后的损失函数训练模型。
进一步的,本发明使用只提供单标签的图片训练时,提出了一种由单标签 生成多标签分布的方法,利用的两种弱先验规则分别为:
1)推测规则:两种情感之间的关系可以利用Mikel转轮进行度量,即离原 始标签较近的类别概率值较大,离原始标签远的类别概率值较小,从而能够得 出图片多标签分布的情况;
2)互斥规则:情感标签具有分层结构,可以分为积极情感和消极情感两大 类,其中积极情感包括愉悦、满足、敬畏、兴奋,消极情感包括伤心、生气、 恐惧、恶心,因此每张图片的标签分布都限制在一个大类中,而且多标签的概 率值和为1。
进一步的,本发明提出了一个端到端的多任务的卷积神经网络,将分类任 务的损失函数和分布任务的损失函数进行赋权值(权值利用消融实验进行选取) 相加,最小化最后的联合损失,在端到端的训练过程中情感标签分类和标签分 布任务能够相互促进。
本发明的有益效果为:本方法能够应用在多种卷积神经网络上,在选择不 同模型的情况下,只需要将网络的最后一层的输出个数设置为标签的类别数, 并根据模型的能力和特点设置模型的学习参数和数据处理批量的大小。该方法 可以对情感图片的标签分类和分布的任务同时进行端到端地训练和学习,解决 了视觉情感的模糊性问题。总的来说,本方法为视觉情感的标签分类任务和分 布任务提供了一个全新的解决方案,两个学习过程互相促进,得到了更好的模 型。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1为通过深度卷积神经网络共同学习视觉情感分类和分布的方法的流程 图。
图2为单标签转化为多标签的示意图。
具体实施方式
参照图1,表示通过深度卷积神经网络共同学习视觉情感分类和分布方法的 流程图,图中表示的步骤为:
a.对图片进行重置大小、数据增强等操作后送入模型,原始模型在大规模 数据集ImageNet上预训练。
b.对于单标签的训练数据,利用两种弱先验知识生成多标签的标签分布, 两种先验知识以及计算原则是:
(1)推测原则:两种情感之间的距离可以利用Mikel转轮进行度量,借助 高斯函数,计算相关类别的概率值,离原始标签较近的类别概率值较大,否则 较小,从而能够得出图片多标签分布的情况;
(2)互斥原则:情感标签具有分层结构,可以分为积极情感和消极情感两 大类,其中积极情感包括愉悦、满足、敬畏、兴奋,消极情感包括伤心、生气、 恐惧、恶心,因此每张图片的标签分布都限制在一个大类中,而且多标签的概 率值和为1。
以上两个原则分别靠公式(1)、(2)实现
首先,对于图片x,Yμ表示和原单标签μ属于的大类(积极情感或消极情感), 我们只在原单标签所属大类中考虑情感分布,另一大类的情感概率值均为0; σconf表示每种情绪影响的程度;ε确保将整体情绪以概率的形式考虑进去,设置 为0.1;因此,情感标签的分布可以被表示为i表示第i个情 感类别,C表示情感总类别数。
c.在训练过程中,利用a中模型最后一层全连接层的输出特征,计算Softmax 损失。
d.在训练过程中,利用a中模型最后一层全连接层的输出特征,计算KL损 失。
e.该步骤针对训练过程,将Softmax损失和KL损失加权求和,得到最后 的损失函数,通过最小化最后的损失函数端到端地训练模型。
图2展示了将单标签转化为多标签的示意图,其中(b)推测原则基于(a) Mikels转轮中情感之间的距离利用高斯概率分布函数计算多标签分布概率,(c) 互斥原则将多标签的情感都限制在一个大类(积极情感或消极情感)中。
Claims (3)
1.基于自动估计的视觉情感标签分布预测方法,其特征在于,该方法包含如下步骤:
a.将数据输入到多任务的深度卷积网络;
b.判断输入的数据是否有分布标签,若有,直接进入c步骤,否则依靠两个弱先验知识和单标签信息为输入数据生成多标签分布;
c.使用Softmax损失函数处理网络最后一层连接层输出的向量,得到分类任务的损失;
d.与c同时,使用KL损失函数处理网络最后一层连接层输出的向量,得到分布任务的损失;
e.将Softmax损失和KL损失加权求和,得到最后的损失函数,通过最小化最后的损失函数训练模型。
2.根据权利要求1所述的一种基于自动估计的视觉情感标签分布预测方法,其特征在于:使用只提供单标签的图片训练时,提出了一种由单标签生成多标签分布的方法,利用的两种弱先验规则分别为:
1)推测规则:两种情感之间的关系可以利用Mikel转轮进行度量,即离原始标签较近的类别概率值较大,离原始标签远的类别概率值较小,从而能够得出图片多标签分布的情况;
2)互斥规则:情感标签具有分层结构,可以分为积极情感和消极情感两大类,其中积极情感包括愉悦、满足、敬畏、兴奋,消极情感包括伤心、生气、恐惧、恶心,因此每张图片的标签分布都限制在一个大类中,而且多标签的概率值和为1。
3.根据权利要求1所述的一种基于自动估计的视觉情感标签分布预测方法,其特征在于:提出了一个端到端的多任务的卷积神经网络,将分类任务的损失函数和分布任务的损失函数进行赋权值相加,最小化最后的联合损失,在端到端的训练过程中情感标签分类和标签分布任务能够相互促进。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311129.7A CN110188791B (zh) | 2019-04-18 | 2019-04-18 | 基于自动估计的视觉情感标签分布预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311129.7A CN110188791B (zh) | 2019-04-18 | 2019-04-18 | 基于自动估计的视觉情感标签分布预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188791A true CN110188791A (zh) | 2019-08-30 |
CN110188791B CN110188791B (zh) | 2023-07-07 |
Family
ID=67714673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910311129.7A Active CN110188791B (zh) | 2019-04-18 | 2019-04-18 | 基于自动估计的视觉情感标签分布预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188791B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128284A (zh) * | 2019-12-31 | 2021-07-16 | 上海汽车集团股份有限公司 | 一种多模态情感识别方法和装置 |
CN113705206A (zh) * | 2021-08-13 | 2021-11-26 | 北京百度网讯科技有限公司 | 情感预测模型的训练方法、装置、设备及存储介质 |
CN114926655A (zh) * | 2022-05-20 | 2022-08-19 | 北京百度网讯科技有限公司 | 地理与视觉跨模态预训练模型的训练方法、位置确定方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341506A (zh) * | 2017-06-12 | 2017-11-10 | 华南理工大学 | 一种基于多方面深度学习表达的图像情感分类方法 |
US20170344880A1 (en) * | 2016-05-24 | 2017-11-30 | Cavium, Inc. | Systems and methods for vectorized fft for multi-dimensional convolution operations |
CN107463953A (zh) * | 2017-07-21 | 2017-12-12 | 上海交通大学 | 在标签含噪情况下基于质量嵌入的图像分类方法及系统 |
CN107679580A (zh) * | 2017-10-21 | 2018-02-09 | 桂林电子科技大学 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
CN108108849A (zh) * | 2017-12-31 | 2018-06-01 | 厦门大学 | 一种基于弱监督多模态深度学习的微博情感预测方法 |
CN108304856A (zh) * | 2017-12-13 | 2018-07-20 | 中国科学院自动化研究所 | 基于皮层丘脑计算模型的图像分类方法 |
CN108427740A (zh) * | 2018-03-02 | 2018-08-21 | 南开大学 | 一种基于深度度量学习的图像情感分类与检索算法 |
CN109086868A (zh) * | 2018-07-09 | 2018-12-25 | 南京邮电大学 | 一种抽象图像情感识别方法 |
CN109086811A (zh) * | 2018-07-19 | 2018-12-25 | 南京旷云科技有限公司 | 多标签图像分类方法、装置及电子设备 |
CN109308318A (zh) * | 2018-08-14 | 2019-02-05 | 深圳大学 | 跨领域文本情感分类模型的训练方法、装置、设备及介质 |
-
2019
- 2019-04-18 CN CN201910311129.7A patent/CN110188791B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170344880A1 (en) * | 2016-05-24 | 2017-11-30 | Cavium, Inc. | Systems and methods for vectorized fft for multi-dimensional convolution operations |
CN107341506A (zh) * | 2017-06-12 | 2017-11-10 | 华南理工大学 | 一种基于多方面深度学习表达的图像情感分类方法 |
CN107463953A (zh) * | 2017-07-21 | 2017-12-12 | 上海交通大学 | 在标签含噪情况下基于质量嵌入的图像分类方法及系统 |
CN107679580A (zh) * | 2017-10-21 | 2018-02-09 | 桂林电子科技大学 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
CN108304856A (zh) * | 2017-12-13 | 2018-07-20 | 中国科学院自动化研究所 | 基于皮层丘脑计算模型的图像分类方法 |
CN108108849A (zh) * | 2017-12-31 | 2018-06-01 | 厦门大学 | 一种基于弱监督多模态深度学习的微博情感预测方法 |
CN108427740A (zh) * | 2018-03-02 | 2018-08-21 | 南开大学 | 一种基于深度度量学习的图像情感分类与检索算法 |
CN109086868A (zh) * | 2018-07-09 | 2018-12-25 | 南京邮电大学 | 一种抽象图像情感识别方法 |
CN109086811A (zh) * | 2018-07-19 | 2018-12-25 | 南京旷云科技有限公司 | 多标签图像分类方法、装置及电子设备 |
CN109308318A (zh) * | 2018-08-14 | 2019-02-05 | 深圳大学 | 跨领域文本情感分类模型的训练方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
JUFENG YANG等: ""Weakly Supervised Coupled Networks for Visual Sentiment Analysis"", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128284A (zh) * | 2019-12-31 | 2021-07-16 | 上海汽车集团股份有限公司 | 一种多模态情感识别方法和装置 |
CN113705206A (zh) * | 2021-08-13 | 2021-11-26 | 北京百度网讯科技有限公司 | 情感预测模型的训练方法、装置、设备及存储介质 |
CN114926655A (zh) * | 2022-05-20 | 2022-08-19 | 北京百度网讯科技有限公司 | 地理与视觉跨模态预训练模型的训练方法、位置确定方法 |
CN114926655B (zh) * | 2022-05-20 | 2023-09-26 | 北京百度网讯科技有限公司 | 地理与视觉跨模态预训练模型的训练方法、位置确定方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110188791B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
Kae et al. | Augmenting CRFs with Boltzmann machine shape priors for image labeling | |
Wei et al. | Learning to segment with image-level annotations | |
CN109635668B (zh) | 基于软标签集成卷积神经网络的人脸表情识别方法及系统 | |
CN110163236A (zh) | 模型的训练方法和装置、存储介质、电子装置 | |
CN108563624A (zh) | 一种基于深度学习的自然语言生成方法 | |
CN108446676B (zh) | 基于有序编码及多层随机投影的人脸图像年龄判别方法 | |
Zhao et al. | Embedding visual hierarchy with deep networks for large-scale visual recognition | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN110188791A (zh) | 基于自动估计的视觉情感标签分布预测方法 | |
CN110705490B (zh) | 视觉情感识别方法 | |
CN113392766A (zh) | 一种基于注意力机制的人脸表情识别方法 | |
Islam et al. | InceptB: a CNN based classification approach for recognizing traditional bengali games | |
CN107330448A (zh) | 一种基于标记协方差和多标记分类的联合学习方法 | |
CN112183464A (zh) | 基于深度神经网络和图卷积网络的视频行人识别方法 | |
CN117333146A (zh) | 基于人工智能的人力资源管理系统及方法 | |
CN117313709B (zh) | 一种基于统计信息和预训练语言模型的生成文本检测方法 | |
Cao et al. | A dual attention model based on probabilistically mask for 3D human motion prediction | |
Arun Prasath et al. | Prediction of sign language recognition based on multi layered CNN | |
CN101226521A (zh) | 一种用于多义性数据对象预测建模的机器学习方法 | |
Yuan et al. | Children's drawing psychological analysis using shallow convolutional neural network | |
Berlati et al. | Ambiguity in sequential data: Predicting uncertain futures with recurrent models | |
CN109033304A (zh) | 基于在线深层主题模型的多模态检索方法 | |
Ke et al. | Spatial, structural and temporal feature learning for human interaction prediction | |
Trottier et al. | Multi-task learning by deep collaboration and application in facial landmark detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |