CN114511895B - 一种基于注意力机制多尺度网络的自然场景情绪识别方法 - Google Patents

一种基于注意力机制多尺度网络的自然场景情绪识别方法 Download PDF

Info

Publication number
CN114511895B
CN114511895B CN202011280735.6A CN202011280735A CN114511895B CN 114511895 B CN114511895 B CN 114511895B CN 202011280735 A CN202011280735 A CN 202011280735A CN 114511895 B CN114511895 B CN 114511895B
Authority
CN
China
Prior art keywords
scene
network
emotion recognition
branch
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011280735.6A
Other languages
English (en)
Other versions
CN114511895A (zh
Inventor
卿粼波
晋儒龙
何小海
陈洪刚
文虹茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202011280735.6A priority Critical patent/CN114511895B/zh
Publication of CN114511895A publication Critical patent/CN114511895A/zh
Application granted granted Critical
Publication of CN114511895B publication Critical patent/CN114511895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于注意力机制多尺度网络的自然场景情绪识别方法,主要涉及人物和场景线索融合的情绪识别。本发明本发明主要包括:对于人物分支,提取特征同时加入姿态注意力机制,该分支能有效挖掘人物本身的情绪状态;对于场景分支,使用多尺度网络增强场景中局部细节特征,融合空间注意力模型自动关注场景中对情绪识别有效的区域。本发明充分利用人物与场景各自的优势进行情绪识别,提高了情绪识别的精确率。

Description

一种基于注意力机制多尺度网络的自然场景情绪识别方法
技术领域
本发明属于情绪识别领域,具体涉及一种基于注意力机制多尺度网络的自然场景情绪识别方法。
背景技术
情绪识别是计算机视觉的一项基本任务,它是情感计算的一部分,旨在识别出某个体的感受与状态,例如高兴、悲伤、厌恶、惊喜等等。情绪识别技术用途广泛,目前已经在人机交互、安防、医疗健康等领域有所应用。
针对情绪识别的研究,无论是传统的手工提取特征,还是深度学习方法,多数研究都是关注于面部特征,因其能够提供最明显直观的情感状态。研究发现,声音、文本、姿态以及身体物理信号(心跳变化,瞳孔放大程度等)等也能辅助识别情绪,因此也有学者融合多模态信息来提高情绪识别的准确性。然而在自然场景中,基于视觉信息仍是主要的情绪识别方法,但也存在相应的挑战。首先,自然场景中人脸通常存在光照不均匀、遮挡、拍摄角度等问题,导致难以直接识别其情绪状态;其次,同一种行为处于不同场景会出现不同的情绪状态,例如在办公室浏览电脑与在家中浏览电脑可能是两种不同的情绪状态。
综上所述,如何有效地结合场景与人物的关系,克服上述现有技术所存在的缺陷是本技术领域亟待解决的问题。
发明内容
鉴于现有技术存在的不足,本发明的目的是提出一种基于注意力机制多尺度网络的自然场景情绪识别方法,充分结合人物与场景的信息,能够有效提高情绪识别的精确率。其特征在于,包括如下步骤:
a.将人物图像以及去除人物的场景图像送入双分支网络进行训练;
b.在上述a中双分支网络,第一分支输入人物图像,使用特征提取网络和姿态注意力机制得到人物特征,第二分支输入场景图像,使用多尺度网络和空间注意力模型提取图像的全局特征;
c.对上述b中的双分支网络进行融合分类,最终得到情绪识别的结果;
该方法主要包括以下步骤:
(1)静态图像I通过人物边界框处理为人物图像IB以及去除人物的场景图像IC,计算公式为:其中bboxIB表示主要人物所在区域;
(2)IB送入第一分支的卷积层,池化层,全连接层进行特征提取,得到个体的特征向量fB’,同时IB经过姿态注意力机制得到个体的情绪置信度λ;
(3)IC送入第二分支通过多尺度网络得到场景的特征向量fC1,多尺度网络中的特征图通过空间注意力模型,得到特征向量fC2
(4)对上述(2)和(3)得到的特征向量进行进行融合与分类,得到最终的情绪识别的结果。
与现有技术相比,本发明的优点主要体现在以下几个方面:
第一,对于图像中的人物,不仅仅是关注人脸,同时也关注人物的姿势以及姿态,能够有效挖掘个体本身的情绪状态。
第二,人物的情绪状态通常会受到周围环境的影响,因此本发明还关注了场景信息以辅助情绪识别,充分利用图像中人物与场景各自的优势,有效提升了情绪识别的精确率。
附图说明
图1为本发明基于注意力机制多尺度网络的自然场景情绪识别方法的原理示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。
下面结合附图,对本发明的方案进行具体说明:
(1)静态图像I通过边界框得到人物图像IB以及去除人物的背景图像IC,计算公式为:其中bboxIB表示主要人物所在区域,对IB和IC进行缩放、光照、亮度、对比度增强处理,形成训练集;
(2)IB送入第一分支的卷积层,池化层,全连接层进行特征提取,得到个体的特征向量fB’,同时IB经过姿态注意力机制得到个体的情绪置信度λ;
所述步骤(2)具体包括以下步骤:
(2.1)特征提取阶段,卷积层,池化层,全连接层使用ResNet-50模型实现,进而得到个体的特征向量fB’;
(2.2)姿态注意力机制使用1个全局平均池化和2个卷积层构建,IB经过姿态注意力机制得到个体的情绪置信度λ,λ通过Sigmoid归一化到[0,1]区间,第一分支的特征向量表示为fB=λ·fB’;
(3)IC送入第二分支通过多尺度网络得到场景的特征向量fC1,多尺度网络中的特征图通过空间注意力模型,得到特征向量fC2
所述步骤(3)具体包括以下步骤:
(3.1)多尺度网络由3个尺度的特征图{F1,F2,F3}构成,分别对应IC的{8,16,32}下采样倍数,3个尺度的特征图使用ResNet-18模型进行提取,ResNet模型拥有四个残差块,使用最后3个残差块得到的特征图作为{F1,F2,F3},对{F1,F2,F3}进行卷积和两倍下采样得到3张通道数均为256的特征图{P1,P2,P3},{P1,P2,P3}通过分类器C得到3个特征向量fC1={fP1,fP2,fP3},其中分类器C由1个卷积层、1个池化层组成;
(3.2)空间注意力模型使用3个卷积层、1个平均池化层和2个批量标准化构建,对特征图F2使用空间注意力模型,得到与F2尺寸相同的注意力分布图,对应位置相乘后送入分类器C得到特征向量fC2,第二分支的特征向量表示为fC=cat[fC1,fC2],其中cat表示特征向量在最后一维进行拼接;
(4)对上述(2)和(3)得到的特征向量进行早期融合与分类,得到最终情绪识别的结果。

Claims (4)

1.一种基于注意力机制多尺度网络的自然场景情绪识别方法,其特征在于,包括如下步骤:
a.将人物图像以及去除人物的场景图像送入双分支网络进行训练;
b.在上述a中双分支网络,第一分支输入人物图像,用特征提取网络和姿态注意力机制得到人物特征,第二分支输入场景图像,使用多尺度网络和空间注意力模型提取图像的全局特征;
c.对上述b中的双分支网络进行融合分类,最终得到情绪识别的结果;
该方法主要包括以下步骤:
(1)静态图像I通过人物边界框处理为人物图像IB以及去除人物的场景图像IC,计算公式为:其中/>表示主要人物所在区域;
(2)IB送入第一分支的卷积层,池化层,全连接层进行特征提取,得到个体的特征向量fB’,同时IB经过姿态注意力机制得到个体的情绪置信度λ,并通过fB=λ·fB’得到人物特征向量fB
(3)IC送入第二分支通过多尺度网络得到场景的特征向量fC1,多尺度网络中的特征图通过空间注意力模型,得到特征向量fC2,并将fC1、fC2在向量最后一维上拼接得到第二分支特征fC
(4)对上述(2)和(3)得到的特征向量fB、fC通过在通道维度进行拼接进行早期融合并进行分类,得到最终的情绪识别的结果。
2.如权利要求1所述的一种基于注意力机制多尺度网络的自然场景情绪识别方法,其特征在于步骤(2)中卷积层,池化层,全连接层构成的特征提取网络使用ResNet-50模型实现,使用1个全局平均池化和2个卷积层构建姿态注意力机制,第一分支的特征向量表示为fB=λ·fB’。
3.如权利要求1所述的一种基于注意力机制多尺度网络的自然场景情绪识别方法,其特征在于步骤(3)中多尺度网络由3个尺度的特征图{F1,F2,F3}构成,分别对应IC的{8,16,32}下采样倍数,3个尺度的特征图使用ResNet-18模型进行提取,空间注意力模型使用3个卷积层、1个平均池化层和2个批量标准化构建,第二分支的特征向量表示为fC=cat[fC1,fC2],其中cat表示特征向量在最后一维进行拼接。
4.如权利要求1所述的一种基于注意力机制多尺度网络的自然场景情绪识别方法,其特征在于步骤(4)中使用早期融合对双分支网络的特征向量直接拼接,使用全连接层进行情绪的分类识别。
CN202011280735.6A 2020-11-16 2020-11-16 一种基于注意力机制多尺度网络的自然场景情绪识别方法 Active CN114511895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011280735.6A CN114511895B (zh) 2020-11-16 2020-11-16 一种基于注意力机制多尺度网络的自然场景情绪识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011280735.6A CN114511895B (zh) 2020-11-16 2020-11-16 一种基于注意力机制多尺度网络的自然场景情绪识别方法

Publications (2)

Publication Number Publication Date
CN114511895A CN114511895A (zh) 2022-05-17
CN114511895B true CN114511895B (zh) 2024-02-02

Family

ID=81546489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011280735.6A Active CN114511895B (zh) 2020-11-16 2020-11-16 一种基于注意力机制多尺度网络的自然场景情绪识别方法

Country Status (1)

Country Link
CN (1) CN114511895B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036877A (zh) * 2023-07-18 2023-11-10 六合熙诚(北京)信息科技有限公司 一种人脸表情及姿态融合的情绪识别方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN109376720A (zh) * 2018-12-19 2019-02-22 杭州电子科技大学 基于关节点时空简单循环网络和注意力机制的动作分类方法
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
CN110705490A (zh) * 2019-10-09 2020-01-17 中国科学技术大学 视觉情感识别方法
CN111275085A (zh) * 2020-01-15 2020-06-12 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN111339847A (zh) * 2020-02-14 2020-06-26 福建帝视信息科技有限公司 一种基于图卷积神经网络的人脸情绪识别方法
CN111414862A (zh) * 2020-03-22 2020-07-14 西安电子科技大学 基于神经网络融合关键点角度变化的表情识别方法
CN111582397A (zh) * 2020-05-14 2020-08-25 杭州电子科技大学 一种基于注意力机制的cnn-rnn图像情感分析方法
CN111914600A (zh) * 2019-05-08 2020-11-10 四川大学 一种基于空间注意力模型的群组情绪识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815785A (zh) * 2018-12-05 2019-05-28 四川大学 一种基于双流卷积神经网络的人脸情绪识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN109376720A (zh) * 2018-12-19 2019-02-22 杭州电子科技大学 基于关节点时空简单循环网络和注意力机制的动作分类方法
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
CN111914600A (zh) * 2019-05-08 2020-11-10 四川大学 一种基于空间注意力模型的群组情绪识别方法
CN110705490A (zh) * 2019-10-09 2020-01-17 中国科学技术大学 视觉情感识别方法
CN111275085A (zh) * 2020-01-15 2020-06-12 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN111339847A (zh) * 2020-02-14 2020-06-26 福建帝视信息科技有限公司 一种基于图卷积神经网络的人脸情绪识别方法
CN111414862A (zh) * 2020-03-22 2020-07-14 西安电子科技大学 基于神经网络融合关键点角度变化的表情识别方法
CN111582397A (zh) * 2020-05-14 2020-08-25 杭州电子科技大学 一种基于注意力机制的cnn-rnn图像情感分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Huijun Xing et al.Dual attention based feature pyramid network.《China Communications》.2020,第17卷(第8期),242-252. *
Masih Aminbeidikhti et al.Emotion Recognition with Spatial Attention and Temporal Softmax Pooling.《Image Analysis and Recognition》.2019,第11662卷323-331. *
Ronak Kosti et al.Emotion Recognition in Context.《Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR)》.2017,1960-1968. *
杨川.基于深度学习的人体姿态估计技术研究.《中国优秀硕士学位论文全文数据库(信息科技辑)》.2020,(第02期),I138-1726. *

Also Published As

Publication number Publication date
CN114511895A (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN109919830B (zh) 一种基于美学评价的带参考人眼图像修复方法
CN109325952B (zh) 基于深度学习的时尚服装图像分割方法
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
Wang et al. Cross-generation kinship verification with sparse discriminative metric
CN109508669A (zh) 一种基于生成式对抗网络的人脸表情识别方法
Gallo et al. Image and encoded text fusion for multi-modal classification
CN110533024B (zh) 基于多尺度roi特征的双二次池化细粒度图像分类方法
CN108846444A (zh) 面向多源数据挖掘的多阶段深度迁移学习方法
CN111160264A (zh) 一种基于生成对抗网络的漫画人物身份识别方法
WO2022127494A1 (zh) 位姿识别模型训练方法、装置、位姿识别方法和终端设备
CN111694959A (zh) 基于面部表情和文本信息的网络舆情多模态情感识别方法及系统
CN108073851A (zh) 一种抓取手势识别的方法、装置及电子设备
CN111985532B (zh) 一种场景级上下文感知的情感识别深度网络方法
Zhai et al. Asian female facial beauty prediction using deep neural networks via transfer learning and multi-channel feature fusion
Prabhu et al. Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism.
CN114511895B (zh) 一种基于注意力机制多尺度网络的自然场景情绪识别方法
Jian et al. Dual-Branch-UNet: A Dual-Branch Convolutional Neural Network for Medical Image Segmentation.
CN106203448A (zh) 一种基于非线性尺度空间的场景分类方法
CN114999637A (zh) 多角度编码与嵌入式互学习的病理图像诊断方法与系统
Yang et al. RASN: using attention and sharing affinity features to address sample imbalance in facial expression recognition
Fan et al. Skip connection aggregation transformer for occluded person reidentification
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN106778554A (zh) 基于联合特征PCANet的宫颈细胞图像识别方法
Boukdir et al. 3D gesture segmentation for word-level Arabic sign language using large-scale RGB video sequences and autoencoder convolutional networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant