CN116030514A - 一种上下文感知的情绪识别方法、系统、介质及设备 - Google Patents
一种上下文感知的情绪识别方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN116030514A CN116030514A CN202211296241.6A CN202211296241A CN116030514A CN 116030514 A CN116030514 A CN 116030514A CN 202211296241 A CN202211296241 A CN 202211296241A CN 116030514 A CN116030514 A CN 116030514A
- Authority
- CN
- China
- Prior art keywords
- emotion
- context
- image
- features
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 42
- 230000008451 emotion Effects 0.000 claims abstract description 118
- 239000013598 vector Substances 0.000 claims abstract description 43
- 230000003993 interaction Effects 0.000 claims abstract description 38
- 230000001815 facial effect Effects 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 21
- 230000008921 facial expression Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 4
- 239000003795 chemical substances by application Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 241000009334 Singa Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000015271 coagulation Effects 0.000 description 1
- 238000005345 coagulation Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本公开提供了一种上下文感知的情绪识别方法、系统、介质及设备,涉及图像识别技术领域,包括提取人物图像中的面部情绪信息以及人体轮廓信息,获取面部情绪特征以及人体姿态特征;检测人脸的朝向以及视线信息,获取物体图像中所有对象的位置,利用深度图生成算法生成深度图,提取物体的特征向量,保存边界框坐标,构建三维视角的环境对象交互关系;基于背景图像提取全局场景上下文信息特征;将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局景上下文关系特征进行融合,得到新的上下文情绪特征输入至模型得到情绪分类结果;本公开能够提升上下文感知的情绪识别的准确率。
Description
技术领域
本公开涉及图像识别技术领域,具体涉及一种基于ViT(Vision Transformer)和图卷积网络(Graph Convolutional Network,GCN)的三维视角的上下文感知的情绪识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着深度学习技术的发展,情绪识别在人工智能研究中变得越来越重要。情绪识别技术被广泛应用于远程医疗、疲劳监测和人机交互系统。早期对情绪识别的研究主要集中在生理信号(如脑电信号、心电信号、眼电信号等)、面部表情、文本和语音。人们普遍认为,面部表情是表达人类情感的最自然方式。然而,由于复杂的环境变化,一些图像中的面部信息不可避免的会出现模糊等现象。因此,基于面部表情的情绪识别系统仍有需要改进的方面。
随着对情绪信息研究的不断深入,一些研究表明,周围环境和身体姿势在情绪感知中起着重要作用。视觉场景影响面部动作编码的实际结构。心理学研究表明,肢体语言是人类表达情感信息的重要方式。这为上下文感知的情绪识别方法提供了理论基础。随着图像采集设备的发展,其采集到的图像分辨率越来越高,在自然环境下,往往会通过图像采集设备采集整个场景内的信息,这为上下文感知的情绪识别方法提供了数据基础。另外,随着硬件计算能力的不断提升,训练深度模型的效率也在逐步提高。近年来,研究者们对深度学习技术在情绪识别领域的应用进行了深入的探索,在面部表情识别方面,尤其是在实验室采集的数据集中得到了较高的识别准确率。但是大多数面部表情的识别方法在自然环境下采集的图片中的识别准确率不佳,这主要是自然环境下的图片往往带有额外的噪声,影响力面部表情识别系统的性能。
发明内容
本公开为了解决上述问题,提出了一种上下文感知的情绪识别方法及系统,将面部表情、人体姿态以及所处环境三部分数据作为情绪识别的辨识性特征,通过不同的算法进行人脸检测,结合头部姿态以及视线角度提出构建3DVG表示环境对象交互关系的方法构建环境中的其他物品对人情绪的影响,通过情绪特征融合模块对情绪特征进行融合并分类。
根据一些实施例,本公开采用如下技术方案:
一种上下文感知的情绪识别方法,包括:
获取待识别的场景图像,提取场景图像中的人物图像、物体图像以及背景图像,并进行预处理;
提取人物图像中的面部情绪信息以及人体轮廓信息,获取面部情绪特征以及人体姿态特征;
检测人脸的朝向以及视线信息,获取物体图像中所有对象的位置,利用深度图生成算法生成深度图,提取物体的特征向量,保存边界框坐标,构建三维视角的环境对象交互关系;基于背景图像提取全局场景上下文信息特征;
将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合,得到新的上下文情绪特征输入至模型得到情绪分类结果。
根据一些实施例,本公开采用如下技术方案:
一种上下文感知的情绪识别系统,包括:
数据获取模块,用于获取待识别的场景图像,提取场景图像中的人物图像、物体图像以及背景图像,并进行预处理;
面部表情特征提取模块以及人体姿态情绪特征提取模块,用于提取人物图像中的面部情绪信息以及人体轮廓信息,获取面部情绪特征以及人体姿态特征;
环境对象交互关系情绪特征提取模块,用于检测人脸的朝向以及视线信息,获取物体图像中所有对象的位置,利用深度图生成算法生成深度图,提取物体的特征向量,保存边界框坐标,构建三维视角的环境对象交互关系;
全局上下文情绪特征提取模块,用于基于背景图像提取全局场景上下文信息特征;
情绪特征融合分类模块,用于将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合,得到新的上下文情绪特征输入至模型得到情绪分类结果。
根据一些实施例,本公开采用如下技术方案:
一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如所述的一种上下文感知的情绪识别方法。
根据一些实施例,本公开采用如下技术方案:
一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如所述的一种上下文感知的情绪识别方法。
与现有技术相比,本公开的有益效果为:
本公开主要包括五部分,数据获取模块、面部表情特征提取模块以及人体姿态情绪特征提取模块、环境对象交互关系情绪特征提取模块、全局上下文情绪特征提取模块和情绪特征融合分类模块,通过分析发现,视觉场景中,除了面部表情能够作为情绪识别的依据,身体姿态、所处的环境(场景上下文)也会反映出人的情绪状态,因此,本公开提取上述三部分信息作为情绪识别的辨识性特征,使用Openface进行人脸检测,并得到人的头部姿态以及视线角度;基于Faster-RCNN算法进行目标检测,结合头部姿态以及视线角度提出构建3DVG表示环境对象交互关系的方法建模环境中的其他物品对人情绪的影响。最后,通过情绪特征融合模块对情绪特征进行融合并分类。
基于面部信息、身体姿态信息、环境对象交互关系、全局场景上下文信息的上下文感知的情绪识别系统完整提取了图片中的情绪信息,为情绪识别的准确性奠定了数据基础,本公开采用ViT进行图像特征提取,采用GNN提取环境中对象图表示中的情绪信息,为情绪识别的准确性奠定了模型基础;本公开中采用一种新的基于深度图、头部姿态、视线检测构建的三维视角的环境对象交互关系的图模型,该图模型能够有效的表示环境中的其他对象对人的情绪的影响,能够提升上下文感知的情绪识别的准确率。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例所述的三维视角的上下文感知的情绪识别方法的流程图;
图2为本公开实施例所述的三维视角的上下文感知的情绪识别方法的总体结构图;
图3为本公开实施例所述的三维视角的环境对象交互关系构建模式图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
本公开的一种实施例中提供了一种上下文感知的情绪识别方法,包括:
步骤1:获取待识别的场景图像,提取场景图像中的人物图像、物体图像以及背景图像,并进行预处理;
步骤2:提取人物图像中的面部情绪信息以及人体轮廓信息,获取面部情绪特征以及人体姿态特征;
步骤3:检测人脸的朝向以及视线信息,获取物体图像中所有对象的位置,利用深度图生成算法生成深度图,提取物体的特征向量,保存边界框坐标,构建三维视角的环境对象交互关系;基于背景图像提取全局场景上下文信息特征;
步骤4:将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合,得到新的上下文情绪特征输入至模型得到情绪分类结果。
作为一种实施例,在步骤1中,所述预处理包括:对人物图像中的面部图片进行灰度化、人脸检测以及人脸对齐操作后保存。
一种实施方式中,所述面部情绪特征提取方式为:利用人脸检测算法提取场景中的人脸图像,输入到ViT模型中提取面部中包含的情绪信息,得到面部情绪信息的特征向量。
人体姿态特征提取方式为:利用语义分割算法提取人体轮廓信息,将人体轮廓信息输入至ViT模型获得其人体姿态情绪表示的特征向量。
环境对象交互关系构建方式为:检测人脸的朝向、视线信息,通过目标检测算法获取物体图像中所有对象的位置,并利用深度图生成算法生成图片的深度图,结合目标检测算法得到图片中对象的位置,计算得出各个对象与摄像机之间的距离,然后构建环境对象交互关系的图表示,将图结构表示输入到GCN中,提取环境对象交互关系的情绪特征向量。
基于背景图像提取全局场景上下文信息特征的方式为:补全环境对象交互关系中忽略的全局场景信息,聚焦视觉背景对情绪的影响,将遮挡人体的图片输入至ViT网络中,获得全局上下文特征表示向量。
然后,将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合的过程为:将面部情绪表示的特征向量、人体姿态情绪表示的特征向量、环境对象交互关系的情绪特征向量、全局上下文情绪表示的特征向量连接,得到新的上下文感知的情绪特征向量并输入至全连接层,进行图片的情绪分类。以上实施的具体过程为:
对图片中的人,利用OpenFace提取其面部信息,包括完整的面部图片、视线角度以及头部姿态信息,用于构建三维视角的图模型;同时利用语义分割算法,识别人体轮廓,用于表示人体姿态信息。利用深度图生成算法生成原图片的深度图(Depth Map),估算图片中各个像素点到摄像机中心的距离。利用目标检测算法提取各类物体的边界框的同时,保留在此过程中得到的各类物体的特征向量,并保存其边界框的坐标,用于构建环境对象交互关系。背景图片指的是遮挡人与各类物体之后图片的留存部分,它可用于提取情绪识别的全局场景上下文信息。
对完整的面部图片进行预处理操作,包括灰度化、人脸检测、人脸对齐等,保存预处理后的图片。对于利用语义分割算法得到的人体轮廓信息,使用ViT提取人体姿态所表示的情绪信息;
对利用目标检测算法检测出的各类物体结合深度图(Depth Map)构建与人之间的联系,构建基于三维视角的环境对象关系的图表示,利用GCN学习图表示的情绪信息;
对背景图片,需要将利用语义分割算法检测的人体轮廓进行遮挡,避免模型学习到人的身体信息而对环境情绪信息的提取造成影响,输入到ViT中提取全局上下文特征;
对四类不同的情绪特征,通过使用基于特征融合的方法,将面部特征、身体姿态特征、三维视角的环境对象关系的图表示特征以及全局上下文关系特征进行连接,得到新的上下文情绪特征,在模型最后添加全连接层,将上下文情绪特征向量输入到全连接层,得到情绪分类结果。
作为一种实施例,构建基于三维视角的环境对象关系的图表示的方法如下:
步骤S1:Faster-RCNN用于图像I中对象的目标检测,检测图像中每个对象(obj)的位置。设obji表示Faster-RCNN检测到的第i个对象,设Faster-RCNN检测后obji的边界框左上角坐标为右下角坐标为通过设置这个边界框的中点坐标为obji的位置,该位置的计算方法如下:
步骤S2:使用OpenFace工具箱提取图像中人物的凝视角度。使用OpenFace提取的凝视角(ga)由两个部分组成,一个是表示左右凝视角的gax,另一个是表示上下凝视角的gay,以上两个变量都用弧度表示。在图片上建立三维坐标表示规则,图片宽度的方向为x轴的正方向,图片相对高度的方向为y轴的正方向,与两轴正交的方向为z轴,基于这三个坐标轴构建3DVG(3D View Graph)。3DVG定义的第一个节点是它的中心节点Nagent,即人的身体节点,用人面中心位置的坐标作为中心节点的坐标pstagent,用Faster RCNN提取的agent区域的特征Xagent作为该中心节点的特征。相似地,将图像中检测到的每个对象作为3DVG的一个节点,即在对图片区域进行对象检测时,Faster-RCNN的卷积模块在每个对象候选区域生成一个向量特征在构造3DVG时作为obji的节点特征。下面对agent与各obj之间的关系进行建模,即构建3DVG的边。
如前所述,OpenFace提取的视角ga由两个分量组成,即ga=(gax,gay)。其中gax为正,如果人的视点偏向xOz平面x轴的正方向,否则为负,0°为与z轴方向相同。类似地,如果人的视点偏向于yOz平面y轴的正方向,即从上面向下看,gay为正,否则为负,当方向与z轴相同时为0°。以上两个角都是视线与z轴正方向的夹角。此外,表示ga方向的向量aga可以用两个角(gax,gay)来计算,原点即(0,0,0)作为aga的起点。设aga在xOz平面上的投影为单位向量u,设aga在yOz平面上的投影为向量v,从gax,gay计算这两个向量的坐标。
u=(singax,0,cosgax) (2)
vy=cosgax×tangay (3)
v=(0,vy,cosgax) (4)
其中vy表示向量v的y轴坐标。根据这两个投影向量,可以得到表示ga方向的向量aga:
aga=(singax,vy,cosgax)=(singax,cosgax×tangay,cosgax)(5)
步骤S3:进一步构建从人到图像中其他物体的三维方向向量。MegaDepth算法用于生成深度图,它表示图像中每个像素与相机的相对距离,像素与相机的相对距离越远,其在深度图中的像素值越低。
设图像I的深度图为Idepth,在Faster-RCNN的帮助下对图像进行对象检测时获得每个obj的边界框。上面提到的对象obji的中心坐标的欧氏距离是使用agent的质心坐标pstagent计算的,设为disao。接下来,使用Idepth构造3D坐标系中的obji坐标。首先,{obj}_i的x轴和y轴坐标分别是的x轴和y轴坐标。其次,如前所述,Idepth用像素值表示像素到相机的距离。设Idepth中obji的中心点像素值为则obji的z在坐标系中的表示如下:
其中,表示人的中心在Idepth处的像素值,由上式可知,当obji在人的前面时,为正,否则为负。这个赋值也与前面提到的凝视方向向量aga的构造过程一致。为便于计算,取人的坐标所在平面为xOy平面,即z轴值为0,即人的坐标为(xagent,yagent,0)。计算人与obji在3D坐标下的欧氏距离disi:
其中disao为二维坐标系中人与obji之间的欧氏距离,利用毕达哥拉斯定理不难得到上述公式。从人指向obji的向量可以表示为:
步骤S4:图结构中Nagent和之间的关系(即边)用凝视方向向量aga,disi和vi表示。由于aga与vi的夹角越小,两者之间的关系越密切,即人的注视方向的对象对其情绪的影响越深。考虑余弦函数在[0,π]范围内是单调的,Nagent和之间的边权wi计算公式如下:
步骤S5:基于上面得到的数据构建3DVG,利用图卷积神经网络学习图中的情感特征。令G={V,E,X},其中,表示G中的节点集,由图片中检测到的对象组成;E={e1,e2,…,em}表示G中边的集合,由wi组成;表示节点的特征向量矩阵,包含n+1个节点,每个节点的特征长度为l。为每张图片构建的图结构G={V,E,X}被输入到图卷积神经网络中,以学习情感特征fc_r。
进一步地,完成4类特征的提取后,分别将个人情绪特征(即面部表情特征、人体姿态情绪特征)和场景上下文信息(即环境对象交互关系情绪特征、全局上下文情绪特征)进行连接,形成个人情绪特征efp和场景上下文情绪特征efc。为了融合efp和efc,抑制情绪无关信息,引入乘法融合算法,它的计算公式如下所示:
进一步地,训练好的上下文感知的情绪识别系统包括五个部分,分别为数据获取模块、面部表情特征提取模块、人体姿态情绪特征提取模块、环境对象交互关系情绪特征提取模块、全局上下文情绪特征提取模块和情绪特征融合模块,网络结构选择基于ViT的图片信息提取模型以及基于GCN的图结构特征提取模型进行构建;
进一步地,训练所述模型包括:
步骤Q1:设置超参数,确定学习率、Batch size、Dropout等超参数;
步骤Q2:将训练数据输入至上述各个模块进行预处理,包括人脸检测、人体语义分割、目标检测、深度图生成等;
步骤Q3:建立环境对象交互关系的图结构表示;
步骤Q4:构建深度神经网络模型,包括确定ViT的层数、GCN的层数以及构建融合网络。
步骤Q5:训练构建的多通道网络模型。
实施例2
本公开的一种实施例中提供了一种上下文感知的情绪识别系统,包括:
数据获取模块,用于获取待识别的场景图像,提取场景图像中的人物图像、物体图像以及背景图像,并进行预处理;
面部表情特征提取模块以及人体姿态情绪特征提取模块,用于提取人物图像中的面部情绪信息以及人体轮廓信息,获取面部情绪特征以及人体姿态特征;
环境对象交互关系情绪特征提取模块,用于检测人脸的朝向以及视线信息,获取物体图像中所有对象的位置,利用深度图生成算法生成深度图,提取物体的特征向量,保存边界框坐标,构建三维视角的环境对象交互关系;
全局上下文情绪特征提取模块,用于基于背景图像提取全局场景上下文信息特征;
情绪特征融合分类模块,用于将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合,得到新的上下文情绪特征输入至模型得到情绪分类结果。
实施例3
本公开的一种实施例中提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如所述的一种上下文感知的情绪识别方法。
实施例4
一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如所述的一种上下文感知的情绪识别方法。
以上实施例二、三和四的系统中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.一种上下文感知的情绪识别方法,其特征在于,包括:
获取待识别的场景图像,提取场景图像中的人物图像、物体图像以及背景图像,并进行预处理;
提取人物图像中的面部情绪信息以及人体轮廓信息,获取面部情绪特征以及人体姿态特征;
检测人脸的朝向以及视线信息,获取物体图像中所有对象的位置,利用深度图生成算法生成深度图,提取物体的特征向量,保存边界框坐标,构建三维视角的环境对象交互关系;基于背景图像提取全局场景上下文信息特征;
将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合,得到新的上下文情绪特征输入至模型得到情绪分类结果。
2.如权利要求1所述的一种上下文感知的情绪识别方法,其特征在于,所述预处理包括:对人物图像中的面部图片进行灰度化、人脸检测以及人脸对齐操作后保存。
3.如权利要求1所述的一种上下文感知的情绪识别方法,其特征在于,所述面部情绪特征提取方式为:利用人脸检测算法提取场景中的人脸图像,输入到ViT模型中提取面部中包含的情绪信息,得到面部情绪信息的特征向量。
4.如权利要求1所述的一种上下文感知的情绪识别方法,其特征在于,所述人体姿态特征提取方式为:利用语义分割算法提取人体轮廓信息,将人体轮廓信息输入至ViT模型获得其人体姿态情绪表示的特征向量。
5.如权利要求1所述的一种上下文感知的情绪识别方法,其特征在于,所述环境对象交互关系构建方式为:检测人脸的朝向、视线信息,通过目标检测算法获取物体图像中所有对象的位置,并利用深度图生成算法生成图片的深度图,结合目标检测算法得到图片中对象的位置,计算得出各个对象与摄像机之间的距离,然后构建环境对象交互关系的图表示,将图结构表示输入到GCN中,提取环境对象交互关系的情绪特征向量。
6.如权利要求1所述的一种上下文感知的情绪识别方法,其特征在于,所述基于背景图像提取全局场景上下文信息特征的方式为:补全环境对象交互关系中忽略的全局场景信息,聚焦视觉背景对情绪的影响,将遮挡人体的图片输入至ViT网络中,获得全局上下文特征表示向量。
7.如权利要求1所述的一种上下文感知的情绪识别方法,其特征在于,所述将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合的过程为:将面部情绪表示的特征向量、人体姿态情绪表示的特征向量、环境对象交互关系的情绪特征向量、全局上下文情绪表示的特征向量连接,得到新的上下文感知的情绪特征向量并输入至全连接层,进行图片的情绪分类。
8.一种上下文感知的情绪识别系统,其特征在于,包括:
数据获取模块,用于获取待识别的场景图像,提取场景图像中的人物图像、物体图像以及背景图像,并进行预处理;
面部表情特征提取模块以及人体姿态情绪特征提取模块,用于提取人物图像中的面部情绪信息以及人体轮廓信息,获取面部情绪特征以及人体姿态特征;
环境对象交互关系情绪特征提取模块,用于检测人脸的朝向以及视线信息,获取物体图像中所有对象的位置,利用深度图生成算法生成深度图,提取物体的特征向量,保存边界框坐标,构建三维视角的环境对象交互关系;
全局上下文情绪特征提取模块,用于基于背景图像提取全局场景上下文信息特征;
情绪特征融合分类模块,用于将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合,得到新的上下文情绪特征输入至模型得到情绪分类结果。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-7任一项所述的一种上下文感知的情绪识别方法。
10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-7任一项所述的一种上下文感知的情绪识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211296241.6A CN116030514A (zh) | 2022-10-21 | 2022-10-21 | 一种上下文感知的情绪识别方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211296241.6A CN116030514A (zh) | 2022-10-21 | 2022-10-21 | 一种上下文感知的情绪识别方法、系统、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116030514A true CN116030514A (zh) | 2023-04-28 |
Family
ID=86069916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211296241.6A Pending CN116030514A (zh) | 2022-10-21 | 2022-10-21 | 一种上下文感知的情绪识别方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116030514A (zh) |
-
2022
- 2022-10-21 CN CN202211296241.6A patent/CN116030514A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111710036B (zh) | 三维人脸模型的构建方法、装置、设备及存储介质 | |
WO2021093453A1 (zh) | 三维表情基的生成方法、语音互动方法、装置及介质 | |
Hasan et al. | RETRACTED ARTICLE: Static hand gesture recognition using neural networks | |
JP7015152B2 (ja) | キーポイントデータに関する加工装置、方法及びプログラム | |
Ding et al. | STFC: Spatio-temporal feature chain for skeleton-based human action recognition | |
Zhou et al. | Learning to estimate 3d human pose from point cloud | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN110909680A (zh) | 人脸图像的表情识别方法、装置、电子设备及存储介质 | |
CN114926530A (zh) | 用于生成三维姿态估计数据的计算机实现的方法、数据处理装置和计算机程序 | |
CN111062328A (zh) | 一种图像处理方法、装置及智能机器人 | |
Amrutha et al. | Human Body Pose Estimation and Applications | |
CN108875586A (zh) | 一种基于深度图像与骨骼数据多特征融合的功能性肢体康复训练检测方法 | |
CN111209811A (zh) | 一种实时检测眼球注意力位置的方法及系统 | |
CN110751097A (zh) | 一种半监督的三维点云手势关键点检测方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN113066125A (zh) | 一种增强现实方法及其相关设备 | |
CN115205933A (zh) | 面部表情识别方法、装置、设备及可读存储介质 | |
Gündüz et al. | Turkish sign language recognition based on multistream data fusion | |
Xu et al. | 3D joints estimation of the human body in single-frame point cloud | |
Xu et al. | A novel method for hand posture recognition based on depth information descriptor | |
Baulig et al. | Adapting egocentric visual hand pose estimation towards a robot-controlled exoskeleton | |
CN116030514A (zh) | 一种上下文感知的情绪识别方法、系统、介质及设备 | |
Shah et al. | Gesture recognition technique: a review | |
Ding et al. | Combining adaptive hierarchical depth motion maps with skeletal joints for human action recognition | |
Nappi et al. | Introduction to the special section on biometric systems and applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |