CN115601821B - 基于表情识别的交互方法 - Google Patents
基于表情识别的交互方法 Download PDFInfo
- Publication number
- CN115601821B CN115601821B CN202211545174.7A CN202211545174A CN115601821B CN 115601821 B CN115601821 B CN 115601821B CN 202211545174 A CN202211545174 A CN 202211545174A CN 115601821 B CN115601821 B CN 115601821B
- Authority
- CN
- China
- Prior art keywords
- image
- initial
- characteristic image
- feature
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 130
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000003993 interaction Effects 0.000 title claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 41
- 230000001815 facial effect Effects 0.000 claims abstract description 28
- 238000011176 pooling Methods 0.000 claims description 55
- 239000013598 vector Substances 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 32
- 230000004044 response Effects 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 230000002776 aggregation Effects 0.000 claims description 13
- 238000004220 aggregation Methods 0.000 claims description 13
- 239000000654 additive Substances 0.000 claims description 10
- 230000000996 additive effect Effects 0.000 claims description 10
- 230000008451 emotion Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 230000006911 nucleation Effects 0.000 claims 1
- 238000010899 nucleation Methods 0.000 claims 1
- 230000000630 rising effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 206010063385 Intellectualisation Diseases 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及数据处理领域,公开了一种基于表情识别的交互方法,该方法包括:根据待检测面部图像,确定与所述待检测面部图像对应的目标表情类别;根据所述目标表情类别,确定与所述目标表情类别对应的正向负向分级;根据所述正向负向分级,确定智能座舱的交互方式。本发明能够实现根据表情识别来提高智能座舱交互的智能化,进而,提高用户体验的效果。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于表情识别的交互方法。
背景技术
近些年来,随着智能座舱的发展,智能座舱可以在驾驶员驾驶汽车的途中对驾驶员进行疲劳检测。并且,可以在检测结果为疲劳时,对驾驶员进行提醒,避免由于疲劳驾驶带来的安全隐患。
但是,智能座舱在驾驶员疲劳时进行提醒的方式通常为语音提醒,其智能化程度较低,会影响驾驶员的用户体验。
有鉴于此,特提出本发明。
发明内容
为了解决上述技术问题,本发明提供了一种基于表情识别的交互方法,实现根据表情识别来提高智能座舱交互的智能化,进而,提高用户体验的效果。
本发明实施例提供了一种基于表情识别的交互方法,该方法包括:
根据待检测面部图像,确定与所述待检测面部图像对应的目标表情类别;
根据所述目标表情类别,确定与所述目标表情类别对应的正向负向分级;
根据所述正向负向分级,确定智能座舱的交互方式。
本发明实施例具有以下技术效果:
通过根据多通道面部图像,进行表情识别,来确定目标表情类别,进而,根据目标表情类别进行分析,得到目标表情类别所对应的正向负向分级,并确定与正向负向分级对应的智能座舱的交互方式,以调节智能座舱的交互方式,使其与驾驶员的适配性更高,提高了驾驶员的驾驶体验。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于表情识别的交互方法的流程图;
图2是本发明实施例提供的另一种基于表情识别的交互方法的流程图;
图3是本发明实施例提供的另一种基于表情识别的交互方法的流程图;
图4是本发明实施例提供的一种通道注意力模块的处理流程示意图;
图5是本发明实施例提供的一种空间注意力模块的处理流程示意图;
图6是本发明实施例提供的另一种基于表情识别的交互方法的流程图;
图7是本发明实施例提供的一种输出特征图像的获取流程示意图;
图8是本发明实施例提供的一种核化双线性聚合模块的处理流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整的描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
本发明实施例提供的基于表情识别的交互方法,主要适用于对驾驶员的表情进行识别,并根据识别得到的表情调整智能座舱的交互方式的情况。本发明实施例提供的基于表情识别的交互方法可以集成在车载主机中或者由其他电子设备执行。
图1是本发明实施例提供的一种基于表情识别的交互方法的流程图。参见图1,该基于表情识别的交互方法具体包括:
S110、根据待检测面部图像,确定与待检测面部图像对应的目标表情类别。
其中,待检测面部图像可以是基于驾驶室内的拍摄装置获取的驾驶员的面部图像。目标表情类别可以是对待检测面部图像进行表情识别处理得到的结果,用于表示待检测面部图像的表情类别。
具体的,对待检测面部图像进行表情识别分析,例如通过预先建立的深度学习表情识别模型进行表情识别等,将识别分析的结果作为与待检测面部图像对应的目标表情类别。
S120、根据目标表情类别,确定与目标表情类别对应的正向负向分级。
其中,正向负向分级可以是预先设定的情绪分级,正向可以表示高级别,即情绪高涨,负向可以表示低级别,即情绪低沉,用于对不同的标签类别进行级别划分。
具体的,可以根据预先设定的情绪分级方式,对目标表情类别进行分级处理,得到与目标表情类别对应的正向负向分级。
示例性的,若目标表情类别为高兴,则与目标表情类别对应的正向负向分级为正向,即高级别;若目标表情类别为沮丧,则与目标表情类别对应的正向负向分级为负向,即低级别。
在上述示例的基础上,可以通过下述方式来根据目标表情类别,确定与目标表情类别对应的正向负向分级:
根据目标表情类别,确定与目标表情类别相对应的响应速度;根据响应速度,确定与目标表情类别对应的正向负向分级。
其中,响应速度可以是与某一表情类别对应的驾驶员,对外界信息的反应速度,例如可以包括对语音信息的反应速度,对屏幕亮度的反应速度等。
具体的,根据预先确定的表情类别与响应速度的对应关系,可以确定出与目标表情类别相对应的响应速度。进而,可以针对响应速度,确定响应速度对应的响应级别,即正向负向分级。其中,响应级别可以包括快速响应、稍快响应、正常响应、稍慢响应以及慢速响应等。
可以理解的是,可以通过预先进行的多次试验来确定表情类别与响应速度的对应关系,并确定响应速度与响应级别的对应关系。
S130、根据正向负向分级,确定智能座舱的交互方式。
其中,智能座舱的交互方式可以包括语音交互方式、屏幕显示交互方式、触觉交互方式等。
具体的,在确定正向负向分级之后,可以按照预先设定的级别与交互方式的对应关系,确定智能座舱的交互方式。并且,可以实施确定出的智能座舱的交互方式,以提高驾驶员的驾驶体验,使交互方式与驾驶员情绪相适配。
示例性的,若正向负向分级为快速响应,则表明外界信息无需使用较大的刺激就可以被驾驶员所接收,此时可以令智能座舱的交互方式调整为低级别模式,例如通过低音量进行语音交互等;若正向负向分级为慢速响应,则表明外界信息需要使用较大的刺激才可以被驾驶员所接收,此时可以令智能座舱的交互方式调整为高级别模式,例如通过高音量进行语音交互,在交互时增加方向盘震动,提高显示屏幕亮度等。
本实施例具有以下技术效果:通过根据多通道面部图像,进行表情识别,来确定目标表情类别,进而,根据目标表情类别进行分析,得到目标表情类别所对应的正向负向分级,并确定与正向负向分级对应的智能座舱的交互方式,以调节智能座舱的交互方式,使其与驾驶员的适配性更高,提高了驾驶员的驾驶体验。
图2是本发明实施例提供的另一种基于表情识别的交互方法的流程图,在上述实施例的基础上,待检测面部图像为多通道面部图像,针对确定与多通道面部图像对应的目标表情类别的具体实施方式可以参见本技术方案的详细阐述。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2,该基于表情识别的交互方法具体包括:
S210、基于多通道面部图像,确定初始特征图像。
其中,多通道面部图像可以是包含有面部信息的多通道图像,多通道图像可以是如RGB(Red Green Blue,红绿蓝)图像、HSV(Hue Saturation Value,色相色饱和度色明度)图像、HSI(Hue Saturation Intensity,色相色饱和度亮度)图像等。初始特征图像可以是用于表征多通道面部图像的特征信息的图像。
具体的,可以通过摄像头等拍摄装置获取多通道面部图像,进而,通过预设的初始特征提取模型可以对多通道面部图像进行特征提取,得到初始特征图像。其中,预设的初始特征提取模型可以是卷积神经网络等。
示例性的,选择一个主干卷积神经网络(例如:ResNet50)作为多通道面部图像对应的初始特征提取模型。由于底层特征集中于学习更复杂的形状和语义信息,因此将高层特征Conv5-3(第5个卷积模块的第3层)作为初始特征图像。上述过程可以概括为公式F=W*I,其中,F表示初始特征图像,I表示多通道面部图像,W表示主干卷积神经网络的所有参数,*表示卷积和池化等操作。
S220、基于通道注意力模块对初始特征图像进行处理,得到第一特征图像,并基于空间注意力模块对初始特征图像进行处理,得到第二特征图像。
其中,通道注意力模块可以是在通道维度上对局部区域进行建模,对具有判别性的局部区域分配较大的权重,以提高特征的判别能力。第一特征图像可以是通道注意力模块处理后的特征图。空间注意力模块可以是在空间维度上对局部区域进行建模,对具有判别性的局部区域分配较大的权重,以提高特征的判别能力。第二特征图像可以是空间注意力模块处理后的特征图。
具体的,将初始特征图像输入至通道注意力模块中进行处理,将处理得到的特征图作为第一特征图像。将初始特征图像输入至空间注意力模块中进行处理,将处理得到的特征图作为第二特征图像。
S230、根据第一特征图像以及第二特征图像,确定注意力特征图。
其中,注意力特征图可以是融合第一特征图像和第二特征图像的特征图。
具体的,在获取第一特征图像和第二特征图像之后,可以对第一特征图像和第二特征图像按照预设的融合方式进行融合处理,将融合处理的结果作为注意力特征图。
S240、将注意力特征图输入至预先训练完成的表情识别模型中,得到目标表情类别。
其中,表情识别模型可以是用于对表情类别进行识别的模型,例如可以是深度学习分类模型等。表情识别模型通过加性角边距损失训练得到。目标表情类别可以是表情识别模型的输出结果,用于表示多通道面部图像的表情类别。
具体的,将注意力特征图作为模型输入,输入至预先训练完成的表情识别模型中,通过表情识别模型进行分类识别处理,将模型输出的类别作为目标表情类别。
在上述示例的基础上,可选的,表情识别模型可以通过下述训练方法得到:
步骤一、基于包括面部区域的样本原始图像以及与样本原始图像对应的样本表情类别对初始识别模型进行训练,确定初始识别模型的目标损失。
其中,样本原始图像可以是包括面部区域的样本图像。样本表情类别可以是样本原始图像中面部区域对应的表情类别。初始识别模型可以是网络模型参数未经调整的分类识别模型。目标损失可以是用于判断模型是否需要进行参数调整的数值。目标损失基于加性角边距损失函数计算得到。
具体的,将包括面部区域的样本原始图像以及与样本原始图像对应的样本表情类别作为样本集,对初始识别模型进行训练,并根据初始识别模型的输出结果确定目标损失。
步骤二、基于目标损失,对初始识别模型进行模型参数调整,得到表情识别模型。
具体的,在目标损失满足停止条件的情况下,将此时的初始识别模型作为表情识别模型。在目标损失不满足停止条件的情况下,根据目标损失对初始识别模型中的模型参数进行调整,将调整后的模型作为新的初始识别模型,并返回执行基于包括面部区域的样本原始图像以及与样本原始图像对应的样本表情类别对初始识别模型进行训练,确定初始识别模型的目标损失的操作。
可以理解的是,样本原始图像xi对应的注意力特征图fi是样本原始图像xi经过通道注意力模块和空间注意力模块输出的特征图,还可以是进一步经过核化双线性聚合模块处理,得到的新的注意力特征图fi,用于后续分类识别。yi∈{1,2,…,K}是样本原始图像xi对应的类别标签。
给定一个样本原始图像xi,通过Softmax回归预测的属于类别c的条件概率为
其中,和分别表示权重的第yi列和第j列的权重向量,和分别表示第yi列和第j列的偏置。给定N个训练样本(样本原始图像以及与样本原始图像对应的样本表情类别),Softmax交叉熵损失可以衡量初始识别模型的输出和真实标签(样本表情类别)之间的差异,即第一损失L1可表示为
。
对权重矩阵W和深度特征zi的模长进行归一化处理,得到和。此外,将偏置和都设置为0,则深度特征zi和权重矩阵W的内积等于余弦相似度,即
其中,表示权重Wj与fi之间的夹角。因此L1可以转换为第二损失L2:
其中,s表示缩放因子,即比例系数。
为了使得类内样本空间更加紧凑和类间样本空间更加分离,加性角边距损失函数在权重矩阵W与注意力特征图fi之间的余弦角度空间中加入边距m。而添加的边距m等同于归一化超球面中的测地距离间隔,这使得加性角边距损失函数具有几何角度解释性。加性角边距损失函数L3可表示为
。
S250、根据目标表情类别,确定与目标表情类别对应的正向负向分级。
S260、根据正向负向分级,确定智能座舱的交互方式。
本实施例具有以下技术效果:通过对多通道面部图像进行特征提取得到初始特征图像,基于通道注意力模块对初始特征图像进行处理得到第一特征图像,并基于空间注意力模块对初始特征图像进行处理得到第二特征图像,进而,将第一特征图像和第二特征图像进行融合处理得到注意力特征图,将注意力特征图输入至预先训练完成的表情识别模型中,得到目标表情类别,通过通道与空间双注意力机制增强表情图像的特征表达能力,并通过引入加性角边距损失的表情识别模型来提高表情识别的准确性和鲁棒性。
图3是本发明实施例提供的另一种基于表情识别的交互方法的流程图,在上述实施例的基础上,针对确定第一特征图像和第二特征图像的具体实施方式可以参见本技术方案的详细阐述。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2,该基于表情识别的交互方法具体包括:
S301、基于多通道面部图像,确定初始特征图像。
S302、根据通道注意力模块中的全局平均池化层对初始特征图像进行池化处理,得到第一池化向量。
其中,全局平均池化层可以用于进行聚合处理。第一池化向量可以是通道注意力模块中的全局平均池化层的输出结果。
具体的,将初始特征图像输入至通道注意力模块中的全局平均池化层中进行聚合,输出第一池化向量。
示例性的,图4是本发明实施例提供的一种通道注意力模块的处理流程示意图,如图4所示,初始特征图为,其中,C表示通道数,H表示多通道面部图像的高,W表示多通道面部图像的宽。第一池化向量可以表示为
。
S303、对第一池化向量进行标准化处理,得到标准化向量;根据高斯函数,对标准化向量进行激励,得到第一权重图像。
其中,标准化向量可以是标准化处理后的结果向量。第一权重图像可以是进行注意力激活处理后的权重图像。
具体的,对第一池化向量进行标准化以稳定全局上下文的分布,得到标准化向量。然后,通过高斯函数对标准化向量进行激励操作来获得注意力激活值,根据注意力激活值构建第一权重图像。
示例性的,如图4所示,其中,对第一池化向量z进行标准化的过程可以表示为,其中,表示第一池化向量z的均值,是用于稳定均值为0、方差为1的高斯分布的因子,为常数。此外,可以将标准化运算记为;高斯函数可以表示为这里,b表示均值,设置为0,a为高斯系数,设置为1,c表示标准差,用于控制通道特征的多样性,标准差越大,通道间激活值多样性就越小。据此进行简化,可以将表示为,其中,g表示第一权重图像。
S304、根据第一权重图像以及初始特征图像,得到第一特征图像。
具体的,将第一权重图像与初始特征图像进行逐像素相乘,得到第一特征图像。
示例性的,如图4所示,将第一权重图像g和初始特征图F相乘,即可得到通道注意力机制加权后的第一特征图像Fc,第一特征图像Fc可以表示为:
其中,表示逐像素相乘。
S305、根据空间注意力模块中的全局平均池化层对初始特征图像进行池化处理,得到第二池化向量,并根据空间注意力模块中的全局最大池化层对初始特征图像进行池化处理,得到第三池化向量。
其中,全局平均池化层和全局最大池化层可以是空间注意力模块中并列进行池化处理的网络层。第二池化向量可以是空间注意力模块中的全局平均池化层的池化处理结果。第三池化向量可以是空间注意力模块中的全局最大池化层的池化处理结果。
具体的,将初始特征图像输入至空间注意力模块中的全局平均池化层中进行池化处理,输出第二池化向量。将初始特征图像输入至空间注意力模块中的全局最大池化层中进行池化处理,输出第三池化向量。
示例性的,图5是本发明实施例提供的一种空间注意力模块的处理流程示意图,如图5所示,沿着通道维度分别采用全局平均池化和全局最大池化对初始特征图像F进行处理,来获得第二池化向量FsGAP和第三池化向量FsGMP,维度均为h×w×1。
S306、根据预设卷积层,对第二池化向量与第三池化向量之和进行卷积处理,得到卷积图像。
其中,预设卷积层可以是预先设定卷积核大小的卷积层,例如3×3的卷积层。
具体的,将第二池化向量和第三池化向量进行逐像素相加,将和值输入至预设卷积层内,得到的卷积处理结果即为卷积图像。
示例性的,如图5所示,将第二池化向量FsGAP和第三池化向量FsGMP逐像素相加后进行3×3的卷积,得到卷积图像。
S307、通过第一激活函数对卷积图像进行激活处理,得到第二权重图像;根据第二权重图像以及初始特征图像,得到第二特征图像。
其中,第一激活函数可以是预设的激活函数,例如sigmoid函数等。第二权重图像可以是经过第一激活函数进行激活处理后的结果图像。
具体的,将卷积图像输入至第一激活函数中,得到第二权重图像,根据第二权重图像对初始特征图像进行加权和融合处理,得到第二特征图像。
示例性的,如图5所示,将卷积图像传递给sigmoid函数以获得第二权重图像Ms。将第二权重图像Ms逐元素与初始特征图像F相乘,得到空间注意力特征图像,公式表达为:
。
进一步的,将空间注意力特征图像添加到初始特征图像F中,得到第二特征图像Fs:
其中,表示sigmoid函数,f表示3×3的卷积操作,表示逐像素相加,表示逐像素相乘。
S308、根据第一特征图像以及第二特征图像,确定注意力特征图。
S309、将注意力特征图输入至预先训练完成的表情识别模型中,得到目标表情类别。
S310、根据目标表情类别,确定与目标表情类别对应的正向负向分级。
S311、根据正向负向分级,确定智能座舱的交互方式。
本实施例具有以下技术效果:通过通道和空间注意力机制分别从通道和空间两个维度上对局部区域进行建模,对具有判别性的局部区域分配相当大的权重,得到第一特征图像和第二特征图像,将第一特征图像和第二特征图像以矩阵相加的方式进行融合处理得到注意力特征图,通过通道与空间双注意力机制增强表情图像的特征表达能力,并通过引入加性角边距损失的表情识别模型来提高表情识别的准确性和鲁棒性。
图6是本发明实施例提供的另一种基于表情识别的交互方法的流程图,在上述实施例的基础上,针对确定注意力特征图的具体实施方式可以参见本技术方案的详细阐述。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。参见图6,该基于表情识别的交互方法具体包括:
S401、基于多通道面部图像,确定初始特征图像。
S402、基于通道注意力模块对初始特征图像进行处理,得到第一特征图像,并基于空间注意力模块对初始特征图像进行处理,得到第二特征图像。
S403、将第一特征图像与第二特征图像相加,得到输出特征图像。
其中,输出特征图像可以是第一特征图像和第二特征图像的和。
示例性的,图7是本发明实施例提供的一种输出特征图像的获取流程示意图,将通道注意力模块输出的第一特征图像Fc和空间注意力模块输出的第二特征图像Fs进行相加得到输出特征图像FDA:FDA=Fc+Fs。
可以理解的是,下述S404-S408为通过核化双线性聚合模块对输出特征图像进行外积聚合处理的过程。示例性的,图8是本发明实施例提供的一种核化双线性聚合模块的处理流程示意图。
S404、对输出特征图像进行通道二范数归一化处理,得到归一化特征图像。
其中,归一化特征图像可以是通道二范数归一化处理后的特征图。
S405、将归一化特征图像沿通道进行展开,得到展开特征图像。
示例性的,如图8所示,对输出特征图像FDA进行通道二范数归一化处理,到归一化特征图像,并将归一化特征图像的结构沿通道展开为展开特征图像X∈Rd×N,其中,N=h×w,d为特征通道数。
S406、对展开特征图像进行外积聚合处理,得到外积矩阵。
其中,外积聚合处理可以是展开特征图像与展开特征图像的转置进行求外积处理的结果矩阵。
示例性的,如图8所示,对展开特征图像X进行外积聚合的结果,即外积矩阵为XXT∈Rd×d。
S407、根据第二激活函数对外积矩阵进行核化处理,得到核化矩阵。
其中,第二激活函数可以是预先确定的激活函数,例如可以是采用sigmoid核函数等。核化矩阵可以是进行核化处理后的结果矩阵。
示例性的,如图8所示,采用sigmoid核函数的方式对外积矩阵进行核化双线性聚合,以建模通道向量间的非线性关系,得到核化矩阵P。
可选的,第二激活函数的核函数为
K(xi,xj)=tanh(θ·< xi,xj >+γ)
其中,K表示核函数,(xi,xj)表示展开特征图像的第i行第j列的像素点,θ表示幅度调节参数,γ表示位移参数。
示例性的,如图8所示,核化矩阵P可以通过下述方式确定:
P=K(XXT)=tanh(θ·XXT+γ·1d×d)
其中,1d×d表示d维单位矩阵。
S408、根据预设幂指数以及核化矩阵,进行幂指数运算,得到注意力特征图。
其中,预设幂指数可以是根据需求确定的幂指数。
具体的,将核化矩阵作为底数,将预设幂指数作为幂指数,进行幂指数运算,可选的,还可以进行其他处理,得到细粒度的注意力特征图。
在上述示例的基础上,可以通过下述方式来得到注意力特征图:
根据预设幂指数以及核化矩阵,进行幂指数运算,得到幂指数矩阵,将幂指数矩阵的上三角部分作为注意力特征图。
其中,幂指数矩阵可以是幂指数运算的结果。
示例性的,如图8所示,对核化矩阵矩阵P进行指数幂操作,幂指数设为α,得到幂指数矩阵,取幂指数矩阵的上三角部分作为多通道面部图像的最终表达,即注意力特征图f,以进行后续的细粒度表情识别分类。
S409、将注意力特征图输入至预先训练完成的表情识别模型中,得到目标表情类别。
S410、根据目标表情类别,确定与目标表情类别对应的正向负向分级。
S411、根据正向负向分级,确定智能座舱的交互方式。
可以理解的是,通过上述得到目标表情类别的方式,有助于智能座舱根据面部表情的细微差异,自动通过音乐、环境照明、环境调控、语音交互等方式进行调节,以优化车内环境,为用户提供舒适的驾驶环境。
本实施例具有以下技术效果:通过核化双线性聚合模块对第一特征图像和第二特征图像进行外积聚合,获取二阶统计特征,进一步增强卷积特征的鉴别能力,通过通道与空间双注意力机制和双线性池化来增强表情图像的特征表达能力,并引入加性角边距损失来引导识别具有判别性的细粒度表情特征,进而对不同表情间的细微差异进行区分,提高表情识别的准确性和鲁棒性,实现表情的精细识别。
需要说明的是,本发明所用术语仅为了描述特定实施例,而非限制本申请范围。如本发明说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。
还需说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”等应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案。
Claims (8)
1.一种基于表情识别的交互方法,其特征在于,包括:
根据待检测面部图像,确定与所述待检测面部图像对应的目标表情类别;
根据所述目标表情类别,确定与所述目标表情类别对应的正向负向分级;
根据所述正向负向分级,确定智能座舱的交互方式;其中,所述正向负向分级是预先设定的情绪分级,正向表示情绪高涨,负向表示情绪低沉;
所述待检测面部图像为多通道面部图像;所述根据待检测面部图像,确定与所述待检测面部图像对应的目标表情类别,包括:
基于所述多通道面部图像,确定初始特征图像;
基于通道注意力模块对所述初始特征图像进行处理,得到第一特征图像,并基于空间注意力模块对所述初始特征图像进行处理,得到第二特征图像;
根据所述第一特征图像以及所述第二特征图像,确定注意力特征图;
将所述注意力特征图输入至预先训练完成的表情识别模型中,得到目标表情类别;其中,所述表情识别模型通过加性角边距损失训练得到;
所述基于通道注意力模块对所述初始特征图像进行处理,得到第一特征图像,包括:
根据所述通道注意力模块中的全局平均池化层对所述初始特征图像进行池化处理,得到第一池化向量;
对所述第一池化向量进行标准化处理,得到标准化向量;
根据高斯函数,对所述标准化向量进行激励,得到第一权重图像;
根据所述第一权重图像以及所述初始特征图像,得到第一特征图像。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标表情类别,确定与所述目标表情类别对应的正向负向分级,包括:
根据所述目标表情类别,确定与所述目标表情类别相对应的响应速度;
根据所述响应速度,确定与所述目标表情类别对应的正向负向分级。
3.根据权利要求1所述的方法,其特征在于,所述基于空间注意力模块对所述初始特征图像进行处理,得到第二特征图像,包括:
根据所述空间注意力模块中的全局平均池化层对所述初始特征图像进行池化处理,得到第二池化向量,并根据所述空间注意力模块中的全局最大池化层对所述初始特征图像进行池化处理,得到第三池化向量;
根据预设卷积层,对所述第二池化向量与所述第三池化向量之和进行卷积处理,得到卷积图像;
通过第一激活函数对所述卷积图像进行激活处理,得到第二权重图像;
根据所述第二权重图像以及所述初始特征图像,得到第二特征图像。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二权重图像以及所述初始特征图像,得到第二特征图像,包括:
将所述第二权重图像与所述初始特征图像进行逐元素相乘,得到过程特征图像;
将所述过程特征图像与所述初始特征图像进行逐元素相加,得到第二特征图像。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征图像以及所述第二特征图像,确定注意力特征图,包括:
将所述第一特征图像与所述第二特征图像相加,得到输出特征图像;
对所述输出特征图像进行通道二范数归一化处理,得到归一化特征图像;
将所述归一化特征图像沿通道进行展开,得到展开特征图像;
对所述展开特征图像进行外积聚合处理,得到外积矩阵;其中,所述外积矩阵为:XXT∈Rd×d,其中,X表示所述展开特征图像,d表示特征通道数;
根据第二激活函数对所述外积矩阵进行核化处理,得到核化矩阵;其中,所述核化矩阵通过下述公式得到:
P=K(XXT);其中,P表示所述核化矩阵,K表示所述第二激活函数的核函数;
根据预设幂指数以及所述核化矩阵,进行幂指数运算,得到注意力特征图。
6. 根据权利要求5所述的方法,其特征在于,所述第二激活函数的核函数为
K(xi,xj)=tanh(θ·< xi,xj >+γ)
其中,K表示核函数,(xi,xj)表示展开特征图像的第i行第j列的像素点,θ表示幅度调节参数,γ表示位移参数。
7.根据权利要求5所述的方法,其特征在于,所述根据预设幂指数以及所述核化矩阵,进行幂指数运算,得到注意力特征图,包括:
根据预设幂指数以及所述核化矩阵,进行幂指数运算,得到幂指数矩阵,将所述幂指数矩阵的上三角部分作为注意力特征图。
8.根据权利要求1所述的方法,其特征在于,所述表情识别模型基于如下方式训练得到:
基于包括面部区域的样本原始图像以及与所述样本原始图像对应的样本表情类别对初始识别模型进行训练,确定所述初始识别模型的目标损失;其中,所述目标损失基于加性角边距损失函数计算得到;
基于所述目标损失,对所述初始识别模型进行模型参数调整,得到表情识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211545174.7A CN115601821B (zh) | 2022-12-05 | 2022-12-05 | 基于表情识别的交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211545174.7A CN115601821B (zh) | 2022-12-05 | 2022-12-05 | 基于表情识别的交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115601821A CN115601821A (zh) | 2023-01-13 |
CN115601821B true CN115601821B (zh) | 2023-04-07 |
Family
ID=84853394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211545174.7A Active CN115601821B (zh) | 2022-12-05 | 2022-12-05 | 基于表情识别的交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115601821B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507149A (zh) * | 2020-01-03 | 2020-08-07 | 京东方科技集团股份有限公司 | 基于表情识别的交互方法、装置和设备 |
CN113743484A (zh) * | 2021-08-20 | 2021-12-03 | 宁夏大学 | 基于空间和通道注意力机制的图像分类方法与系统 |
CN114550270A (zh) * | 2022-03-03 | 2022-05-27 | 重庆邮电大学 | 一种基于双注意力机制的微表情识别方法 |
CN114612987A (zh) * | 2022-03-17 | 2022-06-10 | 深圳集智数字科技有限公司 | 一种表情识别方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780062A (zh) * | 2021-07-26 | 2021-12-10 | 岚图汽车科技有限公司 | 一种基于情感识别的车载智能交互方法、存储介质及芯片 |
CN114494127A (zh) * | 2021-12-23 | 2022-05-13 | 山东师范大学 | 基于通道注意力深度学习的医学图像分类系统 |
CN115100709B (zh) * | 2022-06-23 | 2023-05-23 | 北京邮电大学 | 一种特征分离的图像人脸识别与年龄估计方法 |
CN115100712A (zh) * | 2022-06-27 | 2022-09-23 | 无锡闻泰信息技术有限公司 | 表情识别方法、装置、电子设备及存储介质 |
CN115240261A (zh) * | 2022-08-02 | 2022-10-25 | 武汉烽火技术服务有限公司 | 一种基于混合注意力机制的人脸表情识别方法和装置 |
-
2022
- 2022-12-05 CN CN202211545174.7A patent/CN115601821B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507149A (zh) * | 2020-01-03 | 2020-08-07 | 京东方科技集团股份有限公司 | 基于表情识别的交互方法、装置和设备 |
CN113743484A (zh) * | 2021-08-20 | 2021-12-03 | 宁夏大学 | 基于空间和通道注意力机制的图像分类方法与系统 |
CN114550270A (zh) * | 2022-03-03 | 2022-05-27 | 重庆邮电大学 | 一种基于双注意力机制的微表情识别方法 |
CN114612987A (zh) * | 2022-03-17 | 2022-06-10 | 深圳集智数字科技有限公司 | 一种表情识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115601821A (zh) | 2023-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059582B (zh) | 基于多尺度注意力卷积神经网络的驾驶员行为识别方法 | |
CN113537138B (zh) | 一种基于轻量化神经网络的交通标志识别方法 | |
CN107292291A (zh) | 一种车辆识别方法和系统 | |
CN111126258A (zh) | 图像识别方法及相关装置 | |
CN111898523A (zh) | 一种基于迁移学习的遥感图像特种车辆目标检测方法 | |
US20160224903A1 (en) | Hyper-parameter selection for deep convolutional networks | |
CN111897964A (zh) | 文本分类模型训练方法、装置、设备及存储介质 | |
CN111341349B (zh) | 情绪推断装置、情绪推断方法、及存储介质 | |
CN113177559B (zh) | 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质 | |
CN116051953A (zh) | 基于可选择卷积核网络及加权双向特征金字塔的小目标检测方法 | |
CN114787844A (zh) | 模型训练方法、视频处理方法、装置、存储介质及电子设备 | |
US20200218932A1 (en) | Method and system for classification of data | |
CN111666988A (zh) | 一种基于多层信息融合的目标检测算法 | |
CN111339830A (zh) | 一种基于多模态数据特征的目标分类方法 | |
CN110633701A (zh) | 一种基于计算机视觉技术的驾驶员打电话检测方法及系统 | |
CN115273032A (zh) | 交通标志识别方法、装置、设备及介质 | |
CN116453109A (zh) | 3d目标检测方法、装置、设备及存储介质 | |
CN110909582B (zh) | 一种人脸识别的方法及设备 | |
CN115601821B (zh) | 基于表情识别的交互方法 | |
KR20200137772A (ko) | 분류기 생성 장치, 방법 및 이에 의해 생성되는 분류 장치 | |
CN110879993A (zh) | 神经网络训练方法、人脸识别任务的执行方法及装置 | |
KR101334858B1 (ko) | 나비종 자동분류 시스템 및 방법, 이를 이용한 나비종 자동분류 기능이 구비된 휴대 단말기 | |
CN111722717A (zh) | 手势识别方法、装置及计算机可读存储介质 | |
CN116777929A (zh) | 一种黑夜场景图像语义分割方法、装置及计算机介质 | |
CN114092818B (zh) | 语义分割方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |