CN116098621A

CN116098621A - 一种基于注意力机制的情绪面孔及生理反应识别方法

Info

Publication number: CN116098621A
Application number: CN202310113595.0A
Authority: CN
Inventors: 廖梦怡; 赵红利; 王静静; 王小鹤; 李延方; 马臻
Original assignee: Pingdingshan University
Current assignee: Pingdingshan University
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-05-12

Abstract

本发明公开了一种基于注意力机制的情绪面孔及生理反应识别方法，该方法包括以下步骤：采集测试儿童的面部表情数据、眼动数据及脑电数据，并检测该儿童的脑电采集设备是否正确佩戴；基于上下文感知特征提取技术对儿童面部表情数据、眼动数据及脑电数据进行提取，并获得面部表情上下文特征、眼动上下文特征及脑电上下文特征；对面部表情特征、眼动特征及脑电特征进行交互特征融合，得到融合特征；使用门控卷积机制对融合特征进行冗余信息过滤，得到过滤后特征；根据过滤后特征并使用分类器完成自闭症儿童识别任务。通过多源数据融合实现自闭症儿童智能化识别精准度的提升；减少患者家庭、社会的经济负担；提升医生诊断效率和诊断结果的精度。

Description

一种基于注意力机制的情绪面孔及生理反应识别方法

技术领域

本发明涉及自闭症识别领域，具体来说，涉及一种基于注意力机制的情绪面孔及生理反应识别方法。

背景技术

自闭症是一种发病于儿童早期的广泛性神经发育障碍，其特征为社交障碍、语言和非语言交流障碍、兴趣狭隘、重复和刻板行为。目前自闭症的病因尚不清楚，在医学领域也没有可以治愈的特效药。自闭症患者大多存在社会适应不良或终生障碍，生活不能自理，成为社会和家庭的巨大经济和精神负担。

自闭症的早期发现，早期干预和早期治疗，可以显著改善预后。有临床对照研究表明，儿童神经的可塑性随着年龄增加而退化，在行为问题尚不突出的发病初期对儿童进行干预治疗，能够很大程度上改善自闭症儿童的语言能力、认知能力以及行为习惯。因此，自闭症的早期识别工作意义重大，越来越多的研究人员、医务工作者、特殊教育康复机构开始进入自闭症早期识别技术的研究。

例如情绪唤醒理论从生理视角和神经心理视角解释了自闭症患者情绪识别和理解方面存在障碍，可以作为自闭症儿童智能化识别的研究基础。情绪唤醒理论认为，当个体感知到他人的表情或情绪时，大脑对应的情感脑区会被激活，从而产生情绪唤醒，产生与他人同形的情绪理解、情绪共享和感染。研究发现，自闭症个体存在面部表情认知障碍、情绪理解障碍和情绪唤醒障碍，导致其社会功能受损，而这一特质被研究人员用来进行自闭症儿童识别。然而现有自闭症的研究大多基于行为数据，而自闭症儿童非典型性脑发育出现的时间要早于非典型行为出现的时间，如果单纯根据行为特征进行识别，则会错过早期干预的关键时期。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于注意力机制的情绪面孔及生理反应识别方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种基于注意力机制的情绪面孔及生理反应识别方法，该方法包括以下步骤：

S1、利用预先配置的摄像机、眼动采集设备及脑电采集设备对测试儿童的面部表情数据、眼动数据及脑电数据进行采集，并检测该儿童的脑电采集设备是否正确佩戴；

S2、基于上下文感知特征提取技术对儿童面部表情数据、眼动数据及脑电数据进行提取，并获得面部表情上下文特征、眼动上下文特征及脑电上下文特征；

S3、对面部表情特征、眼动特征及脑电特征进行交互特征融合，得到融合特征；

S4、使用门控卷积机制对融合特征进行冗余信息过滤，得到过滤后特征；

S5、根据过滤后特征并使用分类器完成自闭症儿童识别任务。

进一步的，所述利用预先配置的摄像机、眼动采集设备及脑电采集设备对测试儿童的面部表情数据、眼动数据及脑电数据进行采集包括以下步骤：

在儿童面前配置摄像机及眼动采集设备，且为儿童佩戴脑电采集设备；

在预先建立的面部表情数据库中选取若干表情图片，且表情图片的表情强度由低到高依次呈现，同时每张图片呈现10秒。

进一步的，所述检测该儿童的脑电采集设备是否正确佩戴包括以下步骤：

通过预先配置的摄像机实时采集儿童正面图像，作为检测使用；

将采集的儿童正面图像输入训练好的人体关键点检测网络Openpose中，并检测得到儿童各个关键点的位置；

将采集的儿童正面图像输入训练好的人体框检测模型及脑电采集设备检测模型YOLO3中，并检测得到儿童身体框及脑电采集设备的位置；

检测得到儿童的头部关键点位置，定位出儿童头部所在区域的中心点，且以儿童身体框中较短边作为边长形成矩形区域，并将该矩形区域作为儿童头部所在区域；

根据检测得到的脑电采集设备的位置及儿童头部所在区域确定儿童是否正确佩戴脑电采集设备；

若佩戴正确，则儿童继续进行数据采集，若佩戴不正确，则提示工作人员帮助儿童正确佩戴脑电采集设备。

进一步的，所述检测得到儿童的头部关键点位置，定位出儿童头部所在区域的中心点包括以下步骤：

将儿童正面图像的大小转换为40*40*3，并输入至DCNN中的人脸关键精确定位网络结构中，且输入层的大小为n；

通过儿童的人脸关键点预测值和真实值的欧式距离与儿童人脸大小的比值确定检测误差；

其中，儿童人脸关键点中眼睛定位的计算公式为：

式中，lx和ly分别表示坐标空间内儿童眼睛边框矩形顶角对应的位置信息；

x_i和x_j分别为第i个和第j个关键点的横坐标；

y_m和y_n分别为第m个和第n个关键点的纵坐标；

儿童人脸关键点中嘴巴定位的计算公式为：

式中，x_k为第k个关键点的横坐标；

y_i和y_j分别为第i个和第j个关键点的纵坐标；

根据眼睛和嘴巴位置的中心点作为儿童头部所在区域的中心点。

进一步的，所述根据检测得到的脑电采集设备的位置及儿童头部所在区域确定儿童是否正确佩戴脑电采集设备包括以下步骤：

训练脑电采集设备的分类器；

在儿童头部所在区域通过分类器确定是否正确佩戴脑电采集设备；

其中，所述分类器采用卷积和全连接网络架构，且包含两个卷积层、一个池化层及两个全连接层。

进一步的，所述训练脑电采集设备的分类器时，获取脑电采集设备训练数据。

进一步的，所述获取脑电采集设备训练数据时，通过网络获取脑电采集设备和儿童相关的开源图片，且在真实环境中通过固定位置的摄像头采集训练图片，并利用YOLOV3提取环境区域作为儿童人体标签；

按儿童头部所在区域是否佩戴脑电采集设备作为正训练样本及负训练样本，保存。

进一步的，所述基于上下文感知特征提取技术对儿童面部表情数据、眼动数据及脑电数据进行提取，并获得面部表情上下文特征、眼动上下文特征及脑电上下文特征包括以下步骤：

按照每秒30帧的频率提取儿童面部表情数据、眼动数据及脑电数据，且得到面部表情数据、眼动数据及脑电数据相同长度的特征序列；

使用卷积神经网络对卷积核窗口内的特征进行压缩，并通过最大池化层和一个全连接层得到面部表情数据、眼动数据及脑电数据的特征表示；

将各个特征序列输入各数据源独立的子任务级LSTM，学习上下文信息，得到面部表情数据、眼动数据及脑电数据的上下文特征。

进一步的，所述对面部表情特征、眼动特征及脑电特征进行交互特征融合，得到融合特征包括以下步骤：

将面部表情特征、眼动特征及脑电特征进行两两组合，并在两个组合中设置一个主输入和一个辅助输入；

将主输入和辅助输入投影到同一个共享向量空间中，并将主输入和辅助输入在全连接层进行拼接，得到融合特征。

进一步的，所述使用门控卷积机制对融合特征进行冗余信息过滤，得到过滤后特征包括以下步骤：

使用一维卷积核对获取局部特征，且每个内核对应一个特征检测器，并通过特征检测器提取特定模式的活动局部特征；

每个卷积核对中包含两个内核，第一个内核进行转换信息，完成信息表示，另一个内核对应一个门控，用于控制第一个内核的结果流向最终表示的比例；

设定两个内核的权值为G_a和G_b，且利用tanh激活函数处理G_a对应的卷积核，将其接受域的r列映射为特征a，同时利用sigmoid激活函数处理G_b对应的卷积核，将其r列映射为特征b；

a与b的乘积表示过滤后特征。

本发明的有益效果为：

(1)本发明的一种基于注意力机制的情绪面孔及生理反应识别方法，通过多源数据融合实现自闭症儿童智能化识别精准度的提升。减少患者家庭、社会的经济负担：开展自闭症儿童智能化识别，及早发现及早治疗，有助于改善患儿病情严重程度，减轻个人、家庭及社会的负担。本发明提出的自闭症儿童智能化识别方法使用低成本的仪器设备采集儿童的各种行为、认知数据，较之传统的量表和医生主观判断的识别方法，更简单、便捷、客观、高效，能有效提升诊断效率，极大程度上减少医生工作的时间成本，进而减轻个人、家庭及社会的经济负担。

(2)提升医生诊断效率和诊断结果的精度：目前我国自闭症患者超过1000万，其中儿童患者超过200万，并以每年20万的速度增长，需要大量的医务工作人员，而我国目前医疗卫生资源相对紧张，传统的量表和医生主观判断的筛查方法费时、费力、主观误差较大，因此，迫切需要一种新的、高效率、高精度的识别方法。本发明提出的智能化识别方法，较之传统方法识别效率高，识别精度高。

(3)本发明在对儿童的面部表情数据、眼动数据及脑电数据进行采集时，能够实时的检测儿童的脑电采集设备是否正确佩戴，防止由于儿童的配合使用，导致脑电数据采集的不准确，同时由于采用精确的儿童头部所在区域的确认方法，使得儿童是否正确佩戴脑电采集设备的检测准确度大大提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于注意力机制的情绪面孔及生理反应识别方法的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种基于注意力机制的情绪面孔及生理反应识别方法。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明实施例的基于注意力机制的情绪面孔及生理反应识别方法，该方法包括以下步骤：

在一个实施例中，所述利用预先配置的摄像机、眼动采集设备及脑电采集设备对测试儿童的面部表情数据、眼动数据及脑电数据进行采集包括以下步骤：

在一个实施例中，所述检测该儿童的脑电采集设备是否正确佩戴包括以下步骤：

在一个实施例中，所述检测得到儿童的头部关键点位置，定位出儿童头部所在区域的中心点包括以下步骤：

检测误差的计算公式为：

式中，x_i和y_i分别为第i个关键点的横坐标和纵坐标；

和

分别为第i个关键点的横坐标和纵坐标的预测值；

其中，儿童人脸关键点中眼睛定位的计算公式为：

x_i和x_j分别为第i个和第j个关键点的横坐标；

y_m和y_n分别为第m个和第n个关键点的纵坐标；

儿童人脸关键点中嘴巴定位的计算公式为：

式中，x_k为第k个关键点的横坐标；

y_i和y_j分别为第i个和第j个关键点的纵坐标；

在一个实施例中，所述根据检测得到的脑电采集设备的位置及儿童头部所在区域确定儿童是否正确佩戴脑电采集设备包括以下步骤：

训练脑电采集设备的分类器；

在一个实施例中，所述训练脑电采集设备的分类器时，获取脑电采集设备训练数据；

在一个实施例中，所述获取脑电采集设备训练数据时，通过网络获取脑电采集设备和儿童相关的开源图片，且在真实环境中通过固定位置的摄像头采集训练图片，并利用YOLOV3提取环境区域作为儿童人体标签；

在训练时对正训练样本及负训练样本进行数据增强，包括水平翻转、放大、缩小、旋转等。

在一个实施例中，所述基于上下文感知特征提取技术对儿童面部表情数据、眼动数据及脑电数据进行提取，并获得面部表情上下文特征、眼动上下文特征及脑电上下文特征包括以下步骤：

按照每秒30帧的频率提取儿童面部表情数据、眼动数据及脑电数据，且得到面部表情数据、眼动数据及脑电数据相同长度的特征序列；例如，使用OGAMA软件提取眼动数据基础特征，使用EmotivPRO提取脑电数据基础特征，使用预训练的表情识别模型的中间层输出作为面部表情特征；经过上述特征提取和处理后，在三种数据源上得到了相同长度的特征序列，作为后续模型的输入。例如某个被试的面部表情视频片段包含10个子任务，一个子任务包含10秒的视频帧。各数据源特征序列可以表示为：

式中，m∈{e,f,k}，e,f,k分别对应眼动、面部表情、脑电三种数据源；

表示儿童在完成第l个子任务时多源数据的特征矩阵，N为子任务时长；

表示子任务第1秒在m数据源上的特征向量，其维度大小为d^m。将某个被试L个子任务的特征矩阵按顺序排列，得到该被试在进行情绪识别任务时的特征张量D^m；

使用卷积神经网络对卷积核窗口内的特征进行压缩，并通过最大池化层和一个全连接层得到面部表情数据、眼动数据及脑电数据的特征表示，其形式化定义如下：

s^v＝tanh(W_cC^v+b_c)

式中，

表示卷积运算，卷积核窗口大小h，

为数据特征序列中的第i列至第i+h-1列，W_cov为卷积核参数。式

使用最大池化对一个卷积核扫描得到的特征进行压缩，得到该卷积核的最终结果。

将n_c个卷积核生成的特征进行拼接后经过一个全连接层，得到该数据在子任务上的向量表示s^v；

在获得了各数据源的子任务特征表示后，将各个特征序列输入各数据源独立的子任务级LSTM，学习上下文信息，得到面部表情数据、眼动数据及脑电数据的上下文特征。具体定义如下：

式中，H^m表示该层LSMT每个时间步的隐层输出构成的序列，包含了单源数据内部上下文信息，供后续进行多源特征融合。

在一个实施例中，所述对面部表情特征、眼动特征及脑电特征进行交互特征融合，得到融合特征包括以下步骤：

将面部表情特征、眼动特征及脑电特征进行两两组合，并在两个组合中设置一个主输入和一个辅助输入，将两种输入特征融合来生成输出目标；

设

为主输入，

为辅助输入；

将主输入和辅助输入投影到同一个共享向量空间中：

式中，

是训练参数，d_v表示共享向量空间的维数。特征融合模块中使用E_emb和G_emb来计算注意力矩阵

M_ij表示主输入的第i个内容与辅助输入的第j个内容之间的相关性，注意力矩阵M表示如下：

为衡量每个辅助输入对主输入的重要性，使用softmax函数量化M，表示如下：

那么，基于注意力机制的辅助输入J表示为：

J＝G·M^T

将主输入和辅助输入在全连接层进行拼接，得到融合特征U＝{U₁,U₂,…,U_n}；

U＝tanh(P_u[E_i:J_i]+C_u)。S4、使用门控卷积机制对融合特征进行冗余信息过滤，得到过滤后特征；

交互式特征融合充分利用多源数据间的相关信息，但同时也给融合向量带来了较多冗余信息。本发明拟使用门控卷积机制进行冗余信息过滤，提取融合向量中最具识别能力的特征，最终提升自闭症儿童的识别精度；

在一个实施例中，所述使用门控卷积机制对融合特征进行冗余信息过滤，得到过滤后特征包括以下步骤：

a与b的乘积表示过滤后特征。

过滤器在整个子任务中活动，能够得到一个新的特征序列e＝{e₁,e₂,…,e_k-r+1}：

a_i＝tanh(q_i:i+r-1*G_a+b_a)

b_i＝sigmoid(q_i:i+r-1*G_b+b_b)

e_i＝a_i×b_i

其中

代表卷积核对的偏差，*为卷积操作，则生成的新特征可以形成矩阵

最后使用一个极大池化层，得到向量z，其大小等于过滤器对的数量n_k，向量z表示如下：

通过上述的特定特征提取，过滤掉了无效的冗余信息，将新特征输入到最终的输出层。

本发明达到如下指标：

(1)在实验的基础上，使用基于上下文感知的单源数据进行自闭症儿童识别，在各单数据源上识别结果的正确率、召回率和F1值与当前主流方法相比预期分别提升3-5个百分点。

(2)使用细粒度注意力机制进行多源数据交互式融合，并进行融合向量中冗余信息过滤后，识别结果在正确率、召回率和F1值上预期能达到93％以上。

(3)注意力机制驱动下融合多源数据的自闭症儿童智能化识别研究成果，首先在某三甲医院心理门诊及儿童保健科进行示范应用，开展疑似自闭症儿童的辅助诊断，降低传统问卷和量表诊断的人力成本(预期至少降低60％的人力成本)。

(4)在示范应用的基础上，拟通过科技成果转化的方式促进自闭症儿童智能化识别的社会化推广，健全和完善儿童自闭症康复体系，完善我省儿童保健服务体系，产生重大经济和社会效益。

综上所述，本发明的一种基于注意力机制的情绪面孔及生理反应识别方法，通过多源数据融合实现自闭症儿童智能化识别精准度的提升。减少患者家庭、社会的经济负担：开展自闭症儿童智能化识别，及早发现及早治疗，有助于改善患儿病情严重程度，减轻个人、家庭及社会的负担。本发明提出的自闭症儿童智能化识别方法使用低成本的仪器设备采集儿童的各种行为、认知数据，较之传统的量表和医生主观判断的识别方法，更简单、便捷、客观、高效，能有效提升诊断效率，极大程度上减少医生工作的时间成本，进而减轻个人、家庭及社会的经济负担。提升医生诊断效率和诊断结果的精度：目前我国自闭症患者超过1000万，其中儿童患者超过200万，并以每年20万的速度增长，需要大量的医务工作人员，而我国目前医疗卫生资源相对紧张，传统的量表和医生主观判断的筛查方法费时、费力、主观误差较大，因此，迫切需要一种新的、高效率、高精度的识别方法。本发明提出的智能化识别方法，较之传统方法识别效率高，识别精度高。本发明在对儿童的面部表情数据、眼动数据及脑电数据进行采集时，能够实时的检测儿童的脑电采集设备是否正确佩戴，防止由于儿童的配合使用，导致脑电数据采集的不准确，同时由于采用精确的儿童头部所在区域的确认方法，使得儿童是否正确佩戴脑电采集设备的检测准确度大大提高。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的情绪面孔及生理反应识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于注意力机制的情绪面孔及生理反应识别方法，其特征在于，所述利用预先配置的摄像机、眼动采集设备及脑电采集设备对测试儿童的面部表情数据、眼动数据及脑电数据进行采集包括以下步骤：

3.根据权利要求1所述的一种基于注意力机制的情绪面孔及生理反应识别方法，其特征在于，所述检测该儿童的脑电采集设备是否正确佩戴包括以下步骤：

4.根据权利要求3所述的一种基于注意力机制的情绪面孔及生理反应识别方法，其特征在于，所述检测得到儿童的头部关键点位置，定位出儿童头部所在区域的中心点包括以下步骤：

其中，儿童人脸关键点中眼睛定位的计算公式为：

x_i和x_j分别为第i个和第j个关键点的横坐标；

y_m和y_n分别为第m个和第n个关键点的纵坐标；

儿童人脸关键点中嘴巴定位的计算公式为：

式中，x_k为第k个关键点的横坐标；

y_i和y_j分别为第i个和第j个关键点的纵坐标；

5.根据权利要求3所述的一种基于注意力机制的情绪面孔及生理反应识别方法，其特征在于，所述根据检测得到的脑电采集设备的位置及儿童头部所在区域确定儿童是否正确佩戴脑电采集设备包括以下步骤：

训练脑电采集设备的分类器；

6.根据权利要求5所述的一种基于注意力机制的情绪面孔及生理反应识别方法，其特征在于，所述训练脑电采集设备的分类器时，获取脑电采集设备训练数据。

7.根据权利要求6所述的一种基于注意力机制的情绪面孔及生理反应识别方法，其特征在于，所述获取脑电采集设备训练数据时，通过网络获取脑电采集设备和儿童相关的开源图片，且在真实环境中通过固定位置的摄像头采集训练图片，并利用YOLOV3提取环境区域作为儿童人体标签；

8.根据权利要求1所述的一种基于注意力机制的情绪面孔及生理反应识别方法，其特征在于，所述基于上下文感知特征提取技术对儿童面部表情数据、眼动数据及脑电数据进行提取，并获得面部表情上下文特征、眼动上下文特征及脑电上下文特征包括以下步骤：

9.根据权利要求8所述的一种基于注意力机制的情绪面孔及生理反应识别方法，其特征在于，所述对面部表情特征、眼动特征及脑电特征进行交互特征融合，得到融合特征包括以下步骤：

10.根据权利要求9所述的一种基于注意力机制的情绪面孔及生理反应识别方法，其特征在于，所述使用门控卷积机制对融合特征进行冗余信息过滤，得到过滤后特征包括以下步骤：

a与b的乘积表示过滤后特征。