CN113326781A - 基于面部视频的非接触式焦虑识别方法和装置 - Google Patents
基于面部视频的非接触式焦虑识别方法和装置 Download PDFInfo
- Publication number
- CN113326781A CN113326781A CN202110604906.4A CN202110604906A CN113326781A CN 113326781 A CN113326781 A CN 113326781A CN 202110604906 A CN202110604906 A CN 202110604906A CN 113326781 A CN113326781 A CN 113326781A
- Authority
- CN
- China
- Prior art keywords
- facial
- feature
- face
- anxiety
- definition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/70—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Abstract
本发明提供了一种基于面部视频的非接触式焦虑识别方法和装置,涉及非接触式焦虑识别技术领域。提出了一种基于面部视频的非接触式焦虑识别方法,充分利用了面部视频,在特征提取阶段构造了面部关键特征点运动轨迹特征、眼部注视特征、头部姿态特征、非接触式心率与呼吸率特征等,从不同外观与非接触式生理角度识别焦虑情绪。并且对多维度特征进行融合降维,利用焦虑患者的典型表征信息,以实现更精准、低干扰的焦虑识别。
Description
技术领域
本发明涉及非接触式焦虑识别技术领域,具体涉及一种基于面部视频的非接触式焦虑识别方法和装置。
背景技术
现有的心理健康指数评估方法及系统,大多数专注于普适性的心理健康评估。
在目前的心理健康评估方法及系统中,比如抑郁情绪识别,现有的检测方法多是通过使用穿戴式设备采集相关的生理信号或量表测试结果作为抑郁识别的指标。且现有的方法多为单次监测。
但是现有技术通过生理信息的测量仍然需要穿戴大量的电极或传感器且自测量表的方法可能存在测试者的主观意愿,暂无基于非接触式特征的焦虑识别相关专利报道。且仅通过一次的监测与分析便判断用户的心理健康风险,极少考虑到心理障碍是一种持久的精神问题,需要结合历史信息进行分析与识别。具体在焦虑筛查方面,主要通过焦虑量表(GAD-7)来进行焦虑识别。暂无基于非接触式特征的焦虑识别相关技术。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于面部视频的非接触式焦虑识别方法和装置,解决了现有的心理健康评估技术中无法针对焦虑进行非接触式识别的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,提供了一种基于面部视频的非接触式焦虑识别方法,该方法包括:
获取被测者在应激场景下的面部视频;
基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集;
将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,最终通过输出节点输出焦虑识别网络的识别结果。
进一步的,所述基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集,包括:
从面部视频中检测面部并定位感兴趣区域,利用面部特征点定位模型,分割出面部图像,并对面部图像进行校准、对齐、补光操作,得到高清面部图像集。
进一步的,所述将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,包括:
构建面部时空特征向量:
基于面部特征点从高清面部图像中获取面部序列,并利用3DCNN网络从面部序列中提取面部时空特征向量;
还包括构建面部运动轨迹特征向量:
获取高清面部图像集中的面部特征点位置信息,基于面部特征点位置信息得到面部运动轨迹序列,并利用3DCNN网络从面部运动轨迹序列中提取面部运动轨迹特征向量;
还包括构建头部位姿特征向量:
获取高清面部图像集中的面部特征点位置信息,基于面部特征点位置信息对头部位置和其偏转朝向进行回归预测,量化头部在空间中三个维度上的旋转位姿角坐标,并提取各维度的速度和加速度特征,得到头部位姿序列,并利用3DCNN网络从头部位姿序列中提取头部位姿特征向量;
还包括构建非接触式生理特征向量:
基于高清面部图像集中的感兴趣区域,得到非接触式生理信号序列,并利用3DCNN网络从非接触式生理信号序列中提取非接触式生理特征向量;所述非接触式生理信号序列包括呼吸和心率;
还包括构建眼睛注视特征向量:
基于人眼特征点从高清面部图像中获取人眼图片序列,并利用3DCNN网络从人眼图片序列中提取眼睛注视特征向量;
还包括构建眉毛形态特征向量:
基于眉毛特征点从高清面部图像中获取眉毛图片序列,并利用3DCNN网络从眉毛图片序列中提取眉毛形态特征向量;
还包括构建嘴巴运动特征向量:
基于嘴巴特征点从高清面部图像中获取嘴巴图片序列,并利用3DCNN网络从嘴巴运动序列中提取嘴巴运动特征向量。
进一步的,所述将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,包括:
多维度的特征向量的融合使用串行融合;
通过时空注意力机制处理赋予每个特征向量不同的权值;
采用主成分分析算法对融合后的特征向量进行空间变换,将融合后的特征向量投影到一个新的较低维度后,得到按照权值从大到小排列的特征量,通过设定阀值选取前p特征量,对特征向量降维。
第二方面,提供了一种基于面部视频的非接触式焦虑识别装置,该装置包括:
面部视频采集模块,用于获取被测者在应激场景下的面部视频;
高清面部图像集生成模块,用于基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集;
焦虑识别模块,用于将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,最终通过输出节点输出焦虑识别网络的识别结果。
进一步的,所述基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集,包括:
从面部视频中检测面部并定位感兴趣区域,利用面部特征点定位模型,分割出面部图像,并对面部图像进行校准、对齐、补光操作,得到高清面部图像集。
进一步的,所述将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,包括:
构建面部时空特征向量:
基于面部特征点从高清面部图像中获取面部序列,并利用3DCNN网络从面部序列中提取面部时空特征向量;
还包括构建面部运动轨迹特征向量:
获取高清面部图像集中的面部特征点位置信息,基于面部特征点位置信息得到面部运动轨迹序列,并利用3DCNN网络从面部运动轨迹序列中提取面部运动轨迹特征向量;
还包括构建头部位姿特征向量:
获取高清面部图像集中的面部特征点位置信息,基于面部特征点位置信息对头部位置和其偏转朝向进行回归预测,量化头部在空间中三个维度上的旋转位姿角坐标,并提取各维度的速度和加速度特征,得到头部位姿序列,并利用3DCNN网络从头部位姿序列中提取头部位姿特征向量;
还包括构建非接触式生理特征向量:
基于高清面部图像集中的感兴趣区域,得到非接触式生理信号序列,并利用3DCNN网络从非接触式生理信号序列中提取非接触式生理特征向量;所述非接触式生理信号序列包括呼吸和心率;
还包括构建眼睛注视特征向量:
基于人眼特征点从高清面部图像中获取人眼图片序列,并利用3DCNN网络从人眼图片序列中提取眼睛注视特征向量;
还包括构建眉毛形态特征向量:
基于眉毛特征点从高清面部图像中获取眉毛图片序列,并利用3DCNN网络从眉毛图片序列中提取眉毛形态特征向量;
还包括构建嘴巴运动特征向量:
基于嘴巴特征点从高清面部图像中获取嘴巴图片序列,并利用3DCNN网络从嘴巴运动序列中提取嘴巴运动特征向量。
进一步的,所述将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,包括:
多维度的特征向量的融合使用串行融合;
通过时空注意力机制处理赋予每个特征向量不同的权值;
采用主成分分析算法对融合后的特征向量进行空间变换,将融合后的特征向量投影到一个新的较低维度后,得到按照权值从大到小排列的特征量,通过设定阀值选取前p特征量,对特征向量降维。
第三方面,一种计算机可读存储介质,其特征在于,其存储用于非接触式焦虑识别的计算机程序,其中,所述计算机程序使得计算机执行上述的基于面部视频的非接触式焦虑识别方法的步骤。
第四方面,一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行上述的基于面部视频的非接触式焦虑识别方法的步骤。
(三)有益效果
本发明提供了一种基于面部视频的非接触式焦虑识别方法和装置。与现有技术相比,具备以下有益效果:
1)本发明提出了一种基于面部视频的非接触式焦虑识别方法,充分利用了面部视频,在特征提取阶段构造了面部关键特征点运动轨迹特征、眼部注视特征、头部姿态特征、非接触式心率与呼吸率特征等,从不同外观与非接触式生理角度识别焦虑情绪。并且对多维度特征进行融合降维,利用焦虑患者的典型表征信息,以实现更精准、低干扰的焦虑识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的非接触式焦虑识别流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于面部视频的非接触式焦虑识别方法和装置,解决了现有的心理健康评估技术中无法针对焦虑进行非接触式识别的问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例1:
如图1所示,本发明提供了一种基于面部视频的非接触式焦虑识别方法,该方法包括:
获取被测者在应激场景下的面部视频;
基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集;
将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,最终通过输出节点输出焦虑识别网络的识别结果。
本实施例的有益效果为:
本发明实施例提出了一种基于面部视频的非接触式焦虑识别方法,充分利用了面部视频,在特征提取阶段构造了面部关键特征点运动轨迹特征、眼部注视特征、头部姿态特征、非接触式心率与呼吸率特征等,从不同外观与非接触式生理角度识别焦虑情绪。并且对多维度特征进行融合降维,利用焦虑患者的典型表征信息,以实现更精准、低干扰的焦虑识别。
下面对本发明实施例的实现过程进行详细说明:
S1、获取被测者在应激场景下的面部视频;
具体实施时,可使用智能手机摄像头捕捉用户在应激场景下的面部视频;
S2、基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集;
具体的,对采集的面部视频进行预处理,利用面部特征点定位和面部检测算法从视频序列中检测面部并定位感兴趣区域,利用Mediapipe面部特征点定位模型,对图片中的面部进行裁剪,将面部从背景图片中分割出来并完成面部校准、对齐、补光等一系列操作,得到如图1中的高清面部图像集;
S3、将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,最终通过输出节点输出焦虑识别网络的识别结果。
具体的,所述多维度的特征向量包括面部时空特征向量、面部运动轨迹特征向量、头部位姿特征向量、非接触式生理特征向量、眼睛注视特征向量、眉毛形态特征向量、嘴巴运动特征向量,根据实际需要,还可进一步包括其他维度的特征,例如人口统计学信息、饮食习惯、社会支持、家庭功能、生命态度、娱乐方式等。
焦虑识别网络中,每个维度均对应设置一个3DCNN网络来提取特征向量;具体的,
Q1、在构建面部时空特征向量时,
在上述面部特征点检测的基础上,通过计算468个面部特征点在x和y轴上的最值,并且根据计算得到的(xmin,ymin)和(xmax,ymax)进行面部分割,得到面部序列(N*W*H*C);其中,N表示一个视频的总图片数量,W图片宽度,H图片高度,C表示通道数;
为了有效的综合运动信息,通过使用3DCNN卷积神经网络,在CNNs的卷积层对每一帧分割得到的人脸进行3D卷积,以捕捉在时间和空间维度都具有区分性的特征,最终输出特征向量X1。
举例说明,
假设每帧图片的人脸均能检测到,则一个视频中有100帧图片,每帧图片有三个通道,人脸图片的长宽分别是80*80,因此人脸的输入序列为100*80*80*3;输入序列为4维,符合3DCNN输入要求,输入3DCNN网络进行特征提取,得到特征向量X1(128*1)。
Q2、在构建面部运动轨迹特征向量时,
基于Mediapipe面部特征点检测模型,获取面部特征点在3D空间中作为坐标传递,基于特征点创建一个多边形网格,通过Web摄像机的2D图像创建面部地标模型,而无需RGBD摄像机的深度信息,进而获取用户人脸468个关键特征点位置信息:
{(x0,y0,z0),(x1,y1,z1),...,(xn,yn,zn)}
则面部运动轨迹为:
其中,n表示面部特征点数量,(xmn,ymn,zmn)表示面部视频的第m帧中第n个面部特征点的位置信息;
基于面部特征点位置信息得到面部运动轨迹序列(N*M’*J*1);其中,N表示一个视频的总图片数量;M’表示面部特征点;J表示每个特征点的位置;
并利用3DCNN网络从面部运动轨迹序列中提取面部运动轨迹特征向量X2。
举例说明:
假设每帧图片的人脸均能检测到,从每帧人脸图片中,可以提取468个人脸特征点,一个视频可以提取100*468*3,但是不符合3DCNN输入要求,同样进行升维处理,变成100*468*3*1的面部运动轨迹序列输入3DCNN网络进行特征提取,得到特征向量X2(128*1)。
Q3、构建头部位姿特征向量时,
基于RGB-D相机的随机回归森林实时头部姿态估计系统来对头部位置和其偏转朝向进行回归预测,量化头部在空间中三个维度上的旋转姿态角(Yaw,Pitch,Roll)坐标,并提取各维度的速度和加速度特征,得到每帧共9个低层特征:旋转姿态角(Yaw,Pitch,Roll)坐标、最大值、最小值、范围、平均值、方差和标准偏差等;进而得到头部位姿序列(N*M*1*1);其中,N表示一个视频的总图片数量,M表示每帧共9个低层特征,并利用3DCNN网络从头部位姿序列中提取头部位姿特征向量X3。
举例说明:
每帧图片可以提取9个低层特征,即最大值、最小值、范围、平均值、方差、标准偏差、(Yaw,Pitch,Roll)坐标,从该视频中可以提取一个大小为100*9的输入序列,但是100*9是2维的,3DCNN的输入需要是4维的(不符合3DCNN输入要求),因此需要将100*9的输入序列进行升维处理,变成100*9*1*1。通过3DCNN进行头部位姿进行特征提取之后,得到一个128*1的特征向量X3。
Q4、构建非接触式生理特征向量时,
非接触生理检测模块基于患者面部感兴趣区域,构建时空表示块和空间频率表示块,计算感兴趣区域中RGB三通道的像素均值并按时间顺序进行排列得到原始PPG信号,然后对原始PPG信号通过去趋势、标准化和盲源信号分离进行处理,得到处理后的PPG信号,频率在正常范围内的信号即为脉搏波信号与呼吸信号,然后将处理后的PPG信号进行傅里叶变换和带通滤波器处理计算出心率与呼吸率等生理特征值,是现有技术,例如还可包括血压等生理特征值,最终非接触式生理信号序列(N*R*C*1),其中,N表示一个视频的总图片数量,R表示每个图片感兴趣区域的像素均值,例如总共有三个生理参数,即呼吸、血压、心率,C表示通道数。并利用3DCNN网络从非接触式生理信号序列中提取非接触式生理特征向量X4。
Q5、构建眼睛注视特征向量:
基于人眼特征点从高清面部图像中获取人眼图片序列(N*W*H*C),并利用3DCNN网络从人眼图片序列中提取眼睛注视特征向量;在训练该维度的3DCNN网络时,使用人脸特征点检测的特征点定位眼角点位置,通过眼角点计算出人眼的位置,将人眼图片裁切保存。应用AlexNet网络,使用gazeCapture公开数据集对人眼注视点进行训练。对AlexNet网络输入人脸面部原图、裁剪后的左右眼图像与人脸位置信息图片,人脸位置信息图片是将人脸区域在原始图片的大致位置按照严格正比的关系换算到二值掩膜图片上得到的图片。并对输入的图片进行卷积和多项式乘法、标准化等处理,输出预测的用户注视点相对于摄像头的横坐标和纵坐标(x,y)作为训练数据的标签。
Q6、构建眉毛形态特征向量:
基于眉毛特征点从高清面部图像中获取眉毛图片序列(N*W*H*C),并利用3DCNN网络从眉毛图片序列中提取眉毛形态特征向量;
Q7、构建嘴巴运动特征向量:
基于嘴巴特征点从高清面部图像中获取嘴巴图片序列(N*W*H*C),并利用3DCNN网络从嘴巴运动序列中提取嘴巴运动特征向量;
其中,N表示一个视频的总图片数量,W图片宽度,H图片高度,C表示通道数;并利用3DCNN网络从各个序列中提取眼睛注视特征向量X5、嘴巴运动特征向量X6、眉毛形态特征向量时X7。
还可根据实际需要增添其他维度的特征向量的提取:
Q8、其他维度的特征向量的提取,例如人口统计学信息、饮食习惯、社会支持、家庭功能、生命态度、娱乐方式等。
在得到多维度的特征向量后,需要将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,
在多维度的特征向量融合时使用串行融合,得到融合后的特征向量X=[X1,X2,…,Xk],k表示维度的数量。
将融合后的特征X进行时空注意力机制处理(即关注输入序列的时间信息和空间特征信息,相当于将输入序列进行一个点乘操作,赋予每个点不同的权重),得到X’;将X’进行降维处理,具体采用主成分分析算法对融合后的特征向量进行空间变换,将融合后的特征向量投影到一个新的较低维度后,得到按照权值从大到小排列的特征量,通过设定阀值选取前p特征量,对特征向量降维。最终得到FC层的特征128*1,并通过softmax函数输出以焦虑情绪量表(GAD-7)为标准的识别结果。
需要说明的是,从一个视频中得到的图片序列和运动轨序列,里面包含的有效的信息是相对较少的,存在大量的噪音以及冗余信息。例如,当受试者在应激的刺激下,焦虑患者与正常人的表现是不一样的。例如,当焦虑患者观看一张负向图片时,他扫视图片时间以及眼睛注视的角度是与常人不一样的。这个过程中,眼睛对负向图片的反应在整个视频所占的时长相对很小,即一个视频存在大量的冗余信息。因此从整个视频中,能够提取得到的有效焦虑特征信息是相对较少的。
对此,本发明通过时空注意力机制,不仅能够关注视频的时序信息,也能够关注空间信息。
注意力机制关注时序信息:即某个时间段内,出现与焦虑相关的特征时,通过注意力机制赋予较大的权重,即该时间段内提取得到的子特征向量赋予相对较大的权重。
注意力机制关注空间信息:在一帧图片中,CNN网络不能够像人类一样去有目的地关注图片中的某个区域,因此通过注意力机制,在整张图片中与焦虑显著相关的ROI感兴趣区域,如眼睛、嘴巴、眉毛形态、头部位姿等,即在与焦虑相关的ROI区域,通过注意力机制赋予相对较大的权重。
同时,本发明通过主成分分析的方法,对特征向量进行特征降维处理,剔除冗余信息,降低数据噪声,提高模型精度。
实施例2:
一种基于面部视频的非接触式焦虑识别装置,该装置包括:
面部视频采集模块,用于获取被测者在应激场景下的面部视频;
高清面部图像集生成模块,用于基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集;
焦虑识别模块,用于将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,最终通过输出节点输出焦虑识别网络的识别结果。
可理解的是,本发明实施例提供的基于面部视频的非接触式焦虑识别装置与上述基于面部视频的非接触式焦虑识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于面部视频的非接触式焦虑识别方法中的相应内容,此处不再赘述。
实施例3:
一种计算机可读存储介质,其存储用于非接触式焦虑识别的计算机程序,其中,所述计算机程序使得计算机执行如下步骤:
获取被测者在应激场景下的面部视频;
基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集;
将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,最终通过输出节点输出焦虑识别网络的识别结果。
实施例4:
一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如下步骤:
获取被测者在应激场景下的面部视频;
基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集;
将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,最终通过输出节点输出焦虑识别网络的识别结果。
综上所述,与现有技术相比,本发明具备以下有益效果:
1)本发明实施例提出了一种基于面部视频的非接触式焦虑识别方法,充分利用了面部视频,在特征提取阶段构造了面部关键特征点运动轨迹特征、眼部注视特征、头部姿态特征、非接触式心率与呼吸率特征等,从不同外观与非接触式生理角度识别焦虑情绪。并且对多维度特征进行融合降维,利用焦虑患者的典型表征信息,以实现更精准、低干扰的焦虑识别。
2)从一个视频中得到的图片序列和运动轨序列,里面包含的有效的信息是相对较少的,存在大量的噪音以及冗余信息,对此本发明通过注意力机制,不仅能够关注视频的时序信息,也能够关注空间信息。同时通过主成分分析的方法,对特征向量进行特征降维处理,剔除冗余信息,降低数据噪声,提高模型精度。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于面部视频的非接触式焦虑识别方法,其特征在于,该方法包括:
获取被测者在应激场景下的面部视频;
基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集;
将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,最终通过输出节点输出焦虑识别网络的识别结果。
2.如权利要求1所述的一种基于面部视频的非接触式焦虑识别方法,其特征在于,所述基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集,包括:
从面部视频中检测面部并定位感兴趣区域,利用面部特征点定位模型,分割出面部图像,并对面部图像进行校准、对齐、补光操作,得到高清面部图像集。
3.如权利要求1所述的一种基于面部视频的非接触式焦虑识别方法,其特征在于,所述将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,包括:
构建面部时空特征向量:
基于面部特征点从高清面部图像中获取面部序列,并利用3DCNN网络从面部序列中提取面部时空特征向量;
还包括构建面部运动轨迹特征向量:
获取高清面部图像集中的面部特征点位置信息,基于面部特征点位置信息得到面部运动轨迹序列,并利用3DCNN网络从面部运动轨迹序列中提取面部运动轨迹特征向量;
还包括构建头部位姿特征向量:
获取高清面部图像集中的面部特征点位置信息,基于面部特征点位置信息对头部位置和其偏转朝向进行回归预测,量化头部在空间中三个维度上的旋转位姿角坐标,并提取各维度的速度和加速度特征,得到头部位姿序列,并利用3DCNN网络从头部位姿序列中提取头部位姿特征向量;
还包括构建非接触式生理特征向量:
基于高清面部图像集中的感兴趣区域,得到非接触式生理信号序列,并利用3DCNN网络从非接触式生理信号序列中提取非接触式生理特征向量;所述非接触式生理信号序列包括呼吸和心率;
还包括构建眼睛注视特征向量:
基于人眼特征点从高清面部图像中获取人眼图片序列,并利用3DCNN网络从人眼图片序列中提取眼睛注视特征向量;
还包括构建眉毛形态特征向量:
基于眉毛特征点从高清面部图像中获取眉毛图片序列,并利用3DCNN网络从眉毛图片序列中提取眉毛形态特征向量;
还包括构建嘴巴运动特征向量:
基于嘴巴特征点从高清面部图像中获取嘴巴图片序列,并利用3DCNN网络从嘴巴运动序列中提取嘴巴运动特征向量。
4.如权利要求1所述的一种基于面部视频的非接触式焦虑识别方法,其特征在于,所述将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,包括:
多维度的特征向量的融合使用串行融合;
通过时空注意力机制处理赋予每个特征向量不同的权值;
采用主成分分析算法对融合后的特征向量进行空间变换,将融合后的特征向量投影到一个新的较低维度后,得到按照权值从大到小排列的特征量,通过设定阀值选取前p特征量,对特征向量降维。
5.一种基于面部视频的非接触式焦虑识别装置,其特征在于,该装置包括:
面部视频采集模块,用于获取被测者在应激场景下的面部视频;
高清面部图像集生成模块,用于基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集;
焦虑识别模块,用于将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,最终通过输出节点输出焦虑识别网络的识别结果。
6.如权利要求5所述的一种基于面部视频的非接触式焦虑识别装置,其特征在于,所述基于面部视频,定位面部特征点、感兴趣区域和面部,得到高清面部图像集,包括:
从面部视频中检测面部并定位感兴趣区域,利用面部特征点定位模型,分割出面部图像,并对面部图像进行校准、对齐、补光操作,得到高清面部图像集。
7.如权利要求5所述的一种基于面部视频的非接触式焦虑识别装置,其特征在于,所述将高清面部图像集作为焦虑识别网络的输入,通过每个维度对应的3DCNN网络提取构建多维度的特征向量,包括:
构建面部时空特征向量:
基于面部特征点从高清面部图像中获取面部序列,并利用3DCNN网络从面部序列中提取面部时空特征向量;
还包括构建面部运动轨迹特征向量:
获取高清面部图像集中的面部特征点位置信息,基于面部特征点位置信息得到面部运动轨迹序列,并利用3DCNN网络从面部运动轨迹序列中提取面部运动轨迹特征向量;
还包括构建头部位姿特征向量:
获取高清面部图像集中的面部特征点位置信息,基于面部特征点位置信息对头部位置和其偏转朝向进行回归预测,量化头部在空间中三个维度上的旋转位姿角坐标,并提取各维度的速度和加速度特征,得到头部位姿序列,并利用3DCNN网络从头部位姿序列中提取头部位姿特征向量;
还包括构建非接触式生理特征向量:
基于高清面部图像集中的感兴趣区域,得到非接触式生理信号序列,并利用3DCNN网络从非接触式生理信号序列中提取非接触式生理特征向量;所述非接触式生理信号序列包括呼吸和心率;
还包括构建眼睛注视特征向量:
基于人眼特征点从高清面部图像中获取人眼图片序列,并利用3DCNN网络从人眼图片序列中提取眼睛注视特征向量;
还包括构建眉毛形态特征向量:
基于眉毛特征点从高清面部图像中获取眉毛图片序列,并利用3DCNN网络从眉毛图片序列中提取眉毛形态特征向量;
还包括构建嘴巴运动特征向量:
基于嘴巴特征点从高清面部图像中获取嘴巴图片序列,并利用3DCNN网络从嘴巴运动序列中提取嘴巴运动特征向量。
8.如权利要求5所述的一种基于面部视频的非接触式焦虑识别装置,其特征在于,所述将多维度的特征向量进行融合,对融合后的特征向量进行时空注意力机制处理,再对时空注意力机制处理后的特征向量进行降维处理,包括:
多维度的特征向量的融合使用串行融合;
通过时空注意力机制处理赋予每个特征向量不同的权值;
采用主成分分析算法对融合后的特征向量进行空间变换,将融合后的特征向量投影到一个新的较低维度后,得到按照权值从大到小排列的特征量,通过设定阀值选取前p特征量,对特征向量降维。
9.一种计算机可读存储介质,其特征在于,其存储用于非接触式焦虑识别的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-4中任一所述的基于面部视频的非接触式焦虑识别方法的步骤。
10.一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,其特征在于,所述程序包括用于执行如权利要求1-4中任一所述的基于面部视频的非接触式焦虑识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110604906.4A CN113326781B (zh) | 2021-05-31 | 2021-05-31 | 基于面部视频的非接触式焦虑识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110604906.4A CN113326781B (zh) | 2021-05-31 | 2021-05-31 | 基于面部视频的非接触式焦虑识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326781A true CN113326781A (zh) | 2021-08-31 |
CN113326781B CN113326781B (zh) | 2022-09-02 |
Family
ID=77422805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110604906.4A Active CN113326781B (zh) | 2021-05-31 | 2021-05-31 | 基于面部视频的非接触式焦虑识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326781B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114287938A (zh) * | 2021-12-13 | 2022-04-08 | 重庆大学 | 建筑环境中人体参数的安全区间获得方法和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361316A (zh) * | 2014-10-30 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多尺度时序建模的维度情感识别方法 |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
US10304208B1 (en) * | 2018-02-12 | 2019-05-28 | Avodah Labs, Inc. | Automated gesture identification using neural networks |
CN111414839A (zh) * | 2020-03-16 | 2020-07-14 | 清华大学 | 基于姿态的情感识别方法及装置 |
CN112800998A (zh) * | 2021-02-05 | 2021-05-14 | 南京邮电大学 | 融合注意力机制和dmcca的多模态情感识别方法及系统 |
-
2021
- 2021-05-31 CN CN202110604906.4A patent/CN113326781B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361316A (zh) * | 2014-10-30 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多尺度时序建模的维度情感识别方法 |
US10304208B1 (en) * | 2018-02-12 | 2019-05-28 | Avodah Labs, Inc. | Automated gesture identification using neural networks |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
CN111414839A (zh) * | 2020-03-16 | 2020-07-14 | 清华大学 | 基于姿态的情感识别方法及装置 |
CN112800998A (zh) * | 2021-02-05 | 2021-05-14 | 南京邮电大学 | 融合注意力机制和dmcca的多模态情感识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
SHIQING ZHANG ET AL.: "Learning affective video features for facial expression recognition via hybrid deep learning", 《IEEE ACCESS》 * |
张木兰: "基于深度特征的多头部姿态下自然表情识别研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114287938A (zh) * | 2021-12-13 | 2022-04-08 | 重庆大学 | 建筑环境中人体参数的安全区间获得方法和设备 |
CN114287938B (zh) * | 2021-12-13 | 2024-02-13 | 重庆大学 | 建筑环境中人体参数的安全区间获得方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113326781B (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Deepphys: Video-based physiological measurement using convolutional attention networks | |
US10517521B2 (en) | Mental state mood analysis using heart rate collection based on video imagery | |
De Melo et al. | A deep multiscale spatiotemporal network for assessing depression from facial dynamics | |
EP3057487B1 (en) | Device and method for obtaining a vital sign of a subject | |
Irani et al. | Thermal super-pixels for bimodal stress recognition | |
JP5225870B2 (ja) | 情動分析装置 | |
Dias et al. | Gaze estimation for assisted living environments | |
Salekin et al. | Multi-channel neural network for assessing neonatal pain from videos | |
CN115482574B (zh) | 基于深度学习的屏幕注视点估计方法、装置、介质及设备 | |
Al-Rahayfeh et al. | Enhanced frame rate for real-time eye tracking using circular hough transform | |
Dosso et al. | Neonatal face tracking for non-contact continuous patient monitoring | |
CN113326781B (zh) | 基于面部视频的非接触式焦虑识别方法和装置 | |
Jaiswal et al. | rPPG-FuseNet: non-contact heart rate estimation from facial video via RGB/MSR signal fusion | |
Cvejic et al. | A nonreference image fusion metric based on the regional importance measure | |
Funes Mora et al. | Eyediap database: Data description and gaze tracking evaluation benchmarks | |
Slapnicar et al. | Contact-free monitoring of physiological parameters in people with profound intellectual and multiple disabilities | |
US10755088B2 (en) | Augmented reality predictions using machine learning | |
Othman et al. | Contactless Camera-Based Approach for Driver Respiratory Rate Estimation in Vehicle Cabin | |
CN115089150A (zh) | 一种基于无人机的脉搏波检测方法、装置、电子设备及存储介质 | |
KR102580281B1 (ko) | 관련 대상 검출 방법 및 장치 | |
CN113326729B (zh) | 多模态的课堂专注度检测方法和装置 | |
Jolly et al. | Posture Correction and Detection using 3-D Image Classification | |
Yang et al. | Model-agnostic Method: Exposing Deepfake using Pixel-wise Spatial and Temporal Fingerprints | |
CN110781712A (zh) | 一种基于人脸检测与识别的人头空间定位方法 | |
Ilyas et al. | Effective facial expression recognition through multimodal imaging for traumatic brain injured patient’s rehabilitation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |