CN116758619A - 基于面部视频的情感分类方法、系统、存储介质及设备 - Google Patents
基于面部视频的情感分类方法、系统、存储介质及设备 Download PDFInfo
- Publication number
- CN116758619A CN116758619A CN202311033695.9A CN202311033695A CN116758619A CN 116758619 A CN116758619 A CN 116758619A CN 202311033695 A CN202311033695 A CN 202311033695A CN 116758619 A CN116758619 A CN 116758619A
- Authority
- CN
- China
- Prior art keywords
- emotion classification
- facial
- blood volume
- waves
- respiratory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 94
- 230000001815 facial effect Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000003860 storage Methods 0.000 title claims abstract description 8
- 239000008280 blood Substances 0.000 claims abstract description 55
- 210000004369 blood Anatomy 0.000 claims abstract description 55
- 230000000241 respiratory effect Effects 0.000 claims abstract description 44
- 238000013145 classification model Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 11
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 10
- 210000001061 forehead Anatomy 0.000 claims description 10
- 229910052760 oxygen Inorganic materials 0.000 claims description 10
- 239000001301 oxygen Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 abstract description 17
- 238000001514 detection method Methods 0.000 abstract description 12
- 230000008909 emotion recognition Effects 0.000 abstract description 4
- 230000036387 respiratory rate Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000003542 behavioural effect Effects 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000006698 induction Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 238000013186 photoplethysmography Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010009 beating Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 208000016252 change in skin color Diseases 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012634 optical imaging Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0059—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
- A61B5/0077—Devices for viewing the surface of the body, e.g. camera, magnifying lens
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/02—Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/02—Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
- A61B5/0205—Simultaneously evaluating both cardiovascular conditions and different types of body conditions, e.g. heart and respiratory condition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/145—Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue
- A61B5/14542—Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue for measuring blood gases
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Heart & Thoracic Surgery (AREA)
- Veterinary Medicine (AREA)
- Pathology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Computing Systems (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Cardiology (AREA)
- Psychiatry (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Signal Processing (AREA)
- Optics & Photonics (AREA)
- Social Psychology (AREA)
- Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Fuzzy Systems (AREA)
- Educational Technology (AREA)
Abstract
本发明涉及图像处理技术领域,本发明公开了基于面部视频的情感分类方法、系统、存储介质及设备,包括:获取受试者的面部视频;基于面部视频,采用多任务学习生理信号识别模型,得到血容量脉搏波和呼吸波后,根据血容量脉搏波和呼吸波计算出生理参数,并将血容量脉搏波、呼吸波和生理参数共同作为情感分类模型的输入,得到受试者的情感类别。与使用脑电、心电检测仪等传感器接触式设备的传统生理信号检测和情感识别方式相比,能够无接触地实现生理信号收集计算和情绪分类。
Description
技术领域
本发明涉及图像处理技术领域,具体的说,是涉及基于面部视频的情感分类方法、系统、存储介质及设备。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在传统的情感分类中,使用的信号源收集仪器大多为接触式的设备,比如脑电、心电检测仪等传感器,这些设备大部分都需要传感器接触到人体头部、手及身体,因此,可能会使被测试者,由于接触造成的压迫或仪器存在,产生身体不适感、或是产生抵触情绪,没有办法展现最自然的状态,从而导致测试结果不够真实。
发明内容
本发明为了解决上述问题,本发明提供基于面部视频的情感分类方法、系统、存储介质及设备,与使用脑电、心电检测仪等传感器接触式设备的传统生理信号检测和情感识别方式相比,能够无接触地实现生理信号收集计算和情绪分类。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于面部视频的情感分类方法,其包括:
获取受试者的面部视频;
基于面部视频,采用多任务学习生理信号识别模型,得到血容量脉搏波和呼吸波后,根据血容量脉搏波和呼吸波计算出生理参数,并将血容量脉搏波、呼吸波和生理参数共同作为情感分类模型的输入,得到受试者的情感类别。
进一步地,所述生理参数包括心率、血氧饱和度、心率变异性、呼吸率和压力指数。
进一步地,所述多任务学习生理信号识别模型对输入的面部视频进行人脸关键点识别,并取额头区域和脸颊区域分别作为感兴趣区域,将两个感兴趣区域的视频帧序列裁切出来,并进行缩放后,分别输入孪生网络,均得到血容量脉搏波和呼吸波。
进一步地,所述孪生网络包括用于处理额头区域视频帧序列的网络分支和用于处理脸颊区域视频帧序列的网络分支,两个网络分支均包括依次连接的特征提取模块、若干个变换器模块和信号预测器,且两个网络分支之间的变换器模块共享参数。
进一步地,将基于额头区域视频帧序列得到的血容量脉搏波和基于脸颊区域视频帧序列得到的血容量脉搏波,进行相加并进行归一化,得到输入情感分类模型的血容量脉搏波。
进一步地,将基于额头区域视频帧序列得到的呼吸波和基于脸颊区域视频帧序列得到的呼吸波,进行相加并进行归一化,得到输入情感分类模型的呼吸波。
进一步地,所述情感分类模型,将血容量脉搏波和呼吸波以及计算得到的生理参数先分别经过一维卷积层后,拼接为一个矩阵,再将矩阵经过一个二维卷积层后,经过线性层和归一化指数函数,得到的情感类别。
本发明的第二个方面提供基于面部视频的情感分类系统,其包括:
数据获取模块,其被配置为:获取受试者的面部视频;
情感分类模块,其被配置为:基于面部视频,采用多任务学习生理信号识别模型,得到血容量脉搏波和呼吸波后,根据血容量脉搏波和呼吸波计算出生理参数,并将血容量脉搏波、呼吸波和生理参数共同作为情感分类模型的输入,得到受试者的情感类别。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,该程序被处理器执行时实现如上述所述的基于面部视频的情感分类方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于面部视频的情感分类方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明提供了基于面部视频的情感分类方法,其与使用脑电、心电检测仪等传感器接触式设备的传统生理信号检测和情感识别方式相比,能够无接触地实现生理信号收集计算和情绪分类。
本发明提供了基于面部视频的情感分类方法,其将生理信号检测获取的血容量脉搏波和呼吸波结果,以及经过计算得到的心率、血氧饱和度、心率变异性、呼吸率和压力指数生理参数输入情感分类网络,可以在不侵犯个体隐私的情况下,对测试者的情感状态进行准确的识别和评估。
本发明提供了基于面部视频的情感分类方法,其利用多任务网络能够通过利用参数共享节省了模型训练成本,并且能够增强对各类生理信号识别的准确度。
附图说明
构成本发明的一部分说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的限定。
图1为本发明的实施例一的基于面部视频的情感分类方法的流程图;
图2为本发明的实施例一的多任务学习生理信号识别模型的结构图;
图3为本发明的实施例一的视频块通道矩阵的形成流程图;
图4为本发明的实施例一的多头自注意力的结构图;
图5为本发明的实施例一的时空前馈网络的结构图;
图6为本发明的实施例一的情感分类模型的结构图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合下面结合附图与实施例对本发明作进一步说明。
术语解释:
远程光电容积脉搏波描记法(remote photoplethysmography,rPPG):是利用摄像头等光学传感器来捕获由心脏跳动造成的皮肤颜色周期性变化的技术。利用该项技术,可以提取心脏脉搏跳动给皮肤带来的细微变化,从而得到相关心率、血氧饱和度、心率变异性(heart rate variability,HRV)、呼吸率和压力指数(Baevsky Stress Index,BSI)等生理信号,能够便捷应用于日常护理、心理和行为检测、远程医疗等领域。随着光学成像技术的发展和智能手机的广泛使用,rPPG技术的进一步和普及具备了良好的条件,因此具有巨大的潜在价值。利用rPPG技术进行生理信号检测,可以了解一个人的生理状态,以及进一步利用多种模态的生理信号进行情感分类,从而更好地了解被测者的情感状态。
实施例一
本实施例一的目的是提供基于面部视频的情感分类方法。
本实施例提供的基于面部视频的情感分类方法,可以无接触地实现收集、计算生理信号和识别情感,能够便捷应用于日常护理、心理和行为检测、远程医疗、教育、游戏等场景。
本实施例提供的基于面部视频的情感分类方法,如图1所示,包括:
步骤1、获取受试者的面部视频;
步骤2、输入面部视频经过训练后的多任务学习生理信号识别模型(即生理信号多任务网络模型)后,得到血容量脉搏波和呼吸波生理信号;随后根据这两种波形结果计算出心率、血氧饱和度、心率变异性(heart rate variability,HRV)、呼吸率和压力指数(Baevsky Stress Index,BSI)生理参数;血容量脉搏波、呼吸波和五种生理参数共同作为情感分类模型的输入,最终得到受试者的情感类别。
其中,多任务学习生理信号识别模型和情感分类模型训练时,采用的训练集的构建方法为:
(1)采集面部视频,并获取标签。
其中,采集面部视频,并获取标签的步骤包括:进行情绪诱发,制作情感分类标签和采集原始生理信号数据标签,即使用选取的影视或音乐片段来对受试者进行情绪诱发,主要包含3种情感类别:积极、中性和消极,并由此制作情感分类的标签,用于对情感分类模型的训练;然后在诱发情绪后的该类情绪持续过程中,用普通摄像头对受试者采集一段面部视频,并同时使用信号采集设备收集脉搏波、呼吸波等生理信号的原始数据,并由此制作生理信号原始标签,用于对多任务生理信号识别模型的训练。
(2)对面部视频和生理信号数据进行预处理后,与情感分类标签一起,作为训练集。
为了得到达到更好的训练效果,对采集的原始数据(面部视频和生理信号数据)进行预处理,包括:对面部角度偏移速度过快、光线变化过大或者与测试无关的原始视频片段进行剪辑删除,同时将对应时间段内的数据进行数据对齐;以及将因为采集设备连接接触不良等导致的脉搏波、呼吸波生理信号的失真数据进行删除,并将对应时间段内面部视频片段进行剪辑处理。
在步骤2中,多任务学习生理信号识别模型如图2所示,整个模型的设计框架为Siamese(孪生)网络框架,以实现权重共享。首先,对输入一段序列长度为T的面部视频序列(3×T×H×W)进行人脸关键点识别,其中T为视频帧序列长度,此处以T=160即160帧为例,H、W分别视频一帧图片的高度、宽度。并取额头区域和鼻翼两侧的脸颊区域作为感兴趣区域(Region of Interest,ROI),其中额头和脸颊分别为ROI1和ROI2;将ROI1和ROI2的视频帧序列裁切出来,缩放至128×128大小后,分别输入Siamese(孪生)网络,得到血容量脉搏波和呼吸波。
孪生网络包括用于处理额头区域视频帧序列的网络分支和用于处理脸颊区域视频帧序列的网络分支,两个网络分支均包括依次连接的特征提取模块、若干个变换器模块和信号预测器,且两个网络分支之间的变换器模块共享参数。
首先,浅层特征提取模块对ROI的视频帧序列进行降维,得到原始特征图。其中,浅层特征提取模块,实际包括了卷积核大小分别为1×5×5、3×3×3和3×3×3的三个卷积块,并且每次卷积都跟随着批量归一化(Batch Norm,BN)、ReLU激活函数和MaxPool最大池化操作,输出特征图,其大小可以为64×160×64×64。然后,如图3所示,将特征图分成非重叠的固定相同大小视频块通道Tube,并经过线性映射的嵌入操作(即经过分组划块和卷积操作),重组成视频块通道矩阵Tube tokens,其大小为4×64×40×4×4。
随后,将Tube tokens输入N个Transformer(变换器)模块级联组成的网络结构,特征图大小不变,依然为4×64×40×4×4;单个Transformer模块中具体包含一个多头自注意力结构和一个时空前馈网络,并且在两者之间,以及时空前馈结构的输出后都有一个相加和归一化操作,用于将多头自注意力结构或时空前馈网络的输入和输出进行相加和归一化;其中多头自注意力结构如图4所示,包含多个自注意力分支头,在单个自注意力分支头中,输入的一个Tube tokens经过线性操作,具体为,输入的Tube tokens分别与三个线性矩阵(第一线性矩阵Wq、第二线性矩阵Wk和第三线性矩阵Wv)相乘,并展平转为三个序列向量组(第一序列向量组Q、第二序列向量组K、第三序列向量组V),然后Q和K相乘后经过Softmax(归一化指数)操作再与V相乘;多头自注意力结构中每个单头分支(自注意力分支头)输出的结果进行连接和线性映射,即进行序列重组成矩阵,再与多头自注意力结构的输入进行相加和归一化;然后再输入时空前馈网络;如图5所示,时空前馈网络的第一层是1×1×1大小的卷积核组成的用于扩充维度的线性映射层,用于将通道维度由64扩充至256,中间第二层是3×3×3大小的三维卷积核层,即深度(Depth-wise)卷积层,在第二层通道数不变,第三层分别是1×1×1大小卷积核组成的用于维度回缩的线性映射层,用于将通道维度缩小回64;最后时空前馈网络结构的输入与输出经过相加和归一化操作,为一个Transformer模块的输出结果,该结果将作为下一个Transformer模块的输入。
最后,经过在N个Transformer模块后,输出到由两个卷积层以及一个神经元个数为2T的全连接层组成的信号预测器,最后信号预测器输出的结果为两个和输入视频帧数T长度一致的一维序列,分别为血容量脉搏波B和呼吸波R。血容量脉搏波B和呼吸波R的规模大小是1行160列,对应输入的160帧视频图像序列,相当于每帧得到一个值,一共160个值。
ROI1和ROI2的视频序列经过同一个网络,最终得到的血容量脉搏波和呼吸波分别为B_ROI1、R_ROI1和B_ROI2、R_ROI2。为了更好地融合这两个区域的信息,得到更好的结果,将这两个区域的血容量脉搏波进行相加并进行归一化,并将这两个区域的呼吸波进行相加并进行归一化,作为最终该面部视频的输出结果血容量脉搏波B和呼吸波R。
在步骤2中,根据面部视频和多任务学习生理信号识别模型得到的血容量脉搏波信号和呼吸波信号,计算出心率、血氧饱和度、心率变异性(heart rate variability,HRV)、呼吸率和压力指数(Baevsky Stress Index,BSI)等生理参数。
其中,心率和呼吸率的计算,是分别根据输出结果血容量脉搏波B和呼吸波R,求得频谱最大值对应的频率,计算得出心率和呼吸率实时结果。
其中,血氧饱和度的计算,是根据公式:
其中,A、B为经验常数;R值由ROI(ROI1和ROI2)的红蓝通道数值计算得出,计算公式为:,其中/>和/>分别指的是红、蓝两个通道信号的标准方差,/>和分别为红、蓝两个通道信号的平均值,其中红、蓝两个通道信号,指的是在某一帧时,面部ROI的所有像素红、蓝通道灰度值均值。
其中,心率变异性的计算,是由多任务网络(多任务学习生理信号识别模型)输出的血容量脉搏波B再进行处理后得到。具体步骤如下:首先对多任务网络输出的心率信号曲线(血容量脉搏波B)利用科学计算程序的核心包scipy进行峰值检测,然后根据峰值对应的位置,得到所有相邻峰值点的时间差组成的序列,随后对该序列的标准差即SDNN(standarddeviation of NN intervals)进行计算,得到心率变异性的结果。SDNN的具体计算公式如下:
其中,指的是所有相邻峰的区间数(即心率信号曲线的峰值点数-1),/>指的是峰值时间差组成的序列中的第/>个,/>指的是峰值时间差组成的序列的平均值。
其中,压力指数(Baevsky Stress Index,BSI)的计算也是根据多任务网络输出的血容量脉搏波B的峰值间隔序列得出,其计算公式为:
其中,mod函数求的是每50ms步长中的节拍间间隔直方图中的众数;amp函数返回直方图众数的振幅,定义为特定步长中某个心跳间隔所占的百分比;为根据该组峰值间隔序列/>求得的心率变异性数值。
步骤2中,基于生理信号的情感分类模型如图6所示,将多任务网络获得的血容量脉搏波B和呼吸波R,以及计算得到的心率、血氧饱和度、心率变异性HRV、呼吸率和压力指数BSI五种生理参数,共同输入到情感分类模型。情感分类模型如图6所示,血容量脉搏波B(1×T)、呼吸波R(1×T)以及计算得到的五种生理参数(1×5)先分别经过一维卷积层Conv1D(卷积核大小为1×1,且包含批量归一化BN和激活函数ReLU),扩充到(T×T)大小,然后拼接为一个3×T×T大小的矩阵;再将该矩阵经过一个二维卷积层Conv2D(卷积核大小为3×3,且包含批量归一化BN和激活函数ReLU),最后经过线性层和Softmax(归一化指数)函数,最终得到的情感分类结果为积极、中性和消极其中的一种。
本实施例提供的基于面部视频的情感分类方法,实现了对人类面部rPPG信号的提取,进而实现心率、血氧饱和度、心率变异性、呼吸率和压力指数等生理信号的计算,最后根据这些的生理信号及数据特征进行情感计算;其中的多任务网络识别的脉搏波(BVP)、呼吸波生理信号都反映在人的皮肤表面,因此存在着共同特点,而利用多任务网络能够通过利用参数共享,增强对各类生理信号识别的准确度;与此同时,本发明无接触地实现收集、计算生理信号和情感分类,能够便捷应用于日常护理、心理和行为检测、远程医疗、教育、游戏等场景。
本实施例提供的基于面部视频的情感分类方法,与使用脑电、心电检测仪等传感器接触式设备的传统生理信号检测和情感识别方式相比,能够无接触地实现生理信号收集计算和情绪分类;用普通光学摄像头就能实现生理信号和情绪分类,能够便捷应用于日常护理、心理和行为检测、远程医疗、教育等场景。与此同时,利用多任务网络能够通过利用参数共享节省了模型训练成本,并且能够增强对各类生理信号识别的准确度;将生理信号检测获取的血容量脉搏波和呼吸波结果,以及经过计算得到的心率、血氧饱和度、心率变异性、呼吸率和压力指数生理参数输入情感分类网络,可以在不侵犯个体隐私的情况下,对测试者的情感状态进行准确的识别和评估。
实施例二
本实施例二的目的是提供基于面部视频的情感分类系统,包括:
数据获取模块,其被配置为:获取受试者的面部视频;
情感分类模块,其被配置为:基于面部视频,采用多任务学习生理信号识别模型,得到血容量脉搏波和呼吸波后,根据血容量脉搏波和呼吸波计算出生理参数,并将血容量脉搏波、呼吸波和生理参数共同作为情感分类模型的输入,得到受试者的情感类别。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,该程序被处理器执行时实现如上述实施例一所述的基于面部视频的情感分类方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于面部视频的情感分类方法中的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.基于面部视频的情感分类方法,其特征在于,包括:
获取受试者的面部视频;
基于面部视频,采用多任务学习生理信号识别模型,得到血容量脉搏波和呼吸波后,根据血容量脉搏波和呼吸波计算出生理参数,并将血容量脉搏波、呼吸波和生理参数共同作为情感分类模型的输入,得到受试者的情感类别。
2.如权利要求1所述的基于面部视频的情感分类方法,其特征在于,所述生理参数包括心率、血氧饱和度、心率变异性、呼吸率和压力指数。
3.如权利要求1所述的基于面部视频的情感分类方法,其特征在于,所述多任务学习生理信号识别模型对输入的面部视频进行人脸关键点识别,并取额头区域和脸颊区域分别作为感兴趣区域,将两个感兴趣区域的视频帧序列裁切出来,并进行缩放后,分别输入孪生网络,均得到血容量脉搏波和呼吸波。
4.如权利要求3所述的基于面部视频的情感分类方法,其特征在于,所述孪生网络包括用于处理额头区域视频帧序列的网络分支和用于处理脸颊区域视频帧序列的网络分支,两个网络分支均包括依次连接的特征提取模块、若干个变换器模块和信号预测器,且两个网络分支之间的变换器模块共享参数。
5.如权利要求3所述的基于面部视频的情感分类方法,其特征在于,将基于额头区域视频帧序列得到的血容量脉搏波和基于脸颊区域视频帧序列得到的血容量脉搏波,进行相加并进行归一化,得到输入情感分类模型的血容量脉搏波。
6.如权利要求3所述的基于面部视频的情感分类方法,其特征在于,将基于额头区域视频帧序列得到的呼吸波和基于脸颊区域视频帧序列得到的呼吸波,进行相加并进行归一化,得到输入情感分类模型的呼吸波。
7.如权利要求1所述的基于面部视频的情感分类方法,其特征在于,所述情感分类模型,将血容量脉搏波和呼吸波以及计算得到的生理参数先分别经过一维卷积层后,拼接为一个矩阵,再将矩阵经过一个二维卷积层后,经过线性层和归一化指数函数,得到的情感类别。
8.基于面部视频的情感分类系统,其特征在于,包括:
数据获取模块,其被配置为:获取受试者的面部视频;
情感分类模块,其被配置为:基于面部视频,采用多任务学习生理信号识别模型,得到血容量脉搏波和呼吸波后,根据血容量脉搏波和呼吸波计算出生理参数,并将血容量脉搏波、呼吸波和生理参数共同作为情感分类模型的输入,得到受试者的情感类别。
9.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于面部视频的情感分类方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于面部视频的情感分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311033695.9A CN116758619B (zh) | 2023-08-17 | 2023-08-17 | 基于面部视频的情感分类方法、系统、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311033695.9A CN116758619B (zh) | 2023-08-17 | 2023-08-17 | 基于面部视频的情感分类方法、系统、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116758619A true CN116758619A (zh) | 2023-09-15 |
CN116758619B CN116758619B (zh) | 2023-11-24 |
Family
ID=87957537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311033695.9A Active CN116758619B (zh) | 2023-08-17 | 2023-08-17 | 基于面部视频的情感分类方法、系统、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758619B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423041A (zh) * | 2023-12-13 | 2024-01-19 | 成都中医药大学 | 一种基于计算机视觉的面部视频判别中医气血系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259895A (zh) * | 2020-02-21 | 2020-06-09 | 天津工业大学 | 一种基于面部血流分布的情感分类方法及系统 |
CN113017630A (zh) * | 2021-03-02 | 2021-06-25 | 贵阳像树岭科技有限公司 | 一种视觉感知情绪识别方法 |
US20210219848A1 (en) * | 2020-01-21 | 2021-07-22 | Research & Business Foundation Sungkyunkwan University | Method and apparatus for measuring robust pulse rate and respiratory rate using facial images |
US20210304001A1 (en) * | 2020-03-30 | 2021-09-30 | Google Llc | Multi-head neural network model to simultaneously predict multiple physiological signals from facial RGB video |
CN115840890A (zh) * | 2023-02-24 | 2023-03-24 | 北京科技大学 | 一种基于非接触生理信号的情绪识别方法及装置 |
CN116383617A (zh) * | 2023-04-21 | 2023-07-04 | 复旦大学 | 一种基于脉搏波波形特征的智能血压检测方法及系统 |
-
2023
- 2023-08-17 CN CN202311033695.9A patent/CN116758619B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210219848A1 (en) * | 2020-01-21 | 2021-07-22 | Research & Business Foundation Sungkyunkwan University | Method and apparatus for measuring robust pulse rate and respiratory rate using facial images |
CN111259895A (zh) * | 2020-02-21 | 2020-06-09 | 天津工业大学 | 一种基于面部血流分布的情感分类方法及系统 |
US20210304001A1 (en) * | 2020-03-30 | 2021-09-30 | Google Llc | Multi-head neural network model to simultaneously predict multiple physiological signals from facial RGB video |
CN113017630A (zh) * | 2021-03-02 | 2021-06-25 | 贵阳像树岭科技有限公司 | 一种视觉感知情绪识别方法 |
CN115840890A (zh) * | 2023-02-24 | 2023-03-24 | 北京科技大学 | 一种基于非接触生理信号的情绪识别方法及装置 |
CN116383617A (zh) * | 2023-04-21 | 2023-07-04 | 复旦大学 | 一种基于脉搏波波形特征的智能血压检测方法及系统 |
Non-Patent Citations (3)
Title |
---|
HEEJIN LEE ET AL.: "Multitask Siamese Network for Remote Photoplethysmography and Respiration Estimation", SENSORS, pages 3 - 4 * |
ZITONG YU ET AL.: "PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer", 2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), pages 4177 - 4180 * |
李土艳: "基于rPPG技术的面部视频精神压力识别研究", 中国优秀硕士学位论文全文数据库基础科学辑, vol. 2023, no. 02, pages 006 - 1569 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423041A (zh) * | 2023-12-13 | 2024-01-19 | 成都中医药大学 | 一种基于计算机视觉的面部视频判别中医气血系统 |
CN117423041B (zh) * | 2023-12-13 | 2024-03-08 | 成都中医药大学 | 一种基于计算机视觉的面部视频判别中医气血系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116758619B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102973253B (zh) | 一种利用视觉信息监测人体生理指标的方法和系统 | |
Casado et al. | Face2PPG: An unsupervised pipeline for blood volume pulse extraction from faces | |
CN111728602A (zh) | 基于ppg的无接触血压测量装置 | |
CN111839489B (zh) | 非接触式生理心理健康检测系统 | |
Hu et al. | Robust heart rate estimation with spatial–temporal attention network from facial videos | |
CN112949349B (zh) | 基于人脸视频实时显示脉象波形的方法和系统 | |
CN116758619B (zh) | 基于面部视频的情感分类方法、系统、存储介质及设备 | |
Premkumar et al. | Intelligent remote photoplethysmography-based methods for heart rate estimation from face videos: A survey | |
Yin et al. | Heart rate estimation based on face video under unstable illumination | |
CN114628020A (zh) | 远程体积描记信号检测模型构建、检测方法、装置及应用 | |
Hu et al. | A novel spatial-temporal convolutional neural network for remote photoplethysmography | |
CN112294282A (zh) | 基于rppg的情绪检测装置的自标定方法 | |
CN116012916A (zh) | 远程光体积描记信号和心率检测模型构建方法及检测方法 | |
Nowara et al. | The benefit of distraction: Denoising remote vitals measurements using inverse attention | |
CN116109818A (zh) | 一种基于面部视频的中医脉候判别系统及方法和装置 | |
CN116548942A (zh) | 非接触式心率变异性检测方法及系统 | |
Ouzar et al. | Lcoms lab's approach to the vision for vitals (v4v) challenge | |
Li et al. | Channel-wise interactive learning for remote heart rate estimation from facial video | |
CN117612710A (zh) | 一种基于脑电信号和人工智能分类的医疗诊断辅助系统 | |
CN113456042A (zh) | 一种基于3d cnn的无接触面部血压测量方法 | |
Jiang et al. | Emotion analysis: Bimodal fusion of facial expressions and EEG | |
Peng et al. | MVPD: A multimodal video physiology database for rPPG | |
CN116403734A (zh) | 用于身心健康分析的非接触式多参数监测方法及系统 | |
Kuang et al. | Shuffle-rPPGNet: Efficient network with global context for remote heart rate variability measurement | |
Kuang et al. | Remote photoplethysmography signals enhancement based on generative adversarial networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |