CN116671921A - 智能设备的情感识别方法及其系统 - Google Patents
智能设备的情感识别方法及其系统 Download PDFInfo
- Publication number
- CN116671921A CN116671921A CN202310647627.5A CN202310647627A CN116671921A CN 116671921 A CN116671921 A CN 116671921A CN 202310647627 A CN202310647627 A CN 202310647627A CN 116671921 A CN116671921 A CN 116671921A
- Authority
- CN
- China
- Prior art keywords
- feature map
- probabilistic
- feature
- iterative
- weighting coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012544 monitoring process Methods 0.000 claims abstract description 33
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 27
- 230000008451 emotion Effects 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 75
- 238000005070 sampling Methods 0.000 claims description 74
- 239000011159 matrix material Substances 0.000 claims description 51
- 238000010586 diagram Methods 0.000 claims description 32
- 238000000354 decomposition reaction Methods 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 208000019901 Anxiety disease Diseases 0.000 description 2
- 206010003805 Autism Diseases 0.000 description 2
- 208000020706 Autistic disease Diseases 0.000 description 2
- 230000036506 anxiety Effects 0.000 description 2
- 230000005978 brain dysfunction Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000035790 physiological processes and functions Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/18—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state for vehicle drivers or machine operators
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/372—Analysis of electroencephalograms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Psychiatry (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Heart & Thoracic Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Psychology (AREA)
- Databases & Information Systems (AREA)
- Veterinary Medicine (AREA)
- Surgery (AREA)
- Hospice & Palliative Care (AREA)
- Educational Technology (AREA)
- Developmental Disabilities (AREA)
- Child & Adolescent Psychology (AREA)
- Social Psychology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
Abstract
本申请涉及情感识别的领域,其具体地公开了一种智能设备的情感识别方法及其系统,其通过具有三维卷积核的卷积神经网络来从人脸监控视频的图像帧中提取出在时间维度上的隐含特征分布信息,并从脑电信号的时频关联特征中提取出时序上的高维关联特征信息,这样,在融合这两个特征信息时,引入了用于对所述特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数,以在一定程度上避免所述特征图在某些位置陷入局部最优而无法继续优化,从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力,提高了分类准确性。这样,就可以对情感标签的类别进行有效地识别。
Description
技术领域
本发明涉及情感识别的领域,且更为具体地,涉及一种智能设备的情感识别方法及其系统。
背景技术
情感是人们进行认知、决策处理和人际互动的重要组成部分,在人们的日常交流和社会活动中起着重要的作用,医学、神经学、心理学和情感计算等领域的研究人员希望通过计算机系统识别和理解人类情感。随着科技的发展和社会的进步,人机交互(Human-Computer Interaction,HCI)技术引起了人们越来越多的关注。HCI 有着广阔的应用前景,比如在人机对话领域中,情感识别可以使机器感知人的情感心理状态,从而使机器更加了解对话对象,提供更加人性化的回答。提高人机对话体验具有重要的现实意义,在医疗领域中,情感识别可以辅助医生进行自闭症、焦虑症和一些脑功能障碍疾病的治疗;在航空航天领域,通过监控航天员的情感状态可以实时掌握航天员的生理状态,帮助航天员顺利完成航天任务。因此,对情感识别进行研究有着重大的意义。因此,期望一种智能设备的情感识别方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种智能设备的情感识别方法及其系统,其通过具有三维卷积核的卷积神经网络来从人脸监控视频的图像帧中提取出在时间维度上的隐含特征分布信息,并从脑电信号的时频关联特征中提取出时序上的高维关联特征信息,这样,在融合这两个特征信息时,引入了用于对所述特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数,以在一定程度上避免所述特征图在某些位置陷入局部最优而无法继续优化,从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力,提高了分类准确性。这样,就可以对情感标签的类别进行有效地识别。
根据本申请的一个方面,提供了一种智能设备的情感识别方法,其包括:
获取预定时间段的人脸监控视频和所述预定时间段的脑电信号;
将所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图;
以预设采样窗从所述脑电信号的波形图中沿时序截取多个采样窗;
分别从各个所述采样窗中提取时域特征和频域特征;
将各个所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵;
将各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图;
分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数,其中,所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;
分别以所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图;
融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图,并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图;以及
将所述分类特征图通过分类器以获得分类结果,其中,所述分类结果为情感标签。
根据本申请的另一方面,提供了一种智能设备的情感识别系统,其包括:
脑电信号获取单元,用于获取预定时间段的人脸监控视频和所述预定时间段的脑电信号;
第一特征图生成单元,用于将所述脑电信号获取单元获得的所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图;
采样窗截取单元,用于以预设采样窗从所述脑电信号获取单元获得的所述脑电信号的波形图中沿时序截取多个采样窗;
特征提取单元,用于分别从各个所述采样窗截取单元获得的所述采样窗中提取时域特征和频域特征;
关联矩阵生成单元,用于将各个所述特征提取单元获得的所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵;
第二特征图生成单元,用于将各个所述关联矩阵生成单元获得的所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图;
迭代互加权系数计算单元,用于分别将所述第一特征图生成单元获得的所述第一特征图和所述第二特征图生成单元获得的所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数,其中,所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;
加权单元,用于分别以所述迭代互加权系数计算单元获得的所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述迭代互加权系数计算单元获得的所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图;
融合单元,用于融合所述加权单元获得的所述第一修正后特征图和所述加权单元获得的所述第二修正后特征图以获得分类特征图;以及
分类单元,用于将所述融合单元获得的所述分类特征图通过分类器以获得分类结果,其中,所述分类结果为情感标签。
根据本申请的再又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的智能设备的情感识别方法。
与现有技术相比,本申请提供的智能设备的情感识别方法及其系统,其通过具有三维卷积核的卷积神经网络来从人脸监控视频的图像帧中提取出在时间维度上的隐含特征分布信息,并从脑电信号的时频关联特征中提取出时序上的高维关联特征信息,这样,在融合这两个特征信息时,引入了用于对所述特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数,以在一定程度上避免所述特征图在某些位置陷入局部最优而无法继续优化,从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力,提高了分类准确性。这样,就可以对情感标签的类别进行有效地识别。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的智能设备的情感识别方法的应用场景图;
图2为根据本申请实施例的智能设备的情感识别方法的流程图;
图3为根据本申请实施例的智能设备的情感识别方法的系统架构示意图;
图4为根据本申请实施例的智能设备的情感识别系统的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如前所述,情感是人们进行认知、决策处理和人际互动的重要组成部分,在人们的日常交流和社会活动中起着重要的作用,医学、神经学、心理学和情感计算等领域的研究人员希望通过计算机系统识别和理解人类情感。随着科技的发展和社会的进步,人机交互(Human-Computer Interaction,HCI)技术引起了人们越来越多的关注。
HCI 有着广阔的应用前景,比如在人机对话领域中,情感识别可以使机器感知人的情感心理状态,从而使机器更加了解对话对象,提供更加人性化的回答。提高人机对话体验具有重要的现实意义,在医疗领域中,情感识别可以辅助医生进行自闭症、焦虑症和一些脑功能障碍疾病的治疗;在航空航天领域,通过监控航天员的情感状态可以实时掌握航天员的生理状态,帮助航天员顺利完成航天任务。因此,对情感识别进行研究有着重大的意义。因此,期望一种智能设备的情感识别方案。
目前,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
深度学习以及神经网络的发展为智能设备的情感识别提供了新的解决思路和方案。
应可以理解,情感识别在不同的应用领域中都发挥着巨大的价值,因此对于情感识别的研究有着重大的意义,而这本质上是一个分类的问题,也就是,基于人脸的监控视频的图像特征和脑电信号的时频特征来综合对情感的标签进行分类识别,这里可以利用深度神经网络模型来进行特征的提取,并使用分类器来进行情感标签的分类。
基于此,在本申请的技术方案中,首先将人脸的监控视频通过3D卷积神经网络中进行处理,以提取出人脸监控视频中的各个图像帧在时序维度上的关联特征信息,从而获得第一特征图。
接着,以采样窗从脑电信号的原始波形图中截取多个采样窗,分别统计各个采样窗的时域特征和频域特征。
应可以理解,由于原始的EEG信号就是一个时域上的数据。时域分析关注的是EEG波幅随时间进程的变化情况,事件相关电位(ERP)分析就是最常用的时域分析方法,能够快速得到由某个事件(刺激)所引起的波幅值的变化。时域分析的优点在于其计算简单和快速,而且由于不需要进行滤波处理,相较于频域分析具有更高的时间精度和准确性。然而,时域分析并不足以全面反映EEG信号中所蕴藏的信息。
因此,还需要频域分析来进行辅助,频域分析实现的是EEG信号从时域到频域的转换,频域分析的结果为各个频率上的能量值分布,也就是我们常说的power值,实际处理中频域分析常使用的是傅里叶变换。由于脑电信号可以看成就是由不同的正弦信号混壘而成的混合信号,通过傅里叶变换,就能够将这个混合信号重新分解成具有不同频率的正弦波,从而获得频域上的信息。
然后,将各个采样窗的时域特征向量与频域特征向量的转置进行相乘以获得时-频域关联矩阵。进一步将时-频域关联矩阵的序列通过3D卷积神经网络,以提取出时频特征信息在时序上的关联特征分布,从而获得第二特征图。
但是,考虑到在融合第一特征图和第二特征图时,为了避免融合后的特征图在某个位置陷入局部最优,导致神经网络的参数更新不再能够迭代优化,因此首先引入用于对特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数,表示为:
其中和/>分别是第一特征图和第二特征图的转换到概率空间的每个位置的特征值,且/>是第一特征图和第二特征图共享的转换到概率空间后的最大特征值。
然后,以迭代互加权系数和/>分别对第一特征图和第二特征图的各个位置的特征值/>和/>进行加权,得到修正后的第一特征图和第二特征图。
这样,再融合修正后的第一特征图和第二特征图,就可以在一定程度上避免特征图在某些位置陷入局部最优而无法继续优化,从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力,提高了分类准确性。
另外,为了避免融合后的特征图的各个特征矩阵之间的高维特征流形的流形几何一致性差,分别计算所述融合后的特征图的每个特征矩阵的基于凸分解的特征几何度量的逐片近似因数,表示为:
其中,是每个特征矩阵/>的第/>个行向量或者列向量,/>表示将各个向量级联,且/>表示向量的二范数的平方。
具体地,所述基于凸分解的特征几何度量的逐片近似因数可以通过的平滑最大函数来定义每个特征矩阵的高维特征流形的局部几何形状间的符号化距离度量,以基于高维特征流形的凸多面体(convex polytope)分解来获得每个凸多面体对象的可微的凸指示符(convex indicator),并进而以/>函数确定用于表达高维特征流形的可学习的逐片凸分解的超平面距离参数,以近似地度量特征几何。这样,通过以所述基于凸分解的特征几何度量的逐片近似因数对各个特征矩阵进行加权,就可以提升所述融合后的特征图的各个特征矩阵的高维特征流形的流形几何一致性,从而提升其通过分类器进行分类回归时的收敛难度,以改进训练速度和收敛到的分类结果的准确性。
基于此,本申请提出了一种智能设备的情感识别方法,其包括:获取预定时间段的人脸监控视频和所述预定时间段的脑电信号;将所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图;以预设采样窗从所述脑电信号的波形图中沿时序截取多个采样窗;分别从各个所述采样窗中提取时域特征和频域特征;将各个所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵;将各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图;分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数,其中,所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;分别以所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图;融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图,并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图;以及,将所述分类特征图通过分类器以获得分类结果,其中,所述分类结果为情感标签。
图1图示了根据本申请实施例的智能设备的情感识别方法的应用场景图。如图1所示,在该应用场景中,首先,通过部署于智能设备(例如,如图1中所示意的智能手机H)中的摄像头(例如,如图1中所示意的C)获取预定时间段的人脸(例如,如图1中所示意的F)监控视频,以及通过脑电信号采集系统(例如,如图1中所示意的P)获取被测对象在所述预定时间段的脑电信号。然后,将获得的所述预定时间段的人脸监控视频以及所述预定时间段的脑电信号输入至部署有智能设备的情感识别算法的服务器中(例如,如图1中所示意的S),其中,所述服务器能够以智能设备的情感识别算法对所述预定时间段的人脸监控视频以及所述预定时间段的脑电信号进行处理,以生成情感标签。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图2图示了智能设备的情感识别方法的流程图。如图2所示,根据本申请实施例的智能设备的情感识别方法,包括:S110,获取预定时间段的人脸监控视频和所述预定时间段的脑电信号;S120,将所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图;S130,以预设采样窗从所述脑电信号的波形图中沿时序截取多个采样窗;S140,分别从各个所述采样窗中提取时域特征和频域特征;S150,将各个所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵;S160,将各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图;S170,分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数,其中,所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;S180,分别以所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图;S190,融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图,并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图;以及,S200,将所述分类特征图通过分类器以获得分类结果,其中,所述分类结果为情感标签。
图3图示了根据本申请实施例的智能设备的情感识别方法的架构示意图。如图3所示,在所述智能设备的情感识别方法的网络架构中,首先,将所述人脸监控视频(例如,如图3中所示意的P1)通过具有三维卷积核的卷积神经网络(例如,如图3中所示意的CNN)以获得第一特征图(例如,如图3中所示意的F1);接着,以预设采样窗从所述脑电信号的波形图(例如,如图3中所示意的P2)中沿时序截取多个采样窗(例如,如图3中所示意的SW);然后,分别从各个所述采样窗中提取时域特征(例如,如图3中所示意的Q1)和频域特征(例如,如图3中所示意的Q2);接着,将各个所述采样窗的时域特征和频域特征分别排列为第一输入向量(例如,如图3中所示意的V1)和第二输入向量(例如,如图3中所示意的V2)后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵(例如,如图3中所示意的M);然后,将各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络(例如,如图3中所示意的CNN)以获得第二特征图(例如,如图3中所示意的F2);接着,分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图(例如,如图3中所示意的F3)和第二概率化特征图(例如,如图3中所示意的F4)后计算所述第一概率化特征图中各个位置的第一迭代互加权系数(例如,如图3中所示意的CW1)以及所述第二概率化特征图中各个位置的第二迭代互加权系数(例如,如图3中所示意的CW2);然后,分别以所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图(例如,如图3中所示意的FC1)和第二修正后特征图(例如,如图3中所示意的FC2);接着,融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图,并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图(例如,如图3中所示意的F);以及,最后,将所述分类特征图通过分类器(例如,如图3中所示意的分类器)以获得分类结果,其中,所述分类结果为情感标签。
在步骤S110和步骤S120中,获取预定时间段的人脸监控视频和所述预定时间段的脑电信号,并将所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图。如前所述,应可以理解,情感识别在不同的应用领域中都发挥着巨大的价值,因此对于情感识别的研究有着重大的意义,而这本质上是一个分类的问题,也就是,基于人脸的监控视频的图像特征和脑电信号的时频特征来综合对情感的标签进行分类识别,这里可以利用深度神经网络模型来进行特征的提取,并使用分类器来进行情感标签的分类。
也就是,在本申请的技术方案中,首先,通过部署于智能设备中的摄像头获取预定时间段的人脸监控视频,以及通过人体佩戴的电子设备中的传感器获取所述预定时间段的脑电信号。然后,将所述人脸的监控视频通过3D卷积神经网络中进行处理,以提取出所述人脸监控视频中的各个图像帧在时序维度上的关联特征信息,从而获得第一特征图。
在步骤S130和步骤S140中,以预设采样窗从所述脑电信号的波形图中沿时序截取多个采样窗,并分别从各个所述采样窗中提取时域特征和频域特征。也就是,在本申请的技术方案中,进一步以采样窗从所述脑电信号的原始波形图中截取多个采样窗,分别统计所述各个采样窗的时域特征和频域特征。相应地,在一个具体示例中,分别从各个所述采样窗中提取X1,X2....Xn作为所述时域特征以及y1,y2...yn作为所述频域特征。
应可以理解,由于所述原始的EEG信号就是一个时域上的数据。时域分析关注的是EEG波幅随时间进程的变化情况,在实际的应用中,事件相关电位(ERP)分析就是最常用的时域分析方法,能够快速得到由某个事件(刺激)所引起的波幅值的变化。所述时域分析的优点在于其计算简单和快速,而且由于不需要进行滤波处理,相较于频域分析具有更高的时间精度和准确性。然而,所述时域分析并不足以全面反映所述EEG信号中所蕴藏的信息。
因此,在本申请的技术方案中,还需要使用频域分析来辅助进行特征提取,所述频域分析实现的是EEG信号从时域到频域的转换,频域分析的结果为各个频率上的能量值分布,也就是我们常说的power值,实际处理中所述频域分析常使用的是傅里叶变换。由于所述脑电信号可以看成就是由不同的正弦信号混壘而成的混合信号,通过傅里叶变换,就能够将这个混合信号重新分解成具有不同频率的正弦波,从而获得频域上的信息。
在步骤S150和步骤S160中,将各个所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵,并将各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图。也就是,在本申请的技术方案中,在得到所述各个采样窗的时序特征和频域特征后,进一步将这两个特征分别排列为第一输入向量和第二输入向量,这样就可以将所述第一输入向量的转置与所述第二输入向量之间的向量相乘,以获得具有时频关联特征信息的各个所述采样窗的时-频域关联矩阵。然后,将得到的各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络中进行处理,以提取出时频特征信息在时序上的隐含关联特征分布,从而获得第二特征图。
在步骤S170中,分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数,其中,所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值。应可以理解,考虑到在融合所述第一特征图和所述第二特征图时,为了避免融合后的特征图在某个位置陷入局部最优,导致神经网络的参数更新不再能够迭代优化。因此,在本申请的技术方案中,首先引入用于对所述特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数。
也就是,具体地,首先分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图。相应地,在一个具体示例中,以如下公式分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图;
其中,所述公式为:
x`=(x-μ)/σ
其中x是归一化前的所述第一特征图和第二特征图的各个位置的特征值,而x`是归一化后的所述第一特征图和第二特征图的各个对应位置的特征值,μ的每个位置的值是所述第一特征图和所述第二特征图中相应位置的特征值的均值,σ的每个位置的值是所述第一特征图和所述第二特征图的相应位置的特征值的方差。
然后,计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数。
具体地,在本申请的技术方案中,分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数,包括:分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后以如下公式计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数;
其中,所述公式为:
其中和/>分别是所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值,且/>是所述第一特征图和所述第二特征图共享的转换到概率空间后的最大特征值。
在步骤S180和步骤S190中,分别以所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图,并融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图,并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图。应可以理解,在本申请的技术方案中,进一步以所述迭代互加权系数和/>分别对所述第一概率化特征图和所述第二概率化特征图的各个位置的特征值/>和/>进行加权,得到修正后的第一特征图和第二特征图。这样,再融合所述修正后的第一特征图和第二特征图,就可以在一定程度上避免所述特征图在某些位置陷入局部最优而无法继续优化,从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力,提高了分类准确性。
具体地,在本申请实施例中,融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图的过程,包括:以如下公式融合所述第一修正后特征图和所述第二修正后特征图以获得所述融合特征图;
其中,所述公式为:
F=+/>
其中,和/>分别表示所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值,/>和/>分别表示所述第二概率化特征图和所述第三概率化特征图的按位置迭代互加权系数。
另外,为了避免融合后的特征图的各个特征矩阵之间的高维特征流形的流形几何一致性差,分别计算所述融合后的特征图的每个特征矩阵的基于凸分解的特征几何度量的逐片近似因数,表示为:
其中,是每个特征矩阵/>的第/>个行向量或者列向量,/>表示将各个向量级联,且/>表示向量的二范数的平方。
具体地,所述基于凸分解的特征几何度量的逐片近似因数可以通过的平滑最大函数来定义每个特征矩阵的高维特征流形的局部几何形状间的符号化距离度量,以基于高维特征流形的凸多面体(convex polytope)分解来获得每个凸多面体对象的可微的凸指示符(convex indicator),并进而以/>函数确定用于表达高维特征流形的可学习的逐片凸分解的超平面距离参数,以近似地度量特征几何。这样,通过以所述基于凸分解的特征几何度量的逐片近似因数对各个特征矩阵进行加权,就可以提升所述融合后的特征图的各个特征矩阵的高维特征流形的流形几何一致性,从而提升其通过分类器进行分类回归时的收敛难度,以改进训练速度和收敛到的分类结果的准确性。
在步骤S200中,将所述分类特征图通过分类器以获得分类结果,其中,所述分类结果为情感标签。特别地,在一个具体示例中,所述分类器以如下公式对所述分类特征图进行处理以生成分类结果,其中,所述公式为:,其中表示将所述分类特征图投影为向量,/>至/>为各层全连接层的权重矩阵,/>至表示各层全连接层的偏置矩阵。
综上,本申请实施例的智能设备的情感识别方法被阐明,其通过具有三维卷积核的卷积神经网络来从人脸监控视频的图像帧中提取出在时间维度上的隐含特征分布信息,并从脑电信号的时频关联特征中提取出时序上的高维关联特征信息,这样,在融合这两个特征信息时,引入了用于对所述特征图的各个位置的特征值进行融合迭代加权优化的迭代互加权系数,以在一定程度上避免所述特征图在某些位置陷入局部最优而无法继续优化,从而改进了参数跨周期的迭代更新能力和跨位置的局部优化能力,提高了分类准确性。这样,就可以对情感标签的类别进行有效地识别。
示例性系统
图4图示了根据本申请实施例的智能设备的情感识别系统的框图。如图4所示,根据本申请实施例的智能设备的情感识别系统 400,包括:脑电信号获取单元 410,用于获取预定时间段的人脸监控视频和所述预定时间段的脑电信号;第一特征图生成单元 420,用于将所述脑电信号获取单元 410获得的所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图;采样窗截取单元 430,用于以预设采样窗从所述脑电信号获取单元 410获得的所述脑电信号的波形图中沿时序截取多个采样窗;特征提取单元 440,用于分别从各个所述采样窗截取单元 430获得的所述采样窗中提取时域特征和频域特征;关联矩阵生成单元 450,用于将各个所述特征提取单元 440获得的所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵;第二特征图生成单元 460,用于将各个所述关联矩阵生成单元 450获得的所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图;迭代互加权系数计算单元 470,用于分别将所述第一特征图生成单元 420获得的所述第一特征图和所述第二特征图生成单元 460获得的所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数,其中,所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;加权单元 480,用于分别以所述迭代互加权系数计算单元 470获得的所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述迭代互加权系数计算单元470获得的所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图;融合单元 490,用于融合所述加权单元 480获得的所述第一修正后特征图和所述加权单元 480获得的所述第二修正后特征图以获得分类特征图;以及,分类单元 500,用于将所述融合单元 490获得的所述分类特征图通过分类器以获得分类结果,其中,所述分类结果为情感标签。
在一个示例中,在上述智能设备的情感识别系统 400中,分别从各个所述采样窗中提取X1,X2....Xn作为所述时域特征以及y1,y2...yn作为所述频域特征。
在一个示例中,在上述智能设备的情感识别系统 400中,所述迭代互加权系数计算单元 470,进一步用于:以如下公式分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图;
其中,所述公式为:
x`=(x-μ)/σ
其中x是归一化前的所述第一特征图和第二特征图的各个位置的特征值,而x`是归一化后的所述第一特征图和第二特征图的各个对应位置的特征值,μ的每个位置的值是所述第一特征图和所述第二特征图中相应位置的特征值的均值,σ的每个位置的值是所述第一特征图和所述第二特征图的相应位置的特征值的方差。
在一个示例中,在上述智能设备的情感识别系统 400中,所述迭代互加权系数计算单元 470,进一步用于:分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后以如下公式计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数;
其中,所述公式为:
其中和/>分别是所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值,且/>是所述第一特征图和所述第二特征图共享的转换到概率空间后的最大特征值。
在一个示例中,在上述智能设备的情感识别系统 400中,所述融合单元 490,进一步用于:以如下公式融合所述第一修正后特征图和所述第二修正后特征图以获得所述融合特征图;
其中,所述公式为:
F=+/>
其中,和/>分别表示所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值,/>和/>分别表示所述第二概率化特征图和所述第三概率化特征图的按位置迭代互加权系数;
以如下公式计算所述融合特征图的各个特征矩阵的基于凸分解的特征几何度量的逐片近似因数;
其中,所述公式为:
其中,是所述融合特征图的各个特征矩阵/>的第/>个行向量或者列向量,/>表示将各个向量级联,且/>表示向量的二范数的平方,/>是基于凸分解的特征几何度量的逐片近似因数;以及
以所述基于凸分解的特征几何度量的逐片近似因数对所述融合特征图的各个特征矩阵进行加权以得到分类特征图。
在一个示例中,在上述智能设备的情感识别系统 400中,所述分类单元 500,进一步用于:所述分类器以如下公式对所述分类特征图进行处理以生成分类结果,其中,所述公式为:,其中/>表示将所述分类特征图投影为向量,/>至/>为各层全连接层的权重矩阵,/>至/>表示各层全连接层的偏置矩阵。
这里,本领域技术人员可以理解,上述智能设备的情感识别系统 400中的各个单元和模块的具体功能和操作已经在上面参考图1到图3的智能设备的情感识别方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的智能设备的情感识别系统 400可以实现在各种终端设备中,例如智能设备的情感识别算法的服务器等。在一个示例中,根据本申请实施例的智能设备的情感识别系统 400可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该智能设备的情感识别系统 400可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该智能设备的情感识别系统 400同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该智能设备的情感识别系统 400与该终端设备也可以是分立的设备,并且该智能设备的情感识别系统 400可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的智能设备的情感识别方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的智能设备的情感识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种智能设备的情感识别方法,其特征在于,包括:
获取预定时间段的人脸监控视频和所述预定时间段的脑电信号;
将所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图;
以预设采样窗从所述脑电信号的波形图中沿时序截取多个采样窗;
分别从各个所述采样窗中提取时域特征和频域特征;
将各个所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵;
将各个所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图;
分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数,其中,所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;
分别以所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图;
融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图,并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图;以及
将所述分类特征图通过分类器以获得分类结果,其中,所述分类结果为情感标签。
2.根据权利要求1所述的智能设备的情感识别方法,其中,分别从各个所述采样窗中提取时域特征和频域特征,包括:
分别从各个所述采样窗中提取X1,X2....Xn作为所述时域特征以及y1,y2...yn作为所述频域特征。
3.根据权利要求2所述的智能设备的情感识别方法,其中,分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图,包括:
以如下公式分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图;
其中,所述公式为:
x`=(x-μ)/σ
其中x是归一化前的所述第一特征图和第二特征图的各个位置的特征值,而x`是归一化后的所述第一特征图和第二特征图的各个对应位置的特征值,μ的每个位置的值是所述第一特征图和所述第二特征图中相应位置的特征值的均值,σ的每个位置的值是所述第一特征图和所述第二特征图的相应位置的特征值的方差。
4.根据权利要求3所述的智能设备的情感识别方法,其中,分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数,包括:
分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后以如下公式计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数;
其中,所述公式为:
其中和/>分别是所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值,且/>是所述第一特征图和所述第二特征图共享的转换到概率空间后的最大特征值。
5.根据权利要求4所述的智能设备的情感识别方法,其中,融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图,并对融合特征图进行基于凸分解的特征几何度量的逐片近似因数的优化以得到分类特征图,包括:
以如下公式融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图;
其中,所述公式为:
F=+/>其中,/>和/>分别表示所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值,/>和/>分别表示所述第二概率化特征图和所述第三概率化特征图的按位置迭代互加权系数;
以如下公式计算所述融合特征图的各个特征矩阵的基于凸分解的特征几何度量的逐片近似因数;
其中,所述公式为:
其中,是所述融合特征图的各个特征矩阵/>的第/>个行向量,/>表示将各个向量级联,且/>表示向量的二范数的平方,/>是基于凸分解的特征几何度量的逐片近似因数;以及
以所述基于凸分解的特征几何度量的逐片近似因数对所述融合特征图的各个特征矩阵进行加权以得到分类特征图。
6.根据权利要求5所述的智能设备的情感识别方法,其中,将所述分类特征图通过分类器以获得分类结果,包括:
所述分类器以如下公式对所述分类特征图进行处理以生成分类结果,其中,所述公式为:,其中/>表示将所述分类特征图投影为向量,/>至/>为各层全连接层的权重矩阵,/>至/>表示各层全连接层的偏置矩阵。
7.一种智能设备的情感识别系统,其特征在于,包括:
脑电信号获取单元,用于获取预定时间段的人脸监控视频和所述预定时间段的脑电信号;
第一特征图生成单元,用于将所述脑电信号获取单元获得的所述人脸监控视频通过具有三维卷积核的卷积神经网络以获得第一特征图;
采样窗截取单元,用于以预设采样窗从所述脑电信号获取单元获得的所述脑电信号的波形图中沿时序截取多个采样窗;
特征提取单元,用于分别从各个所述采样窗截取单元获得的所述采样窗中提取时域特征和频域特征;
关联矩阵生成单元,用于将各个所述特征提取单元获得的所述采样窗的时域特征和频域特征分别排列为第一输入向量和第二输入向量后计算所述第一输入向量的转置与所述第二输入向量之间的向量相乘以获得各个所述采样窗的时-频域关联矩阵;
第二特征图生成单元,用于将各个所述关联矩阵生成单元获得的所述采样窗的时-频域关联矩阵构造为三维的输入张量后通过所述具有三维卷积核的卷积神经网络以获得第二特征图;
迭代互加权系数计算单元,用于分别将所述第一特征图生成单元获得的所述第一特征图和所述第二特征图生成单元获得的所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数,其中,所述第一概率化特征图中各个位置的第一迭代互加权系数为以一与一减去所述第一概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;所述第二概率化特征图中各个位置的第二迭代互加权系数为以一与一减去所述第二概率化特征图中相应位置的特征值除以所述第一概率化特征图和所述第二概率化特征图中的最大特征值之商之间的差值之间的差值为平方为幂的自然指数函数值的倒数与1之间的差值;
加权单元,用于分别以所述迭代互加权系数计算单元获得的所述第一概率化特征图中各个位置的第一迭代互加权系数作为权重和所述迭代互加权系数计算单元获得的所述第二概率化特征图中各个位置的第二迭代互加权系数作为权重分别对所述第一概率化特征图和所述第二概率化特征图进行加权以获得第一修正后特征图和第二修正后特征图;
融合单元,用于融合所述加权单元获得的所述第一修正后特征图和所述加权单元获得的所述第二修正后特征图以获得分类特征图;以及
分类单元,用于将所述融合单元获得的所述分类特征图通过分类器以获得分类结果,其中,所述分类结果为情感标签。
8.根据权利要求7所述的智能设备的情感识别系统,其中,所述迭代互加权系数计算单元,进一步用于:
以如下公式分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图;
其中,所述公式为:
x`=(x-μ)/σ
其中x是归一化前的所述第一特征图和第二特征图的各个位置的特征值,而x`是归一化后的所述第一特征图和第二特征图的各个对应位置的特征值,μ的每个位置的值是所述第一特征图和所述第二特征图中相应位置的特征值的均值,σ的每个位置的值是所述第一特征图和所述第二特征图的相应位置的特征值的方差。
9.根据权利要求7所述的智能设备的情感识别系统,其中,所述迭代互加权系数计算单元,进一步用于:
分别将所述第一特征图和所述第二特征图映射到概率空间以生成第一概率化特征图和第二概率化特征图后以如下公式计算所述第一概率化特征图中各个位置的第一迭代互加权系数以及所述第二概率化特征图中各个位置的第二迭代互加权系数;
其中,所述公式为:
其中和/>分别是所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值,且/>是所述第一特征图和所述第二特征图共享的转换到概率空间后的最大特征值。
10.根据权利要求7所述的智能设备的情感识别系统,其中,所述融合单元,进一步用于:
以如下公式融合所述第一修正后特征图和所述第二修正后特征图以获得融合特征图;
其中,所述公式为:
F=+/>其中,/>和/>分别表示所述第一特征图和所述第二特征图的转换到概率空间的每个位置的特征值,/>和/>分别表示所述第二概率化特征图和所述第三概率化特征图的按位置迭代互加权系数;
以如下公式计算所述融合特征图的各个特征矩阵的基于凸分解的特征几何度量的逐片近似因数;
其中,所述公式为:
其中,是所述融合特征图的各个特征矩阵/>的第/>个行向量或者列向量,/>表示将各个向量级联,且/>表示向量的二范数的平方,/>是基于凸分解的特征几何度量的逐片近似因数;以及
以所述基于凸分解的特征几何度量的逐片近似因数对所述融合特征图的各个特征矩阵进行加权以得到分类特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310647627.5A CN116671921A (zh) | 2023-06-02 | 2023-06-02 | 智能设备的情感识别方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310647627.5A CN116671921A (zh) | 2023-06-02 | 2023-06-02 | 智能设备的情感识别方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116671921A true CN116671921A (zh) | 2023-09-01 |
Family
ID=87786630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310647627.5A Pending CN116671921A (zh) | 2023-06-02 | 2023-06-02 | 智能设备的情感识别方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116671921A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117789185A (zh) * | 2024-02-28 | 2024-03-29 | 浙江驿公里智能科技有限公司 | 基于深度学习的汽车油孔姿态识别系统及方法 |
-
2023
- 2023-06-02 CN CN202310647627.5A patent/CN116671921A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117789185A (zh) * | 2024-02-28 | 2024-03-29 | 浙江驿公里智能科技有限公司 | 基于深度学习的汽车油孔姿态识别系统及方法 |
CN117789185B (zh) * | 2024-02-28 | 2024-05-10 | 浙江驿公里智能科技有限公司 | 基于深度学习的汽车油孔姿态识别系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nicolaou et al. | Output-associative RVM regression for dimensional and continuous emotion prediction | |
CN111133453B (zh) | 人工神经网络 | |
CN108197592B (zh) | 信息获取方法和装置 | |
Chen et al. | Emotion recognition of EEG signals based on the ensemble learning method: AdaBoost | |
Borneman et al. | Motion characterization using optical flow and fractal complexity | |
CN114787883A (zh) | 自动情绪识别方法、系统、计算设备及计算机可读存储介质 | |
Noroozi et al. | Supervised vocal-based emotion recognition using multiclass support vector machine, random forests, and adaboost | |
Jinliang et al. | EEG emotion recognition based on granger causality and capsnet neural network | |
CN112395979A (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 | |
CN116671921A (zh) | 智能设备的情感识别方法及其系统 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
WO2022188793A1 (zh) | 生理电信号分类处理方法、装置、计算机设备和存储介质 | |
Bibbo’ et al. | Emotional Health Detection in HAR: New Approach Using Ensemble SNN | |
Xin et al. | Pain expression assessment based on a locality and identity aware network | |
Tang et al. | Eye movement prediction based on adaptive BP neural network | |
CN110638472A (zh) | 情感识别方法、装置、电子设备及计算机可读存储介质 | |
CN116226655A (zh) | 智慧家庭环境感知方法、装置、存储介质和电子设备 | |
CN115062728A (zh) | 时频域特征级融合的情感识别方法及其系统 | |
Gao et al. | Human–system interaction based on eye tracking for a virtual workshop | |
Miao et al. | Analyzing patients' EEG energy for brain death determination based on Dynamic 2T-EMD | |
Singh et al. | Human perception based criminal identification through human robot interaction | |
Nuo et al. | A Fusion Transfer Learning Method of Motor Imagery EEG Signals Based on Riemannian Space | |
Ganesan et al. | Contextual Emotional Classifier: An Advanced AI-Powered Emotional Health Ecosystem for Women Utilizing Edge Devices. | |
Ghassemi et al. | Unsupervised multimodal learning for dependency-free personality recognition | |
Sahu et al. | Emotion classification based on EEG signals in a stable environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |