CN114463827A - 一种基于ds证据理论的多模态实时情绪识别方法及系统 - Google Patents
一种基于ds证据理论的多模态实时情绪识别方法及系统 Download PDFInfo
- Publication number
- CN114463827A CN114463827A CN202210380482.2A CN202210380482A CN114463827A CN 114463827 A CN114463827 A CN 114463827A CN 202210380482 A CN202210380482 A CN 202210380482A CN 114463827 A CN114463827 A CN 114463827A
- Authority
- CN
- China
- Prior art keywords
- emotion recognition
- voice
- data
- facial expression
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 153
- 239000008186 active pharmaceutical agent Substances 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000008921 facial expression Effects 0.000 claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 57
- 210000001747 pupil Anatomy 0.000 claims abstract description 55
- 230000008451 emotion Effects 0.000 claims description 32
- 230000005236 sound signal Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 210000004709 eyebrow Anatomy 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 230000002996 emotional effect Effects 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 9
- 230000000284 resting effect Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 230000004424 eye movement Effects 0.000 claims description 6
- 238000013079 data visualisation Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 4
- 238000007654 immersion Methods 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000027534 Emotional disease Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000006397 emotional response Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提出了一种基于DS证据理论的多模态实时情绪识别方法及系统,该方法包括:步骤一,搭建虚拟现实场景,部署语音对话模块和面部表情识别模块,被试者通过语音对话模块进行实时语音对话,并通过虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据;步骤二,在语音数据上提取特征向量,输入到训练好的语音情绪识别模型,输出语音情绪识别结果;步骤三,在人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型,输出面部表情情绪识别结果;步骤四,将语音情绪识别结果和面部表情情绪识别结果通过DS证据理论融合得到综合情绪识别结果。本发明能有效提高情绪识别的准确率,具有广泛的应用前景。
Description
技术领域
本发明属于人工智能和认知科学的交叉领域,涉及一种基于DS证据理论的多模态实时情绪识别方法及系统。
背景技术
情绪是人对特定情况或刺激的身体反应,在每个人的生活中都扮演着非常重要的角色。人们在日常工作、人际交往或认知活动中都有情绪。近年来,对情绪自动识别方法的研究有了很大的增长。识别情绪的有效方法的发展不仅可以改善人机交互,还有助于其他领域的发展,如心理学、医学、教育和娱乐等。
语音是能反映人类情感的一个很重要的行为信号。语音情感识别是通过分析说话人的语音来识别人的情绪状态。目前公认的与语音情感相关的声学特征有韵律学特征、音质特征、基于谱的相关特征。面部表情也是情绪表达的一个有力途径,传达了高达55%的情感信息。面部表情情绪识别是指对人脸表情进行特征提取和分析,通过表情信息来理解人类表情。现有研究表明,瞳孔大小在一定程度上能够反映人的心理活动并影响他人的心理与行为。
随着虚拟现实技术的快速发展,虚拟现实技术具有沉浸感、真实感、想象性和交互性等特点,利用沉浸式虚拟现实技术制作的虚拟现实场景在情绪识别中具有极大的优势:(1)沉浸式VR能够提供被试者完全沉浸的体验,使被试者有一种身临其境的感觉;(2)沉浸式VR能够避免外界环境的干扰,获得相对客观的情绪反应;(3)沉浸式VR也可用于情绪诱发,能诱发更强烈的情绪反应,虚拟现实的沉浸感会产生更逼真的认知和情感功能;(4)在沉浸式VR中,能够通过多种传感装置获取多模态的数据信息,有利于多模态情绪识别。
DS证据理论(Dempster/Shafer证据理论)是由Dempster于1967年首次提出,利用上、下限概率来解决多值映射问题,后由他的学生Shafer于1976年进一步发展,引入信任函数概念,形成了一套基于“证据”和“组合”来处理不确定性推理问题的数学方法。作为一种不确定推理方法,证据理论的主要特点是:满足比贝叶斯概率论更弱的条件;具有直接表达“不确定”和“不知道”的能力。DS证据理论对不确定问题的描述更加灵活,在处理冲突较小时该理论效果显著的优点,是决策融合中广泛应用的不确定性推理算法。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于DS证据理论的多模态实时情绪识别方法及系统,基于沉浸式虚拟现实头戴式设备灵活地采集被试者语音数据、人脸数据和瞳孔数据,提出在利用语音文本和音频信号进行语音情绪识别时采用DS证据理论进行决策融合,在利用人脸特征进行情绪识别时融入瞳孔直径特征,最后将两种情绪识别结果通过DS证据理论融合得到基于语音和面部表情的情绪识别结果,从而在沉浸式虚拟现实环境中隐式识别被试者情绪。其具体技术方案如下:
一种基于DS证据理论的多模态实时情绪识别方法,包括以下步骤:
步骤一,基于虚拟现实引擎搭建虚拟现实场景,部署语音对话模块和面部表情识别模块,被试者通过语音对话模块进行实时语音对话,再使用虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据;
步骤二,在步骤一采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
步骤三,在步骤一采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
步骤四,将步骤二得到语音情绪识别结果和步骤三得到的面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果。
进一步的,所述虚拟现实头戴式设备还对被试者进行眼动校准,采集被试者静息态下的人脸数据和瞳孔数据,得到静息态下的标准人脸和瞳孔基线数据,即为被试者在平静情绪下的人脸数据和瞳孔基线数据,其中瞳孔基线数据采用多次测量的均值。
进一步的,所述语音情绪识别结果为七种基本的情绪,包括快乐、悲伤、愤怒、惊讶、厌恶、恐惧和平静。
进一步的,所述步骤二具体为:对包括语音文本信息和音频信号的语音数据进行特征提取,得到语音文本情绪特征向量和音频信号情绪特征向量,后输入到训练好的语音情绪识别模型,得到语音文本情绪本识别结果和音频信号情绪识别结果,再通过DS证据理论融合得到语音情绪识别结果,表达式如下:
其中,是语音文本识别结果,是音频信号识别结果,表示语音情绪特征向量,表示语音文本情绪特征向量,表示音频信号情绪特征向量,为归一化因子,能保证语
音情绪识别结果对空集的支持度为0,且对所有结果支持度之和为1,即保证非负性和归一
性,是冲突系数,越接近1表示两识别结果之间越冲突,越接近0表示两识别结果越一
致;
进一步的,所述步骤三具体为:在人脸的眼睛、眉毛、鼻子和嘴巴选择特征点,并构造眉心特征点,以眉心和鼻尖为基准,构造其他人脸特征点与基准之间的特征向量;
将人脸几何特征和瞳孔直径特征输入到训练好的面部表情情绪识别模型进行实时情绪识别,得到面部表情情绪识别结果。
进一步的,所述步骤四具体为:将语音情绪识别结果和面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果,表达式为:
其中,是语音情绪识别结果,是面部表情情绪识别结果,H表示语音和面部表
情的综合情绪特征向量,表示面部表情情绪特征向量,为归一化因子,能保证语音情绪
识别结果对空集的支持度为0,且对所有结果支持度之和为1,即保证非负性和归一性,是
冲突系数,越接近1表示两识别结果之间越冲突,越接近0表示两识别结果越一致,表达式
如下:
一种基于DS证据理论的多模态实时情绪识别系统,包括沉浸式虚拟现实设备、语音对话模块、面部表情识别模块、综合处理模块、数据可视化模块,
所述沉浸式虚拟现实设备,用于向被试者展示构建的虚拟现实场景,同时采集被试语音数据、人脸数据和瞳孔数据,并实时传输给语音对话模块和面部表情识别模块;
语音对话模块,用于在虚拟现实场景中与被试者语音聊天交互,并根据语音数据进行语音情绪识别,具体的,在采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
面部表情识别模块,对获取的人脸数据进行特征向量提取,并融合瞳孔直径特征,进行面部表情情绪识别,具体的,在采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
综合处理模块,用于接收实时语音对话模块和面部表情识别模块的情绪识别结果,通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果;
数据可视化模块,用于实时展示语音对话内容以及各种情绪识别结果。
进一步的,所述的沉浸式虚拟现实设备包括:头戴式显示设备、定位器、操控手柄、VR取像组件、内置眼动仪、内置麦克风和耳机;
所述的头戴式显示设备,用于向被试者展示构建的虚拟现实场景;所述的操控手柄,用于在虚拟现实场景中的交互;所述的VR取像组件,用于获取被试者人脸嘴巴部位的运动数据,并将其传输给面部表情识别模块;所述的内置眼动仪,用于获取被试者人脸眼睛与眉毛部位的运动以及采集瞳孔数据,并传输给面部表情识别模块;所述的内置麦克风和耳机,用于获取被试者语音对话信息,播放语音对话模块返回的对话信息。
一种基于DS证据理论的多模态实时情绪识别装置,包括一个或多个处理器,用于实现所述的一种基于DS证据理论的多模态实时情绪识别方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的一种基于DS证据理论的多模态实时情绪识别方法。
与现有技术相比,本发明的有益效果如下:
本发明的一种基于DS证据理论的多模态实时情绪识别方法及系统,基于沉浸式虚拟现实头戴式设备灵活地采集被试者语音数据、人脸数据和瞳孔数据,再利用语音文本和音频信号进行语音情绪识别时采用DS证据理论进行决策融合,再利用人脸特征进行情绪识别时融入瞳孔直径特征,最后将两种情绪识别结果通过DS证据理论融合得到基于语音和面部表情的情绪识别结果,提高了情绪识别的准确率。
附图说明
图1为本发明的基于DS证据理论的多模态实时情绪识别方法的流程图;
图2为本发明的基于DS证据理论的多模态实时情绪识别系统的结构图;
图3为本发明的基于DS证据理论的多模态实时情绪识别装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,本发明的一种基于DS证据理论的多模态实时情绪识别方法,具体包括如下步骤:
步骤一,基于虚拟现实引擎搭建虚拟现实场景,部署语音对话模块和面部表情识别模块,被试者通过语音对话模块进行实时语音对话,再使用虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据;
本发明实施例中基于Unity3D虚拟现实引擎搭建虚拟现实场景,部署语音对话模块和面部表情识别模块,被试者通过语音对话模块进行实时语音对话,再使用HTC VivePro Eye虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据;基于沉浸式虚拟现实头戴式设备灵活地采集了被试者语音数据、人脸数据和瞳孔数据。
其中,HTC Vive Pro Eye虚拟现实头戴式设备对被试者进行眼动校准,采集被试者静息态下的人脸数据和瞳孔数据,得到静息态下的标准人脸和瞳孔基线数据;
被试者被要求在扶手椅上采取一个舒适的姿势,支撑着他们的手和后背,头戴HTCVive Pro Eye虚拟现实头戴式设备,进行眼动追踪校准;
静息态下的标准人脸数据和瞳孔基线数据,是指被试者在平静情绪下的人脸数据和瞳孔基线数据,其中瞳孔基线数据采用多次测量的均值;
步骤二,在步骤一采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
所述实时情绪识别,包括语音文本的情绪识别和音频信号的情绪识别,两种情绪识别结果通过DS证据理论融合得到语音情绪识别结果;
情绪识别结果为七种基本的情绪,包括快乐、悲伤、愤怒、惊讶、厌恶、恐惧和平静;
其中,是语音文本情绪识别结果,是音频信号情绪识别结果,表示语音情绪
特征向量,表示语音文本情绪特征向量,表示音频信号情绪特征向量,为归一化因
子,能保证语音情绪识别结果对空集的支持度为0,且对所有结果支持度之和为1,即保证非
负性和归一性,是冲突系数,越接近1表示两识别结果之间越冲突,越接近0表示两识别
结果越一致;
步骤三,在步骤一采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
在人脸的眼睛、眉毛、鼻子和嘴巴选择特征点,并构造眉心特征点,以眉心和鼻尖为基准,构造其他人脸特征点与基准之间的特征向量;
将人脸几何特征和瞳孔直径特征输入到训练好的面部表情情绪识别模型进行实时情绪识别,得到面部表情情绪识别结果。
步骤四,将步骤二得到语音情绪识别结果和步骤三得到的面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果,该步骤将两种情绪识别结果融合,提高了情绪识别的准确率;
具体的,基于语音和面部表情的综合情绪识别结果M计算公式如下:
其中,是语音情绪识别结果,是面部表情情绪识别结果,H表示语音和面部表
情的综合情绪特征向量,表示面部表情情绪特征向量,为归一化因子,能保证语音情绪
识别结果对空集的支持度为0,且对所有结果支持度之和为1,即保证非负性和归一性,是
冲突系数,越接近1表示两识别结果之间越冲突,越接近0表示两识别结果越一致,表达式
如下:
如图2所示,本发明的一种基于DS证据理论的多模态实时情绪识别系统,包括:
沉浸式虚拟现实设备,用于向被试者展示构建的虚拟现实场景,营造沉浸式虚拟现实体验,同时采集被试语音数据、人脸数据和瞳孔数据,并实时传输给语音对话模块和面部表情识别模块;
语音对话模块,用于在虚拟现实场景中与被试者语音聊天交互,并根据语音数据进行语音情绪识别,具体的,在采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
面部表情识别模块,对获取的人脸数据进行特征向量提取,并融合瞳孔直径特征,进行面部表情情绪识别,具体的,在采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
综合处理模块,用于接收实时语音对话模块和面部表情识别模块的情绪识别结果,通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果;
数据可视化模块,用于实时展示语音对话内容以及各种情绪识别结果。
所述的沉浸式虚拟现实设备包括以下设备:头戴式显示设备、定位器、操控手柄、VR取像组件、内置眼动仪、内置麦克风和耳机。
所述的头戴式显示设备,用于向被试者展示构建的虚拟现实场景,营造沉浸式虚拟现实体验;
所述的操控手柄,用于在虚拟现实场景中的交互;
所述的VR取像组件,用于捕捉被试者人脸嘴巴部位的运动数据,并将其传输给面部表情识别模块;
所述的内置眼动仪,用于捕捉被试者人脸眼睛与眉毛部位的运动以及采集瞳孔数据,并将该数据传输给面部表情识别模块;
所述的内置麦克风和耳机,用于捕捉被试者语音对话信息,播放语音对话模块返回的对话信息。
与前述基于DS证据理论的多模态实时情绪识别方法的实施例相对应,本发明还提供了基于DS证据理论的多模态实时情绪识别装置的实施例。
参见图3,本发明实施例提供的一种基于DS证据理论的多模态实时情绪识别装置,包括一个或多个处理器,用于实现上述实施例中的基于DS证据理论的多模态实时情绪识别方法。
本发明基于DS证据理论的多模态实时情绪识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明基于DS证据理论的多模态实时情绪识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于DS证据理论的多模态实时情绪识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于DS证据理论的多模态实时情绪识别方法,其特征在于,包括以下步骤:
步骤一,基于虚拟现实引擎搭建虚拟现实场景,部署语音对话模块和面部表情识别模块,被试者通过语音对话模块进行实时语音对话,再使用虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据;
步骤二,在步骤一采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
步骤三,在步骤一采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
步骤四,将步骤二得到语音情绪识别结果和步骤三得到的面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果。
2.根据权利要求1所述的一种基于DS证据理论的多模态实时情绪识别方法,其特征在于,所述虚拟现实头戴式设备还对被试者进行眼动校准,采集被试者静息态下的人脸数据和瞳孔数据,得到静息态下的标准人脸和瞳孔基线数据,即为被试者在平静情绪下的人脸数据和瞳孔基线数据,其中瞳孔基线数据采用多次测量的均值。
3.根据权利要求1所述的一种基于DS证据理论的多模态实时情绪识别方法,其特征在于,所述语音情绪识别结果为七种基本的情绪,包括快乐、悲伤、愤怒、惊讶、厌恶、恐惧和平静。
4.根据权利要求1所述的一种基于DS证据理论的多模态实时情绪识别方法,其特征在于,所述步骤二具体为:对包括语音文本信息和音频信号的语音数据进行特征提取,得到语音文本情绪特征向量和音频信号情绪特征向量,后输入到训练好的语音情绪识别模型,得到语音文本情绪本识别结果和音频信号情绪识别结果,再通过DS证据理论融合得到语音情绪识别结果,表达式如下:
其中,是语音文本识别结果,是音频信号识别结果,表示语音情绪特征向量,表
示语音文本情绪特征向量,表示音频信号情绪特征向量,为归一化因子,能保证语音情
绪识别结果对空集的支持度为0,且对所有结果支持度之和为1,即保证非负性和归一性,
是冲突系数,越接近1表示两识别结果之间越冲突,越接近0表示两识别结果越一致;
7.一种基于DS证据理论的多模态实时情绪识别系统,其特征在于,包括沉浸式虚拟现实设备、语音对话模块、面部表情识别模块、综合处理模块、数据可视化模块,
所述沉浸式虚拟现实设备,用于向被试者展示构建的虚拟现实场景,同时采集被试语音数据、人脸数据和瞳孔数据,并实时传输给语音对话模块和面部表情识别模块;
语音对话模块,用于在虚拟现实场景中与被试者语音聊天交互,并根据语音数据进行语音情绪识别,具体的,在采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
面部表情识别模块,对获取的人脸数据进行特征向量提取,并融合瞳孔直径特征,进行面部表情情绪识别,具体的,在采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
综合处理模块,用于接收实时语音对话模块和面部表情识别模块的情绪识别结果,通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果;
数据可视化模块,用于实时展示语音对话内容以及各种情绪识别结果。
8.根据权利要求7所述的一种基于DS证据理论的多模态实时情绪识别系统,其特征在于,所述的沉浸式虚拟现实设备包括:头戴式显示设备、定位器、操控手柄、VR取像组件、内置眼动仪、内置麦克风和耳机;
所述的头戴式显示设备,用于向被试者展示构建的虚拟现实场景;所述的操控手柄,用于在虚拟现实场景中的交互;所述的VR取像组件,用于获取被试者人脸嘴巴部位的运动数据,并将其传输给面部表情识别模块;所述的内置眼动仪,用于获取被试者人脸眼睛与眉毛部位的运动以及采集瞳孔数据,并传输给面部表情识别模块;所述的内置麦克风和耳机,用于获取被试者语音对话信息,播放语音对话模块返回的对话信息。
9.一种基于DS证据理论的多模态实时情绪识别装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-6中任一项所述的一种基于DS证据理论的多模态实时情绪识别方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-6中任一项所述的一种基于DS证据理论的多模态实时情绪识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210380482.2A CN114463827A (zh) | 2022-04-12 | 2022-04-12 | 一种基于ds证据理论的多模态实时情绪识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210380482.2A CN114463827A (zh) | 2022-04-12 | 2022-04-12 | 一种基于ds证据理论的多模态实时情绪识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114463827A true CN114463827A (zh) | 2022-05-10 |
Family
ID=81418703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210380482.2A Pending CN114463827A (zh) | 2022-04-12 | 2022-04-12 | 一种基于ds证据理论的多模态实时情绪识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114463827A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114870197A (zh) * | 2022-05-20 | 2022-08-09 | 中国人民解放军空军军医大学 | 一种沉浸式心理按摩仪 |
CN116152887A (zh) * | 2022-12-08 | 2023-05-23 | 山东省人工智能研究院 | 一种基于ds证据理论的动态人脸表情识别方法 |
CN116935480A (zh) * | 2023-09-18 | 2023-10-24 | 四川天地宏华导航设备有限公司 | 一种情绪识别方法及装置 |
CN116983530A (zh) * | 2023-09-27 | 2023-11-03 | 之江实验室 | 一种情绪调节系统、方法、存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021068843A1 (zh) * | 2019-10-08 | 2021-04-15 | 平安科技(深圳)有限公司 | 一种情绪识别方法及装置、电子设备和可读存储介质 |
CN113837153A (zh) * | 2021-11-25 | 2021-12-24 | 之江实验室 | 一种融合瞳孔数据和面部表情的实时情绪识别方法及系统 |
-
2022
- 2022-04-12 CN CN202210380482.2A patent/CN114463827A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021068843A1 (zh) * | 2019-10-08 | 2021-04-15 | 平安科技(深圳)有限公司 | 一种情绪识别方法及装置、电子设备和可读存储介质 |
CN113837153A (zh) * | 2021-11-25 | 2021-12-24 | 之江实验室 | 一种融合瞳孔数据和面部表情的实时情绪识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
QIHUA XU 等: "Emotion recognition model based on the Dempster–Shafer evidence theory", 《JOURNAL OF ELECTRONIC IMAGING》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114870197A (zh) * | 2022-05-20 | 2022-08-09 | 中国人民解放军空军军医大学 | 一种沉浸式心理按摩仪 |
CN116152887A (zh) * | 2022-12-08 | 2023-05-23 | 山东省人工智能研究院 | 一种基于ds证据理论的动态人脸表情识别方法 |
CN116152887B (zh) * | 2022-12-08 | 2023-09-26 | 山东省人工智能研究院 | 一种基于ds证据理论的动态人脸表情识别方法 |
CN116935480A (zh) * | 2023-09-18 | 2023-10-24 | 四川天地宏华导航设备有限公司 | 一种情绪识别方法及装置 |
CN116935480B (zh) * | 2023-09-18 | 2023-12-29 | 四川天地宏华导航设备有限公司 | 一种情绪识别方法及装置 |
CN116983530A (zh) * | 2023-09-27 | 2023-11-03 | 之江实验室 | 一种情绪调节系统、方法、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
US11226673B2 (en) | Affective interaction systems, devices, and methods based on affective computing user interface | |
Zhang et al. | Intelligent facial emotion recognition and semantic-based topic detection for a humanoid robot | |
US9875445B2 (en) | Dynamic hybrid models for multimodal analysis | |
CN114463827A (zh) | 一种基于ds证据理论的多模态实时情绪识别方法及系统 | |
Vinola et al. | A survey on human emotion recognition approaches, databases and applications | |
US20120130717A1 (en) | Real-time Animation for an Expressive Avatar | |
Al Osman et al. | Multimodal affect recognition: Current approaches and challenges | |
Wu et al. | Speaking effect removal on emotion recognition from facial expressions based on eigenface conversion | |
JP2018014094A (ja) | 仮想ロボットのインタラクション方法、システム及びロボット | |
KR101738142B1 (ko) | 감성 기반의 대화가 가능한 디지털 생명체 생성 시스템 및 그 제어방법 | |
Aslan et al. | Multimodal video-based apparent personality recognition using long short-term memory and convolutional neural networks | |
CN115631267A (zh) | 生成动画的方法及装置 | |
Pelachaud et al. | Multimodal behavior modeling for socially interactive agents | |
Khodabakhsh et al. | A taxonomy of audiovisual fake multimedia content creation technology | |
Gladys et al. | Survey on multimodal approaches to emotion recognition | |
Morrison-Smith et al. | Mmgatorauth: a novel multimodal dataset for authentication interactions in gesture and voice | |
Zhang et al. | A survey on mobile affective computing | |
McTear et al. | Affective conversational interfaces | |
Wu et al. | Extrovert or Introvert? GAN-Based Humanoid Upper-Body Gesture Generation for Different Impressions | |
Chaudhari et al. | Emotion recognition system via facial expressions and speech using machine learning and deep learning techniques | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
Gunes et al. | 16 automatic analysis of social emotions | |
Mathur | Scaling machine learning systems using domain adaptation | |
CN112017758B (zh) | 情感识别方法、装置、情感识别系统以及分析决策终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220510 |
|
RJ01 | Rejection of invention patent application after publication |