CN114463827A - 一种基于ds证据理论的多模态实时情绪识别方法及系统 - Google Patents

一种基于ds证据理论的多模态实时情绪识别方法及系统 Download PDF

Info

Publication number
CN114463827A
CN114463827A CN202210380482.2A CN202210380482A CN114463827A CN 114463827 A CN114463827 A CN 114463827A CN 202210380482 A CN202210380482 A CN 202210380482A CN 114463827 A CN114463827 A CN 114463827A
Authority
CN
China
Prior art keywords
emotion recognition
voice
data
facial expression
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210380482.2A
Other languages
English (en)
Inventor
徐若豪
李太豪
刘昱龙
裴冠雄
程翠萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210380482.2A priority Critical patent/CN114463827A/zh
Publication of CN114463827A publication Critical patent/CN114463827A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提出了一种基于DS证据理论的多模态实时情绪识别方法及系统,该方法包括:步骤一,搭建虚拟现实场景,部署语音对话模块和面部表情识别模块,被试者通过语音对话模块进行实时语音对话,并通过虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据;步骤二,在语音数据上提取特征向量,输入到训练好的语音情绪识别模型,输出语音情绪识别结果;步骤三,在人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型,输出面部表情情绪识别结果;步骤四,将语音情绪识别结果和面部表情情绪识别结果通过DS证据理论融合得到综合情绪识别结果。本发明能有效提高情绪识别的准确率,具有广泛的应用前景。

Description

一种基于DS证据理论的多模态实时情绪识别方法及系统
技术领域
本发明属于人工智能和认知科学的交叉领域,涉及一种基于DS证据理论的多模态实时情绪识别方法及系统。
背景技术
情绪是人对特定情况或刺激的身体反应,在每个人的生活中都扮演着非常重要的角色。人们在日常工作、人际交往或认知活动中都有情绪。近年来,对情绪自动识别方法的研究有了很大的增长。识别情绪的有效方法的发展不仅可以改善人机交互,还有助于其他领域的发展,如心理学、医学、教育和娱乐等。
语音是能反映人类情感的一个很重要的行为信号。语音情感识别是通过分析说话人的语音来识别人的情绪状态。目前公认的与语音情感相关的声学特征有韵律学特征、音质特征、基于谱的相关特征。面部表情也是情绪表达的一个有力途径,传达了高达55%的情感信息。面部表情情绪识别是指对人脸表情进行特征提取和分析,通过表情信息来理解人类表情。现有研究表明,瞳孔大小在一定程度上能够反映人的心理活动并影响他人的心理与行为。
随着虚拟现实技术的快速发展,虚拟现实技术具有沉浸感、真实感、想象性和交互性等特点,利用沉浸式虚拟现实技术制作的虚拟现实场景在情绪识别中具有极大的优势:(1)沉浸式VR能够提供被试者完全沉浸的体验,使被试者有一种身临其境的感觉;(2)沉浸式VR能够避免外界环境的干扰,获得相对客观的情绪反应;(3)沉浸式VR也可用于情绪诱发,能诱发更强烈的情绪反应,虚拟现实的沉浸感会产生更逼真的认知和情感功能;(4)在沉浸式VR中,能够通过多种传感装置获取多模态的数据信息,有利于多模态情绪识别。
DS证据理论(Dempster/Shafer证据理论)是由Dempster于1967年首次提出,利用上、下限概率来解决多值映射问题,后由他的学生Shafer于1976年进一步发展,引入信任函数概念,形成了一套基于“证据”和“组合”来处理不确定性推理问题的数学方法。作为一种不确定推理方法,证据理论的主要特点是:满足比贝叶斯概率论更弱的条件;具有直接表达“不确定”和“不知道”的能力。DS证据理论对不确定问题的描述更加灵活,在处理冲突较小时该理论效果显著的优点,是决策融合中广泛应用的不确定性推理算法。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于DS证据理论的多模态实时情绪识别方法及系统,基于沉浸式虚拟现实头戴式设备灵活地采集被试者语音数据、人脸数据和瞳孔数据,提出在利用语音文本和音频信号进行语音情绪识别时采用DS证据理论进行决策融合,在利用人脸特征进行情绪识别时融入瞳孔直径特征,最后将两种情绪识别结果通过DS证据理论融合得到基于语音和面部表情的情绪识别结果,从而在沉浸式虚拟现实环境中隐式识别被试者情绪。其具体技术方案如下:
一种基于DS证据理论的多模态实时情绪识别方法,包括以下步骤:
步骤一,基于虚拟现实引擎搭建虚拟现实场景,部署语音对话模块和面部表情识别模块,被试者通过语音对话模块进行实时语音对话,再使用虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据;
步骤二,在步骤一采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
步骤三,在步骤一采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
步骤四,将步骤二得到语音情绪识别结果和步骤三得到的面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果。
进一步的,所述虚拟现实头戴式设备还对被试者进行眼动校准,采集被试者静息态下的人脸数据和瞳孔数据,得到静息态下的标准人脸和瞳孔基线数据,即为被试者在平静情绪下的人脸数据和瞳孔基线数据,其中瞳孔基线数据采用多次测量的均值。
进一步的,所述语音情绪识别结果为七种基本的情绪,包括快乐、悲伤、愤怒、惊讶、厌恶、恐惧和平静。
进一步的,所述步骤二具体为:对包括语音文本信息和音频信号的语音数据进行特征提取,得到语音文本情绪特征向量和音频信号情绪特征向量,后输入到训练好的语音情绪识别模型,得到语音文本情绪本识别结果和音频信号情绪识别结果,再通过DS证据理论融合得到语音情绪识别结果,表达式如下:
Figure DEST_PATH_IMAGE001
其中,
Figure 325253DEST_PATH_IMAGE002
是语音文本识别结果,
Figure 694923DEST_PATH_IMAGE003
是音频信号识别结果,
Figure 740239DEST_PATH_IMAGE004
表示语音情绪特征向量,
Figure 338711DEST_PATH_IMAGE005
表示语音文本情绪特征向量,
Figure 153083DEST_PATH_IMAGE006
表示音频信号情绪特征向量,
Figure 241125DEST_PATH_IMAGE007
为归一化因子,能保证语 音情绪识别结果对空集的支持度为0,且对所有结果支持度之和为1,即保证非负性和归一 性,
Figure 711421DEST_PATH_IMAGE008
是冲突系数,
Figure 175900DEST_PATH_IMAGE008
越接近1表示两识别结果之间越冲突,
Figure 48041DEST_PATH_IMAGE009
越接近0表示两识别结果越一 致;
Figure 306984DEST_PATH_IMAGE010
进一步的,所述步骤三具体为:在人脸的眼睛、眉毛、鼻子和嘴巴选择特征点,并构造眉心特征点,以眉心和鼻尖为基准,构造其他人脸特征点与基准之间的特征向量;
瞳孔直径特征
Figure 61313DEST_PATH_IMAGE011
提取公式如下:
Figure 250855DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE013
为实时的瞳孔直径,
Figure 243082DEST_PATH_IMAGE014
为瞳孔基线数据;
将人脸几何特征和瞳孔直径特征输入到训练好的面部表情情绪识别模型进行实时情绪识别,得到面部表情情绪识别结果。
进一步的,所述步骤四具体为:将语音情绪识别结果和面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果,表达式为:
Figure 672926DEST_PATH_IMAGE015
其中,
Figure 180131DEST_PATH_IMAGE016
是语音情绪识别结果,
Figure DEST_PATH_IMAGE017
是面部表情情绪识别结果,H表示语音和面部表 情的综合情绪特征向量,
Figure 924096DEST_PATH_IMAGE018
表示面部表情情绪特征向量,
Figure 770829DEST_PATH_IMAGE007
为归一化因子,能保证语音情绪 识别结果对空集的支持度为0,且对所有结果支持度之和为1,即保证非负性和归一性,
Figure 105996DEST_PATH_IMAGE009
是 冲突系数,
Figure 100497DEST_PATH_IMAGE009
越接近1表示两识别结果之间越冲突,
Figure 631841DEST_PATH_IMAGE009
越接近0表示两识别结果越一致,表达式 如下:
Figure 395398DEST_PATH_IMAGE019
一种基于DS证据理论的多模态实时情绪识别系统,包括沉浸式虚拟现实设备、语音对话模块、面部表情识别模块、综合处理模块、数据可视化模块,
所述沉浸式虚拟现实设备,用于向被试者展示构建的虚拟现实场景,同时采集被试语音数据、人脸数据和瞳孔数据,并实时传输给语音对话模块和面部表情识别模块;
语音对话模块,用于在虚拟现实场景中与被试者语音聊天交互,并根据语音数据进行语音情绪识别,具体的,在采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
面部表情识别模块,对获取的人脸数据进行特征向量提取,并融合瞳孔直径特征,进行面部表情情绪识别,具体的,在采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
综合处理模块,用于接收实时语音对话模块和面部表情识别模块的情绪识别结果,通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果;
数据可视化模块,用于实时展示语音对话内容以及各种情绪识别结果。
进一步的,所述的沉浸式虚拟现实设备包括:头戴式显示设备、定位器、操控手柄、VR取像组件、内置眼动仪、内置麦克风和耳机;
所述的头戴式显示设备,用于向被试者展示构建的虚拟现实场景;所述的操控手柄,用于在虚拟现实场景中的交互;所述的VR取像组件,用于获取被试者人脸嘴巴部位的运动数据,并将其传输给面部表情识别模块;所述的内置眼动仪,用于获取被试者人脸眼睛与眉毛部位的运动以及采集瞳孔数据,并传输给面部表情识别模块;所述的内置麦克风和耳机,用于获取被试者语音对话信息,播放语音对话模块返回的对话信息。
一种基于DS证据理论的多模态实时情绪识别装置,包括一个或多个处理器,用于实现所述的一种基于DS证据理论的多模态实时情绪识别方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的一种基于DS证据理论的多模态实时情绪识别方法。
与现有技术相比,本发明的有益效果如下:
本发明的一种基于DS证据理论的多模态实时情绪识别方法及系统,基于沉浸式虚拟现实头戴式设备灵活地采集被试者语音数据、人脸数据和瞳孔数据,再利用语音文本和音频信号进行语音情绪识别时采用DS证据理论进行决策融合,再利用人脸特征进行情绪识别时融入瞳孔直径特征,最后将两种情绪识别结果通过DS证据理论融合得到基于语音和面部表情的情绪识别结果,提高了情绪识别的准确率。
附图说明
图1为本发明的基于DS证据理论的多模态实时情绪识别方法的流程图;
图2为本发明的基于DS证据理论的多模态实时情绪识别系统的结构图;
图3为本发明的基于DS证据理论的多模态实时情绪识别装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,本发明的一种基于DS证据理论的多模态实时情绪识别方法,具体包括如下步骤:
步骤一,基于虚拟现实引擎搭建虚拟现实场景,部署语音对话模块和面部表情识别模块,被试者通过语音对话模块进行实时语音对话,再使用虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据;
本发明实施例中基于Unity3D虚拟现实引擎搭建虚拟现实场景,部署语音对话模块和面部表情识别模块,被试者通过语音对话模块进行实时语音对话,再使用HTC VivePro Eye虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据;基于沉浸式虚拟现实头戴式设备灵活地采集了被试者语音数据、人脸数据和瞳孔数据。
其中,HTC Vive Pro Eye虚拟现实头戴式设备对被试者进行眼动校准,采集被试者静息态下的人脸数据和瞳孔数据,得到静息态下的标准人脸和瞳孔基线数据;
被试者被要求在扶手椅上采取一个舒适的姿势,支撑着他们的手和后背,头戴HTCVive Pro Eye虚拟现实头戴式设备,进行眼动追踪校准;
静息态下的标准人脸数据和瞳孔基线数据,是指被试者在平静情绪下的人脸数据和瞳孔基线数据,其中瞳孔基线数据采用多次测量的均值;
步骤二,在步骤一采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
所述实时情绪识别,包括语音文本的情绪识别和音频信号的情绪识别,两种情绪识别结果通过DS证据理论融合得到语音情绪识别结果;
情绪识别结果为七种基本的情绪,包括快乐、悲伤、愤怒、惊讶、厌恶、恐惧和平静;
语音情绪识别结果
Figure 370307DEST_PATH_IMAGE016
的计算公式如下:
Figure 320945DEST_PATH_IMAGE020
其中,
Figure 469030DEST_PATH_IMAGE002
是语音文本情绪识别结果,
Figure 24776DEST_PATH_IMAGE003
是音频信号情绪识别结果,
Figure 232904DEST_PATH_IMAGE004
表示语音情绪 特征向量,
Figure 874101DEST_PATH_IMAGE005
表示语音文本情绪特征向量,
Figure 294718DEST_PATH_IMAGE006
表示音频信号情绪特征向量,
Figure 32866DEST_PATH_IMAGE007
为归一化因 子,能保证语音情绪识别结果对空集的支持度为0,且对所有结果支持度之和为1,即保证非 负性和归一性,
Figure 598846DEST_PATH_IMAGE008
是冲突系数,
Figure 789656DEST_PATH_IMAGE008
越接近1表示两识别结果之间越冲突,
Figure 217226DEST_PATH_IMAGE009
越接近0表示两识别 结果越一致;
Figure 278723DEST_PATH_IMAGE010
步骤三,在步骤一采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
在人脸的眼睛、眉毛、鼻子和嘴巴选择特征点,并构造眉心特征点,以眉心和鼻尖为基准,构造其他人脸特征点与基准之间的特征向量;
瞳孔直径特征
Figure 828653DEST_PATH_IMAGE011
提取公式如下:
Figure 444442DEST_PATH_IMAGE021
其中,
Figure 738020DEST_PATH_IMAGE013
为实时的瞳孔直径,
Figure 919603DEST_PATH_IMAGE014
为瞳孔基线数据;
将人脸几何特征和瞳孔直径特征输入到训练好的面部表情情绪识别模型进行实时情绪识别,得到面部表情情绪识别结果。
步骤四,将步骤二得到语音情绪识别结果和步骤三得到的面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果,该步骤将两种情绪识别结果融合,提高了情绪识别的准确率;
具体的,基于语音和面部表情的综合情绪识别结果M计算公式如下:
Figure 312538DEST_PATH_IMAGE015
其中,
Figure 477940DEST_PATH_IMAGE016
是语音情绪识别结果,
Figure 496581DEST_PATH_IMAGE017
是面部表情情绪识别结果,H表示语音和面部表 情的综合情绪特征向量,
Figure 63828DEST_PATH_IMAGE018
表示面部表情情绪特征向量,
Figure 424402DEST_PATH_IMAGE007
为归一化因子,能保证语音情绪 识别结果对空集的支持度为0,且对所有结果支持度之和为1,即保证非负性和归一性,
Figure 14784DEST_PATH_IMAGE009
是 冲突系数,
Figure 650164DEST_PATH_IMAGE009
越接近1表示两识别结果之间越冲突,
Figure 744022DEST_PATH_IMAGE009
越接近0表示两识别结果越一致,表达式 如下:
Figure 806656DEST_PATH_IMAGE019
如图2所示,本发明的一种基于DS证据理论的多模态实时情绪识别系统,包括:
沉浸式虚拟现实设备,用于向被试者展示构建的虚拟现实场景,营造沉浸式虚拟现实体验,同时采集被试语音数据、人脸数据和瞳孔数据,并实时传输给语音对话模块和面部表情识别模块;
语音对话模块,用于在虚拟现实场景中与被试者语音聊天交互,并根据语音数据进行语音情绪识别,具体的,在采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
面部表情识别模块,对获取的人脸数据进行特征向量提取,并融合瞳孔直径特征,进行面部表情情绪识别,具体的,在采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
综合处理模块,用于接收实时语音对话模块和面部表情识别模块的情绪识别结果,通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果;
数据可视化模块,用于实时展示语音对话内容以及各种情绪识别结果。
所述的沉浸式虚拟现实设备包括以下设备:头戴式显示设备、定位器、操控手柄、VR取像组件、内置眼动仪、内置麦克风和耳机。
所述的头戴式显示设备,用于向被试者展示构建的虚拟现实场景,营造沉浸式虚拟现实体验;
所述的操控手柄,用于在虚拟现实场景中的交互;
所述的VR取像组件,用于捕捉被试者人脸嘴巴部位的运动数据,并将其传输给面部表情识别模块;
所述的内置眼动仪,用于捕捉被试者人脸眼睛与眉毛部位的运动以及采集瞳孔数据,并将该数据传输给面部表情识别模块;
所述的内置麦克风和耳机,用于捕捉被试者语音对话信息,播放语音对话模块返回的对话信息。
与前述基于DS证据理论的多模态实时情绪识别方法的实施例相对应,本发明还提供了基于DS证据理论的多模态实时情绪识别装置的实施例。
参见图3,本发明实施例提供的一种基于DS证据理论的多模态实时情绪识别装置,包括一个或多个处理器,用于实现上述实施例中的基于DS证据理论的多模态实时情绪识别方法。
本发明基于DS证据理论的多模态实时情绪识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明基于DS证据理论的多模态实时情绪识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于DS证据理论的多模态实时情绪识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于DS证据理论的多模态实时情绪识别方法,其特征在于,包括以下步骤:
步骤一,基于虚拟现实引擎搭建虚拟现实场景,部署语音对话模块和面部表情识别模块,被试者通过语音对话模块进行实时语音对话,再使用虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据;
步骤二,在步骤一采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
步骤三,在步骤一采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
步骤四,将步骤二得到语音情绪识别结果和步骤三得到的面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果。
2.根据权利要求1所述的一种基于DS证据理论的多模态实时情绪识别方法,其特征在于,所述虚拟现实头戴式设备还对被试者进行眼动校准,采集被试者静息态下的人脸数据和瞳孔数据,得到静息态下的标准人脸和瞳孔基线数据,即为被试者在平静情绪下的人脸数据和瞳孔基线数据,其中瞳孔基线数据采用多次测量的均值。
3.根据权利要求1所述的一种基于DS证据理论的多模态实时情绪识别方法,其特征在于,所述语音情绪识别结果为七种基本的情绪,包括快乐、悲伤、愤怒、惊讶、厌恶、恐惧和平静。
4.根据权利要求1所述的一种基于DS证据理论的多模态实时情绪识别方法,其特征在于,所述步骤二具体为:对包括语音文本信息和音频信号的语音数据进行特征提取,得到语音文本情绪特征向量和音频信号情绪特征向量,后输入到训练好的语音情绪识别模型,得到语音文本情绪本识别结果和音频信号情绪识别结果,再通过DS证据理论融合得到语音情绪识别结果,表达式如下:
Figure 218211DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
是语音文本识别结果,
Figure 742733DEST_PATH_IMAGE004
是音频信号识别结果,
Figure DEST_PATH_IMAGE005
表示语音情绪特征向量,
Figure 903587DEST_PATH_IMAGE006
表 示语音文本情绪特征向量,
Figure DEST_PATH_IMAGE007
表示音频信号情绪特征向量,
Figure 171757DEST_PATH_IMAGE008
为归一化因子,能保证语音情 绪识别结果对空集的支持度为0,且对所有结果支持度之和为1,即保证非负性和归一性,
Figure DEST_PATH_IMAGE009
是冲突系数,
Figure 350935DEST_PATH_IMAGE009
越接近1表示两识别结果之间越冲突,
Figure 780779DEST_PATH_IMAGE010
越接近0表示两识别结果越一致;
Figure DEST_PATH_IMAGE011
5.根据权利要求4所述的一种基于DS证据理论的多模态实时情绪识别方法,其特征在于,所述步骤三具体为:在人脸的眼睛、眉毛、鼻子和嘴巴选择特征点,并构造眉心特征点,以眉心和鼻尖为基准,构造其他人脸特征点与基准之间的特征向量;
瞳孔直径特征
Figure 287984DEST_PATH_IMAGE012
提取公式如下:
Figure 235211DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE015
为实时的瞳孔直径,
Figure 409841DEST_PATH_IMAGE016
为瞳孔基线数据;
将人脸几何特征和瞳孔直径特征输入到训练好的面部表情情绪识别模型进行实时情绪识别,得到面部表情情绪识别结果。
6.根据权利要求5所述的一种基于DS证据理论的多模态实时情绪识别方法,其特征在于,所述步骤四具体为:将语音情绪识别结果和面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果,表达式为:
Figure 146939DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE019
是语音情绪识别结果,
Figure 407019DEST_PATH_IMAGE020
是面部表情情绪识别结果,H表示语音和面部表情的 综合情绪特征向量,
Figure DEST_PATH_IMAGE021
表示面部表情情绪特征向量,
Figure 751413DEST_PATH_IMAGE008
为归一化因子,能保证语音情绪识别 结果对空集的支持度为0,且对所有结果支持度之和为1,即保证非负性和归一性,
Figure 390336DEST_PATH_IMAGE010
是冲突 系数,
Figure 161982DEST_PATH_IMAGE010
越接近1表示两识别结果之间越冲突,
Figure 643779DEST_PATH_IMAGE010
越接近0表示两识别结果越一致,表达式如 下:
Figure 791864DEST_PATH_IMAGE022
7.一种基于DS证据理论的多模态实时情绪识别系统,其特征在于,包括沉浸式虚拟现实设备、语音对话模块、面部表情识别模块、综合处理模块、数据可视化模块,
所述沉浸式虚拟现实设备,用于向被试者展示构建的虚拟现实场景,同时采集被试语音数据、人脸数据和瞳孔数据,并实时传输给语音对话模块和面部表情识别模块;
语音对话模块,用于在虚拟现实场景中与被试者语音聊天交互,并根据语音数据进行语音情绪识别,具体的,在采集的语音数据上提取特征向量,输入到训练好的语音情绪识别模型进行实时情绪识别,输出语音情绪识别结果;
面部表情识别模块,对获取的人脸数据进行特征向量提取,并融合瞳孔直径特征,进行面部表情情绪识别,具体的,在采集的人脸数据上提取人脸几何特征向量,融合瞳孔直径特征,输入到训练好的面部表情情绪识别模型进行实时情绪识别,输出面部表情情绪识别结果;
综合处理模块,用于接收实时语音对话模块和面部表情识别模块的情绪识别结果,通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果;
数据可视化模块,用于实时展示语音对话内容以及各种情绪识别结果。
8.根据权利要求7所述的一种基于DS证据理论的多模态实时情绪识别系统,其特征在于,所述的沉浸式虚拟现实设备包括:头戴式显示设备、定位器、操控手柄、VR取像组件、内置眼动仪、内置麦克风和耳机;
所述的头戴式显示设备,用于向被试者展示构建的虚拟现实场景;所述的操控手柄,用于在虚拟现实场景中的交互;所述的VR取像组件,用于获取被试者人脸嘴巴部位的运动数据,并将其传输给面部表情识别模块;所述的内置眼动仪,用于获取被试者人脸眼睛与眉毛部位的运动以及采集瞳孔数据,并传输给面部表情识别模块;所述的内置麦克风和耳机,用于获取被试者语音对话信息,播放语音对话模块返回的对话信息。
9.一种基于DS证据理论的多模态实时情绪识别装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-6中任一项所述的一种基于DS证据理论的多模态实时情绪识别方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-6中任一项所述的一种基于DS证据理论的多模态实时情绪识别方法。
CN202210380482.2A 2022-04-12 2022-04-12 一种基于ds证据理论的多模态实时情绪识别方法及系统 Pending CN114463827A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210380482.2A CN114463827A (zh) 2022-04-12 2022-04-12 一种基于ds证据理论的多模态实时情绪识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210380482.2A CN114463827A (zh) 2022-04-12 2022-04-12 一种基于ds证据理论的多模态实时情绪识别方法及系统

Publications (1)

Publication Number Publication Date
CN114463827A true CN114463827A (zh) 2022-05-10

Family

ID=81418703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210380482.2A Pending CN114463827A (zh) 2022-04-12 2022-04-12 一种基于ds证据理论的多模态实时情绪识别方法及系统

Country Status (1)

Country Link
CN (1) CN114463827A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114870197A (zh) * 2022-05-20 2022-08-09 中国人民解放军空军军医大学 一种沉浸式心理按摩仪
CN116152887A (zh) * 2022-12-08 2023-05-23 山东省人工智能研究院 一种基于ds证据理论的动态人脸表情识别方法
CN116935480A (zh) * 2023-09-18 2023-10-24 四川天地宏华导航设备有限公司 一种情绪识别方法及装置
CN116983530A (zh) * 2023-09-27 2023-11-03 之江实验室 一种情绪调节系统、方法、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068843A1 (zh) * 2019-10-08 2021-04-15 平安科技(深圳)有限公司 一种情绪识别方法及装置、电子设备和可读存储介质
CN113837153A (zh) * 2021-11-25 2021-12-24 之江实验室 一种融合瞳孔数据和面部表情的实时情绪识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068843A1 (zh) * 2019-10-08 2021-04-15 平安科技(深圳)有限公司 一种情绪识别方法及装置、电子设备和可读存储介质
CN113837153A (zh) * 2021-11-25 2021-12-24 之江实验室 一种融合瞳孔数据和面部表情的实时情绪识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIHUA XU 等: "Emotion recognition model based on the Dempster–Shafer evidence theory", 《JOURNAL OF ELECTRONIC IMAGING》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114870197A (zh) * 2022-05-20 2022-08-09 中国人民解放军空军军医大学 一种沉浸式心理按摩仪
CN116152887A (zh) * 2022-12-08 2023-05-23 山东省人工智能研究院 一种基于ds证据理论的动态人脸表情识别方法
CN116152887B (zh) * 2022-12-08 2023-09-26 山东省人工智能研究院 一种基于ds证据理论的动态人脸表情识别方法
CN116935480A (zh) * 2023-09-18 2023-10-24 四川天地宏华导航设备有限公司 一种情绪识别方法及装置
CN116935480B (zh) * 2023-09-18 2023-12-29 四川天地宏华导航设备有限公司 一种情绪识别方法及装置
CN116983530A (zh) * 2023-09-27 2023-11-03 之江实验室 一种情绪调节系统、方法、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
US11226673B2 (en) Affective interaction systems, devices, and methods based on affective computing user interface
Zhang et al. Intelligent facial emotion recognition and semantic-based topic detection for a humanoid robot
US9875445B2 (en) Dynamic hybrid models for multimodal analysis
CN114463827A (zh) 一种基于ds证据理论的多模态实时情绪识别方法及系统
Vinola et al. A survey on human emotion recognition approaches, databases and applications
Sebe et al. Multimodal approaches for emotion recognition: a survey
US20120130717A1 (en) Real-time Animation for an Expressive Avatar
Wu et al. Speaking effect removal on emotion recognition from facial expressions based on eigenface conversion
JP2018014094A (ja) 仮想ロボットのインタラクション方法、システム及びロボット
WO2023284435A1 (zh) 生成动画的方法及装置
KR101738142B1 (ko) 감성 기반의 대화가 가능한 디지털 생명체 생성 시스템 및 그 제어방법
Aslan et al. Multimodal video-based apparent personality recognition using long short-term memory and convolutional neural networks
Pelachaud et al. Multimodal behavior modeling for socially interactive agents
Khodabakhsh et al. A taxonomy of audiovisual fake multimedia content creation technology
Gladys et al. Survey on multimodal approaches to emotion recognition
Morrison-Smith et al. Mmgatorauth: a novel multimodal dataset for authentication interactions in gesture and voice
Truong et al. Unobtrusive multimodal emotion detection in adaptive interfaces: speech and facial expressions
CN117152308A (zh) 一种虚拟人动作表情优化方法与系统
Zhang et al. A survey on mobile affective computing
McTear et al. Affective conversational interfaces
Wu et al. Extrovert or Introvert? GAN-Based Humanoid Upper-Body Gesture Generation for Different Impressions
Chaudhari et al. Emotion recognition system via facial expressions and speech using machine learning and deep learning techniques
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
Gunes et al. 16 automatic analysis of social emotions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220510

RJ01 Rejection of invention patent application after publication