CN114463827A

CN114463827A - 一种基于ds证据理论的多模态实时情绪识别方法及系统

Info

Publication number: CN114463827A
Application number: CN202210380482.2A
Authority: CN
Inventors: 徐若豪; 李太豪; 刘昱龙; 裴冠雄; 程翠萍
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-05-10

Abstract

本发明提出了一种基于DS证据理论的多模态实时情绪识别方法及系统，该方法包括：步骤一，搭建虚拟现实场景，部署语音对话模块和面部表情识别模块，被试者通过语音对话模块进行实时语音对话，并通过虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据；步骤二，在语音数据上提取特征向量，输入到训练好的语音情绪识别模型，输出语音情绪识别结果；步骤三，在人脸数据上提取人脸几何特征向量，融合瞳孔直径特征，输入到训练好的面部表情情绪识别模型，输出面部表情情绪识别结果；步骤四，将语音情绪识别结果和面部表情情绪识别结果通过DS证据理论融合得到综合情绪识别结果。本发明能有效提高情绪识别的准确率，具有广泛的应用前景。

Description

一种基于DS证据理论的多模态实时情绪识别方法及系统

技术领域

本发明属于人工智能和认知科学的交叉领域，涉及一种基于DS证据理论的多模态实时情绪识别方法及系统。

背景技术

情绪是人对特定情况或刺激的身体反应，在每个人的生活中都扮演着非常重要的角色。人们在日常工作、人际交往或认知活动中都有情绪。近年来，对情绪自动识别方法的研究有了很大的增长。识别情绪的有效方法的发展不仅可以改善人机交互，还有助于其他领域的发展，如心理学、医学、教育和娱乐等。

语音是能反映人类情感的一个很重要的行为信号。语音情感识别是通过分析说话人的语音来识别人的情绪状态。目前公认的与语音情感相关的声学特征有韵律学特征、音质特征、基于谱的相关特征。面部表情也是情绪表达的一个有力途径，传达了高达55%的情感信息。面部表情情绪识别是指对人脸表情进行特征提取和分析，通过表情信息来理解人类表情。现有研究表明，瞳孔大小在一定程度上能够反映人的心理活动并影响他人的心理与行为。

随着虚拟现实技术的快速发展，虚拟现实技术具有沉浸感、真实感、想象性和交互性等特点，利用沉浸式虚拟现实技术制作的虚拟现实场景在情绪识别中具有极大的优势：（1）沉浸式VR能够提供被试者完全沉浸的体验，使被试者有一种身临其境的感觉；（2）沉浸式VR能够避免外界环境的干扰，获得相对客观的情绪反应；（3）沉浸式VR也可用于情绪诱发，能诱发更强烈的情绪反应，虚拟现实的沉浸感会产生更逼真的认知和情感功能；（4）在沉浸式VR中，能够通过多种传感装置获取多模态的数据信息，有利于多模态情绪识别。

DS证据理论（Dempster/Shafer证据理论）是由Dempster于1967年首次提出，利用上、下限概率来解决多值映射问题，后由他的学生Shafer于1976年进一步发展，引入信任函数概念，形成了一套基于“证据”和“组合”来处理不确定性推理问题的数学方法。作为一种不确定推理方法，证据理论的主要特点是：满足比贝叶斯概率论更弱的条件；具有直接表达“不确定”和“不知道”的能力。DS证据理论对不确定问题的描述更加灵活，在处理冲突较小时该理论效果显著的优点，是决策融合中广泛应用的不确定性推理算法。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于DS证据理论的多模态实时情绪识别方法及系统，基于沉浸式虚拟现实头戴式设备灵活地采集被试者语音数据、人脸数据和瞳孔数据，提出在利用语音文本和音频信号进行语音情绪识别时采用DS证据理论进行决策融合，在利用人脸特征进行情绪识别时融入瞳孔直径特征，最后将两种情绪识别结果通过DS证据理论融合得到基于语音和面部表情的情绪识别结果，从而在沉浸式虚拟现实环境中隐式识别被试者情绪。其具体技术方案如下：

一种基于DS证据理论的多模态实时情绪识别方法，包括以下步骤：

步骤一，基于虚拟现实引擎搭建虚拟现实场景，部署语音对话模块和面部表情识别模块，被试者通过语音对话模块进行实时语音对话，再使用虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据；

步骤二，在步骤一采集的语音数据上提取特征向量，输入到训练好的语音情绪识别模型进行实时情绪识别，输出语音情绪识别结果；

步骤三，在步骤一采集的人脸数据上提取人脸几何特征向量，融合瞳孔直径特征，输入到训练好的面部表情情绪识别模型进行实时情绪识别，输出面部表情情绪识别结果；

步骤四，将步骤二得到语音情绪识别结果和步骤三得到的面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果。

进一步的，所述虚拟现实头戴式设备还对被试者进行眼动校准，采集被试者静息态下的人脸数据和瞳孔数据，得到静息态下的标准人脸和瞳孔基线数据，即为被试者在平静情绪下的人脸数据和瞳孔基线数据，其中瞳孔基线数据采用多次测量的均值。

进一步的，所述语音情绪识别结果为七种基本的情绪，包括快乐、悲伤、愤怒、惊讶、厌恶、恐惧和平静。

进一步的，所述步骤二具体为：对包括语音文本信息和音频信号的语音数据进行特征提取，得到语音文本情绪特征向量和音频信号情绪特征向量，后输入到训练好的语音情绪识别模型，得到语音文本情绪本识别结果和音频信号情绪识别结果，再通过DS证据理论融合得到语音情绪识别结果，表达式如下：

其中，

是语音文本识别结果，

是音频信号识别结果，

表示语音情绪特征向量，

表示语音文本情绪特征向量，

表示音频信号情绪特征向量，

为归一化因子，能保证语音情绪识别结果对空集的支持度为0，且对所有结果支持度之和为1，即保证非负性和归一性，

是冲突系数，

越接近1表示两识别结果之间越冲突，

越接近0表示两识别结果越一致；

。

进一步的，所述步骤三具体为：在人脸的眼睛、眉毛、鼻子和嘴巴选择特征点，并构造眉心特征点，以眉心和鼻尖为基准，构造其他人脸特征点与基准之间的特征向量；

瞳孔直径特征

提取公式如下：

其中，

为实时的瞳孔直径，

为瞳孔基线数据；

将人脸几何特征和瞳孔直径特征输入到训练好的面部表情情绪识别模型进行实时情绪识别，得到面部表情情绪识别结果。

进一步的，所述步骤四具体为：将语音情绪识别结果和面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果，表达式为：

其中，

是语音情绪识别结果，

是面部表情情绪识别结果，H表示语音和面部表情的综合情绪特征向量，

表示面部表情情绪特征向量，

是冲突系数，

越接近1表示两识别结果之间越冲突，

越接近0表示两识别结果越一致，表达式如下：

。

一种基于DS证据理论的多模态实时情绪识别系统，包括沉浸式虚拟现实设备、语音对话模块、面部表情识别模块、综合处理模块、数据可视化模块，

所述沉浸式虚拟现实设备，用于向被试者展示构建的虚拟现实场景，同时采集被试语音数据、人脸数据和瞳孔数据，并实时传输给语音对话模块和面部表情识别模块；

语音对话模块，用于在虚拟现实场景中与被试者语音聊天交互，并根据语音数据进行语音情绪识别，具体的，在采集的语音数据上提取特征向量，输入到训练好的语音情绪识别模型进行实时情绪识别，输出语音情绪识别结果；

面部表情识别模块，对获取的人脸数据进行特征向量提取，并融合瞳孔直径特征，进行面部表情情绪识别，具体的，在采集的人脸数据上提取人脸几何特征向量，融合瞳孔直径特征，输入到训练好的面部表情情绪识别模型进行实时情绪识别，输出面部表情情绪识别结果；

综合处理模块，用于接收实时语音对话模块和面部表情识别模块的情绪识别结果，通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果；

数据可视化模块，用于实时展示语音对话内容以及各种情绪识别结果。

进一步的，所述的沉浸式虚拟现实设备包括：头戴式显示设备、定位器、操控手柄、VR取像组件、内置眼动仪、内置麦克风和耳机；

所述的头戴式显示设备，用于向被试者展示构建的虚拟现实场景；所述的操控手柄，用于在虚拟现实场景中的交互；所述的VR取像组件，用于获取被试者人脸嘴巴部位的运动数据，并将其传输给面部表情识别模块；所述的内置眼动仪，用于获取被试者人脸眼睛与眉毛部位的运动以及采集瞳孔数据，并传输给面部表情识别模块；所述的内置麦克风和耳机，用于获取被试者语音对话信息，播放语音对话模块返回的对话信息。

一种基于DS证据理论的多模态实时情绪识别装置，包括一个或多个处理器，用于实现所述的一种基于DS证据理论的多模态实时情绪识别方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的一种基于DS证据理论的多模态实时情绪识别方法。

与现有技术相比，本发明的有益效果如下：

本发明的一种基于DS证据理论的多模态实时情绪识别方法及系统，基于沉浸式虚拟现实头戴式设备灵活地采集被试者语音数据、人脸数据和瞳孔数据，再利用语音文本和音频信号进行语音情绪识别时采用DS证据理论进行决策融合，再利用人脸特征进行情绪识别时融入瞳孔直径特征，最后将两种情绪识别结果通过DS证据理论融合得到基于语音和面部表情的情绪识别结果，提高了情绪识别的准确率。

附图说明

图1为本发明的基于DS证据理论的多模态实时情绪识别方法的流程图；

图2为本发明的基于DS证据理论的多模态实时情绪识别系统的结构图；

图3为本发明的基于DS证据理论的多模态实时情绪识别装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，本发明的一种基于DS证据理论的多模态实时情绪识别方法，具体包括如下步骤：

本发明实施例中基于Unity3D虚拟现实引擎搭建虚拟现实场景，部署语音对话模块和面部表情识别模块，被试者通过语音对话模块进行实时语音对话，再使用HTC VivePro Eye虚拟现实头戴式设备同步采集被试者语音数据、人脸数据和瞳孔数据；基于沉浸式虚拟现实头戴式设备灵活地采集了被试者语音数据、人脸数据和瞳孔数据。

其中，HTC Vive Pro Eye虚拟现实头戴式设备对被试者进行眼动校准，采集被试者静息态下的人脸数据和瞳孔数据，得到静息态下的标准人脸和瞳孔基线数据；

被试者被要求在扶手椅上采取一个舒适的姿势，支撑着他们的手和后背，头戴HTCVive Pro Eye虚拟现实头戴式设备，进行眼动追踪校准；

静息态下的标准人脸数据和瞳孔基线数据，是指被试者在平静情绪下的人脸数据和瞳孔基线数据，其中瞳孔基线数据采用多次测量的均值；

所述实时情绪识别，包括语音文本的情绪识别和音频信号的情绪识别，两种情绪识别结果通过DS证据理论融合得到语音情绪识别结果；

情绪识别结果为七种基本的情绪，包括快乐、悲伤、愤怒、惊讶、厌恶、恐惧和平静；

语音情绪识别结果

的计算公式如下：

其中，

是语音文本情绪识别结果，

是音频信号情绪识别结果，

表示语音情绪特征向量，

表示语音文本情绪特征向量，

表示音频信号情绪特征向量，

是冲突系数，

越接近1表示两识别结果之间越冲突，

越接近0表示两识别结果越一致；

。

在人脸的眼睛、眉毛、鼻子和嘴巴选择特征点，并构造眉心特征点，以眉心和鼻尖为基准，构造其他人脸特征点与基准之间的特征向量；

瞳孔直径特征

提取公式如下：

其中，

为实时的瞳孔直径，

为瞳孔基线数据；

步骤四，将步骤二得到语音情绪识别结果和步骤三得到的面部表情情绪识别结果通过DS证据理论融合得到基于语音和面部表情的综合情绪识别结果，该步骤将两种情绪识别结果融合，提高了情绪识别的准确率；

具体的，基于语音和面部表情的综合情绪识别结果M计算公式如下：

其中，

是语音情绪识别结果，

表示面部表情情绪特征向量，

是冲突系数，

越接近1表示两识别结果之间越冲突，

越接近0表示两识别结果越一致，表达式如下：

。

如图2所示，本发明的一种基于DS证据理论的多模态实时情绪识别系统，包括：

沉浸式虚拟现实设备，用于向被试者展示构建的虚拟现实场景，营造沉浸式虚拟现实体验，同时采集被试语音数据、人脸数据和瞳孔数据，并实时传输给语音对话模块和面部表情识别模块；

所述的沉浸式虚拟现实设备包括以下设备：头戴式显示设备、定位器、操控手柄、VR取像组件、内置眼动仪、内置麦克风和耳机。

所述的头戴式显示设备，用于向被试者展示构建的虚拟现实场景，营造沉浸式虚拟现实体验；

所述的操控手柄，用于在虚拟现实场景中的交互；

所述的VR取像组件，用于捕捉被试者人脸嘴巴部位的运动数据，并将其传输给面部表情识别模块；

所述的内置眼动仪，用于捕捉被试者人脸眼睛与眉毛部位的运动以及采集瞳孔数据，并将该数据传输给面部表情识别模块；

所述的内置麦克风和耳机，用于捕捉被试者语音对话信息，播放语音对话模块返回的对话信息。

与前述基于DS证据理论的多模态实时情绪识别方法的实施例相对应，本发明还提供了基于DS证据理论的多模态实时情绪识别装置的实施例。

参见图3，本发明实施例提供的一种基于DS证据理论的多模态实时情绪识别装置，包括一个或多个处理器，用于实现上述实施例中的基于DS证据理论的多模态实时情绪识别方法。

本发明基于DS证据理论的多模态实时情绪识别装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明基于DS证据理论的多模态实时情绪识别装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于DS证据理论的多模态实时情绪识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于DS证据理论的多模态实时情绪识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于DS证据理论的多模态实时情绪识别方法，其特征在于，所述虚拟现实头戴式设备还对被试者进行眼动校准，采集被试者静息态下的人脸数据和瞳孔数据，得到静息态下的标准人脸和瞳孔基线数据，即为被试者在平静情绪下的人脸数据和瞳孔基线数据，其中瞳孔基线数据采用多次测量的均值。

3.根据权利要求1所述的一种基于DS证据理论的多模态实时情绪识别方法，其特征在于，所述语音情绪识别结果为七种基本的情绪，包括快乐、悲伤、愤怒、惊讶、厌恶、恐惧和平静。

4.根据权利要求1所述的一种基于DS证据理论的多模态实时情绪识别方法，其特征在于，所述步骤二具体为：对包括语音文本信息和音频信号的语音数据进行特征提取，得到语音文本情绪特征向量和音频信号情绪特征向量，后输入到训练好的语音情绪识别模型，得到语音文本情绪本识别结果和音频信号情绪识别结果，再通过DS证据理论融合得到语音情绪识别结果，表达式如下：