CN116257816A

CN116257816A - 一种陪护机器人情绪识别方法、装置、存储介质及设备

Info

Publication number: CN116257816A
Application number: CN202310018201.3A
Authority: CN
Inventors: 王方; 秦建军; 李欣; 张艳娟
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-06-13

Abstract

本申请实施例公开一种陪护机器人情绪识别方法、装置、存储介质及设备，方法包括：基于图像情绪识别模型提取人脸图像中的人脸图像情绪特征；基于语音情绪识别模型提取语音信息和嘴巴图像中的语音情绪特征；基于文本情绪识别模型提取语音信息对应的文本信息进中的文本情绪特征；将上述三种情绪特征进行融合获得第一融合情绪特征；基于脉搏波情绪识别模型提取脉搏波中的脉搏波情绪特征，将脉搏波情绪特征与第一融合情绪特征进行融合获得第二融合情绪特征；根据图像情绪识别模型的图像情绪识别结果、语音情绪识别模型的语音情绪识别结果、文本情绪识别模型的文本情绪识别结果和脉搏波情绪识别模型的脉搏波情绪识别结果，确定目标情绪。

Description

一种陪护机器人情绪识别方法、装置、存储介质及设备

技术领域

本申请实施例属于人工智能技术领域，尤其涉及一种陪护机器人情绪识别方法、装置、存储介质及设备。

背景技术

情感计算是陪护机器人中用于识别人的情绪的关键技术之一。目前出现的方法包括通过人脸微表情的识别方法，通过语音语调的识别方法等非生理信号识别方法，但这些方法都是出现在陪护机器人场景中一个单一信号源的应用，如仅通过人脸微表情识别情绪，或者仅通过人说话的语音语调识别情绪，而人类是非常复杂的，其很有可能因为某种原因掩盖自己内心的实际情绪，从而导致情绪识别错误。

发明内容

本申请提供了一种陪护机器人情绪识别方法、装置、存储介质及设备，能够提高情绪识别的准确性。

具体的技术方案如下：

第一方面，本申请实施例提供了一种陪护机器人情绪识别方法，所述方法包括：

基于图像情绪识别模型对目标人物的人脸图像进行特征提取，获得人脸图像情绪特征；

基于语音情绪识别模型对所述目标人物的语音信息和嘴巴图像进行特征提取，获得语音情绪特征；

基于文本情绪识别模型对所述语音信息对应的文本信息进行特征提取，获得文本情绪特征；

将所述人脸图像情绪特征、所述语音情绪特征以及所述文本情绪特征进行融合，获得第一融合情绪特征；

基于脉搏波情绪识别模型对所述目标人物的脉搏波进行特征提取，获得脉搏波情绪特征，并将所述脉搏波情绪特征与所述第一融合情绪特征进行融合，获得第二融合情绪特征；

分别获取所述图像情绪识别模型对所述人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、所述语音情绪识别模型对所述语音情绪特征进行情绪识别得到的语音情绪识别结果、所述文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果以及所述脉搏波情绪识别模型对所述第二融合情绪特征进行情绪识别得到的脉搏波情绪识别结果，其中，所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果均包括各个情绪类别的概率；

根据所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果，确定所述目标人物的目标情绪。

在一种实施方式中，所述将所述人脸图像情绪特征、所述语音情绪特征以及所述文本情绪特征进行融合，获得第一融合情绪特征，包括：

根据预设卷积网络公式分别对所述人脸图像情绪特征、所述语音情绪特征、所述文本情绪特征进行处理，获得所述人脸图像情绪特征对应的第一卷积情绪特征、所述语音情绪特征对应的第二卷积情绪特征和所述文本情绪特征对应的第三卷积情绪特征；

将所述第一卷积情绪特征与所述第二卷积情绪特征进行拼接，获得第一拼接情绪特征，并根据所述预设卷积网络公式对拼接后的所述第一拼接情绪特征进行处理，获得第四卷积情绪特征；

将所述第三卷积情绪特征与所述第四卷积情绪特征进行拼接，获得第二拼接情绪特征，并根据所述预设卷积网络公式对所述第二拼接情绪特征进行处理，获得所述第一融合情绪特征；

其中，所述预设卷积网络公式包括：Y＝F(X)+X，所述Y表示所述预设卷积网络公式的计算结果，所述X表示被计算的情绪特征，所述F(X)表示根据卷积网络中的权重层和线性整流Relu函数确定的函数。

在一种实施方式中，所述将所述脉搏波情绪特征与所述第一融合情绪特征进行融合，获得第二融合情绪特征，包括：

根据所述预设卷积网络公式对所述脉搏波情绪特征进行处理，获得第五卷积情绪特征；

将所述第五卷积情绪特征与所述第一融合情绪特征进行拼接，获得所述第二融合情绪特征。

在一种实施方式中，所述基于语音情绪识别模型对所述目标人物的语音信息和嘴巴图像进行特征提取，获得语音情绪特征，包括：

基于所述语音情绪识别模型分别对所述语音信息、所述嘴巴图像进行特征提取，获得所述语音信息对应的语音子情绪特征，以及所述嘴巴图像对应的嘴巴图像情绪特征；

基于所述语音情绪识别模型对拼接后的所述语音子情绪特征与所述嘴巴图像情绪特征进行卷积处理，获得所述语音情绪特征。

在一种实施方式中，所述根据所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果，确定所述目标人物的目标情绪，包括：

根据预设概率处理公式确定所述目标人物的所述目标情绪w；

所述预设概率处理公式包括：

其中，

所述λ表示调整基于非生理信号模型情绪识别结果的权重，所述非生理信号模型包括所述图像情绪识别模型、所述语音情绪识别模型和所述文本情绪识别模型，所述

表示所述所述脉搏波情绪识别结果中第i种情绪的概率，所述n表示情绪类别的总数，所述P_image表示所述图像情绪识别结果，所述/>

表示所述图像情绪识别结果中第一种情绪的概率至第n种情绪的概率，所述P_voice表示所述语音情绪识别结果，所述

表示所述语音情绪识别结果中第一种情绪的概率至第n种情绪的概率，所述P_text表示所述文本情绪识别结果，所述/>

表示所述文本情绪识别结果中第一种情绪的概率至第n种情绪的概率。

第二方面，本申请实施例提供了一种陪护机器人情绪识别装置，所述装置包括：

第一提取单元，用于基于图像情绪识别模型对目标人物的人脸图像进行特征提取，获得人脸图像情绪特征；

第二提取单元，用于基于语音情绪识别模型对所述目标人物的语音信息和嘴巴图像进行特征提取，获得语音情绪特征；

第三提取单元，用于基于文本情绪识别模型对所述语音信息对应的文本信息进行特征提取，获得文本情绪特征；

第一融合单元，用于将所述人脸图像情绪特征、所述语音情绪特征以及所述文本情绪特征进行融合，获得第一融合情绪特征；

第四提取单元，用于基于脉搏波情绪识别模型对所述目标人物的脉搏波进行特征提取，获得脉搏波情绪特征；

第二融合单元，用于将所述脉搏波情绪特征与所述第一融合情绪特征进行融合，获得第二融合情绪特征；

获取单元，用于分别获取所述图像情绪识别模型对所述人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、所述语音情绪识别模型对所述语音情绪特征进行情绪识别得到的语音情绪识别结果、所述文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果以及所述脉搏波情绪识别模型对所述第二融合情绪特征进行情绪识别得到的脉搏波情绪识别结果，其中，所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果均包括各个情绪类别的概率；

确定单元，用于根据所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果，确定所述目标人物的目标情绪。

在一种实施方式中，所述第一融合单元，包括：

第一计算模块，用于根据预设卷积网络公式分别对所述人脸图像情绪特征、所述语音情绪特征、所述文本情绪特征进行处理，获得所述人脸图像情绪特征对应的第一卷积情绪特征、所述语音情绪特征对应的第二卷积情绪特征和所述文本情绪特征对应的第三卷积情绪特征；

第一拼接模块，用于将所述第一卷积情绪特征与所述第二卷积情绪特征进行拼接，获得第一拼接情绪特征；

第二计算模块，用于根据所述预设卷积网络公式对拼接后的所述第一拼接情绪特征进行处理，获得第四卷积情绪特征；

第二拼接模块，用于将所述第三卷积情绪特征与所述第四卷积情绪特征进行拼接，获得第二拼接情绪特征；

第三计算模块，用于根据所述预设卷积网络公式对所述第二拼接情绪特征进行处理，获得所述第一融合情绪特征；

在一种实施方式中，所述第二融合单元，包括：

第四计算模块，用于根据所述预设卷积网络公式对所述脉搏波情绪特征进行处理，获得第五卷积情绪特征；

第三拼接模块，用于将所述第五卷积情绪特征与所述第一融合情绪特征进行拼接，获得所述第二融合情绪特征。

在一种实施方式中，所述第二提取单元，包括：

提取模块，用于基于所述语音情绪识别模型分别对所述语音信息、所述嘴巴图像进行特征提取，获得所述语音信息对应的语音子情绪特征，以及所述嘴巴图像对应的嘴巴图像情绪特征；

卷积模块，用于基于所述语音情绪识别模型对拼接后的所述语音子情绪特征与所述嘴巴图像情绪特征进行卷积处理，获得所述语音情绪特征。

在一种实施方式中，所述确定单元，用于根据预设概率处理公式确定所述目标人物的所述目标情绪w；

所述预设概率处理公式包括：

其中，

第三方面，本申请实施例提供了一种存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现第一方面任一实施方式所述的方法。

第四方面，本申请实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现第一方面任一实施方式所述的方法。

由上述内容可知，本申请实施例提供的陪护机器人情绪识别方法、装置、存储介质及设备，不仅能够基于脉搏波情绪识别模型对非生理信号特征(包括人脸图像情绪特征、语音情绪特征、文本情绪特征)与生理信号特征(即脉搏波情绪特征)融合后的情绪特征进行情绪识别，获得脉搏波情绪识别结果，还可以根据图像情绪识别模型对人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、语音情绪识别模型对语音情绪特征进行情绪识别得到的语音情绪识别结果、文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果，以及脉搏波情绪识别结果，综合确定出最终的目标情绪。因此，与仅通过单一的非生理信号特征进行情绪识别相比，本申请实施例能够实现融合图像、语音、内容、脉搏波多路信号进行情绪识别，从而不仅可以识别出目标人物外表表现出的情绪，还可以识别出目标人物有意掩盖的情绪，进而可以提高情绪识别的准确性。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

本申请实施例的创新点包括：

1、本申请实施例能够实现融合图像、语音、内容、脉搏波多路信号进行情绪识别，从而不仅可以识别出目标人物外表表现出的情绪，还可以识别出目标人物有意掩盖的情绪，进而可以提高情绪识别的准确性。

2、本申请实施例在将多种非生理信号特征与生理信号特征进行融合时，可以先按照不同特征表达的高低级别将多种非生理信号特征进行融合，再将融合后的非生理信号特征与生理信号特征进行融合，从而提高了情绪特征融合的准确性，进而提高了脉搏波情绪识别模型识别掩盖情绪的准确性。其中，在将多种非生理信号特征进行融合时，先利用预设卷积网络公式分别计算出人脸图像情绪特征对应的第一卷积情绪特征、语音情绪特征对应的第二卷积情绪特征和文本情绪特征对应的第三卷积情绪特征，再将第一卷积情绪特征与第二卷积情绪特征进行拼接，获得第一拼接情绪特征，并根据预设卷积网络公式对拼接后的第一拼接情绪特征进行处理，获得第四卷积情绪特征，最后在将第三卷积情绪特征与第四卷积情绪特征进行拼接，获得第二拼接情绪特征之后，根据预设卷积网络公式对第二拼接情绪特征进行处理，获得第一融合情绪特征；在将融合后的非生理信号特征与生理信号特征进行融合时，也可以先根据预设卷积网络公式对脉搏波情绪特征进行处理，获得第五卷积情绪特征，在将第五卷积情绪特征与第一融合情绪特征进行拼接，获得第三拼接情绪特征之后，获得第二融合情绪特征。由此可知，本申请实施例可以实现一种循序级联残差的特征融合方法。

3、本申请实施例在基于语音情绪识别模型提取语音情绪特征时，并非单一提取语音信息中的语音子情绪特征，而是将语音信息中的语音子情绪特征与嘴巴图像中的嘴巴图像情绪特征相融合，从而提高了语音情绪特征的准确性，进而提高了基于语音情绪识别模型识别语音情绪的准确性。

4、本申请实施例可以根据预设概率处理公式确定目标人物的目标情绪时，该预设概率处理公式结合了每种情绪识别结果对目标情绪的重要性，从而可以提高了目标情绪的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种陪护机器人情绪识别方法的流程示意图；

图2为本申请实施例提供的一种F(X)的组成示例图；

图3为本申请实施例提供的一种情绪特征融合的示例图；

图4为本申请实施例提供的一种陪护机器人情绪识别装置的组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

图1为本申请实施例提供的一种陪护机器人情绪识别方法的流程示意图，该方法可以应用于终端，如陪护机器人，也可以应用于服务器，该方法可以包括如下步骤：

S110：基于图像情绪识别模型对目标人物的人脸图像进行特征提取，获得人脸图像情绪特征。

其中，图像情绪识别模型根据多张人脸样本图像和每张人脸样本图像的情绪类别标注信息训练而成。人脸样本图像的情绪类别标注信息可以通过人工标注，即人工通过查看每张人脸样本图像中的微表情确定该人脸样本图像所表征的情绪类别。人脸图像情绪特征的维数可以为N，人脸图像情绪特征可以用V1表示。

情绪类别包括多种离散的情绪状态，例如学术上通常分为8种情绪，包括快乐、信任、惊讶、期待这四种积极情绪，生气、悲伤、厌恶、恐惧这四种消极情绪。

S120：基于语音情绪识别模型对目标人物的语音信息和嘴巴图像进行特征提取，获得语音情绪特征。

其中，语音情绪识别模型根据多条语音样本信息、每条语音样本信息对应的嘴巴样本图像以及针对语音样本信息和嘴巴样本图像的情绪类别标注信息训练而成，针对语音样本信息和嘴巴样本图像的情绪类别标注信息可以通过人工标注，即人工通过结合每条语音样本信息及其对应的嘴巴图像，确定所表征的情绪类别。

无论是语音情绪识别模型的训练过程，还是训练完成之后的模型应用过程，基于语音情绪识别模型对目标人物的语音信息和嘴巴图像进行特征提取，获得语音情绪特征的具体实现方式可以包括：基于语音情绪识别模型分别对语音信息、嘴巴图像进行特征提取，获得语音信息对应的语音子情绪特征，以及嘴巴图像对应的嘴巴图像情绪特征；基于语音情绪识别模型对拼接后的语音子情绪特征与嘴巴图像情绪特征进行卷积处理，获得语音情绪特征。

目标人物的语音信息包括M个离散的语音波形点，即对原有连续的语音信息进行采样，获得M个离散的语音波形点。可以将M个离散的语音波形点作为输入送入一维卷积网络进行特征提取，获得N维的语音子情绪特征，语音子情绪特征可以用V2表示。在目标人物发出语音信息的同时，可以采集器嘴巴区域的图像，归一化后送入卷积网络提取得到维数为N的嘴巴图像情绪特征V3。将语音子情绪特征V2与嘴巴图像情绪特征V3进行拼接后，获得[V2，V3]，将[V2，V3]送入卷积网络得到语音情绪识别模型的最顶层输出语音情绪特征V4。

S130：基于文本情绪识别模型对语音信息对应的文本信息进行特征提取，获得文本情绪特征。

其中，文本情绪识别模型根据多条文本样本信息和每条文本样本信息的情绪类别标注信息训练而成。文本样本信息的情绪类别标注信息可以通过人工标注。文本样本信息是语音样本信息对应的文本信息，即利用AI(Artificial Intelligence，人工智能)技术将语音样本信息转换成的文本信息作为文本样本信息。

在将文本信息输入文本情绪识别模型时，可以先通过bag of word或者word2vec等工具将文本信息转换为词向量，再将词向量输入文本情绪识别模型进行特征提取和情绪识别。此外，本步骤中的文本情绪特征的维数可以为N，文本情绪特征可以用V5表示。

S140：将人脸图像情绪特征、语音情绪特征以及文本情绪特征进行融合，获得第一融合情绪特征。

在将人脸图像情绪特征、语音情绪特征以及文本情绪特征融合时，可以按照不同特征表达的高低级别进行融合，人脸图像情绪特征和语音情绪特征的级别高于文本情绪特征，即人脸图像情绪特征和语音情绪特征更能体现目标人物所表现出的情绪，所以可以先将人脸图像情绪特征与语音情绪特征进行融合，再将融合后的特征与文本情绪特征进行融合，最后得到第一融合情绪特征。

具体实现方式包括步骤A1-步骤A3：

A1、根据预设卷积网络公式分别对人脸图像情绪特征、语音情绪特征、文本情绪特征进行处理，获得人脸图像情绪特征对应的第一卷积情绪特征、语音情绪特征对应的第二卷积情绪特征和文本情绪特征对应的第三卷积情绪特征。

其中，预设卷积网络公式包括：Y＝F(X)+X，Y表示预设卷积网络公式的计算结果，X表示被计算的情绪特征，F(X)表示根据卷积网络中的权重层(weightlayer)和线性整流Relu函数确定的函数，如图2所示，F(X)为卷积网络中的一个weightlayer经过Relu函数后，再连接一个weightlayer。此外，在实际应用中，不同情绪特征在进行卷积计算时所使用的卷积参数可能存在差距，所以不同情绪特征在融合时，实际使用的F(X)可能存在差异，为了准确区分不同的F(X)，下面使用Fi(X)的形式进行区分表示。

如图3所示，在人脸图像情绪特征、语音情绪特征、文本情绪特征分别用V1、V4和V5表示的情况下，第一卷积情绪特征V7＝F1(V1)+V1，第二卷积情绪特征V8＝F2(V4)+V4，第三卷积情绪特征V11＝F4(V5)+V5。

A2、将第一卷积情绪特征与第二卷积情绪特征进行拼接，获得第一拼接情绪特征，并根据预设卷积网络公式对拼接后的第一拼接情绪特征进行处理，获得第四卷积情绪特征。

如图3所示，第一拼接情绪特征V9＝[V7,V8]＝[F1(V1)+V1,F2(V4)+V4]，第四卷积情绪特征V10＝F3(V9)+V9＝F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4]。

A3、将第三卷积情绪特征与第四卷积情绪特征进行拼接，获得第二拼接情绪特征，并根据预设卷积网络公式对第二拼接情绪特征进行处理，获得第一融合情绪特征。

如图3所示，在第二拼接情绪特征用V12表示，第一融合情绪特征用V13表示的情况下，

V12＝[V10,V11]＝[F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4],F4(V5)+V5]；

V13＝F5(V12)+V12＝F5([F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4],F4(V5)+V5])+[F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4],F4(V5)+V5]。

S150：基于脉搏波情绪识别模型对目标人物的脉搏波进行特征提取，获得脉搏波情绪特征，并将脉搏波情绪特征与第一融合情绪特征进行融合，获得第二融合情绪特征。

脉搏波属于生理信号，与情绪的真实表达息息相关，能够显著的区别真实情绪和虚假的表面情绪，本申请实施例的脉搏波情绪识别模型融合了脉搏波和前述所有非生理信号特征，从而提高了识别掩盖情绪的准确性。

前述图像情绪识别模型、语音情绪识别模型和文本情绪识别模型均可以独立训练，并在训练完成这三种模型后，再训练脉搏波情绪识别模型，在训练脉搏波情绪识别模型时，可以先将多个脉搏波样本、每个脉搏波样本的情绪类别标注信息、图像情绪识别模型从人脸样本图像中提取的人脸图像情绪特征、语音情绪识别模型从语音样本信息和嘴巴样本图像中提取的语音情绪特征、文本情绪识别模型从文本样本信息中提取的文本情绪特征作为脉搏波情绪识别模型的输入，脉搏波情绪识别模型先根据多个脉搏波样本和每个脉搏波样本的情绪类别标注信息进行学习，提取脉搏波样本的脉搏波情绪特征，再将该脉搏波情绪特征与其他三种非生理情绪特征进行融合，并基于融合后的情绪特征进行情绪识别。通过以上分阶段的训练可以达到同时识别表面情绪和掩盖情绪的目的。

将脉搏波情绪特征与第一融合情绪特征进行融合的方法包括：根据预设卷积网络公式对脉搏波情绪特征进行处理，获得第五卷积情绪特征；将第五卷积情绪特征与第一融合情绪特征进行拼接，获得第二融合情绪特征。

如图3所示，在脉搏波情绪特征用V6表示的情况下，第五卷积情绪特征V14＝F6(V6)+V6，第二融合情绪特征V15＝[V13,V14]＝[F5([F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4],F4(V5)+V5])+[F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4],F4(V5)+V5],V14＝F6(V6)+V6]。

需要补充的是，上述目标人物的人脸图像、语音信息、嘴巴图像、文本信息和脉搏波之间具有紧密联系，是目标人物在一段时间内说话时，陪护机器人采集到的人脸图像、语音信息、嘴巴图像、语音信息对应的文本信息和当时目标人物的脉搏波。其中，一条语音信息可能对应多张人脸图像和嘴巴图像。

S160：分别获取图像情绪识别模型对人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、语音情绪识别模型对语音情绪特征进行情绪识别得到的语音情绪识别结果、文本情绪识别模型对文本情绪特征进行情绪识别得到的文本情绪识别结果以及脉搏波情绪识别模型对第二融合情绪特征进行情绪识别得到的脉搏波情绪识别结果。

其中，图像情绪识别结果、语音情绪识别结果、文本情绪识别结果和脉搏波情绪识别结果均包括各个情绪类别的概率。

各个情绪识别模型提取相应的情绪特征之后，还可以利用分类器对情绪特征进行分类识别，获得每种情绪类别的概率。其中，分类器可以采用softmax分类器，也可以采用其他分类器。

需要补充的是，上述各个情绪识别模型在进行特征提取时，可以采用CNN(Convolutional Neural Networks，卷积神经网络)或者transformer等网络，其中，文本情绪识别模型还可以使用RNN(Recurrent Neural Network，循环神经网络)或者LSTM(LongShort-Term Memory，长短期记忆网络)等网络进行特征提取。

S170：根据图像情绪识别结果、语音情绪识别结果、文本情绪识别结果和脉搏波情绪识别结果，确定目标人物的目标情绪。

根据图像情绪识别结果、语音情绪识别结果、文本情绪识别结果和脉搏波情绪识别结果，确定目标人物的目标情绪的方法包括但不限于以下两种：

第一种：先分别计算四种情绪识别结果中同一种情绪类别的概率平均值，再选取概率平均值最大的情绪类别作为目标情绪。

第二种：根据预设概率处理公式确定目标人物的目标情绪w；

预设概率处理公式包括：

其中，

λ表示调整基于非生理信号模型情绪识别结果的权重，非生理信号模型包括图像情绪识别模型、语音情绪识别模型和文本情绪识别模型，

表示脉搏波情绪识别结果中第i种情绪的概率，n表示情绪类别的总数，P_image表示图像情绪识别结果，

表示图像情绪识别结果中第一种情绪的概率至第n种情绪的概率，P_voice表示语音情绪识别结果，/>

表示语音情绪识别结果中第一种情绪的概率至第n种情绪的概率，P_text表示文本情绪识别结果，/>

示文本情绪识别结果中第一种情绪的概率至第n种情绪的概率。

当λ＝0时，独立的基于非生理信号的识别结果对最终结果不产生任何影响。因为脉搏波情绪识别模型中已经融合了非生理型号的特征，因此本申请实施例中的λ取值可以小于0.3。

第二种方法中的预设概率处理公式结合了每种情绪识别结果对目标情绪的重要性，从而相比于第一种方法，可以进一步提高目标情绪的准确性。

本申请实施例提供的陪护机器人情绪识别方法，不仅能够基于脉搏波情绪识别模型对非生理信号特征(包括人脸图像情绪特征、语音情绪特征、文本情绪特征)与生理信号特征(即脉搏波情绪特征)融合后的情绪特征进行情绪识别，获得脉搏波情绪识别结果，还可以根据图像情绪识别模型对人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、语音情绪识别模型对语音情绪特征进行情绪识别得到的语音情绪识别结果、文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果，以及脉搏波情绪识别结果，综合确定出最终的目标情绪。因此，与仅通过单一的非生理信号特征进行情绪识别相比，本申请实施例能够实现融合图像、语音、内容、脉搏波多路信号进行情绪识别，从而不仅可以识别出目标人物外表表现出的情绪，还可以识别出目标人物有意掩盖的情绪，进而可以提高情绪识别的准确性。

相应于上述方法实施例，本申请实施例提供了一种陪护机器人情绪识别装置，如图4所示，所述装置包括：

第一提取单元210，用于基于图像情绪识别模型对目标人物的人脸图像进行特征提取，获得人脸图像情绪特征；

第二提取单元220，用于基于语音情绪识别模型对所述目标人物的语音信息和嘴巴图像进行特征提取，获得语音情绪特征；

第三提取单元230，用于基于文本情绪识别模型对所述语音信息对应的文本信息进行特征提取，获得文本情绪特征；

第一融合单元240，用于将所述人脸图像情绪特征、所述语音情绪特征以及所述文本情绪特征进行融合，获得第一融合情绪特征；

第四提取单元250，用于基于脉搏波情绪识别模型对所述目标人物的脉搏波进行特征提取，获得脉搏波情绪特征；

第二融合单元260，用于将所述脉搏波情绪特征与所述第一融合情绪特征进行融合，获得第二融合情绪特征；

获取单元270，用于分别获取所述图像情绪识别模型对所述人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、所述语音情绪识别模型对所述语音情绪特征进行情绪识别得到的语音情绪识别结果、所述文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果以及所述脉搏波情绪识别模型对所述第二融合情绪特征进行情绪识别得到的脉搏波情绪识别结果，其中，所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果均包括各个情绪类别的概率；

确定单元280，用于根据所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果，确定所述目标人物的目标情绪。

在一种实施方式中，所述第一融合单元240，包括：

在一种实施方式中，所述第二融合单元260，包括：

在一种实施方式中，所述第二提取单元220，包括：

在一种实施方式中，所述确定单元280，用于根据预设概率处理公式确定所述目标人物的所述目标情绪w；

所述预设概率处理公式包括：

其中，

本申请实施例提供的陪护机器人情绪识别装置，不仅能够基于脉搏波情绪识别模型对非生理信号特征(包括人脸图像情绪特征、语音情绪特征、文本情绪特征)与生理信号特征(即脉搏波情绪特征)融合后的情绪特征进行情绪识别，获得脉搏波情绪识别结果，还可以根据图像情绪识别模型对人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、语音情绪识别模型对语音情绪特征进行情绪识别得到的语音情绪识别结果、文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果，以及脉搏波情绪识别结果，综合确定出最终的目标情绪。因此，与仅通过单一的非生理信号特征进行情绪识别相比，本申请实施例能够实现融合图像、语音、内容、脉搏波多路信号进行情绪识别，从而不仅可以识别出目标人物外表表现出的情绪，还可以识别出目标人物有意掩盖的情绪，进而可以提高情绪识别的准确性。

基于上述方法实施例，本申请的另一实施例提供了一种存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现如上所述的方法。

基于上述方法实施例，本申请的另一实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

上述装置实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。装置实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。