CN114420169B

CN114420169B - 情绪识别方法、装置及机器人

Info

Publication number: CN114420169B
Application number: CN202210328824.6A
Authority: CN
Inventors: 代勤; 赵超; 薛东伟; 胡明櫆
Original assignee: Beijing Wofeng Times Data Technology Co ltd
Current assignee: Beijing Wofeng Times Data Technology Co ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-06-21
Anticipated expiration: 2042-03-31
Also published as: CN114420169A

Abstract

本发明提供一种情绪识别方法、装置及机器人，所述方法包括：获取当前对话语句的第一音频特征向量，将第一音频特征向量输入至音频识别子模型确定第一音频嵌入向量；获取当前对话语句的第一词向量，将第一词向量输入至文字识别子模型，确定第一词嵌入向量；融合第一音频嵌入向量和第一词嵌入向量，生成第一融合特征向量；基于第一融合特征向量，确定用户的当前情绪识别结果。本发明提出了一种结合人机对话相关的语音和文字相关的音频特征以及词向量特征，进行用户情绪分类识别，克服了单一的基于语音或人脸图像进行情绪分类识别存在的信息损失的弊端，能够显著地提升情绪分类识别的精度。

Description

情绪识别方法、装置及机器人

技术领域

本发明涉及人工智能技术领域，尤其涉及一种情绪识别方法、装置及机器人。

背景技术

在随着人工智能产品在生活中的运用率越来越高，语音技术包括语音识别、语音合成、声纹技术等，作为人机自然交互的基本途径，在智能家居、智能汽车、智能客服等场景下都已有了比较广阔的应用，并且目前这些技术在通用场景已达到比较高的实用效果。

在智能机器人的实际应用中，要想使机器人像人一样能听懂、能理解、能沟通，除了听懂文字内容以外，获取用户对话时所包含的情绪信息也同样重要。在人机对话过程中，机器人充分利用语音所包含的用户情绪信息，能够使人机沟通更加自然，使机器可以像人一样思考，以根据不同情绪给出不同的话术，使机器人建立起更加智能、立体的形象。

当前情绪识别的技术路线通常是从语音中提取基频、梅尔倒谱系数特征（Mel-scale FrequencyCepstral Coefficients，MFCC）、滤波器组特征（Filter Banks，FBANK）等语音特征；基于长短期记忆网络（Long Short-Term Memory，LSTM）、卷积神经网络(Convolutional Neural Network，CNN)、注意机制（Attention）等深度学习方案，构建情绪分类模型；最后，利用情绪分类模型对语音特征进行识别。或者，简在获取用户在人机对话时的面部图像之后，简单地利用预先构建的情绪分类模型对面部图像进行特征提取，以对用户在人机对话时的情绪进行分类。

现有的单一地基于语音或图像的情绪识别方法，都不可避免地存在一定的信息损失，导致最终获取到的情绪识别结果不准确。

发明内容

本发明提供一种情绪识别方法、装置及机器人，用以解决现有技术中单一地基于语音或图像的情绪识别方法，所存在的识别精度差的缺陷，实现人机对话时用户情绪的精准识别。

第一方面，本发明提供一种情绪识别方法，包括：

获取当前对话语句相关的第一音频特征向量，将所述第一音频特征向量输入至音频识别子模型，以根据所述音频识别子模型的输出，确定第一音频嵌入向量；

获取所述当前对话语句相关的第一词向量，将所述第一词向量输入至文字识别子模型，以根据所述文字识别子模型的输出，确定第一词嵌入向量；

融合所述第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量；

基于所述第一融合特征向量，确定用户的当前情绪识别结果。

根据本发明提供的一种情绪识别方法，在融合所述第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量之前，还包括：

获取在采集所述当前对话语句时用户的第一面部图像，将所述第一面部图像输入至图像识别子模型，以根据所述图像识别子模型的输出，确定第一图像嵌入向量；

融合所述第一音频嵌入向量、所述第一词嵌入向量和所述第一图像嵌入向量，生成第二融合特征向量；

基于所述第二融合特征向量，确定所述用户的当前情绪识别结果。

根据本发明提供的一种情绪识别方法，在将所述第一音频特征向量输入至音频识别子模型之前，还包括：

获取第二音频嵌入向量，所述第二音频嵌入向量是将所述当前对话语句的前一对话语句相关的第二音频特征向量输入至所述音频识别子模型后获取到的；

融合所述第二音频嵌入向量和所述第一音频特征向量，生成第二音频特征向量；

将所述第二音频特征向量输入至所述音频识别子模型，以根据所述音频识别子模型的输出，确定第三音频嵌入向量；

相应地，融合所述第三音频嵌入向量和所述第一词嵌入向量，生成第三融合特征向量，以基于所述第三融合特征向量，确定用户的当前情绪识别结果；

或者，融合所述第三音频嵌入向量、所述第一词嵌入向量和所述第一图像嵌入向量，生成第四融合特征向量，以基于所述第四融合特征向量，确定用户的当前情绪识别结果。

根据本发明提供的一种情绪识别方法，在将所述第一词向量输入至文字识别子模型之前还包括：

获取第二词嵌入向量，所述第二词嵌入向量是将所述当前对话语句的前一对话语句相关的第二词向量输入至所述文字识别子模型后获取到的；

融合所述第二词嵌入向量和所述第一词向量，生成第二词向量；

将所述第二词向量输入至所述文字识别子模型，以根据所述文字识别子模型的输出，确定第三词嵌入向量；

相应地，融合所述第三音频嵌入向量和所述第三词嵌入向量，生成第五融合特征向量，以基于所述第五融合特征向量，确定用户的当前情绪识别结果；

或者，融合所述第三音频嵌入向量、所述第三词嵌入向量和所述第一图像嵌入向量，生成第六融合特征向量，以基于所述第六融合特征向量，确定用户的当前情绪识别结果。

根据本发明提供的一种情绪识别方法，在将所述第一面部图像输入至图像识别子模型之前，还包括：

获取第二图像嵌入向量，所述第二图像嵌入向量是将所述当前对话语句的前一对话语句相关的第二面部图像，输入至所述图像识别子模型后获取到的；

融合所述第二图像嵌入向量和所述第一面部图像，生成第二面部图像；

将所述第二面部图像输入至所述图像识别子模型，以根据所述图像识别子模型的输出，确定第三图像嵌入向量；

相应地，融合所述第三音频嵌入向量、所述第三词嵌入向量和所述第三图像嵌入向量，生成第七融合特征向量，以基于所述第七融合特征向量，确定用户的当前情绪识别结果。

根据本发明提供的一种情绪识别方法，还包括：采集不同用户的对话语句样本，以及与每个所述对话语句样本相关的面部图像样本；

分别为每个所述对话语句样本和所述面部图像样本标注一个情绪识别标签，以构建样本训练集；

将所述样本训练集中的对话语句样本或面部图像样本，按照预设顺序逐次对所述音频识别子模型、所述文字识别子模型和所述图像识别子模型进行训练。

根据本发明提供的一种情绪识别方法，将所述样本训练集中的对话语句样本或面部图像样本，按照预设顺序逐次对所述音频识别子模型、所述文字识别子模型和所述图像识别子模型进行训练之后，包括：

在每轮训练之后，重新排布所述样本训练集中的对话语句样本以及面部图像样本的顺序，并利用重新排布后的样本训练集，重新对所述音频识别子模型、所述文字识别子模型和所述图像识别子模型进行训练。

第二方面，本发明还提供一种情绪识别装置，包括：

第一处理单元，用于获取当前对话语句相关的第一音频特征向量，将所述第一音频特征向量输入至音频识别子模型，以根据所述音频识别子模型的输出，确定第一音频嵌入向量；

第二处理单元，用于获取所述当前对话语句相关的第一词向量，将所述第一词向量输入至文字识别子模型，以根据所述文字识别子模型的输出，确定第一词嵌入向量；

向量融合单元，用于融合所述第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量；

情绪识别单元，用于基于所述第一融合特征向量，确定用户的当前情绪识别结果。

第三方面，本发明还提供一种机器人，包括机器人本体，所述机器人本体中设置有情绪识别处理器和音频采集器，所述音频采集器设置于所述机器人本体上；所述音频采集器用于采集用户的当前对话语句；

还包括存储器及存储在所述存储器上并可在所述情绪识别处理器上运行的程序或指令，所述程序或指令被所述情绪识别处理器执行时执行如第一方面任一项所述情绪识别方法的步骤。

第四方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面任一种所述情绪识别方法的步骤。

第五方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面任一种所述情绪识别方法的步骤。

本发明提供的情绪识别方法、装置及机器人，提出了一种结合人机对话相关的语音和文字相关的音频特征以及词向量特征，进行用户情绪分类识别，克服了单一的基于语音或人脸图像进行情绪分类识别存在的信息损失的弊端，能够显著地提升情绪分类识别的精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的情绪识别方法的流程示意图；

图2是本发明提供的用于实现情绪识别方法的模型结构示意图；

图3是本发明提供的情绪识别装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明实施例的描述中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本申请中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合图1-图4描述本发明实施例所提供的情绪识别方法、装置及机器人。

图1是本发明提供的情绪识别方法的流程示意图，如图1所示，包括但不限于以下步骤：

步骤101：获取当前对话语句相关的第一音频特征向量，将第一音频特征向量输入至音频识别子模型，以根据音频识别子模型的输出，确定第一音频嵌入向量。

在用于人机对话的机器人上配置声音采集器，采集人机对话过程中用户的当前对话语句，即实时对话的语音信息。

将所采集到的当前对话语句所对应的语音信息转换成相应的第一音频特征向量，可以采用以下方式实现：

首先，提取出语音信息中的基频、MFCC、FBANK等语音特征。

以当前对话语句是汉语为例，由于汉语是一种有调语言，其声调具有辨意的作用。声调是重要的声学参数，而声调是由调值和调型组成的,调值由基频数值决定，调型由调值的走向决定。因此，基频是当前对话语句的一个重要参数。

对于基频的提取可以采用自相关算法、平行处理法、倒谱法和简化逆滤波法中的任一种来实现，在此不作赘述。

再例如，MFCC特征是在Mel标度频率域提取出来的倒谱参数，在进行语音信息的MFCC特征的提取，可以采用以下步骤：

（1）在对语音信息进行预加重的基础上，对处理后的语音信息的信号帧进行分帧处理，将其转化为短帧；

（2）对于转化后的每一短帧进行加窗（Hamming Window）后，进行快速傅里叶变换，以获取到其在频谱上的能量分布，即得到各短帧的频谱。

（3）将MEL滤波器组应用于对频谱进行平滑化处理，并同时起到消除谐波的作用，以突显原先的语音信息的共振峰。

（4）计算每个滤波器组输出的对数能量；

（5）取对数滤波器组能量的离散余弦变换（DCT），得到对应的MFCC特征

（6）进一步地，可以保持DCT系数2-13，其余部分丢弃。

最后，语音信息就可以通过一系列的倒谱向量来描述了，每个倒谱向量就是每帧的MFCC特征对应的第一音频特征向量。

另外，获得语音信号的fbank特征的一般步骤可以是：预加重、分帧、加窗、短时傅里叶变换（STFT）、MEL滤波器组滤波、去均值等，最后也可以将fbank特征利用倒谱向量进行表示，获取到第一音频特征向量。

图2是本发明提供的用于实现情绪识别方法的模型结构示意图，结合图2所示，本发明利用预先构建并训练好的音频识别子模型（即图2中的NET1），以对输入的第一音频特征向量进行特征提取，具体地：将第一音频特征向量输入至NET1中，然后将NET1的输出通过做句子级的Attention后，经过全连接层（fully connected layers，FC），获取到一个嵌入向量（Embedding），则将该嵌入向量作为当前对话语句的第一音频嵌入向量。

步骤102：获取当前对话语句相关的第一词向量，将第一词向量输入至文字识别子模型，以根据文字识别子模型的输出，确定第一词嵌入向量。

与现有技术不同的是，本发明在对当前对话语句相关的语音信息进行特征提取，以获取第一音频嵌入向量的同时，通过采用自然语言处理（Natural LanguageProcessing，NLP）通过将当前对话语句相关的语音信息转换成对应的文字信息后，对转换后的文字信息进行向量化，获取到对应的第一词向量（Word Embedding）。

其中，将文字信息转换成第一词向量的方式可以采用多种编码方式，大致分为两类，即离散表示和分布式表示，对此本发明不作具体地限定。

结合图2所示，将第一词向量输入至预先构建并训练好的文字识别子模型（即图2中的NET2），然后将NET2的输出也经过做句子级的Attention后，再经过全连接层（fullyconnected layers，FC），也获取到一个嵌入向量，并将该嵌入向量作为当前对话语句的第一词嵌入向量。

步骤103：融合第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量。

需要说明的是，可以适当的调整第一音频嵌入向量与第一词嵌入向量的维度，使得两者的维度相同，例如均调整至1*200。

结合图2所示，可以通过将第一音频嵌入向量和第一词嵌入向量同时输入至一个拼接层（Concat1）中，以将第一音频嵌入向量和第一词嵌入向量融合成一个第一融合特征向量。

需要说明的是，本发明并不对两个向量的融合方式作具体地限定，可以是将1*200的第一音频嵌入向量和第一词嵌入向量，简单融合成一个1*400的第一融合特征向量。

步骤104：基于第一融合特征向量，确定用户的当前情绪识别结果。

最后，将第一融合特征向量通过另一全连接层（如图2中的FC1）后，再经过分类器（Softmax）分类，取概率最大节点对应的类别，作为分类结果，即输出第一融合特征向量所对应的识别结果，该识别结果就是对话机器人对当前对话语句进行分析后所获取到的当前情绪识别结果。

本发明提供的情绪识别方法，提出了一种结合人机对话相关的语音和文字相关的音频特征以及词向量特征，进行用户情绪分类识别，克服了单一的基于语音或人脸图像进行情绪分类识别存在的信息损失的弊端，能够显著地提升情绪分类识别的精度。

基于上述实施例的内容，作为一种可选实施例，在融合所述第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量之前，还包括：获取在采集当前对话语句时用户的第一面部图像，将第一面部图像输入至图像识别子模型，以根据图像识别子模型的输出，确定第一图像嵌入向量；融合第一音频嵌入向量、第一词嵌入向量和第一图像嵌入向量，生成第二融合特征向量；基于第二融合特征向量，确定用户的当前情绪识别结果。

在之前的实施例中，对话机器人可以通过对当前对话语句相关的第一音频特征向量以及第一词向量进行综合分析确定出用户的当前情绪识别结果。但是，在某些机器人应用场合下，例如大堂引导机器人等，除了可以收集到用户的语音信息，同时也可以采集到用户实时的面部图像，因此可以综合利用语音、文字和图像等信息，进行更加准确的用户情绪识别。

有鉴于此，本发明提供的情绪识别方法，可以通过在机器人上增设相机，以在采集用户的当前对话语句的同时，采集用户的面部图像（在此称作第一面部图像）。

结合图2所示，在对第一面部图像进行预处理之后（如将尺寸转换成统一尺寸、去噪等），将其输入至预先构建并训练好的图像识别子模型（如图2中的NET3），然后将NET3的输出也经过做句子级的Attention后，再经过全连接层（fully connected layers，FC），获取到一个嵌入向量，并将该嵌入向量作为当前对话语句的第一图像嵌入向量。

进一步地，将对第一音频特征向量的处理结果第一音频嵌入向量，对第一词向量的处理结果第一词嵌入向量，以及对第一面部图像的处理结果第一图像嵌入向量，一起输入至拼接层（Concat2）中，以由第一音频嵌入向量、第一词嵌入向量和第一图像嵌入向量，融合成第二融合特征向量。

最后，通过全连接层（如图2中的FC2）对第二融合特征向量进行特征提取，并经过Softmax分类器分类，获取到用户的当前情绪识别结果。

需要说明的是，本发明并不对NET1、NET2、NET3的网络构建做具体地限定，可以采用现有的LSTM、CNN、Attention等深度学习方案搭建并训练后获取。

其中，利用Concat2对三个向量（第一音频嵌入向量、第一词嵌入向量和第一图像嵌入向量）进行融合的方式，可以采用向量拼接的方式实现。例如，在第一音频嵌入向量、第一词嵌入向量均为1*200、第一图像嵌入向量的维度为200*200的情况下，所生成的第二融合特征向量的维度为200*202。

本发明提供的情绪识别方法，通过将当前对话语句转换为文字，如果能同时采集到语音和图像数据，则分别将语音、文字、图像输入到如图2所示的模型结构中，各自的嵌入向量做Concat2拼接并经FC2作特征提取之后，由Softmax分类取概率最大节点对应的类别作为当前情绪识别结果，有效地融合用户在当前对话时的语音、语义以及形体等特征，能够有效地提升情绪识别结果的准确性。

基于上述实施例的内容，作为一种可选实施例，在将第一音频特征向量输入至音频识别子模型之前，还包括：

获取第二音频嵌入向量，第二音频嵌入向量是将当前对话语句的前一对话语句相关的第二音频特征向量输入至音频识别子模型后获取到的；融合第二音频嵌入向量和所述第一音频特征向量，生成第二音频特征向量；将第二音频特征向量输入至音频识别子模型，以根据音频识别子模型的输出，确定第三音频嵌入向量；

相应地，融合所述第三音频嵌入向量和第一词嵌入向量，生成第三融合特征向量，以基于第三融合特征向量，确定用户的当前情绪识别结果。

或者，融合第三音频嵌入向量、第一词嵌入向量和第一图像嵌入向量，生成第四融合特征向量，以基于第四融合特征向量，确定用户的当前情绪识别结果。

现有的基于语音的技术方案一般是“一句话情绪识别”，即没有充分的利用上下文信息，对于用户本身有一些特定的说话特点时，容易误判。

为便于表述，在仅做正常情绪和生气情绪两类判决的情况下，“一句话情绪识别”的实施通常会认为用户说话声音高时，倾向于认定当前情绪识别结果为生气情绪。而实际情况下，在当前对话语句具有足够的上下文信息时，说话声音变高，才更有可能认为用户当前处于生气情绪。

说话声音高是个绝对值，声音变高是个相对值，合理利用当前对话语句的上下文信息，尤其是前一对话语句，能使得对最终的情绪识别结果的判决更加准确。

另外，面部图像中也含有大量的情绪信息，人在情绪变化时，除了语音有变化之外，面部表情也是会变化的，故也可以结合用户在作出当前对话语句的前一对话语句时的面部图像，以结合用户的面部特征的变化，综合分析出用户的当前情绪识别结果，能够进一步确保最终获取到的当前情绪识别结果的准确性。

结合图2所示，本发明提供了一种利用用户对话时的历史信息（如前一对话语句相关的第二音频特征向量）的方法。

作为一种可选实施例，在根据用户的当前对话语句，确定出第一音频特征向量并将其输入至NET1之前，调取当前对话语句的前一对话语句所对应的第二音频嵌入向量。

其中，第二音频嵌入向量是在对上一情绪识别周期内，对将前一对话语句相关的语音信息输入至NET1后，再经过Attention以及FC层后获取到的。

然后，将由当前对话语句相关的语音信息处理获取到的第一音频特征向量，与对其前一对话语句进行处理后所生成的第二音频嵌入向量进行融合，融合后所生成的第二音频特征向量。

由于第二音频特征向量不仅融合了用户的当前对话语句的相关语音信息的特征，而且融合了用户的历史语音信息的特征，故将其用于判断用户的当前情绪，就能够有效地提升识别的精度。

具体地，将第二音频特征向量输入至NET1中，然后将NET1的输出通过做句子级的Attention后，经过全连接层FC，获取到一个嵌入向量（此处称作第三音频嵌入向量）。

进一步地，在仅能获取用户的语音信息，并根据语音信息确定用户的第一词嵌入向量，而并不能获取到用户的面部图像，进而获取第一图像嵌入向量的情况下，则将第三音频嵌入向量与第一词嵌入向量一起输入至Concat1中，以对这两个向量进行融合，所生成的向量称作第三融合特征向量。

最后，利用全连接层FC1对第三融合特征向量进行特征提取之后，经过Softmax分类器分类，最终获取到用户的当前情绪识别结果。

作为另一可选实施例，在不仅能获取用户的语音信息，以根据语音信息转换确定用户的第一词嵌入向量，且能获取到用户的面部图像，进而获取第一图像嵌入向量的情况下，则将第三音频嵌入向量与第一词嵌入向量以及第一图像嵌入向量一起输入至Concat1中，以对这三个向量进行融合，所生成的向量称作第四融合特征向量。

最后，利用全连接层FC1对第四融合特征向量进行特征提取之后，经过Softmax分类器分类，最终获取到用户的当前情绪识别结果。

本发明提供的情绪识别方法，在人机交互过程中，通过将用户的历史语音信息与用户的当前对话语句相关的语音信息、文字信息以及面部图像信息进行结合，能够更加准确的分辨出用户的当前情绪，这样用于人机对话的机器可以像人一样思考，以根据不同情绪给出不同的话术，使机器人建立起更加智能、立体的形象，进而可以提高用户的使用感受。

基于上述实施例的内容，作为一种可选实施例，在将第一词向量输入至文字识别子模型之前还包括：获取第二词嵌入向量，第二词嵌入向量是将当前对话语句的前一对话语句相关的第二词向量输入至所述文字识别子模型后获取到的。融合第二词嵌入向量和第一词向量，生成第二词向量；将第二词向量输入至所述文字识别子模型，以根据文字识别子模型的输出，确定第三词嵌入向量。

相应地，融合第三音频嵌入向量和所述第三词嵌入向量，生成第五融合特征向量，以基于第五融合特征向量，确定用户的当前情绪识别结果。

或者，融合第三音频嵌入向量、第三词嵌入向量和第一图像嵌入向量，生成第六融合特征向量，以基于第六融合特征向量，确定用户的当前情绪识别结果。

结合图2所示，本发明提供了一种利用用户对话时的历史信息（如前一对话语句相关的第二音频特征向量、第二词向量）的方法。

作为一种可选实施例，在根据用户的当前对话语句，确定出第一词向量并将其输入至NET2之前，调取当前对话语句的前一对话语句所对应的第二词嵌入向量。

其中，第二词嵌入向量是在对上一情绪识别周期内，对将前一对话语句相关的文字信息输入至NET2后，再经过Attention以及全连接层FC后获取到的。

然后，将由当前对话语句相关的文字信息处理获取到的第一词向量，与对其前一对话语句进行处理后所生成的第二词嵌入向量进行融合，融合后所生成的第二词向量。

由于第二词向量不仅融合了用户的当前对话语句的相关文字信息的特征，而且融合了用户的历史文字信息的特征，故将其用于判断用户的当前情绪，就能够有效地提升识别的精度。

具体地，将第二词向量输入至NET2中，然后将NET2的输出通过做句子级的Attention后，经过全连接层FC，获取到一个嵌入向量（此处称作第三词嵌入向量）。

进一步地，在仅能获取用户的语音信息，并根据语音信息确定用户的第一音频嵌入向量，进而还可以结合历史语音信息获取到第三音频嵌入向量的基础上，若不能获取到用户的面部图像，以获取第一图像嵌入向量的情况下，则将第三词嵌入向量与第三音频嵌入向量一起输入至Concat1中，以对这两个向量进行融合，所生成的向量称作第五融合特征向量。

最后，利用全连接层FC1对第五融合特征向量进行特征提取之后，经过Softmax分类器分类，最终获取到用户的当前情绪识别结果。

作为另一可选实施例，在不仅能获取用户的第三音频嵌入向量，且能获取到用户的面部图像，进而获取第一图像嵌入向量的情况下，则将第三音频嵌入向量与第三词嵌入向量以及第一图像嵌入向量一起输入至Concat1中，以对这三个向量进行融合，所生成的向量称作第六融合特征向量。

最后，利用全连接层FC1对第六融合特征向量进行特征提取之后，经过Softmax分类器分类，最终获取到用户的当前情绪识别结果。

基于上述实施例的内容，作为一种可选实施例，在将第一面部图像输入至图像识别子模型之前，还包括：获取第二图像嵌入向量，第二图像嵌入向量是将当前对话语句的前一对话语句相关的第二面部图像，输入至图像识别子模型后获取到的；融合第二图像嵌入向量和第一面部图像，生成第二面部图像；将第二面部图像输入至所述图像识别子模型，以根据图像识别子模型的输出，确定第三图像嵌入向量。

相应地，融合第三音频嵌入向量、第三词嵌入向量和第三图像嵌入向量，生成第七融合特征向量，以基于第七融合特征向量，确定用户的当前情绪识别结果。

结合图2所示，本发明提供了一种利用用户对话时的历史信息（如前一对话语句相关的第二音频特征向量、第二词向量、第二图像向量）的方法。

作为一种可选实施例，在将用户当前的第一面部图像其输入至NET3之前，调取当前对话语句的前一对话语句相关的第二面部图像（即用户说前一句话时的面部图像）相关的第二图像嵌入向量。

其中，第二图像嵌入向量是在对上一情绪识别周期内，对将前一对话语句相关的面部图像输入至NET3后，再经过Attention以及全连接层FC后获取到的。

然后，将由当前的第一面部图像与上述第二图像嵌入向量进行融合，融合后所生成的第二面部图像。

例如：第一面部图像的像素点维度是200*200，第二图像嵌入向量是1*200，则两者融合后的第二面部图像的维度则为201*200。

由于第二面部图像不仅融合了用户的当前面部图像所包含的图像特征，而且融合了用户的历史面部图像特征，故将其用于判断用户的当前情绪，就能够有效地提升识别的精度。

具体地，将第二面部图像输入至NET2中，然后将NET2的输出通过做句子级的Attention后，经过全连接层FC，获取到一个嵌入向量（此处称作第三图像嵌入向量）。

进一步地，在将第三图像嵌入向量与第三音频嵌入向量以及第三词嵌入向量一起输入至Concat1中，以对这三个向量进行融合，所生成的向量称作第七融合特征向量。

最后，利用全连接层FC1对第七融合特征向量进行特征提取之后，经过Softmax分类器分类，最终获取到用户的当前情绪识别结果。

基于上述实施例的内容，作为一种可选实施例，本发明提供的情绪识别方法，还包括：采集不同用户的对话语句样本，以及与每个对话语句样本相关的面部图像样本；分别为每个对话语句样本和所述面部图像样本标注一个情绪识别标签，以构建样本训练集；将样本训练集中的对话语句样本或面部图像样本，按照预设顺序逐次对音频识别子模型、文字识别子模型和图像识别子模型进行训练。

作为一种可选地模型预训练方法，可以预先采集不同用户在不同情绪下的对话语句样本，并在采集每个对话语句样本时，获取该用户的面部图像作为面部图像样本。然后，手动为每个对话语句样本以及面部图像样本标注一个情绪识别标签。

可选地，分别对每个对话语句样本进行处理，获取对应的文字样本，并也为每个对话语句样本标注对应的情绪识别标签。

进一步地，可以将所有的对话语句样本及其对应的情绪识别标签构建成第一样本训练子集，将所有的面部图像样本及其对应的情绪识别标签构建成第二样本训练子集，将所有的文字样本及其对应的情绪识别标签构建成第三样本训练子集。

最后，利用第一样本训练子集对NET1进行训练，利用第三样本训练子集对NET2进行训练，利用第二样本训练子集对NET3进行训练，直至上述3个网络模型的训练结果收敛为止。

作为另一种可选地模型预训练方法，在获取到对话语句样本集和面部图像样本集之后，手动为对话语句样本集中的每个对话语句样本以及面部图像样本集中的每一个面部图像样本，标注一个情绪识别标签。其中，将同一用户在同一采样时刻所采集的对话语句样本和面部图像样本标注同一情绪识别标签，并组成一个新的训练样本。

然后，直接利用所有新的训练样本所构成的样本集合，对由上述NET1、NET2和NET3所构成的模型集合进行预训练，直至模型集合的输出结果收敛为止。

作为一种可选实施例，在将上述所有样本训练集中的对话语句样本、面部图像样本以及文字样本，按照预设顺序逐次对音频识别子模型、文字识别子模型和图像识别子模型进行训练之后，包括：

在每轮训练之后，重新排布所述样本训练集中的对话语句样本以及面部图像样本的顺序，并利用重新排布后的样本训练集，重新对音频识别子模型（NET1）、文字识别子模型（NET2）和图像识别子模型（NET3）等进行训练。

为了有效提高网络模型训练的效果，增强训练后的NET1、NET2和NET3的泛化能力以及鲁棒性，本发明在实际训练时，会打乱各个样本的前后关系，以保证对不同对话上下文时的分类准确性。

图3是本发明提供的情绪识别装置的结构示意图，如图3所示，主要包括但不限于第一处理单元31、第二处理单元32、向量融合单元33和情绪识别单元34，其中：

第一处理单元31主要用于获取当前对话语句相关的第一音频特征向量，将所述第一音频特征向量输入至音频识别子模型，以根据所述音频识别子模型的输出，确定第一音频嵌入向量；

第二处理单元32主要用于获取所述当前对话语句相关的第一词向量，将所述第一词向量输入至文字识别子模型，以根据所述文字识别子模型的输出，确定第一词嵌入向量；

向量融合单元33主要用于融合所述第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量；

情绪识别单元34主要用于基于所述第一融合特征向量，确定用户的当前情绪识别结果。

需要说明的是，本发明实施例提供的情绪识别装置，在具体运行时，可以执行上述任一实施例所述的情绪识别方法，对此本实施例不作赘述。

本发明提供的情绪识别装置，提出了一种结合人机对话相关的语音和文字相关的音频特征以及词向量特征，进行用户情绪分类识别，克服了单一的基于语音或人脸图像进行情绪分类识别存在的信息损失的弊端，能够显著地提升情绪分类识别的精度。

作为另一可选实施例，本发明还提供了一种机器人，主要包括机器人本体，所述机器人本体中设置有情绪识别处理器和音频采集器，所述音频采集器设置于所述机器人本体上；所述音频采集器用于采集用户的当前对话语句；

还包括存储器及存储在所述存储器上并可在所述情绪识别处理器上运行的程序或指令，所述程序或指令被所述情绪识别处理器执行时执行如上述实施例中的任一情绪识别方法的步骤。

可选地，在上述机器人上还设置有相机，所述相机置于所述机器人本体的顶部，用于同步采集所述用户的第一面部图像。

本发明提供的机器人，采用了一种结合人机对话相关的语音和文字相关的音频特征以及词向量特征，进行用户情绪分类识别，克服了单一的基于语音或人脸图像进行情绪分类识别存在的信息损失的弊端，能够显著地提升情绪分类识别的精度。

图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器（processor）410、通信接口（Communications Interface）420、存储器（memory）430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行情绪识别方法，该方法包括：获取当前对话语句相关的第一音频特征向量，将第一音频特征向量输入至音频识别子模型，以根据音频识别子模型的输出，确定第一音频嵌入向量；获取当前对话语句相关的第一词向量，将第一词向量输入至文字识别子模型，以根据文字识别子模型的输出，确定第一词嵌入向量；融合第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量；基于第一融合特征向量，确定用户的当前情绪识别结果。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的情绪识别方法，该方法包括：获取当前对话语句相关的第一音频特征向量，将第一音频特征向量输入至音频识别子模型，以根据音频识别子模型的输出，确定第一音频嵌入向量；获取当前对话语句相关的第一词向量，将第一词向量输入至文字识别子模型，以根据文字识别子模型的输出，确定第一词嵌入向量；融合第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量；基于第一融合特征向量，确定用户的当前情绪识别结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的情绪识别方法，该方法包括：获取当前对话语句相关的第一音频特征向量，将第一音频特征向量输入至音频识别子模型，以根据音频识别子模型的输出，确定第一音频嵌入向量；获取当前对话语句相关的第一词向量，将第一词向量输入至文字识别子模型，以根据文字识别子模型的输出，确定第一词嵌入向量；融合第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量；基于第一融合特征向量，确定用户的当前情绪识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种情绪识别方法，其特征在于，包括：

基于所述第一融合特征向量，确定用户的当前情绪识别结果；

在融合所述第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量之前，还包括：

基于所述第二融合特征向量，确定所述用户的当前情绪识别结果；

在将所述第一音频特征向量输入至音频识别子模型之前，还包括：

或者，融合所述第三音频嵌入向量、所述第一词嵌入向量和所述第一图像嵌入向量，生成第四融合特征向量，以基于所述第四融合特征向量，确定用户的当前情绪识别结果；

在将所述第一词向量输入至文字识别子模型之前还包括：

或者，融合所述第三音频嵌入向量、所述第三词嵌入向量和所述第一图像嵌入向量，生成第六融合特征向量，以基于所述第六融合特征向量，确定用户的当前情绪识别结果；

在将所述第一面部图像输入至图像识别子模型之前，还包括：

2.根据权利要求1所述的情绪识别方法，其特征在于，还包括：采集不同用户的对话语句样本，以及与每个所述对话语句样本相关的面部图像样本；

3.根据权利要求2所述的情绪识别方法，其特征在于，将所述样本训练集中的对话语句样本或面部图像样本，按照预设顺序逐次对所述音频识别子模型、所述文字识别子模型和所述图像识别子模型进行训练之后，包括：

4.一种情绪识别装置，其特征在于，包括：

情绪识别单元，用于基于所述第一融合特征向量，确定用户的当前情绪识别结果；

所述向量融合单元在融合所述第一音频嵌入向量和所述第一词嵌入向量，生成第一融合特征向量之前，还包括：

所述向量融合单元在将所述第一音频特征向量输入至音频识别子模型之前，还包括：

所述第二处理单元在将所述第一词向量输入至文字识别子模型之前还包括：

所述向量融合单元在将所述第一面部图像输入至图像识别子模型之前，还包括：

5.一种机器人，其特征在于，包括机器人本体，所述机器人本体中设置有情绪识别处理器和音频采集器，所述音频采集器设置于所述机器人本体上；所述音频采集器用于采集用户的当前对话语句；

还包括存储器及存储在所述存储器上并在所述情绪识别处理器上运行的程序或指令，所述程序或指令被所述情绪识别处理器执行时执行如权利要求1至3任一项所述情绪识别方法的步骤。

6.根据权利要求5所述的机器人，其特征在于，还包括相机，所述相机置于所述机器人本体的顶部，用于同步采集所述用户的第一面部图像。