CN114582373A

CN114582373A - 用于在人机对话中识别用户情绪的方法及装置

Info

Publication number: CN114582373A
Application number: CN202210215326.0A
Authority: CN
Inventors: 徐涛
Original assignee: Zhejiang Lianxin Technology Co ltd
Current assignee: Zhejiang Lianxin Technology Co ltd
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-03

Abstract

本公开的实施例提供一种用于在人机对话中识别用户情绪的方法和装置。该方法包括：获取第一语音数据，其中，第一语音数据为用户在本轮的语音数据；从第一语音数据中提取表征情绪的第一音频特征和表征情绪的第一文本特征；获取第二文本特征和第二音频特征中的至少一个，其中，第二文本特征为用户在前N轮中的各轮中的文本特征的加权和，第二音频特征为用户在前N轮中的各轮中的音频特征的加权和，其中，N为正整数；将第一音频特征、第一文本特征、以及第二文本特征和第二音频特征中的至少一个拼接成拼接特征；以及通过经训练的多模态模型基于拼接特征来识别用户在本轮的第一情绪。

Description

用于在人机对话中识别用户情绪的方法及装置

技术领域

本公开的实施例涉及计算机技术领域，具体地，涉及用于在人机对话中识别用户情绪的方法及装置。

背景技术

在心理学上，可以将人的情绪分为喜悦、愤怒、悲伤、恐惧、厌恶、惊奇、羡慕等七大类型。当用户和机器人在做人机交互的时候，机器人可针对用户当前输入的文本数据，识别用户当前的情绪，以给出适合的互动内容。这样可以提高用户在人机交互过程中的体验。

发明内容

本文中描述的实施例提供了一种用于在人机对话中识别用户情绪的方法、装置以及存储有计算机程序的计算机可读存储介质。

根据本公开的第一方面，提供了一种用于在人机对话中识别用户情绪的方法。该方法包括：获取第一语音数据，其中，第一语音数据为用户在本轮的语音数据；从第一语音数据中提取表征情绪的第一音频特征和表征情绪的第一文本特征；获取第二文本特征和第二音频特征中的至少一个，其中，第二文本特征为用户在前N轮中的各轮中表征情绪的文本特征的加权和，第二音频特征为用户在前N轮中的各轮中表征情绪的音频特征的加权和，其中，N为正整数；将第一音频特征、第一文本特征、以及第二文本特征和第二音频特征中的至少一个拼接成拼接特征；以及通过经训练的多模态模型基于拼接特征来识别用户在本轮的第一情绪。

在本公开的一些实施例中，在第二文本特征中各个文本特征的权重按照时间顺序依次递增。

在本公开的一些实施例中，在第二音频特征中各个音频特征的权重按照时间顺序依次递增。

在本公开的一些实施例中，方法还包括：获取第一视频数据，其中，第一视频数据包括用户在本轮的面部图像数据；从第一视频数据中提取表征情绪的第一图像特征；以及将第一图像特征拼接到拼接特征中。

在本公开的一些实施例中，方法还包括：获取第二图像特征，其中，第二图像特征为用户在前N轮中的各轮中表征情绪的图像特征的加权和；以及将第二图像特征拼接到拼接特征中。

在本公开的一些实施例中，方法还包括：获取第一生理特征数据，其中，第一生理特征数据为用户在本轮的生理特征数据；从第一生理特征数据中提取表征情绪的第一生理特征；以及将第一生理特征拼接到拼接特征中。

在本公开的一些实施例中，方法还包括：获取第二生理特征，其中，第二生理特征为用户在前N轮中的各轮中表征情绪的生理特征的加权和；以及将第二生理特征拼接到拼接特征中。

在本公开的一些实施例中，用户情绪包括情绪类别和情绪强度，情绪强度包括多个情绪强度等级，方法还包括：获取用户在前N轮中的各轮中的多个第二情绪；响应于多个第二情绪的情绪类别与第一情绪的情绪类别相同，根据多个第二情绪的情绪强度等级确定情绪强度等级变化曲线；以及响应于所确定的情绪强度等级变化曲线与预设的多个情绪强度等级变化曲线中的一个相同，根据所确定的情绪强度等级变化曲线来预测用户在本轮的情绪强度，以及基于所预测的情绪强度来调整第一情绪的情绪强度。

在本公开的一些实施例中，方法还包括：响应于多个第二情绪的情绪类别与第一情绪的情绪类别相同，根据多个第二情绪的情绪强度等级和第一情绪的情绪强度等级来预测情绪强度发展趋势；以及基于用户的第一情绪和所预测的情绪强度发展趋势来提供对用户的答复。

根据本公开的第二方面，提供了一种用于在人机对话中识别用户情绪的装置。该装置包括至少一个处理器；以及存储有计算机程序的至少一个存储器。当计算机程序由至少一个处理器执行时，使得装置获取第一语音数据，其中，第一语音数据为用户在本轮的语音数据；从第一语音数据中提取表征情绪的第一音频特征和表征情绪的第一文本特征；获取第二文本特征和第二音频特征中的至少一个，其中，第二文本特征为用户在前N轮中的各轮中表征情绪的文本特征的加权和，第二音频特征为用户在前N轮中的各轮中表征情绪的音频特征的加权和，其中，N为正整数；将第一音频特征、第一文本特征、以及第二文本特征和第二音频特征中的至少一个拼接成拼接特征；以及通过经训练的多模态模型基于拼接特征来识别用户在本轮的第一情绪。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置还：获取第一视频数据，其中，第一视频数据包括用户在本轮的面部图像数据；从第一视频数据中提取表征情绪的第一图像特征；以及将第一图像特征拼接到拼接特征中。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置还：获取第二图像特征，其中，第二图像特征为用户在前N轮中的各轮中表征情绪的图像特征的加权和；以及将第二图像特征拼接到拼接特征中。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置还：获取第一生理特征数据，其中，第一生理特征数据为用户在本轮的生理特征数据；从第一生理特征数据中提取表征情绪的第一生理特征；以及将第一生理特征拼接到拼接特征中。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置还：获取第二生理特征，其中，第二生理特征为用户在前N轮中的各轮中表征情绪的生理特征的加权和；以及将第二生理特征拼接到拼接特征中。

在本公开的一些实施例中，用户情绪包括情绪类别和情绪强度，情绪强度包括多个情绪强度等级，计算机程序在由至少一个处理器执行时使得装置还：获取用户在前N轮中的各轮中的多个第二情绪；响应于多个第二情绪的情绪类别与第一情绪的情绪类别相同，根据多个第二情绪的情绪强度等级确定情绪强度等级变化曲线；以及响应于所确定的情绪强度等级变化曲线与预设的多个情绪强度等级变化曲线中的一个相同，根据所确定的情绪强度等级变化曲线来预测用户在本轮的情绪强度，以及基于所预测的情绪强度来调整第一情绪的情绪强度。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置还：响应于多个第二情绪的情绪类别与第一情绪的情绪类别相同，根据多个第二情绪的情绪强度等级和第一情绪的情绪强度等级来预测情绪强度发展趋势；以及基于用户的第一情绪和所预测的情绪强度发展趋势来提供对用户的答复。

根据本公开的第三方面，提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时实现根据本公开的第一方面所述的方法的步骤。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例的附图进行简要说明，应当知道，以下描述的附图仅仅涉及本公开的一些实施例，而非对本公开的限制，其中：

图1是根据本公开的实施例的用于在人机对话中识别用户情绪的方法的示例性流程图；

图2是根据本公开的实施例的用于在人机对话中识别用户情绪的进一步的步骤的示例性流程图；以及

图3是根据本公开的实施例的用于在人机对话中识别用户情绪的装置的示意性框图。

附图中的元素是示意性的，没有按比例绘制。

具体实施方式

为了使本公开的实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本公开的实施例的技术方案进行清楚、完整的描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例，也都属于本公开保护的范围。

除非另外定义，否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是，诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义，并且将不以理想化或过于正式的形式来解释，除非在此另外明确定义。另外，诸如“第一”和“第二”的术语仅用于将一个部件(或部件的一部分)与另一个部件(或部件的另一部分)区分开。

在人机对话中，机器人如果仅根据用户输入的文字来确定用户的情绪难免出现误解。例如，“今天天气真好啊”，可以是称赞天气好，也可以是反语，无奈地表达天气不好。因此，在一些人机交互场景中，可以允许用户直接说出其要表达的内容。这样机器人不仅可获得用户说话的内容，还可获得用户说话的语音数据，从而提取出用户的音频特征。机器人可根据用户说话的内容确定用户的文本情绪标签，再根据用户说话的语音确定用户的语音情绪标签，然后结合文本情绪标签和语音情绪标签来确定综合情绪标签。然而，在该方案中，文本情绪标签的确定过程与语音情绪标签的确定过程是相互独立的，没有利用文本特征与语音特征之间的关联来确定综合情绪标签。在一些情况下，文本情绪标签与语音情绪标签的差异可能较大，如果任一个模型所识别的情绪标签不准确，都可能导致综合情绪标签不准确。此外，上述方案往往只是对一个句子所表达的情绪做分析，没有在人机对话的过程中分析上下文语境所表达的情绪，因此所识别的情绪也可能不准确。

图1示出了根据本公开的实施例的用于在人机对话中识别用户情绪的方法的示例性流程图。在人机对话中可包括多轮对话。每轮对话包括用户的发言和机器人的回复。

在图1的框S102处，获取第一语音数据，其中，第一语音数据为用户在本轮的语音数据。在本公开的一些实施例中，第一语音数据可例如通过麦克风实时采集。在本公开的另一些实施例中，第一语音数据可例如通过读取用户发送的音频文件来获取。

在框S104处，从第一语音数据中提取表征情绪的第一音频特征和表征情绪的第一文本特征。在本公开的一些实施例中，可例如通过多模态特征提取器来同时提取第一语音数据中表征情绪的第一音频特征和表征情绪的第一文本特征。该多模态特征提取器例如是Transformer模型。在本公开的另一些实施例中，可例如通过音频特征提取器来提取第一语音数据中表征情绪的第一音频特征。采用自然语言处理(NLP)技术来将第一语音数据转换为第一文本数据。然后通过文本特征提取器来提取第一文本数据中表征情绪的第一文本特征。

在本公开的一些实施例中，可对第一语音数据执行如下操作以提取第一音频特征：预加重、分帧、加窗、离散傅利叶变换(FFT)、通过梅尔滤波器、对数运算、离散余弦变换(DCT)。

第一音频特征例如是以下中的一个或多个：能量(energy，E)、过零率(ZCR)、基本频率(F0)、第一共振峰(FF)、梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)、短时平均值幅度(SAM)等，以及它们的统计信息，例如最大值(Max)、最小值(Min)、均值，方差(Var)、一阶差(FOD)、变化率(RC)、幅度扰动参数等。在一个示例中，第一音频特征至少包括从基本频率曲线提取的MFCC特征和从短时平均值幅度曲线提取的幅度扰动参数。

在本公开的一些实施例中，第一文本特征例如是表达情绪的词所形成的词向量。

在框S106处，获取第二文本特征和第二音频特征中的至少一个。其中，第二文本特征为用户在前N轮中的各轮中表征情绪的文本特征的加权和，第二音频特征为用户在前N轮中的各轮中表征情绪的音频特征的加权和。其中，N为正整数。在一个示例中，N的值可以是经验值。N的值的选择可以是对运算量和情绪识别准确度的权衡结果。

在本公开的一些实施例中，在第二文本特征中各个文本特征的权重按照时间顺序依次递增。这样可以在第二文本特征中更多地考虑最近几轮对话的内容所表达的情绪。在本公开的一些实施例中，在第二音频特征中各个音频特征的权重按照时间顺序依次递增。这样可以在第二音频特征中更多地考虑最近几轮对话的语气所表达的情绪。

在框S108处，将第一音频特征、第一文本特征、以及第二文本特征和第二音频特征中的至少一个拼接成拼接特征。在本公开的一些实施例中，将第一音频特征、第一文本特征、以及第二文本特征拼接成拼接特征。在本公开的另一些实施例中，将第一音频特征、第一文本特征、以及第二音频特征拼接成拼接特征。在本公开的又一些实施例中，将第一音频特征、第一文本特征、以及第二文本特征和第二音频特征拼接成拼接特征。

在本公开的一些实施例中，在拼接特征中，第一音频特征、第一文本特征、以及第二文本特征和第二音频特征中的至少一个的顺序可以是任意的，也可以根据经验值来设置。在本公开的一些实施例中，第一音频特征的维度、第一文本特征的维度、以及第二文本特征和第二音频特征中的至少一个的维度可以是不同的。

进一步地，除了通过用户发言的音频特征和文本特征来确定用户的情绪，还可以通过用户的面部表情和/或生理特征来确定用户的情绪。

在本公开的一些实施例中，可获取第一视频数据。其中，第一视频数据包括用户在本轮的面部图像数据。然后，从第一视频数据中提取表征情绪的第一图像特征。例如，用户在喜悦的时候会嘴角上扬，在生气的时候会皱眉。因此这些图像特征可以表征用户的情绪。第一图像特征可被拼接到拼接特征中。这样拼接特征进一步包括第一图像特征。

在本公开的一些实施例中，可获取第二图像特征。其中，第二图像特征为用户在前N轮中的各轮中表征情绪的图像特征的加权和。然后可将第二图像特征拼接到拼接特征中。在本公开的一些实施例中，在第二图像特征中各个图像特征的权重按照时间顺序依次递增。这样可以在第二图像特征中更多地考虑用户在最近几轮对话中的表情所表达的情绪。

在本公开的一些实施例中，可获取第一生理特征数据。第一生理特征数据为用户在本轮的生理特征数据。从第一生理特征数据中提取表征情绪的第一生理特征。例如，用户在情绪强烈的时候会心跳加快、血压升高，而在情绪平静的时候则心跳和血压正常。因此心跳、血压等生理特征可以表征用户的情绪。第一生理特征可被拼接到拼接特征中。

在本公开的一些实施例中，可获取第二生理特征。其中，第二生理特征为用户在前N轮中的各轮中表征情绪的生理特征的加权和。然后可将第二生理特征拼接到拼接特征中。在本公开的一些实施例中，在第二生理特征中各个生理特征的权重按照时间顺序依次递增。这样可以在第二生理特征中更多地考虑用户在最近几轮对话中的生理特征所反映的情绪。

在框S110处，通过经训练的多模态模型基于拼接特征来识别用户在本轮的第一情绪。在本公开的一些实施例中，该多模态模型是多模态情绪分类模型。可使用有监督训练方法来训练该多模态模型。

如上所述，拼接特征可包括：第一音频特征、第一文本特征、以及第二文本特征和第二音频特征中的至少一个。这样，用户在本轮的语气和语义以及在前N轮中的语气和/或语义可被用于识别用户在本轮的情绪。进一步地，拼接特征还可包括第一视频数据、第二视频数据、第一生理特征数据和第二生理特征数据中的一个或多个。这样，用户在本轮对话以及历史对话中的面部表情和/或生理特征也可以被用于识别情绪。

本公开的实施例可综合用户的多模态特征来识别用户的情绪，这些特征被相互关联，因此能够更准确地识别用户的情绪。

图2示出根据本公开的实施例的用于在人机对话中识别用户情绪的进一步的步骤的示例性流程图。在本公开的一些实施例中，用户情绪可包括情绪类别和情绪强度。情绪类别例如是：喜悦、愤怒、悲伤、恐惧、厌恶、惊奇、羡慕等。情绪强度可包括多个情绪强度等级。例如情绪强度可包括：a、b、c、d、e五个等级。这五个等级代表的情绪强度按照a到e的顺序依次递增。等级a表示强度最弱，等级e表示强度最强。

在图2的框S202处，可获取用户在前N轮中的各轮中的多个第二情绪。第二情绪可被理解成用户的历史情绪。

在框S204处确定多个第二情绪的情绪类别与用户在本轮的第一情绪的情绪类别是否相同。如果多个第二情绪的情绪类别与用户在本轮的第一情绪的情绪类别相同(在框S204处为“是”)，则说明用户的情绪与之前大致相同。过程进行到框S206，根据多个第二情绪的情绪强度等级确定情绪强度等级变化曲线。所确定的情绪强度等级变化曲线例如是：a、a、b、c；a、c、b、a；e、d、c、b；e、a、c、a等等。

可根据在大量人机对话中由人工记录的用户情绪的统计信息，预先设定多个情绪强度等级变化曲线。预设的多个情绪强度等级变化曲线例如是：a、b、c、d；a、b、c、e；b、c、d、e；c、d、e、d等等。在一个示例中，预设的多个情绪强度等级变化曲线可以是情绪强度所包括的多个情绪强度等级的所有排列组合所构成的变化曲线。根据上述统计信息，可知道预设的每个情绪强度等级变化曲线在下一轮中对应的情绪强度等级。

在框S208处，判断所确定的情绪强度等级变化曲线是否与预设的多个情绪强度等级变化曲线中的一个相同(匹配)。如果所确定的情绪强度等级变化曲线与预设的多个情绪强度等级变化曲线中的一个相同(在框S208处为“是”)，则在框S210处可根据所确定的情绪强度等级变化曲线来预测用户在本轮的情绪强度。所预测的情绪强度可以是所匹配的情绪强度等级变化曲线在下一轮中对应的情绪强度等级。

然后，在框S212处可基于所预测的情绪强度来调整第一情绪的情绪强度。例如，第一情绪的情绪强度可被调整为其与所预测的情绪强度的加权和。在一个示例中，如果第一情绪的情绪强度为e，而所预测的情绪强度为c，则第一情绪的情绪强度可被调整成e和c的中间值d。

如果多个第二情绪的情绪类别与用户在本轮的第一情绪的情绪类别不相同(在框S204处为“否”)，则说明用户的情绪转变的太快，不适合使用用户的第二情绪来调整用户的第一情绪。在这种情况下，过程进行到框S214，结束过程处理。

如果所确定的情绪强度等级变化曲线与预设的多个情绪强度等级变化曲线均不相同(在框S208处为“是”)，则过程进行到框S214，结束过程处理。

进一步地，在本公开的一些实施例中，如果多个第二情绪的情绪类别与第一情绪的情绪类别相同，则根据多个第二情绪的情绪强度等级和第一情绪的情绪强度等级来预测情绪强度发展趋势。在一个示例中，可根据统计信息来预测情绪强度发展趋势。在另一个示例中，可计算多个第二情绪和第一情绪中的每两个(在时间上)相邻的情绪强度等级的差值，并通过该差值的平均值来预测情绪强度发展趋势。如果该平均值为正数，则表示情绪强度将增强。如果该平均值为负数，则表示情绪强度将减弱。

然后，可基于用户的第一情绪和所预测的情绪强度发展趋势来提供对用户的答复。在一个示例中，如果用户的第一情绪是等级c的愤怒，而所预测的情绪强度发展趋势是增强，那么就需要在对用户的答复中增加更多抚平用户情绪的表达，以免用户的愤怒升级。

图3示出根据本公开的实施例的用于在人机对话中识别用户情绪的装置300的示意性框图。如图3所示，该装置300可包括处理器310和存储有计算机程序的存储器320。当计算机程序由处理器310执行时，使得装置300可执行如图1所示的方法100的步骤。在一个示例中，装置300可以是计算机设备或云计算节点。装置300可获取第一语音数据。其中，第一语音数据为用户在本轮的语音数据。装置300可从第一语音数据中提取表征情绪的第一音频特征和表征情绪的第一文本特征。装置300可获取第二文本特征和第二音频特征中的至少一个。其中，第二文本特征为用户在前N轮中的各轮中表征情绪的文本特征的加权和，第二音频特征为用户在前N轮中的各轮中表征情绪的音频特征的加权和。其中，N为正整数。装置300可将第一音频特征、第一文本特征、以及第二文本特征和第二音频特征中的至少一个拼接成拼接特征。装置300可通过经训练的多模态模型基于拼接特征来识别用户在本轮的第一情绪。

在本公开的一些实施例中，装置300可获取第一视频数据。其中，第一视频数据包括用户在本轮的面部图像数据。装置300可从第一视频数据中提取表征情绪的第一图像特征。装置300可将第一图像特征拼接到拼接特征中。

在本公开的一些实施例中，装置300可获取第二图像特征。其中，第二图像特征为用户在前N轮中的各轮中表征情绪的图像特征的加权和。装置300可将第二图像特征拼接到拼接特征中。

在本公开的一些实施例中，装置300可获取第一生理特征数据。其中，第一生理特征数据为用户在本轮的生理特征数据。装置300可从第一生理特征数据中提取表征情绪的第一生理特征。装置300可将第一生理特征拼接到拼接特征中。

在本公开的一些实施例中，装置300可获取第二生理特征。其中，第二生理特征为用户在前N轮中的各轮中表征情绪的生理特征的加权和。装置300可将第二生理特征拼接到拼接特征中。

在本公开的一些实施例中，用户情绪包括情绪类别和情绪强度，情绪强度包括多个情绪强度等级。装置300可获取用户在前N轮中的各轮中的多个第二情绪。响应于多个第二情绪的情绪类别与第一情绪的情绪类别相同，装置300可根据多个第二情绪的情绪强度等级确定情绪强度等级变化曲线。响应于所确定的情绪强度等级变化曲线与预设的多个情绪强度等级变化曲线中的一个相同，装置300可根据所确定的情绪强度等级变化曲线来预测用户在本轮的情绪强度，以及基于所预测的情绪强度来调整第一情绪的情绪强度。

在本公开的一些实施例中，响应于多个第二情绪的情绪类别与第一情绪的情绪类别相同，装置300可根据多个第二情绪的情绪强度等级和第一情绪的情绪强度等级来预测情绪强度发展趋势，以及基于用户的第一情绪和所预测的情绪强度发展趋势来提供对用户的答复。

在本公开的实施例中，处理器310可以是例如中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、基于多核的处理器架构的处理器等。存储器320可以是使用数据存储技术实现的任何类型的存储器，包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。

此外，在本公开的实施例中，装置300也可包括输入设备330，例如麦克风、键盘、鼠标、摄像头、生理特征检测仪器等，用于输入用户的音频、视频和生理特征数据。另外，装置300还可包括输出设备340，例如扩音器、显示器等，用于输出机器人的回复。

在本公开的其它实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时能够实现如图1至图2所示的方法的步骤。

综上所述，本公开的实施例可综合用户的多模态特征来识别用户的情绪，这些特征被相互关联，因此能够更准确地识别用户的情绪。进一步地，本公开的实施例还能够根据用户的情绪强度等级变化曲线来预测用户在本轮的情绪强度，从而从更多维度来调整所识别的用户情绪，以进一步提高对用户情绪识别的准确度。此外，本公开的实施例还能够预测用户的情绪强度发展趋势，并基于用户情绪和所预测的情绪强度发展趋势来回复用户，以提供更周到的人机对话。

附图中的流程图和框图显示了根据本公开的多个实施例的装置和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

除非上下文中另外明确地指出，否则在本文和所附权利要求中所使用的词语的单数形式包括复数，反之亦然。因而，当提及单数时，通常包括相应术语的复数。相似地，措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地，术语“包括”和“或”应当解释为包括在内的，除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处，特别是当其位于一组术语之后时，所述“示例”仅仅是示例性的和阐述性的，且不应当被认为是独占性的或广泛性的。

适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解，本申请的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解，本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本申请的范围。

以上对本公开的若干实施例进行了详细描述，但显然，本领域技术人员可以在不脱离本公开的精神和范围的情况下对本公开的实施例进行各种修改和变型。本公开的保护范围由所附的权利要求限定。

Claims

1.一种用于在人机对话中识别用户情绪的方法，包括：

获取第一语音数据，其中，所述第一语音数据为用户在本轮的语音数据；

从所述第一语音数据中提取表征情绪的第一音频特征和表征情绪的第一文本特征；

获取第二文本特征和第二音频特征中的至少一个，其中，所述第二文本特征为所述用户在前N轮中的各轮中表征情绪的文本特征的加权和，所述第二音频特征为所述用户在所述前N轮中的各轮中表征情绪的音频特征的加权和，其中，N为正整数；

将所述第一音频特征、所述第一文本特征、以及所述第二文本特征和所述第二音频特征中的所述至少一个拼接成拼接特征；以及

通过经训练的多模态模型基于所述拼接特征来识别所述用户在本轮的第一情绪。

2.根据权利要求1所述的方法，其中，在所述第二文本特征中各个文本特征的权重按照时间顺序依次递增，和/或，在所述第二音频特征中各个音频特征的权重按照时间顺序依次递增。

3.根据权利要求1所述的方法，还包括：

获取第一视频数据，其中，所述第一视频数据包括所述用户在本轮的面部图像数据；

从所述第一视频数据中提取表征情绪的第一图像特征；以及

将所述第一图像特征拼接到所述拼接特征中。

4.根据权利要求3所述的方法，还包括：

获取第二图像特征，其中，所述第二图像特征为所述用户在所述前N轮中的各轮中表征情绪的图像特征的加权和；以及

将所述第二图像特征拼接到所述拼接特征中。

5.根据权利要求1至4中任一项所述的方法，还包括：

获取第一生理特征数据，其中，所述第一生理特征数据为所述用户在本轮的生理特征数据；

从所述第一生理特征数据中提取表征情绪的第一生理特征；以及

将所述第一生理特征拼接到所述拼接特征中。

6.根据权利要求5所述的方法，还包括：

获取第二生理特征，其中，所述第二生理特征为所述用户在所述前N轮中的各轮中表征情绪的生理特征的加权和；以及

将所述第二生理特征拼接到所述拼接特征中。

7.根据权利要求1所述的方法，其中，所述用户情绪包括情绪类别和情绪强度，所述情绪强度包括多个情绪强度等级，所述方法还包括：

获取所述用户在所述前N轮中的各轮中的多个第二情绪；

响应于所述多个第二情绪的情绪类别与所述第一情绪的情绪类别相同，根据所述多个第二情绪的情绪强度等级确定情绪强度等级变化曲线；以及

响应于所确定的情绪强度等级变化曲线与预设的多个情绪强度等级变化曲线中的一个相同，根据所确定的情绪强度等级变化曲线来预测所述用户在本轮的情绪强度，以及基于所预测的情绪强度来调整所述第一情绪的情绪强度。

8.根据权利要求7所述的方法，还包括：

响应于所述多个第二情绪的情绪类别与所述第一情绪的情绪类别相同，

根据所述多个第二情绪的情绪强度等级和所述第一情绪的情绪强度等级来预测情绪强度发展趋势；以及

基于所述用户的所述第一情绪和所预测的情绪强度发展趋势来提供对所述用户的答复。

9.一种用于在人机对话中识别用户情绪的装置，包括：

至少一个处理器；以及

存储有计算机程序的至少一个存储器；

其中，当所述计算机程序由所述至少一个处理器执行时，使得所述装置执行根据权利要求1至8中任一项所述的方法的步骤。

10.一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序在由处理器执行时实现根据权利要求1至8中任一项所述的方法的步骤。