CN117333913A

CN117333913A - 识别情绪类别的方法、装置、存储介质及电子设备

Info

Publication number: CN117333913A
Application number: CN202210730887.4A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2024-01-02
Also published as: WO2023246076A1

Abstract

本公开提供了一种识别情绪类别的方法、装置、计算机程序产品、非暂时性计算机可读存储介质及电子设备，该方法包括：获取对象的多个维度的特征；对每一维度的特征进行第一识别，得到每一维度的情绪类别集合，其中所述情绪类别集合中的每一情绪类别具有对应的置信度；以及基于至少一个维度的所述情绪类别集合和所述情绪类别集合中的每一情绪类别具有对应的置信度，确定用于输出的情绪类别。根据本公开提供的实施例，可以通过利用与情绪相关的多个维度的信息数据，从而提高情绪类别识别结果的准确性。

Description

识别情绪类别的方法、装置、存储介质及电子设备

技术领域

本公开总体上涉及人工智能技术领域，更具体地涉及一种识别情绪类别的方法、装置、计算机程序产品、非暂时性计算机可读存储介质及电子设备。

背景技术

本部分旨在介绍本领域的一些方面，其可以与下面描述的和/或要求保护的本公开的各个方面相关。相信本部分有助于提供背景信息以便于更好地理解本公开的各个方面。因此，应该理解的是这些陈述应该从这个角度来理解，而不是作为对现有技术的承认。

目前对于人类情绪识别的方案主要有两种：第一种方案是利用机器学习算法对图像进行识别，分析和解释图像中蕴含的情绪；第二种方案是利用计算机视觉技术将图像中的正面脸部轮廓提取出点位数据，对点位数据进行分析判断。

但是，第一种方案只能利用单一维度的图像数据，无法利用图像数据之外的信息数据，从而导致识别结果准确度低。第二种方案对非正面脸部的点云数据的识别结果准确度低，且由于每个人天生长相的差别，有些人经过点云数据的分析可能被识别为愤怒情绪，但实际上却是兴奋情绪，因此识别的结果不准确。

发明内容

本公开的目的在于提供一种识别情绪类别的方法、装置、计算机程序产品、非暂时性计算机可读存储介质及电子设备，以提高情绪类别识别结果的准确性。

根据本公开的第一方面，提供了一种识别情绪类别的方法，包括：获取对象的多个维度的特征；对每一维度的特征进行第一识别，得到每一维度的情绪类别集合，其中所述情绪类别集合中的每一情绪类别具有对应的置信度；以及基于至少一个维度的所述情绪类别集合和所述情绪类别集合中的每一情绪类别具有对应的置信度，确定用于输出的情绪类别。

根据本公开的第二方面，提供了一种识别情绪类别的装置，包括：获取模块，其配置为获取对象的多个维度的特征；第一识别模块，其配置为对每一维度的特征进行第一识别，得到每一维度的情绪类别集合，其中所述情绪类别集合中的每一情绪类别具有对应的置信度；以及第一确定模块，其配置为基于至少一个维度的所述情绪类别集合和所述情绪类别集合中的每一情绪类别具有对应的置信度，确定用于输出的情绪类别。

根据本公开的第三方面，提供了一种计算机程序产品，包括程序代码指令，当所述程序产品由计算机执行时，所述程序代码指令使所述计算机执行根据本公开的第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非暂时性计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开的第一方面所述的方法。

根据本公开的第五方面，提供了一种电子设备，包括：处理器，与所述处理器进行电子通信的存储器；以及指令，所述指令存储在所述存储器中并且可由所述处理器执行以使所述电子设备执行根据本公开的第一方面所述的方法。

根据本公开提供的实施例，可以通过利用与情绪相关的多个维度的信息数据，从而提高情绪类别识别结果的准确性。

应当理解，本部分所描述的内容并不旨在标识所要求保护的发明内容的关键或必要特征，也不旨在单独地用于确定所要求保护的发明内容的范围。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的用同一个表情表达多种情绪的一个示例。

图2示出了根据本公开的通过神经网络模型对情绪进行识别的概念性示意图。

图3-1示出了根据本公开实施例的识别情绪类别的方法的流程图。

图3-2示出了根据本公开实施例的识别情绪类别的方法的流程图。

图4示出了根据本公开实施例的面部表情的特征的示例。

图5示出了根据本公开的对语言文本特征进行第二识别的一个示例。

图6示出了根据本公开另一实施例的识别情绪类别的方法的流程图。

图7示出了根据本公开又一实施例的识别情绪类别的方法的流程图。

图8示出了根据本公开再一实施例的识别情绪类别的方法的流程图。

图9示出了根据本公开实施例的基于情绪正负向对情绪类别进行归类的一个示例。

图10示出了根据本公开的实施例的识别情绪类别的装置的示例性框图。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。

具体实现方式

下文将参考附图更全面地描述本公开。然而，本公开可以以多种替代形式来体现，并且不应被解释为限于本文描述的实施例。因此，尽管本公开易于进行各种修改和替代形式，但是其具体实施例在附图中以示例的方式示出，并将在本文详细描述。然而，应当理解，这种方式并不旨在将本公开限制于所公开的特定形式，相反，本公开覆盖了落入由权利要求所限定的本公开的精神和范围内的所有修改方案、等同方案和替代方案。

应当理解，尽管本文可以用术语第一、第二等描述各种元素，但是这些元素不应该被这些术语所限制。这些术语仅用于区分一个元素和另一个元素。例如，第一元素可以被称为第二元素，并且类似地，第二元素可以被称为第一元素，而不脱离本公开的教导。

本文结合框图和/或流程图描述了一些示例，其中每个框表示包括用于实现指定逻辑功能的一个或多个可执行指令的电路元件、模分块或代码的部分。还应该注意的是，在其他实现方式中，框中所述的功能可以不按所述的顺序发生。例如，根据所涉及的功能，连续示出的两个框实际上可以实质上同时执行，或者这些框有时可以以相反的顺序执行。

本文提到的“根据...示例”或“在..示例中”意味着结合示例描述的特定特征、结构或特性可以被包括在本公开的至少一个实现方式中。本文中不同地方出现的短语“根据...示例”或“在...示例中”不一定都指同一示例，也不一定是与其他示例相互排斥的单独或替代示例。

情绪是一种综合了人的感觉、思想和行为的状态，人的面部表情是情绪的一种外部表现。在现实中，人的多种情绪可能会用同一个表情表达。图1示出了根据本公开的用同一个表情表达多种情绪的一个示例。如图1所示，图像中的人物具有四种不同的情绪，分别为厌恶、愤怒、悲伤、恐惧，但每种情绪的面部表情均相同。显然，针对图1中示出的情形，仅仅依靠面部表情无法准确判断人物的具体情绪，此时需要考虑除了面部表情之外的信息。在图1中，该人物分别用了四种不同的手势来表达四种不同的情绪。因此，在该示例中，除了依靠面部表情之外，还可以考虑利用人物的手势信息来判断具体的情绪。

神经网络是受大脑神经元结构及神经传到原理启发建立的数学计算模型，基于这类模型实现智能计算的方式称为脑启发计算。例如，神经网络包括多种形式的网络结构，例如，反向传播(Back Propagation，BP)神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)等，例如，卷积神经网络还可以细分为全卷积网络、深度卷积网络、U型网络(U-Net)等。

图2示出了根据本公开的通过神经网络模型对情绪进行识别的概念性示意图。如图2所示，可以首先将输入侧的图像序列进行预处理，这里的预处理包括数据对齐、数据增强、归一化等操作。之后，可以将经预处理后的图像序列输入神经网络，并利用该图像序列的情绪标签对神经网络进行训练或测试。在对神经网络进行训练或测试的过程中，神经网络的参数不断被调整直至神经网络模型输出期望的结果。在图2的示例中，图像序列的情绪标签包括愤怒、鄙视、厌恶、恐惧、快乐、悲伤、惊喜等，神经网络模型可以输出每个情绪类别及其对应的置信度，每个情绪类别的置信度大小可以通过灰色阴影面积大小来表示。在图2中，输入图像中的人物(“小孩”)呈现出开心的情绪状态，神经网络模型可以对该输入图像中的人物进行情绪识别，输出情绪识别结果，即情绪“快乐”具有最高置信度，情绪“惊喜”具有第二高置信度，其他情绪具有较低置信度。为了描述之方便，在本公开中，情绪、情绪状态、情绪类别可以互换使用。

为了解决仅利用图像数据这种单维度的信息数据导致情绪识别结果的不准确，本公开实施例提出了一种识别情绪类别的方法。图3-1示出了根据本公开实施例的识别情绪类别的方法的流程图。如图3-1所示，方法300可以包括：

步骤S301：获取对象的多个维度的特征。

在该示例中，对象可以是人物，例如图1或图2中所示的人物。作为一个维度的特征的示例，这里的特征可以是人物的面部表情的特征。图4示出了根据本公开实施例的面部表情的特征的示例。在该示例中，可以通过计算机视觉技术(Computer Vision,CV)获取图像中人物的面部轮廓的点位数据。如图4所示，分别获取到了人物在愤怒、自然、崇拜、开心四种情绪状态下的面部轮廓的点位数据，可以将这些面部轮廓的点位数据作为人物的一个维度的特征。

作为另一个维度的特征的示例，这里的特征可以是人物的手势的特征。对该示例中手势的特征的说明可以参考图1，如图1所示，人物在厌恶、愤怒、悲伤、恐惧四种情绪状态下分别具有不同的手势。在该示例中，对图像中手势的特征的利用可以采用与图2示出的类似的方法，即首先对包含手势的特征的图像序列进行预处理，之后将经预处理后的图像序列输入神经网络，并利用与手势的特征相关联的情绪标签对神经网络进行训练或测试，直至神经网络模型输出期望的结果。

作为又一个维度的特征的示例，这里的特征可以是人物的声音的特征。在该示例中，声音的特征可以包括声音的波动特征，例如振幅、频率等。在该示例中，声音的特征可以和情绪相关联，例如若声音的波动比较小，则人物可以是欣慰情绪，若声音的波动比较大，则人物可以是开心情绪。需要指出的是，在该示例中，对人物的声音的特征的利用可以采用与图2示出的类似的方法，即首先对人物的声音的特征进行预处理，之后将经预处理后的声音的特征输入神经网络，并利用与该声音的特征相关联的情绪标签对神经网络进行训练或测试，直至神经网络模型输出期望的结果。

作为再一个维度的特征的示例，这里的特征可以是人物的语言文本特征。在该示例中，可以通过自然语言处理技术(Natural Language Processing,NLP)对人物的语音进行识别，进而获取人物的语言文本特征。在该示例中，语言文本特征可以和情绪相关联，例如若人物说出“你是哪根葱啊”，则人物可以是鄙视情绪。需要指出的是，在该示例中，对人物的语言文本特征的利用可以采用与图2示出的类似的方法，即首先对人物的语言文本特征进行预处理，之后将经预处理后的语言文本特征输入神经网络，并利用与该语言文本特征相关联的情绪标签对神经网络进行训练或测试，直至神经网络模型输出期望的结果。

需要说明的是，尽管本公开结合面部表情、手势、声音、语言文本对多个维度的特征进行了描述，但这并不旨在将本公开的多个维度限制于此，相反本领域技术人员结合本公开的主旨和精神范围，很容易想到其他维度下的特征，例如人物的肩部的特征(例如“耸肩”代表人物是无奈状态)，而这些维度下的特征均落入本公开的保护范围。

步骤S303：对每一维度的特征进行第一识别，得到每一维度的情绪类别集合。

在该示例中，可以对步骤S301中的多个维度的特征进行逐个维度地识别。例如，可以将每个维度的特征输入至训练完成的神经网络模型，由神经网络模型进行识别。上文已经结合图2对本公开中的神经网络模型的训练过程进行了描述，这里不再赘述。对于每个维度的特征，神经网络模型可以输出相应的情绪类别集合，其中，该情绪类别集合中的每一情绪类别具有对应的置信度。图2示出了每一情绪类别具有对应的置信度的一个示例，如图2所示，输出的情绪类别集合中包括愤怒、鄙视、厌恶、恐惧、快乐、悲伤、惊喜七种情绪，其中，每个情绪的置信度大小(通过灰色阴影面积表示)各不相同。

步骤S303：基于至少一个维度的所述情绪类别集合和所述情绪类别集合中的每一情绪类别具有对应的置信度，确定用于输出的情绪类别。

在该示例中，可以对各个维度的情绪类别集合中的每个情绪类别的置信度进行判断，确定其置信度是否满足第一置信度阈值范围。在确定出满足第一置信度阈值范围的情绪类别后，可以从这些情绪类别中确定用于输出的情绪类别。举例而言，若多个维度的特征包括面部表情的特征、声音的特征，第一置信度阈值范围为[0.8,1]，面部表情维度的情绪类别集合中置信度大于0.8的情绪类别为开心，声音维度的情绪类别集合中没有置信度大于0.8的情绪类别，则可以将开心作为输出的情绪类别。

图3-2示出了根据本公开实施例的识别情绪类别的方法的流程图。如图3-2所示，方法320可以包括：

步骤S302：获取对象的多个维度的特征。

步骤S302与步骤S301基本相同，这里不再赘述。

步骤S304：对每一维度的特征进行第一识别，得到每一维度的情绪类别集合。

在该示例中，可以对步骤S302中的多个维度的特征进行逐个维度地识别。例如，可以将每个维度的特征输入至训练完成的神经网络模型，由神经网络模型进行识别。上文已经结合图2对本公开中的神经网络模型的训练过程进行了描述，这里不再赘述。对于每个维度的特征，神经网络模型可以输出相应的情绪类别集合，其中，该情绪类别集合中的每一情绪类别具有对应的置信度。图2示出了每一情绪类别具有对应的置信度的一个示例，如图2所示，输出的情绪类别集合中包括愤怒、鄙视、厌恶、恐惧、快乐、悲伤、惊喜七种情绪，其中，每个情绪的置信度大小(通过灰色阴影面积表示)各不相同。

在该示例中，情绪类别集合中的每一情绪类别还具有用于表征情绪正负向的情绪状态值区间。在该示例中，可以对每一情绪所包含对应的情绪状态值区间进行预配置，用于标识其对应正面和负面的情绪偏向。情绪状态值区间可以以浮点数[-1,1]之间去标定，-1代表极端负面情绪，1代表极端正面情绪。举例而言，满足、激昂、欣喜、胜利为正面情绪，逃避、遗憾、悔恨、失望、绝望、内疚为负面情绪，可以将激昂这个情绪的情绪状态值区间预配置为[0.5,1]，将绝望这个情绪的情绪状态值区间预配置为[-1,-0.5]。

步骤S306：响应于满足预设条件，对至少一个维度的特征进行第二识别，得到至少一个维度的情绪状态值。

在该示例中，可以对步骤S302中的多个维度的特征中的至少一个维度的特征进行识别。例如，若多个维度的特征包括声音的特征和语言文本特征，则可以对语言文本特征进行第二识别。在该示例中，可以将某一维度的特征输入至训练完成的神经网络模型，由神经网络模型进行识别。图5示出了根据本公开的对语言文本特征进行第二识别的一个示例。在图5的示例中，神经网络模型的训练方法与本公开结合图2所描述的训练方法类似，不同之处在于图5示例中的情绪状态值标签是一个区间，例如情绪状态值标签为[-1,1]。如图5所示，输入的语言文本为“你是哪根葱啊”，经过训练完成的神经网络模型识别后可以得到对应的情绪状态值。例如，若情绪状态值标签为[-1,1]，其中-1代表极端负面情绪，1代表极端正面情绪，则可以得到语言文本“你是哪根葱啊”的情绪状态值为-0.5。

在该示例中，预设条件可以为基于至少一个维度的情绪类别集合而确定的至少一个条件。例如，预设条件可以为基于情绪类别集合中情绪类别的置信度而设置的阈值条件。举例而言，预设条件可以为一个或多个维度的情绪类别集合中的每个情绪类别的置信度小于预设阈值(例如0.8)。再例如，预设条件还可以为多个维度的情绪类别集合中对应最高置信度的情绪类别不相同。举例而言，若多个维度的特征包括声音的特征和语言文本特征，且经过第一识别后，针对声音的特征输出的情绪类别集合中具有最高置信度的情绪类别为开心，针对语言文本特征输出的情绪类别集合中具有最高置信度的情绪类别为愤怒，则当前状态为满足预设条件，需要对至少一个维度的特征进行第二识别。

步骤S308：基于所述至少一个维度的情绪状态值和至少一个维度的所述情绪类别集合，确定用于输出的情绪类别。

在该示例中，通过至少一个维度的情绪状态值和至少一个维度的情绪类别集合，可以确定输出的情绪类别。例如，若多个维度的特征包括面部表情的特征、声音的特征、语言文本特征，则可以基于声音维度的情绪状态值和面部表情维度的情绪类别集合，确定输出的情绪类别。在该示例中，可以通过至少一个维度的情绪状态值和至少一个维度的情绪类别集合中的情绪类别所对应的情绪状态值区间，确定输出的情绪类别。例如，多个维度的特征包括面部表情的特征、声音的特征，则可以将声音维度的情绪状态值与面部表情维度的情绪类别集合中的每个情绪类别所对应的情绪状态值区间进行比对，并将包含声音维度的情绪状态值的情绪状态值区间所对应的情绪类别输出。举例而言，若声音维度的情绪状态值为0.6，面部表情维度的情绪类别集合为{开心[0.5.0.8]，愤怒[-0.5,-0.8]}，由于声音维度的情绪状态值0.6落入到愤怒情绪的情绪状态值区间[-0.5,-0.8]，因此用于输出的情绪为愤怒。再例如，多个维度的特征包括面部表情的特征、声音的特征、手势的特征，则可以将声音维度的情绪状态值分别与面部表情维度的情绪类别集合中的每个情绪类别所对应的情绪状态值区间、手势维度的情绪类别集合中的每个情绪类别所对应的情绪状态值区间进行比对，并确定包含声音维度的情绪状态值的情绪状态值区间所对应的面部表情维度和手势维度的多个情绪类别，然后将该多个情绪类别中具有最大置信度的情绪类别输出。

在该示例中，基于多个维度的情绪状态值和至少一个维度的情绪类别集合，确定用于输出的情绪类别可以为：将多个维度的情绪状态值函数映射为目标情绪状态值，并通过目标情绪状态值和至少一个维度的情绪类别集合确定输出的情绪类别。举例而言，若多个维度的特征包括面部表情的特征、声音的特征，面部表情维度的情绪状态值为a，声音维度的情绪状态值为b，则目标情绪状态值可以为f(a,b)。在该示例中，基于目标情绪状态值和至少一个维度的情绪类别集合确定输出的情绪类别与基于一个维度的情绪状态值和至少一个维度的情绪类别集合确定输出的情绪类别类似，这里不再赘述。

需要说明的是，尽管图3-2示出的示例为采用了两次识别的方式分别获得每一维度的情绪类别集合和至少一个维度的情绪状态值，但根据本公开实施例的识别情绪类别的方法也可以采用一次识别的方式获得每一维度的情绪类别集合和至少一个维度的情绪状态值，对于获得的每一维度的情绪类别集合和至少一个维度的情绪状态值的后续处理方法与图3-2示出的示例基本相同，这里不再赘述。

根据本公开的实施例提供的识别情绪类别的方法，可以通过利用与情绪相关的多个维度的信息数据，从而提高情绪类别识别结果的准确性。

图6示出了根据本公开另一实施例的识别情绪类别的方法的流程图。如图6所示，方法600可以包括：

步骤S602：获取对象的多个维度的特征。

步骤S602与步骤S302基本相同，这里不再赘述。

步骤S604：对每一维度的特征进行第一识别，得到每一维度的情绪类别集合。

步骤S604与步骤S304基本相同，这里不再赘述。

步骤S606：响应于任一维度的所述情绪类别集合中的至少一个情绪类别的置信度满足第一置信度阈值范围，从所述至少一个情绪类别中确定用于输出的情绪类别。

在该示例中，第一置信度阈值范围可以为预先配置的置信度范围，例如[0.8,1]。在该示例中，可以对各个维度的情绪类别集合中的每个情绪类别的置信度进行判断，确定其置信度是否满足第一置信度阈值范围。在确定出满足第一置信度阈值范围的情绪类别后，可以从这些情绪类别中确定用于输出的情绪类别。举例而言，若多个维度的特征包括面部表情的特征、声音的特征，第一置信度阈值范围为[0.8,1]，面部表情维度的情绪类别集合中置信度大于0.8的情绪类别为开心，声音维度的情绪类别集合中没有置信度大于0.8的情绪类别，则可以将开心作为输出的情绪类别。

在一些可选的示例中，从多个满足第一置信度阈值范围的情绪类别中确定用于输出的情绪类别包括：将该多个情绪类别中对应于最高置信度的情绪类别输出。举例而言，若第一置信度阈值范围为[0.8,1]，满足第一置信度阈值范围的情绪类别包括开心[0.8]、惊喜[0.9]，则可以将具有更高置信度(即，0.9)的情绪“惊喜”输出。

根据本公开的上述实施例提供的识别情绪类别的方法，可以在利用与情绪相关的多个维度的信息数据的前提下，快速、准确地识别情绪类别。

图7示出了根据本公开又一实施例的识别情绪类别的方法的流程图。如图7所示，方法700可以包括：

步骤S702：获取对象的多个维度的特征。

步骤S702与步骤S302基本相同，这里不再赘述。

步骤S704：对每一维度的特征进行第一识别，得到每一维度的情绪类别集合。

步骤S704与步骤S304基本相同，这里不再赘述。

步骤S705：判断所有维度的情绪类别集合中是否存在置信度满足第一置信度阈值范围的情绪类别，若是进入步骤S706，否则进入步骤S708。

步骤S706：响应于任一维度的所述情绪类别集合中的至少一个情绪类别的置信度满足第一置信度阈值范围，从所述至少一个情绪类别中确定用于输出的情绪类别。

步骤S706与步骤S606基本相同，这里不再赘述。

步骤S708：响应于至少两个维度的所述情绪类别集合中对应于最高置信度的情绪类别相同且所述对应于最高置信度的情绪类别满足第二置信度阈值范围，输出所述对应于最高置信度的情绪类别。

在该示例中，第二置信度阈值范围可以为预先配置的置信度范围，例如[0.4,0.8)。在该示例中，第一置信度阈值范围为大于或等于第一置信度阈值，第二置信度阈值范围为大于或等于第二置信度阈值且小于第一置信度阈值，第一置信度阈值大于第二置信度阈值。示例性地，第一置信度阈值为0.8，第二置信度阈值为0.4，第一置信度阈值范围为[0.8,1]，第二置信度阈值范围为[0.4,0.8)。在该示例中，一个维度的情绪类别集合中对应于最高置信度的情绪类别指的是该情绪类别集合中具有最高置信度的情绪类别。情绪类别满足第二置信度阈值范围指的是该情绪类别的置信度满足第二置信度阈值范围。举例而言，若面部表情维度的情绪类别集合和语言文本维度的情绪类别集合中具有最高置信度的情绪类别均为愤怒，并且该愤怒情绪的置信度均满足第二置信度阈值，则输出该愤怒情绪。

图8示出了根据本公开再一实施例的识别情绪类别的方法的流程图。如图8所示，方法800可以包括：

步骤S802：获取对象的多个维度的特征。

步骤S802与步骤S302基本相同，这里不再赘述。

步骤S804：对每一维度的特征进行第一识别，得到每一维度的情绪类别集合。

步骤S804与步骤S304基本相同，这里不再赘述。

步骤S805：判断所有维度的情绪类别集合中是否存在置信度满足第一置信度阈值范围的情绪类别，若是进入步骤S806，否则进入步骤S807。

步骤S807：判断是否存在至少两个维度的该情绪类别集合中对应于最高置信度的情绪类别相同且该对应于最高置信度的情绪类别满足第二置信度阈值范围，若是进入步骤S808，否则进入步骤S810。

步骤S808：响应于至少两个维度的所述情绪类别集合中对应于最高置信度的情绪类别相同且所述对应于最高置信度的情绪类别满足第二置信度阈值范围，输出所述对应于最高置信度的情绪类别。

步骤S808与步骤S708基本相同，这里不再赘述。

步骤S810：对至少一个维度的特征进行第二识别，得到至少一个维度的情绪状态值。

步骤S810与步骤S306基本相同，这里不再赘述。

步骤S812：基于所述至少一个维度的情绪状态值和至少一个维度的所述情绪类别集合，确定用于输出的情绪类别。

步骤S812与步骤S308基本相同，这里不再赘述。

需要说明的是，在图8的示例中，上述步骤S306中的预设条件为：每一维度的情绪类别集合中的每一情绪类别均不满足第一置信度阈值范围，并且，每一维度的情绪类别集合中对应于最高置信度的情绪类别均不相同或者虽然至少两个维度的情绪类别集合中对应于最高置信度的情绪类别相同但对应于最高置信度的情绪类别不满足第二置信度阈值范围。

根据本公开的上述实施例提供的识别情绪类别的方法，可以通过利用与情绪相关的多个维度的信息数据，从而提高情绪类别识别结果的准确性。

在一些实施例中，上述步骤S308可以包括：

步骤S3082：对至少一个维度的情绪状态值进行合并，得到目标情绪状态值。

步骤S3084：响应于目标情绪状态值落入至少一个维度的情绪类别集合中的至少一个情绪类别所具有的情绪状态值区间，从该至少一个情绪类别中确定用于输出的情绪类别。

在另一些实施例中，上述步骤S3082中的情绪状态值所属的维度与上述步骤S3084中的该至少一个情绪类别所属的维度不相同。举例而言，若多个维度的特征包括面部表情的特征、语言文本特征、声音的特征，在对语言文本维度和声音维度的情绪状态值进行合并，得到目标情绪状态值后，可以用该目标情绪状态值在面部表情维度的情绪类别集合中对情绪类别进行排除，从而确定用于输出的情绪类别。在一些示例中的，情绪状态值所属的维度为声音和自然语言处理文本中的至少一个，该至少一个情绪类别所属的维度为面部表情和手势中的至少一个。为了描述之方便，在本公开中语言文本和自然语言处理文本可以互换使用。

根据本公开的上述实施例提供的识别情绪类别的方法，可以全面地利用多个维度的与情绪相关的信息数据，从而进一步提高情绪类别识别结果的准确性。

在一些可选的示例中，上述步骤S3082可以包括：对多个维度的情绪状态值进行加权平均，得到目标情绪状态值。在该示例中，针对不同维度的情绪状态值的权重可以根据需要进行预先配置，例如针对语言文本维度的情绪状态值的权重可以高于其他维度的情绪状态值。需要说明的是，各个维度的情绪状态值的权重可以与该维度的特征在情绪判定中的重要性正相关。例如，经研究发现，对于面部表情、语言文本、声音、手势这四个维度，语言文本维度的特征与人物的情绪具有强烈的正相关，因此可以将语言文本维度的情绪状态值的权重设置为最高。

在另一些实施例中，本公开上文所描述的情绪状态值区间包括以下中的至少一个：具有第一区间段的正评价情绪值区间、具有第二区间段的正次动力情绪值区间、具有第三区间段的正动力情绪值区间、具有第四区间段的负动力情绪值区间、具有第五区间段的负次动力情绪值区间、具有第六区间段的负评价情绪值区间，其中，第一区间段、第二区间段、第三区间段、第四区间段、第五区间段、第六区间段互不相同。

图9示出了根据本公开实施例的基于情绪正负向对情绪类别进行归类的一个示例。现有的情绪分类是基于情绪的定义进行的归类，例如根据现有的情绪归类法可以将情绪分为如下27种：钦佩、崇拜、美学欣赏、娱乐、愤怒、焦虑、敬畏、尴尬、无聊、冷静、困惑、鄙视、渴望、失望、厌恶、移情、兴奋、妒忌、刺激、恐惧、内疚、惊栗、兴趣、快乐、怀旧、骄傲、解脱、浪漫、悲伤、满足、欲望、惊喜、同情和胜利。但是在实际应用中，考虑到在对情绪进行归类时并不需要特别精确的定义，且各个情绪的定义之间边界模糊或重叠，因此本公开开创性地提出了图9中示出的归类方法。如图9所示，按照情绪的正负向可以将情绪分为正评价情绪、正次动力情绪、正动力情绪、负动力情绪、负次动力情绪、负评价情绪，每种情绪都包含对应的情绪状态值区间，即分别为具有第一区间段的正评价情绪值区间、具有第二区间段的正次动力情绪值区间、具有第三区间段的正动力情绪值区间、具有第四区间段的负动力情绪值区间、具有第五区间段的负次动力情绪值区间、具有第六区间段的负评价情绪值区间。每种情绪所对应的情绪状态值区间可以以浮点数[-1,1]之间去标定，-1代表极端负面情绪，1代表极端正面情绪，例如情绪“满足”的情绪状态值范围为[0.5,1]。

根据本公开的上述实施例提供的识别情绪类别的方法，开创性地提出基于情绪的正负向进行分类，从而可以充分利用与情绪相关的信息数据，进而提高情绪类别识别结果的准确性。

图10示出了根据本公开的实施例的识别情绪类别的装置的示例性框图。如图10所示，该装置1000包括：获取模块1001，其配置为获取对象的多个维度的特征；第一识别模块1002，其配置为对每一维度的特征进行第一识别，得到每一维度的情绪类别集合，其中所述情绪类别集合中的每一情绪类别具有对应的置信度；以及第一确定模块1003，其配置为基于至少一个维度的所述情绪类别集合和所述情绪类别集合中的每一情绪类别具有对应的置信度，确定用于输出的情绪类别。

根据本公开实施例提供的识别情绪类别的装置可以通过利用与情绪相关的多个维度的信息数据，从而提高情绪类别识别结果的准确性。

应当理解，图10中所示装置1000的各个模块可以与参考图3-1描述的方法300中的各个步骤相对应。由此，上面针对方法300描述的操作、特征和优点同样适用于装置1000及其所包括的模块。为了简洁起见，某些操作、特征和优点在此不再赘述。

在一些示例中，所述情绪类别集合中的每一情绪类别还具有预置的、用于表征情绪正负向的情绪状态值区间，该装置1000还包括：第二识别模块，其配置为响应于满足预设条件，对至少一个维度的特征进行第二识别，得到至少一个维度的情绪状态值，所述第一确定模块1003进一步配置为基于所述至少一个维度的情绪状态值和至少一个维度的所述情绪类别集合，确定用于输出的情绪类别。

在一些示例中，该装置1000还包括：第二确定模块，其配置为响应于任一维度的所述情绪类别集合中的至少一个情绪类别的置信度满足第一置信度阈值范围，从所述至少一个情绪类别中确定用于输出的情绪类别。

在一些示例中，该装置1000还包括：第一输出模块，其配置为响应于至少两个维度的所述情绪类别集合中对应于最高置信度的情绪类别相同且所述对应于最高置信度的情绪类别满足第二置信度阈值范围，输出所述对应于最高置信度的情绪类别。

在一些示例中，所述第一置信度阈值范围为大于或等于第一置信度阈值，所述第二置信度阈值范围为大于或等于第二置信度阈值且小于所述第一置信度阈值，所述第一置信度阈值大于所述第二置信度阈值。

在一些示例中，所述预设条件包括：每一维度的所述情绪类别集合中的每一情绪类别均不满足所述第一置信度阈值范围，并且，每一维度的所述情绪类别集合中对应于最高置信度的情绪类别均不相同或者至少两个维度的所述情绪类别集合中对应于最高置信度的情绪类别相同且所述对应于最高置信度的情绪类别不满足所述第二置信度阈值范围。

在一些示例中，所述第一确定模块包括：合并模块，其配置为对所述至少一个维度的情绪状态值进行合并，得到目标情绪状态值；以及第三确定模块，其配置为响应于所述目标情绪状态值落入所述至少一个维度的所述情绪类别集合中的至少一个情绪类别所具有的所述情绪状态值区间，从所述至少一个情绪类别中确定用于输出的情绪类别。

在一些示例中，所述情绪状态值所属的维度与所述至少一个情绪类别所属的维度不相同。

在一些示例中，所述合并模块进一步配置为：对多个维度的情绪状态值进行加权平均。

在一些示例中，所述第二确定模块或第三确定模块进一步配置为：将所述至少一个情绪类别中对应于最高置信度的情绪类别输出。

在一些示例中，所述多个维度包括以下中的多个：面部表情、手势、声音、自然语言处理文本。

在一些示例中，所述情绪状态值区间为[-1,1]的区间段。

在一些示例中，所述情绪状态值所属的维度为声音和自然语言处理文本中的至少一个，所述至少一个情绪类别所属的维度为面部表情和手势中的至少一个。

在一些示例中，所述情绪状态值区间包括以下中的至少一个：具有第一区间段的正评价情绪值区间、具有第二区间段的正次动力情绪值区间、具有第三区间段的正动力情绪值区间、具有第四区间段的负动力情绪值区间、具有第五区间段的负次动力情绪值区间、具有第六区间段的负评价情绪值区间，其中，所述第一区间段、所述第二区间段、所述第三区间段、所述第四区间段、所述第五区间段、所述第六区间段互不相同。

根据本公开的另一方面，提供了一种计算机程序产品，包括程序代码指令，当所述程序产品由计算机执行时，所述程序代码指令使所述计算机执行根据上述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非暂时性计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述的方法。

根据本公开的另一方面，提供了一种电子设备，包括：处理器，与所述处理器进行电子通信的存储器；以及指令，所述指令存储在所述存储器中并且可由所述处理器执行以使所述电子设备执行根据上述的方法。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。参见图11，现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如识别情绪类别的方法。例如，在一些实施例中，识别情绪类别的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的识别情绪类别的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行识别情绪类别的方法。

结合本文公开的方面所描述的各种说明性逻辑、逻辑块、模块、电路和算法过程可以实现为电子硬件、计算机软件或两者的组合。硬件和软件的可互换性已经在功能方面进行了一般性描述，并且在上述各种说明性组件、块、模块、电路和过程中进行了说明。这种功能是以硬件还是软件实现取决于特定的应用和对整个系统的设计限制。

用于实现结合本文公开的方面所描述的各种说明性逻辑、逻辑块、模块和电路的硬件和数据处理装置可以用通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件或被设计成执行本文所描述的功能的其任意组合来实现或执行。通用处理器可以是微处理器或任何常规处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如DSP和微处理器的组合、多个微处理器、一个或多个与DSP内核结合的微处理器、或者任何其他这样的配置。在一些方面中，特定的过程和方法可以由特定于给定功能的电路来执行。

在一个或多个方面，所描述的功能可以在硬件、数字电子电路、计算机软件、固件(包括本说明书中公开的结构及其等同结构)或其任意组合中实现。本说明书中所描述的主题的方面也可以实现为一个或多个计算机程序，即计算机程序指令的一个或多个模块，该一个或多个计算机程序被编码在计算机存储介质上用于由数据处理装置执行或控制数据处理装置的操作。

如果以软件实现，该功能可以作为一个或多个指令或代码存储或传输到计算机可读介质上。本文公开的方法或算法的过程可以在处理器可执行的软件模块中实现，该软件模块可以驻留在计算机可读介质上。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括能够将计算机程序从一个地方传送到另一个地方的任何介质。存储介质可以是可由计算机访问的任何可用介质。作为示例而非限制，此计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备，或者可以用于以指令或数据结构的形式存储所需的程序代码并且可以由计算机访问的任何其他介质。此外，任何连接都可以被恰当地称为计算机可读介质。本文使用的盘(Disk)和盘(disc)包括高密度光盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光光盘，其中盘(Disk)通常磁性地复制数据，而盘(disc)用激光光学地复制数据。以上的组合也应该包括在计算机可读介质的范围内。附加地，方法或算法的操作可以作为机器可读介质和计算机可读介质上的代码和指令的一个或任意组合或集合，其可以被结合到计算机程序产品中。

本公开中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、设备实施例、计算机可读存储介质实施例、以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种识别情绪类别的方法，包括：

获取对象的多个维度的特征；

对每一维度的特征进行第一识别，得到每一维度的情绪类别集合，其中所述情绪类别集合中的每一情绪类别具有对应的置信度；以及

基于至少一个维度的所述情绪类别集合和所述情绪类别集合中的每一情绪类别具有对应的置信度，确定用于输出的情绪类别。

2.根据权利要求1所述的方法，其中，所述情绪类别集合中的每一情绪类别还具有预置的、用于表征情绪正负向的情绪状态值区间，所述方法还包括：

响应于满足预设条件，对至少一个维度的特征进行第二识别，得到至少一个维度的情绪状态值，并且，

所述基于至少一个维度的所述情绪类别集合和所述情绪类别集合中的每一情绪类别具有对应的置信度，确定用于输出的情绪类别包括：

基于所述至少一个维度的情绪状态值和至少一个维度的所述情绪类别集合，确定用于输出的情绪类别。

3.根据权利要求1所述的方法，还包括：

响应于任一维度的所述情绪类别集合中的至少一个情绪类别的置信度满足第一置信度阈值范围，从所述至少一个情绪类别中确定用于输出的情绪类别。

4.根据权利要求1所述的方法，还包括：

响应于至少两个维度的所述情绪类别集合中对应于最高置信度的情绪类别相同且所述对应于最高置信度的情绪类别满足第二置信度阈值范围，输出所述对应于最高置信度的情绪类别。

5.根据权利要求4所述的方法，其中，所述第一置信度阈值范围为大于或等于第一置信度阈值，所述第二置信度阈值范围为大于或等于第二置信度阈值且小于所述第一置信度阈值，所述第一置信度阈值大于所述第二置信度阈值。

6.根据权利要求2所述的方法，其中，所述预设条件包括：

每一维度的所述情绪类别集合中的每一情绪类别均不满足所述第一置信度阈值范围，并且，每一维度的所述情绪类别集合中对应于最高置信度的情绪类别均不相同或者至少两个维度的所述情绪类别集合中对应于最高置信度的情绪类别相同且所述对应于最高置信度的情绪类别不满足所述第二置信度阈值范围。

7.根据权利要求2所述的方法，其中，基于所述至少一个维度的情绪状态值和至少一个维度的所述情绪类别集合，确定用于输出的情绪类别包括：

对所述至少一个维度的情绪状态值进行合并，得到目标情绪状态值；以及

响应于所述目标情绪状态值落入所述至少一个维度的所述情绪类别集合中的至少一个情绪类别所具有的所述情绪状态值区间，从所述至少一个情绪类别中确定用于输出的情绪类别。

8.根据权利要求7所述的方法，其中，所述情绪状态值所属的维度与所述至少一个情绪类别所属的维度不相同。

9.根据权利要求7所述的方法，其中，对所述至少一个维度的情绪状态值进行合并包括：

对多个维度的情绪状态值进行加权平均。

10.根据权利要求3或7所述的方法，其中，从所述至少一个情绪类别中确定用于输出的情绪类别包括：

将所述至少一个情绪类别中对应于最高置信度的情绪类别输出。

11.根据权利要求1所述的方法，其中，所述多个维度包括以下中的多个：

面部表情、手势、声音、自然语言处理文本。

12.根据权利要求2所述的方法，其中，所述情绪状态值区间为[-1,1]的区间段。

13.根据权利要求8所述的方法，其中，所述情绪状态值所属的维度为声音和自然语言处理文本中的至少一个，所述至少一个情绪类别所属的维度为面部表情和手势中的至少一个。

14.根据权利要求12所述的方法，其中，所述情绪状态值区间包括以下中的至少一个：

具有第一区间段的正评价情绪值区间、具有第二区间段的正次动力情绪值区间、具有第三区间段的正动力情绪值区间、具有第四区间段的负动力情绪值区间、具有第五区间段的负次动力情绪值区间、具有第六区间段的负评价情绪值区间，其中，

所述第一区间段、所述第二区间段、所述第三区间段、所述第四区间段、所述第五区间段、所述第六区间段互不相同。

15.一种识别情绪类别的装置，包括：

获取模块，其配置为获取对象的多个维度的特征；

第一识别模块，其配置为对每一维度的特征进行第一识别，得到每一维度的情绪类别集合，其中所述情绪类别集合中的每一情绪类别具有对应的置信度；以及

第一确定模块，其配置为基于至少一个维度的所述情绪类别集合和所述情绪类别集合中的每一情绪类别具有对应的置信度，确定用于输出的情绪类别。

16.一种计算机程序产品，包括程序代码指令，当所述程序产品由计算机执行时，所述程序代码指令使所述计算机执行权利要求1至14中的至少一项所述的方法。

17.一种存储有计算机指令的非暂时性计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至14中的至少一项所述的方法。

18.一种电子设备，包括：

处理器，

与所述处理器进行电子通信的存储器；以及

指令，所述指令存储在所述存储器中并且可由所述处理器执行以使所述电子设备执行根据权利要求1至14中的至少一项所述的方法。