CN112788990A

CN112788990A - 获得情绪信息的电子设备和方法

Info

Publication number: CN112788990A
Application number: CN201980064181.5A
Authority: CN
Inventors: 徐钻源; 张磊; 金叡薰; 尹昭正; 李铜浣; 金容成; 李珠荣
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-09-28
Filing date: 2019-07-12
Publication date: 2021-05-11
Also published as: EP3820369B1; EP3820369A4; KR20200036680A; EP3820369A1; KR102697345B1

Abstract

情绪信息由电子设备获得，以便改善人和电子设备之间的通信。获得关于人的多媒体数据，通过将多媒体数据应用于神经网络模型来获得人的预测值，并且通过将预测值应用于权重模型来获得人的情绪信息。然后，从人获得关于人的第一情绪信息的反馈信息。最后，使用反馈信息更新权重模型。随后，当再次获得关于人的多媒体数据时，通过将稍后的多媒体数据应用于多个神经网络模型来获得人的新的预测值，并且再次获得人的情绪信息，但是这次使用利用反馈信息更新的权重模型。

Description

获得情绪信息的电子设备和方法

技术领域

本公开涉及获得情绪(emotion)信息的电子设备和方法，并且更具体地，涉及通过使用关于人的多媒体数据获得情绪信息的电子设备和方法。具体地，本公开涉及通过使用基于人工智能(AI)算法学习的神经网络模型来获得关于人的情绪信息的电子设备和方法。

背景技术

人工智能(AI)系统是实现人类级智能，并且允许机器自我学习、做出决定并变得更聪明的计算机系统，这与现有的基于规则的智能系统不同。AI系统被越多的使用，其辨识率就越高，并且用户的品味可以被更准确地理解。因此，现有的基于规则的智能系统已经逐渐被基于深度学习的AI系统所取代。

AI技术包括机器学习(例如深度学习)和使用机器学习的基础技术。机器学习是指机器自行分类和学习输入数据的特性的算法技术。基础技术是指使用机器学习算法的技术，诸如深度学习，并且可以被分为语言理解、视觉理解、推理/预测、知识表示、操作控制等领域。

AI技术应用于各个领域。例如，语言理解是指用于辨识、应用和处理人类的口头/书面语言的技术，并且包括自然语言处理、机器翻译、交流系统、问答和语音辨识/合成。视觉理解是指用于辨识和处理人类视觉中的对象的技术，并且包括对象辨识、对象跟踪、图像搜索、人类辨识、场景理解、空间理解、图像改进等。推理/预测是指用于确定信息和执行逻辑推理和预测的技术，并且包括基于知识/概率的推理、优化预测、基于偏好的规划、推荐等。知识表示是指用于将人类经验信息自动处理为知识数据的技术，并且包括知识构建(生成/分类数据)、知识管理(利用数据)等。操作控制是指用于控制车辆的自动驾驶和机器人的运动的技术，并且包括运动控制(导航、碰撞、驾驶)、操纵控制(行为控制)等。

同时，对于人和电子设备(例如，AI系统)之间的通信，必须识别人的情绪状态。在这种情况下，为了辨识用户的情绪，可以使用神经网络模型(例如，深度学习模型)。例如，情绪包括源于个人的环境、心情或与他人的关系的自然本能心理状态。例如，通信包括信息或新闻的传递或交换。将各种形式的多媒体数据(诸如人声等)、以及人类面部表情应用于神经网络模型使得能够准确识别人类情绪。

发明内容

技术问题

当通过将关于人的多媒体数据应用于神经网络模型来辨识情绪时，可以使用对于多媒体数据的类型具有各种模态(modality)的多个神经网络模型。例如，人类面部表情可以被应用于辨识面部表情的神经网络模型，而人类语音可以被应用于辨识语音的神经网络模型。

对多个神经网络模型的使用能够实现针对人类特性定制的情绪辨识。例如，当已经获得了被辨识出的情绪的人(例如，用户)提供反馈时，可以基于反馈信息重新学习神经网络模型以针对特定的人进行个性化或定制。

当为了个性化或定制而重新学习神经网络模型时，可能会消耗电子设备的大量资源。例如，学习神经网络模型需要几个处理步骤，并且在电子设备像移动设备一样包括相对轻量的硬件(H/W)和软件(S/W)资源的情况下，学习可能消耗很多时间和资源。

特别地，在外部服务器中存在重新学习所需的神经网络模型的情况下，当电子设备向外部服务器发送反馈信息时，可能会发生网络资源的消耗和隐私问题。

因此，提供了一种获得情绪信息的电子设备和方法。

其他方面将在下面的描述中被部分阐述，并且部分地从描述中变得清楚，或者可以通过对本公开的所呈现的实施例的实践来获知。

技术方案

根据本公开的实施例，一种电子设备包括存储权重模型的存储器和至少一个处理器，该权重模型调整从被配置为预测人的情绪的多个神经网络模型获得的多个预测值，该至少一个处理器被配置为获得关于人的第一多媒体数据、通过将第一多媒体数据的至少一部分应用于多个神经网络模型中的每一个来获得人的多个第一预测值、通过将多个第一预测值应用于权重模型来获得人的第一情绪信息、获得关于人的第一情绪信息的反馈信息、通过使用反馈信息来更新存储的权重模型、获得关于人的第二多媒体数据、以及通过将第二多媒体数据的至少一部分应用于多个神经网络模型中的每一个来获得人的多个第二预测值、以及通过将多个第二预测值应用于使用反馈信息更新的权重模型来获得人的第二情绪信息。

发明的有益效果

根据本公开的实施例，通过将反馈信息应用于权重模型，可以为人提供个性化或定制的情绪信息。

因此，可以最小化对电子设备的资源或电子设备使用的网络资源的消耗，并且可以快速连续地提供准确的情绪信息。

此外，可以通过详细描述来提供从本公开直接或间接辨识出的各种效果。

附图说明

从以下结合附图的描述中，本公开的某些实施例的上述和其他方面、特征和优点将变得更加清楚，其中：

图1是根据本公开的实施例的包括预测情绪的过程的电子设备的框图；

图2是根据本公开的实施例的电子设备的框图；

图3示出了根据本公开的实施例的电子设备预测情绪的过程；

图4示出了根据本公开的另一实施例的电子设备预测情绪的过程；

图5a是根据本公开的实施例的电子设备预测情绪的过程的第一流程图；

图5b是根据本公开的实施例的电子设备预测情绪的过程的第二流程图，图5b是图5a的逻辑流程的延续；

图6是根据本公开的实施例的模型的示例。

图7示出了根据本公开的实施例的电子设备更新权重模型的过程；

图8示出了根据本公开的实施例的购买和使用电子设备的过程；

图9a示出了根据本公开的实施例的使用电子设备的场景；

图9b示出了根据本公开的实施例的使用电子设备的场景；

图9c示出了根据本公开的实施例的使用电子设备的场景；

图10是根据本公开的另一实施例的电子设备的框图；

图11是根据本公开的实施例的情绪预测装置的框图。

图12a是根据本公开的实施例的数据学习器的框图；

图12b是根据本公开的实施例的情绪预测器的框图；和

图13是根据本公开的实施例的电子设备获得情绪信息的过程的流程图。

具体实施方式

根据本公开的实施例，电子设备包括存储权重模型的存储器和至少一个处理器，该权重模型调整从被配置为预测人的情绪的多个神经网络模型获得的多个预测值，该至少一个处理器被配置为获得关于人的第一多媒体数据、通过将第一多媒体数据的至少一部分应用于多个神经网络模型中的每一个来获得人的多个第一预测值、通过将多个第一预测值应用于权重模型来获得人的第一情绪信息、获得关于人的第一情绪信息的反馈信息、通过使用反馈信息来更新存储的权重模型、获得关于人的第二多媒体数据、以及通过将第二多媒体数据的至少一部分应用于多个神经网络模型中的每一个来获得人的多个第二预测值、以及通过将多个第二预测值应用于使用反馈信息更新的权重模型来获得人的第二情绪信息。

根据本公开的另一实施例，由电子设备执行的获得情绪信息的方法包括：获得关于人的第一多媒体数据、通过将第一多媒体数据的至少一部分应用于多个神经网络模型中的每一个来获得人的多个第一预测值、通过将多个第一预测值应用于调整从多个神经网络模型获得的预测值的权重模型来获得人的第一情绪信息、获得关于人的第一情绪信息的反馈信息、通过使用反馈信息来更新权重模型、获得关于人的第二多媒体数据、通过将第二多媒体数据的至少一部分应用于多个神经网络模型中的每一个来获得人的多个第二预测值、以及通过将多个第二预测值应用于使用反馈信息更新的权重模型来获得人的第二情绪信息。

实施例

在整个公开内容中，表述“a、b或c中的至少一个”指示仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、a、b和c的全部或其变体。

将简要描述本文所使用的术语，并且将详细描述本公开。

尽管在本公开的实施例中使用的术语是在考虑到本公开的功能的情况下选择的，但是这些术语可以根据本领域普通技术人员的意图、司法判例或对新技术的引入而变化。此外，在特定情况下，申请人可以自愿选择术语，并且在这种情况下，术语的含义在本公开的相应描述部分中被公开。因此，本公开中使用的术语不应由术语的简单名称来定义，而应由贯穿本公开的术语和内容的含义来定义。

可以对本公开的实施例做出各种改变，并且本公开可以具有将在附图中示出并在详细描述中详细描述的各种实施例。然而，根据本公开的概念的实施例不被解释为在范围上局限于特定的公开，并且包括不脱离本公开的精神和技术范围的所有变化、等同物或替代物。在对本公开的实施例的描述中，当相关的公知技术模糊了本公开的主题时，将省略对相关的公知技术的详细描述。

诸如第一、第二等术语可以用于描述各种元素，但是元素不应该受限于这些术语。这些术语可以用于区分一个元素和另一个元素的目的。

如本文所使用的，单数形式也旨在包括复数形式，除非上下文另有明确指示。还应当理解，当在本申请中使用时，术语“包括”和/或“具有”指定所述特征、数量、步骤、操作、组件、元件或其组合的存在，但不排除一个或多个其他特征、数量、步骤、操作、组件、元件或其组合的存在或添加。

在本公开的实施例中，实施例中所使用的诸如“模块”或“单元”的术语指示用于处理至少一个功能或操作的单元，并且可以以硬件、软件或硬件和软件的组合来实现。除了需要用特定硬件实现的“模块”或“单元”之外，多个“模块”或“单元”可以通过被集成到至少一个模块中而用至少一个处理器来实现。

在本公开的实施例中，当一个部件连接到另一个部件时，该部件不仅直接连接到另一个部件，而且还在另一个设备介入其中时电连接到另一个部件。此外，该连接不仅可以包括物理连接，还可以包括无线连接。当假设某个部件包括某个组件时，术语“包括”意味着相应的组件还可以包括其他组件，除非写有与相应的组件相反的特定含义。

在下文中，将参考附图详细描述本公开的实施例，以允许本领域的普通技术人员容易地实施这些实施例。然而，本公开可以以各种形式实现，并且不限于本文所描述的实施例。为了清楚地描述本公开，附图中省略了与描述不相关的部分，并且在整个说明书中，相同的附图标记指代相同的部分。

同时，在本公开中，术语“人类”、“人(human person)”和“人(person)”可以包括电子设备的所有者或用户等。

图1是根据本公开的实施例的预测情绪的电子设备的框图。

在图1中，电子设备1可以包括基于多模态的(multimodal-based)情绪辨识器110、反馈辨识器130和更新器140。基于多模态的情绪辨识器110、反馈辨识器130和更新器140可以是电子设备1的至少一个处理器的一部分。根据本公开的各种实施例，前述元件中的一些可以被提供在外部设备(例如，服务器)中。

在图1中，电子设备1可以获得关于人(例如，用户)的多媒体数据101。例如，多媒体数据101可以包括关于人的图像数据、视频数据、音频数据、文本数据、图形数据和生物特征数据中的两个或更多个。多媒体数据101可以是当用户表达情绪时通过感测电子设备1的用户而生成的数据、或者是先前生成并存储的数据。多媒体数据101可以是通过电子设备1的接口从外部输入的数据。通过感测用户而生成的数据可以是但不限于，作为通过麦克风感测用户的语音或对话的结果的音频数据、作为通过相机感测用户的面部的结果的图像或视频数据、作为通过生物特征传感器感测用户的身体状态的结果的生物特征数据等。

本文提供的实施例通过辨识和/或识别人类情绪状态来改善人和电子设备(例如，AI系统)之间的通信。为了辨识用户的情绪，可以使用神经网络模型(例如，深度学习模型)。如上所述，例如，情绪包括源于个人的环境、心情或与他人的关系的自然本能心理状态。通信包括信息或新闻的传递或交换。将各种形式的多媒体数据(诸如人声等)、以及人类面部表情应用于神经网络模型使得能够准确识别人类情绪。对人类情绪的准确识别改善了依赖于人类和包括AI系统的电子设备之间的通信的AI服务。

在一些实施例中，使用诸如语言、语音和面部表情的各种信息来在人和包括AI系统的设备之间进行通信。在一些实施例中，深度学习(DL)模型辨识、识别或确定人的情绪。在一些实施例中，使用来自一个以上的DL模型的信息的融合或组合，以便在辨识人的情绪时做出最终决定。

电子设备1的基于多模态的情绪辨识器110可以将获得的多媒体数据101的至少一部分应用于多个神经网络模型(例如，深度学习模型)111至113(例如，第一神经网络模型111至第三神经网络模型113)中的每一个。神经网络模型可以是根据基于AI算法的监督学习方案或无监督学习方案学习的模型。神经网络模型可以包括具有权重的多个网络节点，这些网络节点位于不同的深度(或层)，并且可以根据卷积连接关系发送和接收数据。例如，诸如但不限于深度神经网络(DNN)、递归神经网络(RNN)、双向递归深度神经网络(BRDNN)等的模型可以用作神经网络模型。

在本公开中，神经网络模型被设计为预测人类情绪，并且可以是但不限于语音模型、视觉模型、面部表情模型、语言模型、姿态模型、体温模型、脑波模型等。在一些实施例中，预测之后是来自人的反馈。

在图1中，电子设备1在左上角接收基于人的面部/语音/对话的输入作为输入。电子设备1提供输出，即情绪信息103。在示例中，情绪信息103指示惊讶。在一些实施例中，情绪信息103被提供给人。在图1中，该人对情绪信息103的响应是表达“我只是沮丧”。该表达向电子设备1提供反馈。该表达作为输入被反馈辨识器130处接收。在一些实施例中，反馈是更新DL模型的学习步骤的一部分。如何处理反馈会影响与在服务器通信时对网络的使用。如本文所提供的使用权重的情绪预测的有效创建可以通过简化已发送的数据量来避免网络上的过度流量。

在本公开的实施例中，电子设备1可以将多媒体数据101的音频数据应用于语音模型，并将多媒体数据101的语言数据应用于语言模型。在这种情况下，被应用于语言模型的语言数据可以是音频数据由自动语音辨识(ASR)模块处理后的文本形式的数据。电子设备1可以将多媒体数据101的视觉数据(例如，图像数据、视频数据等)应用于视觉模型、面部表情模型或姿态模型。电子设备1可以将多媒体数据101的生物特征数据应用于体温模型或脑波模型。

作为将多媒体数据101的至少一部分应用于多个神经网络模型111、112和113的结果，电子设备1可以分别从多个神经网络模型111、112和113获得预测值102a、102b和102c。尽管在图1中示出了多个神经网络模型111至113包括在电子设备1中，但是多个神经网络模型111至113中的至少一个可以存在于与电子设备1相连的外部设备(例如，服务器)中。在这种情况下，电子设备1可以将多媒体数据101的至少一部分发送到外部设备，并且从外部设备获得预测值102a、102b和102c。

电子设备1可以通过将获得的预测值102a、102b和102c应用于权重模型120来获得关于人的情绪信息103。情绪信息可以是但不限于愤怒、厌恶、恐惧、快乐、中立、悲伤和惊讶之一。在图1中，电子设备1可以获得“惊讶”作为情绪信息103。

电子设备1可以向用户提供获得的情绪信息103。例如，作为获得的情绪信息103，电子设备1可以通过扬声器输出作为听觉信息的语音、通过显示器输出作为视觉信息的显示图形、或者输出作为触觉信息的振动/温度/刺激等。例如，电子设备1可以输出声音“你很惊讶！”作为与情绪信息103相对应的自然语言。

一旦情绪信息103被提供，用户可以提供关于情绪信息103的反馈。例如，用户可能会说“我只是沮丧”。例如，反馈包括关于对产品的反应的信息、关于人对于任务的表现的信息等，这些信息作为用于改进的基础。

电子设备1的反馈辨识器130可以通过将用户的反馈应用于多个神经网络模型(例如，电子设备1的多个神经网络模型111至113)中的至少一个来获得用户的反馈信息104。根据本公开的各种实施例，多个神经网络模型111至113中的至少一个可以存在于与电子设备1相连的外部设备(例如，服务器)中。在这种情况下，电子设备1可以向外部设备发送用户反馈，并从外部设备获得反馈信息104。

例如，电子设备1的反馈辨识器130可以通过将作为感测用户的话语的结果的音频数据应用于语音模型或语言模型来获得作为用户的反馈信息104的“厌恶”。电子设备1的更新器140可以通过使用从反馈辨识器130获得的反馈信息104来更新权重模型120。

在通过反映用户的反馈来更新权重模型120的情况下，电子设备1可以演进为能够准确辨识用户的情绪的用户定制设备。也就是说，一旦获得了关于用户的附加多媒体数据，电子设备1可以准确地预测用户的情绪。

更具体地，电子设备1可以获得关于人(例如，用户)的新的多媒体数据。在获得新的多媒体数据的情况下，电子设备1可以将新的多媒体数据应用于多个神经网络模型111至113中的每一个。

作为将多媒体数据101的至少一部分应用于多个神经网络模型111、112和113的结果，电子设备1可以分别从多个神经网络模型111、112和113获得新的预测值。电子设备1可以通过将获得的新的预测值应用于由更新器140更新的权重模型120来获得关于用户的新的情绪信息。

电子设备1可以向用户提供获得的新的情绪信息。例如，电子设备1可以提供听觉、视觉或触觉信息作为新的情绪信息。

图2是根据本公开的实施例的电子设备的框图。

如图2所示，电子设备1可以包括存储器10和处理器20。

根据本公开的电子设备1可以包括智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、台式PC、膝上型计算机、上网本计算机、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、医疗设备、相机或可穿戴设备中的至少一种。可穿戴设备可以包括附件型设备(例如，手表、戒指、手镯、脚链、项链、眼镜、接触式镜片或头戴式设备(HMD))、织物或服装集成设备(例如，电子服装)、身体附着型设备(例如，皮肤垫或纹身)或身体可植入设备中的至少一种。在本公开的各种实施例中，电子设备1可以包括，例如，电视机(TV)、数字视频盘(DVD)播放器、音频仪器、冰箱、空调、真空吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、TV盒(例如，Samsung HomeSync^TM、Apple TV^TM或Google TV^TM)、游戏控制台(例如，Xbox^TM、Playsatation^TM)、电子词典、电子钥匙、摄录机和电子相框等。

在本公开的其他实施例中，电子设备1可以包括各种医疗仪器(例如，各种便携式医疗测量设备(血糖仪、心率测量设备、血压测量设备、体温测量设备等)、磁共振血管造影术(MRA)、磁共振成像(MRI)、计算机断层摄影(CT)、成像设备或超声波设备)、导航设备、全球导航卫星系统(GNSS)、事件数据记录器(EDR)、飞行数据记录器(FDR)、车辆信息娱乐(infotainment)设备、船舶电子仪器(例如船舶的导航系统和陀螺罗盘)、航空电子设备、安全设备、车辆的头部单元、工业或家庭机器人、无人机、自动柜员机(ATM)、销售点(POS)、物联网(例如，电灯泡、各种传感器、电表或煤气表、洒水器设备、火灾报警设备、恒温器、路灯、烤面包机、健身机、热水罐、加热器、锅炉等)中的至少一种。

根据本公开的另一实施例，电子设备1可以包括家具、建筑/结构的一部分或车辆的一部分、电子板、电子签名接收设备、投影仪和各种测量仪器(例如，水、电、气、电波测量设备等)。

在图2中，在存储器10中，可以存储用于驱动电子设备1的各种操作系统(OS)，并且可以存储用于电子设备1的操作的各种软件程序(或应用)以及用于电子设备1的操作的数据和指令。程序的至少一部分可以通过无线或有线通信从外部服务器下载。存储器10可以用非易失性存储器、易失性存储器、闪存、硬盘驱动器(HDD)、固态驱动器(SSD)等来实现。存储器10由处理器20访问，并且可以由处理器20执行对数据的读取/写入/修改/删除/更新。

关于人的多媒体数据可以被存储在存储器10中。存储器10可以包括用于预测人的情绪的多个软件模块。多个软件模块可以包括多个神经网络模型。例如，可以使用电子设备1、基于用户特性信息从服务器下载神经网络模型，并且可以将神经网络模型存储在存储器10中。存储器10可以存储用于调整从被配置为预测用户的情绪的多个神经网络模型获得的预测值的权重模型。

处理器20可以控制电子设备1的上述组件。例如，处理器20可以通过使用存储在存储器10中的多个软件模块来预测用户的情绪、或者获得关于用户的情绪信息。

在本公开中，处理器20可以将存储在存储器10中的各种程序复制到随机存取存储器(RAM)，并执行这些程序以执行各种操作。尽管在本公开中已经描述了处理器20包括一个CPU，但是处理器20也可以用多个CPU(或者数字信号处理器(DSP)、片上系统(SoC)等)来实现。特别地，处理器20可以包括被优化为使用被学习以辨识人的情绪的AI模型的专用神经处理单元。根据本公开的各种实施例，处理器20可以被实现为处理数字信号的数字信号处理器(DSP)、微处理器或时间控制器(TCON)。然而，处理器20不限于上述示例，并且可以包括中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)、通信处理器(CP)和ARM处理器中的一个或多个、或者可以被定义为相应的术语。处理器20可以用具有嵌入其中的处理算法的SoC、大规模集成或现场可编程门阵列来实现。

在本公开的各种实施例中，处理器20可以获得关于人的第一多媒体数据。处理器20可以通过将第一多媒体数据的至少一部分应用于多个神经网络模型中的每一个来获得人的多个第一预测值。多个神经网络模型可以基于人的特性信息从外部服务器被选择性地下载。处理器20可以通过将多个第一预测值应用于权重模型来获得人的第一情绪信息。处理器20可以获得与人的第一情绪信息相对应的反馈信息，并且通过使用反馈信息来更新存储的权重模型。在权重模型被更新的情况下，处理器20可以获得关于人的第二多媒体数据，并且通过将第二多媒体数据的至少一部分应用于多个神经网络模型中的每一个来获得人的多个第二预测值。处理器20可以通过将多个第二预测值应用于使用用户反馈信息更新的权重模型来获得人的第二情绪信息。

在本公开的各种实施例中，在更新权重模型的情况下，处理器20可以更新权重模型中与反馈信息相对应的情绪的权重值。

根据本公开的各种实施例，权重模型可以包括将被应用于从根据情绪分类的多个深度学习模型获得的预测值的权重值。

根据本公开的各种实施例，在通过将多个第一预测值应用于权重模型来获得人的第一情绪信息的情况下，处理器20可以通过将多个第一预测值应用于权重模型来生成多个情绪模型，多个情绪模型中的每一个包括多个情绪的置信度值，并且基于包括在多个情绪模型中的多个情绪的置信度值来获得人的第一情绪信息。

根据本公开的各种实施例，在基于包括在多个情绪模型中的多个情绪的置信度值来获得人的第一情绪信息的情况下，处理器20可以基于具有在包括在多个情绪模型中的多个情绪的置信度值中的最大值的情绪候选来获得人的第一情绪信息。

根据本公开的各种实施例，在基于具有包括在多个情绪模型中的多个情绪的置信度值中的最大值的情绪候选来获得人的第一情绪信息的情况下，处理器20可以获得在具有最大值的情绪候选中、具有最多选票(vote)的主情绪候选，作为人的第一情绪信息。在一些实施例中，对于给定的情绪模型，具有最大值的每个情绪候选被赋予一张选票来被投出(cast)。

根据本公开的各种实施例，处理器可以通过将用户的反馈应用于多个神经网络模型中的至少一个来获得反馈信息。反馈信息可以包括人的语音、面部表情、动作或生物特征变化中的至少一个。

图3示出了根据本公开的实施例的电子设备预测情绪的过程。

参考图3，电子设备1可以获得多媒体数据。例如，多媒体数据可以包括音频数据301、视觉数据302和语言数据303。语言数据可以是音频数据由ASR模块处理后的文本形式的数据。

电子设备1可以根据包括在多媒体数据中的数据的每种模态，将多媒体数据应用于主干模型310。主干模型310可以包括音频模型311、视觉模型312和语言模型313。电子设备1可以将音频数据301应用于音频模型311，将视觉数据302应用于视觉模型312，并将语言数据303应用于语言模型313。

作为应用的结果，电子设备1可以从主干模型310中的每一个获得各个情绪的预测值。预测值可以包括每种情绪的概率或每种情绪的置信度值。

电子设备1可以通过将包括在权重模型320中的权重值应用于每种情绪的预测值来生成情绪模型(或情绪专家模型)330。情绪模型330可以包括能够很好地识别每种情绪的每个模型。例如，“愤怒”的专家模型331可以表示能够最佳地识别愤怒情绪的模型，“厌恶”的专家模型332可以表示能够最佳地识别厌恶情绪的模型，“恐惧”的专家模型333可以表示能够最佳地识别恐惧情绪的模型，“快乐”的专家模型334可以表示能够最佳地识别快乐情绪的模型，“中立”的专家模型335可以表示能够最佳地识别中立情绪的模型，“悲伤”的专家模型336可以表示能够最佳地识别悲伤情绪的模型，并且“惊讶”的专家模型337可以表示能够最佳地识别惊讶情绪的模型。

接下来，电子设备1可以通过使用由情绪模型330提供的输出值来获得关于用户的情绪信息。例如，电子设备1可以获得与情绪模型330中的每一个的最大值相对应的情绪作为情绪候选。电子设备1可以对获得的情绪候选进行投票340。作为投票的结果，电子设备1可以在获得的情绪候选中选择具有最多选票的情绪候选。电子设备1可以识别所选情绪候选是否与从与所选情绪候选相对应的情绪模型中选出(sort)的、与最大值相对应的情绪相匹配。

在所选情绪候选和与最大值相对应的选出的情绪相匹配的情况下，电子设备1可以获得所选情绪候选作为关于人的最终情绪信息。

另一方面，在所选情绪候选和与最大值相对应的情绪不匹配的情况下，电子设备1可以通过细化(refinement)350获得最终情绪信息。例如，除了具有最多选票的所选情绪候选，电子设备1可以选择被投票次多的下一个情绪候选。电子设备1可以识别下一个情绪候选是否匹配从与下一个情绪候选相对应的情绪模型中选出的、与最大值相对应的情绪。在下一个情绪候选和与最大值相对应的选出的情绪相匹配的情况下，电子设备1可以获得下一个情绪候选作为关于人的最终情绪信息。

图4示出了根据本公开的另一实施例的电子设备1预测情绪的过程。

参考图4，电子设备1可以获得多媒体数据。例如，多媒体数据可以包括语音数据401、面部表情数据402、语言数据403、姿态数据404、体温数据405或脑波数据406中的至少一个。

电子设备1可以根据包括在多媒体数据中的数据的每种模态，将多媒体数据应用于神经网络模型。例如，神经网络模型可以包括语音模型411、面部表情模型412、语言模型413、姿态模型415、体温模型416或脑波模型417中的至少一个。

作为应用的结果，电子设备1可以获得矩阵M_S＝[m₁,m₂,m₃,m₄,m₅,m₆]^T，该矩阵包括神经网络模型的各个情绪的置信度值，并且具有N_e x N_x的维度。这里，m_x可以是神经网络模型的输出值，例如，m₁＝[0.1,0.2,0.3,0.1,0.1,0.2,0.0]。这里，N_e指示情绪的数量，并且N_x可以是神经网络模型的数量。

接下来，电子设备1可以通过将权重模型W_e 420应用于各个情绪的置信度值来生成包括情绪模型(或情绪专家模型)430的矩阵M^e _emm。每个情绪模型可以提供针对每种情绪优化的新的置信度值。情绪模型可以由矩阵M^e _emm＝M_s x W_e来指示，并且每个情绪模型可以具有N_e x 1的维度。

在这种情况下，W_e可以是情绪模型的加权因子矩阵，其作为权重模型。例如，W_e可以通过贪婪搜索方法提取。为了找到最优的W_e，可以为每个神经网络模型选择用于为目标情绪e提供最高准确度的加权因子。例如，W₁＝{0.1,0.3,0.1,0.1,0.1,0.3}。

更具体地，在神经网络模型包括两个视觉模型和一个音频模型的情况下，可以从情绪模型中选择用于目标情绪e的三个加权因子。也就是说，对于目标情绪e，W_e＝{w^v0 _e,w^v1 _e,w^a _e}，并且v0，v1和a可以分别指示两个视觉模型和一个音频模型。

参考图4，在情绪专家模型430中，分别地，“愤怒”的情绪模型可以表示为EEM₁＝M_Sx W₁，“厌恶”的情绪模型可以表示为EEM₂＝M_S x W₂，“快乐”的情绪模型可以表示为EEM₃＝M_Sx W₃，并且“惊讶”的情绪可以表示为EEM_N＝M_S x W_N。例如，EEM₁＝[0.1,0.2,0.5,0.0,0.0,0.2,0.0]。

接下来，如440所示，电子设备1可以在包括在每个情绪专家模型中的各个情绪的置信度值中，选出每个情绪专家模型的最大值。因此，可以获得与每个情绪专家模型的具有最大值的置信度值相对应的情绪作为情绪候选。例如，从第i个情绪专家模型中选择的情绪候选可以表示为e^ⁱ＝argmax{Mⁱ _emm}。

参考图4，e₁可以指示从EEM₁获得的情绪候选，e₂可以指示从EEM₂获得的情绪候选，e₃可以指示从EMM₃获得的情绪候选，并且e_N可以指示从EMM_N获得的情绪候选。

接下来，如450所示，电子设备1可以对所选N_e个情绪候选进行投票。例如，投票的结果可以包括1到N_e。根据多数投票，电子设备1可以选择情绪候选e^被投票最多(或拥有最多选票)。电子设备1可以确定所选情绪候选e^作为关于人的情绪信息。

在本公开的另一实施例中，电子设备1可以在情绪专家模型430的各个情绪的置信度值中选择置信度值大于或等于阈值的、具有最多选票的情绪候选e^。

在本公开的另一实施例中，电子设备1可以对情绪专家模型430的各个情绪的置信度值中大于或等于阈值的置信度值进行求和，并选择与具有最大求和值的置信度值相对应的情绪作为情绪候选e^。

另外，电子设备1可以通过细化460来识别关于人的最终情绪信息e^*。将参考图5A-图5B的流程图更详细地描述通过细化功能识别关于人的最终情绪信息e^*的示例。

图5A和图5B是根据本公开的实施例的电子设备预测情绪的过程的流程图。

参考图5A-图5B，在操作501中，电子设备1可以获得输入信号。例如，电子设备1可以获得多媒体数据作为输入信号。

在操作503中，电子设备1可以根据数据的模态将包括在获得的多媒体数据中的数据应用于神经网络模型。

在操作504中，作为应用的结果，电子设备1可以从神经网络模型获得每种情绪的预测值(或置信度值或者概率值)。预测值的范围可以从0到1.0。

例如，图6的(a)示出了从神经网络模型获得的每种情绪的预测值的示例。作为将音频数据应用于音频模型611的结果，电子设备1可以获得情绪特定的预测值611-1。例如，音频模型611的情绪特定的预测值611-1可以包括{愤怒，0.01}、{厌恶，0.01}、{恐惧，0.02}、{快乐，0.45}、{中立，0.2}、{悲伤，0.21}和{惊讶，0.1}。在另一示例中，作为将视觉数据应用于视觉模型612的结果，电子设备1可以获得情绪特定的预测值612-1。在另一示例中，作为将语言数据应用于语言模型613的结果，电子设备1可以获得情绪特定的预测值613-1。

一旦获得了多个神经网络模型中的每一个的多个情绪中的每一个的预测值，电子设备1可以将权重模型应用于所获得的每种情绪的预测值。

例如，图6的(b)示出了权重模型(或加权因子)的示例。例如，权重模型可以包括用于识别特定情绪的多个神经网络模型中的每一个的比率。例如，在图6的(b)中，用于“愤怒”621的多个神经网络模型的权重值(或权重比率)可以是{音频模型，0.7}、{视频模型，0.2}和{语言模型，0.1}。在这种情况下，权重模型可以是已经通过学习生成的模型。例如，权重模型可以是基于电子设备1的用户的特性(例如，性别、年龄、地区、习惯等)所选的模型。权重模型可以在电子设备1的用户的注册或与本公开的实施例相关的应用的安装期间从服务器下载并安装。

电子设备1可以生成多个情绪模型(或情绪专家模型)，作为将权重模型应用于多个情绪中的每一个的预测值的结果。每个情绪模型可能意味着能够最佳地识别特定情绪的模型。每个情绪模型可以包括多个情绪中的每一个的置信水平。

例如，图6的(c)示出了多个情绪模型。在图6的(c)中，“愤怒”的情绪模型631可以包括愤怒的概率值631-1，其是图6的(a)中的神经网络模型的预测值和图6的(b)中的“愤怒”621的权重值的乘积。

更具体地，在图6的(a)中用于“愤怒”的神经网络模型的预测值是{音频模型，0.01}、{视频模型，0.01}和{语言模型，0.06}的情况下，预测值可以经受与图6的(b)中“愤怒”621的权重值：{音频模型，0.7}、{视频模型，0.2}和{语言模型，0.1}的矩阵运算。作为矩阵运算的结果，“愤怒”的情绪模型631中的“愤怒”的概率值可以是“0.015”，如图6的(c)所示。类似地，在图6的(a)中用于“厌恶”的神经网络模型的预测值是{音频模型，0.01}、{视频模型，0.02}和{语言模型，0.01}的情况下，预测值可以经受与图6的(b)中“愤怒”621的权重值：{音频模型，0.7}、{视频模型，0.2}和{语言模型，0.1}的矩阵运算。作为矩阵运算的结果，“愤怒”的情绪模型631中的“厌恶”的概率值可以是“0.012”，如图6的(c)所示。

在一些实施例中，每个情绪模型被赋予一票来被投出。在图6(c)的示例中，编号为631、632、...637将有一张选票可以投。因此，对于本示例，投出的选票总数为7。

一旦使用权重模型生成了情绪模型，在操作505中，电子设备1可以获得所生成的情绪模型中的每一个的结果值。例如，结果值可以是包括在每个情绪模型中的情绪中的每一个的置信度值。

在操作506中，电子设备1可以在各个情绪的置信度值中选择N_e个情绪候选。

在图5b的操作507中，在选择情绪候选时，电子设备1可以在情绪候选中选择具有最多选票的主情绪候选e^(图5b是图5a的延续，如指向符号“A”的图5a的操作506所示，并且图5b的操作507由符号“A”指向)。在一些实施例中，每个情绪模型被赋予一张选票。例如，对于每个情绪模型，电子设备1可以选出具有最大值的置信度值。参考图6的(c)，“愤怒”的专家模型631中具有最大置信度值的情绪是{快乐，0.405}，“厌恶”的专家模型632中具有最大置信度值的情绪是{中立，0.375}，“恐惧”的专家模型633中具有最大置信度值的情绪是{快乐，0.345}和{中立，0.345}，“快乐”的专家模型634中具有最大置信度值的情绪是{中立，0.385}，“中立”的专家模型635中具有最大置信度值的情绪是{中立，0.41}，“悲伤”的专家模型636中具有最大置信度值的情绪是{中立，0.34}，并且“惊讶”的专家模型637中具有最大置信度值的情绪是{快乐，0.375}。这种情况下，中立具有5张选票，并且快乐具有3张选票。中立被选为主情绪候选e^。也就是说，在对从情绪模型631至637中的每一个中选出的情绪候选的数量进行计数之后，电子设备1选择“中立”，因为被投票5次的“中立”与作为主情绪候选e^的选票的最大数量相对应。

一旦选择了主情绪候选e^，在操作508中，电子设备1可以识别所选主情绪候选e^是否与e^-相同，参见图5b的操作526(“在e^的情绪模型中，将具有最大置信度值的情绪识别为e^-”)，e^-可以是在与所选情绪候选e^相对应的情绪模型M^ⁱ _emm中具有最大置信度值的代表性情绪。例如，在图6(c)中，在项635处，最大置信度值为0.41，并且其与中立相关联，因此e^-对应于中立，并且e^-等于e^。

一般，在操作508中，在所选情绪候选e^与e^-相同(是)的情况下，在操作509中，电子设备1可以将主情绪候选e^添加到作为关于人的情绪信息的e^*候选组。

在操作510中，电子设备1可以识别包括在e^*候选组中的e^*候选的数量是否为1。

在操作510中，在候选e^*的数量为1(是)的情况下，在操作511中，电子设备1可以将一个e^*候选识别为作为关于人的最终情绪信息的e^*。

例如，参考图6的(c)，作为对从情绪模型631至637中的每一个选出的情绪候选进行投票的结果，电子设备1可以选择“中立”。在这种情况下，电子设备1可以识别“中立”的专家模型635中具有最大置信度值的情绪是否也是“中立”。在两种情绪彼此匹配的情况下，电子设备1可以将“中立”识别为关于人的最终情绪信息。

同时，在操作510中，e^*候选的数量是多个(否)的情况下，电子设备1可以对包括在情绪模型中的e^*候选的置信度值进行平均，并且将具有最大置信度值的e^*候选识别为作为最终情绪信息的e^*。

根据本公开的各种实施例，在操作508中，所选情绪候选e^可以不与e^-相同(否)。在这种情况下，在操作521，电子设备1可以更新情绪候选列表以排除主情绪候选e^。因此，尽管赢得了投票，在一些情况下，情绪候选可能被排除。作为操作523中更新的结果，在情绪候选列表不为空(否)的情况下，电子设备1可以从包括在列表中的情绪候选中重新选择具有最多选票的主情绪候选e^，并且重复上述操作507至512。

参考图6的(c)，尽管作为投票给情绪候选的结果而具有最多选票的情绪是“中立”，但是在“中立”的专家模型635中具有最大置信度值的情绪可以不是“中立”，而是“快乐”。在这种情况下，电子设备1可以选择被投票次多的情绪作为投票情绪候选的结果，并且针对所选情绪重复上述操作507至512。

同时，在操作523中，作为更新情绪候选列表的结果，在情绪候选列表为空(是)的情况下，在操作524中，电子设备1可以对包括在情绪模型中的每一个的各个情绪的置信度值进行平均，并且将具有最大置信度值的情绪识别为作为最终情绪信息的e^*。

图7示出了根据本公开的实施例的电子设备更新权重模型的过程。

参考图7的(a)，电子设备1可以辨识多媒体数据并提供情绪信息e^*。上面已经参考图4和图5描述了电子设备1确定e^*的过程，因此将避免重复的描述。

在图7中，一旦从用户接收到了对情绪信息701的反馈作为对提供情绪信息的响应，电子设备1的更新器710可以获得与用户的反馈相对应的反馈信息702。更新器710可以更新情绪模型的生成所需的权重模型。权重模型可以更新专家情绪模型(EEM)的加权因子。

更新器710可以识别权重值将降低的神经网络模型和将被更新的情绪。

更新器710可以从神经网络模型中选择具有与反馈信息相对应的置信度值中的最小置信度值的神经网络模型。例如，在图7的(a)中，在通过对多媒体数据的辨识提供的情绪信息是“快乐”的情况下，用户反馈信息可以是“中立”。在这种情况下，更新器710可以将待更新的情绪识别为“中立”，并且将具有与“中立”相对应的置信度值中的最小置信度值721-1的音频模型721识别为图7的(b)的中立网络模型720中权重值将降低的中立网络模型。

一旦更新器710识别出权重值将降低的神经网络模型和将被更新的情绪，更新器710可以调整权重模型中要被更新的情绪的权重值。例如，更新器710可以降低权重模型中与所识别出的神经网络模型的反馈信息相对应的情绪的权重值。更新器710可以增加权重模型中与除了所识别出的神经网络模型之外的其他神经网络模型中的每一个的反馈信息相对应的情绪的权重值。例如，如图7的(c)所示，更新器710可以将更新前的权重模型730的待更新的情绪识别为“中立”，并通过更新“中立”的权重值741来生成更新后的权重模型740。权重值也可以被称为加权因子。更具体地，更新器710可以将音频模型731中的“中立”的权重值降低恒定值△(例如，0.05)，并将其他中立网络模型(即，视频模型732和语言模型733)中的“中立”的权重值增加恒定值△/(N_x-1)(例如，0.025)。

因此，图7示出了通过其调整加权因子的学习过程(项710“EEM加权因子更新器”)。在图7中，左下角的表被描述为“更新前”，而右下角的表被描述为“更新后”。如上所述，对于该示例，基于反馈信息702，音频模型的中立的权重值从0.1降低到0.05。

图8示出了根据本公开的实施例的购买和使用电子设备的过程。

在图8中，在操作801中，用户可以购买电子设备1。在操作802中，用户可以在电子设备1中注册用户的生物特征信息。例如，用户可以注册生物特征信息，诸如用户的面部、体形、指纹、虹膜等。在操作803中，用户还可以在电子设备1中输入用户的特性(例如，个人信息)。例如，用户可以直接输入用户的居住区、性别、年龄、种族、偏好等、或者从候选列表中选择它们。

一旦电子设备1获得了用户的生物特征信息和个人信息，在操作804中，电子设备1可以基于关于用户的特性的用户特性信息，从外部设备(例如，服务器)下载神经网络模型。

神经网络模型可以包括语音模式、面部表情模型(或图像辨识模型)、语言模型、姿态模型、体温模型或脑波模型中的至少一个，并且根据本公开的各种实施例，可以为上述类型的每个神经网络模型下载多个神经网络模型。例如，作为面部表情模型，可以下载女性面部表情模型和男性面部表情模型，以及儿童面部表情模型和成人面部表情模型。

在操作805中，电子设备1可以基于用户特性信息设置权重模型的加权因子。电子设备1可以基于用户特性信息和下载的神经网络模型的类型或特性来设置权重模型的加权因子。

此后，如图8所示，在生成用户请求的情况下或者在预设情况下，在操作811中，电子设备1可以辨识用户。

一旦电子设备1辨识出用户，在操作812中，电子设备1可以对所辨识出的用户执行情绪辨识。例如，电子设备1可以辨识关于用户的多媒体数据，并提供关于用户的情绪信息作为辨识结果。在这种情况下，电子设备1可以针对先前注册的人执行情绪辨识。例如，电子设备1可以仅针对其个人信息已被输入的人(例如，用户、家庭成员等)执行情绪辨识。

一旦情绪信息被提供为由电子设备1辨识出的情绪，在操作813中，用户可以对由电子设备1辨识出的情绪表达反馈。例如，在由电子设备1辨识出的情绪是“惊讶”的情况下，用户表达的反馈可以是“厌恶”。

在这种情况下，电子设备1可以通过反映用户的反馈来更新权重模型的加权因子。例如，如图7所述，电子设备1可以识别权重模型中要被更新的至少一种情绪，并调整要被更新的至少一种情绪的权重值。

图8包括初始化(801-805)和个性化(811-814)。

在初始化期间，在一些实施例中，获得用户信息(802-803)。

在初始化结束时，在一些实施例中，已经基于用户信息设置了加权因子(805)。

在个性化期间，在一些实施例中，辨识用户(811)；辨识情绪(812，也参见图1多媒体数据101和情绪信息103)，并且可以将情绪信息提供给用户(例如，参见图1，“你很惊讶。”)。用户表达关于所提供的情绪信息的反馈。例如，在信息“你很惊讶”的情况下，这个人可以提供反馈“我只是沮丧”。该反馈被接受为输入，并且加权因子基于该反馈被更新(814)。

图9A至图9C示出了根据本公开的实施例的使用电子设备的场景。

在本公开的实施例中，在图9a的(a)中，在操作901中，一旦电子设备1获得了关于用户的面部/语音/对话的多媒体数据，则在操作902中，电子设备1可以执行基于多模态的情绪辨识。根据本公开的实施例，基于多模态的情绪辨识可以是使用多个神经网络模型、权重模型和情绪模型的情绪辨识。

在电子设备1辨识出用户的情绪的情况下，电子设备1可以向用户提供作为情绪辨识的结果的情绪信息。例如，电子设备1可以输出语音“你很惊讶！”903作为与情绪信息相对应的自然语言。

一旦提供了情绪信息，用户可以提供对情绪信息的反馈。例如，用户可以使用语言提供反馈，即“我只是沮丧。”904。

在操作905中，电子设备1可以通过辨识用户的反馈来更新情绪辨识模块。电子设备1可以从用户的反馈中辨识出用户的真实情绪是“厌恶”。电子设备1可以通过使用辨识的结果来更新包括在情绪辨识模块中的权重模块。

在本公开的另一实施例中，在图9a的(b)中，在操作911中，一旦电子设备1获得了关于用户的面部/语音/对话的多媒体数据，则在操作912中，电子设备1可以执行基于多模态的情绪辨识。

在电子设备1辨识出用户的情绪的情况下，电子设备1可以向用户提供作为情绪辨识的结果的情绪信息。例如，电子设备1可以输出声音“你很惊讶！”913作为与情绪信息相对应的自然语言。

一旦提供了情绪信息，用户可以通过使用语言和现有照片来提供关于情绪信息的反馈。例如，用户可以从包括在相册中的照片中选择具有面部表情“惊讶”的照片，同时以语言提供反馈，即“当我惊讶时，我的面部表情是这样的。”914。

在操作915中，电子设备1可以通过辨识用户的反馈来更新情绪辨识模块。例如，电子设备1可以从所选照片中辨识出与用户的情绪“惊讶”相对应的用户的面部。电子设备1可以通过使用辨识的结果来更新包括在情绪辨识模块中的权重模块。

在本公开的另一实施例中，在图9b的(c)中，在操作921中，一旦电子设备1获得了关于用户的面部/语音/对话的多媒体数据，则在操作922中，电子设备1可以执行基于多模态的情绪辨识。

在操作923中，电子设备1可以基于情绪辨识的结果推荐内容(例如，音频内容、视频内容、图像内容等)。

一旦提供了推荐的内容，用户可以提供关于该内容的反馈。例如，在操作924中，在识别出内容之后，用户可以表达负面情绪或正面情绪。

在操作925中，电子设备1可以通过辨识用户的反馈来更新情绪辨识模块。例如，在用户表现出不满意的面部表情或动作的情况下，电子设备1可以将用户的面部或动作辨识为负面情绪。因此，电子设备1可以通过使用辨识的结果来更新包括在情绪辨识模块中的权重模块。

在本公开的另一实施例中，在图9b的(d)中，在操作931中，一旦电子设备1获得了关于用户的面部/语音/对话的多媒体数据，则在操作932中，电子设备1可以执行基于多模态的情绪辨识。

在操作933中，电子设备1可以基于情绪辨识的结果推荐内容(例如，音频内容、视频内容、图像内容等)。

一旦提供了推荐的内容，用户可以提供关于该内容的反馈。例如，在操作934中，在识别出内容之后，用户可以在特定时间(例如，5秒)内终止推荐的内容或选择另一内容。

在操作935中，电子设备1可以通过辨识用户的反馈来更新情绪辨识模块。例如，电子设备1可以从用户的动作中辨识出用户不期望该内容，并且通过使用辨识的结果来更新包括在情绪辨识模块中的权重模型。

在本公开的另一实施例中，在图9c的(e)中，在操作941中，一旦电子设备1获得了关于用户的面部/语音/对话的多媒体数据，则在操作942中，电子设备1可以执行基于多模态的情绪辨识。

在操作943中，电子设备1可以基于情绪辨识的结果推荐内容(例如，音频内容、视频内容、图像内容等)。

一旦提供了推荐的内容，用户可以提供关于该内容的反馈。例如，在操作944中，在推荐的内容被再现之后，用户可以离开电子设备1特定距离(例如，3米或更远)。

在操作945中，电子设备1可以通过辨识用户的反馈来更新情绪辨识模块。例如，电子设备1可以从用户的动作中辨识出用户对内容不感兴趣或者用户希望停止使用电子设备1。因此，在操作945中，电子设备1可以通过使用辨识的结果来更新包括在情绪辨识模块中的权重模块。

在本公开的另一实施例中，在图9c的(f)中，在操作951中，一旦电子设备1获得了关于用户的面部/语音/对话的多媒体数据，则在操作952中，电子设备1可以执行基于多模态的情绪辨识。

在操作953中，电子设备1可以基于情绪辨识的结果推荐内容(例如，音频内容、视频内容、图像内容等)。

一旦提供了推荐的内容，用户可以提供关于该内容的反馈。例如，在操作954中，在推荐的内容被再现之后，用户可以长时间(例如，10分钟或更长)与熟人进行与当前再现的内容无关的对话。

在操作955中，电子设备1可以通过辨识用户的反馈来更新情绪辨识模块。例如，电子设备1可以从用户的反馈中辨识出用户对内容不感兴趣。因此，电子设备1可以通过使用辨识的结果来更新包括在情绪辨识模块中的权重模块。

图10是根据本公开的另一实施例的电子设备的框图。

参考图10，电子设备1可以包括存储器10、处理器20、传感器30、显示器40、通信器50和摄影器60。上面已经参考图2详细描述了存储器10和处理器20，因此不再对其进行描述。

传感器30可以包括陀螺仪传感器、GPS传感器、加速度传感器、照明传感器、湿度传感器或生物特征传感器(例如，虹膜辨识传感器、指纹辨识传感器、血糖传感器等)中的至少一种。电子设备1可以通过使用前述各种传感器中的至少一种检测人的语音、用户的面部表情、用户的动作或用户的生物特征变化(例如，用户瞳孔大小的变化、用户的脉搏数的变化、用户的血流速度的变化、用户的体温的变化、用户的分泌物的变化等)中的至少一个。

显示器40可以显示各种内容或作为对用户情绪的辨识的结果的情绪信息。显示器40可以用液晶显示器(LCD)、有机发光显示器(OLED)、等离子显示面板(PDP)等来实现，并且显示可以通过电子设备1提供的各种屏幕。

通信器50可以包括无线通信模块(例如，蜂窝通信模块、短程无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块(例如，局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中相应的一个可以经由第一网络(例如，短程通信网络，诸如蓝牙(Bluetooth^TM)、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络(例如，远程通信网络，诸如蜂窝网络、互联网或计算机网络(例如，LAN或广域网(WAN))与外部电子设备通信。这些各种类型的通信模块可以被实现为软件、单个组件(例如，单个芯片)或彼此分离的多个组件(例如，多个芯片)。

如上所述，通信器50可以执行与外部服务器的通信。例如，通信器50可以向服务器发送关于人的多媒体数据，并从服务器接收各种结果(例如，用户的情绪的预测值)。在另一示例中，通信器50可以向服务器发送用户特性信息，并且从服务器接收基于用户特性信息的至少一个神经网络模型。

摄影器60可以拍摄人、人周围的环境等。捕获到的图像，连同由传感器30获得的各种数据，可以被发送到能够预测用户的情绪的外部服务器。

图11是根据本公开的实施例的情绪预测装置的框图。

参考图11，情绪预测装置1100可以包括数据学习器1110和情绪预测器1120。情绪预测装置1100可以对应于电子设备1的处理器20、或者可以对应于能够与电子设备1通信的AI服务器的处理器。

数据学习器1110可以训练神经网络模型以具有用于预测用户的情绪的标准。情绪预测装置1100可以通过根据训练好的标准分析输入数据来预测用户的情绪。数据学习器1110可以识别将用于神经网络模型训练的数据。在将用于训练的数据(例如，反馈信息等)被确定了的情况下，数据学习器1110可以通过将获得的数据应用于神经网络模型来训练神经网络模型以预测人的情绪。

情绪预测器1120可以通过使用被配置为预测用户的情绪的先前训练好的神经网络模型，根据数据(例如，多媒体数据的至少一部分)预测用户的情绪。情绪预测器1120可以获得数据(例如，多媒体数据的至少一部分)，并且通过将获得的数据应用于被配置为预测用户的情绪的神经网络模型来预测人的情绪。

数据学习器1110的至少一部分和情绪预测器1120的至少一部分可以以至少一个硬件芯片的形式制造并安装在电子设备上。例如，数据学习器1110或情绪预测器1120中的至少一个可以以人工智能(AI)专用硬件芯片的形式制造、或者可以作为现有通用处理器(例如，中央处理单元(CPU)或应用处理器)或专用图形处理器(例如，图形处理单元(GPU))的一部分制造，并安装在各种电子设备上。在这种情况下，用于AI的专用硬件芯片可以是专用于概率计算的专用处理器，并且由于比现有通用处理器的并行处理性能更高的原因，用于AI的专用硬件芯片可以是在AI的领域(诸如机器学习)中快速处理算术运算的芯片。

数据学习器1110和情绪预测器1120可以用软件模块(或包括指令的编程模块)来实现。软件模块可以存储在非暂时性计算机可读介质中。在这种情况下，软件模块的至少一部分可以由OS提供，并且软件模块的另一部分可以由应用提供。

神经网络模型可以基于神经网络模型的应用领域、学习的目的、设备的计算机性能等来建立。例如，神经网络模型可以包括具有权重值的多个网络节点。多个网络节点可以位于不同的深度(或层)，并且可以根据卷积连接关系发送和接收数据。诸如但不限于深度神经网络(DNN)、递归神经网络(RNN)、双向递归深度神经网络(BRDNN)等的模型可以用作神经网络模型。

尽管在图11的实施例中示出了数据学习器1110和情绪预测器1120安装在一个设备上，但是它们也可以安装在分离的设备上。例如，数据学习器1110和情绪预测器1120之一可以包括在电子设备1中，而另一个可以包括在服务器中。数据学习器1110和情绪预测器1120可以以有线或无线方式连接，使得关于由数据学习器1110建立的、被配置为预测用户的情绪的神经网络模型的信息可以被提供给情绪预测器1120，或者输入到情绪预测器1120的数据可以作为附加学习数据被提供给数据学习器1110。

同时，数据学习器1110或情绪预测器1120中的至少一个可以用软件模块来实现。在数据学习器1110或情绪预测器1120中的至少一个用软件模块(或包括指令的编程模块)实现的情况下，软件模块可以存储在非暂时性计算机可读记录介质中。至少一个软件模块可以由OS或应用提供。至少一个软件模块的一部分可以由OS提供，而其另一部分可以由应用提供。

图12a是根据本公开的实施例的数据学习器的框图。参考图12a，根据本公开的一些实施例的数据学习器1110可以包括数据获得器1111、预处理器1112、学习数据选择器1113、模型学习器1114和模型评估器1115。

数据获得器1111可以获得预测人的情绪所需的数据。特别地，数据获得器1111可以获得多媒体数据或附加数据作为学习数据。

预处理器1112可以预处理获得的数据，使得获得的数据可以用于学习以预测人的情绪。预处理器1112可以将获得的数据处理为预设格式，使得模型学习器1114可以在学习中使用获得的数据来预测人的情绪。

学习数据选择器1113可以从经预处理的数据中选择学习所需的数据。所选数据可以被提供给模型学习器1114。学习数据选择器1113可以根据用于预测人的情绪的预设标准，从经预处理的数据中选择学习所需的数据。学习数据选择器1113还可以根据由模型学习器1114的学习预设的标准来选择数据。模型学习器1114可以基于学习数据学习关于如何预测人的情绪的标准。模型学习器1114还可以学习关于哪些学习数据将用于预测人的情绪的标准。

模型学习器1114可以使用学习数据来训练用于预测人的情绪的数据辨识模型。在这种情况下，神经网络模型可以被预先建立。例如，神经网络模型可以使用输入的基本学习数据来预先建立。在另一示例中，神经网络模型可以使用大数据来预先建立。

神经网络模型可以基于辨识模型的应用领域、学习的目的、设备的计算机性能等来建立。例如，神经网络模型可以基于神经网络。

在本公开的各种实施例中，在多个神经网络模型被预先建立了的情况下，模型学习器1114可以确定在输入的学习数据和基本学习数据之间具有高相关性的神经网络模型作为要被学习的神经网络模型。在这种情况下，基本学习数据可以根据数据类型来被预先分类，并且针对每种数据类型，神经网络模型可以被预先建立。例如，基本学习数据可以根据各种标准(诸如生成学习数据的区域、生成学习数据的时间、学习数据的大小、学习数据的种类、学习数据的生成器、学习数据中的对象的类型等)被分类。

模型学习器1114可以使用诸如误差反向传播或梯度下降的学习算法来学习情绪预测模型。

模型学习器1114使神经网络模型使用具有学习数据作为输入值的监督学习来学习。模型学习器1114可以使神经网络模型使用无监督学习来学习，在无监督学习中，神经网络模型通过学习预测人的情绪所需的数据的类型来发现用于预测人的情绪的标准，而无需单独的监督。模型学习器1114根据关于对基于学习的人的情绪的预测结果是否正确的反馈，使用强化学习来学习神经网络模型。

一旦模型学习器1114学习了神经网络模型，模型学习器1114可以存储被配置为预测人的网络的学习的神经网络模型。在这种情况下，模型学习器1114可以将经学习的神经网络模型存储在电子设备1的存储器10或服务器的存储器中。

在将评估数据输入到被配置为预测人的情绪的神经网络模型之后输出的辨识结果不满足标准的情况下，模型评估器1115可以使模型学习器1114再次学习。在这种情况下，评估数据可以是用于评估神经网络模型的预设数据。

例如，在经学习的神经网络模型关于评估数据的预测结果中，具有不准确预测结果的评估数据的数量或比率超过预设阈值的情况下，模型评估器1115可以评估标准未被满足。

在存在多个经学习的神经网络模型的情况下，模型评估器1115可以评估每个经学习的神经网络模型是否满足标准，并且将满足标准的经学习的神经网络模型确定为最终的神经网络模型。在这种情况下，在多个经学习的神经网络模型满足标准的情况下，模型评估器1115可以将预设的任何一个模型或多个模型确定为用于以更高的评估等级预测人的情绪的最终的神经网络模型。

数据获得器1111、预处理器1112、学习数据选择器1113、模型学习器1114或模型评估器1115中的至少一个可以以至少一个硬件芯片的形式制造并安装在电子设备上。例如，数据获得器1111、预处理器1112、学习数据选择器1113、模型学习器1114或模型评估器1115中的至少一个可以以用于AI的专用硬件芯片的形式制造、或者可以作为现有通用处理器(例如，CPU或应用处理器)的一部分制造并安装在电子设备1或服务器上。

数据获得器1111、预处理器1112、学习数据选择器1113、模型学习器1114和模型评估器1115可以分别安装在一个电子设备或分离的电子设备上。例如，数据获得器1111、预处理器1112、学习数据选择器1113、模型学习器1114和模型评估器1115中的一些可以包括在电子设备中，并且其一些其他的可以包括在服务器中。

数据获得器1111、预处理器1112、学习数据选择器1113、模型学习器1114或模型评估器1115中的至少一个可以用软件模块来实现。当数据获得器1111、预处理器1112、学习数据选择器1113、模型学习器1114或模型评估器1115中的至少一个用软件模块(或包括指令的程序模块)实现时，软件模块可以存储在非暂时性计算机可读介质中。至少一个软件模块可以由OS或应用提供。至少一个软件模块的一部分可以由OS提供，而其另一部分可以由应用提供。

图12b是根据本公开的实施例的情绪预测器1120的框图。参考图12b，根据本公开的实施例的情绪预测器1120可以包括数据获得器1121、预处理器1122、数据选择器1123、预测结果提供器1124和模型更新器1125。

数据获得器1121可以获得预测人的情绪所需的数据，并且预处理器1122可以预处理获得的数据，使得为预测人的情绪而获得的数据可以被使用。预处理器1122可以将获得的数据处理为预设格式，使得预测结果提供器1124可以使用获得的数据来预测人的情绪。

数据选择器1123可以从经预处理的数据中选择预测人的情绪所需的数据。所选数据可以被提供给预测结果提供器1124。数据选择器1123可以根据用于预测人的情绪的预设标准来选择整个经预处理的数据或其一部分。数据选择器1123还可以根据由模型学习器1114的学习预设的标准来选择数据。

预测结果提供器1124可以通过将所选数据应用于被配置为预测人的情绪的神经网络模型来预测用户的情绪。预测结果提供器1124可以通过使用由数据选择器1123选择的数据作为输入值，将所选数据应用于神经网络模型。预测结果可以由神经网络模型确定。例如，预测结果提供器1124可以向情绪预测模型输入用于识别用户的真实情绪的数据，以识别用户的真实情绪。

模型更新器1125可以基于对预测结果提供器1124提供的预测结果的评估来控制要被更新的神经网络模型。例如，模型更新器1125可以包括图1的更新器140。例如，模型更新器1125可以将由预测结果提供器1124提供的预测结果提供给模型学习器1114，以允许模型学习器1114更新神经网络模型。

数据获得器1121、预处理器1122、数据选择器1123、预测结果提供器1124或模型更新器1125中的至少一个可以以至少一个硬件芯片的形式制造并安装在电子设备上。例如，数据获得器1121、预处理器1122、数据选择器1123、预测结果提供器1124或模型更新器1125中的至少一个可以以用于AI专用硬件芯片的形式制造、或者可以作为现有通用处理器(例如，CPU或应用处理器)的一部分制造并安装在电子设备1或服务器上。

数据获得器1121、预处理器1122、数据选择器1123、预测结果提供器1124和模型更新器1125可以分别安装在一个电子设备或分离的电子设备上。例如，数据获得器1121、预处理器1122、数据选择器1123、预测结果提供器1124和模型更新器1125中的一些可以包括在电子设备1中，并且其一些其他的可以包括在与电子设备1一起操作的服务器中。

数据获得器1121、预处理器1122、数据选择器1123、预测结果提供器1124或模型更新器1125中的至少一个可以用软件模块来实现。当数据获得器1121、预处理器1122、数据选择器1123、预测结果提供器1124或模型更新器1125中的至少一个用软件模块(或包括指令的程序模块)实现时，软件模块可以存储在非暂时性计算机可读介质中。至少一个软件模块可以由OS或应用提供。至少一个软件模块的一部分可以由OS提供，而其另一部分可以由应用提供。

根据本公开的各种实施例，电子设备1可以使用AI代理来执行上述操作。在这种情况下，AI代理是用于提供基于AI的服务(例如，语音辨识服务、助理服务、翻译服务、搜索服务等)的专用程序，并且可以由现有的通用处理器(例如，CPU)或单独的AI专用处理器(例如，GPU等)来执行。

参考图13，在操作1301中，电子设备1可以获得关于人的第一多媒体数据。

在操作1302中，电子设备1可以通过将第一多媒体数据的至少一部分应用于被配置为预测人的情绪的多个神经网络模型中的每一个来获得人的多个第一预测值。

在操作1303中，电子设备1可以通过将多个第一预测值应用于调整从多个神经网络模型获得的预测值的权重模型来获得人的第一情绪信息。在这种情况下，权重模型可以包括将被应用于从根据情绪分类的多个神经网络模型获得的预测值的权重值。

根据本公开的各种实施例，电子设备1可以通过将多个第一预测值应用于权重模型来生成多个情绪模型，多个情绪模型中的每一个包括多个情绪的置信度值。电子设备1可以基于包括在多个情绪模型的每一个中的多个情绪的置信度值来获得人的第一情绪信息。具体地，电子设备1可以基于具有包括在多个情绪模型的每一个中的多个情绪的置信度值中的最大值的至少一个情绪候选来获得人的第一情绪信息。电子设备1可以获得在具有最大值的至少一个情绪候选中、具有最多选票的主情绪候选作为人的第一情绪信息。

在操作1304中，电子设备1可以获得关于人的第一情绪信息的反馈信息。例如，电子设备1可以通过将用户的反馈应用于多个神经网络模型中的至少一个来获得反馈信息。

在操作1305中，电子设备1可以通过使用反馈信息来更新权重模型。例如，电子设备1可以更新权重模型中与反馈信息相对应的情绪的权重值。

在对权重模型的更新之后，在操作1306中，电子设备1可以获得关于人的第二多媒体数据。

在操作1307中，电子设备1可以通过将第二多媒体数据的至少一部分应用于多个神经网络模型中的每一个来获得人的多个第二预测值。

在操作1308中，电子设备1可以通过将多个第二预测值应用于使用反馈信息更新的权重模型来获得人的第二情绪信息。

从前面的描述中清楚的是，根据本公开的实施例，通过将反馈信息应用于权重模型，可以为人提供个性化或定制的情绪信息。

本文使用的术语“模块”可以表示例如包括硬件、软件和固件中的一个或两个以上的组合的单元，并且可以与诸如逻辑、逻辑块、部件或电路的术语互换使用。模块可以是适于执行一个或多个功能的单个整体部件、或其最小单元或部件。例如，模块可以被实现为专用集成电路(ASIC)。

本文阐述的各种实施例可以被实现为包括被存储在机器(例如，计算机)可读的机器可读存储介质中的一个或多个指令的软件。机器可以从存储介质调用存储的指令，并根据调用的指令操作，并且可以包括根据公开的实施例的电子设备(例如，电子设备1)。当指令由处理器执行时，处理器可以执行与指令相对应的功能。一个或多个指令可以包括由编译器生成的代码或可由解释器执行的代码。机器可读存储介质可以以非暂时性存储介质的形式提供。其中，术语“非暂时性”简单地表示存储介质是有形设备，并且不包括信号(例如，电磁波)，但是该术语不区分数据半永久地存储在存储介质中的情况和数据临时地存储在存储介质中的情况。

根据本公开的实施例，根据本公开的各种实施例的方法可以包括在计算机程序产品中并在计算机程序产品中被提供。计算机程序产品可以作为产品在卖方和买方之间被交易。计算机程序产品可以以机器可读存储介质(例如，紧凑盘只读存储器(CD-ROM))的形式分发、或者经由应用商店(例如，Play Store^TM)在线分发(例如，下载或上传)、或者直接在两个用户设备(例如，智能电话)之间分发。当在线分发时，计算机程序产品的至少一部分可以被临时生成或至少临时地存储在机器可读存储介质(诸如制造商服务器的存储器、应用商店的服务器或中继服务器)中。

根据本公开的各种实施例，上述组件中的每个组件(例如，模块或程序)可以包括单个实体或多个实体，并且一个或多个上述组件可以被省略、或者一个或多个其他组件可以被添加。可替代地或附加地，多个组件(例如，模块或程序)可以被集成到单个组件中，并且集成的组件仍然可以以与集成之前由多个组件中的相应一个执行的方式相同或相似的方式来执行多个组件中的每一个的一个或多个功能。根据本公开的各种实施例，由模块、程序或另一组件执行的操作可以被顺序地、并行地、重复地或启发式地执行、或者操作中的一个或多个可以以不同的顺序被执行或省略、或者一个或多个其他操作可以被添加。

尽管已经参考如上所述的有限的实施例和附图描述了本公开，但是本公开不限于前述实施例，并且对于本领域普通技术人员来说清楚的是，根据本公开的各种修改和改变是可能的。因此，本公开的范围应该由所附权利要求及其等同物来限定，而不是由所描述的实施例来限定。

Claims

1.一种电子设备，包括：

存储器，存储权重模型，所述权重模型调整从被配置为预测人的情绪的多个神经网络模型获得的多个预测值；以及

至少一个处理器，被配置为：

获得关于人的第一多媒体数据，

通过将所述第一多媒体数据的至少一部分应用于所述多个神经网络模型中的每一个，获得人的多个第一预测值，

通过将所述多个第一预测值应用于所述权重模型来获得人的第一情绪信息，

获得关于人的所述第一情绪信息的反馈信息，

通过使用所述反馈信息更新所述权重模型，

获得关于人的第二多媒体数据，

通过将所述第二多媒体数据的至少一部分应用于所述多个神经网络模型中的每一个，获得人的多个第二预测值，以及

通过将所述多个第二预测值应用于使用所述反馈信息更新的所述权重模型来获得人的第二情绪信息。

2.根据权利要求1所述的电子设备，其中，所述至少一个处理器还被配置为当更新所述权重模型时，更新与所述反馈信息相对应的情绪的权重值。

3.根据权利要求1所述的电子设备，其中，所述权重模型包括将被应用于从根据情绪分类的所述多个神经网络模型获得的预测值的权重值。

4.根据权利要求1所述的电子设备，其中，所述至少一个处理器还被配置为，当获得人的所述第一情绪信息时：

通过将所述多个第一预测值应用于所述权重模型，生成多个情绪模型，所述多个情绪模型中的每一个包括多个情绪的置信度值；以及

基于包括在所述多个情绪模型的每一个中的所述多个情绪的置信度值，获得人的所述第一情绪信息。

5.根据权利要求4所述的电子设备，其中，所述至少一个处理器还被配置为，当获得人的所述第一情绪信息时，基于具有包括在所述多个情绪模型的每一个中的所述多个情绪的置信度值中的最大值的至少一个情绪候选，获得人的所述第一情绪信息。

6.根据权利要求5所述的电子设备，其中，所述至少一个处理器还被配置为，当获得人的所述第一情绪信息时，获得在具有最大值的所述至少一个情绪候选中、具有最多选票的主情绪候选作为人的所述第一情绪信息，其中，所述多个情绪模型的情绪模型中、具有最大值的每个情绪候选被赋予一张选票。

7.根据权利要求1所述的电子设备，其中，所述至少一个处理器还被配置为，当获得所述反馈信息时，通过将人的反馈应用于所述多个神经网络模型中的至少一个来获得所述反馈信息。

8.根据权利要求1所述的电子设备，其中，所述多媒体数据包括关于人的图像数据、视频数据、音频数据、文本数据和图形数据中的两个或更多个。

9.根据权利要求1所述的电子设备，其中，所述多个神经网络模型基于人的特性信息从外部服务器被选择性地下载。

10.根据权利要求1所述的电子设备，其中，所述反馈信息包括人的语音、面部表情、动作或生物特征变化中的至少一个。

11.一种由电子设备执行的获得情绪信息的方法，所述方法包括：

获得关于人的第一多媒体数据，

通过将所述第一多媒体数据的至少一部分应用于被配置为预测人的情绪的多个神经网络模型中的每一个，获得人的多个第一预测值，

通过将所述多个第一预测值应用于调整从多个神经网络模型获得的预测值的权重模型来获得人的第一情绪信息，

获得关于人的所述第一情绪信息的反馈信息，

通过使用所述反馈信息更新所述权重模型，

获得关于人的第二多媒体数据，

12.根据权利要求11所述的方法，其中，对所述权重模型的更新包括更新与所述反馈信息相对应的情绪的权重值。

13.根据权利要求11所述的方法，其中，所述权重模型包括将被应用于从根据情绪分类的所述多个神经网络模型获得的预测值的权重值。

14.根据权利要求11所述的方法，其中，对人的所述第一情绪信息的获得包括：

15.根据权利要求14所述的方法，其中，对人的所述第一情绪信息的获得包括：

基于具有包括在所述多个情绪模型的每一个中的所述多个情绪的置信度值中的最大值的至少一个情绪候选，获得人的所述第一情绪信息。