CN111506183A

CN111506183A - 一种智能终端及用户交互方法

Info

Publication number: CN111506183A
Application number: CN201910095017.2A
Authority: CN
Inventors: 张平
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2020-08-07

Abstract

本发明公开了一种用户交互方法，包括步骤：播放多媒体内容；获取用户在该多媒体内容播放期间的第一人像和/或语音信息；基于所获取的第一人像和/或语音信息来确定用户的第一情绪状态；以及基于所确定的第一情绪状态进行情绪判断，以确定继续播放该多媒体内容或者将该多媒体内容变更为新的多媒体内容。本发明还公开了采用该用户交互方法的智能终端和智能音箱、以及用于确定用于情绪状态的方法。

Description

一种智能终端及用户交互方法

技术领域

本发明涉及用户交互领域，尤其涉及用在智能终端中的用户交互方式领域。

背景技术

随着计算设备及其外围设备的性能不断提升，设备用户和设备之间的交互也变得越来越频繁。例如，用户可以对计算设备发出语音命令，计算设备可以对用户语音命令进行分析并给出恰当的响应。这样的人机交互越来越广泛地在包括智能家居、办公、智能控制、无人驾驶等在内的各种应用领域出现。

在这些人机交互中，如何根据用户的满意程度来提高人机交互的准确性是本领域所面临的一个问题，并亟需解决。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法及装置。

根据本发明的一个方面，提供了一种用户交互方法。该方法包括步骤：播放多媒体内容；获取用户在该多媒体内容播放期间的第一人像和/或语音信息；基于所获取的第一人像和/或语音信息来确定用户的第一情绪状态；以及基于所确定的第一情绪状态进行情绪判断，以确定继续播放该多媒体内容或者将多媒体内容变更为新的多媒体内容。

可选地，根据本发明的用户交互方法还包括步骤：在播放该多媒体内容之前，获取用户的第二人像和/或语音信息；以及基于所获取的第二人像和/或语音信息来确定用户的第二情绪状态。在该用户交互方法中，进行情绪判断的步骤包括：基于第一情绪状态和第二情绪状态，来确定继续播放多媒体内容或者将多媒体内容变更为新的多媒体内容。

可选地，在根据本发明的用户交互方法中，播放多媒体内容的步骤包括：对第二语音信息进行语音识别，以便根据语音识别的内容选择多媒体内容进行播放。

可选地，在根据本发明的用户交互方法中，播放多媒体内容的步骤包括：选择与所确定的第二情绪状态相对应的多媒体内容进行播放。

可选地，在根据本发明的用户交互方法中，第一和第二情绪状态的状态值越大，表示情绪的正面性越强。该用户交互方法中进行情绪判断的步骤包括：如果第一情绪状态值低于第二情绪状态值，则将多媒体内容变更为与更正面的情绪相对应的新多媒体内容。

可选地，在根据本发明的用户交互方法中，确定第一或者第二情绪状态的步骤包括：对语音信息进行语音识别以确定相应的文本内容，并对该文本内容进行识别以确定文本表征的用户情绪状态；对语音信息进行识别以确定音频表征的用户情绪状态；以及组合文本表征的用户情绪状态和音频表征的用户情绪状态以确定第一或者第二情绪状态。

可选地，在根据本发明的用户交互方法中，其中确定第一或者第二情绪状态的步骤还包括：对人像进行图像识别以确定表情表征的用户情绪状态；以及组合文本表征的用户情绪状态、音频表征的用户情绪状态和表情表征的用户情绪状态以确定第一或者第二情绪状态。

可选地，在根据本发明的用户交互方法中，确定文本表征的用户情绪状态的步骤包括在文本内容上应用第一神经网络模型以获取文本表征的用户情绪状态；确定音频表征的用户情绪状态的步骤包括在语音信息上应用第二神经网络模型以获取音频表征的用户情绪状态；以及确定表情表征的用户情绪状态的步骤包括在人像上应用第三神经网络模型以获取表情表征的用户情绪状态。

可选地，在根据本发明的用户交互方法中，第一、第二和第三神经网络模型分别包括CNN和RNN模型中的一个或者多个。

可选地，在根据本发明的用户交互方法中，多媒体内容为音频内容。

根据本发明的另一个方面，提供了一种智能终端。该智能终端包括：媒体播放单元，适于播放多媒体内容；感知单元，适于获取用户的人像和/或语音信息；情绪状态计算单元，适于基于感知单元获取的用户人像和/或语音信息来确定用户的情绪状态；以及控制单元，适于基于情绪状态计算单元确定的情绪状态来控制所述媒体播放单元继续播放所述多媒体内容或者播放新的多媒体内容。

根据本发明的还有一个方面，提供了一种智能音箱。该智能音箱包括：媒体播放单元，适于播放多媒体内容；感知单元，适于获取用户的人像和/或语音信息；以及处理器，适于基于感知单元获取的用户人像和/或语音信息来确定用户的情绪状态；并基于所确定的情绪状态来控制媒体播放单元继续播放多媒体内容或者播放新的多媒体内容。

根据本发明的还有一个方面，提供了一种确定用户情绪的方法，包括步骤：对用户语音进行识别，以确定与用户语音相对应的文字内容；对该文字内容进行识别以确定文本表征的用户情绪状态；对用户语音进行识别以确定音频表征的用户情绪状态；以及根据文本表征的用户情绪状态和音频表征的用户情绪状态，确定表征用户情绪的用户情绪状态。

根据本发明的又一个方面，提供一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行上述方法的指令。

根据本发明的又一个方面，一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行上述的方法。

根据本发明提供的人机交互方案，可以在为用户提供多媒体内容期间，直接或者间接地获取用户对该多媒体内容的情绪反馈，并且根据用户的反馈来决定是否变更多媒体内容，以便为用户提供更正面影响用户情绪的内容，从而可以提高用户的满意度，提高人机交互的效率。

另外，在根据本发明提供的人机交互方案中，可以组合用户的脸部表情、用户语气和用户语言来确定用户的当前情绪。通过参考多个情绪计算来源来提供综合的用户情绪，可以更准确地判断用户情绪状态。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的用户交互系统100的示意图；

图2示出了根据本发明一个实施例的计算设备200的结构图；

图3示出了根据本发明一个实施例的用户交互方法300的示意图；

图4示出了根据本发明另一个实施例的用户交互方法400的示意图；

图5示出了根据本发明一个实施例的确定用户情绪的方法500的示意图；以及

图6示出了根据本发明一个实施例的智能终端600的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的用户交互系统100的示意图。如图1所示，用户交互系统100包括智能终端110和服务器120。智能终端110部署在用户130相关联的环境中，以便可以和用户进行交互。根据一种实施方式，这个环境可以是用户家中的某个房间，智能终端110为部署在该房间中的智能音箱。智能终端110可以包括多媒体播放单元112和感知单元114。多媒体播放单元112可以播放各种多媒体内容。例如，多媒体播放单元112可以包括适于播放音频内容的音频播放单元112a以及播放视频内容的视频播放单元112b。感知单元114可以获取智能终端110周围环境的各种信息，例如各种声音和视频信息等。例如，感知单元114可以包括适于获取视频的摄像头114a和适于获取声音信息的麦克风114b。

在用户交互系统100中，感知单元114适于获取环境的视频和声音信息。智能终端110可以从感知单元114所获取的视频和声音信息中识别出用户的视频和声音信息，尤其是用户的人像和语音信息。智能终端110可以对感知单元所获取的用户视频和/或声音信息进行解析，以确定用户可能发出的指令，并根据该指令执行相关操作。例如，智能终端可以根据解析得到的指令，从互联网上获取相关内容，或者从耦接到智能终端110的服务器120获取与该用户相关联的内容等。随后智能终端110可以经由多媒体播放单元112来输出相关内容，从而实现用户交互。

可选地，智能终端110可以将感知单元114所接收的环境信息发送到服务器120，并在服务器120处，从环境信息中识别出指令内容，并根据指令内容来执行相关操作，并将操作结果返回给智能终端110进行后续处理，例如经由多媒体播放单元112来输出等。

另外，就物理位置关系而言，根据一个实施例，感知单元114和多媒体播放单元112可以不包含在智能终端110中，而且根据用户环境而部署在适于接收用户输入和感知用户信息的位置，并且通过例如蓝牙、局域网或者互联网等连接方式连接到智能终端110。本发明不受限于感知单元114、多媒体播放单元112和智能终端110的布置方式。所有可以经由智能终端110来感知用户信息并为用户输出相关内容的方式都在本发明的保护范围之内。

根据本发明的一个实施方式，在应用场景为用户家中房间的情况下，如上所述，智能终端110为智能音箱。智能音箱包括做为音频播放单元112a的音箱。通过音箱可以为用户播放音乐并以语音方式来输出各种用户查询的内容。智能音箱还包括麦克风阵列114b。麦克风阵列114b可以较高的分辨率接收用户在整个起居室里发出的声音。另外，智能音箱还可以包括摄像头114a，以便捕获用户，特别是用户头像等。

用户130可以利用特定的语音，例如“Hi音箱”等来激活智能音箱。随后，智能音箱可以通过麦克风阵列114b来接收用户的语音信息，并对该语音信息进行解析以获得用户命令，并根据该用户命令执行相关操作，并通过音箱112a来输出。例如，当用户130说“播放xx音乐”时，麦克风阵列114b获取该语音，智能终端110对该语音进行语音识别，确定用户要播放那首音乐，并从服务器120获取该音乐。随后音箱112a播放该音乐，从而完成一次用户交互过程。

根据本发明的一种实施方式，智能终端110可以利用感知单元114来感知用户在收听所播放的多媒体内容期间的情绪，并根据用户情绪来调整所播放的多媒体内容。下面会参考图3-5来描述该处理过程，这里不再进行赘述。

根据本发明的一个实施例，智能终端110可以由如下所述的智能终端200来实现。图2示出了根据本发明一个实施例的智能终端200的结构框图。如图2所示，智能终端200可以包括存储器接口202、一个或多个数据处理器、图像处理器和/或中央处理单元204，以及外围接口206。

存储器接口202、一个或多个处理器204和/或外围接口206既可以是分立元件，也可以集成在一个或多个集成电路中。在智能终端200中，各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子系统可以耦合到外围接口206，以便帮助实现多种功能。

例如，运动传感器210、光线传感器212和距离传感器214可以耦合到外围接口206，以方便定向、照明和测距等功能。其他传感器216同样可以与外围接口206相连，例如定位系统(例如GPS接收机)、加速度传感器、温度传感器、生物测定传感器或其他感测设备，由此可以帮助实施相关的功能。

相机子系统220和光学传感器222可以用于方便诸如记录照片和视频剪辑的相机功能的实现，其中所述相机子系统和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器。可以通过一个或多个无线通信子系统224来帮助实现通信功能，其中无线通信子系统可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子系统224的特定设计和实施方式可以取决于智能终端200所支持的一个或多个通信网络。例如，智能终端200可以包括被设计成支持LTE、3G、GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及Bluebooth^TM网络的通信子系统224。

音频子系统226可以与扬声器228以及麦克风230相耦合，以便帮助实施启用语音的功能，例如语音识别、语音复制、数字记录和电话功能。I/O子系统240可以包括触摸屏控制器242和/或一个或多个其他输入控制器244。触摸屏控制器242可以耦合到触摸屏246。举例来说，该触摸屏246和触摸屏控制器242可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停，其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。

一个或多个其他输入控制器244可以耦合到其他输入/控制设备248，例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。所述一个或多个按钮(未显示)可以包括用于控制扬声器228和/或麦克风230音量的向上/向下按钮。

存储器接口202可以与存储器250相耦合。该存储器250可以包括高速随机存取存储器和/或非易失性存储器，例如一个或多个磁盘存储设备，一个或多个光学存储设备，和/或闪存存储器(例如NAND，NOR)。存储器250可以存储操作系统252，例如Android、iOS或是Windows Phone之类的操作系统。该操作系统252可以包括用于处理基本系统服务以及执行依赖于硬件的任务的指令。存储器250还可以存储应用254(即，应用程序，以下简称应用)。在智能终端运行时，会从存储器250中加载操作系统252，并且由处理器204执行。应用254在运行时，也会从存储器250中加载，并由处理器204执行。应用254运行在操作系统之上，利用操作系统以及底层硬件提供的接口实现各种用户期望的功能，如即时通信、网页浏览、图片管理、视频播放等。应用254可以是独立于操作系统提供的，也可以是操作系统自带的，包括各种社交应用软件，如QQ、微信、微博等，也包括各种视频播放游戏直播等应用软件，还可以包括相册、计算器、录音笔等系统自带应用程序。另外，应用254被安装到智能终端200中时，也可以向操作系统添加驱动模块。

本发明的实施例所提供的用于执行用户交互的方法300和400以及确定用户情绪的方法500的程序分别是在应用254中的相关应用。在一些实施例中，智能终端200被配置为执行根据本发明的用户交互方法300和400以及确定用户情绪的方法400。

图3示出了根据本发明一个实施例的用户交互方法300的示意图。方法300适于在图1所示的智能终端110中来执行。

如图3所示，方法300始于步骤S310。在步骤S310中，播放多媒体内容。根据一种实施方式，智能终端110可以通过感知单元114(例如麦克风114b)获取用户的语音，并通过语音识别来获取用户指令，并随后根据该语音指令从本地或者服务器120获取相应的多媒体内容，并通过多媒体播放单元112来播放。

随后，在步骤S320中，获取用户在步骤S310播放的多媒体内容期间的用户人像和/或语音信息。如上参考图1所述，在智能终端110被激活之后，智能终端110的感知单元114(摄像头114a和麦克风114b)可以获取用户的人像和/或语音信息。根据一种实施方式，感知单元114仅仅包括麦克风114b，所以只能获取用户的语音信息而不能获取用户的人像信息。在另一种实施方式中，由于摄像头114a的视频捕获角度问题而未能捕获到用户人像，并仅仅能够提供用户的语音信息。在还有另一个实施方式中，用户可能未发出任何语音信息，因此感知单元114仅仅可以获取用户的人像信息。只要可以获取用户的人像和语音信息中的任何一种或者两种，则都在本发明的保护范围之内。

接着，在步骤S330中，根据在步骤S320所获取的用户人像和/或语音信息来确定用户的当前情绪状态。人的情绪可以包括悲伤、高兴、生气、无反应(用户不说话无任何表情)等。根据另一种实施方式，除了上面描述的四种情绪类型之外，还可以增加害怕、反感、轻视、困惑、中性(语气语调中性，无表情的倾向)五种情绪类型。对于上述9种情绪类型，可以归类为以下三个类别：

正面情绪：高兴

负面情绪：生气、害怕、反感、轻视、困惑

中性情绪：中性和无反应

根据一种实施方式，在步骤S320中，可以基于所获取的用户人像和/或语音信息来确定用户的当前情绪属于各类情绪的概率值，并进一步确定用户当前情绪属于正面情绪的概率值。

下面参考图5描述了一种在步骤S330中采用的、确定用户情绪的方法500。如图5所示，方式500始于步骤S510，其中对用户语音进行语音文字识别，以确定与该用户语音相对应的文本内容。

随后在步骤S520中，对文本内容进行文字识别，以确定文本表征的、与该文本内容相对应的用户情绪状态，例如属于各种情绪类型的概率。

根据本发明的一种实施方式，可以利用一种神经网络模型来对该文本内容进行处理以获得情绪状态。神经网络模型可以包括字嵌入层、RNN层和概率输出层。文本内容首先在字嵌入层中进行向量化处理，以获取表征文字中的每个字或者字组合的向量。随后，由RNN层来对向量化后的文本内容进行处理。RNN层所采用的算法包括例如LSTM、BLSTM之类的RNN算法。RNN层还可以例如包括进一步的衰减(attention)机制等来对LSTM的输出进行进一步处理。RNN层的输出通常为表征文本中各个字内容以及上下文对该字内容影响的向量。RNN层的输出进入概率输出层。概率输出层例如包括全连接层和SoftMax层。SoftMax层的输出为文本属于每种情绪类型的概率值。根据一种实施例，可以为正面、负面和中性情绪分别输出概率值。根据另一种实施例，可以分别为9种情绪类别输出概率值。

应当注意的是，上面以一种神经网络模型为例给出了根据文本内容来确定与该文本相对应的情绪状态的实施方式。本发明不受限于此，任何可以基于文本内容来确定对应于该文本内容的情绪状态的方式，例如传统的机器学习模型、其他的任何神经网络模型等都在本发明的保护范围之内。

方法500还包括步骤S530。在步骤S530中，对用户语音进行音频识别以确定音频表征的用户情绪状态。用户说话的语气通常也提现出用户当前的情绪状态，从而通过对用户语音进行音频特征分析，也可以获取相应的用户情绪信息。

根据本发明的一种实施方式，可以利用一种神经网络模型来对该用户语音信息进行处理以获得情绪状态。神经网络模型可以包括音频特征提取层、RNN层和概率输出层。音频特征提取层从用户语音中提取音频特征，并对该特征进行向量化处理，以获取表征用户语音的音频特征的向量。例如，可以利用MFCC来获取表征每帧音频的向量值。

随后，由RNN层来对向量化后的音频特征进行处理。RNN层所采用的算法包括例如LSTM、BLSTM之类的RNN算法。RNN层还可以例如包括进一步的衰减(attention)机制等来对LSTM的输出进行进一步处理。RNN层的输出通常为表征音频中各帧的特征以及前后各帧音频对该帧影响的向量。RNN层的输出进入概率输出层。概率输出层例如包括全连接层和SoftMax层。SoftMax层的输出为该音频属于每种情绪类型的概率值。根据一种实施例，可以为正面、负面和中性情绪分别输出概率值。根据另一种实施例，可以分别为9种情绪类别输出概率值。

应当注意的是，上面以一种神经网络模型为例给出了根据语音的音频特征来确定与该音频相对应的情绪状态的实施方式。本发明不受限于此，任何可以基于语音音频来确定对应于该音频特征的情绪状态的方式，例如传统的机器学习模型、其他的任何神经网络模型等都在本发明的保护范围之内。

随后，在步骤S540中，组合在步骤S520获取的文本表征的用户情绪状态和在步骤S530获取的音频表征的用户情绪状态以确定表征用户情绪的用户情绪状态。根据一种实施方式，可以为文本表征的用户情绪状态和音频表征的用户情绪状态进行加权组合，以获取一个考虑这两种分析结果的用户综合情绪状态。例如，可以将用户情绪状态设置为：

用户情绪状态＝文本权重*文本情绪状态+语气权重*音频情绪状态

根据一种实施方式，文本权重可以设置为0.6，而语气权重可以设置为0.4。

可选地，当还可以获取用户的人像信息时，用户脸部的表情，特别是五官的状态也可以体现用户的表情。方法500还可以包括步骤S550。在步骤S550中，对用户产生在步骤S530中进行处理的语音信息期间的用户人像进行图像识别以确定表情表征的用户情绪状态。

根据本发明的一种实施方式，可以利用一种神经网络模型来对该用户图像信息进行处理以获得情绪状态。神经网络模型可以包括图像特征提取层、CNN层和概率输出层。图像特征提取层从用户人像(特别是脸部图像)中提取图像特征，并对该特征进行向量化处理，以获取表征用户脸部图像的图像特征的向量。

随后，由CNN层来对向量化后的图像特征进行处理。CNN层所采用的算法包括例如ResNet、VggNet之类的CNN算法。CNN层一般会包括多个卷积层和池化层来对图像向量进行处理。CNN层的输出进入概率输出层。概率输出层例如包括全连接层和SoftMax层。SoftMax层的输出为该图像属于每种情绪类型的概率值。根据一种实施例，可以为正面、负面和中性情绪分别输出概率值。根据另一种实施例，可以分别为9种情绪类别输出概率值。

应当注意的是，上面以一种神经网络模型为例给出了从人的脸部图像中确定与该图像相对应的情绪状态的实施方式。本发明不受限于此，任何可以基于脸部图像来确定对应于该图像的情绪状态的方式，例如传统的机器学习模型、其他的任何神经网络模型等都在本发明的保护范围之内。

可选地，当方法500还包括步骤S550的处理时，则在步骤S540中，进一步考虑步骤S550获取的与用户的人脸图像相对应的表情情绪状态。因此，在步骤S540中，组合在步骤S520获取的文本表征的用户情绪状态、在步骤S530获取的音频表征的用户情绪状态和步骤S550中获取的表情表征的用户情绪状态以确定表征用户情绪的用户情绪状态。根据一种实施方式，可以为这三种情绪状态值进行加权组合。例如，可以将用户情绪状态设置为：

用户情绪状态＝表情权重*表情情绪状态值+文本权重*文本情绪状态值+语气权重*音频情绪状态值

根据一种实施方式，表情权重可以设置为0.6、文本权重可以设置为0.4，并且语气权重可以设置为0.2。应当注意的是，步骤S540中的各种权重值仅仅是示意性的，本发明不受限于具体的权重值，任何可以综合考虑各种方式计算的情绪值的方式都在本发明的保护范围之内。

返回到方法300中的处理，在步骤S330中利用参考图5所述的方法500确定用户的当前情绪状态之后。随后在步骤S340中，基于在步骤S330所确定的用户当前情绪状态进行情绪判断，以确定是继续返回到步骤S310来播放之前的多媒体内容或者将多媒体内容变更为新的多媒体内容并返回到步骤S310进行播放。

根据本发明的一个实施方式，用户的情绪状态可以指示用户当前处于正面情绪中的概率。当这个概率值较低时，意味着用户在多媒体内容播放期间的情绪较低，则可以为用户提供新的多媒体内容，来帮助用户提高其正面情绪。为此，可以在步骤S340中确定用户情绪状态值低于某个阈值时，改变所播放的多媒体内容，而情绪状态值较高时则不改变多媒体内容。利用这种方式，可以提高用户对智能终端的满意度。

图4示出了根据本发明另一个实施例的用户交互方法400的示意图。在图4中，与图3所示相同或者类似的处理步骤用相同的序号进行指示，并且不再进行赘述。

如图4所示，方法400包括步骤S410，即在步骤S310播放多媒体内容之前，先获取用户的当前人像和/或语音信息。用户可以多种方式来启动在步骤S310中播放多媒体内容的处理。根据一种方式，在智能终端110为智能音箱的场景中，可以获取用户的语音信息，并对该语音信息进行语音识别，以确定相应的播放命令，并根据该播放命令选择相应的多媒体内容以启动内容播放。根据另一个实施方式，在用户已经事先设定好某个应用场景(一旦用户进入起居室就自动播放多媒体内容)时，可以在检测到用户进入起居室时就会启动步骤S310的处理。为此，在步骤S310之前，可以在步骤S410中事先获取到用户的语音信息/人像信息。

随后，在步骤S420中，针对在步骤S410中获取的人像和/或语音信息，确定此时的用户情绪状态。步骤S420中可以与步骤S330中采取的处理类似，采用方法500所描述的方式来确定用户的当前情绪状态。这里不再进行赘述。

随后，继续进行和参考图3所描述的方法300中的步骤S310、S320和S330类似的处理，播放多媒体内容，并获取用户在播放多媒体内容期间的情绪状态。

在步骤S430中，基于步骤S420所获取的、在多媒体内容播放之前的情绪状态和步骤S330所获取的、在多媒体内容播放期间的情绪状态，进行情绪判断，以确定是继续返回到步骤S310来播放之前的多媒体内容或者将多媒体内容变更为新的多媒体内容并返回到步骤S310进行播放。

步骤S430中另外考虑了多媒体内容播放之前的用户情绪状态，这样，就可以更为准确地确定多媒体内容对于用户情绪变为更加正面是否具有影响。如上所述，用户情绪状态值指示用户情绪是否为正面的概率值，情绪状态值越高，用户为正面情绪的概率也越高。根据一种实施方式，如果在多媒体播放期间用户的情绪状态值低于播放之前的用户情绪状态值，则说明多媒体内容对于提高用户正面情绪没有帮助，因此可以改变所播放的多媒体内容，并在步骤S310中播放新的多媒体内容。

根据一种实施方式，可以在步骤S320中每间隔一段时间就获取用户的当前人像/语音信息，并在步骤S330中确定用户当前情绪状态值以及在步骤S340或者步骤S430中定期进行情绪判断，从而可以及时根据用户的情绪变化来修改多媒体内容。

另外，可选地，在步骤S420中，在用户没有明确指定多媒体内容的情况下，可以根据在步骤S420中确定的用户当前情绪状态，选择与所确定的情绪状态相对应的多媒体内容，以便在步骤S310里进行播放。可以事先确定哪些多媒体内容适合在哪些用户情绪情况下播放，可以提高用户的正面情绪。例如，当在步骤S420中检测到用户情绪为正面情绪的概率较低时，可以选择能够激励用户的多媒体内容来进行播放。

在步骤S340或者步骤S430中，类似地，当根据情绪判断的结果，要变更当前播放的多媒体内容时，可以选择与更正面的情绪相对应的新的多媒体内容。

另外，在一些情况下，当情绪判断结果指示变更当前播放的多媒体内容时，可以先提示用户，并且在得到用户的确认之后，更换多媒体内容。

利用上述方法300和400，可以在为用户播放多媒体内容期间，获取用户的情绪变化，并且可以在用户情绪变差时，改变所播放的多媒体内容，以便通过环境的改变来安抚用户，以提高用户对智能终端所营造环境的满意程度，增强用户交互的满意程度。

图6示出了根据本发明一个实施例的智能终端600的示意图。图6所示的智能终端600为智能终端110的逻辑划分形式，而图2所示的智能终端200为智能终端110的物理划分方式，二者都是智能终端的具体实现方式。

如图6所示，智能终端600包括媒体播放单元610、感知单元620、情绪状态计算单元630和控制单元640。媒体播放单元610适于播放多媒体内容。多媒体播放单元610可以包括适于播放音频内容的音频播放单元610a以及播放视频内容的视频播放单元610b。感知单元620可以获取智能终端600周围环境的各种信息，例如各种声音和视频信息等。例如，感知单元620可以包括适于获取视频的摄像头620a和适于获取声音信息的麦克风620b。

情绪状态计算单元630耦接到感知单元620，并基于感知单元620获取的用户人像和/或语音信息来确定用户的情绪状态。例如，情绪状态计算单元630可以利用方法500描述的方式来计算用户情绪状态。

控制单元640耦接到上述各个单元，并对各个单元610-630进行控制，以执行上面参考图3和4描述的用户交互处理。控制单元640可以基于情绪状态计算单元确定的情绪状态来进行情绪判断，并根据判断结果来控制媒体播放单元610继续播放多媒体内容或者播放新的多媒体内容。

可选地，在控制单元640的控制下，感知单元620还可以获取在多媒体内容播放之前的人像和/或语音信息以及在多媒体内容播放期间的第二人像和/或语音信息。情绪状态计算单元适于确定与这些人像和/或语音信息相对应的情绪状态。这样，控制单元640可以基于在多媒体内容播放之前和期间的情绪状态值的相对值，来控制媒体播放单元610继续播放多媒体内容或者将多媒体内容变更为新的多媒体内容。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种用户交互方法，包括步骤：

播放多媒体内容；

获取用户在所述多媒体内容播放期间的第一人像和/或语音信息；

基于所获取的第一人像和/或语音信息来确定用户的第一情绪状态；以及

基于所确定的第一情绪状态进行情绪判断，以确定继续播放所述多媒体内容或者将所述多媒体内容变更为新的多媒体内容。

2.如权利要求1所述的方法，还包括步骤：

在播放所述多媒体内容之前，获取用户的第二人像和/或语音信息；以及

基于所获取的第二人像和/或语音信息来确定用户的第二情绪状态；

其中所述进行情绪判断的步骤包括：基于所述第一情绪状态和第二情绪状态，来确定继续播放所述多媒体内容或者将所述多媒体内容变更为新的多媒体内容。

3.如权利要求2所述的方法，所述播放多媒体内容的步骤包括：对所述第二语音信息进行语音识别，以便根据所述语音识别的内容选择多媒体内容进行播放。

4.如权利要求2所述的方法，所述播放多媒体内容的步骤包括：

选择与所确定的第二情绪状态相对应的多媒体内容进行播放。

5.如权利要求2所述的方法，其中所述第一和第二情绪状态的状态值越大，表示情绪的正面性越强，所述进行情绪判断的步骤包括：

如果所述第一情绪状态值低于所述第二情绪状态值，则将所述多媒体内容变更为与更正面的情绪相对应的新多媒体内容。

6.如权利要求1-5中任一个所述的方法，其中所述确定第一或者第二情绪状态的步骤包括：

对所述语音信息进行语音识别以确定相应的文本内容，并对所述文本内容进行识别以确定文本表征的用户情绪状态；

对所述语音信息进行识别以确定音频表征的用户情绪状态；以及

组合所述文本表征的用户情绪状态和所述音频表征的用户情绪状态以确定所述第一或者第二情绪状态。

7.如权利要求6所述的方法，其中所述确定第一或者第二情绪状态的步骤还包括：对所述人像进行图像识别以确定表情表征的用户情绪状态；以及

所述组合所述文本表征的用户情绪状态和所述音频表征的用户情绪状态的步骤还包括组合所述文本表征的用户情绪状态、所述音频表征的用户情绪状态和表情表征的用户情绪状态以确定所述第一或者第二情绪状态。

8.如权利要求7所述的方法，其中

所述确定文本表征的用户情绪状态的步骤包括在所述文本内容上应用第一神经网络模型以获取所述文本表征的用户情绪状态；

所述确定音频表征的用户情绪状态的步骤包括在所述语音信息上应用第二神经网络模型以获取所述音频表征的用户情绪状态；以及

所述确定表情表征的用户情绪状态的步骤包括在所述人像上应用第三神经网络模型以获取所述表情表征的用户情绪状态。

9.如权利要求8所述的方法，其中所述第一、第二和第三神经网络模型分别包括CNN和RNN模型中的一个或者多个。

10.如权利要求1-9中任一个所述的用户交互方法，其中所述多媒体内容为音频内容。

11.一种智能终端，包括：

媒体播放单元，适于播放多媒体内容；

感知单元，适于获取用户的人像和/或语音信息；

情绪状态计算单元，适于基于所述感知单元获取的用户人像和/或语音信息来确定用户的情绪状态；以及

控制单元，适于基于所述情绪状态计算单元确定的情绪状态来控制所述媒体播放单元继续播放所述多媒体内容或者播放新的多媒体内容。

12.如权利要求11所述的智能终端，其中

所述感知单元适于获取在所述多媒体内容播放期间的第一人像和/或语音信息以及在所述多媒体内容播放之前的第二人像和/或语音信息；

所述情绪状态计算单元适于确定与第一人像和/或语音信息相对应的第一情绪状态，以及与第二人像和/或语音信息相对应的第二情绪状态；以及

所述控制单元适于基于所述第一情绪状态和第二情绪状态，来控制所述媒体播放单元继续播放所述多媒体内容或者将所述多媒体内容变更为新的多媒体内容。

13.如权利要求11或者12所述的智能终端，其中所述感知单元包括：

摄像头，适于获取用户的人像信息；以及

麦克风，适于获取用户的语音信息。

14.如权利要求11-13中任一个所述的智能终端，其中所述智能终端为智能音箱。

15.一种确定用户情绪的方法，包括步骤：

对用户语音进行识别，以确定与所述用户语音相对应的文字内容；

对所述文字内容进行识别以确定文本表征的用户情绪状态；

对所述用户语音进行识别以确定音频表征的用户情绪状态；以及

根据所述文本表征的用户情绪状态和所述音频表征的用户情绪状态，确定表征用户情绪的用户情绪状态。

16.如权利要求15所述的方法，还包括步骤：

对用户生成用户语音期间的用户人像进行图像识别以确定表情表征的用户情绪状态，以及

所述确定用户情绪状态的步骤包括：组合所述组合所述文本表征的用户情绪状态、所述音频表征的用户情绪状态和所述表情表征的用户情绪状态以确定所述用户情绪状态。

17.如权利要求15或16所述的方法，其中所述确定文本表征的用户情绪状态的步骤包括在所述文字内容上应用第一神经网络模型以确定文本表征的用户情绪状态，其中所述第一神经网络模型包括字嵌入层、RNN层和概率输出层。

18.如权利要求15-17中任一个所述的方法，所述确定音频表征的用户情绪状态的步骤包括在所述语音信息上应用第二神经网络模型以确定所述音频表征的用户情绪状态，所述第二神经网络模型包括：音频特征提取层、RNN层和概率输出层。

19.如权利要求15-18中任一个所述的方法，所述确定表情表征的用户情绪状态的步骤包括在所述人像信息上应用第三神经网络模型以确定所述表情表征的用户情绪状态，所述第三神经网络模块包括：图像特征提取层，CNN层和概率输出层。

20.一种智能音箱，包括：

媒体播放单元，适于播放多媒体内容；

感知单元，适于获取用户的人像和/或语音信息；以及

处理器，适于基于所述感知单元获取的用户人像和/或语音信息来确定用户的情绪状态；并基于所确定的情绪状态来控制所述媒体播放单元继续播放所述多媒体内容或者播放新的多媒体内容。

21.如权利要求20所述的智能音箱，其中

所述处理器适于确定与第一人像和/或语音信息相对应的第一情绪状态，以及与第二人像和/或语音信息相对应的第二情绪状态，并基于所述第一情绪状态和第二情绪状态来控制所述媒体播放单元继续播放所述多媒体内容或者将所述多媒体内容变更为新的多媒体内容。

22.如权利要求20或者21所述的智能音箱，其中

所述感知单元包括麦克风，适于获取用户的语音信息；

所述媒体播放单元包括音频播放单元，适于播放音频内容。

23.如权利要求22所述的智能音箱，其中

所述感知单元包括摄像头，适于获取图像信息；以及

所述媒体播放单元包括视频播放单元，适于播放视频内容。

24.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-10以及15-19中任一项所述方法的指令。