CN103984408A

CN103984408A - 支持语音对话功能的移动终端和语音对话方法

Info

Publication number: CN103984408A
Application number: CN201410044807.5A
Authority: CN
Inventors: 安智贤; 金少拉; 金镇龙; 金贤璟; 金熙云; 安由美
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-02-07
Filing date: 2014-02-07
Publication date: 2014-08-13
Also published as: EP2765762A1; AU2014200660B2; KR102050897B1; TWI628650B; CA2842005A1; AU2014200660A1; KR20140100704A; BR102014003021A2; JP2014153715A; EP2765762B1; RU2661791C2; TW201435857A; RU2014104373A; US20140222432A1; JP6541934B2

Abstract

提供一种支持语音对话功能的移动终端和语音对话方法，该方法用于基于用户的当前情绪状态、年龄和性别输出不同的内容。支持语音对话功能的移动终端包括：显示单元；音频处理单元；控制单元，响应于用户输入而选择对应于与用户相关联的第一标准的内容，基于与用户相关联的第二标准确定内容输出方案，根据内容输出方案通过显示单元和音频处理单元输出选择的内容。

Description

支持语音对话功能的移动终端和语音对话方法

技术领域

本发明涉及具备语音对话功能的移动终端以及语音对话控制方法，更具体地说，涉及一种用于根据用户的当前情绪、年龄和性别区别地输出内容的具备语音对话功能的终端和语音对话控制方法。

背景技术

传统的语音对话功能以这样的方式操作：从由终端生产商提供的基本回答集合中选择针对用户问题的回答。因此，语音对话功能被限制为针对相同的问题给出相同的回答，而不考虑用户。这意味着当多个用户使用具备语音对话功能的终端时，传统的语音对话功能不提供针对用户优选的回答。

发明内容

做出本发明以解决至少上述问题和缺点，并提供至少下述优点。因此，本发明的一方面提供一种用于输出反应用户的当前情绪状态、年龄和性别的内容的移动终端及其语音对话控制方法。

根据本发明的一方面，提供一种支持语音对话功能的移动终端。该移动终端包括：显示单元；音频处理单元；控制单元，被配置为响应于用户输入而选择对应于与用户相关联的第一标准的内容，基于与用户相关联的第二标准确定内容输出方案，根据内容输出方案通过显示单元和音频处理单元输出选择的内容。

根据本发明的另一方面，提供一种移动终端的语音对话方法。该方法包括：响应于用户输入选择对应于与用户相关联的第一标准的内容；基于与用户相关联的第二标准确定内容输出方案；根据内容输出方案通过移动终端的显示单元和音频处理单元输出选择的内容。

附图说明

从下面结合附图的详细描述中，本发明的实施例的以上和其他方面、特点和优点将变得清楚，在附图中：

图1是示出根据本发明实施例的移动终端100的配置的框图；

图2是示出根据本发明实施例的语音对话功能控制方法的流程图；

图3是在根据本发明实施例的语音对话控制方法中使用的将情绪状态与内容进行映射的表；

图4和图5是示出根据本发明实施例的基于第一标准输出的内容的屏幕显示的示图；

图6是示出图2的第一标准获得步骤的细节的流程图；

图7是在根据本发明实施例的语音对话控制方法中使用的将情绪状态与内容进行映射的表；

图8和图9是示出根据本发明实施例的基于第一标准输出的内容的屏幕显示的示图；

图10是在根据本发明实施例的语音对话控制方法中使用的将情绪状态与内容进行映射的表；

图11是示出根据本发明实施例的基于第一标准输出的内容的屏幕显示的示图；

图12是示出根据本发明实施例的用于移动终端的语音对话功能的系统的示意图。

具体实施方式

下面将参照附图更全面地描述本发明，在附图中示出本发明的示意性实施例。然而，本发明可被实施为多种不同的形式，并不应被解释为限制于这里阐述的实施例。而是，提供这些实施例从而使本发明的描述将是全面且完整的，并且将本发明的范围完整地传达给本领域技术人员。本发明将由权利要求所限定。

虽然以下参照附图更详细地描述序号，在附图中示出本发明的示意性实施例，但是本发明可被实施为多种不同的形式，并不应被术语限制，所述术语仅用于将一个元件、区域、层或区间与另一元件、区域、层或区间区分开来。因此，在不脱离本发明构思的教导的情况下，下面讨论的第一元件、组件、区域、层或区间可以被称为第二元件、组件、区域、层或区间。应理解，当使用连接词“和/或”等来描述一个或多个相关的列出项目时，描述包括所述一个或多个相关的列出项目的任意和所有组合。

图1是示出根据本发明实施例的移动终端100的配置的框图。

参照图1，移动终端100包括无线电通信单元110、相机单元120、位置测量单元130、音频处理单元140、显示单元150、存储单元160和控制单元170。

无线电通信单元110发送/接收携带数据的无线电信号。无线电通信单元110可包括被配置为对发送信号进行上转换和放大的射频（RF）发送器以及被配置为对接收的信号进行低噪放大和下转换的RF接收器。无线电通信单元110将通过无线电信道接收到的数据传输到控制单元170，并将从控制单元170输出的数据通过无线电信道发送出去。

相机单元120接收视频信号。相机单元120处理在视频会议模式下或图像拍摄模式下由图像传感器获得的静止图像或运动图像的视频帧。相机单元120可将处理后的视频帧输出到显示单元150。由相机单元120处理的视频帧可被存储在存储单元中和/或通过无线电通信单元110被发送到外部。

根据移动终端110的实现方式，相机单元120可包括两个或更多个相机模块。例如，移动终端100可包括朝向与显示单元150的屏幕相同方向的相机以及朝向与屏幕相反方向的另一相机。

位置测量单元130可设置有卫星信号接收模块，用于基于从卫星接收到的信号测量移动终端100的当前位置。通过无线电通信单元110，位置测量单元130还可基于从设施内的内部或外部无线电通信设备接收到的信号来测量移动终端100的当前位置。

音频处理单元140可设置有编解码器组，编解码器组包括用于处理包数据的数据编解码器和用于处理诸如语音的音频信号的音频编解码器。音频处理单元140可通过音频编解码器将数字音频信号转换为模拟音频信号，从而通过扬声器（SPK）输出模拟信号，音频处理单元140可将通过麦克风（MIC）输入的模拟信号转换为数字音频信号。

显示单元150以可视方式向用户显示菜单、输入数据、功能配置信息等。显示单元150输出启动屏幕、待机屏幕、菜单屏幕、通话屏幕和其他应用执行屏幕。

可利用液晶显示器（LCD）、有机发光二极管（OLED）、有源矩阵OLED（AMOLED）、柔性显示器和3维（3D）显示器来实现显示单元150。

存储单元160存储移动终端100的操作所需要的程序和数据，并可被划分为程序区域和数据。程序区域可存储用于控制移动终端100的整体操作的基本程序、用于启动移动终端100的操作系统（OS）、多媒体内容回放应用和用于执行可选功能（诸如语音对话、相机、音频回放和视频回放）的其他应用。数据区域可存储在使用移动终端100的状态下产生的数据，诸如静止和运动图像、电话簿和音频数据。

控制单元170控制移动终端100的组件的整体操作。在根据用户操纵执行的语音对话功能中，控制单元170接收通过音频处理单元140输入的用户语音，并控制显示单元150显示与用户语音相应的内容。控制单元170还可通过音频处理单元140播放与用户语音相应的内容。这里，内容可包括多媒体内容（诸如文本、图片、语音、电影和视频片段）和诸如天气、推荐位置和最喜爱联系人的信息中的至少一个。

更具体地说，控制单元170识别用户语音以获得相应文本。接下来，控制单元170检索与文本相应的内容并通过显示单元150和音频处理单元140中的至少一个输出内容。最后，控制单元170可检查文本的意思以在存储在存储单元160中的相关内容中检索相应内容。以这种方式，通过使用交互语音通信，可通过相关的存储内容向用户提供期望的信息。例如，如果用户说出“今天的天气？”，则移动终端100接收通过音频处理单元140输入的用户语音。之后移动终端100检索与从用户语音获得的文本“今天的天气”相应的内容（天气信息），并通过显示单元150和音频处理单元140中的至少一个输出检索到的内容。

具体地说，在本发明的实施例中，控制单元170可根据用户的当前情绪、年龄和性别选择将通过显示单元150和/或音频处理单元140输出的内容。为了完成该目的，根据本发明的实施例，控制单元170可包括内容选择模块171和内容输出模块175。

图2是示出根据本发明实施例的语音对话功能控制方法的流程图。

参照图2，如果在步骤S210执行语音对话功能，则在步骤S220，内容选择模块171获得与用户相关联的第一标准。这里，第一标准可包括用户的当前情绪状态。情绪状态表示诸如高兴、悲伤、愤怒、惊讶等的感情或感受。

在步骤S230，内容选择模块171确定是否检测到用户语音输入。如果通过语音处理单元140检测到用户语音输入，则在步骤S240，内容选择模块171基于第一标准选择与用户语音输入相应的内容。更具体地说，内容选择模块171从用户语音获得短语。接下来，内容选择模块171检索与短语相应的内容。接下来，内容选择模块171使用基于第一标准预定的情绪状态信息选择内容之一。这里，情绪状态特定的内容信息可以被预配置并被存储在存储单元160中。内容选择模块171还可首先基于第一标准检索内容并随后选择与短语相应的内容之一。

另一方面，如果在步骤S230没有检测到用户语音输入，则在步骤S250，内容选择模块171基于第一标准选择内容。

如果内容被选择，则在步骤S260，内容输出模块175获得与用户相关联的第二标准。这里，第二标准可包括用户年龄和性别中的至少一个。用户年龄可以是精确的用户年龄，或者是预定年龄组之一。例如，可利用精确的数字（诸如30或50）指示用户年龄，或利用年龄组（诸如20几岁、50几岁、儿童、成人和老年人）指示用户年龄。

具体地说，内容输出模块从相机单元120接收用户的面部图像。内容输出模块175可基于存储在存储单元160中的按照年龄组或按照性别的平均面部信息从用户的面部图像自动获得第二标准。内容输出模块175还接收通过语音处理单元140输入的用户语音。接下来，内容输出模块175可使用按照年龄组或按照性别的平均语音信息从用户语音获得第二标准。内容输出模块175还可基于构成从用户语音获得的短语的词语来获得第二标准。此时，内容输出模块175可使用按照年龄组或按照性别的词语来获得第二标准。例如，如果从用户语音获得短语“我想要新的jim-jam”，则可基于词语“jim-jam”判断该用户是儿童。

内容输出模块175可基于用户面部图像和语音两者获得第二标准。虽然描述针对内容输出模块175基于用户面部图像和语音获得第二标准的情况，但是本发明的各种实施例不限于此，而是可被实施为能够使用户输入第二标准。在此情况下，由用户输入的第二标准可被存储在存储单元160中。内容输出模块175基于存储在存储单元160中的第二标准执行预定功能。

如果获得了第二标准，则在步骤S270，内容输出模块175基于第二标准确定内容输出方案。也就是说，内容输出模块175通过改变构成由内容选择模块171选择的内容的词语、选择的内容的输出速度以及选择的内容的输出大小，来确定内容输出方案。

更具体地说，内容输出模块175可基于按照年龄组的词语信息或按照性别的词语信息来将构成选择的内容的词语改变为适合于第二标准的词语。例如，如果内容包括“Pajamas商店”并且如果用户属于“儿童”年龄组，则内容输出模块175将词语“Pajamas”改为适合于儿童的词语“Jim jam”。

内容输出模块175基于存储在存储单元160中的按照年龄组的输出速度信息或按照性别的输出速度信息确定选择的内容的输出速度。例如，如果用户属于“儿童”或“老年人”年龄组，则内容输出模块175可降低选择的内容的语音回放速度。

内容输出模块175还基于按照年龄组的输出大小信息或按照性别的输出大小信息确定选择的内容的输出大小。例如，如果用户属于“老年人”年龄组，则内容输出模块175可基于按照年龄组的输出大小信息增加选择的内容的输出音量以及选择的内容的显示大小（例如，字体大小）。存储单元160存储包含年龄组或性别到内容输出方案（内容输出速度和大小）的映射的表，并且内容输出模块175基于存储在表映射中的数据确定选择的内容的输出方案。如果选择了内容输出方案，则在步骤S280，内容输出模块175根据内容输出方案通过显示单元150和音频处理单元140输出由内容选择模块171选择的内容。

之后，如果在步骤S290检测到语音对话功能终止请求，则控制单元170结束语音对话功能。如果在步骤S290没有检测到语音对话功能终止请求，则控制单元170将处理返回步骤S220。

如上所述，本发明的语音对话控制方法选择适合于用户的当前情绪状态的内容，并根据用户的年龄和/或性别确定内容输出方案，从而向用户提供个性化的内容。该方法能够提供更逼真的语音对话功能。

同时，如果从通过语音处理单元140输入的用户语音获得的短语是用于改变内容输出方案的请求，则内容输出模块175根据短语改变内容输出方案。例如，在已经根据基于第二标准确定的内容输出方案输出内容之后，如果用户说出短语“你能更快更轻地说话吗？”，则控制输出模块175将语音回放速度增加一级并将音频音量减小一级。

内容输出模块175可将改变后的内容输出方案存储在存储单元160中。之后，内容输出模块175使用先前存储的内容输出方案历史改变基于第二标准确定的内容输出方案。内容输出模块175可根据改变后的内容输出方案输出选择的内容。

下面参照图3至图5描述根据本发明实施例的内容输出处理。

图3是在根据本发明实施例的语音对话控制方法中使用的将情绪状态与内容进行映射的表。图4和图5是示出根据本发明实施例的基于第一标准输出的内容的屏幕显示的示图。

参照图3，内容被预先映射到情绪状态。情绪状态“高兴”被映射到内容A，情绪状态“悲伤”被映射到内容B，情绪状态“愤怒”被映射到内容C，情绪状态“惊讶”被映射到内容D。这些情绪状态和内容被预先映射并被存储在存储单元160中。

内容选择模块171可在按照情绪状态的内容中选择适合于第一标准（用户的当前情绪状态）的内容。

参照图4，基于从通过音频处理单元140输入的用户语音获得的短语UT以及第一标准（用户的当前情绪状态），内容选择模块171选择针对情绪状态“高兴”的内容A（AT1）和针对情绪状态“悲伤”的内容B（AT2）。

参照图5，基于第一标准（用户的当前情绪状态），内容选择模块171选择针对情绪状态“愤怒”的内容C（AT1）和针对情绪状态“惊讶”的内容D（AT2）。

虽然图3针对每个情绪状态映射一个内容项目，但是本发明不限于此，而是可被实施为每个情绪状态映射多个内容项目。在此情况下，内容选择模块171可随机地选择与第一标准（用户的当前情绪状态）相应的多个内容之一。

可按照情绪状态对内容进行分组。“内容组”表示具有相同/相似属性的内容的集合。例如，内容组可被分类为“动作”电影内容组、“R&B”音乐内容组等中的一个。在此情况下，内容选择模块171可随机地选择满足第一标准（用户的当前情绪状态）的内容组的内容之一。

图6是示出图2的第一标准获得步骤的细节的流程图。

参照图6，内容选择模块171在步骤S310从相机单元120获得用户的面部图像，并在步骤S320从面部图像检测面部区域。也就是说，内容选择模块171检测具有眼、鼻和嘴的面部区域。

接下来，内容选择模块171在步骤S330提取眼、鼻和嘴的基准点，并在步骤S340基于基准点识别面部表情。也就是说，内容选择模块171基于存储在存储单元160中的按照表情的基准点信息识别用户的当前表情。

之后，在步骤S350，内容选择模块171基于表情自动地检索第一标准，所述表情基于预定的按照情绪状态的表情信息被确定。这里，按照情绪状态的表情信息可以被预先配置并被存储在存储单元160中。

虽然描述针对内容选择模块171基于用户的面部图像获得第一标准的情况，但是本发明不限于此，而是可被实施为能够使用户输入第一标准。

下面参照图7至图9描述根据本发明实施例的另一内容输出处理。

图7是在根据本发明实施例的语音对话控制方法中使用的将情绪状态与内容进行映射的表。图8和图9是示出根据本发明实施例的基于第一标准输出的内容的屏幕显示的示图。

内容选择模块171可使用用户的过去内容回放历史，基于第一标准（用户的当前情绪状态）选择内容。过去内容回放历史被存储在存储单元160中，并且每当内容根据用户操纵被播放时都被更新。

参照图7，回放的次数或各个内容项目被存储在存储单元160中。内容A1被播放三次，内容A2被播放十次，内容B1被播放五次，内容B2被播放两次，内容C1被播放八次，内容C2被播放十五次，内容D1被播放两次，内容D2被播放一次。内容A1和A2被映射到情绪状态“高兴”，内容B1和B2被映射到情绪状态“悲伤”，内容C1和C2被映射到情绪状态“愤怒”，内容D1和D2被映射到情绪状态“惊讶”（见图3）。

内容选择模块171可基于过去内容回放历史选择适合于第一标准（用户的当前情绪状态）的多个内容之一。

参照图8，如果第一标准（用户的当前情绪）是“高兴”，则内容选择模块171从映射到第一标准（用户的当前情绪）的内容A1和A2中选择已被更频繁地播放的内容A2（AT1）。如果第一标准（用户的当前情绪）是“悲伤”，则内容选择模块171从映射到第一标准（用户的当前情绪）的内容B1和B2中选择已被更频繁地播放的内容B1（AT2）。

此时，内容选择模块171可选择映射到第一标准（用户的当前情绪）的多个内容。然后，内容输出模块175可基于过去内容回放历史确定多个内容的输出位置。

参照图9，如果第一标准（用户的当前情绪）是“高兴”，则内容选择模块171选择内容A1和A2两者作为满足第一标准（用户的当前情绪）的内容（AT1）。然后，内容输出模块175将内容A1布置在已被更频繁地播放的内容A2之下（AT1）。如果第一标准（用户的当前情绪）是“悲伤”，则内容选择模块171选择内容B1和B2两者作为满足第一标准（用户的当前情绪）的内容（AT2）。然后，内容输出模块175将内容B2布置在已被更频繁地播放的内容B1之下（AT2）。

下面参照图10和图11描述根据本发明实施例的另一内容输出处理。

图10是在根据本发明实施例的语音对话控制方法中使用的将情绪状态与内容进行映射的表。图11是示出根据本发明实施例的基于第一标准输出的内容的屏幕显示的示图。

内容选择模块171可基于第一标准（用户的当前情绪状态）和用户的基于过去情绪状态的内容输出历史来选择内容。用户的基于过去情绪状态的内容输出历史被存储在存储单元160中，并且在语音对话功能激活时，每当内容根据用户的情绪状态被输出时都被更新。

参照图10，基于过去情绪状态的内容输出次数被存储在存储单元160中。内容A1已经被输出三次，内容A2已经被输出八次，内容B1已经被输出四次，内容B2已经被输出一次，内容C1已经被输出三次，内容C2已经被输出十一次，内容D1已经被输出两次，内容D21已经被输出五次。

内容选择模块171可使用基于过去情绪状态的内容输出历史来选择被映射到第一标准（用户的当前情绪状态）的多个内容之一。

参照图11，如果第一标准（用户的当前情绪状态）是“高兴”，则内容选择模块171从内容A1和A2中选择与用户的过去情绪状态相关联的已被更频繁地输出的内容A2作为与第一标准相应的内容（AT1）。如果第一标准（用户的当前情绪）是“悲伤”，则内容选择模块171从内容B1和B2中选择与用户的过去情绪状态相关联的已被更频繁地输出的内容B2作为与第一标准（用户的当前情绪状态）相应的内容（AT2）

内容选择模块171可选择被映射为满足第一标准（用户的当前情绪状态）的所有内容。然后，内容输出模块175使用基于过去情绪状态的内容输出历史确定多个内容的输出位置。例如，如果第一标准（用户的当前情绪状态）是“高兴”，则内容选择模块171选择内容A1和A2两者作为与第一标准（用户的当前情绪状态）相应的内容。然后，内容输出模块175将内容A1布置在内容A2之下，其中，根据过去的用户情绪状态，内容A2已被更频繁地播放。

下面描述根据本发明实施例的另一内容输出处理。

内容选择模块171可基于第一标准（用户的当前情绪状态）使用通过位置测量单元130获得的移动终端100的当前位置选择内容。更具体地说，内容选择模块171基于第一标准（用户的当前情绪状态）获得多个内容。接下来，内容选择模块171从获得的内容中选择与在移动终端的当前位置的预定半径范围内的区域相关联的内容。例如，如果内容是关于推荐地点（饭店、咖啡厅等）的信息，则内容供选择模块171可基于移动终端的当前位置信息选择适合于移动终端100的当前位置的内容。

当然，内容选择模块171可获得与在移动终端的当前位置的预定半径范围内的区域相关联的多个内容，然后从获得的内容中选择满足第一标准（用户的当前情绪状态）的内容。

虽然描述针对控制单元170、内容选择模块171和内容输出模块175被单独配置且负责不同功能的情况，但是本发明不限于此，而是可被实施为控制单元、内容选择模块和内容输出模块以集成方式操作的形式。

图12是示出根据本发明实施例的移动终端的语音对话功能的系统的示意图。

由于这里的移动终端100与以上参照图1描述的移动终端相同，因此在此省略对移动终端100的详细描述。根据本发明实施例的移动终端100通过无线通信网络300连接到服务器200。

在以上描述的实施例中，移动终端100的控制单元170执行第一标准获得操作、基于第一标准的内容选择操作、第二标准获得操作以及内容输出方案确定操作。

然而，在此实施例中，移动终端100的控制单元170通过无线电通信单元100与服务器交换数据，并且执行第一标准获得操作、基于第一标准的内容选择操作、第二标准获得操作以及内容输出方案确定操作。

例如，移动终端100的控制单元170向服务器200提供通过相机单元120输入的用户的面部图像以及通过音频处理单元140输入的用户语音。然后，服务器200基于用户的面部图像和用户语音获得第一标准和第二标准。服务器200向移动终端100提供获得的第一标准和第二标准。

虽然在单个用户的假设下进行了描述，但是本发明不限于此，并且本发明也可被应用于多个用户使用移动终端100的情况。在此情况下，需要添加识别移动终端100的当前用户的操作。可以按照用户来存储用户的过去内容输出方案历史、用户的过去内容回放历史以及用户的基于过去情绪状态的内容输出历史。因此，即使当多个用户使用移动终端100时，也可提供针对用户的内容。

如上所述，本发明的具备语音对话功能的移动终端和语音对话控制方法能够选择适合于用户的当前情绪状态的内容并根据用户的年龄和性别确定内容输出方案。因此，可提供为单个用户定制的内容。因此，本发明能够实现逼真的语音对话功能。

虽然在上面已经详细描述了本发明的实施例，但是本领域普通技术人员应理解和清楚，在不脱离由权利要求及其等同物限定的本发明的精神和范围的情况下，这里描述的基本发明构思的多种改变和修改仍落入本发明的精神和范围内。

Claims

1.一种支持语音对话功能的移动终端，该移动终端包括：

显示单元；

音频处理单元；

控制单元，被配置为响应于用户输入而选择对应于与用户相关联的第一标准的内容，基于与用户相关联的第二标准确定内容输出方案，根据内容输出方案通过显示单元和音频处理单元输出选择的内容。

2.如权利要求1所述的移动终端，其中，第一标准是用户的当前情绪状态，第二标准是包括用户的年龄和性别中的至少一个的用户信息。

3.如权利要求1所述的移动终端，其中，控制单元选择与第一标准相应的内容，所述相应的内容包括预定的根据用户的情绪状态的至少一个内容。

4.如权利要求1所述的移动终端，其中，控制单元基于第一标准和用户的过去内容回放历史选择内容。

5.如权利要求1所述的移动终端，其中，控制单元基于第一标准和移动终端的当前位置信息选择内容。

6.如权利要求1所述的移动终端，其中，控制单元基于与用户的过去情绪状态相关联的内容输出历史选择内容。

7.如权利要求1所述的移动终端，其中，音频处理单元接收用户的语音，控制单元基于第一标准选择与从所述语音获得的短语相应的内容。

8.如权利要求7所述的移动终端，其中，控制单元基于构成所述短语的词语获得第二标准。

9.如权利要求1所述的移动终端，其中，控制单元基于第二标准改变构成内容的词语、内容的输出速度和内容的输出大小中的至少一个，并根据内容输出方案输出内容。

10.如权利要求1所述的移动终端，其中，音频处理单元接收用户的语音，并且当从语音获得的短语是用于改变内容输出方案的请求时，控制单元改变内容输出方案。

11.如权利要求1所述的移动终端，其中，控制单元使用用户的过去内容输出方案历史改变基于第二标准确定的内容输入方案，并根据改变的内容输出方案输出内容。

12.如权利要求1所述的移动终端，还包括：相机单元，拍摄用户的面部图像，其中，控制单元基于用户的面部图像自动地获得第一标准。

13.如权利要求12所述的移动终端，其中，控制单元基于从用户的面部图像获得的面部表情从预定的按照情绪状态的表情信息获得第一标准。

14.如权利要求1所述的移动终端，还包括：相机单元，拍摄用户的面部图像，其中，音频处理单元接收用户的语音，并且控制单元基于用户的面部图像和用户的语音中的至少一个来自动地获得第二标准。

15.如权利要求1所述的移动终端，其中，控制单元通过音频处理单元接收第一标准和第二标准。

16.一种移动终端的语音对话方法，该方法包括：

响应于用户输入选择对应于与用户相关联的第一标准的内容；

基于与用户相关联的第二标准确定内容输出方案；

根据内容输出方案通过移动终端的显示单元和音频处理单元输出选择的内容。

17.如权利要求16所述的方法，其中，第一标准是用户的当前情绪状态，第二标准是包括用户的年龄和性别中的至少一个的用户信息。

18.如权利要求16所述的方法，其中，选择内容的步骤包括：选择与第一标准相应的内容，所述相应的内容包括预定的根据用户的情绪状态的至少一个内容。

19.如权利要求16所述的方法，其中，选择内容的步骤包括：基于第一标准和用户的过去内容回放历史选择内容。

20.如权利要求16所述的方法，其中，选择内容的步骤包括：基于第一标准和移动终端的当前位置信息选择内容。

21.如权利要求16所述的方法，其中，选择内容的步骤包括：基于与用户的过去情绪状态相关联的内容输出历史选择内容。

22.如权利要求16所述的方法，还包括：接收用户的语音，其中，选择内容的步骤包括基于第一标准选择与从所述语音获得的短语相应的内容。

23.如权利要求22所述的方法，还包括：基于构成所述短语的词语获得第二标准。

24.如权利要求16所述的方法，其中，确定内容输出方案的步骤包括：基于第二标准改变构成内容的词语、内容的输出速度和内容的输出大小中的至少一个，并根据内容输出方案输出内容。

25.如权利要求24所述的方法，还包括：接收用户的语音，其中，确定内容输出方案的步骤包括：当从语音获得的短语是用于改变内容输出方案的请求时，改变内容输出方案。

26.如权利要求16所述的方法，其中，确定内容输出方案的步骤包括：使用用户的过去内容输出方案历史改变基于第二标准确定的内容输出方案。

27.如权利要求16所述的方法，还包括：

接收用户的面部图像；

基于用户的面部图像自动地获得第一标准。

28.如权利要求27所述的方法，其中，获得第一标准的步骤包括：基于从用户的面部图像获得的面部表情从预定的按照情绪状态的表情信息获得第一标准。

29.如权利要求16所述的方法，还包括：

接收用户的面部图像和语音中的至少一个；

基于用户的面部图像和语音中的至少一个自动地获得第二标准。

30.如权利要求16所述的方法，还包括：通过音频处理单元接收第一标准和第二标准。