CN102207844A

CN102207844A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN102207844A
Application number: CN2011100740746A
Authority: CN
Inventors: 乌戈·迪普罗菲奥; 佐野茜; 松田晃一; 泽田务; 山田敬一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-29
Filing date: 2011-03-22
Publication date: 2011-10-05
Anticipated expiration: 2031-03-22
Also published as: CN102207844B; US8983846B2; JP2011209787A; US20110282673A1

Abstract

提供了信息处理设备、信息处理方法和程序。该信息处理设备包括：语音分析单元，该语音分析单元进行针对用户言语的分析处理；以及数据处理单元，该数据处理单元输入有所述语音分析单元的分析结果，以确定所述信息处理设备要进行的处理，其中，在基于所述用户言语的处理中出现禁止处理继续的因素的情况下，所述数据处理单元进行用于生成并输出与出现禁止因素的处理阶段相对应的反馈信息的处理。

Description

信息处理设备、信息处理方法和程序

技术领域

本发明涉及信息处理设备、信息处理方法和程序，尤其涉及基于用户的言语或动作进行各种处理的信息处理设备、信息处理方法和程序。

背景技术

当用户操作PC(个人计算机)、TV、记录/再现设备或其它各种家用电器时，用户操作各设备所设置的输入单元或遥控器等，以允许设备进行所期望的处理。例如，在使用PC的许多情况下，使用键盘或鼠标作为输入装置。另外，在TV或记录/再现设备等的许多情况下，使用遥控器来进行例如改变频道或选择再现内容等各种处理。

已经针对通过使用用户言语或动作(姿势)对各种设备进行指示的系统进行了各种研究。更具体地，存在通过使用语音识别处理来识别用户言语的系统或通过使用图像处理来识别用户动作或姿势的系统等。

除了诸如遥控器、键盘或鼠标的常规输入装置以外，通过使用诸如语音识别或图像识别的各种通信模式来与用户进行通信的接口被称为多模式接口。在例如美国专利6,988,072中公开了相关领域中的多模式接口。

然而，用于多模式接口的语音识别设备或图像识别设备等在处理性能方面存在限制，以致可理解的用户言语或动作有限。因此，在当前状态下，在很多情况下，用户的意图可能未被传送至系统侧。

发明内容

期望提供以下的信息处理设备、信息处理方法和程序，其中，在信息处理设备中输入诸如用户言语或动作(姿势)的语音信息或图像信息、并进行处理的配置中，在用户和设备之间的通信期间，将各种类型的反馈信息供给至用户，从而增加系统和用户之间的相互理解程度，以使得可以进行基于对用户的请求的正确理解的正确处理。

根据本发明的实施例，提供一种信息处理设备，包括：语音分析单元，所述语音分析单元进行针对用户言语的分析处理；以及数据处理单元，所述数据处理单元输入有所述语音分析单元的分析结果，以确定所述信息处理设备要进行的处理，其中，在基于用户言语的处理中出现禁止处理继续的因素的情况下，所述数据处理单元进行用于生成并输出与出现禁止因素的处理阶段相对应的反馈信息的处理。

另外，在根据本发明的实施例的信息处理设备中，所述信息处理设备还包括图像分析单元，所述图像分析单元分析用户动作，以及所述数据处理单元输入有所述图像分析单元的分析结果，以确定所述信息处理设备要进行的处理，并且在基于用户动作的处理中出现禁止处理继续的因素的情况下，所述数据处理单元进行用于生成并输出与出现禁止因素的处理阶段相对应的反馈信息的处理。

另外，在根据本发明的实施例的信息处理设备中，所述数据处理单元进行以下处理：将作为所述信息处理设备的状态指示符的头像作为反馈信息显示在显示单元中，并且改变所显示的头像的外观。

另外，在根据本发明的实施例的信息处理设备中，所述数据处理单元进行以下处理：将作为所述信息处理设备的状态指示符的头像作为反馈信息显示在显示单元中，并且改变所显示的头像的面部表情。

另外，在根据本发明的实施例的信息处理设备中，所述数据处理单元进行以下处理：将作为所述信息处理设备的状态指示符的头像作为反馈信息显示在显示单元中，并且通过所显示的头像输出描述所述信息处理设备的状态的信息。

另外，在根据本发明的实施例的信息处理设备中，在基于用户言语或用户动作的处理成功的情况下，所述数据处理单元进行以下处理：将作为所述信息处理设备的状态指示符的头像作为反馈信息显示在显示单元中，并且改变所显示的头像的面部表情或通过所述头像输出描述所述信息处理设备成功进行处理的信息。

另外，根据本发明的另一实施例，提供一种在信息处理设备中进行信息处理的信息处理方法，所述信息处理方法包括以下步骤：语音分析步骤，在语音分析单元中进行针对用户言语的分析处理；以及数据处理步骤，在数据处理单元中输入所述语音分析步骤的分析结果，以确定所述信息处理设备要进行的处理，其中，所述数据处理步骤包括以下步骤：在基于用户言语的处理中出现禁止处理继续的因素的情况下，进行用于生成并输出与出现禁止因素的处理阶段相对应的反馈信息的处理。

另外，根据本发明的又一实施例，提供一种程序，其执行信息处理设备中的信息处理，所述程序包括以下步骤：语音分析步骤，允许语音分析单元进行针对用户言语的分析处理；以及数据处理步骤，允许数据处理单元输入有所述语音分析步骤的分析结果，以确定所述信息处理设备要进行的处理；以及其中，所述数据处理步骤包括以下步骤：在基于用户言语的处理中出现禁止处理继续的因素的情况下，允许所述数据处理单元进行用于生成并输出与出现禁止因素的处理阶段相对应的反馈信息的处理。

另外，根据本发明的实施例的程序是以下的程序：该程序可被提供至例如可以利用以计算机可读格式设置的存储介质或通信介质来执行各种类型的程序代码的信息处理设备或计算机系统。以计算机可读的格式设置该程序，以使得可以在信息处理设备或计算机系统中实现根据该程序的处理。

通过后面所述的本发明的实施例和附图，将以更加详细的说明来明确本发明的其它目的、特征和优点。另外，在说明书中，系统表示多个设备的逻辑集配置，但各种配置的设备不限于在同一外壳下。

根据本发明的实施例的配置，提供当在可以进行根据用户言语或动作的输入的信息处理设备中难以进行连续处理时、输出反馈信息的设备和方法。进行用户言语的言语分析或用户动作(姿势)的分析，并且基于分析结果确定信息处理设备的处理。在信息处理设备的基于用户言语或用户动作的处理中，在出现禁止处理继续的因素的情况下，生成并输出与出现禁止因素的处理阶段相对应的反馈信息。用户获取该反馈信息，以使得该用户可以根据处理阶段立即获取错误发生状态。因此，可以在不进行诸如待机处理等的无用处理的情况下进行诸如重新言语等的错误应对处理。

附图说明

图1是示出根据本发明的信息处理设备的用途的例子的图。

图2示出根据本发明的信息处理设备的配置的例子的框图。

图3是示出根据本发明的信息处理设备所进行的处理的例子的图。

图4是示出根据本发明的信息处理设备所进行的处理的例子的图。

图5是示出根据本发明的信息处理设备所进行的处理的例子的图。

图6是示出作为根据本发明的信息处理设备所进行的处理的头像的例子的图。

图7是示出根据本发明的信息处理设备所进行的处理的例子的图。

图8是示出根据本发明的信息处理设备所进行的处理的例子的图。

图9是示出根据本发明的信息处理设备所进行的处理的例子的图。

图10是示出根据本发明的信息处理设备所进行的处理的例子的图。

图11是示出根据本发明的信息处理设备所进行的处理的例子的图。

图12是示出根据本发明的信息处理设备所进行的处理的例子的图。

图13是示出根据本发明的信息处理设备所进行的处理的例子的图。

图14是示出根据本发明的信息处理设备所进行的、与用户言语相对应的处理的例子的图。

图15是示出在进行与用户言语相对应的处理期间、根据本发明的信息处理设备所显示的头像的变形例的图。

图16是示出根据本发明的信息处理设备所进行的、对应于用户动作(姿势)的处理的例子的图。

图17是示出在进行与用户动作(姿势)相对应的处理期间、根据本发明的信息处理设备所显示的头像的变形例的图。

图18是示出根据本发明的信息处理设备的硬件配置的例子的图。

具体实施方式

在下文，将参考附图来说明根据本发明的信息处理设备、信息处理方法和程序。另外，按以下顺序进行说明。

1.根据本发明的信息处理设备所进行的处理的概述

2.根据本发明的信息处理设备的配置的例子

3.通过对用户反馈和指导(指导信息显示区)来改进相互理解的处理的例子

(3-1)使用头像的反馈处理的例子

(3-2)进行与用户可输入的信息有关的指导(指导信息显示区)的处理的例子

(3-3)对用户同时使用反馈信息和指导(指导信息显示区)信息的处理的例子

(3-4)用户分类处理

4.通过向用户反馈来理解用户输入或输入时刻的必要性的处理的例子

(4-1)对用户言语的反馈处理的例子

(4-2)对用户动作(姿势)的反馈处理的例子

5.信息处理设备的硬件配置的例子

[1.根据本发明的信息处理设备所进行的处理的概述]

首先，参考图1说明根据本发明的信息处理设备所进行的处理的概述。在图1中，示出电视机作为根据本发明的信息处理设备的例子。信息处理设备100进行例如广播内容的显示处理、记录在例如硬盘、DVD或蓝光盘等的内置记录/再现设备中的内容的再现处理，或者将程序记录在记录/再现设备中的记录处理等。

在信息处理设备100前方存在多个用户。在该图所示的例子中，存在用户a(11)、用户b(12)和用户c(13)。这些用户对信息处理设备100进行各种请求。例如，这些请求是针对频道改变、音量调整、开始记录处理、显示记录内容列表、以及从该列表选择并再现内容等的请求。另外，这些请求包括针对停止再现和向前倒带(forward winding)等的请求。

用户通过使用语音、即言语进行请求。信息处理设备100包括摄像头101以及具有麦克风和扬声器的语音输入/输出单元102。通过具有麦克风和扬声器的语音输入/输出单元102将用户a至用户c(11至13)的言语输入至信息处理设备100。另外，通过摄像头101将用户a至用户c(11至13)的图像输入至信息处理设备100。

信息处理设备100分析所输入的信息以确定该设备要进行的动作并进行该动作。在可以理解用户的请求的情况下，进行响应于该请求的处理。例如，该处理是频道改变处理或内容选择/再现处理等。

另外，信息处理设备100在与用户通信期间，顺次对用户进行反馈处理。例如，向用户供给用户言语详细内容的检查显示或信息处理设备的响应等。更具体地，例如，在不理解用户的请求的情况下或在未进行该请求的情况下，信息处理设备100进行用于向用户解释该状态的反馈处理。后面说明具体处理。

[2.根据本发明的信息处理设备的配置的例子]

接着，将参考图2说明根据本发明的信息处理设备的配置的例子。例如，图2所示的信息处理设备200与图1所示的信息处理设备100相对应。另外，根据本发明的信息处理设备不限于TV，并且可以实现为PC、记录/再现设备或其它各种家用电器。换言之，根据本发明的信息处理设备是根据用户的请求进行各种处理的信息处理设备。

如图2所示，信息处理设备200包括语音输入单元(麦克风)201、语音分析单元202、图像输入单元(摄像头)203、图像分析单元204、数据处理单元205、语音输出单元(扬声器)206和图像输出单元(显示单元)207。

语音输入单元(麦克风)201输入信息处理设备200周围的语音信息，例如，用户言语。将语音输入单元(麦克风)201所输入的语音信息输入至语音分析单元202。语音分析单元202包括位于存储单元中的语音分析用字典。语音分析单元202通过使用该字典来分析用户言语中的单词，并将分析信息输入至数据处理单元205。

图像输入单元(摄像头)203输入信息处理设备200周围的图像，例如，用户的图像。将图像输入单元(摄像头)203所拍摄的图像输入至图像分析单元204。图像分析单元204通过使用存储单元中预先存储的诸如用户面部信息的登记信息，对所拍摄图像中包括的用户进行例如识别处理。更具体地，图像分析单元204分析用户的位置或用户的身份等。将该分析信息输入至数据处理单元205。

数据处理单元205接收从语音分析单元202输入的语音分析信息和从图像分析单元204输入的图像分析信息，并且根据所输入的信息确定信息处理设备要进行的处理(动作)。换言之，如上所述，在可以理解用户的请求的情况下，进行根据该请求的处理。例如，该处理可以是频道改变处理或内容选择/再现处理等。

另外，数据处理单元205进行用于生成并输出反馈信息的处理，反馈信息表示信息处理设备对用户言语或用户动作(姿势)的识别结果。例如，在不理解用户请求的情况或不进行用户请求的情况等情况下，生成用于解释该状态的反馈信息，并且显示所生成的反馈信息或将该反馈信息输出为语音。

利用通过语音输出单元(扬声器)206输出的语音和通过图像输出单元(显示单元)207输出的图像中的任一个或者其组合来进行反馈处理。以下详细说明具体细节。

[3.通过对用户反馈和指导(指导信息显示区)进行改进相互理解的处理的例子]

接着，作为根据本发明的信息处理设备所进行的处理的例子，说明通过对用户反馈和指导(指导信息显示区)进行改进相互理解的处理的例子。

如上所述，在采用语音识别或图像识别的多模式接口中，多模式接口所使用的语音识别设备或图像识别设备在处理性能方面存在限制，以致可理解的用户言语或动作(姿势)有限。结果，存在以下问题：用户的意图可能未被传送至系统侧，以致可能未进行与该用户的意图相对应的处理。以下所述的处理的例子是用于解决该问题的处理的例子。更具体地，该例子是通过对用户反馈和指导(指导信息显示区)进行改进相互理解的处理的例子。

在下文，作为例子的是：通过对用户反馈和指导(指导信息显示区)进行改进相互理解的处理的例子，顺次说明了以下四个详细的处理例子。

(3-1)使用头像的反馈处理的例子

(3-2)进行与用户可输入信息有关的指导(指导信息显示区)的处理的例子

(3-4)用户分类处理

(3-1)使用头像的反馈处理的例子

首先，说明使用头像作为信息处理设备的状态指示符的反馈处理的例子。

参考图3说明信息处理设备所进行的详细处理的例子。

图3示出例如图1所示的TV等的信息处理设备100的显示单元的显示的例子。信息处理设备100分析用户言语或姿势，并根据分析结果进行处理。例如，该处理是频道改变处理、内容选择/再现处理或记录处理等。

图3示出以下例子：用户基于言语或动作(姿势)进行处理请求，并且信息处理设备100输入有该言语或动作(姿势)、对该言语或动作(姿势)进行分析，并且在显示单元上进行数据显示作为对该用户的反馈处理。

在显示单元中设置有反馈信息显示区域300。在反馈信息显示区域300中呈现与信息处理设备100通信的用户的用户图像301作为用户识别信息。

用户图像301是图2所示的图像分析单元204通过如下处理指定的图像：基于从通过图像输入单元203输入的图像识别出的人物的面部，进行与预先登记的面部图像数据匹配的处理。另外，反馈信息显示区域300中呈现的用户图像301可以是图像输入单元203拍摄的原始图像或信息处理设备100的存储单元中存储的登记图像。

通过观看用户图像301，用户可以检查出信息处理设备100所识别出的用户是正确的用户自身。

例如，在显示不正确的用户面部作为用户图像301的情况下，用户进行言语“用户不正确”等言语的输入，以向信息处理设备100通知误识别了用户。

另外，在反馈信息显示区域300中呈现可被识别为与用户会话的对方的头像(虚拟人物)303。头像303是作为信息处理设备100的状态指示符与用户进行交谈的虚拟人物。

由于呈现了头像303，用户认为会话的对方不是设备而是头像，以使得可以实现更加习惯的会话。

另外，头像303根据对于用户输入(言语或动作)的理解程度或信息处理设备100进行的处理等，改变其面部表情。用户可以基于头像的面部表情的变化理解信息处理设备的状态等。后面说明了具体例子。

另外，在反馈信息显示区域300中显示根据来自用户言语等的用户输入信息302。该用户输入信息是作为信息处理设备100对用户言语或姿势进行分析的结果的数据。例如，用户输入信息是基于针对用户言语的语音识别结果的用户言语的详细内容、或信息处理设备基于通过图像分析获得的用户动作(姿势)所识别出的请求的详细内容。

如果在信息处理设备100的分析中出现错误，则显示错误的信息。

用户可以基于用户输入信息302的显示来判断信息处理设备100是否正确理解了请求。

例如，在进行与用户实际请求不同的用户输入信息302的显示时，用户进行言语“请求不正确”等言语的输入，以向信息处理设备100通知对用户输入的误解。

另外，在反馈信息显示区域300中，显示表示信息处理设备的应答或设备状态的设备处理信息304，作为头像303的言语。在该图所示的例子中，设备处理信息304说“我再现它”。

这是信息处理设备100的与用户输入“移动命令：第六次再现”相对应的处理。

如果在信息处理设备100的分析中存在错误，则显示错误的处理信息。

用户可以基于设备处理信息304的显示来判断信息处理设备100是否正确理解了该请求、并且是否进行了根据用户请求的正确处理。

例如，在显示进行了与不同于用户实际请求的处理对应的设备处理信息304的情况下，用户进行言语“处理不正确”等言语的输入，以向信息处理设备100通知所进行的处理是错误的。

以这种方式，根据本发明的信息处理设备向用户呈现以下信息作为反馈信息：根据用户图像301的呈现检查用户分类处理的正确性；根据用户输入信息302的显示检查对用户输入的分析的正确性；以及根据头像303和设备处理信息304检查信息处理设备的状态。

用户可以基于反馈信息容易地检查信息处理设备100是否正确理解了用户和用户的请求。因此，在存在错误的情况下，可以向信息处理设备通知详细的错误。

参考图4所示的表说明采用语音识别或图像识别的多模式接口的现有问题与根据本发明的信息处理设备所进行的处理之间的对应关系。

作为现有问题，例如，在图4中示出问题(1)～(4)。

例如，问题1是难以理解互动的开始和结束的变化。

为了解决该问题，根据本发明的信息处理设备显示互动状态，以使得可以检查当前状态。更具体地，如图3所示，显示了用户图像301、用户输入信息302、头像303和设备处理信息304。

另外，作为现有问题，问题(2)是用户可能不知晓在出现问题时如何操作。为了解决该问题，根据本发明的信息处理设备显示头像作为设备(系统)的状态指示符，从而设置了用于询问头像的环境。

另外，作为现有问题，问题(3)是当与设备(TV等)交谈时存在不悦感。为了解决该问题，根据本发明的信息处理设备设置头像作为设备(系统)的状态指示符。

另外，作为现有问题，问题(4)是对用户的反馈不足。为了解决该问题，根据本发明的信息处理设备被配置成通过头像顺次供给反馈信息。

对于图4所示的对用户的反馈不足的问题(4)，在根据本发明的信息处理设备的情况下，通过使用图3所示的头像303来顺次供给反馈信息。另外，头像303的言语不仅被显示在显示单元中，而且还被作为语音信息从语音输出单元(扬声器)206输出。

参考图5说明采用头像303的反馈处理的详细例子。

图5示出以下的相应数据。

(X)对用户的反馈不足的状态

(Y)通过头像的反馈信息的细节

(Z)输出头像的面部表情和设备处理信息的例子

(X)作为对用户的反馈不足的状态，例如，在图5中示出状态(A)～(D)。

(A)不知道何时可以与你交谈？

(B)不知道言语是否被输入到该设备(系统)？

(C)不知道该设备(系统)是否理解该言语？

(D)不知道该设备(系统)是否基于该言语进行处理？

例如，基于如以上由(A)～(D)所列举的反馈信息不足，在用户中可能发生困惑情况。

根据本发明的信息处理设备100的数据处理单元205生成并输出用于解决反馈信息不足的反馈信息。

更具体地，对于如图5的(Z)所示的问题(A)“不知道何时可以与你交谈？”，作为头像的言语，进行言语“请指示我”的输出(显示和语音输出)。

通过该处理，如(Y)所示，将该设备(系统)配置成表示针对用户言语处于待机状态。

(B)不知道言语是否被输入到该设备(系统)？

对于该问题，如图5的(Z)所示，作为头像的言语，进行言语“我在听叙述”的输出(显示和语音输出)。另外，显示如下头像：通过诸如放大头像的耳朵来强调收听状态可以可视地理解该头像。

通过该处理，如(Y)所示，将该设备(系统)配置成表示其在听用户言语。

(C)不知道该设备(系统)是否理解该言语？

对于该问题，如图5的(Z)所示，作为头像的言语，进行言语“我理解”的输出(显示和语音输出)。另外，显示如下头像：该头像诸如作出笑脸之类地可视地表示理解作为头像的面部表情。

如(Y)所示，通过该处理作出表示设备(系统)理解用户言语的配置。

(D)不知道该设备(系统)是否基于该言语进行处理？

对于该问题，如图5的(Z)所示，显示作为头像的言语的言语“我正在进行处理”的输出(显示和语音输出)。如(Y)所示，通过该处理作出表示设备(系统)基于用户言语正在进行处理的配置。

另外，根据信息处理设备100的处理状态来设置头像的各种面部表情。在图6中示出一些例子。图6的头像的例子是如下的从顶部起设置的头像的例子。

(A)是表示用户听到叙述的头像的例子和强调了耳朵的头像的例子。

(B)是表示该头像理解用户的叙述并且做出动作的状态的头像的例子和表示笑脸的头像的例子。

(C)是表示该头像没有良好地听到叙述的状态的头像的例子和表示设置了未听到的困惑状态的面部表情的头像的例子。

(D)是表示该头像未理解用户的叙述的状态的头像的例子和表示不可理解的困惑状态的面部表情的头像的例子。

(3-2)用于对用户可输入的信息进行指导(指导信息显示区)的处理的例子

接着，说明用于对用户可输入的信息进行指导(指导信息显示区)的处理的例子。

例如，在用户针对图1所示的信息处理设备100再现一些记录内容的情况下，需要用于搜索内容的处理。在搜索时，通过设置各种搜索条件来实现高效的搜索。

根据本发明的信息处理设备向用户供给例如如下信息：该信息表示针对在搜索内容时的指定条件、按类别为单位可以指定哪个选择条件。

参考图7和以下图说明处理的详细例子。

图7示出再现内容选择处理时、在信息处理设备100的显示单元上显示的指导信息显示区附加信息输入区域350的显示例子。

如该图所示，进行内容搜索的情况的可指定信息可以是与例如标题、推荐的存在、风格、频道或时段有关的信息。

然而，初学者难以知晓可以将哪条信息实际输入信息输入区中。

考虑到以上情况，在根据本发明的信息处理设备中，显示表示可以将哪条信息输入至各信息输入区域的指导信息(指导信息显示区信息)。然而除了显示以外，还进行语音输出。

例如，在针对初始标题信息输入部输入时，显示“例如，请输入XYZ新闻”。通过观看该显示，用户可以理解，可以输入节目名称，以使得该用户立即进行正确的输入。另外，通过例如用户言语来进行输入。

在图8中示出针对其它信息输入部的指导信息(指导信息显示区信息)的显示的例子。

如图8所示，在标题信息输入部中显示“例如，请输入XYZ新闻”。这与参考图7所述的相同。

在推荐信息输入区中，呈现“是”和“否”其中之一，或者进行“是”和“否”之间的改变显示。在通过用户输入确定了输入的情况下，将改变后的显示切换至所确定的数据的常规显示。

在风格区中，显示诸如动画、体育、…、和音乐的所登记的风格信息中的任一个，或者重复显示这些风格信息的切换。在通过用户输入确定了输入的情况下，一般显示所确定的信息。

在频道区中，显示诸如综合NHK的多个所登记的频道信息中的任一个，或者重复显示这些频道信息的切换。在通过用户输入确定了输入的情况下，一般显示所确定的信息。

对于时段、时间和天的信息，显示可输入信息中的任一个或顺次显示其切换。在通过用户输入确定了输入的情况下，一般显示所确定的信息。

以这种方式，由于通过各输入区向用户示出可输入信息，因此用户可以知晓详细的可输入信息，以使得用户可以毫无困惑地输入正确的信息。

参考图7和8所述的指导信息(指导信息显示区信息)的显示的例子是在指导信息显示区附加信息输入区域350(即，实际信息输入部)中嵌入并显示指导信息(指导信息显示区信息)的例子。然而，除了显示的例子以外，作为其它配置，可以设置与信息输入区不同的独立的指导信息显示区信息显示区域来显示指导信息(指导信息显示区信息)。

更具体地，例如，显示的例子与图9所示的指导信息显示区信息显示区域370的显示相同。在指导信息显示区信息显示区域370中设置表示设备的处理状态的设备状态显示区371和指导信息显示区372。

例如，如该图所示，在设备状态显示区371中显示该设备所进行的处理的描述。在该例子中，示出表示针对用户的“互动期间”的例子。

首先，在指导信息显示区372中显示参考图7和8所述的用户输入状态的描述等。

在该图所示的例子中，在指导信息显示区372的上部分中的“语音命令”区中显示对于基于用户言语的输入方法的描述，并且在指导信息显示区372的下部分中的“姿势”区中显示对于基于用户动作(姿势)的输入方法的描述。

通过观看该描述，用户可以在数据输入区中容易地进行正确的输入。

接着，参考图10说明前述的对用户同时使用反馈信息和指导(指导信息显示区)信息的处理的例子。

图10是示出例如图1中的TV等的信息处理设备100的显示单元的显示数据的例子的图。

图10所示的显示数据配置有以下区域：反馈信息显示区域381，在该区域可以设置与头像的会话；指导信息显示区附加信息输入区域382，在该区域中，以数据输入区为单位显示指导(指导信息显示区)信息；指导信息显示区信息显示区域383，在该区域中，显示独立指导(指导信息显示区)信息；以及内容列表显示区域384。

显示的例子是如下情况下显示单元中显示的数据的例子：进行用于从在内容列表显示区域384显示的内容中选择再现内容的处理。

反馈信息显示区域381是与以上参考图3～6(D)所述的[(3-1)使用头像的反馈的例子]相对应的反馈信息的显示区域，在反馈信息显示区域381中可以设置与头像的会话。

指导信息显示区附加信息输入区域382是与以上参考图7和8所述的[(3-2)用于对用户可输入信息进行指导(指导信息显示区)的处理的例子]相对应的指导(指导信息显示区)信息的显示区域，在指导信息显示区附加信息输入区域382中以数据输入区为单位描述了指导(指导信息显示区)信息。

指导信息显示区信息显示区域383是与以上参考图9所述的[(3-2)用于对用户可输入的信息进行指导(指导信息显示区)的处理的例子]相对应的指导(指导信息显示区)信息的显示区域，其中，指导信息显示区信息显示区域383显示独立指导(指导信息显示区)信息。

通过同时显示以上信息，用户毫无困惑地通过言语或姿势来对信息处理设备进行指示。

(3-4)用户分类处理

接着，说明用户分类处理。例如，在与图1的环境类似的环境下，在信息处理设备100前方存在多个用户。这些用户是用户a至用户c(即，11至13)。信息处理设备100通过摄像头101(＝图2的图像输入单元(摄像头)203)获取信息处理设备100前方区域的图像，并且通过将所获取的图像与图2所示的图像分析单元204中预先存储在存储单元中的用户面部图像进行比较来进行用户识别处理。图2所示的数据处理单元205生成识别结果的反馈信息。

更具体地，例如，如图11所示进行所识别的用户的显示。图11是信息处理设备100的显示单元中的显示数据的例子。在图11所示的例子中，显示两个用户图像391和392作为信息处理设备100所识别出的用户的图像。

对于用户图像391和392，可以显示通过用户识别处理识别出的用户的登记图像(即，信息处理设备的存储单元中存储的登记图像数据)，或者可以显示摄像头正拍摄的用户图像。

另外，在图11所示的用于识别出的用户的显示画面中显示针对来自各用户的言语的识别结果。按与针对以上参考图3～6(D)所述的[(3-1)使用头像的反馈的例子]中的用户输入信息302(参考图3)的显示处理相同的方式进行该显示处理。

另外，对于这些用户中讲话的某一个用户，可以进行语音分析单元202中的语音分析处理，即以用户为单位针对信息处理设备100中预先存储的语音特征信息的呼叫处理。另外，图像分析单元204可以根据图像分析嘴部运动，并且可以使用分析结果。

在图11所示的例子中，用户图像391所示的“Makoto Kun”正在讲话。“Makoto Kun”正在呼叫与信息处理设备100相对应的头像。可以对该头像指定昵称，并且将所指定的昵称登记在信息处理设备中。图11所示的例子是如下情况的例子：对与信息处理设备100相对应的头像指定昵称“Television Kun”。

如果信息处理设备100的语音分析单元202检测到昵称呼叫，则数据处理单元205显示例如图12所示的显示数据。

图12示出：头像395对用户(Makoto Kun)的呼叫作出回答，这是头像(Television Kun)向用户(Makoto Kun)说问候语“Hi，Makoto Kun”的例子。另外，可以通过信息处理设备100的语音输出单元(扬声器)206输出该言语。

通过观看图11和12所示的画面，用户检查信息处理设备100是否正确识别出他本人或她本人，并且检查是否正确理解了他或她的言语。

图11和12所示的画面是例如在启动信息处理设备时显示的初始画面。

在输出图11和12所示的初始画面之后，用户通过言语或姿势向信息处理设备输入各种请求。

(3-4)用户分类处理

参考图13说明根据本发明的信息处理设备100的显示单元中显示的画面改变的详细例子。

图13示出初始画面(A)、输入画面(B)和再现画面(C)这三个画面的例子。

初始画面(A)是通过参考图11和12所述的处理[(3-4)用户分类处理]所显示的画面。

数据处理单元205使用信息处理设备100的图像分析单元204中的用户图像的分析信息和语音分析单元202中的用户言语的分析信息，生成初始画面。

通过观看该画面，用户可以检查设备是否正确识别出该用户以及用户的请求是否被正确传送至设备。

输入画面(B)与参考图10所述的画面相对应。

输入画面配置有以下区域：反馈信息显示区域，在该区域可以设置与头像的会话；指导信息显示区附加信息输入区域，在该区域中，以数据输入区为单位显示指导(指导信息显示区)信息；指导信息显示区信息显示区域，在该区域中，显示独立指导(指导信息显示区)信息；以及内容列表显示区域。

显示的例子是如下情况下显示单元中显示的数据的例子：进行用于从在内容列表显示区域中显示的内容中选择再现内容的处理。

反馈信息显示区域是与以上参考图3～6(D)所述的[(3-1)使用头像的反馈的例子]相对应的反馈信息的显示区域，在反馈信息的显示区域中可以设置与头像的会话。

指导信息显示区附加信息输入区域是与以上参考图7和8所述的[(3-2)用于对用户可输入的信息进行指导(指导信息显示区)的处理的例子]相对应的指导(指导信息显示区)信息的显示区域，在指导信息显示区附加信息输入区域中以数据输入区为单位描述了指导(指导信息显示区)信息。

指导信息显示区信息显示区域是与以上参考图9所述的[(3-2)用于对用户可输入的信息进行指导(指导信息显示区)的处理的例子]相对应的指导(指导信息显示区)信息的显示区域，在指导信息显示区信息显示区域中，显示独立指导(指导信息显示区)信息。

再现画面(C)是通过使用输入画面(B)来再现用户所选择的节目(内容)的画面的例子。如图所示，在显示内容再现的情况下可以切换：全屏显示再现内容的显示模式、显示再现内容的模式、反馈信息显示区域和指导信息显示区信息显示区域，其中，在反馈信息显示区域中可以进行与头像的会话设置，在指导信息显示区信息显示区域中显示独立指导(指导信息显示区)信息。

即使在这种状态下，用户也可以与头像交谈，例如，如果需要，在任意时间进行用于改变再现内容的请求等。

[4.通过向用户反馈来理解用户输入或输入时刻的必要性的处理的例子]

接着，说明通过对用户进行反馈处理来使用户理解用户输入或输入时刻的必要性的处理的例子。

在前述实施例中，说明了通过使用头像或各种数据输入区域中的指导信息显示区显示在用户和设备之间会话来精确地进行用户输入的处理的例子。

然而，即使在该配置中，也不能100％确保用户输入无错误。必然可能发生一些输入错误，并且可能存在如下情况：开始与用户的意图不一致的信息处理设备的处理。

更具体地，在语音分析中发生错误的情况下，可能发生如下情况：信息处理设备将不针对用户言语开始处理。

另外，在信息处理设备前方存在多个用户，可能发生如下情况：针对与和信息处理设备交谈的用户无关的用户的言语开始处理。

另外，可能存在如下情况：用户请求不是信息处理设备可以进行的处理。

以这种方式，在用户和信息处理设备之间的通信中存在多种发生错误的因素。以下说明的处理是在发生故障时以对用户进行反馈作为最佳应答的处理的例子。

更具体地，在基于用户言语或用户动作(姿势)的处理中发生禁止处理继续的因素的情况下，图2所示的信息处理设备的数据处理单元205进行用于生成并输出反馈信息的处理，该反馈信息与禁止因素发生的处理阶段相对应。

(4-1)对用户言语的反馈处理的例子

例如，根据本发明的系统通过语音识别分析用户言语，并且基于分析结果确定信息处理设备的处理。

对于直到根据语音识别的确定处理为止的处理，需要连续进行多个不同的处理。换言之，需要顺次进行多个处理阶段作为流水线处理。

如果平滑地进行多个处理阶段，则在最后的处理中，例如，输出对用户的应答。更具体地，将头像的输出显示为图像或作为语音输出。

然而，在流水线处理的处理的任一处理阶段中，如果发生处理错误，则无论经过了多少时间，都不进行最后的处理(即，头像的应答)。

在这种情况下，用户处于待机状态，并且可能不理解信息处理设备的状态。

在以下所述的处理例子中，用户可以通过对用户顺次进行如下反馈来检查设备(系统)的状态：在信息处理设备所进行的多个处理阶段的每一个中发生的错误的状态等的反馈。

参考图14说明信息处理设备针对用户言语的处理的例子。

图14是示出在用户501讲话的情况下、信息处理设备所进行的处理中包括的处理阶段的进行顺序的图。

以上处理是如下处理的例子：在进行了所有处理的情况下，作为最后的处理，头像502对用户讲话。

如图14所示，在步骤S101中，输入了用户言语的信息处理设备进行声学分析。该处理是图2所示的语音分析单元202的处理。在声学分析处理中，进行拒绝语音以外的声音并仅获取人类语音的处理。对于被判断为不是语音并拒绝了的声音数据，不进行下一阶段的处理。然而，存在所拒绝的数据实际上是用户的言语数据的情况。在这种情况下，发生不进行根据用户的意图的处理的故障情况。

在步骤S102中，基于所获取的语音信息进行意思提取处理。该处理也是图2所示的语音分析单元202的处理。例如基于针对语音分析单元202中锁存的字典数据的匹配处理来进行该处理。在该处理中，在不存在相匹配的登记单词等情况下，将数据作为无意义的言语而拒绝。对于所拒绝的声音数据，不进行下一阶段的处理。然而，存在所拒绝的数据实际上是用户的言语数据的情况。在这种情况下，发生不进行根据用户意图的处理的故障情况。

接着，在步骤S103中，计算语音识别的可靠性。该处理也是语音分析单元202的处理。例如，基于关于语音分析单元202中锁存的字典数据的匹配率来进行可靠性的计算。拒绝如下言语：与预先设置的阈值相比，该言语的可靠性被判断为低。对于所拒绝的声音数据，不进行下一阶段的处理。然而，存在所拒绝的数据实际上是用户的言语数据的情况。在这种情况下，发生不进行根据用户意图的处理的故障情况。

在步骤S104中，进行环境理解处理。作为语音分析单元202和数据处理单元205的处理进行该处理。在信息处理设备前方存在多个用户的情况下，可能存在情况：对信息处理设备进行请求的目标用户以外的用户也进行与设备无关的讲话。还需要拒绝该讲话。然而，存在所拒绝的言语是针对信息处理设备的言语的情况。在这种情况下，发生处理错误，即，不进行根据用户意图的处理的故障情况。

在步骤S105中，进行用户管理处理。作为数据处理单元205的处理进行该处理。对信息处理设备进行请求的目标用户未必对信息处理设备讲话。例如，存在目标用户可能对其它用户讲话的情况。进行用于识别并拒绝该言语的处理。然而，存在所拒绝的言语是针对信息处理设备的言语的情况。在这种情况下，发生处理错误，即，不进行根据用户意图的处理的故障情况。

在步骤S106中，进行会话管理处理。作为数据处理单元205的处理进行该处理。不处理对信息处理设备进行请求的用户言语中包括的模糊言语，并拒绝该模糊言语。然而，存在情况：所拒绝的言语是包括用户对信息处理设备进行请求的言语。在这种情况下，发生处理错误，即，不进行根据用户意图的处理的故障情况。

在步骤S107中，进行任务管理处理。作为数据处理单元205的处理进行该处理。进行基于用户言语的处理的应用程序是开始基于用户言语的处理的处理。然而，存在该应用程序可能不进行用户请求的情况。例如，该情况是：存在正在进行的其它处理的情况、该请求超过应用程序的能力的情况等。在这种情况下，发生处理错误，即，不进行根据用户意图的处理的故障情况。

如果进行了步骤S101～S107中的处理，则最终进行步骤S108的动作表达处理。作为数据处理单元205的处理进行该处理。例如，该处理是头像向用户输出应答的处理。

如参考图14所述，将信息处理设备基于用户言语所进行的处理作为由多个不同的处理的流水线构成的处理来进行，使得在各个处理阶段中可能发生错误。如果发生错误，则不进行头像的用户应答。结果，由于头像未向对信息处理设备作出一些请求和提问的用户给出任何应答，因此不能理解信息处理设备是没有听到用户的请求还是有利地在进行处理期间待机。

为了防止该故障情况，根据本发明的信息处理设备根据信息处理设备在各个处理阶段中的处理状态进行头像改变。否则，进行头像的应答。

参考图15说明该例子。

图15所示的处理详情(1)～(7)与图14所示的步骤S101～S107中的处理相对应。

(1)声学分析(S101)

(2)意思提取(S102)

(3)可靠性计算(S103)

(4)环境理解(S104)

(5)用户管理(S105)

(6)会话管理(S106)

(7)任务管理(S107)

如以上参考图14所述，存在在各个处理步骤S101～S107中发生数据拒绝的情况。在进行数据拒绝的情况下，不进行下一阶段的处理。

在这种情况下，在根据本发明的信息处理设备中，头像改变。另外，为了说明，对于头像的外观，如图15的右端部分所示，利用符号头像(a)、(b)、(c)、…来区分不同的头像。

例如，在图15的(1)的声学分析(S101)处理中，对于“我正在进行处理”，在头像的例子中，如图15的(1)的最上部所示，在强调显示耳朵并摇头的状态下显示头像(头像(a))。由于该显示，用户可以检查出信息处理设备确实听到用户言语。

另一方面，例如，在信息处理设备判断为不是用户言语的情况下，处理结果变为非语音拒绝处理(失败)。在这种情况下，如该图所示，头像从强调耳朵并摇头的状态(a)变为头像(b)，该头像是心不在焉的，以表示未听言语。之后，显示再次返回至原始头像(a)。由于该显示，用户可以检查出信息处理设备没有听用户言语。

在图15的(2)的意思提取(S102)处理中，例如，在针对语音分析单元202中锁存的字典数据的匹配处理失败并且不进行意思提取的情况下，头像从强调耳朵且摇头的状态(a)变为头像(b)，头像(b)是心不在焉的，以表示发生处理错误(不进行意思提取)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以检查出信息处理设备没有听到用户言语。

在图15的(3)的可靠性计算(S103)处理中，例如，即使在针对语音分析单元202中锁存的字典数据的匹配处理中没有获得预定匹配率的情况下，头像从强调耳朵且摇头的状态(a)变为头像(b)，头像(b)是心不在焉的，以表示发生处理错误(不以高可靠性进行意思提取)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以检查出信息处理设备没有听到用户言语。

在图15的(4)的环境理解(S104)处理中，例如，在语音分析单元202或数据处理单元205拒绝原来要处理的用户言语的情况下，如该图所示，头像从强调耳朵且摇头的状态(a)变为头像(c)，头像(c)为困窘的，以表示发生处理错误(不进行与用户言语有关的处理)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以检查出信息处理设备处于不进行基于用户言语的处理的状态。

在图15的(5)的用户管理(S105)的处理中，例如，在数据处理单元205拒绝原来要处理的用户言语的情况下，如该图所示，头像从强调耳朵且摇头的状态(a)变为头像(c)，头像(c)为困窘的，以表示发生处理错误(不进行与用户言语有关的处理)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以检查出信息处理设备处于不进行基于用户言语的处理的状态。

在图15的(6)的会话管理(S106)处理的情况下，例如，在数据处理单元205判断为用户言语模糊并拒绝该用户言语的情况下，如该图所示，头像从强调耳朵且摇头的状态(a)变为头像(c)，头像(c)为困窘的，以表示发生处理错误(不进行与用户言语有关的处理)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以检查出信息处理设备处于不进行基于用户言语的处理的状态。

另一方面，在图15的(6)的会话管理(S106)处理的情况下，例如，在数据处理单元205可以理解用户言语的情况下，如(6)的下部中的头像的例子所示，头像从强调耳朵且摇头的状态(a)变为头像(d)，头像(d)张开嘴笑以表示在该处理中成功(理解用户言语)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以检查出信息处理设备理解了用户言语。

在图15的(7)的任务管理(S107)处理中，例如，在数据处理单元205判断为理解用户言语并且能够进行应用的情况下，头像从张大嘴笑的头像(d)变为头像(e)，头像(e)张开嘴笑以表示在该处理中成功(开始根据用户言语的处理)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以检查出在信息处理设备中开始基于用户言语的处理。

以这种方式，在根据本发明的信息处理设备中，头像被配置成根据信息处理处理设备所进行的各种处理阶段中的处理状态(成功、失败等)而变化，以向用户呈现并通知设备状态。由于该处理，用户可以一定程度地检查设备状态。例如，在头像具有困窘的面部表情的情况下，用户可以进行再次讲出该请求的处理，以便可以省略仅处于待机的无用处理。

另外，在参考图15所述的处理中，说明了仅头像的面部表情变化的例子。然而，作为头像的言语，可以配置成进行针对特定处理信息的文档显示处理或言语输出处理。换言之，可以配置成进行处理，使得：在显示单元中显示作为信息处理设备的状态指示符的头像，并且通过所显示的头像输出描述信息处理设备的状态的信息。例如，进行输出失败处理的描述、成功处理的详情等的处理。

(4-2)针对用户动作(姿势)的反馈处理的例子

参考图14和15所述的处理是针对用户言语的语音分析中的处理阶段，并且是各个处理阶段中的反馈处理的例子。接着，参考图16和17说明针对用户动作(姿势)的图像分析中的处理阶段和各个处理阶段中的反馈处理的例子。

参考图16说明信息处理设备针对用户动作(姿势)的处理的例子。

图16是示出如下情况下信息处理设备所进行的处理中包括的处理阶段的进行顺序(步骤S210-＞S220-＞S230-＞S240)的图：用户使用他或她的手指进行了一些动作(姿势)。

如果进行了所有的处理，则例如作为最后的处理，头像对用户讲些话。否则，进行所指示的处理(例如，内容再现等)。

如图16所示，在步骤S210中，输入有用户动作(姿势)的信息处理设备进行手检测处理。该处理是图2所示的图像分析单元204基于从图像输入单元(摄像头)203输入的图像进行的处理。存在手检测处理失败的情况和手检测处理成功这两种情况。在手检测处理失败的情况下，过程进入步骤S211，在步骤S211中，在数据处理单元205中进行诸如头像改变的处理。后面说明该处理。在手检测处理成功的情况下，例如，如步骤S212所示获取手检测信息，并且过程进入下一步骤S220的手指检测处理。

在步骤S220中，进行手指检测处理。该处理是图2所示的图像分析单元204基于从图像输入单元(摄像头)203输入的图像进行的处理。同样存在两种情况，即，手指检测处理失败的情况和手指检测处理成功的情况。在手指检测处理失败的情况下，过程进入步骤S221，在步骤S221中，在数据处理单元205中进行诸如头像改变的处理。后面说明该处理。在手指检测处理成功的情况下，例如，获取步骤S222所示的手指检测信息，并且处理进入下一步骤S230的手图案识别处理。

在步骤S230中，进行手图案识别处理。该处理是在图2所示的图像分析单元204或数据处理单元205中进行的处理。同样存在两种情况，即，手图案检测处理失败的情况和手图案检测处理成功的情况。在手图案检测处理失败的情况下，过程进入步骤S231，在步骤S231中，在数据处理单元205中进行诸如头像改变的处理。后面说明该处理。在手图案检测处理成功的情况下，例如，获取表示例如步骤S232所示的“V手势”的检测信息，并且处理进入下一步骤S240的姿势识别处理。

在步骤S240中，进行姿势识别处理。该处理是在图2所示的图像分析单元204或数据处理单元205中进行的处理。同样存在两种情况，即，姿势识别处理失败的情况和姿势识别处理成功的情况。在姿势识别处理失败的情况下，过程进入步骤S241，在步骤S241中，在数据处理单元205中进行诸如头像改变的处理。后面说明该处理。在姿势识别处理成功的情况下，例如，获取表示例如步骤S242所示的“V手势挥动”的检测信息，并且处理进入下一步骤。

如参考图16所述，将信息处理设备基于用户动作(姿势)所进行的处理作为由多个不同的处理流水线构成的处理来进行，使得在各个处理阶段中可能发生错误。如果发生错误，则不进行信息处理设备针对用户的请求的应答或处理。结果，由于头像未向对信息处理设备进行一些请求或提问的用户给出任何应答并且信息处理设备也未开始任何新处理，因此不理解信息处理设备是没有听到用户的请求还是有利地在进行处理期间待机。

为了防止该困惑情形，根据本发明的信息处理设备根据各个处理阶段中信息处理设备的处理状态进行头像改变。否则，进行头像的应答。

参考图17说明该例子。

图17所示的处理详情(1)～(4)与图16所示的步骤S210～S240的处理相对应。(5)示出任务管理处理作为最后的处理。图17所示的处理为以下处理(1)～(5)。

(1)手检测处理(S210)

(2)手指检测处理(S220)

(3)手图案识别处理(S230)

(4)动作(姿势)识别处理(S240)

(5)任务管理

如以上参考图16所述，在步骤S210～S240的处理中，可能发生错误。在发生错误的情况下，不进行下一处理阶段的处理。在这种情况下，在根据本发明的信息处理设备中改变头像。另外，为了说明，对于头像的外观，如图17的右端部分所示，利用头像(a)、(b)、(c)、…作为符号来区分并说明不同的头像。

例如，在根据图17的(1)的图像的手检测处理(S210)中，在头像的例子中，如图17的(1)的上部所示，通过处于摇头状态的头像(头像(a))显示“我正在进行处理”以表示正在观看。由于该显示，用户可以检查出信息处理设备确实正在观看用户动作(姿势)。

另一方面，例如，在信息处理设备在手检测处理(S210)中失败的情况下，头像从摇头状态(a)变为如图17的(1)的下部所示的表示发生处理错误(手检测时的失败)的心不在焉头像(b)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以理解信息处理设备不能确保检查到用户动作(姿势)。

在图17的(2)的手指检测处理(S220)中手指检测失败的情况下，头像从摇头状态(a)变为如图17的(2)的右端部所示的表示发生处理错误(手指检测时的失败)的心不在焉头像(b)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以理解信息处理设备不能确保检查到用户动作(姿势)。

在图17的(3)的手图案检测处理(S230)中手图案检测失败的情况下，如图17的(3)的右端部所示，头像从其摇头状态(a)变为头像(c)，头像(c)具有困窘的面部表情以表示发生处理错误(手形状图案识别时的失败)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以理解信息处理设备不能确保检查到用户动作(姿势)。

在图17的(4)的动作(姿势)识别处理(S240)中动作(姿势)识别处理失败的情况下，如图17的(4)的右端部所示，头像从摇头状态(a)变为头像(c)，头像(c)具有困窘的面部表情以表示发生处理错误(手形状图案识别时的失败)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以理解信息处理设备不能确保检查到用户动作(姿势)。

另一方面，在图17的(4)的动作(姿势)识别处理(S240)中动作(姿势)识别处理成功的情况下，如(4)的下部的头像的例子所示，头像从摇头状态(a)变为张大嘴笑以表示处理成功(理解了用户言语)的头像(d)。之后，显示再次返回至原始头像(a)。由于该显示，用户可以检查出信息处理设备理解了用户动作(姿势)。

在(例如)数据处理单元205可以理解用户动作(姿势)使得判断为可以在图17的(5)的任务管理处理中执行应用程序的情况下，头像从面部表情为张大嘴笑的头像(d)变为面部表情为张嘴笑的头像(e)以表示处理成功(开始根据用户动作(姿势)的处理)。由于该显示，用户可以检查出在信息处理设备中，开始基于用户动作(姿势)的处理。

以这种方式，在根据本发明的信息处理设备中，头像被配置成根据信息处理设备所进行的各种处理阶段中的处理状态(成功或失败等)而变化，以向用户呈现并通知设备状态。由于该处理，用户可以在某种程度上检测设备状态。例如，在头像具有困窘的面部表情的情况下，用户可以进行再次讲出请求的处理，以使得可以省略仅处于待机的无用处理。

另外，在参考图17所述的处理中，说明了仅头像的面部表情改变的例子。然而，作为头像的言语，可以被配置成进行针对特定处理信息的文档显示处理或语音输出处理。换言之，可以配置成进行处理，使得：在显示单元中显示作为信息处理设备的状态指示符的头像，并且通过所显示的头像输出描述信息处理设备的状态的信息。例如，进行输出失败了的处理的描述、成功了的处理的详情的处理。

[5.信息处理设备的硬件配置的例子]

最终，参考图18说明进行前述处理的信息处理设备的硬件配置的例子。CPU(Central Processing Unit，中央处理单元)701根据ROM(ReadOnly Memory，只读存储器)702或存储单元708中存储的程序来进行各种处理。

例如，CPU进行图2的信息处理设备的配置中的语音分析单元202、图像分析单元204和数据处理单元205的处理。RAM(Random AccessMemory，随机存取存储器)703适当存储CPU 701所进行的程序和数据等。CPU 701、ROM 702和RAM 703经由总线704彼此连接。

CPU 701经由总线704连接至输入/输出接口705。诸如摄像头、麦克风、遥控器、键盘或鼠标的输入单元706以及由显示器或扬声器等构成的输出单元707连接至输入/输出接口705。CPU 701进行与从输入单元706输入的信息相对应的各种处理，并且将处理结果输出至例如输出单元707。

连接至输入/输出接口705的存储单元708由例如硬盘构成，以存储CPU 701所进行的程序或各种数据。

另外，在存储单元708中记录语音识别处理必需使用的各种类型的语音信息或字典数据、以及图像识别处理必需使用的用户图像数据等。通信单元709通过诸如因特网或局域网等的网络与外部设备进行通信。

连接至输入/输出接口705的驱动器710驱动磁盘、光盘、磁光盘、或诸如半导体存储器等的可拆卸介质711等，以获取所记录的程序或数据等。如果需要，将所获取的程序或数据发送至并存储在存储单元708中。

以上参考特定实施例详细说明了本发明。然而，显然，在不背离本发明的精神的情况下，相关技术领域内的普通技术人员可以对本实施例进行修改和改变。换言之，通过典型实施例公开了本发明，由此不应当以有限的含义来分析这些实施例。在确定本发明的精神时，应当考虑权利要求书。

另外，可以以硬件配置、软件配置或其组合来实现说明书所述的一系列的处理。在以软件配置进行处理的情况下，可以将记录有处理过程的程序安装在装配有要进行的专用硬件的计算机中的存储器中，或者可以将程序安装在可以进行要进行的各种类型的处理的通用计算机中。例如，可以预先将程序记录在记录介质中。除了将来自记录介质的程序安装至计算机以外，可以经由诸如LAN(Local Area Network，局域网)等的网络接收到程序，并将该程序安装在诸如嵌入式硬盘等的记录介质中。

另外，可以根据说明按时间序列、并且根据进行处理的设备的处理性能或如果需要单独或同时进行说明书所述的各种类型的处理。另外，说明书中的术语“系统”表示多个设备的逻辑组合配置，但不限于各种配置的设备包含于同一外壳中的系统。

本申请包含与2010年3月29日在日本专利局提交的日本在先专利申请2010-074158所公开的主题有关的主题，在此通过引用包含其全部内容。

本领域的技术人员应当理解，根据设计要求和其它因素，可以出现修改、组合、子组合和改变，只要它们在所附权利要求或其等同内容的范围内即可。

Claims

1.一种信息处理设备，包括：

语音分析单元，所述语音分析单元进行针对用户言语的分析处理；以及

数据处理单元，所述数据处理单元输入有所述语音分析单元的分析结果，以确定所述信息处理设备要进行的处理，

其中，在基于用户言语的处理中出现禁止处理继续的因素的情况下，所述数据处理单元进行用于生成并输出与出现禁止因素的处理阶段相对应的反馈信息的处理。

2.根据权利要求1所述的信息处理设备，

其中，所述信息处理设备还包括图像分析单元，所述图像分析单元分析用户动作，以及

所述数据处理单元输入有所述图像分析单元的分析结果，以确定所述信息处理设备要进行的处理，并且在基于用户动作的处理中出现禁止处理继续的因素的情况下，所述数据处理单元进行用于生成并输出与出现禁止因素的处理阶段相对应的反馈信息的处理。

3.根据权利要求1或2所述的信息处理设备，其中，所述数据处理单元进行以下处理：将作为所述信息处理设备的状态指示符的头像作为反馈信息显示在显示单元中，并且改变所显示的头像的外观。

4.根据权利要求1或2所述的信息处理设备，其中，所述数据处理单元进行以下处理：将作为所述信息处理设备的状态指示符的头像作为反馈信息显示在显示单元中，并且改变所显示的头像的面部表情。

5.根据权利要求1或2所述的信息处理设备，其中，所述数据处理单元进行以下处理：将作为所述信息处理设备的状态指示符的头像作为反馈信息显示在显示单元中，并且通过所显示的头像输出描述所述信息处理设备的状态的信息。

6.根据权利要求1或2所述的信息处理设备，其中，在基于用户言语或用户动作的处理成功的情况下，所述数据处理单元进行以下处理：将作为所述信息处理设备的状态指示符的头像作为反馈信息显示在显示单元中，并且改变所显示的头像的面部表情或通过所述头像输出描述所述信息处理设备成功进行处理的信息。

7.一种用于在信息处理设备中进行信息处理的信息处理方法，所述信息处理方法包括以下步骤：

语音分析步骤，在语音分析单元中进行针对用户言语的分析处理；以及

数据处理步骤，在数据处理单元中输入所述语音分析步骤的分析结果，以确定所述信息处理设备要进行的处理，

其中，所述数据处理步骤包括以下步骤：在基于用户言语的处理中出现禁止处理继续的因素的情况下，进行用于生成并输出与出现禁止因素的处理阶段相对应的反馈信息的处理。

8.一种用于执行信息处理设备中的信息处理的程序，所述程序包括以下步骤：

语音分析步骤，允许语音分析单元进行针对用户言语的分析处理；以及

数据处理步骤，允许数据处理单元输入有所述语音分析步骤的分析结果，以确定所述信息处理设备要进行的处理；以及

其中，所述数据处理步骤包括以下步骤：在基于用户言语的处理中出现禁止处理继续的因素的情况下，允许所述数据处理单元进行用于生成并输出与出现禁止因素的处理阶段相对应的反馈信息的处理。