CN108431728A

CN108431728A - 信息处理设备、信息处理方法以及程序

Info

Publication number: CN108431728A
Application number: CN201680072119.7A
Authority: CN
Inventors: 中川佑辅; 河野真; 河野真一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-12-16
Filing date: 2016-09-23
Publication date: 2018-08-21
Also published as: US10725733B2; JP6848881B2; WO2017104207A1; US20180336008A1; JPWO2017104207A1

Abstract

[问题]为了进一步减轻与识别姿势相关联的延迟的影响。[解决方法]一种信息处理设备，所述信息处理设备设置有：获取单元，其获取预测结果，基于与检测到的姿势的初始部分相关联的第一输入信息通过预测在姿势的剩余部分已经被执行时将被执行的操作而得到该预测结果；以及控制单元，其基于所获取的操作预测结果来控制与获取第二输入信息有关的处理，该第二输入信息与第一输入信息相关联。

Description

信息处理设备、信息处理方法以及程序

技术领域

本公开内容涉及信息处理设备、信息处理方法以及程序。

背景技术

为了控制所谓的信息处理设备例如个人计算机(PC)或游戏控制台的操作，已经提出了各种方法作为用于从用户获取输入的用户接口。特别是近年来，随着诸如声音分析和图像分析的技术的发展，已经提出了各种技术来识别由用户发出的语音或者用户的动作，并且利用语音或动作的识别结果来控制信息处理设备。例如，专利文献1公开了用于识别用户动作(也称为姿势)的技术的示例。

此外，也可以以多种方式组合如上所述的各种接口。作为具体示例，通过使用姿势检测结果来控制基于用户言语的语音识别的开始和停止，与经由输入装置例如鼠标或控制器的操作相比，可以实现更直观的操作。

引文列表

专利文献

专利文献1：JP2012-8772A

发明内容

技术问题

另一方面，在某些情况下，基于姿势的检测结果而识别操作可能比经由输入装置例如鼠标或控制器的操作花费更多时间。为此，例如，在使用姿势检测结果来获取其他输入信息例如语音等的状况下，在某些情况下，用于识别由姿势表示的操作的处理时间可能导致开始获取输入信息的时刻产生延迟。

因此，本公开内容提出能够进一步减轻与识别姿势相关联的延迟的影响的信息处理设备、信息处理方法以及程序。

解决方案

根据本公开内容，提供了一种信息处理设备，该信息处理设备包括：获取单元，其获取基于与姿势的检测结果对应的第一输入信息的、与之后输入的姿势对应的操作的预测结果；以及控制单元，其根据操作的预测结果来控制与获取第二输入信息有关的处理，该第二输入消息与第一输入信息相关联。

另外，根据本公开内容，提供了一种信息处理方法，该方法包括通过处理器进行以下操作：获取基于与姿势的检测结果对应的第一输入信息的、与之后输入的姿势对应的操作的预测结果；以及根据操作的预测结果来控制与获取第二输入信息有关的处理，该第二输入信息与第一输入信息相关联。

另外，根据本公开内容，提供了一种使计算机执行以下操作的程序：获取基于与姿势的检测结果对应的第一输入信息的、与之后输入的姿势对应的操作的预测结果；以及根据操作的预测结果来控制与获取第二输入信息有关的处理，该第二输入信息与第一输入信息相关联。

有益效果

根据如上所述的本公开内容，提供了能够进一步减轻与识别姿势相关联的延迟的影响的信息处理设备、信息处理方法以及程序。

注意，上述效果不一定是限制性的。利用或代替上述效果，可以实现本说明书中描述的效果或者可以从本说明书理解的其他效果中的任何一种效果。

附图说明

[图1]图1是用于说明根据本公开内容的实施方式的输入/输出设备的示意性配置的示例的说明图。

[图2]图2是用于说明用于检测用户的手的动作的输入设备的示例的说明图。

[图3]图3是用于说明根据实施方式的信息处理系统的系统配置的示例的说明图。

[图4]图4是用于说明由根据实施方式的信息处理系统提供的用户接口的示例的说明图。

[图5]图5是用于说明由根据实施方式的信息处理系统提供的用户接口的示例的说明图。

[图6]图6是用于说明根据实施方式的信息处理系统的技术问题的说明图。

[图7]图7是用于说明根据实施方式的信息处理系统的操作原理的说明图。

[图8]图8是示出根据实施方式的信息处理系统的功能配置的示例的框图。

[图9]图9是示出根据实施方式的信息处理系统的一系列操作的流程的示例的流程图。

[图10]图10是用于说明根据实施方式的工作示例的信息处理设备的操作的示例的说明图。

[图11]图11是用于说明根据实施方式的工作示例的信息处理设备的操作的另一示例的说明图。

[图12]图12是用于说明根据实施方式的工作示例的信息处理设备的操作的另一示例的说明图。

[图13]图13是用于说明根据实施方式的工作示例的信息处理设备的操作的另一示例的说明图。

[图14]图14是示出根据实施方式的变形1的信息处理系统的一系列处理的流程的示例的流程图。

[图15]图15是用于说明根据实施方式的变形2的信息处理设备的操作的示例的说明图。

[图16]图16是用于说明根据实施方式的变形2的信息处理设备的操作的另一示例的说明图。

[图17]图17是示出根据实施方式的信息处理设备的示例性硬件配置的框图。

具体实施方式

在下文中，将参照附图详细描述本公开内容的一个或多个优选实施方式。注意，在本说明书和附图中，具有基本相同的功能和结构的结构元件用相同的附图标记表示，并且省略对这些结构元件的重复说明。

注意，描述将按以下顺序进行。

1.概述

1.1.输入/输出设备的配置

1.2.系统配置

1.3.用户接口

1.4.技术问题

2.技术特征

2.1.操作原理

2.2.功能配置

2.3.处理

2.4.工作示例

2.5.变型1：与机器学习结合的示例

2.6.变型2：与预测有关的操作的优化

3.示例性硬件配置

4.结论

<<1.概述>>

首先，在概述了本公开内容的实施方式之后，将描述本实施方式的技术问题。

<1.1.输入/输出设备的配置>

首先，将参照图1描述根据本实施方式的输入/输出设备的示意性配置的示例。图1是用于说明根据本实施方式的输入/输出设备的示意性配置的示例的说明图。

如图1所示，根据本实施方式的输入/输出设备20包括显示单元201和声音收集单元203。另外，根据本实施方式的输入/输出设备20被配置为所谓的头戴式显示器(HMD)。换言之，输入/输出设备20被配置成使得通过穿戴在用户的头部上，用于显示图像的显示单元201(例如，显示面板)被保持在用户的眼睛的前方。

注意，能够用作输入/输出设备20的头戴式显示器(HMD)的类型包括所谓的沉浸式HMD、透视HMD、视频透视HMD以及视网膜投影HMD。

在沉浸式HMD被穿戴在用户的头部或面部的情况下，沉浸式HMD被穿戴以覆盖用户的眼睛，并且显示单元例如显示器被保持在用户的眼睛的前方。因此，对于穿戴沉浸式HMD的用户，外部场景(即，真实世界的场景)难以直接进入到人的视野中，并且只有在显示单元上显示的画面进入人的视野。利用这样的配置，沉浸式HMD能够给予观看图像的用户沉浸感。

透视HMD例如使用半反射镜和透明导光板来将包括透明导光单元等的虚拟图像光学系统保持在用户的眼睛的前方，并且在虚拟图像光学系统的内侧上显示图像。为此，对于穿戴透视HMD的用户，即使在正在观看虚拟图像光学系统的内侧上显示的图像时，外部场景也可以进入到人的视野中。注意，透视HMD的具体示例包括所谓的眼镜式可穿戴装置，其中，与一副眼镜的镜片对应的部分被配置为虚拟图像光学系统。

与沉浸式HMD类似，视频透视HMD被穿戴以覆盖用户的眼睛，并且显示单元例如显示器被保持在用户的眼睛的前方。另一方面，视频透视HMD包括用于对周围场景进行成像的成像单元，并且使显示单元在用户的视线方向上显示由成像单元成像的场景的图像。利用这样的配置，对于穿戴视频透视HMD的用户，外部场景难以直接进入到人的视野中，但是可以通过显示单元上显示的图像来检查外部场景。

使用视网膜投影HMD，投影单元被保持在用户的眼睛的前方，并且从投影单元朝用户的眼睛投影图像，使得图像被叠加在外部场景上。更具体地，在视网膜投影HMD中，图像直接从投影单元被投影在用户眼睛的视网膜上，并且在视网膜上形成图像。利用这样的配置，即使在近视用户或远视用户的情况下，也可以观看更清晰的图片。此外，对于穿戴视网膜投影HMD的用户，即使在正在观看从投影单元投影的图像时，外部场景也可以进入到人的视野中。

另外，例如，根据本实施方式的输入/输出设备20还可以被设置有加速度传感器和角速度传感器(陀螺仪传感器)，并且被配置成能够检测穿戴输入/输出设备20的用户的头部的运动(头部的姿态)。作为具体示例，输入/输出设备20检测在偏航方向、俯仰方向和滚装方向中的每一个方向上的分量作为用户的头部的运动。另外，基于检测到的用户头部的运动，输入/输出设备20识别由用户的视线所指示的方向(在下文中，在一些情况下称为“视线方向”)上的变化，并向用户呈现与所识别的视线方向上的变化对应的图像。基于这样的配置，例如，通过根据用户的视线方向上的变化来在虚拟空间内向用户呈现图片，可以给予用户沉浸感，就好像用户实际上存在于该虚拟空间内。

另外，根据本实施方式的输入/输出设备20被配置成能够使用声音收集单元203来收集由用户发出的语音。利用这样的配置，例如，可以基于语音识别技术来识别由用户发出的语音所表达的内容(即，由用户指示的内容)，并且将识别结果用于各种类型的控制。

另外，根据本实施方式的输入/输出设备20还可以被配置成能够获取信息，以用于识别诸如用户的手的部位的动作。

作为具体示例，输入/输出设备20还可以与用于获取图像信息(例如静止图像或移动图像)的成像单元结合来进行操作。在这种情况下，输入/输出设备20还可以获取由成像单元成像的用户的部位的图像作为用于识别该部位的动作的信息。注意，成像单元的配置不受特别限制，只要成像单元能够捕获目标部位的图像。作为具体示例，成像单元可以被设置在输入/输出设备20的前表面上以对前侧进行成像。利用这样的配置，例如，输入/输出设备20能够获取用户的手的由成像单元成像的图像作为用于识别手的动作的信息，用户的手定位在穿戴输入/输出设备20的用户的前方。另外，作为另一示例，成像单元也可以被设置为与输入/输出设备20分离的主体。利用这样的配置，例如，输入/输出设备20还能够相对于用户从被安装在特定方向上(例如，大约在前方)的成像单元获取所捕获的用户的图像，作为用于识别用户的动作(或者用户的部位的动作)的信息。

此外，作为另一示例，输入/输出设备20还可以结合输入设备进行操作，所述输入设备包括用于检测诸如用户的手的部位的动作的检测单元例如传感器。例如，图2是用于说明用于检测用户的手的动作的输入设备的示例的说明图。如图2所示，通过由用户的手握持壳体，输入设备21由用户握持。另外，输入设备21被设置有用于检测壳体的位置和朝向的变化的检测单元，例如加速度传感器和陀螺仪传感器(角速度传感器)。利用这样的配置，输入设备21能够获取对壳体的位置和朝向的变化的检测结果，以作为指示握持壳体的手的位置和朝向的变化的信息(即，用于识别手的运动的信息)。另外，通过利用外部提供的成像单元来捕获输入设备21的图像，还可以利用该图像作为用于识别输入设备21的动作(并且延伸开来，握持输入设备21的手的动作)的信息。

利用如上配置，基于由输入/输出设备20获取的信息，可以识别用户的部位的运动(也称为姿势)，从而使得可以将对用户的该部位的运动的识别结果用于各种类型的控制。

上面参照图1和图2描述了根据本实施方式的输入/输出设备的示意性配置的示例。注意，上述输入/输出设备20的配置仅是一个示例，并且，只要用户的操作是能够检测的，则输入/输出设备20的配置不必限于参照图1所描述的示例。

<1.2.系统配置>

接下来，将参照图3来描述根据本实施方式的信息处理系统1的系统配置的示例。图3是用于说明根据本实施方式的信息处理系统1的系统配置的示例的说明图。

如图3所示，根据本实施方式的信息处理系统1包括输入/输出设备20、内容控制设备30和声音处理设备40。在图3所示的示例中，输入/输出设备20和内容控制设备30通过网络N1彼此可通信地连接。类似地，内容控制设备30和声音处理设备40通过网络N2彼此可通信地连接。例如，网络N1和N2可以包括因特网、专用线路、局域网(LAN)、广域网(WAN)等。注意，只要网络将不同的设备彼此连接，则网络N1和N2中的每一个的模式不受特别限制。

内容控制设备30是用于向输入/输出设备20提供内容的配置。例如，内容控制设备30基于通过输入/输出设备20的来自用户的指令来回放内容，并且向输入/输出设备20输出与回放结果对应的输出信息，例如图片和声音。另外，内容控制设备30还可以通过输入/输出设备20获取表示来自用户的输入的信息(例如表示视线方向、语音收集结果或姿势检测结果的信息)，并且基于所获取的信息来控制相对于输入/输出设备20的输出信息(例如图片和声音)的输出。

注意，内容控制设备30还可以根据内容的类型或主题来执行各种处理。例如，基于所谓的虚拟现实(VR)技术，内容控制设备30还可以通过输入/输出装设备20向用户呈现人工构建的虚拟空间(换言之，虚拟空间的画面和声音)。此外，作为另一示例，基于所谓的增强现实(AR)技术，内容控制设备30还可以通过输入/输出设备20向用户呈现虚拟生成的对象(即，虚拟对象)，使得虚拟对象被叠加到真实空间中的对象上。

另外，内容控制设备30可以通过输入/输出设备20接收来自用户的输入，基于输入回放内容，并且通过输入/输出设备20向用户呈现内容的回放结果。作为具体示例，内容控制设备30可以基于从输入/输出设备20获取的信息来识别用户的视线方向的变化，并且基于VR技术生成由视线方向所指示的虚拟空间内的画面。利用该布置，内容控制设备30能够通过输入/输出设备20向用户呈现所生成的虚拟空间内的画面作为与用户的视线方向的变化对应的画面。此外，作为另一示例，内容控制设备30可以基于从输入/输出设备20获取的信息来识别用户的手的运动(即，姿势)，并且基于识别结果来执行与该姿势对应的处理。

声音处理设备40是用于对输入的声音信息执行各种类型的声音分析的配置。例如，声音处理设备40可以获取由用户发出的语音的声音收集结果，并且通过对收集结果执行基于语音识别技术和自然语言处理技术的分析处理来识别由用户发出的语音内容。注意，例如，由用户发出的语音内容的识别结果(即，语音识别处理的结果)也可以由上述内容控制设备30使用，以执行各种处理例如内容回放。

上面参照图3描述了根据本实施方式的信息处理系统1的系统配置的示例。注意，上述信息处理系统1的系统配置仅是一个示例，并且不必限于图3所示的示例。作为具体示例，输入/输出设备20、内容控制设备30以及声音处理设备40还可以以集成的方式来进行配置。另外，内容控制设备30和声音处理设备40还可以以集成的方式被配置为信息处理设备10。

<1.3.用户接口>

接下来，将参照图4和图5来描述由根据本实施方式的信息处理系统1提供的用户接口的示例。图4和图5是用于说明由根据本实施方式的信息处理系统1提供的用户接口的示例的说明图，并且示出了预测通过输入/输出设备20向用户呈现虚拟空间的情形的用户接口的示例。

在图4和图5所示的示例中，用户通过使用自己身体的至少一个部位(例如，手)进行的所谓姿势输入以及通过讲话的所谓语音输入来将各种信息输入到信息处理系统1中(即，执行各种操作)。

更具体地，在图4和图5所示的示例中，信息处理系统1在呈现给用户的图像的一部分中呈现了用于启动语音识别的对象(例如，图标)V11。此外，如果检测到使用用户的手的姿势，则根据检测到的姿势的内容，呈现在虚拟空间中形成的虚拟手(即，手对象)U11。利用这样的配置，通过使用自己的手进行的姿势输入来操作虚拟空间中的虚拟手U11，用户能够经由手U11对虚拟空间内的各种对象(例如，对象V11)执行操作。注意，虚拟手U11对应于“第一显示对象”的示例。此外，对象V11对应于“第二显示对象”的示例。

另外，在基于来自用户的姿势输入的检测结果而识别出已经由虚拟空间内的手U11对对象V11执行了操作的情况下，信息处理系统1启动与对象V11相关联的处理(即语音识别)。例如，在图4所示的示例中，在基于来自用户的姿势输入的检测结果而识别出手U11已经握持对象V11的情况下，信息处理系统1启动与对象V11相关联的语音识别。此外，在图5所示的示例中，在基于来自用户的姿势输入的监测结果而识别出手U11已经与对象V11交叠(换言之，手U11的位置与对象V11的位置近似匹配)的情况下，信息处理系统1启动与对象V11相关联的语音识别。

以这种方式，通过在各种识别处理的基础上利用用户实施例来提供用户接口，用户能够通过直观且快速的动作来发起各种处理例如语音识别。

<1.4.技术问题>

接下来，将参照图6来描述根据本实施方式的信息处理系统1的技术问题。图6是用于说明根据本实施方式的信息处理系统1的技术问题的说明图。注意，在该说明中，将通过着眼于以下情况来描述根据本实施方式的信息处理系统1的技术问题：在所述情况下，如之前参照图5所描述的，用户用手来执行姿势输入，以将手U11移动至虚拟空间内的一定位置(例如，呈现对象V11的位置)，并且从而启动语音识别。

在图6中，横轴表示时间t。此外，以时间轴为参考基准，沿时间轴上面示出了用户的操作内容和所述操作的时刻，同时沿时间轴上面示出了接收用户操作的系统所处理的内容以及处理的时刻。

例如，在图6所示的示例中，在时刻t11处，用户开始通过姿势输入来移动虚拟空间内的手U11，并且在时刻t12处，手U11到达一定位置(例如，对象V11的位置)。在此之后，在时刻t13处，系统基于来自用户的姿势输入的分析结果而检测到手U11已经移动至一定位置。另外，基于手U11已经移动至一定位置的检测结果，系统识别出用户已经给出了启动语音识别处理的指令，并且基于该识别结果，在时刻t15处启动语音识别。

以这种方式，在系统识别出基于姿势输入的用户操作并且基于对操作的识别结果启动语音识别处理以前，在一些情况下，实际产生了系统延迟(例如，由于与姿势的识别有关的处理等引起的延迟)。具体地，在某些情况下，基于姿势的检测结果来识别操作可能比经由输入装置(例如鼠标或控制器)的操作花费更多时间。为此，在某些情况下，在由于用户执行姿势输入而识别出已经可以进行语音识别的时刻与系统实际启动语音识别的时刻之间出现间隙。

例如，在图6所示的示例中，在基于姿势输入而识别用户操作与由系统启动语音识别之间的时刻t14处，用户开始讲话以进行语音识别。在这样的情况下，系统不能获取在从时刻t14至时刻t15期间的语音，或者换言之，系统不能获取在话语开始部分处的语音，并且在某些情况下可能因此不能进行语音识别。

因此，本公开内容提出了以下机制：即使在使用姿势检测结果来获取其他输入信息(例如语音等)的情况下，也可以进一步减轻与识别姿势相关联的延迟的影响，从而能够以更有利的模式获取其他输入信息。

<2.技术特征>

在下文中，将描述根据本实施方式的信息处理系统1的技术特征。

<2.1.操作原理>

首先，将参照图7来描述根据本实施方式的信息处理系统1的操作原理。图7是用于说明根据本实施方式的信息处理系统1的操作原理的说明图。注意，在该说明中，类似于图6中所示的示例，将通过着眼于以下情况来描述根据本实施方式的信息处理系统1的操作原理：在所述情况下，用户用手来执行姿势输入，以将手U11移动至虚拟空间内的一定位置(例如，呈现对象V11的位置)，并且从而启动语音识别。

在图7中，横轴表示时间t。另外，以时间轴作为参考基准，沿时间轴下面示出了用户操作的内容和操作的时刻，同时沿时间轴上面示出了由接收用户操作的系统处理的内容以及处理的时刻。

在图7所示的示例中，在时刻t21处，用户开始通过姿势输入来移动虚拟空间内的手U11，并且在时刻t23处，手U11到达一定位置(例如，对象V11的位置)。此时，系统(即，信息处理系统1)基于虚拟空间内的手U11的运动或者对真实空间中的用户手的运动的检测结果来预测(估计)手U11的后续运动(换言之，后续操作)。例如，在图7所示的示例中，在早于时刻t23的时刻t22处，信息处理系统1预测手U11将移动至一定位置。

另外，在预测手U11将移动至一定位置的情况下，信息处理系统1基于预测结果来启动与获取用于语音识别的声音有关的处理(并且延伸开来，语音识别处理)。为此，在图7所示的示例中，在手U11实际到达虚拟空间内的一定位置的时刻t23之前，对基于之后要输入的姿势的用户操作进行预测，并且基于对该操作的预测结果，在时刻t24处启动语音识别的处理。

在本文中，作为图6的对照，与图6中所示的示例相比较，图7显示了根据本实施方式的信息处理系统1能够在较早的时刻启动语音识别处理。为此，如图7所示，例如，信息处理系统1能够在早于用户开始讲话以用于语音识别的时刻t25的时刻t24处启动语音识别处理。换言之，根据本实施方式的信息处理系统1，即使在使用姿势检测结果来获取其他输入信息(例如语音等)的情况下，也可以进一步减轻与识别姿势相关联的延迟的影响，从而能够以更有利的模式获取其他输入信息。

<2.2.功能配置>

接下来，将参照图8来描述根据本实施方式的信息处理系统1的功能配置的示例。图8是示出根据本实施方式的信息处理系统1的功能配置的示例的框图。注意，在该描述中，为了使根据本实施方式的信息处理系统1的特征更易于理解，图3中所示的内容控制设备30和声音处理设备40以集成的方式被配置为信息处理设备10，并且信息处理设备10和输入/输出设备20被描述为彼此结合进行操作。

如图8所示，根据本实施方式的信息处理系统1包括输入/输出设备20、信息处理设备10和存储单元13。

存储单元13是信息处理设备10存储各种信息的配置，所述各种信息用于通过输入/输出设备20向用户提供内容。例如，内容数据可以存储在存储单元13中。另外，程序(应用)的数据(例如，库)以及各种控制信息(例如，设置文件)也可以存储在存储单元13中，其中，通过所述程序(应用)，信息处理设备10通过输入/输出设备20向用户提供内容。

在本文中，将着眼于输入/输出设备20的配置。输入/输出设备20包括显示单元201、声音输出单元202和声音收集单元203。显示单元201和声音收集单元203对应于参照图1描述的显示单元201和声音收集单元203。此外，声音输出单元202包括声音装置例如所谓的扬声器等，并且输出语音和声音。

另外，输入/输出设备20还可以包括检测单元205和成像单元207中的至少一个。检测单元205和成像单元207是用于检测用户的部位(例如头部或手)的动作的配置。

例如，检测单元205包括各种传感器，例如，加速度传感器、陀螺仪传感器(角速度传感器)等，使用传感器来检测用户的部位的位置和取向的变化，并且获取检测结果作为用于识别所述部位的动作的信息。更具体地，例如，检测单元205可以检测输入/输出设备20的壳体的位置和取向的变化，并且获取检测结果作为用于识别穿戴输入/输出设备20的用户的头部的动作的信息。

此外，作为另一示例，检测单元205还可以通过用户的手上穿戴的(或手中握持的)设备的传感器来获取对所述设备的位置和取向的变化的检测结果，作为用于识别用户的手的动作的信息。

此外，成像单元207捕获其被摄体是用户的部位(例如手)的图像，并且从而获取该图像作为用于识别被成像为图像中的被摄体的部位的动作的信息。另外，成像单元207也可以被配置成能够检测被摄体的深度方向，如所谓的深度传感器等。另外，成像单元207可以捕获用户的眼睛的图像，并且从而获取该图像作为用于基于所谓的眼睛追踪技术来检测用户的视线方向的信息。

接下来，将着眼于信息处理设备10的配置。信息处理设备10包括输出控制单元101、声音处理单元103、姿势识别处理单元105和控制单元110。此外，控制单元110包括内容控制单元111、预测单元113和定时控制单元115。

输出控制单元101是用于控制通过输入/输出设备20向用户呈现信息的配置。例如，输出控制单元101基于稍后描述的控制单元110(更具体地，内容控制单元111)的内容回放结果来使显示单元201显示图像。利用该布置，例如，由所述内容提供的虚拟空间内的画面通过显示单元201被呈现给用户。此外，输出控制单元101基于控制单元110的内容回放结果使声音输出单元202输出声音，例如语音。利用该布置，例如，由所述内容提供的虚拟空间内的声音通过声音输出单元202被呈现给用户。

声音处理单元103从声音收集单元203获取声音(例如，语音)的声音收集结果，并且对声音收集结果执行各种声音分析处理。作为更具体的示例，声音处理单元103还可以对声音的声音收集结果执行所谓的语音识别处理，并且从而将声音转换成文本信息。另外，此时，声音处理单元103可以对声音的声音收集结果执行声音分析处理，例如所谓的波束形成处理，以从而抑制除了用户的语音之外的其他声音(也称为噪声)，并且对声音分析处理的结果执行语音识别处理。之后，声音处理单元103将声音处理(例如语音识别)的结果输出至控制单元110。

另外，声音处理单元103还可以基于来自稍后描述的控制单元110(更具体地，定时控制单元115)的控制来控制与获取要经受语音识别的声音(换言之，声音的声音收集结果)有关的处理的时刻以及声音分析处理(例如语音识别)的时刻。

姿势识别处理单元105是用于基于由输入/输出设备20获取的信息来识别诸如用户的手的部位的动作(即，姿势)的配置。

例如，姿势识别处理单元105还可以从检测单元205获取以下信息，所述信息用于基于对输入/输出设备20的壳体的位置和取向的变化的检测结果来识别穿戴输入/输出设备20的用户的头部的动作。利用该布置，姿势识别处理单元105能够基于从检测单元205获取的信息来识别用户的头部的动作(例如，位置和取向的变化)，并且延伸开来，还能够基于对头部的动作的识别结果来确定用户的视线方向。

另外，姿势识别处理单元105还可以从检测单元205获取以下信息，所述信息用于基于通过用户的手上穿戴的设备的传感器对所述设备的位置和取向的变化的检测结果来识别用户的手的动作。利用该布置，姿势识别处理单元105能够基于从检测单元205获取的信息来识别用户的手的动作(即，位置和取向的变化)。

此外，作为另一示例，姿势识别处理单元105可以获取由成像单元207捕获的图像，并且通过对所获取的图像执行图像分析处理来识别图像中的被成像的部位的动作。另外，此时，姿势识别处理单元105还可以基于由被配置为所谓的深度传感器的成像单元207捕获的图像来识别图像中的被成像的部位在深度方向上的位置。

更具体地，姿势识别处理单元105从所获取的图像中提取目标部位(例如手)的几何特征，并且基于提取结果来提取在图像中成像的部位。利用该布置，姿势识别处理单元105能够识别该部位相对于成像单元207的相对位置和取向。另外，通过识别成像单元207的位置和取向，姿势识别处理单元105还可以识别由成像单元207捕获的图像中的该部位的绝对位置。例如，姿势识别处理单元105能够基于对输入/输出设备20的位置和取向的识别结果(换言之，对用户的视线方向的识别结果)来识别安装在输入/输出设备20中的成像单元207的位置和取向。

另外，姿势识别处理单元105还可以从成像单元207获取对用户眼睛的图像的成像结果，并且通过使用获取的图像作为参考基准，基于所谓的眼睛追踪技术来识别用户的眼睛的动作。此时，姿势识别处理单元105还可以基于对用户的头部的动作的识别结果以及对用户的眼睛的动作的识别结果来更详细地确定用户的视线方向。

此外，作为另一示例，姿势识别处理单元105可以对获取的图像执行图像分析，并且从而识别从该图像提取的部位(例如，手)的形状的变化作为该部位的动作。

之后，姿势识别处理单元105将指示对诸如用户的头部或手的部位的动作以及用户的眼睛的动作的识别结果的信息输出至控制单元110。利用该布置，控制单元110能够基于对该部位的动作的识别结果、对眼睛的动作的识别结果等来识别由用户执行的操作的内容(换言之，来自用户的指令的内容)。

内容控制单元111是与之前描述的内容控制设备30对应的配置。具体地，内容控制单元111基于通过输入/输出设备20来自用户的指令从存储单元13中读出相应内容的数据，并且回放内容。之后，内容控制单元111将基于内容的回放结果的输出信息(例如图像和声音)输出至输出控制单元101。

此外，此时内容控制单元111还可以根据要回放的内容的类型或主题来执行基于VR技术、AR技术等的处理。

此外，内容控制单元111还可以从姿势识别处理单元105获取指示对诸如用户的头部或手的部位的动作的识别结果以及对眼睛的动作的识别结果的信息，并且基于所获取的信息，识别由用户进行的操作的内容。

例如，内容控制单元111还可以基于对用户的头部的动作的识别结果来识别用户的视线方向的变化。另外，此时，内容控制单元111还可以将对用户头部的动作的识别结果和对用户的眼睛的动作的识别结果相结合，以从而更详细地识别用户的视线方向的变化。此外，例如，内容控制单元111还可以基于VR技术在由用户的视线方向所指示的虚拟空间中生成画面，并且将在虚拟空间内生成的画面输出至输出控制单元101。利用这样的配置，例如，通过移动视线方向以环顾四周，用户能够通过输入/输出设备20感知与自己的视线方向对应的虚拟空间内的画面。

另外，基于对用户的手的动作的识别结果，内容控制单元111可以识别使用手的操作的内容(例如，基于姿势输入的用户指令内容)，并且执行与识别结果对应的处理。

作为具体示例，内容控制单元111可以基于VR技术识别由虚拟空间内的用户的手U11对虚拟对象V11进行的操作的内容，并且执行与该操作的内容对应的处理。另外，作为另一示例，内容控制单元111可以基于AR技术识别用户的手(真实空间中的手)对被呈现给用户的虚拟对象进行的操作的内容，并且执行与该操作的内容对应的处理。此外，作为另一示例，内容控制单元111可以识别用户的手的形状，并且执行与对形状的识别结果对应的处理。

预测单元113从姿势识别处理单元105获取以下信息，所述信息指示对姿势(例如，诸如用户的头部或手的部位的动作以及用户的眼睛的动作)的识别结果，并且基于所获取的信息预测之后输入的姿势(并且延伸开来，基于该姿势的操作)。

例如，预测单元113可以基于用户的手的位置和取向的变化来识别手移动的方向和速度，并且基于识别结果来预测手的后续动作和手的移动目的地(即，位置)。另外，基于用户的手的形状的变化，预测单元113还可以预测手的变化的形状。另外，通过将用户的手的位置、取向、动作、形状等中的至少一个的变化视为观察数据来应用卡尔曼滤波器等，预测单元113可以预测手的之后的位置、取向、动作、形状等。这同样适用于处理用户头部的动作、用户的眼睛的动作等的情况。

此外，作为另一示例，根据基于从用户输入的姿势的识别结果的对象的动作，预测单元113还可以预测对象的后续动作(并且延伸开来，使对象执行该动作的操作的内容)。

作为具体示例，基于与对由用户输入的姿势的识别结果对应的虚拟空间中的虚拟手U11的位置和取向的变化，预测单元113可以识别手U11移动的方向和速度，并且基于识别结果预测手U11的后续移动目的地。另外，基于虚拟手U11的形状的变化，预测单元113还可以预测手的变化形状。另外，通过将虚拟手U11的位置、取向、形状等的变化视为观察数据来应用卡尔曼滤波器等，预测单元113可以预测手U11的后续位置、取向、形状等。

如上所述，预测单元113根据对由用户输入的姿势(例如，诸如头部或手的部位的动作)的识别结果或者根据基于识别结果的对象的动作来预测基于之后输入的姿势的操作。之后，预测单元113将指示操作的预测结果的信息输出至定时控制单元115。

定时控制单元115从预测单元113获取指示基于之后输入的姿势的操作的预测结果的信息，并且基于预测结果控制各种处理的执行。例如，在识别出由预测结果指示的操作是用于给出执行语音识别处理的指令的操作的情况下，定时控制单元115指示声音处理单元103启动语音识别处理(或与获取用于语音识别的声音有关的处理)，以期待执行该操作。此外，在给出启动语音识别处理的指令之后，在识别出由下一个获取的预测结果指示的操作不是用于给出执行语音识别处理的指令的操作的情况下(即，在先前的预测不准确的情况下)，定时控制单元115可以指示声音处理单元103结束语音识别处理。

注意，预测单元113和定时控制单元115的操作或者换言之与对用户的动作的预测有关的处理以及与基于预测结果对各种处理的控制有关的处理的更具体示例将作为工作示例单独描述。

上面参照图8描述了根据本实施方式的信息处理系统1的功能配置的示例。注意，上述功能配置仅是一个例子，并且不必限于图8所示的示例。作为具体示例，如先前所描述的，信息处理设备10和输入/输出设备20还可以以集成的方式进行配置。另外，作为另一示例，信息处理设备10的每个配置的一部分的配置也可以被设置在信息处理设备10的外部。作为更具体的示例，与控制单元110对应的配置(即，内容控制单元111、预测单元113和定时控制单元115)的至少一部分可以被设置在通过网络连接至信息处理设备10的服务器中。

<2.3.处理>

接下来，将参照图9来描述根据本实施方式的信息处理系统1的一系列操作的流程的示例，特别着眼于信息处理设备10的操作。图9是示出根据本实施方式的信息处理系统1的一系列操作的流程的示例的流程图。注意，在该说明中，着眼于以下情况来描述信息处理系统1的一系列操作的流程的示例：在所述情况下，信息处理设备10基于对诸如用户的头部或手的部位的动作的识别结果来预测基于之后输入的姿势的操作(即，该部位的动作)。

姿势识别处理单元105基于指示检测单元205的检测结果的信息或者由成像单元207捕获的图像来识别诸如用户的头部或手的部位的动作，并且将指示识别结果的信息输出至控制单元110。基于指示对诸如用户的头部或手的部位的动作的识别结果的信息，控制单元110预测基于之后输入的姿势的操作(即，该部位的动作)(S101)。

之后，在操作的预测结果满足用于启动语音识别的预定条件(S103，是)并且语音识别处理尚未启动(S109，否)的情况下，控制单元110指示声音处理单元103启动语音识别处理。一旦接收到该指令，声音处理单元103开始从声音收集单元203获取声音(例如，语音)的声音收集结果，并且基于声音收集结果启动语音识别处理(S111)。注意，在与获取声音收集结果有关的处理以及语音识别处理此时已经启动的情况下(S109，是)，控制单元110不必指示声音处理单元103启动语音识别处理。

此外，在操作的预测结果不满足预定条件(S103，否)并且已经通过先前的预测结果启动了语音识别处理(S105，是)的情况下，控制单元110指示声音处理单元103结束语音识别处理。一旦接收到该指令，则声音处理单元103结束从声音收集单元203获取声音的声音收集结果和对声音收集结果的语音识别处理(S107)。注意，在与获取声音收集结果有关的处理和语音识别处理此时尚未启动(S105，否)的情况下，控制单元110不必指示声音处理单元103结束语音识别处理。

控制单元110继续上述操作(步骤S113，否)，直到基于由用户输入的姿势的操作(即，基于对诸如头部或手的部位的动作的识别结果的操作)满足预定条件为止，所述预定条件指示用户正在给出启动语音识别的指令。另外，在基于由用户输入的姿势的操作满足预定条件(S113，是)的情况下，控制单元110执行与执行的语音识别处理的结果对应的处理(S115)。

注意，在步骤S115和之后的步骤中，用于结束启动的语音识别处理的机制不受特别限制。作为具体示例，信息处理设备10可以从用户接收明确的指令，并且指示声音处理单元103结束语音识别处理。此外，作为另一示例，在通过检测无声间隔等检测到用户的话语已经结束的情况下，信息处理设备10可以指示声音处理单元103结束语音识别处理。

注意，在所示的从步骤S101至S113的一系列处理中，信息处理设备10还可以被配置成仅在步骤S107中所示的处理中指示声音处理单元103结束语音识别处理。在这种情况下，即使在用户明确地给出结束语音识别处理的指令的情况下，只要步骤S107中所示的处理未被执行，则信息处理设备10可以使声音处理单元103继续进行语音识别处理。

上面参照图9描述了根据本实施方式的信息处理系统1的一系列操作的流程的示例，特别着眼于信息处理设备10的操作。

<2.4.工作示例>

接下来，作为根据本实施方式的信息处理系统1的工作示例，将描述信息处理设备10预测基于姿势输入的操作并且根据预测结果执行处理的操作的示例。

(基于至对象的距离的预测)

例如，图10是用于说明根据本实施方式的工作示例的信息处理设备10的操作示例的说明图。如参照图5描述的示例，图10示出了以下情况的示例：用户通过姿势输入操作虚拟空间内的虚拟手U11，并且通过将手U11与对象V11交叠来给出启动语音识别处理的指令。在图10所示的示例中，信息处理设备10计算手U11与对象V11之间的距离d0。另外，基于距离d0的计算结果，信息处理设备10预测手U11是否将响应于之后输入的姿势而移动至对象V11的位置(并且延伸开来，是否将由手U11对该对象V11执行操作)。

更具体地，在手U11与对象V11之间的距离d0已经变成预定距离d1或更小的情况下，信息处理设备10预测到将由手U11对对象V11执行操作。换言之，在图10中，在识别出手U11已经进入由附图标记V13表示的区域的情况下，信息处理设备10预测到将由手U11对对象V11执行操作。

另外，在预测到将由手U11对对象V11执行操作的情况下，信息处理设备10启动与对象V11相关联的语音识别处理。

注意，在图10所示的示例中，可以预见以下情况：即使手U11与对象V11之间的距离d0变成距离d1或更小并且语音识别处理被发起，此后，手U11也不会移动至对象V11的位置。预见到这样的情况，例如，在识别出手U11与对象V11之间的距离d0已经超过距离d1的情况下，信息处理设备10可以结束正在执行的语音识别处理。此外，在这种情况下，信息处理设备10不必执行基于结束的语音识别处理的处理，或者可以丢弃识别结果。

(基于速度矢量的预测)

此外，图11是用于说明根据本实施方式的工作示例的信息处理设备10的操作的另一示例的说明图。如参照图5描述的示例，图11示出了以下情况的示例：用户通过姿势输入来操作虚拟空间内的虚拟手U11，并且通过将手U11与对象V11交叠来给出启动语音识别处理的指令。在图11所示的示例中，信息处理设备10基于手U11的移动方向和手U11的移动速度来计算速度矢量V1。另外，基于速度矢量V1的计算结果，信息处理设备10预测手U11是否将响应于之后输入的姿势来移动至对象V11的位置(并且延伸开来，是否将由手U11对对象V11执行操作)。

例如，图11中所示的角度θ表示连接手U11和对象V11的线与手U11移动的方向之间的角度。换言之，角度θ越小，手U11在沿对象V11的方向移动的可能性越高。利用这样的特性，基于速度矢量V1所指的方向(换言之，角度θ)和速度矢量V1的大小(即手U11的移动速度)，信息处理设备10预测手U11之后将移动至的位置(即，手U11的移动目的地)。利用该布置，基于对手U11的移动目的地的预测结果，信息处理设备10能够预测是否将由手U11对对象V11执行操作。

注意，在图11所示的示例中，可以预见以下情况：即使根据基于速度矢量V1的对手U11的移动目的地的预测结果而发起语音识别处理，手U11之后也不会移动至对象V11的位置。预见到这样的情况，例如，在基于新计算的速度矢量V1识别出手U11已经移动离开对象V11的情况下，信息处理设备10可以结束正在执行的语音识别处理。此外，在这种情况下，信息处理设备10不必执行基于结束的语音识别处理的处理，或者可以丢弃识别结果。

(基于形状的预测)

此外，图12是用于说明根据本实施方式的工作示例的信息处理设备10的操作的另一示例的说明图。图12示出了以下情况的示例：用户通过姿势输入来操作虚拟空间内的虚拟手U11，并且通过使用手U11握持对象V11来给出启动语音识别处理的指令。在图12所示的示例中，信息处理设备10识别手U11的形状，并且根据对形状的识别结果，预测手U11的形状是否将响应于之后输入的姿势而变成握持对象V11的形状(并且延伸开来，是否将由手U11对对象V11执行操作)。

具体地，信息处理设备10对手U11的形状的识别结果与预定形状(即，当手U11握持对象时的形状)之间的相似度进行计算。作为更具体的示例，信息处理设备10可以基于手U11的形状的识别结果来计算特征，并且基于与表示预定形状的特征的比较结果来计算相似度。另外，在识别出相似度的计算结果为阈值或更大的情况下(例如，在手U11的形状大体类似于握持对象时的形状的情况下)，信息处理设备10预测到将由手U11对对象V11执行操作。

另外，在图12所示的示例中，可以预见以下情况：即使基于手U11的形状的预测结果而发起语音识别处理，之后手U11的形状也不会变成预定形状(例如，握持对象的形状)。预见到这样的情况，例如，在识别出手U11的形状的识别结果与预定形状之间的相似性小于阈值的情况下，信息处理设备10可以结束正在执行的语音识别处理。此外，在这种情况下，信息处理设备10不必执行基于结束的语音识别处理的处理，或者可以丢弃识别结果。

(基于卡尔曼滤波器的预测)

此外，图13是用于说明根据本实施方式的工作示例的信息处理设备10的操作的另一示例的说明图。如参照图5描述的示例，图13示出了以下情况的示例：用户通过姿势输入来操作虚拟空间内的虚拟手U11，并且通过将手U11与对象V11交叠来给出启动语音识别处理的指令。在图13所示的示例中，信息处理设备10通过将虚拟手U11的位置和取向的变化视为观察数据来应用卡尔曼滤波器，并且从而预测手U11是否将响应于之后输入的姿势而移动至对象V11的位置(并且延伸开来，是否将由手U11对对象V11执行操作)。

例如，在图13中，附图标记V15表示基于卡尔曼滤波器的应用结果而对手U11的移动目的地的预测结果。换言之，如图13所示，在对手U11的移动目的地的预测结果V15和对象V11的位置近似匹配的情况下，信息处理设备10预测到将由手U11对对象V11执行操作。

注意，在图13所示的示例中，与图10和图11所示的示例类似，可以预见手U11不移动至对象V11的位置的情况。预见到这样的情况，例如，信息处理设备10在根据基于卡尔曼滤波器的应用结果的对手U11的移动目的地的预测结果而预测到手U11将不会移动至对象V11的位置时，信息处理设备10足以结束正在执行的语音识别处理。此外，在这种情况下，信息处理设备10不必执行基于结束的语音识别处理的处理，或者可以丢弃识别结果。

上面参照图10至图13描述了信息处理设备10预测基于姿势输入的操作并且根据预测结果执行处理的操作的示例作为根据本实施方式的信息处理系统1的工作示例。注意，上述示例仅是一个示例，并且只要信息处理设备10能够基于姿势识别结果来预测基于之后输入姿势的操作，则该方法不受特别限制。此外，可以组合上述预测方法的示例中的两种或更多种预测方法。例如，信息处理设备10通过利用手U11与对象V11之间的距离d0的计算结果以及手U11的速度矢量V1的计算结果可以改进对手U11是否将移动至对象V11的位置进行预测的准确度。

另外，信息处理设备10还可以根据对基于姿势输入的操作的预测结果向用户通知各种信息。例如，根据对基于姿势输入的操作的预测结果，信息处理设备10可以通过输入/输出设备20向用户通知获取用于语音识别的声音的状态以及语音识别的状态。作为更具体的示例，在根据对基于姿势输入的操作的预测结果而启动语音识别的情况下，信息处理设备10可以向用户通知指示语音识别已经启动的信息。注意，信息处理设备10的信息通知的方法和用于通知的媒介不受特别限制。作为具体示例，信息处理设备10可以通过输入/输出设备20呈现显示信息来向用户通知信息，所述显示信息使要在被呈现给用户的图像(画面)上报告的信息可视化。此外，作为另一示例，信息处理设备10还可以通过声音装置(例如扬声器)输出指示要被报告的信息的语音和声音来向用户通知信息。

此外，上述示例着眼于基于VR技术来预测虚拟手U11对对象V11的操作的情况，但是不必仅限于相同的模式。作为具体示例，即使在基于AR技术来预测真实空间中的诸如手的部位对叠加到真实空间上的虚拟对象进行的操作的情况下，也可以执行类似的控制。换言之，信息处理设备10还可以预测诸如手的部位的动作，并且根据预测结果来执行与对象相关联的处理。

<2.5.变型1：与机器学习结合的示例>

接下来，作为本实施方式的变形1，将描述在对语音识别处理的结果进行累积以作为用于所谓的机器学习的教学数据的情况下的控制的示例。

如上所述，在根据本实施方式的信息处理系统1中，预测基于姿势输入的操作，并且根据预测结果，在实际执行给出执行语音识别处理的指令的操作之前，预先启动语音识别处理。另一方面，不一定按预测执行操作，并且在预测不准确的情况下，在一些情况下不使用预先启动的语音识别处理的结果。语音识别处理的未使用结果是在用户实际上并不打算通过语音输入信息的情况下获取的数据。为此，如果指示这样的语音识别处理的结果的数据被累积为用于机器学习的教学数据，则示教数据变成所谓的噪声，并且也可以预见基于机器学习的结果的预测准确度变得降低的情况。

因此，作为变形1，将描述用于控制数据使得下述数据中的未被实际使用的数据不被累积作为教学数据的机制的示例，所述数据指示根据对基于姿势输入的操作的预测结果而获取的语音识别处理的结果。

例如，图14是示出根据本实施方式的变形1的信息处理系统1的一系列处理的流程的示例的流程图。如图14所示，根据变型1的信息处理系统1与根据上述实施方式的信息处理系统1的操作(参见图9)的不同之处在于：已经添加了如附图标记S213和S217所示的准备标志的设置和与丢弃有关的处理。因此，在该描述中，将特别着眼于与根据上述实施方式的信息处理系统1不同的部分来描述根据变型1的信息处理系统1的一系列处理的流程的示例。注意，将省略对与根据上述实施方式的信息处理系统1基本类似的处理的详细描述。

如图14所示，在根据变型1的信息处理系统1中，信息处理设备10的控制单元110从姿势识别处理单元105获取指示对诸如用户的头部或手的部位的动作的识别结果的信息，并且基于该信息预测基于之后输入的姿势的操作(S201)。之后，在操作的预测结果满足用于启动语音识别的预定条件(S203，是)并且语音识别处理尚未启动(S209，否)的情况下，控制单元110指示声音处理单元103启动语音识别处理(S211)。到此为止的操作与根据上述实施方式的信息处理设备10类似。

另外，在指示声音处理单元103启动语音识别处理的情况下，根据变型1的控制单元110针对指示语音识别处理的结果的数据来设置准备标志(S213)。另外，在基于由用户输入的姿势的操作满足预定条件(S215，是)的情况下，控制单元110丢弃针对指示执行的语音识别处理的结果的数据来丢弃的准备标志(S217)，并且执行与语音识别处理的结果对应的处理(S219)。注意，与准备标志的设置有关的条件对应于“第一条件”的示例。此外，与准备标志的丢弃有关的条件对应于“第二条件”的示例。

另一方面，在操作的预测结果不满足预定条件(S203，否)并且通过先前的预测结果已经启动了语音识别处理(S205，是)的情况下，控制单元110指示声音处理单元103结束语音识别处理(S207)。在这种情况下，仍然针对指示执行的语音识别处理的结果的数据来设置准备标志。

另外，根据本实施方式的信息处理设备10从被获取作为语音识别处理的结果的每个数据中仅将未被设置准备标志的数据累积为教学数据，而被设置了准备标志的数据不被累积为教学数据。

根据如上所述的配置，根据变型1的信息处理设备10能够防止出现以下情况：语音识别处理的结果未被使用的数据(即在没有用户意图的情况下获取的数据)被累积为用于机器学习的教学数据。

上面描述了在累积语音识别处理的结果作为用于所谓的机器学习的教学数据的情况下的控制的示例作为本实施方式的变形1。

<2.6.变型2：与预测有关的处理的优化>

接下来，作为本实施方式的变形2，将描述用于优化与对基于姿势输入的操作的预测有关的处理的控制的示例。

在利用对诸如姿势输入等的用户动作的识别结果作为来自用户的输入信息的情况下，与经由输入装置(例如鼠标或控制器)执行的操作相比，在一些情况下，由于用户的身体特征、习惯等的影响，而在获取的输入信息中发生变化。具体地，在根据本实施方式的信息处理系统1中，通过预测基于姿势输入的操作，例如，在实际执行操作之前，预先发起了语音识别处理等。为此，例如，可以预见以下情况：用户的身体特征、习惯等影响了对操作的预测，并且针对用户的意图发起语音识别处理，或者可以预见以下情况：用户早于预测而开始讲话并且语音识别因此而失败。在这样的情况下，例如，可以预见会发生以下情况：预先发起的语音识别处理的结果未被信息处理设备10使用，针对用户的意图丢弃语音识别处理的结果等。

因此，在不使用基于对操作的预测结果而发起的语音识别处理的结果的情况或者在语音识别处理的结果被用户丢弃的情况频繁发生的情况下，根据变型2的信息处理设备10控制用于预测操作的基础(即，关于诸如距离、速度矢量或相似度的参数的确定的基础)。注意，在下面的描述中，用于预测基于姿势输入的操作的基础也被指定为“预测量”。此外，用于预测基于姿势输入的操作的基础(即，预测量)对应于“第三条件”的示例。此外，下面详细描述的用于控制预测量的条件对应于“第四条件”的示例。

例如，图15是用于说明根据本实施方式的变形2的信息处理设备10的操作的示例的说明图。注意，在该描述中，如参照图5描述的示例，假定用户通过姿势输入操作虚拟空间内的虚拟手U11，并且通过将手U11与对象V11交叠来给出启动语音识别处理的指令。此外，在图15所示的示例中，与参照图10描述的示例类似，信息处理设备10基于手U11与对象V11之间的距离d0的计算结果来预测手U11是否将响应于之后输入的姿势而移动至对象V11的位置(并且延伸开来，是否将由手U11对对象V11执行操作)。另外，在预测将由手U11对对象V11执行操作的情况下(即，在预测到手U11将与对象V11交叠的情况下)，信息处理设备10启动语音识别处理。

例如，假定在手U11与对象V11之间的距离d0变成预定距离d1或更小的情况下(即，在手U11进入区域V131的情况下)，信息处理设备10预测到将由手U11对对象V11执行操作，并且启动语音识别。

此时，针对执行的语音识别处理，信息处理设备10监测语音识别处理的结果未被使用的频率或者语音识别处理的结果被用户丢弃的频率(在下文中，这些统称为“丢弃率”)。另外，信息处理设备10根据丢弃率的监测结果来控制预测量。

作为具体示例，在图15所示的示例的情况下，在丢弃率超过阈值的情况下(即，在语音识别处理的结果被丢弃的频率增加的情况下)，信息处理设备10基于距离d0的计算结果来将用于预测手U11将移动至对象V11的位置的预测量从距离d1改变至距离d2，距离d2比距离d1长。通过这样的控制，在手U11进入比区域V131宽的区域V133的情况下，信息处理设备10预测到将由手U11对对象V11执行操作。为此，与预测量变化之前相比较，更容易启动语音识别处理。

另外，作为另一示例，基于距离d0的计算结果，信息处理设备10还可以将用于预测手U11将移动至对象V11的位置的预测量控制为较小的值(例如，从距离d1变成较短的距离)。通过这样的控制，与预测量变化之前相比较，不容易启动语音识别处理。

另外，信息处理设备10可以在改变预测量之后继续监测丢弃率，并且通过比较预测量变化之前和之后的丢弃率，另外根据比较结果来控制预测量。作为具体示例，在与预测量变化之前的丢弃率相比预测量变化之后的丢弃率已经增加的情况下，信息处理设备10可以将预测量恢复至变化之前的值。另外，在与预测量变化前之的丢弃率相比预测量变化后的丢弃率降低的情况下，可以维持预测量，或者可以改变预测量以进一步增加与变化之前的预测量的差。注意，通过预先限制用于控制预测量的范围，信息处理设备10还可以防止以下情况的发生：预测量过度增加(并且延伸开来，语音识别变得过于容易发起的情况)，或者预测量过度降低(并且延伸开来，语音识别变得过于难以发起的情况)。

另外，信息处理设备10还可以以用户可识别的方式呈现指示预测量的信息。例如，基于预测量的控制结果，信息处理设备10可以以可识别的方式向用户呈现表示图15所示的区域V131(或V133)的显示信息。利用这样的配置，用户能够在视觉上识别可以使用哪种操作来启动各种处理例如语音识别。此外，即使在由于信息处理设备10的控制而导致预测量变化的情况下，用户也能够在视觉上识别变化后的预测量。注意，显然，信息处理设备10的信息通知的方法和用于通知的媒介不受特别限制。

此外，用于控制预测量的触发不必限于上述示例。例如，信息处理设备10还可以根据各种状态的检测结果来动态地控制预测量。

作为具体示例，信息处理设备10可以根据在设置先前描述的准备标志的时间段期间的状态来控制预测量。

更具体地，在设置准备标志的时间段期间的语音识别处理的结果中包括文本的情况下(即，在语音被识别的情况下)，预测到用户正在讲话的状态。为此，在这种情况下，信息处理设备10可以控制预测量以使得更容易发起语音识别处理。例如，在图15所示的示例的情况下，基于距离d0的计算结果，信息处理设备10可以将用于预测手U11将移动至对象V11的位置的预测量控制为较大的值(例如，距离d1和d2中的较长距离d2)。通过这样的控制，与预测量变化之前相比，不容易启动语音识别处理。

此外，在设置准备标志的时间段期间的语音识别处理的结果中不包括文本的情况下，预测到用户不讲话的状态。为此，在这种情况下，信息处理设备10可以控制预测量以使得不容易发起语音识别处理。例如，在图15所示的示例的情况下，基于距离d0的计算结果，信息处理设备10可以将用于预测手U11将移动至对象V11的位置的预测量控制为较小的值(例如，距离d1和d2中的较短距离d1)。通过这样的控制，与预测量变化之前相比，不容易启动语音识别处理。

此外，作为另一示例，信息处理设备10还可以根据用户操作状态来控制预测量。例如，图16是用于说明根据本实施方式的变形2的信息处理设备10的操作的另一示例的说明图。图16示出了以下情况的示例：用户通过使用自己的左手和右手中的每一个进行姿势输入来操作虚拟空间内的虚拟左手U11和虚拟右手U13中的每一个，并且从而操作虚拟空间内的对象。注意，在该描述中，如参照图5描述的示例，假定用户通过姿势输入操作虚拟空间内的虚拟手U11(或手U13)，并且通过将手U11与对象V11交叠来给出启动语音识别处理的指令。此外，与图15所示的示例类似，基于手U11与对象V11之间的距离d0的计算结果来预测手U11(或手U13)是否将响应于之后输入的姿势而移动至对象V11的位置(并且延伸开来，是否将由手U11对对象V11执行操作)。

在图16所示的示例中，信息处理设备10预见将由虚拟左手U11和虚拟右手U13中的被定位成更靠近对象V11的左手U11对对象V11执行操作，并且左手U11侧被视为动作预测的目标。此时，信息处理设备10还可以根据与预测目标不同的右手U13的状态(例如，动作)来控制预测量。

更具体地，在右手U13的运动较大的情况下，可以预见执行一个人的手疯狂移动的操作(例如游戏操作)的情况，并且可以估计到以下可能性较低：将执行与所述操作不同的与启动语音识别处理有关的操作(即，对对象V11的操作)。为此，例如，在与预测目标不同的右手U13的移动速度、移动频率和动作范围中的至少一个是阈值或更大的情况下，信息处理设备10可以控制预测量以使得不容易发起语音识别处理。更具体地，基于距离d0的计算结果，信息处理设备10可以将用于预测手U11将移动至对象V11的位置的预测量控制为较小的值(例如，距离d1和d2中的较短距离d1)。通过这样的控制，与预测量变化之前相比，不容易启动语音识别处理。

此外，在右手U13的与运动较小的情况下，可以预见未特别执行其他操作的情况，并且可以估计到的是，与右手U13的运动较大的情况相比，将执行与启动语音识别处理相关的操作(即，对对象V11的操作)的可能性高。为此，例如，在与预测目标不同的右手U13的移动速度、移动频率和活动范围中的至少一个小于阈值的情况下，信息处理设备10可以控制预测量以使得更容易发起语音识别处理。更具体地，基于距离d0的计算结果，信息处理设备10可以将用于预测手U11将移动至对象V11的位置的预测量控制为较大值(例如，距离d1和d2中的较长距离d2)。通过这样的控制，与预测量变化之前相比，更容易启动语音识别过程。

上面参照图15和图16描述了作为本实施方式的变形2的用于优化与对基于姿势输入的操作的预测有关的操作的控制的示例。

<3.硬件配置示例>

接下来，将参照图17描述根据本公开内容的实施方式的信息处理设备10的硬件配置。图17是示出根据本公开内容的实施方式的信息处理设备10的硬件配置示例的框图。

如图17所示，信息处理设备10包括中央处理单元(CPU)901、只读存储器(ROM)902和随机存取存储器(RAM)903。另外，信息处理设备10可以包括主机总线、桥接器909、外部总线911、接口913、输入装置915、输出装置917、存储装置919、驱动器921、连接端口923以及通信装置925。此外，信息处理设备10可以根据需要包括成像装置933和传感器935。代替CPU901或者除了CPU 901之外，信息处理设备10可以包括诸如数字信号处理器(DSP)或专用集成电路(ASIC)的处理电路。

CPU 901用作操作处理装置和控制装置，并且根据记录在ROM 903、RAM 905、存储装置919或可移除记录介质927中的各种程序来控制信息处理设备10中的全部操作或部分操作。ROM 903存储由CPU 901使用的程序和操作参数。RAM 905临时存储在CPU 901的执行中使用的程序以及在执行中适当改变的参数。CPU 901、ROM 903和RAM 905通过主机总线907彼此连接，主机总线907包括内部总线例如CPU总线。另外，主机总线907经由桥接器909连接至外部总线911，例如外围部件互连/接口(PCI)总线。注意，例如，上述控制单元110可以由CPU 901实现。

输入装置915例如是由用户使用鼠标、键盘、触摸面板、按钮、开关、控制杆等操作的装置。输入装置915可以包括检测用户的声音的麦克风。输入装置915可以是例如使用红外光或其他无线电波的远程控制单元，或者可以是响应于信息处理设备10的操作而进行操作的外部连接装置929例如便携式电话。输入装置915包括输入控制电路，该输入控制电路基于由用户输入的信息来生成输入信号，并且将输入信号输出至CPU 901。通过操作输入装置915，用户可以将各种类型的数据输入到信息处理设备10，或者发出用于使信息处理设备10执行处理操作的指令。另外，下面要描述的成像装置933可以通过对用户的手的运动等进行成像来用作输入装置。注意，例如，上述声音收集单元203可以由输入装置915实现。

输出装置917包括能够可视地或可听地向用户通知所获取的信息的装置。例如，输出装置917可以是显示装置，例如液晶显示器(LCD)、等离子显示面板(PDP)、有机电致发光(EL)显示器和投影仪、全息图显示装置、音频输出装置例如扬声器或头戴式耳机以及打印机。输出装置917以视频(例如文本或图像)的形式输出从信息处理设备10的处理获得的结果，并且输出语音或声音。另外，输出装置917可以包括用于使周围变亮的灯等。注意，例如，上述显示单元201和声音输出单元202可以由输出装置917实现。

存储装置919是用于数据存储的装置，其被配置为信息处理设备10的存储单元的示例。例如，存储装置919包括磁存储装置，例如硬盘驱动器(HDD)、半导体存储装置、光存储装置或磁光存储装置。存储装置919存储要由CPU 901执行的程序、各种数据以及从外部获得的数据。注意，例如，上述存储单元13例如可以由存储装置919实现。

驱动器921是用于可移除记录介质927(例如磁盘、光盘、磁光盘或半导体存储器)的读取器/写入器，并且被嵌入在信息处理设备10中或者在外部附接至信息处理设备10。驱动器921读取记录在附接的可移除记录介质927中的信息，并且将该信息输出至RAM 905。此外，驱动器921写入记录至附接的可移除记录介质927中。

连接端口923是用于将装置直接连接至信息处理设备10的端口。连接端口923可以是例如通用串行总线(USB)端口、IEEE1394端口、小型计算机系统接口(SCSI)端口等。另外，连接端口923可以是RS-232C端口、光学音频端子、高清晰度多媒体接口(HDMI)(注册商标)端口等。通过将外部连接装置929连接至连接端口923，可以在信息处理设备10与外部连接装置929之间交换各种数据。

通信装置925是例如包括用于连接至通信网络931的通信装置等的通信接口。通信装置925可以是例如用于有线或无线局域网(LAN)、蓝牙(注册商标)、无线USB(WUSB)等的通信卡。另外，通信装置925可以是用于光学通信的路由器、用于不对称数字用户线路(ADSL)的路由器、用于各种通信的调制解调器等。通信装置925使用预定协议例如TCP/IP向例如因特网或其他通信装置发送信号并且从例如因特网或其他通信装置接收信号。另外，要连接至通信装置925的通信网络931是以有线或无线方式连接的网络，并且是例如因特网、家庭LAN、红外通信、无线电波通信、卫星通信等。

例如，成像装置933是通过使用图像传感器例如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)以及各种构件例如一个或更多个镜头(用于控制图像传感器上的主题图像的形成)来对实际空间进行成像以生成图像的装置。成像装置933可以是捕获静止图像的装置，并且还可以是捕获移动图像的装置。注意，例如，上述成像单元207可以由成像装置933实现。

例如，传感器935是各种传感器例如加速度传感器、陀螺仪传感器、地磁传感器、光学传感器或声音传感器中的任一种。例如，传感器935获取关于信息处理设备10的状态的信息，例如信息处理设备10的壳体的姿态，以及关于信息处理设备10周围的环境(例如信息处理设备10周围的亮度或噪声)的信息。传感器935还可以包括全球定位系统(GPS)传感器，全球定位系统(GPS)传感器接收GPS信号并且测量装置的纬度、经度和海拔。注意，例如，上述检测单元205可以由传感器935实现。

因此，前述示出了信息处理设备10的示例性硬件配置。上述部件中的每一个可以使用通用构件或专用于每个部件的功能的硬件来实现。这样的配置也可以根据实施时的技术水平适当地修改。

另外，也可以创建程序，以用于使并入到计算机中的硬件(例如处理器、存储器和存储装置)发挥等效于上述信息处理设备10中包括的结构元件的功能。另外，也可以提供其中记录有程序的计算机可读存储介质。

<4.结论>

如上所述，在根据本实施方式的信息处理系统1中，信息处理设备10基于与姿势检测结果对应的输入信息来预测与之后输入的姿势对应的操作。另外，信息处理设备10基于操作的预测结果来控制与获取其他输入信息例如语音等有关的处理。根据这样的配置，根据本实施方式的信息处理系统1能够例如在预测的操作实际被执行之前预先启动与获取用于语音识别(并且延伸开来，语音识别处理)的声音有关的处理。为此，例如，与在用于启动语音识别的操作被执行之后启动与获取用于语音识别的声音有关的处理的情况相比，信息处理系统1能够在较早的时刻启动语音识别处理。换言之，根据本实施方式的信息处理系统1，即使在使用姿势检测结果来获取其他输入信息例如语音等的情况下，也可以进一步减轻与识别姿势相关联的延迟的影响，从而能够以更有利的模式获取其他输入信息。

注意，在上述示例中，语音获取与基于语音的语音识别处理一起被启动的情况被描述为与语音识别有关的处理的示例，但是如果可以预先获取要经受语音识别的语音，则执行语音识别处理的时刻不必受到限制。例如，信息处理系统1也可以基于对与姿势对应的操作的预测结果来启动声音的记录(声音记录)，并且在一系列声音被存储之后，事后基于存储的声音来执行语音识别处理。

此外，只要与获取信息有关的处理和利用该信息的处理能够基于对与姿势对应的操作的预测结果来进行控制，则要获取的信息的类型不受特别限制。作为具体示例，信息处理系统1还可以基于对与姿势对应的操作的预测结果来控制与获取图像(例如静止图像或移动图像)有关的处理以及利用该图像的识别处理(例如面部识别)。

此外，在上述示例中，描述着眼于利用诸如用户的头部或手的部位而输入的姿势。然而，只要用户身体的部位的动作可以被直接或间接地检测，并且检测结果可以被用作输入信息，则上述根据本实施方式的信息处理系统1的机制的应用目标不必限于上述示例。作为具体示例，根据本实施方式的信息处理系统1的机制也适用于以下情况：通过触摸面板上的操作体(例如手指或触控笔)来执行称为轻扫、捏等的姿势。在这种情况下，例如，信息处理设备10基于对触摸板的操作体的检测结果来识别操作体(例如手指或触控笔)的动作，并且基于对动作的识别结果来预测与由操作体之后输入的姿势对应的操作。然后，信息处理设备10足以根据对操作体的动作的预测结果来控制与获取输入信息例如语音或图像有关的处理(并且延伸开来，基于输入信息的识别处理)。

上面已经参照附图描述了本公开内容的一个或多个优选实施方式，但是本公开内容不限于上述示例。本领域技术人员可以在所附权利要求的范围内发现各种变化和修改，并且应该理解，所述变化和修改将必然落在本公开内容的技术范围内。

此外，在本说明书中描述的效果仅是说明性或示例性的效果，而非限制性的。即，利用或代替上述效果，根据本公开内容的技术可以实现本领域技术人员根据本说明书的描述而清楚的其他效果。

另外，本技术也可以如下配置。

(1)一种信息处理设备，包括：

获取单元，其获取基于与姿势的检测结果对应的第一输入信息的、与之后输入的姿势对应的操作的预测结果；以及

控制单元，其根据所述操作的预测结果来控制与获取第二输入信息有关的处理，所述第二输入信息与所述第一输入信息相关联。

(2)根据(1)所述的信息处理设备，其中，

所述第二输入信息是声音信息，并且

所述控制单元根据所述操作的预测结果来控制与获取所述声音信息以及基于所获取的声音信息的处理中的至少一者有关的处理。

(3)根据(2)所述的信息处理设备，其中，

所述控制单元根据所述操作的预测结果来控制与基于所述声音信息的识别有关的处理。

(4)根据(3)所述的信息处理设备，其中，

所述控制单元控制与基于用户讲出的语音的语音识别有关的处理，以作为与基于所述声音信息的识别有关的处理。

(5)根据(4)所述的信息处理设备，其中，

所述控制单元

在所述操作的预测结果满足第一条件的情况下设置标志，并且在所述操作的预测结果满足第二条件的情况下取消所设置的标志，以及

根据所述标志的设置状态来控制与语音识别有关的处理。

(6)根据(5)所述的信息处理设备，其中，所述控制单元根据所述标志的设置状态来控制与所述语音识别的结果对应的机器学习有关的处理。

(7)根据(1)至(6)中任一项所述的信息处理设备，其中，

所述控制单元根据所述操作的预测结果来控制与获取所述第二输入信息有关的处理的开始时刻。

(8)根据(1)至(7)中任一项所述的信息处理设备，其中，

所述控制单元使预定通知单元发出与关于获取所述第二输入信息的处理的状态对应的信息的通知。

(9)根据(1)至(8)中任一项所述的信息处理设备，其中，

所述控制单元确定所述操作的预测结果是否满足预定条件，并且基于确定结果来控制与获取所述第二输入信息有关的处理。

(10)根据(9)所述的信息处理设备，其中，

所述控制单元基于第四条件来控制阈值，所述阈值用于确定所述操作的预测结果是否满足作为所述预定条件的第三条件。

(11)根据(10)所述的信息处理设备，其中，

所述控制单元基于与获取所述第二输入信息有关的处理的过去执行结果作为所述第四条件来控制所述阈值。

(12)根据(10)所述的信息处理设备，其中，

所述控制单元基于对声音信息的语音识别处理的结果作为所述第四条件来控制所述阈值，所述声音信息在预定时间段期间被获取作为所述第二输入信息。

(13)根据(10)所述的信息处理设备，其中，

所述控制单元基于对其他操作体的运动的检测结果作为所述第四条件来控制所述阈值，所述其他操作体与成为姿势的检测目标的操作体不同。

(14)根据(10)至(13)中任一项所述的信息处理设备，其中，所述控制单元使预定通知单元发出指示所述阈值的信息的通知。

(15)根据(9)至(14)中任一项所述的信息处理设备，其中，

所述控制单元在确定所述操作的预测结果满足所述预定条件的情况下执行与获取所述第二输入信息有关的处理，并且在确定所述操作的预测结果不满足所述预定条件的情况下结束正在执行的处理。

(16)根据(1)至(15)中任一项所述的信息处理设备，其中，

所述第一输入信息是基于对用户的预定部位的识别结果的信息。

(17)根据(16)所述的信息处理设备，其中，

所述获取单元基于对与所述第一输入信息对应的对所述部位的形状、动作、位置和取向中的至少一个的识别结果来获取所述操作的预测结果。

(18)根据(1)至(15)中任一项所述的信息处理设备，其中，

所述获取单元基于所述第一输入信息来获取与显示对象的模式对应的操作的预测结果。

(19)根据(18)所述的信息处理设备，其中，

所述获取单元获取与所述显示对象的运动和形状中的至少一个对应的操作的预测结果，所述显示对象的运动和形状是所述显示对象的模式。

(20)根据(18)或(19)所述的信息处理设备，其中，

所述控制单元根据基于所述操作的预测结果的对所述显示对象移动的位置的估计结果来控制与获取所述第二输入信息有关的操作。

(21)根据(20)所述的信息处理设备，其中，所述控制单元根据所述位置与预定区域之间的位置关系来控制与获取所述第二输入信息有关的操作，所述位置是基于所述操作的预测结果而估计所述显示对象要移动的位置。

(22)根据(20)所述的信息处理设备，其中，所述控制单元根据所述位置与第二显示对象之间的位置关系来控制与获取所述第二输入信息有关的操作，所述位置是基于所述操作的预测结果而估计第一显示对象要移动的位置，所述第二显示对象与所述第一显示对象不同。

(23)一种信息处理方法，所述方法包括由处理器进行以下操作：

获取基于与姿势的检测结果对应的第一输入信息的、与之后输入的姿势对应的操作的预测结果；以及

根据所述操作的预测结果来控制与获取第二输入信息有关的处理，所述第二输入信息与所述第一输入信息相关联。

(24)一种程序，其使计算机执行以下操作：

附图标记列表

1 信息处理系统

10 信息处理设备

101 输出控制单元

103 声音处理单元

105 姿势识别处理单元

110 控制单元

111 内容控制单元

113 预测单元

115 定时控制单元

13 存储单元

20 输入/输出设备

201 显示单元

202 声音输出单元

203 声音收集单元

205 检测单元

207 成像单元

30 内容控制设备

40 声音处理设备

Claims

1.一种信息处理设备，包括：

2.根据权利要求1所述的信息处理设备，其中，

所述第二输入信息是声音信息，并且

所述控制单元根据所述操作的预测结果来控制与获取所述声音信息以及基于所获取的声音信息的处理中的至少一个有关的处理。

3.根据权利要求2所述的信息处理设备，其中，

4.根据权利要求3所述的信息处理设备，其中，

5.根据权利要求4所述的信息处理设备，其中，

所述控制单元

在所述操作的预测结果满足第一条件的情况下设置标志，并且在所述操作的预测结果满足第二条件的情况下取消所设置的标志，并且

根据所述标志的设置状态来控制与语音识别有关的处理。

6.根据权利要求1所述的信息处理设备，其中，

7.根据权利要求1所述的信息处理设备，其中，

8.根据权利要求1所述的信息处理设备，其中，

9.根据权利要求8所述的信息处理设备，其中，

10.根据权利要求9所述的信息处理设备，其中，

11.根据权利要求9所述的信息处理设备，其中，

12.根据权利要求9所述的信息处理设备，其中，

所述控制单元基于其他操作体的运动的检测结果作为所述第四条件来控制所述阈值，所述其他操作体与成为姿势的检测目标的操作体不同。

13.根据权利要求8所述的信息处理设备，其中，

14.根据权利要求1所述的信息处理设备，其中，

15.根据权利要求14所述的信息处理设备，其中，

所述获取单元获取基于与所述第一输入信息对应的对所述部位的形状、动作、位置和朝向中的至少一个的识别结果的、所述操作的预测结果。

16.根据权利要求1所述的信息处理设备，其中，

所述获取单元获取基于所述第一输入信息的与显示对象的模式对应的操作的预测结果。

17.根据权利要求16所述的信息处理设备，其中，

18.根据权利要求16所述的信息处理设备，其中，

所述控制单元根据基于所述操作的预测结果的所述显示对象移动的位置的估计结果来控制与获取所述第二输入信息有关的操作。

19.一种信息处理方法，所述方法包括由处理器进行以下操作：

20.一种程序，所述程序使计算机执行以下操作：