CN107148614A

CN107148614A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN107148614A
Application number: CN201580057995.8A
Authority: CN
Inventors: 泷祐平; 河野真; 河野真一; 泽井邦仁
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-12-02
Filing date: 2015-08-21
Publication date: 2017-09-08
Anticipated expiration: 2035-08-21
Also published as: CN107148614B; US10642575B2; WO2016088410A1; JP6627775B2; EP3229128A1; JPWO2016088410A1; US20180150279A1; EP3229128A4

Abstract

提供了一种可以使用户知道他们是否正在以能够进行语音识别的声音音量说话的技术。这个信息处理设备装备有：确定单元，其基于输入声音来确定用户的语音的声音音量；以及显示控制单元，其控制显示单元以使得由显示单元显示显示对象。当用户的语音的声音音量超过能够识别语音的声音音量时，显示控制单元使朝向显示对象移动的第一运动对象显示在显示单元上。

Description

信息处理设备、信息处理方法和程序

技术领域

本公开内容涉及信息处理设备、信息处理方法和程序。

背景技术

近来已经开发了用于接受从用户发出的语音作为输入语音，并且对输入语音执行语音识别以从输入语音识别串的技术。在一个示例中，已经开发了使得用户能够发现启动了以下模式的技术：在该模式中对输入语音执行语音识别(例如，参见专利文献1)。

引用列表

专利文献

专利文献1：JP2013-25605

发明内容

技术问题

然而，期望提供一种能够使得用户发现是否以能够执行语音识别的音量发出了语音的技术。

解决问题的技术方案

根据本公开内容，提供了一种信息处理设备，其包括：确定部，该确定部被配置成基于输入语音来确定用户发出的语音音量；以及显示控制器，该显示控制器被配置成控制显示部以使得显示部显示显示对象。当用户发出的语音音量超过能够识别的语音音量时，显示控制器使显示部显示朝向显示对象移动的第一运动对象。

根据本公开内容，提供了一种信息处理方法，其包括：基于输入语音来确定用户发出的语音音量；以及控制显示部以使得显示部显示显示对象。当用户发出的语音音量超过能够识别的语音音量时，使显示部显示朝向显示对象移动的第一运动对象。

根据本公开内容，提供了一种用于使计算机用作信息处理设备的程序，该信息处理设备包括：确定部，该确定部被配置成基于输入语音来确定用户发出的语音音量；以及显示控制器，该显示控制器被配置成控制显示部以使得显示部显示显示对象。当用户发出的语音音量超过能够识别的语音音量时，显示控制器使显示部显示朝向显示对象移动的第一运动对象。

本发明的有益效果

根据如上所描述的本公开内容，提供了一种能够使用户发现是否以能够执行语音识别的音量发出了语音的技术。注意，如上所描述的效果并非是限制性的。与上述效果一起或代替于上述效果，可以实现本说明书中所描述的效果或者根据本说明书可以领悟到的其他效果中的任一效果。

附图说明

图1是示出根据本公开内容的实施方式的信息处理系统的配置示例的图。

图2是示出根据实施方式的信息处理系统的功能配置示例的框图。

图3是示出由显示部显示的屏幕的示例的图。

图4是示出以描述第一运动对象的显示的开始的图。

图5是示出以描述能够识别的音量的图。

图6是示出以描述能够识别的音量的图。

图7是示出以描述能够识别的音量的图。

图8是示出由显示部显示的屏幕的另一示例的图。

图9是示出以描述第二运动对象的显示的开始的图。

图10A是示出信息处理系统的操作过程的示例的流程图。

图10B是示出信息处理系统的操作过程的示例的流程图。

图11是示出显示部的显示形式的修改示例1的图。

图12是示出显示部的显示形式的修改示例2的图。

图13是示出显示部的显示形式的修改示例3的图。

图14是示出显示部的显示形式的修改示例4的图。

图15是示出显示部的显示形式的修改示例5的图。

图16是示出信息处理系统的硬件配置示例的框图。

具体实施方式

在下文中，将参照附图来详细描述本公开内容的优选实施方式。在本说明书和附图中，用相同的附图标记来表示具有基本上相同的功能和结构的结构要素，并且省略对这些结构要素的重复说明。

注意，在本说明书和附图中，有时使用在相同的附图标记之后的不同字母将具有基本上相同功能和结构的结构要素彼此区分开。然而，当不需要特别区分具有基本上相同功能和结构的结构要素时，仅附上相同的附图标记。

此外，将按照以下顺序给出描述。

1.本公开内容的实施方式

1.1.系统配置示例

1.2.功能配置示例

1.3.第一运动对象的显示

1.4.能够识别的音量的设置

1.5.第二运动对象的显示

1.6.操作的示例

1.7.显示形式的修改示例

1.8.硬件配置示例

2.结论

<1.本公开内容的实施方式>

[1.1.系统配置示例]

参照附图来描述根据本公开内容的实施方式的信息处理系统10的配置示例。图1是示出根据本公开内容的实施方式的信息处理系统10的配置示例的图。如图1所示，根据本公开内容的实施方式的信息处理系统10被配置成包括：图像输入部110、操作输入部115、语音输入部120以及显示部130。信息处理系统10能够对由用户U(在下文中还被简称为“用户”)发出的语音执行语音识别。

图像输入部110具有输入图像的功能。在图1所示的示例中，图像输入部110包括嵌入在桌子Tb1中的两个相机。然而，包括在图像输入部110中的相机的数目不限于特定数目，只要该数目是一个或更多个即可。在这种情况下，包括在图像输入部110中的一个或更多个相机中的每个相机被设置的位置也不限于特定位置。另外，一个或更多个相机可以包括单目相机或立体相机。

操作输入部115具有输入用户U的操作的功能。在图1所示的示例中，操作输入部115包括悬挂于桌子Tb1上方的天花板的一个相机。然而，包括在操作输入部115中的相机被设置的位置不限于特定位置。另外，相机可以包括单目相机或立体相机。另外，操作输入部115可以是除相机之外的任何事物，只要其具有输入用户U的操作的功能即可，并且操作输入部115可以例如是触摸面板或硬件按钮。

显示部130具有在桌子Tb1上显示屏幕的功能。在图1所示的示例中，显示部130悬挂于桌子Tb1上方的天花板。然而，显示部130被设置的位置不限于特定位置。另外，虽然显示部130通常可以是能够将屏幕投影至桌子Tb1的顶表面上的投影仪，但是显示部130也可以是其他类型的显示器，只要该显示器具有显示屏幕的功能即可。

此外，尽管本文中主要描述了桌子Tb1的顶表面是屏幕的显示表面的情况，但是屏幕的显示表面可以不同于桌子Tb1的顶表面。屏幕的显示表面的示例可以包括墙壁、建筑物、地板表面、地面表面、天花板或其他位置处的表面。另外，在显示部130具有其自己的显示表面的情况下，屏幕的显示表面可以是显示部130的显示表面。

语音输入部120具有输入语音的功能。在图1所示的示例中，语音输入部120包括总计六个麦克风，也就是说，三个麦克风位于桌子Tb1的上方，三个麦克风存在于桌子Tb1的上表面上。然而，包括在语音输入部120中的麦克风的数目不限于特定数目，只要所述数目是一个或更多个即可。在这种情况下，包括在语音输入部120中的一个或更多个麦克风被设置的位置也不限于特定位置。然而，如果语音输入部120包括多个麦克风，则可以根据输入至多个麦克风中的每个麦克风的语音来估计声音源的方向。另外，如果语音输入部120包括具有指向性的麦克风，则可以根据输入至指向性麦克风的语音来估计声音源的方向。

针对根据本公开内容的实施方式的信息处理系统10的配置示例给出了以上描述。

[1.2.功能配置示例]

随后，描述了根据本公开内容的实施方式的信息处理系统10的功能配置示例。图2是示出根据本公开内容的实施方式的信息处理系统10的功能配置示例的框图。如图2所示，根据本公开内容的实施方式的信息处理系统10被配置成包括：图像输入部110、操作输入部115、语音输入部120、显示部130以及信息处理设备140(在下文中还被称为“控制器140”)。

信息处理设备140控制信息处理系统10中的每个部件。在一个示例中，信息处理设备140生成要从显示部130输出的信息。另外，在一个示例中，信息处理设备140将由图像输入部110、操作输入部115以及语音输入部120中的每个部输入的信息并入到要从显示部130输出的信息中。如图2所示，信息处理设备140被配置成包括：输入图像获取部141、输入语音获取部142、操作检测部143、确定部144、语音识别部145以及显示控制器146。稍后将描述这些功能块中的每个功能块的细节。

此外，信息处理设备140可以包括例如中央处理单元(CPU)。在信息处理设备140包括诸如CPU的处理设备的情况下，该处理设备可以包括电子电路。

针对根据本公开内容的实施方式的信息处理系统10的功能配置示例给出了以上描述。

[1.3.第一运动对象的显示]

如果操作检测部143检测到选择语音识别开始对象(未示出)的操作，则语音识别部145开始对输入语音进行语音识别。图3是示出由显示部130显示的屏幕的示例的图。参照图3，显示控制器146使语音识别取消操作对象Bu1、语音识别结束操作对象Bu2以及显示对象Sb被显示。语音识别取消操作对象Bu1是用于接受取消语音识别的操作的输入的对象。语音识别结束操作对象Bu2是用于接受终止语音识别的操作的输入的对象。

显示对象Sb不限于特定对象，只要所述对象是用户可以在视觉上识别的对象即可。在一个示例中，显示对象Sb可以是静止对象或移动对象。如果开始了语音识别，则确定部144基于输入语音来确定用户U发出的语音音量。在这方面，确定用户发出的语音音量的方式不限于特定方式。在一个示例中，确定部144可以估计用户发出的语音源方向Du，并且可以将从用户发出的语音源方向Du输入的音量确定为用户发出的语音音量。此外，估计用户发出的语音源方向Du的方式不限于特定方式。

在一个示例中，确定部144可以将语音输入部120输入的具有以下音量的语音的到达方向估计为用户发出的语音源方向Du：该音量的大小超过阈值。此外，可能存在着具有以下音量的语音输入的多个到达方向：该音量具有超过阈值的大小。在这种情况下，初始地，确定部144可以将多个到达方向之中的、具有超过阈值的大小的音量的语音输入的到达方向估计为用户发出的语音源方向Du。另外，确定部144可以将多个到达方向之中的、与以下用户的手指的方向(例如，从手指的指尖到根部的方向)相匹配的或相似的一个到达方向估计为用户发出的语音源方向Du：所述用户执行用于选择基于语音的语音识别开始对象(未示出)的操作。可以预先确定相似性的范围。另外，可以通过分析输入图像来获得手指方向。

此外，在一个示例中，确定部144可以将语音输入部120输入的具有最大音量的语音的到达方向估计为用户发出的语音源方向Du。可替代地，确定部144可以将与以下用户的手指的方向相匹配的或相似的一个到达方向估计为用户发出的语音源方向Du：所述用户执行用于选择语音识别开始对象(未示出)的操作。在这种情况下，确定部144可以将从不同于用户发出的语音源方向的方向输入至语音输入部120的语音确定为噪声，并且可以将从不同于用户发出的语音源方向Du的方向输入至语音输入部120的音量确定为噪声音量。

然后，在用户发出的语音音量超过语音识别部145能够执行语音识别的音量(在下文中还被称为“能够识别的音量”)的情况下，显示控制器146可以使显示部130显示朝向显示对象Sb移动的第一运动对象Mu。这使得用户可以发现是否以能够执行语音识别的音量发出了语音。另外，显示控制器146可以使显示部130基于用户发出的语音源方向Du来显示第一运动对象Mu。这使得用户可以可靠地发现用户自己的语音音量是否超过能够识别的语音音量。

具体地，显示控制器146可以使第一运动对象Mu沿与用户发出的语音源方向Du相反的方向朝向显示对象Sb移动。虽然图3所示的示例呈现了接连在用户附近出现的圆形对象沿与用户发出的语音源方向Du相反的方向移动、并且它们在到达显示对象Sb处时消失的情况，但是第一运动对象Mu的移动不限于该示例。在一个示例中，显示控制器146可以基于与输入语音对应的预定信息来控制与第一运动对象Mu有关的参数。在这种情况下使用的输入语音可以是来自用户发出的语音源方向的输入语音。在一个示例中，与第一运动对象有关的参数可以包括以下中的至少一个：第一运动对象Mu的尺寸、形状、颜色以及移动速度。

与输入语音对应的预定信息可以包括以下中的至少一个：用户发出的语音音量、输入语音的频率、识别串获取速度、根据输入语音提取的特征量、以及基于输入语音识别的用户。在一个示例中，随着识别串获取速度增加，显示控制器146可以增加第一运动对象Mu的移动速度。在识别串的获取速度超过预定速度的情况下，显示控制器146可以通过向第一运动对象Mu提供预定移动(例如，被显示对象Sb排斥的移动)来使用户发现难以执行语音识别的情况。

此外，语音识别部145优选地通过对来自用户发出的语音源方向的输入语音执行语音识别来获取识别串。这使得可以对具有以下噪声的语音执行语音识别：所述噪声小于在对语音输入部120所输入的语音直接执行语音识别的情况下出现的噪声，因此期望提高语音识别的准确性。另外，显示控制器146优选地使显示部130显示识别串。这使得用户可以发现通过语音识别获得的识别串。

还描述了第一运动对象Mu的显示的开始。图4是示出以描述第一运动对象Mu的显示的开始的图。如图4所示，呈现了噪声音量和用户发出的语音音量随时间改变的情况。如图4所示，在用户发出的语音音量超过能够识别的音量V_able的时候(或者在用户发出的语音音量等于能够识别的音量V_able的时候)，显示控制器146可以开始使显示部130显示第一运动对象Mu。

[1.4.能够识别的音量的设置]

随后，详细描述能够识别的音量。可以想到的是，上述能够识别的音量通常不是常量，而是随噪声音量改变。图5至图7是示出以描述能够识别的音量的图。在一个示例中，如图5所示，在噪声音量平均值N_ave低于预定最小限度(在下文中还被称为“噪声音量最小限度”)N_min的情况下，考虑能够识别的音量V_able保持不变。因此，在噪声音量平均值N_ave低于噪声音量最小限度N_min的情况下，确定部144可以将能够识别的音量V_able设置为规定值V_able_min。此外，可以使用噪声音量自身来代替噪声音量平均值N_ave。

另一方面，在一个示例中，如图6所示，在噪声音量平均值N_ave超过噪声音量最小限度N_min的情况下，能够识别的音量V_able可以取决于噪声音量平均值N_ave而改变。因此，在噪声音量平均值N_ave超过噪声音量最小限度N_min的情况下，确定部144可以将能够识别的音量V_able设置为与噪声音量平均值N_ave对应的音量(在图6所示的示例中，通过将噪声音量平均值N_ave乘以V_ratio而获得的值)。此外，可以使用噪声音量自身来代替噪声音量平均值N_ave。

图7示出了根据图5和图6所示的示例的噪声音量平均值N_ave与能够识别的音量V_able之间的关系。参照图7，在噪声音量平均值N_ave低于噪声音量最小限度N_min的情况下，能够识别的音量V_able被设置为规定值V_able_min。然而，在噪声音量平均值N_ave超过噪声音量最小限度N_min的情况下，发现能够识别的音量V_able被设置为通过将噪声音量平均值N_ave乘以V_ratio而获得的值。然而，在噪声音量平均值N_ave超过噪声音量最小限度N_min的情况下的能够识别的音量V_able不是必须被线性地改变。

此外，在噪声音量平均值N_ave等于噪声音量最小限度N_min的情况下，能够识别的音量V_able可以被设置为规定值V_able_min，或者能够识别的音量V_able可以被设置为与噪声音量平均值N_ave对应的音量。另外，包括规定值V_able_min、噪声音量最小限度N_min以及V_ratio的值可以取决于用于语音识别的产品的使用环境、使用情况等而被预先设置，或者可以通过在语音识别开始时执行的软件更新等而被动态地更新。

[1.5.第二运动对象的显示]

如上所描述的显示第一运动对象Mu使得用户可以发现以能够识别的语音音量发出了语音。另一方面，即使以能够识别的语音音量发出语音，但是语音识别也可能被噪声干扰。因此，使用户发现是否存在噪声是有效的。图8是示出由显示部130显示的屏幕的另一示例的图。参照图8，存在噪声源Ns1和Ns2。在这方面，虽然以下描述了存在两个噪声源的情况，但是噪声源的数目不限。

此外，虽然图8示出了不同于用户U的两个人作为噪声源Ns1和Ns2的示例，但是噪声源的类型可以是除人之外的生物，或者可以是除生物之外的任何事物(例如，人工对象)。在这种情况下，确定部144基于输入语音来确定噪声音量。在这方面，确定噪声音量的方式不限于特定方式。在一个示例中，确定部144可以估计噪声源方向Dn1和Dn2，并且可以将从噪声源方向Dn1和Dn2输入的音量确定为噪声音量。此外，估计噪声源方向Dn1和Dn2的方式也不限于特定方式。

在一个示例中，可以存在下述情况：存在着具有以下音量的语音输入的多个到达方向：该音量具有超过阈值的大小。在这种情况下，确定部144可以将多个到达方向之中的、具有以下音量的语音输入的到达方向估计为噪声源方向Dn1和Dn2：所述音量具有超过阈值的第二大小和后续大小。可替代地，在一个示例中，确定部144可以将语音输入部120输入的具有以下音量的语音的到达方向估计为噪声源方向Dn1和Dn2：所述音量具有第二大小和后续大小。

然后，在噪声音量超过能够识别的语音音量的情况下，显示控制器146可以使显示部130显示与第一运动对象Mu不同的第二运动对象Mn1和Mn2。这使得用户U可以发现是否存在着发出超过能够识别的音量的音量的噪声。另外，显示控制器146可以使显示部130基于噪声源方向来显示第二运动对象Mn1和Mn2。这使得用户可以发现发出的音量超过能够识别的音量的噪声源的方向。

另外，显示控制器146可以移动第二运动对象Mn1和Mn2，以使得阻止向显示对象Sb的移动。在一个示例中，如图8所示，显示控制器146可以移动第二运动对象Mn1和Mn2以位于预定范围之外。这使得用户可以更直观地发现：在对来自用户发出的语音源方向的输入语音执行语音识别的情况下，不对从噪声源方向Dn1和Dn2发出的语音执行语音识别。

图9是示出以描述第二运动对象Mn1和Mn2的显示的开始的图。如图9所示，呈现了从噪声源Ns1发出的噪声的第一噪声音量、从噪声源Ns2发出的噪声的第二噪声音量、以及由用户U发出的语音音量随时间改变的情况。在这种情况下，在第一噪声音量超过能够识别的音量V_able的时候(可替代地，在第一噪声音量等于能够识别的音量V_able的时候)，显示控制器146可以使显示部130显示第二运动对象Mn1。另外，在第二噪声音量超过能够识别的音量V_able的时候(可替代地，在第二噪声音量等于能够识别的音量V_able的时候)，显示控制器146可以使显示部130显示第二运动对象Mn2。第一运动对象Mu的显示的开始如上所述。

[1.6.操作示例]

随后，描述了根据本公开内容的实施方式的信息处理系统10的操作过程。图10A和图10B是示出根据本公开内容的实施方式的信息处理系统10的操作过程的示例的流程图。此外，图10A和图10B的流程图仅是根据本公开内容的实施方式的信息处理系统10的操作过程的示例。因此，根据本公开内容的实施方式的信息处理系统10的操作过程不限于图10A和图10B的流程图所示的示例。

输入图像获取部141获取由图像输入部110输入的输入图像(S11)。另外，输入语音获取部142获取由语音输入部120输入的输入语音(S12)。随后，如果根据输入图像和输入语音不能指定用户发出的语音源方向(S13中的“否”)，则信息处理设备140使操作转移至S11和S12。另一方面，如果根据输入图像和输入语音可以指定用户发出的语音源方向(S13中的“是”)，则信息处理设备140使操作转移至S14。

随后，确定部144确定用户发出的语音源方向和用户发出的语音音量(S14)，并且确定噪声源方向和噪声音量(S15)。随后，如果噪声音量超过噪声音量最小限度N_min(S16中的“否”)，则确定部144将能够识别的音量V_able设置为通过将噪声音量平均值N_ave乘以V_ratio而获得的值，并且使操作转移至S19。另一方面，如果噪声音量低于噪声音量最小限度N_min(S16中的“是”)，则确定部144将能够识别的音量V_able设置为规定值V_able_min(S18)，并且使操作转移至S19。

随后，如果用户发出的语音音量超过能够识别的音量V_able(S19中的“否”)，则信息处理设备140使操作转移至S24。另一方面，如果用户发出的语音音量超过能够识别的音量V_able(S19中的“是”)，则语音识别部145对输入语音执行语音识别。在这种情况下，语音识别部145优选地对来自用户发出的语音源方向的输入语音执行语音识别。

随后，显示控制器146使显示部130显示与用户发出的语音源方向对应的第一运动对象Mu(S21)。然后，如果存在着发出的噪声音量超过能够识别的音量V_able的噪声源(S22中的“是”)，则显示控制器146使显示部130显示与噪声源方向对应的第二运动对象(S23)，并且使操作转移至S13。另一方面，如果不存在发出的噪声音量超过能够识别的音量V_able的噪声源(S22中的“否”)，则信息处理设备140使操作转移至S24。如果操作转移至S24，则信息处理设备140使输入图像获取部141和输入语音获取部142分别获取下一时间单元的输入图像和输入语音(S24)，并且使操作转移至S13。

[1.7.显示形式的修改示例]

针对显示部130是能够将屏幕投影至桌子Tb1的顶表面上的投影仪的示例给出了如上描述。然而，显示部130的显示形式不限于该示例。描述了显示部130的显示形式的修改示例。图11是示出显示部130的显示形式的修改示例1的图。如图11所示，在信息处理系统10是移动终端的情况下，显示部130可以被设置在移动终端中。移动终端的类型不限于特定类型，并且移动终端可以是平板终端、智能电话或蜂窝电话。

此外，图12是示出显示部130的显示形式的修改示例2的图。如图12所示，在信息处理系统10包括电视接收机的情况下，显示部130可以被设置在电视接收机中。在这种情况下，如图12所示，显示控制器146使显示部130基于由用户U发出的语音的声源方向来显示第一运动对象Mu，并且使显示部130基于噪声源Ns的方向显示第二运动对象Mn。

图13是示出显示部130的显示形式的修改示例3的图。如图13所示，显示部130可以是头戴式显示器。在这种情况下，如图13所示，在从设置在头戴式显示器中的相机所捕获的图像中识别出与显示对象Sb相关联的对象Ob的情况下，显示控制器146可以使显示部130显示显示对象Sb。在一个示例中，显示控制器146可以识别对象Ob的三维位置和姿态，并且可以根据识别的三维位置和姿态将显示对象Sb布置在增强现实(AR)空间中。

还可以基于对象Ob的三维位置来移动第一运动对象Mu。在一个示例中，在用户发出的语音音量超过能够识别的语音音量的情况下，显示控制器146可以通过将AR空间中的第一运动对象Mu朝向对象Ob的三维位置移动以使得第一运动对象Mu从近侧移动至远侧，来使第一运动对象Mu被显示。在图13所示的示例中，将用户U的嘴估计为用户发出的语音源方向，因此第一运动对象Mu从用户的嘴的附近出现，并且移动至显示对象Sb。

此外，图13所示的示例假设了对象Ob是照明器具并且在显示对象Sb被显示的状态下执行语音识别的情况。在这种情况下，信息处理设备140使对象Ob执行与通过语音识别而获得的识别串相对应的操作(例如，在照明器具上在上电与断电之间切换)。然而，对象Ob可以是除照明器具之外的任何对象。

图14是示出显示部130的显示形式的修改示例4的图。如图14所示，在信息处理系统10包括三维立体显示器的情况下，显示部130可以被设置在三维立体显示器中。在这种情况下，如图14所示，如果用户发出的语音音量超过能够识别的语音音量，则显示控制器146可以使第一运动对象Mu被显示，以使得第一运动对象Mu以从近侧至远侧的移动表示而朝向显示对象Sb移动。从近侧至远侧的移动表示可以通过使用用户U的左眼和右眼的视差来实现。

在图14所示的示例中，从近侧至远侧的移动表示通过允许用户U戴上立体眼镜L来实现。然而，从近侧至远侧的移动表示可以通过用户U不戴立体眼镜L的裸眼立体视图来实现。在一个示例中，即使当显示部130显示如图14所示的多个对象(例如，应用窗口)G1至G8时，在对象G1上显示的显示对象Sb的深度与第一运动对象Mu的目的地的深度的相匹配也使得用户U更容易发现针对对象G1使用语音识别。

图15是示出显示部130的显示形式的修改示例5的图。如图15所示，显示控制器146可以使显示部130显示虚拟对象Vr，并且使显示部130显示包括在虚拟对象Vr中的预定对象作为显示对象Sb。在图15所示的示例中，虽然虚拟对象Vr与游戏控制器Cr相关联，但是虚拟对象Vr可以与除游戏控制器Cr之外的对象相关联。另外，在图15所示的示例中，虽然预定对象与包括在游戏控制器Cr中的麦克风Mc相关联，但是预定对象不限于麦克风Mc。

如果虚拟对象Vr和显示对象Sb被如上所述地显示，则用户U观看到在显示部130上显示的第一运动对象Mu的目的地，因此用户U可以容易地发现用户自己的语音被输入的位置。另外，如果虚拟对象Vr和显示对象Sb被如上所述地显示，则可以防止用户U的诸如对着错误位置(例如，对着显示部130)说话的动作。

[1.8.硬件配置示例]

接下来，参照图16来描述根据本公开内容的实施方式的信息处理系统10的硬件配置。图16是示出根据本公开内容的实施方式的信息处理系统10的硬件配置示例的框图。

如图16所示，信息处理系统10包括：中央处理单元(CPU)901、只读存储器(ROM)903、以及随机存取存储器(RAM)905。另外，信息处理系统10可以包括：主机总线907、桥接器909、外部总线911、接口913、输入设备915、输出设备917、存储设备919、驱动器921、连接端口923以及通信设备925。信息处理系统10必要时还可以包括图像捕获设备933和传感器935。与CPU 901结合地或者代替于CPU 901，信息处理系统10可以具有被称为数字信号处理器(DSP)或专用集成电路(ASIC)的处理电路。

CPU 901用作算术处理单元和控制设备，并且其根据记录在ROM 903、RAM 905、存储设备919或可移除记录介质927中的各种程序来控制信息处理系统10中的全部操作或其一部分。ROM 903存储例如由CPU 901使用的程序和操作参数。RAM 905暂时存储例如要由CPU 901在执行时使用的程序以及在执行程序时视情况改变的参数。CPU 901、ROM 903和RAM 905经由主机总线907来彼此连接，主机总线907包括内部总线如CPU总线。此外，主机总线907经由桥接器909连接至外部总线911如外围部件互连(PCI)/接口总线。

输入设备915例如是由用户操作的设备，如鼠标、键盘、触摸面板、按钮、开关和控制杆。输入设备915可以包括用于检测用户的语音的麦克风。输入设备915可以例如是使用红外线或其他无线电波的远程控制设备，或者可以是外部连接设备929，如符合信息处理系统10的操作的蜂窝电话。输入设备915包括输入控制电路，所述输入控制电路根据用户输入的信息来生成输入信号并且将输入信号输出至CPU 901。用户通过操作输入设备915将各种数据输入至信息处理系统10，并且指示信息处理系统10执行处理操作。另外，稍后将描述的图像捕获设备933还可以通过捕获用户的手或手指等的移动而用作输入设备。在这种情况下，可以根据手的运动或手指的定向来确定指向位置。

输出设备917包括能够在视觉上或音频上向用户通知所获取的信息的设备。输出设备917可以是：诸如液晶显示器(LCD)、等离子显示面板(PDP)、有机电致发光(EL)显示器以及投影仪的显示设备，全息显示设备，诸如扬声器和耳机的音频输出设备，以及打印机设备等。输出设备917将通过信息处理系统10的处理而获得的结果作为视频(如文本或图像)来输出，或者将所述结果作为音频(如语音或声音)来输出。另外，输出设备917可以包括例如用于照亮周围环境的灯。

存储设备919是被配置为信息处理系统10的存储部的示例的数据存储设备。存储设备919例如包括诸如硬盘驱动器(HDD)的磁存储设备、半导体存储设备、光学存储设备以及磁光存储设备。存储设备919存储由CPU 901执行的程序、各种数据、从外部获得的各种类型的数据等。

驱动器921是用于可移除记录介质927(如磁盘、光盘、磁光盘以及半导体存储器)的读写器，并且驱动器921包括在信息处理系统10中或者在外部附接至信息处理系统10。驱动器921读取记录在附接的可移除记录介质927中的信息，并且将所述信息输出至RAM 905。另外，驱动器921在附接的可移除记录介质927中进行写入。

连接端口923是用于将设备直接连接至信息处理系统10的端口。连接端口923可以例如是通用串行总线(USB)端口、IEEE 1394端口或小型计算机系统接口(SCSI)端口。另外，连接端口923可以例如是RS-232C端口、光纤音频端子(optical audio terminal)或高清晰度多媒体接口(HDMI，注册商标)端口。外部连接设备929连接至连接端口923，因此各种数据可以在信息处理系统10与外部连接设备929之间交换。

通信设备925例如是由通信设备等组成的通信接口，其用于连接至通信网络931。通信设备925可以例如是用于有线或无线局域网(LAN)、蓝牙(注册商标)或无线USB(WUSB)的通信卡。另外，通信设备925可以例如是用于光通信的路由器、用于非对称数字用户线路(ADSL)的路由器或者用于各种通信的调制解调器。例如，通信设备925使用预定协议如TCP/IP，与因特网或其他通信设备发送和接收信号等。另外，连接至通信设备925的通信网络931是通过线路或无线地连接的网络，并且通信网络931例如是因特网、家庭LAN、红外通信、无线电波通信、卫星通信等。

图像捕获设备933通过使用图像传感器(如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS))以及各种构件(如用于控制在图像传感器上对象图像的成像的透镜)来捕获真实空间并且生成捕获的图像。图像捕获设备933可以捕获静止图像或运动图像。

传感器935例如是各种传感器，如加速计、陀螺仪传感器、地磁传感器、光电传感器以及声音传感器。传感器935获取关于信息处理系统10自身状态的信息(如信息处理系统10的外壳的姿态)，以及关于信息处理系统10的周围环境的信息(如信息处理系统10周围的亮度或噪声)。传感器935还可以包括GPS传感器，所述GPS传感器接收全球定位系统(GPS)信号，并且测量设备的纬度、经度以及海拔高度。

针对信息处理系统10的硬件配置的示例给出了以上描述。可以使用通用构件来配置上述部件中的每个部件，或者可以利用专用于每个部件的功能的硬件来配置上述部件中的每个部件。这样的配置可以根据在实现时的技术水平而被适当地改变。

<2.结论>

根据如上所描述的本公开内容的实施方式，提供了包括确定部144和显示控制器146的信息处理设备140。确定部144基于输入语音来确定用户发出的语音音量，显示控制器146控制显示部130以使得显示部130显示显示对象Sb。当用户发出的语音音量超过能够识别的语音音量时，显示控制器146使显示部130显示朝向显示对象Sb移动的第一运动对象。

根据这样的配置，用户可以发现是否以能够执行语音识别的音量而发出语音。在一个示例中，在语音识别被不正确地执行的情况下，用户可以发现如何改变语音。另外，当根据所获得的结果来改变用户的语音时，期望将提高语音识别的成功率。

以上已经参照附图描述了本公开内容的优选实施方式，然而本公开内容不限于以上示例。本领域技术人员可以在所附权利要求的范围内实现各种变型和修改，并且应当理解的是，所述各种变型和修改将自然落入本公开内容的技术范围内。

虽然针对显示部130的显示形式的修改示例给出了以上描述，但是显示部130的显示形式不限于以上示例。显示部130可以例如是除头戴式显示器之外的、被设置在可穿戴终端(例如，手表或眼镜)中的显示器。另外，显示部130可以例如是被设置在车辆内的导航系统中的显示器。另外，显示部130可以例如是在医疗领域中使用的显示器。

此外，可以创建以下程序：该程序用于使硬件(如包括在计算机中的CPU、ROM以及RAM)执行等同于上述信息处理系统10的那些功能的功能。另外，还可以提供记录有该程序的计算机可读记录介质。

此外，显示控制器146生成用于在显示部130上显示显示内容的显示控制信息，并且将所生成的显示控制信息输出至显示部130，因此可以控制显示部130以使得显示部130显示显示内容。可以根据系统配置来适当地改变显示控制信息的内容。

具体地，用于实现信息处理设备140的程序可以例如是网络应用。在这种情况下，可以使用标记语言，如超文本标记语言(HTML)、标准通用标记语言(SGML)以及可拓展标记语言(XML)，来创建显示控制信息。

每个部件的位置不限于特定位置，只要上述信息处理系统10的操作被执行即可。在一个具体示例中，可以将图像输入部110、操作输入部115、语音输入部120、显示部130以及信息处理设备140设置在经由网络连接的不同设备中。在这种情况下，信息处理设备140例如对应于服务器(如网络服务器或云服务器)，并且图像输入部110、操作输入部115、语音输入部120以及显示部130可以对应于经由网络连接至服务器的客户端。

另外，在本说明书中所描述的效果仅是说明性的或示例性的效果，并非是限制性的。也就是说，与上述效果一起或代替于上述效果，根据本公开内容的技术可以实现根据本说明书的描述对本领域技术人员而言清楚的其他效果。

另外，本技术还可以被配置为如下。

(1)一种信息处理设备，包括：

确定部，所述确定部被配置成基于据输入语音来确定用户发出的语音音量；以及

显示控制器，所述显示控制器被配置成控制显示部以使得所述显示部显示显示对象，

其中，当所述用户发出的语音音量超过能够识别的语音音量时，所述显示控制器使所述显示部显示朝向所述显示对象移动的第一运动对象。

(2)根据(1)所述的信息处理设备，

其中，所述确定部确定用户发出的语音源方向，以及

所述显示控制器使所述显示部基于所述用户发出的语音源方向来显示所述第一运动对象。

(3)根据(2)所述的信息处理设备，还包括：

语音识别部，所述语音识别部被配置成通过对来自所述用户发出的语音源方向的输入语音执行语音识别来获取识别串。

(4)根据(3)所述的信息处理设备，

其中，所述显示控制器使所述显示部显示所述识别串。

(5)根据(1)至(4)中任一项所述的信息处理设备，

其中，所述确定部基于所述输入语音来确定噪声音量，以及

当所述噪声音量超过所述能够识别的语音音量时，所述显示控制器使所述显示部显示与所述第一运动对象不同的第二运动对象。

(6)根据(5)所述的信息处理设备，

其中，所述确定部确定噪声源方向，以及

所述显示控制器使所述显示部基于所述噪声源方向来显示所述第二运动对象。

(7)根据(6)所述的信息处理设备，

其中，所述第二运动对象被移动，以使得朝向所述显示对象的移动被阻止。

(8)根据(1)至(7)中任一项所述的信息处理设备，

其中，所述显示控制器基于与所述输入语音对应的预定信息来控制与所述第一运动对象有关的参数。

(9)根据(8)所述的信息处理设备，

其中，与所述第一运动对象有关的参数包括以下中的至少一个：所述第一运动对象的尺寸、形状、颜色以及移动速度。

(10)根据(8)或(9)所述的信息处理设备，

其中，与所述输入语音对应的预定信息包括以下中的至少一个：所述用户发出的语音音量、所述输入语音的频率、识别串获取速度、从所述输入语音提取的特征量、以及根据所述输入语音识别的用户。

(11)根据(2)所述的信息处理设备，

其中，所述确定部基于语音输入的到达方向来确定所述用户发出的语音源方向，所述语音输入的音量具有超过阈值的大小。

(12)根据(2)所述的信息处理设备，

其中，所述确定部基于具有最大音量的语音输入的到达方向来确定所述用户发出的语音源方向。

(13)根据(2)所述的信息处理设备，

其中，所述确定部基于从手指的指尖到根部的方向来确定所述用户发出的语音源方向。

(14)根据(6)所述的信息处理设备，

其中，当所述噪声音量低于最小限度时，所述确定部将所述能够识别的语音音量设置为规定值。

(15)根据(6)所述的信息处理设备，

其中，当所述噪声音量超过最小限度时，所述确定部将所述能够识别的语音音量设置为与所述噪声音量的平均值对应的音量或者与所述噪声音量对应的音量。

(16)根据(1)至(15)中任一项所述的信息处理设备，

其中，当从捕获的图像中识别出与所述显示对象相关联的对象时，所述显示控制器使所述显示部显示所述显示对象。

(17)根据(1)至(16)中任一项所述的信息处理设备，

其中，当所述用户发出的语音音量超过所述能够识别的语音音量时，所述显示控制器使所述显示部以从近侧至远侧的移动表示来显示朝向所述显示对象移动的所述第一运动对象。

(18)根据(1)至(17)中任一项所述的信息处理设备，

其中，所述显示控制器使所述显示部显示虚拟对象，并且显示包括在所述虚拟对象中的预定对象作为所述显示对象。

(19)一种信息处理方法，所述方法包括：

基于输入语音来确定用户发出的语音音量；以及

控制显示部以使得所述显示部显示显示对象，

其中，当所述用户发出的语音音量超过能够识别的语音音量时，使所述显示部显示朝向所述显示对象移动的第一运动对象。

(20)一种用于使计算机用作信息处理设备的程序，所述信息处理设备包括：

确定部，所述确定部被配置成基于输入语音来确定用户发出的语音音量；以及

附图标记列表

10 信息处理系统

110 图像输入部

115 操作输入部

120 语音输入部

130 显示部

140 信息处理设备(控制器)

141 输入图像获取部

142 输入语音获取部

143 操作检测部

144 确定部

145 语音识别部

146 显示控制器

Mu 第一运动对象

Mn，Mn1，Mn2 第二运动对象

Ns，Ns2，Ns1 噪声源

Du 用户发出的语音源方向

Dn，Dn1，Dn2 噪声源方向

Sb 显示对象

Claims

1.一种信息处理设备，包括：

2.根据权利要求1所述的信息处理设备，

其中，所述确定部确定用户发出的语音源方向，以及

3.根据权利要求2所述的信息处理设备，还包括：

4.根据权利要求3所述的信息处理设备，

其中，所述显示控制器使所述显示部显示所述识别串。

5.根据权利要求1所述的信息处理设备，

其中，所述确定部基于所述输入语音来确定噪声音量，以及

6.根据权利要求5所述的信息处理设备，

其中，所述确定部确定噪声源方向，以及

7.根据权利要求6所述的信息处理设备，

8.根据权利要求1所述的信息处理设备，

9.根据权利要求8所述的信息处理设备，

10.根据权利要求8所述的信息处理设备，

11.根据权利要求2所述的信息处理设备，

12.根据权利要求2所述的信息处理设备，

13.根据权利要求2所述的信息处理设备，

14.根据权利要求6所述的信息处理设备，

15.根据权利要求6所述的信息处理设备，

16.根据权利要求1所述的信息处理设备，

17.根据权利要求1所述的信息处理设备，

18.根据权利要求1所述的信息处理设备，

19.一种信息处理方法，所述方法包括：

基于输入语音来确定用户发出的语音音量；以及

控制显示部以使得所述显示部显示显示对象，

20.一种用于使计算机用作信息处理设备的程序，所述信息处理设备包括：