CN108369492A

CN108369492A - 信息处理装置、信息处理方法及程序

Info

Publication number: CN108369492A
Application number: CN201680071082.6A
Authority: CN
Inventors: 河野真; 河野真一; 中川佑辅
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-12-11
Filing date: 2016-09-21
Publication date: 2018-08-03
Anticipated expiration: 2036-09-21
Also published as: WO2017098773A1; CN108369492B; US20180254038A1; JP2017107482A

Abstract

提供一种能够更可靠地提高声音收集特性的机构。信息处理装置包括控制单元，该控制单元基于声音收集单元与由声音收集单元收集的声音的生成源之间的位置关系来进行控制，所述控制与以下有关：声音收集单元关于声音收集特性的状态；以及引导被收集的声音的生成方向的输出。信息处理方法包括由处理器进行的控制，所述控制：与声音收集单元关于声音收集特性的状态有关；与引导被收集的声音的生成方向的输出有关；并且是基于声音收集单元与要由声音收集单元收集的声音的生成源之间的位置关系来进行的。还提供了一种用于计算机实现所述控制功能的程序。

Description

信息处理装置、信息处理方法及程序

技术领域

本公开内容涉及信息处理装置、信息处理方法及程序。

背景技术

近来，用于分析输入声音的技术得到研究和发展。具体地，存在下述所谓的语音识别技术：接收用户产生的语音作为输入语音，对输入语音进行语音识别，由此根据输入语音识别字符串。

此外，用于提高语音识别技术的便利性的技术得到发展。例如，专利文献1公开了一种用于帮助用户理解用于针对输入语音进行语音识别的模式已经开始的技术。

引用列表

专利文献

专利文献1：JP 2013-25605A

发明内容

技术问题

然而，在如专利文献1中公开的这样的现有的技术中，并非总是输入具有处于语音可以经受诸如语音识别处理之类的处理的水平的声音收集特性的语音。例如，在用户在与适合于声音收集装置收集声音的方向不同的方向上产生声音的情况下，即使收集到讲话的语音，也存在以下可能：收集的语音不满足声音收集特性的水平例如对于诸如语音识别处理之类的处理而言必要的声压水平或信噪(SN)比。因此，可能难以获得期望的处理结果。

因此，本公开内容提出了一种使得能够更可靠地提高声音收集特性的机构。

问题的解决方案

根据本公开内容，提供了一种信息处理装置，包括：控制单元，该控制单元被配置成基于声音收集单元与要由声音收集单元收集的声音的生成源之间的位置关系来进行控制，该控制涉及与声音收集特性有关的该声音收集单元的模式以及用于引导要收集的声音的生成方向的输出。

此外，根据本公开内容，提供了一种由处理器执行的信息处理方法，该信息处理方法包括：基于声音收集单元与要由声音收集单元收集的声音的生成源之间的位置关系来进行控制，该控制涉及与声音收集特性有关的该声音收集单元的模式以及用于引导要收集的声音的生成方向的输出。

此外，根据本公开内容，提供了一种程序，该程序使计算机实现：以下控制功能：基于声音收集单元与要由声音收集单元收集的声音的生成源之间的位置关系来进行控制，该控制涉及与声音收集特性有关的该声音收集单元的模式以及用于引导要收集的声音的生成方向的输出。

发明的有益效果

根据上述本公开内容，提供了一种使得能够更可靠地提高声音收集特性的机构。注意，上述效果不一定是限制性的。与上述效果一起或代替上述效果，可以实现本说明书中描述的效果或可以从本说明书中掌握的其他效果中的任一效果。

附图说明

图1是用于描述根据本公开内容的第一实施方式的信息处理系统的示意性配置示例的图。

图2是示出根据本实施方式的信息处理装置的示意性物理配置示例的框图。

图3是示出根据本实施方式的显示/声音收集装置的示意性物理配置示例的框图。

图4是示出根据本实施方式的信息处理系统的每个装置的示意性功能配置示例的框图。

图5A是用于描述根据本实施方式的语音输入适合性确定处理的图。

图5B是用于描述根据本实施方式的语音输入适合性确定处理的图。

图6是示出根据本实施方式的语音输入的适合性的确定模式的示例的图。

图7A是示出存在多个噪声源的情况的示例的图。

图7B是用于描述根据与多个噪声源有关的声源方向信息来决定指示一个方向的声源方向信息的处理的图。

图8是示出用于基于噪声的声压来确定语音输入的适合性的模式的示例的图。

图9是示出根据本实施方式的信息处理装置的整体处理的构思的流程图。

图10是示出由根据本实施方式的信息处理装置进行的方向确定值计算处理的构思的流程图。

图11是示出由根据本实施方式的信息处理装置对多个声源方向信息进行求和处理的构思的流程图。

图12是示出由根据本实施方式的信息处理装置进行的对声压确定值的计算处理的构思的流程图。

图13是在可以进行语音输入的情况下信息处理系统的处理示例的说明图。

图14是在可以进行语音输入的情况下信息处理系统的处理示例的说明图。

图15是在可以进行语音输入的情况下信息处理系统的处理示例的说明图。

图16是在可以进行语音输入的情况下信息处理系统的处理示例的说明图。

图17是在可以进行语音输入的情况下信息处理系统的处理示例的说明图。

图18是在语音输入困难的情况下信息处理系统的处理示例的说明图。

图19是在语音输入困难的情况下信息处理系统的处理示例的说明图。

图20是在语音输入困难的情况下信息处理系统的处理示例的说明图。

图21是在语音输入困难的情况下信息处理系统的处理示例的说明图。

图22是在语音输入困难的情况下信息处理系统的处理示例的说明图。

图23是用于描述根据本实施方式的修改示例的信息处理系统的处理示例的图。

图24是用于描述根据本公开内容的第二实施方式的信息处理系统的示意性配置示例的图。

图25是示出根据本实施方式的信息处理系统的每个装置的示意性功能配置示例的框图。

图26是用于描述根据本实施方式的语音输入适合性确定处理的图。

图27是示出根据本实施方式的语音输入的适合性的确定模式的示例的图。

图28是示出根据本实施方式的信息处理装置的整体处理的构思的流程图。

图29是示出由根据本实施方式的信息处理装置进行的方向确定值计算处理的构思的流程图。

图30是示出由根据本实施方式的信息处理装置进行的控制量决定处理的构思的流程图。

图31是用于描述根据本实施方式的信息处理系统的处理示例的图。

图32是用于描述根据本实施方式的信息处理系统的处理示例的图。

图33是用于描述根据本实施方式的信息处理系统的处理示例的图。

图34是用于描述根据本实施方式的信息处理系统的处理示例的图。

图35是用于描述根据本实施方式的信息处理系统的处理示例的图。

具体实施方式

在下文中，参照附图详细描述本公开内容的优选实施方式。注意，在本说明书与附图中，具有大致相同功能和结构的结构元件用相同附图标记表示，并且省略了对这些结构元件的重复说明。

此外，在本说明书与附图中，还存在具有大致相同功能和结构的多个部件是通过向同一附图标记末尾添加不同编号来区分的情况。例如，具有大致相同功能的多个部件在必要时区分为噪声源10A和噪声源10B。然而，在没必要区分具有大致相同功能和结构的部件的情况下，仅添加相同附图标记。例如，在没必要特别区分噪声源10A与噪声源10B的情况下，将它们简称为“噪声源10”。

注意：将以下述顺序提供说明。

1.第一实施方式(用户对噪声避免的引导)

1-1.系统配置

1-2.装置的配置

1-3.装置的处理

1-4.处理示例

1-5.第一实施方式的概述

1-6.修改示例

2.第二实施方式(用于高灵敏度的声音收集的声音收集单元的控制和用户的引导)

2-1.系统配置

2-2.装置的配置

2-3.装置的处理

2-4.处理示例

2-5.第二实施方式的概述

3.应用示例

4.结论

<1.第一实施方式(用户的噪声避免的引导)>

首先，将描述本公开内容的第一实施方式。在第一实施方式中，出于降低噪声被输入的可能性的目的而引导用户的动作。

<1-1.系统配置>

将参照图1描述根据本公开内容的第一实施方式的信息处理系统的配置。图1是用于描述根据本实施方式的信息处理系统的示意性配置示例的图。

如图1所示，根据本实施方式的信息处理系统包括信息处理装置100-1、显示/声音收集装置200-1以及声音处理装置300-1。注意，为了方便描述起见，通过在名称末尾附加与实施方式对应的数字来将根据第一实施方式和第二实施方式的信息处理装置100彼此区分，如信息处理装置100-1和信息处理装置100-2。这也适用于其他装置。

信息处理装置100-1通过通信连接至显示/声音收集装置200-1和声音处理装置300-1。信息处理装置100-1通过通信控制显示/声音收集装置200-1的显示。此外，信息处理装置100-1通过通信使声音处理装置300-1处理从显示/声音收集装置200-1获得的声音信息，并且基于处理结果来控制显示/声音收集装置200-1的显示或与显示有关的处理。与显示有关的处理可以是例如游戏应用的处理。

显示/声音收集装置200-1由用户佩戴，并且进行图像显示和声音收集。显示/声音收集装置200-1将从声音收集获得的声音信息提供给信息处理装置100-1，并且基于从信息处理装置100-1获得的图像信息来显示图像。显示/声音收集装置200-1例如是如图1所示的头戴式显示器(HMD)，并且包括位于佩戴着显示/声音收集装置200-1的用户的嘴部处的麦克风。注意，显示/声音收集装置200-1可以是平视显示器(HUD)。另外，麦克风可以被提供为与显示/声音收集装置200-1分开的独立装置。

声音处理装置300-1基于声音信息进行与声源方向、声压和语音识别有关的处理。声音处理装置300-1基于从信息处理装置100-1提供的声音信息来执行上述处理，并将处理结果提供给信息处理装置100-1。

这里，存在当收集声音时也收集到与期望声音不同的声音即噪声的情况。收集到噪声的一个原因是：由于难以预测噪声生成时刻、生成噪声的地点、噪声生成的频率等，因此难以避免噪声。为了解决这个问题，可以想到在之后消除输入的噪声。然而，由于要单独添加噪声消除处理，所以有处理负荷和成本增加的问题。另外，作为另一种方法，可以想到降低噪声被输入的可能性。例如，以已经注意到噪声的用户保持麦克风远离噪声源的动作为例。然而，在用户戴着耳机等的情况下，用户不太可能注意到噪声。即使用户注意到噪声，也难以准确找到噪声源。另外，即使用户注意到噪声，用户也难以确定噪声是否会被麦克风收集。此外，存在难以期望用户执行适当的动作以防止噪声被输入的情况。例如，用户难以适当地确定对于避免噪声所期望的面部的朝向、覆盖麦克风的方式等。

因此，本公开内容的第一实施方式提出了一种能够容易地抑制噪声输入的信息处理系统。以下将详细描述作为根据第一实施方式的信息处理系统的构成元件的各个装置。

注意，尽管上面已经描述了信息处理系统包括三个装置的示例，但是信息处理装置100-1和声音处理装置300-1可以实现在一个装置中，并且信息处理装置100-1、显示/声音收集装置200-1和声音处理装置300-1可以实现在一个装置中。

<1-2.装置的配置>

接下来，将描述根据本实施方式的信息处理系统中包括的各个装置的配置。

首先，将参照图2和图3描述各个装置的物理配置。图2是示出根据本实施方式的信息处理装置100-1的示意性物理配置示例的框图，以及图3是示出根据本实施方式的显示/声音收集装置200-1的示意性物理配置示例的框图。

(信息处理装置的物理配置)

如图2所示，信息处理装置100-1包括处理器102、存储器104、桥接器106、总线108、输入接口110、输出接口112、连接端口114和通信接口116。注意，由于声音处理装置300-1的物理配置与信息处理装置100-1的物理配置基本相同，因此下面将一起描述这些配置。

(处理器)

处理器102用作算术处理装置，并且是与各种程序协作实现将在下文中描述的信息处理装置100-1中包括的虚拟现实(VR)处理单元122、语音输入适合性确定单元124和输出控制单元126(在声音处理装置300-1、声源方向估计单元322、声压估计单元324和语音识别处理单元326的情况下)的操作的控制模块。处理器102通过使用控制电路执行存储在存储器104或另一存储介质中的程序来使将在下面描述的信息处理装置100-1的各种逻辑功能运行。处理器102可以是例如中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)或片上系统(SoC)。

(存储器)

存储器104存储要由处理器102使用的程序、算术参数等。存储器104例如包括随机存取存储器(RAM)，并临时存储要在处理器102的执行中使用的程序、在执行中适当改变的参数等。另外，存储器104包括只读存储器(ROM)，从而利用RAM和ROM实现信息处理装置100-1的存储单元。注意，外部存储装置可以经由连接端口、通信装置等用作存储器104的一部分。

注意，处理器102和存储器104通过由CPU总线等构成的内部总线彼此连接。

(桥接器和总线)

桥接器106连接总线。具体地，桥接器106将连接处理器102和存储器104的内部总线与连接输入接口110、输出接口112、连接端口114和通信接口116的总线108连接。

(输入接口)

输入接口110由用户用以操作信息处理装置100-1或将信息输入到信息处理装置100-1。例如，输入接口110由例如以下构成：用于用户输入信息的输入部例如用于启动信息处理装置100-1的按钮，基于用户的输入生成输入信号并将该信号输出到处理器102的输入控制电路等。注意，输入部可以是鼠标、键盘、触摸面板、开关、杆等。通过操作输入接口110，信息处理装置100-1的用户可以向信息处理装置100-1输入各种类型的数据或给出处理操作的指令。

(输出接口)

输出接口112用于向用户通知信息。输出接口112执行至例如诸如液晶显示(LCD)装置、有机发光二极管(OLED)装置、投影仪、扬声器或头戴式耳机的装置的输出。

(连接端口)

连接端口114是用于将设备直接连接到信息处理装置100-1的端口。连接端口114可以是例如通用串行总线(USB)端口、IEEE 1394端口、小型计算机系统接口(SCSI)端口等。另外，连接端口114可以是RS-232C端口、光学音频端子、高清多媒体接口(HDMI，注册商标)端口等。通过将连接端口114连接到外部设备，可以在信息处理装置100-1与设备之间交换数据。

(通信接口)

通信接口116作为信息处理装置100-1与外部装置之间的通信的中介，并且实现下面将描述的通信单元120的操作(在声音处理装置300-1、通信单元320的情况下)。通信接口116可以执行符合任意无线通信方案的无线通信，例如诸如Bluetooth(注册商标)、近场通信(NFC)、无线USB或TransferJet(注册商标)之类的短距离无线通信方案，诸如宽带码分多址(WCDMA，注册商标)、WiMAX(注册商标)、长期演进(LTE)或LTE-A或诸如Wi-Fi(注册商标)的无线局域网(LAN)等的蜂窝通信方案。另外，通信接口116可以执行用于使用线进行通信的有线通信。

(显示/声音收集装置的物理配置)

另外，显示/声音收集装置200-1包括如图3所示的处理器202、存储器204、桥接器206、总线208、传感器模块210、输入接口212、输出接口214、连接端口216和通信接口218。

(处理器)

处理器202用作算术处理装置，并且是与各种程序协作实现下面将描述的显示/声音收集装置200-1中包括的控制单元222的操作的控制模块。处理器202通过使用控制电路执行存储在存储器204或另一存储介质中的程序来使显示/声音收集装置200-1操作将在下面描述的各种逻辑功能。处理器202可以是例如CPU、GPU、DSP或SoC。

(存储器)

存储器204存储要由处理器202使用的程序、算术参数等。存储器204例如包括RAM，并且临时存储要在处理器202的执行中使用的程序、在执行中适当地改变的参数等。另外，存储器204包括ROM，从而利用RAM和ROM实现显示/声音收集装置200-1的存储单元。注意，外部存储装置可以经由连接端口、通信装置等用作存储器204的一部分。

注意，处理器202和存储器204通过由CPU总线等构成的内部总线彼此连接。

(桥接器和总线)

桥接器206连接总线。具体地，桥接器206将连接处理器202和存储器204的内部总线与连接传感器模块210、输入接口212、输出接口214、连接端口216和通信接口218的总线208连接。

(传感器模块)

传感器模块210对显示/声音收集装置200-1及其周围进行测量。具体地，传感器模块210包括声音收集传感器和惯性传感器，并且根据从这些传感器获得的信号生成传感器信息。因此，实现了将在下面描述的声音收集单元224和面部方向检测单元226的操作。声音采集传感器例如是从其获得可以检测声源的声音信息的麦克风阵列。注意，可以单独包括除麦克风阵列以外的普通麦克风。在下文中，麦克风阵列和普通麦克风也将统称为麦克风。另外，惯性传感器是加速度传感器或角速度传感器。除了这些传感器之外，可以包括诸如地磁传感器、深度传感器、温度传感器、气压传感器和生物传感器的其他传感器。

(输入接口)

输入接口212由用户用以操作显示/声音收集装置200-1或将信息输入到显示/声音收集装置200-1。例如，输入接口212由例如以下构成：用于用户输入信息的输入部例如用于启动显示/声音收集装置200-1的按钮，基于用户的输入生成输入信号并且将该信号输出到处理器202的输入控制电路等。注意，输入部可以是触摸面板、开关、杆等。通过操作输入接口212，显示/声音收集装置200-1的用户可以向显示/声音收集装置200-1输入各种类型的数据或给出处理操作的指令。

(输出接口)

输出接口214用于向用户通知信息。输出接口214例如通过执行至诸如液晶显示(LCD)装置、OLED装置或投影仪的装置的输出来实现将在下面进行描述的显示单元228的操作。另外，输出接口214通过执行到诸如扬声器或头戴式耳机的装置的输出来实现将在下面描述的声音输出单元230的操作。

(连接端口)

连接端口216是用于将设备直接连接到显示/声音收集装置200-1的端口。连接端口216可以是例如USB端口、IEEE 1394端口、SCSI端口等。另外，连接端口216可以是RS-232C端口、光学音频端子、HDMI(注册商标)端口等。通过将连接端口216连接到外部设备，可以在显示/声音收集装置200-1与设备之间交换数据。

(通信接口)

通信接口218作为显示/声音收集装置200-1与外部装置之间的通信的中介，并且实现将在下面描述的通信单元220的操作。通信接口218可以执行符合任意无线通信方案的无线通信，例如诸如Bluetooth(注册商标)、NFC、无线USB或TransferJet(注册商标)的短距离无线通信方案，诸如WCDMA(注册商标)、WiMAX(注册商标)、LTE或LTE-A或诸如Wi-Fi(注册商标)的无线LAN的蜂窝通信方案。另外，通信接口218可以执行用于使用线进行通信的有线通信。

注意，信息处理装置100-1、声音处理装置300-1和显示/声音收集装置200-1可以不具有图2和图3中描述的一些配置或者可以有另外的配置。此外，还可以提供其中将图2中所描述的全部或一些配置集成的单芯片信息处理模块。

接下来，将参照图4描述根据本实施方式的信息处理系统的每个装置的逻辑配置。图4是示出根据本实施方式的信息处理系统的每个装置的示意性功能配置示例的框图。

(信息处理装置的逻辑配置)

如图4所示，信息处理装置100-1包括通信单元120、VR处理单元122、语音输入适合性确定单元124和输出控制单元126。

(通信单元)

通信单元120与显示/声音收集装置200-1和声音处理装置300-1进行通信。具体地，通信单元120从显示/声音收集装置200-1接收收集的声音信息和面部方向信息，并将图像信息和输出声音信息发送到显示/声音收集装置200-1。另外，通信单元120将收集的声音信息发送到声音处理装置300-1，并且从声音处理装置300-1接收声音处理结果。通信单元120使用无线通信方案例如Bluetooth(注册商标)或Wi-Fi(注册商标)与显示/声音收集装置200-1通信。另外，通信单元120使用有线通信方案与声音处理装置300-1进行通信。注意，通信单元120可以使用有线通信方案与显示/声音收集装置200-1进行通信，并且可以使用无线通信方案与声音处理装置300-1进行通信。

(VR处理单元)

VR处理单元122根据用户的模式执行关于虚拟空间的处理。具体地，VR处理单元122根据用户的动作或姿态来决定要显示的虚拟空间。例如，VR处理单元122基于指示用户的面部的朝向的信息(面部方向信息)来决定要显示的虚拟空间的坐标。另外，可以基于用户的讲话来决定要显示的虚拟空间。

注意，VR处理单元122可以控制使用游戏应用等的声音收集结果的处理。具体地，在执行使用声音收集结果的处理期间存在用于引导用户的动作的输出的情况下，VR处理单元122用作控制单元的一部分并且停止至少一部分处理。更具体地，VR处理单元122停止使用声音收集结果的所有处理。例如，在执行用于引导用户的动作的输出时，VR处理单元122阻止游戏应用的处理继续进行。注意，输出控制单元126可以使显示/声音收集装置200-1显示在紧接在执行输出之前正显示的图像。

此外，VR处理单元122可以仅停止在使用声音收集结果的处理中的使用用户的面部的朝向的处理。例如，在执行用于引导用户的动作的输出时，VR处理单元122停止在游戏应用的处理中的根据用户的面部的朝向控制显示图像的处理，并且允许其他处理继续。注意，游戏应用可以自行确定处理的停止，而非由VR处理单元122确定。

(语音输入适合性确定单元)

语音输入适合性确定单元124用作控制单元的一部分，并且基于噪声生成源(其也被称为噪声源)与收集由用户生成的声音的显示/声音收集装置200-1之间的位置关系来确定语音输入的适合性。具体地，语音输入适合性确定单元124基于该位置关系和面部方向信息来确定语音输入的适合性。此外，将参照图5A、图5B和图6详细描述根据本实施方式的语音输入适合性确定处理。图5A和图5B是用于描述根据本实施方式的语音输入适合性确定处理的图，图6是示出根据本实施方式的用于确定语音输入的适合性的模式的示例的图。

如图5A所示，可以想到例如在显示/声音收集装置200-1的周围存在噪声源10的情况。在这种情况下，首先，将从显示/声音收集装置200-1获得的收集到的声音信息提供给声音处理装置300-1，并且语音输入适合性确定单元124从声音处理装置300-1获取指示通过声音处理装置300-1的处理获得的声源方向的信息(以下也称为声源方向信息)。例如，语音输入适合性确定单元124经由通信单元120从声音处理装置300-1获取指示如图5B所示从佩戴显示/声音收集装置200-1的用户到噪声源10的声源方向D1的声源方向信息(以下也称为FaceToNoiseVec)。

另外，语音输入适合性确定单元124从显示/声音收集装置200-1获取面部方向信息。例如，语音输入适合性确定单元124通过通信从显示/声音收集装置200-1获取指示如图5B所示佩戴着显示/声音收集装置200-1的用户的面部的朝向D3的面部方向信息。

接下来，语音输入适合性确定单元124基于关于噪声源与显示/声音收集装置200-1之间的方向与用户的面部的朝向之间的差异的信息来确定语音输入的适合性。具体地，语音输入适合性确定单元124使用关于所获取的噪声源的声源方向信息和面部方向信息来计算由声源方向信息指示的方向与由面部方向信息指示的方向所形成的角度。然后，语音输入适合性确定单元124根据计算出的角度确定方向确定值作为语音输入的适合性。例如，语音输入适合性确定单元124计算作为具有与获取的FaceToNoiseVec的方向相反的方向的声源方向信息的NoiseToFaceVec，然后计算由NoiseToFaceVec指示的方向即从噪声源到用户的方向与由面部方向信息指示的方向形成的角度α。然后，语音输入适合性确定单元124根据图6所示的以所计算的角度α作为输入的余弦函数的输出值来确定值作为方向确定值。方向确定值被设置为例如随着角度α变小而语音输入的适合性提高的值。

注意，除了角度之外，差异可以是方向或基本方向的组合，并且在这种情况下，可以根据组合来设置方向确定值。另外，尽管上面已经描述了使用NoiseToFaceVec的示例，但是可以不加改变地使用与NoiseToFaceVec方向相反的FaceToNoiseVec。另外，尽管已经描述了当从上方观看用户时声源方向信息、面部方向信息等的方向是在水平面上的方向的示例，但是方向可以是相对于水平面在竖直平面上的方向或三维空间中的方向。此外，方向确定值可以是图6所示的五个等级的值，或者可以是更精细的等级的值或更粗糙的等级的值。

另外，在存在多个噪声源的情况下，可以基于多个声源方向信息来执行语音输入适合性确定。具体地，语音输入适合性确定单元124根据由基于多个声源方向信息获得的单个方向与由面部方向信息指示的方向形成的角度来确定方向确定值。此外，将参照图7A和图7B描述在存在多个噪声源的情况下的语音输入适合性确定处理。图7A是示出存在多个噪声源的情况的示例的图，图7B是用于描述根据关于多个噪声源的声源方向信息来决定指示一个方向的声源方向信息的处理的图。

考虑例如如图7A所示存在两个噪声源的情况。在这种情况下，首先，语音输入适合性确定单元124从声音处理装置300-1获取多个声源方向信息。例如，语音输入适合性确定单元124从声音处理装置300-1获取指示如图7A所示从噪声源10A和10B到佩戴着显示/声音收集装置200-1的用户的方向D4和D5中的每一个的声源方向信息。

接下来，语音输入适合性确定单元124使用所获取的多个声源方向信息基于噪声源的声压来计算单个声源方向信息。例如，如下所述，语音输入适合性确定单元124从声音处理装置300-1获取声压信息和声源方向信息。接下来，语音输入适合性确定单元124基于获取的声压信息来计算噪声源之间的声压比，例如，噪声源10A的声压与噪声源10B的声压的比。然后，语音输入适合性确定单元124基于所计算的声压比、使用方向D5作为单位矢量V2来计算方向D4的矢量V1，将矢量V1与矢量V2相加，从而获取矢量V3。

然后，语音输入适合性确定单元124使用计算出的单个声源方向信息来确定上述方向确定值。例如，基于由面部方向信息与指示计算出的矢量V3的方向的声源方向信息所形成的角度来确定方向确定值。注意，尽管已经描述了执行矢量计算的示例，但是可以使用另一处理来确定方向确定值。

上面已经描述了基于噪声源的方向确定语音输入的适合性的功能。此外，语音输入适合性确定单元124基于噪声源的声压来确定语音输入的适合性。具体地，语音输入适合性确定单元124根据收集到的噪声的声压水平是否高于或等于确定阈值来确定语音输入的适合性。此外，将参照图8详细描述基于噪声的声压的语音输入适合性确定处理。图8是示出了用于基于噪声的声压确定语音输入适合性的模式的示例的图。

首先，语音输入适合性确定单元124获取关于噪声源的声压信息。例如，语音输入适合性确定单元124经由通信单元120从声音处理装置300-1获取声压信息和声源方向信息。

接下来，语音输入适合性确定单元124基于所获取的声压信息来确定声压确定值。例如，语音输入适合性确定单元124确定与由所获取的声压信息指示的声压水平对应的声压确定值。在图8的示例中，在声压水平大于或等于0dB且小于60dB的情况下，即在人们感知相对安静的声音的情况下，声压确定值是1，并且在声压水平大于或等于60dB且小于120dB的情况下，即在人们感知相对大的声音的情况下，声压确定值为0。注意，声压确定值不限于图8的示例，并且可以是更精细的水平的值。

(输出控制单元)

输出控制单元126用作控制单元的一部分，并且控制用于引导用户的动作的输出，以基于语音输入适合性确定结果来改变声音收集特性。具体地，输出控制单元126控制用于引导用户的面部的朝向改变的视觉呈现。更具体地，输出控制单元126根据从语音输入适合性确定单元124的确定获得的方向确定值来决定指示用户应该改变的他或她的面部的朝向和改变程度的显示对象(在下面称为面部方向引导对象)。例如，在方向确定值低的情况下，输出控制单元126决定引导用户的面部的朝向改变的面部方向引导对象，使得方向确定值增加。注意，用户的动作是与显示/声音收集装置200-1的处理操作不同的操作。例如，在用户的动作中不包括涉及下述处理的操作：改变诸如对显示/声音收集装置200-1的输入操作之类的输入声音的声音收集特性以控制改变显示/声音收集装置200-1的输入音量的处理。

另外，输出控制单元126参考由引导的动作导致的用户的模式来控制与用户的模式的评价有关的输出。具体地，输出控制单元126基于由用户执行的引导的动作导致的用户的模式与用户的当前模式之间的分歧程度来决定指示用户的模式的评价的显示对象(以下也将称为评价对象)。例如，输出控制单元126决定指示随着分歧进一步减小而语音输入的适合性正在提高的显示对象。

此外，输出控制单元126可以控制与收集到的噪声有关的输出。具体地，输出控制单元126控制输出以通知收集到的噪声的可到达区域。更具体地，输出控制单元126决定用于向用户通知从噪声源发出并到达用户的噪声中声压水平高于或等于预定阈值的噪声区域(下面也将称为噪声可到达区域)的显示对象(下面也将称为噪声可到达区域对象)。噪声可到达区域例如是如图5B所示的W1。另外，输出控制单元126控制用于通知收集到的噪声的声压的输出。更具体地，输出控制单元126根据噪声可到达区域中的声压决定噪声可到达区域对象的模式。例如，根据声压的噪声可到达区域对象的模式是噪声可到达区域对象的厚度。注意，输出控制单元126可以根据声压来控制噪声可到达区域对象的色调、饱和度、亮度、图案的粒度等。

另外，输出控制单元126可以控制语音输入的适合性的呈现。具体地，输出控制单元126基于用户的面部的朝向或噪声的声压水平来控制用于收集由用户生成的声音(语音)的适合性的通知。更具体地，输出控制单元126基于方向确定值或声压确定值来决定指示语音输入的适合性的显示对象(以下也将称为语音输入适合性对象)。例如，在声压确定值为0的情况下，输出控制单元126决定指示语音输入不合适或者语音输入困难的语音输入适合性对象。另外，在即使声压确定值为1方向确定值仍等于或小于阈值的情况下，可以显示指示语音输入困难的语音输入适合性对象。

上面已经描述了控制用于引导用户的动作的输出的细节的功能。此外，输出控制单元126基于关于声音收集结果的信息来控制是否执行用于引导用户的动作的输出。具体地，输出控制单元126基于使用声音收集结果的处理的开始信息来控制是否执行用于引导用户的动作的输出。作为使用声音收集结果的处理，以例如计算机游戏、语音搜索、语音命令、语音到文本输入、语音代理、语音聊天、电话呼叫、通过讲话翻译等的处理为例。当接收到开始处理的通知时，输出控制单元126开始与用于引导用户的动作的输出相关的处理。

另外，输出控制单元126可以基于收集到的噪声的声压信息来控制是否执行用于引导用户的动作的输出。例如，在噪声的声压水平小于下限阈值的情况下，即在噪声对语音输入影响很小的情况下，输出控制单元126不执行用于引导用户的动作的输出。注意，输出控制单元126可以基于方向确定值来控制是否执行用于引导用户的动作的输出。例如，在方向确定值高于或等于阈值的情况下，即在噪声的影响处于可容许范围内的情况下，输出控制单元126可以不执行用于引导用户的动作的输出。

注意，输出控制单元126可以基于用户操作来控制是否执行用于引导的输出。例如，输出控制单元126基于用户输入的语音输入设置操作来开始与用于引导用户的动作的输出有关的处理。

(显示/声音收集装置的逻辑配置)

显示/声音收集装置200-1包括如图4所示的通信单元220、控制单元222、声音收集单元224、面部方向检测单元226、显示单元228和声音输出单元230。

(通信单元)

通信单元220与信息处理装置100-1进行通信。具体地，通信单元220将收集到的声音信息和面部方向信息发送到信息处理装置100-1，并从信息处理装置100-1接收图像信息和输出声音信息。

(控制单元)

控制单元222整体上控制显示/声音收集装置200-1。具体地，控制单元222通过设置声音收集单元224、面部方向检测单元226、显示单元228和声音输出单元230的操作参数等来控制其功能。另外，控制单元222使显示单元228基于经由通信单元220获取的图像信息来显示图像，并且使声音输出单元230基于所获取的输出声音信息来输出声音。注意，控制单元222可以基于从声音收集单元224和面部方向检测单元226获得的信息而不是声音收集单元224和面部方向检测单元226来生成收集的声音信息和面部方向信息。

(声音收集单元)

声音收集单元224收集显示/声音收集装置200-1周围的声音。具体地，声音收集单元224收集在显示/声音收集装置200-1的周围生成的噪声和佩戴着显示/声音收集装置200-1的用户的语音。另外，声音收集单元224生成收集到的声音的收集声音信息。

(面部方向检测单元)

面部方向检测单元226检测佩戴着显示/声音收集装置200-1的用户的面部的朝向。具体地，面部方向检测单元226检测显示/声音收集装置200-1的姿态，从而检测佩戴着显示/声音收集装置200-1的用户的面部的朝向。另外，面部方向检测单元226生成指示检测到的用户的面部的朝向的面部方向信息。

(显示单元)

显示单元228基于图像信息来显示图像。具体地，显示单元228基于由控制单元222提供的图像信息来显示图像。注意，显示单元228显示上述每个显示对象被叠加在上面的图像，或者通过显示图像将上述每个显示对象叠加在外部图像上。

(声音输出单元)

声音输出单元230基于输出声音信息来输出声音。具体地，声音输出单元230基于由控制单元222提供的输出声音信息来输出声音。

(声音处理装置的逻辑配置)

声音处理装置300-1包括如图4所示的通信单元320、声源方向估计单元322、声压估计单元324和语音识别处理单元326。

(通信单元)

通信单元320与信息处理装置100-1进行通信。具体地，通信单元320从信息处理装置100-1接收收集到的声音信息，并且将声源方向信息和声压信息发送到信息处理装置100-1。

(声源方向估计单元)

声源方向估计单元322基于所收集的声音信息生成声源方向信息。具体地，声源方向估计单元322基于收集的声音信息来估计从声音收集位置到声源的方向，并生成指示所估计的方向的声源方向信息。注意，虽然假定基于从麦克风阵列获得的收集的声音信息的现有声源估计技术被用于估计声源方向，但是技术不限于此，并且可以使用各种技术中的任何技术，只要使用该技术可以估计声源方向即可。

(声压估计单元)

声压估计单元324基于所收集的声音信息生成声压信息。具体地，声压估计单元324基于收集的声音信息来估计声音收集位置处的声压水平，并生成指示估计的声压水平的声压信息。注意，使用现有的声压估计技术用来估计声压水平。

(语音识别处理单元)

语音识别处理单元326基于所收集的声音信息来执行语音识别处理。具体地，语音识别处理单元326基于收集的声音信息来识别语音，然后生成识别的语音的文本信息或识别作为识别的语音的讲话源的用户。注意，现有的语音识别技术用于语音识别过程。另外，生成的文本信息或用户标识信息可以经由通信单元320被提供给信息处理装置100-1。

<1-3.装置的处理>

接下来，将描述信息处理系统的组成元件中的执行主处理的信息处理装置100-1的处理。

(整体处理)

首先，将参照图9描述根据本实施方式的信息处理装置100-1的整体处理。图9是示出根据本实施方式的信息处理装置100-1的整体处理的构思的流程图。

信息处理装置100-1确定周围声音检测模式是否开启(步骤S502)。具体地，输出控制单元126确定用于检测显示/声音收集装置200-1周围的声音的模式是否开启。注意，周围声音检测模式可以在信息处理装置100-1在启动时始终开启或者基于用户操作或特定处理的开始而开启。另外，可以基于关键词的讲话将周围声音检测模式设置为开启。例如，在显示/声音收集装置200-1中可以包括用于仅检测关键字的检测器，并且显示/声音收集装置200-1可以通知信息处理装置100-1关键字已被检测到这一事实。在这种情况下，由于在大多数情况下检测器的功耗小于声音收集单元的功耗，所以可以降低功耗。

当周围声音检测模式被确定为开启时，信息处理装置100-1获取关于周围声音的信息(步骤S504)。具体地，在周围声音检测模式开启的情况下，通信单元120通过通信从显示/声音收集装置200-1获取收集到的声音信息。

接下来，信息处理装置100-1确定语音输入模式是否开启(步骤S506)。具体地，输出控制单元126确定使用显示/声音收集装置200-1的语音输入模式是否开启。注意，语音输入模式可以在信息处理装置100-1启动时始终开启，或者基于用户操作或特定处理的开始如周围声音检测模式而开启。

当确定语音输入模式开启时，信息处理装置100-1获取面部方向信息(步骤S508)。具体地，在语音输入模式开启的情况下，语音输入适合性确定单元124经由通信单元120从显示/声音收集装置200-1获取面部方向信息。

接下来，信息处理装置100-1计算方向确定值(步骤S510)。具体地，语音输入适合性确定单元124基于面部方向信息和声源方向信息来计算方向确定值。在下面描述其细节。

接下来，信息处理装置100-1计算声压确定值(步骤S512)。具体地，语音输入适合性确定单元124基于声压信息来计算声压确定值。在下面描述其细节。

接下来，信息处理装置100-1停止游戏处理(步骤S514)。具体地，VR处理单元122根据是否使用输出控制单元126执行用于引导用户的动作的输出来停止游戏应用的至少一部分处理。

接下来，信息处理装置100-1生成图像信息并将该图像信息通知给显示/声音收集装置200-1(步骤S516)。具体地，输出控制单元126根据方向确定值和声压确定值来决定用于引导用户的动作的图像，并且经由通信单元120通知显示/声音收集装置200-1关于所决定的图像的图像信息。

(方向确定值计算处理)

接下来，将参照图10描述方向确定值计算处理。图10是示出根据本实施方式的信息处理装置100-1进行的方向确定值计算处理的构思的流程图。

信息处理装置100-1确定声压水平是否高于或等于确定阈值(步骤S602)。具体地，语音输入适合性确定单元124确定从声音处理装置300-1获取的声压信息指示的声压水平是否高于或等于确定阈值。

如果声压水平高于或等于阈值，则信息处理装置100-1计算关于从周围声源到用户面部的方向的声源方向信息(步骤S604)。具体地，语音输入适合性确定单元124使用从声音处理装置300-1获取的FaceToNoiseVec来计算NoiseToFaceVec。

接下来，信息处理装置100-1确定是否存在多个声源方向信息(步骤S606)。具体地，语音输入适合性确定单元124确定是否存在多个计算出的NoiseToFaceVec。

如果确定存在多个声源方向信息，则信息处理装置100-1对多个声源方向信息求和(步骤S608)。具体地，如果确定存在多个计算出的NoiseToFaceVec，则语音输入适合性确定单元124对多个NoiseToFaceVec求和。在下面描述其细节。

接下来，信息处理装置100-1使用由声源方向信息指示的方向和面部的朝向来计算角度α(步骤S610)。具体地，语音输入适合性确定单元124计算由NoiseToFaceVec指示的方向与由面部方向信息指示的面部的朝向形成的角度α。

接下来，信息处理装置100-1确定以角度α作为输入的余弦函数的输出结果(步骤S612)。具体地，语音输入适合性确定单元124根据cos(α)的值来确定方向确定值。

在余弦函数的输出结果是1的情况下，信息处理装置100-1将方向确定值设置为5(步骤S614)。在余弦函数的输出结果不是1但是大于0的情况下，信息处理装置100-1将方向确定值设置为4(步骤S616)。在余弦函数的输出结果为0的情况下，信息处理装置100-1将方向确定值设置为3(步骤S618)。在余弦函数的输出结果小于0并且不是-1的情况下，信息处理装置100-1将方向确定值设置为2(步骤S620)。在余弦函数的输出结果是-1的情况下，信息处理装置100-1将方向确定值设置为1(步骤S622)。

注意，在步骤S602中声压水平小于下限阈值的情况下，信息处理装置100-1将方向确定值设置为不适用(N/A)(步骤S624)。

(多个声源方向信息的相加处理)

接下来，将参照图11描述方向确定值计算处理中的多个声源方向信息的求和处理。图11是示出根据本实施方式的信息处理装置100-1对多个声源方向信息进行的求和处理的构思的流程图。

信息处理装置100-1选择一个声源方向信息(步骤S702)。具体地，语音输入适合性确定单元124在多个声源方向信息中即在NoiseToFaceVec中选择一个。

接下来，信息处理装置100-1确定是否存在未计算的声源方向信息(步骤S704)。具体地，语音输入适合性确定单元124确定是否存在未经历矢量相加处理的NoiseToFaceVec。注意，在不存在尚未处理矢量相加的NoiseToFaceVec的情况下，处理结束。

如果确定存在未计算的声源方向信息，则信息处理装置100-1从未计算的声源方向信息中选择一个(步骤S706)。具体地，如果确定存在尚未执行矢量相加处理的NoiseToFaceVec，则语音输入适合性确定单元124选择与已经选择的声源方向信息不同的一个NoiseToFaceVec。

接下来，信息处理装置100-1计算两个所选择的声源方向信息的声压比(步骤S708)。具体地，语音输入适合性确定单元124计算两个所选择的NoiseToFaceVec的声压水平的比。

接下来，信息处理装置100-1使用声压比来对声源方向信息的矢量进行相加(步骤S710)。具体地，语音输入适合性确定单元124基于所计算的声压水平的比率来改变与一个NoiseToFaceVec有关的矢量的大小，然后将两个NoiseToFaceVec的矢量相加在一起。

(声压确定值的计算处理)

接下来，将参照图12描述声压确定值的计算处理。图12是示出根据本实施方式的信息处理装置100-1对声压确定值的计算处理的构思的流程图。

信息处理装置100-1确定声压水平是否小于确定阈值(步骤S802)。具体地，语音输入适合性确定单元124确定从声音处理装置300-1获取的声压信息所指示的声压水平是否小于确定阈值。

如果确定声压水平小于确定阈值，则信息处理装置100-1将声压确定值设置为1(步骤S804)。另一方面，如果声压水平被确定为高于或等于确定阈值，则信息处理装置100-1将声压确定值设置为0(步骤S806)。

<1-4.处理示例>

接下来，将在下面描述信息处理系统的处理示例。

(可以进行语音输入的情况)

首先，将参照图13至图17描述在可以进行语音输入的情况下信息处理系统的处理示例。图13至图17是用于描述在可以进行语音输入的情况下信息处理系统的处理示例的图。

首先参照图13描述用户直接面向噪声源10的状态即图6的C1状态。首先，信息处理装置100-1基于VR处理生成游戏画面。接下来，在噪声的声压水平高于或等于下限阈值的情况下，信息处理装置100-1在游戏画面上叠加用于引导用户的动作的输出，即上述显示对象。例如，输出控制单元126在游戏画面上叠加类似人的头部的显示对象20、作为指示头部的转动方向的箭头的面部方向引导对象22、其显示根据用户模式的评价而改变的评价对象24以及指示可以到达用户(即，显示/声音收集装置200-1)的噪声区域的噪声可到达区域对象26。声压水平高于或等于预定阈值的区域的大小由噪声可到达区域对象26的宽度W2表示，并且声压水平由厚度P2表示。注意，图13的噪声源10并未实际显示。另外，输出控制单元126在游戏画面上叠加其显示根据语音输入的适合性而改变的语音输入适合性对象28。

由于引导用户的头部的转动，使得他或她的面部在图6的C1状态下直接面向后方，面部方向引导对象22的箭头被形成为比其他状态下长。另外，评价对象24A被表示为麦克风，并且在图6的状态中受噪声影响最大，因此麦克风被表示为比其他状态下小。相应地，向用户呈现对用户的面部的朝向的评价低这一事实。相应地，在图13的示例中，由于噪声的声压水平小于确定阈值，即声压确定值是1，并且用户直接面向噪声源，即方向确定值是1，所以指示语音输入不合适的语音输入适合性对象28A叠加在其上。此外，输出控制单元126可以根据噪声的声压水平将指示噪声对语音输入的适合性的影响的显示对象叠加在其上。例如，如图13所示，从噪声可到达区域对象26生成的、朝向语音输入适合性对象28A延伸并且在中途将其方向移出屏幕的虚线叠加在游戏画面上。

接下来，将参照图14描述用户顺时针稍微转动他或她的头部的状态，即图6的C2状态。由于用户在C2状态下从C1状态稍微顺时针转动他或她的头部，所以面部方向引导对象22的箭头形成为比在状态C1下短。另外，由于评价对象24A比C1状态下受噪声的影响小，所以麦克风被表示为比C1状态下大。此外，评价对象24A可以更靠近显示对象20。因此，向用户呈现用户的面部的朝向的评价得到提高这一事实。然后，向用户通知用户的动作已经如预期那样被引导这一事实，并且可以接收对他或她的动作的满意感。另外，因为用户已经转动了他或她的头部，所以噪声源相对于面部的朝向的位置改变，并且在这种情况下，噪声可到达区域对象26沿与头部的转动方向相反的方向移动。另外，在图14的示例中，由于声压确定值为1并且方向确定值为2，所以叠加了指示语音输入不合适的语音输入适合性对象28A。

接下来，将参照图15来描述用户进一步顺时针转动他或她的头部的状态，即图6的C3状态。由于用户在C3状态下从C2状态进一步顺时针转动他或她的头部，所以面部方向引导对象22的箭头被形成为比在C2状态下短。另外，由于噪声的影响比C2状态下小，因此麦克风被表示为比C2状态下大，并且叠加了进一步增加了强调效果的评价对象24B。强调效果可以是例如改变的色调、饱和度或亮度、改变的图案、闪烁等。另外，由于用户从C2状态进一步转动他或她的头部，所以噪声可到达区域对象26进一步沿与头部的转动方向相反的方向移动。此外，由于在图15的示例中声压确定值为1并且方向确定值为3，因此叠加了指示语音输入合适的语音输入适合性对象28B。

接下来，将参照图16来描述用户进一步顺时针转动他或她的头部的状态，即图6的C4状态。由于用户在C4状态下从C3状态进一步顺时针转动他或她的头部，所以面部方向引导对象22的箭头被形成为比在C3状态下短。另外，由于噪声的影响比C3状态下小，所以将麦克风表示为比C3状态下大，并且叠加了添加了强调效果的评价对象24B。此外，由于用户从C3状态进一步转动他或她的头部，所以噪声可到达区域对象26进一步沿与头部的转动方向相反的方向移动。结果，如图16所示，噪声可到达区域对象26可以不叠加在游戏画面上。注意，即使在这样的情况下，可以根据噪声的声压水平来叠加指示噪声对语音输入的适合性的影响的显示对象(虚线显示对象)。另外，由于在图16的示例中声压确定值是1并且方向确定值是4，所以叠加了指示语音输入合适的语音输入适合性对象28B。

最后，将参照图17来描述用户的面部面向与噪声源面向的方向相反的方向的状态，即图6的C5状态。由于用户不需要在C5的状态下进一步转动他或她的头部，所以未叠加箭头的面部方向引导对象22。另外，由于用户的面部的朝向已经随着被引导而改变，所以字符串对象“朝向合适”被叠加作为指示面部的朝向适合于语音输入的显示对象。此外，显示对象20的周围的模式可以改变。例如，可以改变显示对象20的周围的色调、亮度等。另外，叠加了添加了强调效果的评价对象24B。注意，由于噪声的影响比C4状态下小，所以可以将麦克风表示为比C4状态下大。此外，由于用户的头部比C4状态进一步转动，所以噪声可到达区域对象26进一步向与头部的转动方向相反的方向移动。结果，如图17所示，噪声可到达区域对象未叠加在游戏画面上。另外，由于在图17的示例中声压确定值是1并且方向确定值是5，所以叠加了指示语音输入合适的语音输入适合性对象28B。此外，由于声压确定值和方向确定值都具有最高值，所以强调效果被添加到语音输入适合性对象28B。强调效果可以是例如显示对象的大小、色调、亮度或图案的改变，或者显示对象的周围中的模式的改变。

(语音输入困难的情况)

接下来，将参照图18至图22描述在语音输入困难的情况下的信息处理系统的处理示例。图18至图22是用于描述在语音输入困难的情况下的信息处理系统的处理示例的图。

首先，将首先参照图18描述用户直接面向噪声源10的状态即图6中的C1状态。在图6中的C1状态下叠加在游戏画面上的显示对象20、面部方向引导对象22、评价对象24A和语音输入适合性对象28A基本上是参照图13描述的相同的显示对象。由于图18的示例中的噪声的声压水平比图13的示例中高，噪声可到达区域对象26的厚度增加。另外，由于噪声的声压水平高于或等于确定阈值，所以指示噪声对语音输入的适合性的影响的虚线显示对象是从噪声可到达区域对象26生成并且被叠加为使得延伸向并且到达语音输入适合性对象28A。

接下来，将参照图19描述用户稍微顺时针转动他或她的头部的状态，即图6中的C2状态。在C2状态下，面部方向引导对象22的箭头形成为比C1状态下短。另外，评价对象24A的麦克风被表示为比C1状态下大。此外，噪声可到达区域对象26在与头部的转动方向相反的方向上移动。另外，由于在图19的示例中声压确定值是0，因此叠加了指示语音输入不适合的语音输入适合性对象28A。

接下来，将参照图20描述用户进一步顺时针转动他或她的头部的状态即图6中的C3状态。在C3状态下，面部方向引导对象22的箭头形成为比C2状态下短。另外，麦克风被表示为比C2状态下大，并且叠加了添加了强调效果的评价对象24B。此外，噪声可到达区域对象26进一步在与头部的转动方向相反的方向上移动。另外，由于在图20的示例中声压确定值是0，因此叠加了指示语音输入不适合的语音输入适合性对象28A。此外，在不太可能改善语音输入的适合性的情况下，可以将强调效果添加至语音输入适合性对象28A。例如，如图20所示，可以增加语音输入适合性对象28A的大小，或可以改变语音输入适合性对象28A的色调、饱和度、亮度、图案等。

接下来，将参照图21描述用户进一步顺时针转动他或她的头部的状态即图6中的C4状态。在C4状态下，面部方向引导对象22的箭头形成为比C3的状态短。另外，麦克风被表示为比C3状态大，并且叠加了添加了强调效果的评价对象24B。此外，噪声可到达区域对象26进一步在与头部的转动方向相反的方向上移动。因此，可以不将噪声可到达区域对象叠加在游戏画面上，如图21所示。注意，即使在这种情况下，可以根据噪声的声压水平来叠加指示噪声对语音输入的适合性的影响的显示对象(虚线显示对象)。另外，由于在图21的示例中的声压确定值是0，因此叠加了具有指示语音输入不适合的强调效果的语音输入适合性对象28A。

最后，将参照图22描述用户的面部面向与噪声源面向的方向相反的方向的状态即图6中的C5状态。在C5状态下，不叠加面部方向引导对象22的箭头。另外，字符串对象“朝向合适”被叠加为指示面部的朝向适合于语音输入的显示对象。此外，可以改变显示对象20的外围的模式。另外，叠加了添加了强调效果的评价对象24B。此外，噪声可到达区域对象26进一步在与头部的转动方向相反的方向上移动。因此，噪声可到达区域对象不被叠加在游戏画面上，如图22所示。另外，由于图22的示例中的声压确定值是0，因此叠加了具有指示语音输入不适合的强调效果的语音输入适合性对象28B。

<1-5.第一实施方式的概述>

根据上述本公开内容的第一实施方式，信息处理装置100-1基于噪声生成源和声音收集单元之间的位置关系来控制用于引导用户的动作的输出以改变所生成的声音的声音收集特性，这不同于与收集由用户生成的声音的声音收集单元的处理有关的操作。因此，通过引导用户的改变噪声源与显示/声音收集装置200-1之间的位置关系的动作使得声音收集特性被改善，用户可以实现几乎不输入噪声并且仅通过遵循引导使语音输入为适合的情况。另外，因为由于用户执行动作而使噪声很难被输入，所以可以不将用于避免噪声的单独配置添加至信息处理装置100-1或信息处理系统。因此，在可用性、成本和便利性方面，可以容易地抑制噪声输入。

另外，由用户生成的声音包括语音，并且信息处理装置100-1基于位置关系和用户的面部的朝向来控制用于引导的输出。在此，为了改善用户的语音的声音收集特性，期望将声音收集单元224即麦克风设置在语音生成方向(包括产生语音的嘴部的面部的朝向)上。实际上，在大多数情况下，将麦克风设置成位于用户的嘴部处。然而，如果在讲话方向上存在噪声源，则容易输入噪声。关于该问题，根据本配置，可以提示用户执行防止噪声源出现在用户的面部的朝向上的动作。因此，可以在改善声音收集特性的同时抑制噪声输入。

此外，信息处理装置100-1基于关于从生成源到声音收集单元的方向或从声音收集单元到生成源的方向与用户的面部的朝向之间的差异的信息来控制用于引导的输出。因此，在输出控制处理中使用从佩戴麦克风的用户到噪声源的方向或从噪声源到用户的方向，并且可以引导用户应该执行的更准确的动作。因此，可以更有效地抑制噪声输入。

另外，差异包括由从生成源到声音收集单元的方向或从声音收集单元到生成源的方向与用户的面部的朝向所形成的角度。因此，通过在输出控制处理中使用角度信息，可以提高输出控制的准确度或精度。此外，通过使用现有的角度计算技术来执行输出控制处理，可以降低装置开发的成本并且可以防止处理的复杂化。

另外，用户的动作包括改变用户的面部的朝向。因此，通过改变包括产生语音的嘴部的面部的朝向，可以比通过其他动作更有效和容易地抑制噪声输入。注意，可以引导身体的朝向或移动，只要其中包括了对面部的朝向的引导即可。

此外，用于引导的输出包括与参照由引导的动作引起的用户的模式而对用户的模式的评价有关的输出。因此，用户可以确定他或她的动作是否已经如引导的那样被执行。因此，基于引导的用户动作很容易被执行，并且因此可以更可靠地抑制噪声输入。

另外，用于引导的输出包括与由声音收集单元收集的噪声有关的输出。因此，通过向用户呈现关于不可见噪声的信息，用户可以确定噪声或噪声源。因此，用户可以直观地理解防止输入噪声的动作。

此外，与噪声有关的输出包括用于通知由声音收集单元收集的噪声的可到达区域的输出。因此，用户可以直观地理解用户应该执行什么动作来防止噪声到达用户。因此，用户可以更容易地执行抑制噪声输入的动作。

另外，与噪声有关的输出包括用于通知由声音收集单元收集的噪声的声压的输出。因此，用户可以确定噪声的声压水平。因此，由于用户理解输入噪声的可能性，因此可以激励用户执行动作。

此外，用于引导的输出包括向用户的视觉呈现。在此，视觉信息传递需要比通常使用其他感觉的信息呈现更大量的信息。因此，用户可以容易地理解动作的引导，并且因此可以顺利地引导动作。

另外，向用户的视觉呈现包括在图像或外部图像上叠加显示对象。因此，通过在用户的视野中呈现用于引导动作的显示对象，可以抑制专注或沉浸于图像中或外部图像中的阻碍。此外，可以将本实施方式的配置应用于使用VR或增强现实(AR)的显示。

另外，信息处理装置100-1基于用户的面部的朝向或噪声的声压来控制用于收集由用户生成的声音的适合性的通知。因此，通过直接向用户发送语音输入的适合性，容易确定语音输入的适合性。因此，可以容易地提示用户执行避免噪声输入的动作。

此外，信息处理装置100-1基于关于声音收集单元的声音收集结果的信息来控制是否执行用于引导的输出。因此，可以根据情况来控制是否执行用于引导的输出而不打扰用户。注意，可以基于用户的设置来控制是否执行用于引导的输出。

另外，关于声音收集结果的信息包括使用声音收集结果的处理的开始信息。因此，可以在上述处理开始之前停止一系列处理例如声音收集处理、声音处理、输出控制处理等。因此，可以降低信息处理系统的装置的处理负荷和功耗。

此外，关于声音收集结果的信息包括由声音收集单元收集的噪声的声压信息。因此，例如，由于在噪声的声压水平小于下限阈值的情况下噪声未被输入或对语音输入的影响很小，因此可以停止上述一系列处理。相反，由于在噪声的声压水平高于或等于下限阈值的情况下自动执行输出控制处理，因此甚至在用户注意到噪声之前可以提示用户执行抑制噪声输入的动作。

另外，在使用声音收集单元的声音收集结果执行处理期间执行用于引导的输出的情况下，信息处理装置100-1停止处理的至少部分。因此，例如，在游戏应用的处理期间执行用于引导的输出的情况下通过打断或中断游戏应用的处理，可以防止用户在引导之后执行动作时游戏应用的处理前进。特别地，如果在根据用户的头部的移动执行处理时处理前进，则由于引导的动作可能生成用户不希望的处理结果。即使在那个时候，也可以根据当前配置防止用户不希望的处理结果的生成。

此外，处理的至少部分包括使用处理中的用户的面部的朝向的处理。因此，通过仅停止受到面部朝向的改变影响的处理，用户可以享受其他处理的结果。因此，在处理结果可以与其他处理无关的情况下，可以提高用户便利性。

<1-6.修改示例>

上面已经描述了本公开内容的第一实施方式。注意，本实施方式不限于上述示例。以下将描述本实施方式的修改示例。

作为本实施方式的修改示例，用户的引导动作可以是另一动作。具体地，用户的引导动作包括使用预定对象从显示/声音收集装置200-1阻挡噪声源的动作(以下也将被称为阻挡动作)。阻挡动作包括例如将手放在噪声源与显示/声音收集装置200-1即麦克风之间的动作。此外，将参照图23描述本修改示例的处理示例。图23是用于描述根据本实施方式的修改示例的信息处理系统的处理示例的图。

将参照图23基于与图6中的C3状态下的阻挡动作有关的处理来详细描述本修改示例的处理。在C3状态下，由于噪声源被呈现在相对于用户面部的朝向的左侧，因此噪声可到达区域对象26被叠加在游戏画面的左侧。

在此，由于麦克风被假设为设置在用户的嘴部附近，因此认为麦克风位于游戏画面的中下部附近。因此，输出控制单元126叠加引导对阻挡物(以下也将被称为阻挡对象)的布置的显示对象，使得阻挡物例如手被放置在麦克风和噪声源或噪声可到达区域对象26之间。例如，将类似于用户的手的阻挡对象30叠加在噪声可到达区域对象26与游戏画面的较低中心之间，如图23所示。特别地，阻挡对象可以是遮盖用户的嘴部(即麦克风)的形状的显示对象。

注意，在用户将他或她的手放置在叠加阻挡对象30的位置处的情况下，可以改变阻挡对象30的模式。例如，可以改变阻挡对象30的轮廓线的类型、厚度、色调或亮度，填充由轮廓线包围的区域等。另外，阻挡物可以是人体的另一部分例如手指或手臂，或除了人体的部分之外的对象例如书、板、伞，或除了手之外的可移动分隔物。注意，由于预定对象由用户操作，因此期望是便携式对象。

如上所述，根据本实施方式的修改示例，用户的引导动作包括使用这样的预定对象从显示/声音收集装置200-1阻挡噪声源的动作。因此，即使在用户不想改变他或她的面部的朝向的情况下，例如，在根据用户的面部的朝向执行游戏应用等的处理的情况下，可以引导用户的抑制噪声的输入的动作。因此，可以增加享受抑制噪声输入的效果的机会，并且可以提高用户便利性。

<2.第二实施方式(用于高度灵敏的声音收集的声音收集单元的控制和用户的引导)>

上面已经描述了本公开内容的第一实施方式。接下来，将描述本公开内容的第二实施方式。在第二实施方式中，控制声音收集单元即显示/声音收集装置200-2的声音收集模式并且引导用户的动作，使得以高灵敏度收集要收集的声音。

<2-1.系统配置>

将参照图24描述根据本公开内容的第二实施方式的信息处理系统的配置。图24是用于描述根据本实施方式的信息处理系统的示意性配置示例的图。注意，将省略与第一实施方式的配置基本相同的配置的描述。

如图24所示，除了信息处理装置100-2、显示/声音收集装置200-2和声音处理装置300-2之外，根据本实施方式的信息处理系统还包括声音收集/成像装置400。

除了根据第一实施方式的显示/声音收集装置200-1的配置之外，显示/声音收集装置200-2还包括发光体50。发光体50可以随着显示/声音收集装置200-2的启动而开始发光，或可以随着特定处理的开始而开始发光。另外，发光体50可以输出可见光或可以输出除了可见光之外的光例如红外光。

声音收集/成像装置400包括声音收集功能和成像功能。例如，声音收集/成像装置400收集装置周围的声音，并且向信息处理装置100-2提供关于所收集的声音的收集声音信息。另外，声音收集/成像装置400拍摄装置周围的环境并且向信息处理装置100-2提供关于所拍摄的图像的图像信息。注意，声音收集/成像装置400是固定装置，如图24所示，声音收集/成像装置400连接至信息处理装置100-2用于通信，并通过通信提供收集声音信息和图像信息。另外，声音收集/成像装置400具有用于声音收集的波束成形功能。波束成形功能实现了高度灵敏的声音收集。

另外，声音收集/成像装置400可以具有控制位置或姿态的功能。具体地，声音收集/成像装置400可以移动自身或改变其自己的姿态(朝向)。例如，声音收集/成像装置400可以具有移动模块例如用于移动或姿态改变的电动机以及由电动机驱动的轮子。此外，声音收集/成像装置400可以在保持其姿态的同时仅移动具有收集声音的功能的部分(例如麦克风)或改变姿态。

在此，存在难以使用显示/声音收集装置200-2的麦克风的情况。在这种情况下，作为与显示/声音收集装置200-2分开的装置的声音收集/成像装置400被替代地用于语音输入等。然而，在显示/声音收集装置200-2是遮蔽型HMD例如VR显示装置的情况下，佩戴显示/声音收集装置200-2的用户难以在视觉上检查外部。因此，用户不能确定声音收集/成像装置400的位置，并且因此可能在错误的方向上讲话。另外，即使在显示/声音收集装置200-2是透视型HMD例如AR显示装置的情况下，用户也难以在以高灵敏度收集声音的方向上观看，并且因此用户同样有可能在错误的方向即与以高灵敏度收集声音的方向不同的方向上讲话。因此，声音收集特性例如声压水平或信噪比(SN比)劣化，并且可能难以基于所收集的声音在处理中获得期望的处理结果。

因此，本公开内容的第二实施方式提出了一种可以更可靠地增强声音收集特性的信息处理系统。下面将详细描述作为根据第二实施方式的信息处理系统的组成元件的装置中的每一个。

注意，虽然上面已经描述了声音收集/成像装置400是独立装置的示例，但是声音收集/成像装置400可以与信息处理装置100-2或声音处理装置300-2集成。另外，虽然已经描述了声音收集/成像装置400具有声音收集功能和成像功能的示例，但是可以通过仅具有声音收集功能的装置和仅具有成像功能的装置的组合来实现声音收集/成像装置400。

<2-2.装置的配置>

接下来，将描述根据本实施方式的信息处理系统的装置中的每一个的配置。注意，由于声音收集/成像装置400的物理配置与显示/声音收集装置200的物理配置类似，因此将省略其描述。另外，由于其他装置的物理配置与第一实施方式的其他装置的物理配置基本相同，所以将省略其描述。

将参照图25描述根据本实施方式的信息处理系统的每个装置的逻辑配置。图25是示出根据本实施方式的信息处理系统的每个装置的示意性功能配置示例的框图。注意，将省略与第一实施方式中的功能基本相同的功能的描述。

(信息处理装置的逻辑配置)

除了通信单元120、VR处理单元122、语音输入适合性确定单元124和输出控制单元126之外，信息处理装置100-2还包括位置信息获取单元130、调节单元132和声音收集模式控制单元134，如图25所示。

(通信单元)

除了显示/声音收集装置200-2和声音处理装置300-2之外，通信单元120还与声音收集/成像装置400通信。具体地，通信单元120从声音收集/成像装置400接收所收集的声音信息和图像信息，并且将下面将描述的声音收集模式指示信息发送到声音收集/成像装置400。

(位置信息获取单元)

位置信息获取单元130获取指示显示/声音收集装置200-2的位置的信息(以下也将被称为位置信息)。具体地，位置信息获取单元130使用经由通信单元120从声音收集/成像装置400获取的图像信息来估计显示/声音收集装置200-2的位置，并且生成指示估计位置的位置信息。例如，位置信息获取单元130基于投射在由图像信息指示的图像上的发光体50的位置和大小来估计发光体50即显示/声音收集装置200-2相对于声音收集/成像装置400的位置。注意，指示发光体50的大小的信息可以被预先存储在声音收集/成像装置400中或经由通信单元120获取。另外，位置信息可以是相对于声音收集/成像装置400的信息或指示预定空间坐标的位置的信息。此外，可以使用其他方法来实现位置信息的获取。例如，可以使用显示/声音收集装置200-2的对象识别处理而不使用发光体50来获取位置信息，或者可以经由通信单元120获取由外部装置计算的位置信息。

(语音输入适合性确定单元)

语音输入适合性确定单元124用作控制单元的部分，并且基于声音收集/成像装置400与要由声音收集/成像装置400收集的声音的生成源之间的位置关系来确定语音输入的适合性。具体地，语音输入适合性确定单元124基于声音收集/成像装置400与语音的生成源(嘴部或面部)之间的位置关系和面部方向信息来确定语音输入的适合性。此外，将参照图26和图27描述根据本实施方式的语音输入适合性确定处理。图26是用于描述根据本实施方式的语音输入适合性确定处理的图，并且图27是示出根据本实施方式的语音输入的适合性的确定模式的示例的图。

将考虑显示/声音收集装置200-2和声音收集/成像装置400被布置成例如如图26所示的情况。在这种情况下，首先，语音输入适合性确定单元124基于位置信息指定显示/声音收集装置200-2(用户的面部)和声音收集/成像装置400连接的方向(以下也将被称为声音收集方向)。例如，语音输入适合性确定单元124基于从位置信息获取单元130提供的位置信息来指定从显示/声音收集装置200-2到声音收集/成像装置400的声音收集方向D6，如图26所示。注意，指示声音收集方向的信息也将被称为声音收集方向信息，并且指示从显示/声音收集装置200-2到声音收集/成像装置400的声音收集方向(如上述D6)的声音收集方向信息以下也将被称为FaceToMicVec。

另外，语音输入适合性确定单元124从显示/声音收集装置200-2获取面部方向信息。例如，语音输入适合性确定单元124经由通信单元120从显示/声音收集装置200-2获取如图26所示的指示佩戴显示/声音收集装置200-2的用户的面部的朝向D7的面部方向信息。

接下来，语音输入适合性确定单元124基于关于声音收集/成像装置400和显示/声音收集装置200-2(即用户的面部)之间的方向与用户的面部的朝向之间的差异的信息来确定语音输入的适合性。具体地，语音输入适合性确定单元124使用关于指定的声音收集方向的声音收集方向信息和面部方向信息来计算声音收集方向信息所指示的方向与面部方向信息所指示的方向所形成的角度。然后，语音输入适合性确定单元124根据所计算的角度将方向确定值确定为语音输入的适合性。例如，语音输入适合性确定单元124计算作为具有与指定的FaceToMicVec的方向相反的方向的声音收集方向信息的MicToFaceVec，并且然后计算MicToFaceVec所指示的方向即从声音收集/成像装置400到用户的面部的方向与面部方向信息所指示的方向形成的角度α。然后，语音输入适合性确定单元124将根据将所计算的角度α作为输入的余弦函数的输出值的值确定为方向确定值，如图27所示。方向确定值被设置成如下值：例如在该值处，随着角度α变大，语音输入的适合性提高。

注意，除了角度之外，差异还可以是方向或基本方向的组合，并且在这种情况下，可以根据组合来设置方向确定值。另外，虽然上面已经描述了使用MicToFaceVec的示例，但是可以在不改变的情况下使用具有相对于MicToFaceVec的相反方向的FaceToMicVec。另外，虽然已经描述了当从上方观看用户时声源方向信息、面部方向信息等的方向是水平面上的方向的示例，但是方向可以是相对于水平面的垂直面上的方向或三维空间中的方向。此外，方向确定值可以是图27中示出的五个等级的值，或可以是更精细等级的值或更粗糙等级的值。

此外，在声音收集/成像装置400执行用于声音收集的波束成形的情况下，语音输入适合性确定单元124可以基于指示波束成形的方向的信息(下面也将被称为波束成形信息)和面部方向信息来确定语音输入的适合性。另外，波束成形的方向具有预定范围，预定范围内的方向之一可以被用作波束成形方向。

(调节单元)

调节单元132用作控制单元的部分，并且基于语音输入适合性确定结果通过控制声音收集模式控制单元134和输出控制单元126的操作来控制声音收集/成像装置400的与声音收集特性有关的模式和用于引导所收集的声音的生成方向的输出。具体地，调节单元132基于关于声音收集结果的信息来控制声音收集/成像装置400的模式的程度和用于引导用户的讲话方向的输出的程度。更具体地，调节单元132使用声音收集结果，基于要处理的内容的类型信息来控制模式的程度和输出的程度。

调节单元132基于方向确定值来决定例如总体控制量。接下来，调节单元132基于关于声音收集结果的信息使用所决定的总体控制量来决定与声音收集/成像装置400的模式的改变有关的控制量和与用户的讲话方向的改变有关的控制量。可以说调节单元132将整体控制量分配给对声音收集/成像装置400的模式的控制以及对与引导用户的讲话方向有关的输出的控制。另外，调节单元132基于所决定的控制量使声音收集模式控制单元134控制声音收集/成像装置400的模式并且使输出控制单元126基于所决定的控制量来控制用于引导讲话方向的输出。注意，输出控制单元126可以使用方向确定值来执行控制。

另外，调节单元132根据内容的类型决定上述控制量的分配。例如，调节单元132关于根据用户的头部的移动而改变的要提供其细节的内容(例如显示屏)来增加用于声音收集/成像装置400的模式的控制量并且减少用于引导用户的讲话方向的输出的控制量。另外，上述同样被应用于用户密切观察的内容，例如图像或动态图像。

注意，关于声音收集结果的上述信息可以是声音收集/成像装置400或用户的周围环境信息。例如，调节单元132根据声音收集/成像装置400或用户的周围遮蔽的存在或不存在、可移动空间的大小等来决定上述控制量的分配。

另外，关于声音收集结果的上述信息可以是用户的模式信息。具体地，调节单元132根据用户的姿态信息决定上述控制量的分配。例如，在用户面向上方的情况下，调节单元132减少用于声音收集/成像装置400的模式的控制量，并且增加用于引导用户的讲话方向的输出的控制量。此外，调节单元132可以根据关于用户在内容中沉浸的信息(指示用户是否沉浸在内容中或在内容中沉浸的程度的信息)来决定上述控制量的分配。例如，在用户沉浸在内容中的情况下，调节单元132增加用于声音收集/成像装置400的模式的控制量，并且减少用于引导用户的讲话方向的输出的控制量。注意，可以基于生物信息例如用户的眼睛移动信息来确定用户是否沉浸在内容中或在内容中沉浸的程度。

虽然上面已经描述了对声音收集/成像装置400的模式和用于引导讲话方向的输出的控制的细节，但是调节单元132可以基于声音收集情况来决定是否进行控制。具体地，调节单元132基于作为声音收集/成像装置400的声音收集特性之一的声音收集灵敏度来决定是否进行控制。例如，在声音收集/成像装置400的声音收集灵敏度减少至等于或低于阈值的情况下，调节单元132开始与控制有关的处理。

另外，调节单元132可以基于关于声音收集结果的上述信息控制声音收集/成像装置400的模式和用于引导讲话方向的输出中的仅一个。例如，在确定用户处于他或她难以移动或改变他或她的面部的朝向的情况下，调节单元132可以仅使声音收集模式控制单元134执行处理。相反，在声音收集/成像装置400既不具有移动功能也不具有声音收集模式控制功能或这些功能被确定为不正常操作的情况下，调节单元132可以仅使输出控制单元126执行处理。

注意，虽然上面已经描述了调节单元132控制控制量的分配的示例，但是调节单元132可以基于语音输入适合性确定结果和关于声音收集结果的信息来彼此独立地控制声音收集/成像装置400的模式和用于引导用户的讲话方向的输出。

(声音收集模式控制单元)

声音收集模式控制单元134控制与声音收集/成像装置400的声音收集特性有关的模式。具体地，声音收集模式控制单元134基于由调节单元132指示的控制量来决定声音收集/成像装置400的模式，并且生成指示向所决定的模式转换的信息(以下也将被称为声音收集模式指示信息)。更具体地，声音收集模式控制单元134控制声音收集/成像装置400的位置、姿态或声音收集的波束成形。例如，声音收集模式控制单元134基于由调节单元132指示的控制量来生成指示声音收集/成像装置400的移动、姿态的改变、或波束成形的朝向或范围的声音收集模式指示信息。

注意，声音收集模式控制单元134可以基于位置信息分别控制波束成形。例如，当获取位置信息时，声音收集模式控制单元134使用从声音收集/成像装置400到由位置信息指示的位置的方向作为波束成形方向来生成声音收集模式指示信息。

(输出控制单元)

输出控制单元126基于调节单元132的指示来控制用于引导用户的讲话方向的视觉呈现。具体地，输出控制单元126根据由调节单元132指示的控制量来决定指示用户的面部的朝向要被改变的方向的面部方向引导对象。例如，在由调节单元132指示的方向确定值较低的情况下，输出控制单元126决定可能引导用户的面部朝向的改变的面部方向引导对象，使得方向确定值增加。

另外，输出控制单元126可以控制用于通知声音收集/成像装置400的位置的输出。具体地，输出控制单元126基于用户的面部和声音收集/成像装置400之间的位置关系来决定指示声音收集/成像装置400的位置的显示对象(以下也将被称为声音收集位置对象)。例如，输出控制单元126决定指示声音收集/成像装置400相对于用户的面部的位置的声音收集位置对象。

此外，输出控制单元126可以参照由引导引起的用户的面部的朝向来控制用于评价用户的面部的当前朝向的输出。具体地，输出控制单元126基于用户应当根据引导改变的面部的朝向和用户的面部的当前朝向之间的偏离程度来决定指示对面部的朝向的评价的评价对象。例如，输出控制单元126决定指示语音输入的适合性随着偏离进一步减少而提高的评价对象。

(声音收集/成像装置的逻辑配置)

声音收集/成像装置400包括通信单元430、控制单元432、声音收集单元434和成像单元436，如图25所示。

(通信单元)

通信单元430与信息处理装置100-2通信。具体地，通信单元430向信息处理装置100-2发送收集的声音信息和图像信息，并且从信息处理装置100-2接收声音收集模式指示信息。

(控制单元)

控制单元432整体控制声音收集/成像装置400。具体地，控制单元432基于声音收集模式指示信息来控制与声音收集特性有关的装置的模式。例如，控制单元432设置麦克风的朝向或由声音收集模式指示信息指定的波束成形的朝向或范围。另外，控制单元432使装置移动由声音收集模式指示信息指定的位置。

另外，控制单元432通过设置成像单元436的成像参数来控制成像单元436。例如，控制单元432设置成像参数例如成像方向、成像范围、成像灵敏度和快门速度。注意，成像参数可以被设置成使得显示/声音收集装置200-2容易成像。例如，可以将用户的头部容易进入成像范围的方向设置成成像方向。另外，可以由信息处理装置100-2通知成像参数。

(声音收集单元)

声音收集单元434收集声音收集/成像装置400周围的声音。具体地，声音收集单元434收集在声音收集/成像装置400周围产生的声音例如用户的语音。另外，声音收集单元434执行与声音收集有关的波束成形处理。例如，声音收集单元434提高从被设置成波束成形方向的方向输入的声音的灵敏度。注意，声音收集单元434生成关于所收集声音的收集声音信息。

(成像单元)

成像单元436对声音收集/成像装置400的外围进行成像。具体地，成像单元436基于由控制单元432设置的成像参数来执行成像。例如通过成像光学系统例如变焦镜头和收集光线的成像镜头、或信号转换元件例如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)来实现成像单元436。另外，可以对可见光、红外线进行成像，并且通过成像获得的图像可以是静止图像或动态图像。

<2-3.装置的处理>

接下来，将描述信息处理系统的组成元件中执行主要处理的信息处理装置100-2的处理。注意，将省略与第一实施方式的处理基本相同的处理的描述。

(总体处理)

首先，将参照图28描述根据本实施方式的信息处理装置100-2的总体处理。图28是示出根据本实施方式的信息处理装置100-2的总体处理的概念的流程图。

信息处理装置100-2确定语音输入模式是否开启(步骤S902)。具体地，调节单元132确定使用声音收集/成像装置400的语音输入模式是否开启。

如果确定语音输入模式开启，则信息处理装置100-2获取位置信息(步骤S904)。具体地，如果确定语音输入模式开启，则位置信息获取单元130获取从声音收集/成像装置400提供的图像信息，并且基于图像信息生成指示显示/声音收集装置200-2的位置即用户的面部的位置的位置信息。

另外，信息处理装置100-2获取面部方向信息(步骤S906)。具体地，语音输入适合性确定单元124获取从显示/声音收集装置200-2提供的面部方向信息。

接下来，信息处理装置100-2计算方向确定值(步骤S908)。具体地，语音输入适合性确定单元124基于位置信息和面部方向信息来计算方向确定值。将在下面描述其细节。

接下来，信息处理装置100-2决定控制量(步骤S910)。具体地，调节单元132基于方向确定值来决定用于声音收集/成像装置400的模式和用于引导讲话方向的输出的控制量。将在下面描述决定的细节。

接下来，信息处理装置100-2基于控制量生成图像(步骤S912)，并且将其图像信息通知给显示/声音收集装置200-2(步骤S914)。具体地，输出控制单元126基于由调节单元132指示的控制量来决定要叠加的显示对象，并且生成要在其上叠加显示对象的图像。然后，通信单元120向显示/声音收集装置200-2发送关于所生成的图像的图像信息。

接下来，信息处理装置100-2基于控制量来决定声音收集/成像装置400的模式(步骤S916)，并且将声音收集模式指示信息通知给声音收集/成像装置400(步骤S918)。具体地，声音收集模式控制单元134生成指示到基于由调节单元132指示的控制量而决定的声音收集/成像装置400的模式的转换的声音收集模式指示信息。然后，通信单元120向声音收集/成像装置400发送所生成的声音收集模式指示信息。

(方向确定值计算处理)

随后，将参照图29描述根据本实施方式的方向确定值计算处理。图29是示出根据本实施方式的信息处理装置100-2的方向确定值计算处理的概念的流程图。

信息处理装置100-2基于位置信息来计算从声音收集/成像装置400到用户的面部的方向(步骤S1002)。具体地，语音输入适合性确定单元124使用由位置信息获取单元130获取的位置信息来计算MicToFaceVec。

接下来，信息处理装置100-2使用所计算的方向和面部的朝向来计算角度α(步骤S1004)。具体地，语音输入适合性确定单元124计算MicToFaceVec所指示的方向和面部方向信息所指示的面部的朝向形成的角度α。

接下来，信息处理装置100-2确定将角度α作为输入的余弦函数的输出结果(步骤S1006)。具体地，语音输入适合性确定单元124根据cos(α)的值来确定方向确定值。

在余弦函数的输出结果是-1的情况下，信息处理装置100-2将方向确定值设置成5(步骤S1008)。在余弦函数的输出结果不是-1但是小于0的情况下，信息处理装置100-2将方向确定值设置成4(步骤S1010)。在余弦函数的输出结果为0的情况下，信息处理装置100-2将方向确定值设置成3(步骤S1012)。在余弦函数的输出结果大于0并且不是1的情况下，信息处理装置100-2将方向确定值设置成2(步骤S1014)。在余弦函数的输出结果是1的情况下，信息处理装置100-2将方向确定值设置成1(步骤S1016)。

(控制量决定处理)

随后，将参照图30描述控制量决定处理。图30是示出根据本实施方式的信息处理装置100-2的控制量决定处理的概念的流程图。

信息处理装置100-2获取关于声音收集结果的信息(步骤S1102)。具体地，调节单元132获取使用声音收集结果处理的内容类型信息、声音收集/成像装置400或用户的影响声音收集结果的周围环境信息、用户模式信息等。

接下来，信息处理装置100-2基于方向确定值和关于声音收集结果的信息来决定用于引导讲话方向的输出的控制量(步骤S1104)。具体地，调节单元132基于从语音输入适合性确定单元124提供的方向确定值和关于声音收集结果的信息来决定要向输出控制单元126指示的控制量(方向确定值)。

另外，信息处理装置100-2基于方向确定值和关于声音收集结果的信息来决定用于声音收集/成像装置400的模式的控制量(步骤S1106)。具体地，调节单元132基于从语音输入适合性确定单元124提供的方向确定值和关于声音收集结果的信息来决定要向声音收集模式控制单元134指示的控制量。

<2-4.处理示例>

接下来，将参照图31至图35描述信息处理系统的处理示例。图31至图35是用于描述根据本实施方式的信息处理系统的处理示例的图。

参照图31，该描述从用户面向与用户面向声音收集/成像装置400的方向相反的方向的状态即图27的C15状态开始。首先，信息处理装置100-2基于VR处理生成游戏画面。接下来，在声音收集灵敏度小于阈值的情况下，信息处理装置100-2决定用于声音收集/成像装置400的模式的控制量和用于引导用户的讲话方向的输出的控制量。然后，信息处理装置100-2将基于用于引导的输出的控制量而决定的上述显示对象叠加在游戏画面上。下面将主要描述用于引导的输出的示例。

例如，输出控制单元126例如将指示人的头部的显示对象20、指示要改变的面部的朝向的面部方向引导对象32、用于指示声音收集/成像装置400的位置的声音收集位置对象34以及用于使位置更容易被识别的显示对象36叠加在游戏画面上。注意，声音收集位置对象34也可以用作上述评价对象。

由于用户的头部的转动被引导使得用户的面部在图27的C15状态下直接面向后方，叠加了提示用户将他或她的头部转动到左侧和右侧之间的任何一侧的面部方向引导对象32L和32R的箭头。另外，显示对象36被叠加为由显示对象20指示的用户的头部周围的圆圈，并且声音收集位置对象34A被叠加在声音收集位置对象看起来正好位于用户后面的位置。此外，声音收集位置对象34A用作评价对象，并且根据对用户的模式的评价用点图案的阴影表示。在图31的示例中，例如，用户的面部的朝向与关于方向确定值的最低值的方向对应，并且因此用暗点图案表示声音收集位置对象34A。此外，输出控制单元126可以将指示声音收集/成像装置400的声音收集灵敏度的显示对象叠加在游戏画面上。例如，如图31所示，在用户的当前模式下已经执行了语音输入的情况下，可以将指示声音收集/成像装置400的声音收集灵敏度的“低灵敏度”显示对象(下面也将被称为声音收集灵敏度对象)叠加在游戏画面上。注意，声音收集灵敏度对象可以是除了字符串之外的图、符号等，如图31所示。

接下来，将参照图32描述用户稍微逆时针转动他或她的头部的状态即图27的C14状态。在C14状态下，用户的头部从C15状态稍微逆时针转动，并且因此面部方向引导对象32L的箭头形成为比C15状态下短。另外，由于声音收集/成像装置400相对于面部的朝向的位置由于用户的头部的转动而改变，因此声音收集位置对象34A根据用户的头部的转动而顺时针移动。注意，在图32的示例中，虽然声音收集位置对象34A的点图案的阴影被保持，但是面部的方向基于面部的引导朝向而改变，并且因此点图案的阴影可以被改变为比图27的C15状态下淡。因此，向用户呈现已经改善了用户的面部朝向的评价的事实。

接下来，将参照图33描述用户进一步逆时针转动他或她的头部的状态即图27中的C13状态。在C13状态下，用户的头部从C14状态进一步顺时针转动，并且因此面部方向引导对象32L的箭头形成为比C14状态下短。另外，由于面部的朝向基于面部的引导朝向而改变，所以叠加了其点图案的阴影被改变为比C14状态下淡的声音收集位置对象34B。此外，由于声音收集/成像装置400相对于面部的朝向的位置从C14状态进一步改变，所以声音收集位置对象34B根据头部的转动从C14状态进一步顺时针移动。另外，由于已经提高了声音收集/成像装置400的声音收集灵敏度，所以声音收集灵敏度对象从“低灵敏度”切换到“中等灵敏度”。

接下来，将参照图34描述用户进一步逆时针转动他或她的头部的状态即图27中的C12状态。在C12状态下，用户的头部从C13状态进一步顺时针转动，并且因此面部方向引导对象32L的箭头形成为比C13状态下短。另外，由于面部的朝向基于面部的引导朝向而改变，所以叠加了其点图案的阴影被改变为比C13状态下淡的声音收集位置对象34C。此外，由于声音收集/成像装置400的相对于面部的朝向的位置从C13状态进一步改变，所以声音收集位置对象34C根据头部的转动从C13状态进一步顺时针移动。另外，由于已经提高了声音收集/成像装置400的声音收集灵敏度，所以声音收集灵敏度对象从“中等灵敏度”切换到“高灵敏度”。此外，输出控制单元126可以将指示波束成形方向的显示对象(以下也将被称为波束成形对象)叠加在游戏画面上。例如，使用声音收集位置对象34C作为开始点来叠加指示波束成形方向的范围的波束成形对象，如图34所示。注意，波束成形对象的范围可能不与声音收集/成像装置400的波束成形方向的实际范围精确地一致。其原因是给用户不可见波束成形方向的图像。

最后，将参照图35描述用户的面部直接面向声音收集/成像装置400的状态即图27中的C11状态。在C11状态下，不需要使用户进一步转动他或她的头部，并且因此不叠加面部方向引导对象32L的箭头。另外，由于声音收集/成像装置400位于用户的面部前方的位置处，所以声音收集位置对象34C在与用户头部类似的显示对象20的前侧的后方移动。此外，由于声音收集/成像装置400的声音收集灵敏度在由头部的转动改变的范围中具有最高值，所以声音收集灵敏度对象从“高灵敏度”切换到“最高灵敏度”。

注意，虽然在上述一系列处理示例中已经描述了用于引导讲话方向的输出是用于引导面部的朝向的输出的示例，但是要引导的目标可以是用户的移动。例如，指示用户的移动方向或移动目的地的显示对象而不是面部方向引导对象可以被叠加在游戏画面上。

另外，声音收集位置对象可以是指示声音收集/成像装置400的模式的显示对象。例如，输出控制单元126可以在声音收集/成像装置400的实际移动之前、之后或期间或其移动期间的状态等叠加指示位置、姿态或波束成形方向的显示对象。

<2-5.第二实施方式的概述>

如上所述，根据本公开内容的第二实施方式，信息处理装置100-2基于声音收集单元与要由声音收集单元收集的的声音的生成源之间的位置关系来进行控制，该控制与声音收集单元(声音收集/成像装置400)的与声音收集特性有关的模式以及用于引导要由声音收集单元收集的声音的生成方向的输出有关。因此，与只控制声音收集单元的模式或只控制声音的生成方向的情况相比，可以进一步增加改善声音收集特性的可能性。例如，在不可能充分控制声音收集单元的模式和声音的生成方向中的一个的情况下，可以在其他侧的控制下恢复声音收集特性。因此，可以更可靠地改善声音收集特性。

另外，要收集的声音包括语音，要收集的声音的生成方向包括用户的面部的方向，并且信息处理装置100-2基于位置关系和用户面部的朝向执行控制。在此，由于用户的讲话是使用他或她的嘴部进行的，所以如果执行处理以将讲话方向设置成用户面部的朝向，则可以省略指定讲话方向的单独处理。因此，可以避免处理的复杂度。

另外，信息处理装置100-2基于关于从生成源到声音收集单元的方向或从声音收集单元到生成源的方向与用户面部的朝向之间的差异的信息来执行控制。因此，由于在控制处理中使用从声音收集单元到用户的方向或从用户到声音收集单元的方向，所以可以更准确地控制声音收集单元的模式，并且可以更准确地引导讲话方向。因此，可以更有效地改善声音收集特性。

另外，差异包括由从生成源到声音收集单元的方向或从声音收集单元到生成源的方向与用户面部的朝向所形成的角度。因此，通过在控制处理中使用角度信息，可以提高控制的准确度或精度。此外，通过使用现有的角度计算技术执行控制处理，可以降低装置开发的成本并且可以防止处理的复杂化。

另外，信息处理装置100-2基于关于声音收集单元的声音收集结果的信息来控制声音收集单元的模式和用于引导的输出的程度。因此，与统一执行的控制相比，可以实现适用于更多情况的声音收集单元的模式和用于引导的输出。因此，可以在更多情况下更可靠地改善声音收集特性。

另外，关于声音收集结果的信息包括要使用声音收集结果处理的内容的类型信息。因此，通过根据用户要观看的内容执行控制，可以改善声音收集特性而不妨碍用户的观看。此外，由于使用内容的类型的相对简单的信息来确定控制的细节，所以可以减少控制处理的复杂度。

另外，关于声音收集结果的信息包括声音收集单元或用户的周围环境信息。在此，存在难以根据声音收集单元或用户所在的地方来改变移动或姿态的情况。关于该问题，根据本配置，通过根据声音收集单元或用户的周围环境使用控制分配执行对声音收集单元的模式和用于引导的输出的控制，可以使声音收集单元或用户免于被迫执行困难的动作。

另外，关于声音收集结果的信息包括用户模式信息。在此，存在难以根据用户的模式将讲话方向改变为引导方向的情况。关于该问题，根据本配置，通过根据用户的模式使用控制分配执行对声音收集单元的模式和用于引导的输出的控制，可以实现用户友好的引导。通常，由于用户倾向于认为他们想要避免执行另外的动作，所以本配置在用户想要专注于观看内容等的情况下特别有利。

另外，用户模式信息包括关于用户的姿态的信息。因此，可以根据从信息中指定的用户的姿态来改变姿态，可以在期望的范围内引导姿态等。因此，可以使用户免于被迫执行荒谬的动作。

另外，用户模式信息包括关于用户在要使用声音收集结果处理的内容中的沉浸的信息。因此，可以改善声音收集特性而不妨碍用户在内容观看中沉浸。因此，可以改善用户便利性而不给用户带来不适。

另外，信息处理装置100-2基于声音收集单元的声音收集灵敏度信息来决定是否执行控制。因此，例如，通过在声音收集灵敏度降低的情况下执行控制，与始终执行控制的情况相比，可以抑制装置的功耗。此外，通过在适当的时间向用户提供用于引导的输出，可以减少对用户的输出的复杂化。

另外，信息处理装置100-2基于关于声音收集单元的声音收集结果的信息控制声音收集单元的模式和用于引导的输出中的仅一个。因此，即使在难以改变声音收集单元的模式或提示用户的引导的情况下，也可以改善声音收集特性。

另外，声音收集单元的模式包括声音收集单元的位置或姿态。在此，声音收集单元的位置或姿态是用于决定声音收集方向的、对声音收集特性有影响的元素中具有相对显著影响的元素。因此，通过控制这样的位置或姿态，可以更有效地改善声音收集特性。

另外，声音收集单元的模式包括与声音收集单元的声音收集有关的波束成形的模式。因此，可以在不改变声音收集单元的姿态或移动声音收集单元的情况下改善声音收集特性。因此，可以不提供用于改变声音收集单元的姿态或移动声音收集单元的配置，可以扩展适用于信息处理系统的声音收集单元的变型，或者可以降低声音收集单元的成本。

另外，用于引导的输出包括用于通知要改变用户的面部的朝向的方向的输出。因此，用户可以确定用于更高灵敏度的语音输入的动作。因此，由于用户不知道用户失败的语音输入或采取的动作的原因，所以可以减少用户感觉不适的可能性。另外，由于直接向用户通知面部的朝向，所以用户可以直观地理解要采取的动作。

另外，用于引导的输出包括用于通知声音收集单元的位置的输出。在此，用户主要理解如果用户将他或她的面部转向声音收集单元则会提高声音收集灵敏度。因此，通过如同在本配置中那样通知用户声音收集单元的位置，用户可以在没有装置的确切引导的情况下直观地确定要采取的动作。因此，向用户通知变得简单，并且因此可以减少针对用户的通知的复杂度。

另外，用于引导的输出包括向用户的视觉呈现。在此，视觉信息呈现需要比通常使用其他感觉的信息呈现更大量的信息。因此，用户可以容易地理解引导，并且因此可以顺利地引导。

另外，用于引导的输出包括与参照由引导引起的用户的面部的朝向对用户的面部的朝向的评价有关的输出。因此，用户可以确定他或她是否执行了引导的动作。因此，由于用户容易基于引导执行动作，所以可以更可靠地改善声音收集特性。

<3.应用示例>

上面已经描述了根据本公开内容的每个实施方式的信息处理系统。信息处理装置100可以被应用于各种领域和情况。下面将描述信息处理系统的应用示例。

(应用于医学领域)

上述信息处理系统可以被应用于医学领域。在此，存在许多情况，其中随着医学的进步，许多人提供医疗服务例如手术。因此，手术助理之间的通信变得更加重要。因此，为了鼓励这种通信，考虑使用上述显示/声音收集装置200通过语音来共享视觉信息和通信。例如，假设在手术期间，佩戴显示/声音收集装置200的位于远端地方的顾问在检查手术的情况的同时向操作员给出指示或建议。在这种情况下，顾问可能难以检查周围的情况，因为他或她专注于观看所显示的手术情况。此外，在这种情况下，在附近可能存在噪声源，或可以使用安装在与显示/声音收集装置200分开的位置处的独立声音收集装置。然而，根据该信息处理系统，即使在这种情况下也可以引导用户对来自噪声源的噪声的避免和声音收集灵敏度的保持。另外，可以控制声音收集装置侧，使得声音收集灵敏度增加。因此，可以实现顺畅的通信，可以确保医疗的安全性，并且可以缩短手术操作时间。

(应用于机器人)

另外，上述信息处理系统可以被应用于机器人。随着当前机器人技术的发展，一个机器人的多个功能例如姿态的改变、移动、语音识别和语音输出的组合已经有了进展。因此，考虑应用声音收集/成像装置400的上述功能。例如，假设在用户开始与机器人交谈的情况下佩戴显示/声音收集装置200的用户对机器人讲话。然而，用户难以知道机器人的哪个部分设置有声音收集装置或哪个方向确保高声音收集灵敏度。为了解决该问题，信息处理系统建议朝向机器人的讲话方向，并且因此可以以高声音收集灵敏度进行语音输入。因此，用户可以使用机器人而不用担心失败的语音输入。

另外，作为另一问题，考虑用户佩戴显示/声音收集装置200外出的情况。在这种情况下，用户周围通常存在其他对象，例如其他人、车辆、建筑物等。因此，为了在语音输入期间避免噪声源或改善声音收集灵敏度的目的，存在他或她的面部的朝向改变或移动的可能性。另外，如果使用户移动，也可能存在事故等的危险。为了解决该问题，根据该信息处理系统，当改变用户的模式存在困难或危险时，通过优先改变机器人侧即声音收集装置侧的模式，即使在室外地方也可以在确保用户的安全的同时实现舒适的语音输入。注意，替代机器人或除了机器人之外，街道上的装置可以具有声音收集/成像装置400的功能。

<4.结论>

根据上述本公开内容的第一实施方式，通过引导用户的改变噪声源与显示/声音收集装置200-1之间的位置关系的动作使得声音收集特性被改善，用户可以仅通过遵循引导而实现适合于语音输入的难以输入噪声的情况。另外，由于因为使用户执行动作而难以输入噪声，因此可以不将用于避免噪声的单独配置添加至信息处理装置100-1或信息处理系统。因此，从可用性的视角和成本和设施的视角来看，可以容易地抑制噪声的输入。

另外，根据本公开内容的第二实施方式，与控制仅声音收集单元的模式或仅声音的生成方向的情况相比，可以增加改善声音收集特性的可能性。例如，在不能充分控制声音收集单元的模式和声音的生成方向中的一个的情况下，可以通过其他侧的控制来恢复声音收集特性。因此，可以更可靠地改善声音收集特性。

以上已经参照附图描述了本公开内容的优选实施方式，然而本公开内容不限于以上示例。本领域技术人员可以在所附权利要求的范围内发现各种改变和修改，并且应该理解，这些各种改变和修改将自然落入本公开内容的技术范围内。

例如，虽然在上述实施方式中用户的语音是要收集的目标，但是本公开内容不限于此。例如，使用身体的除了嘴部之外的部分或对象产生的声音或由声音输出装置等输出的声音而可以是要收集的目标。

另外，虽然在上述实施方式中已经描述了在视觉上呈现用于引导用户的动作等的示例输出，但是用于引导的输出可以是另一类型的输出。用于引导的输出可以是例如语音输出或触觉振动输出。在这种情况下，显示/声音收集装置200可以不具有显示单元即可以是耳机。

另外，虽然在上述实施方式中已经描述了直线地收集噪声或用户的讲话声音的示例，但是可以在反射之后收集这些声音。因此，可以考虑到声音的反射来控制用于引导用户的动作的输出和声音收集/成像装置400的模式。

另外，尽管在上述第二实施方式中已经描述了信息处理装置100生成显示/声音收集装置200的位置信息的示例，但是显示/声音收集装置200可以生成位置信息。例如，通过将发光体50安装到声音收集/成像装置400上并且在显示/声音收集装置200中提供成像单元，可以在显示/声音收集装置200侧执行生成位置信息的处理。

另外，虽然在第二实施方式中已经描述了通过通信由信息处理装置100控制声音收集/成像装置400的模式的示例，但是除了佩戴显示/声音收集装置200的用户之外的用户可以被允许改变声音收集/成像装置400的模式。例如，信息处理装置100可以使信息处理装置100中另外包括的外部装置或输出单元执行用于引导其他用户对声音收集/成像装置400的模式的改变的输出。在这种情况下，可以简化声音收集/成像装置400的配置。

此外，在本说明书中描述的效果仅仅是说明性或示例性的效果，而不是限制性的。也就是说，与以上效果一起或替代以上效果，根据本公开内容的技术可以实现本领域技术人员根据本说明书的描述而清楚的其他效果。

此外，不仅根据所描述的顺序以时间序列方式执行在以上实施方式的流程图中示出步骤的处理，而且还包括不一定以时间顺序方式处理步骤而是并行或单独执行的处理。而且，不言而喻，即使以时间序列方式处理的步骤也可根据情况而顺序地适当地改变。

另外，还可以产生用于使信息处理装置100中内置的硬件展现出与信息处理装置100的上述各个逻辑配置的功能等同的功能的计算机程序。此外，还提供了存储有该计算机程序的存储介质。

此外，本技术还可以被配置成如下。

(1)一种信息处理装置，包括：

控制单元，所述控制单元被配置成：基于噪声生成源与收集由用户生成的声音的声音收集单元之间的位置关系来控制输出，以引导所述用户的动作以改变生成的声音的声音收集特性，所述动作不同于与所述声音收集单元的处理有关的操作。

(2)根据(1)所述的信息处理装置，

其中，由所述用户生成的声音包括语音，并且

所述控制单元基于所述位置关系和所述用户的面部的朝向来控制用于所述引导的所述输出。

(3)根据(2)所述的信息处理装置，其中，所述控制单元基于与从所述生成源到所述声音收集单元的方向或从所述声音收集单元到所述生成源的方向与所述用户的面部的朝向之间的差异有关的信息来控制用于所述引导的所述输出。

(4)根据(3)所述的信息处理装置，其中，所述差异包括由从所述生成源到所述声音收集单元的方向或从所述声音收集单元到所述生成源的方向与所述用户的面部的朝向形成的角度。

(5)根据(2)至(4)中任一项所述的信息处理装置，其中，所述用户的动作包括所述用户的面部的朝向的改变。

(6)根据(2)至(5)中任一项所述的信息处理装置，其中，所述用户的动作包括使用预定对象从所述声音收集单元遮挡所述生成源的动作。

(7)根据(2)至(6)中任一项所述的信息处理装置，其中，用于所述引导的所述输出包括：与参照由所引导的动作导致的所述用户的模式而对所述用户的模式的评价有关的输出。

(8)根据(2)至(7)中任一项所述的信息处理装置，其中，用于所述引导的所述输出包括与由所述声音收集单元收集的噪声有关的输出。

(9)根据(8)所述的信息处理装置，其中，与噪声有关的所述输出包括用于通知由所述声音收集单元收集的噪声的可到达区域的输出。

(10)根据(8)或(9)所述的信息处理装置，其中，与噪声有关的所述输出包括用于通知由所述声音收集单元收集的噪声的声压的输出。

(11)根据(2)至(10)中任一项所述的信息处理装置，其中，用于所述引导的所述输出包括向所述用户的视觉呈现。

(12)根据(11)所述的信息处理装置，其中，向所述用户的视觉呈现包括将显示对象叠加在图像或外部图像上。

(13)根据(2)至(12)中任一项所述的信息处理装置，其中，所述控制单元基于所述用户的面部的朝向或所述噪声的声压来控制对所述用户生成的声音的收集的适合性的通知。

(14)根据(2)至(13)中任一项所述的信息处理装置，其中，所述控制单元基于关于所述声音收集单元的声音收集结果的信息来控制是否进行用于所述引导的所述输出。

(15)根据(14)所述的信息处理装置，其中，与所述声音收集结果有关的所述信息包括使用所述声音收集结果的处理的开始信息。

(16)根据(14)或(15)所述的信息处理装置，其中，关于所述声音收集结果的所述信息包括由所述声音收集单元收集的噪声的声压信息。

(17)根据(2)至(16)中任一项所述的信息处理装置，其中，在执行使用所述声音收集单元的声音收集结果的处理期间进行用于所述引导的所述输出的情况下，所述控制单元停止所述处理的至少一部分。

(18)根据(17)所述的信息处理装置，其中，所述处理的所述至少一部分包括所述处理中的使用所述用户的面部的朝向的处理。

(19)一种由处理器执行的信息处理方法，所述信息处理方法包括：

基于噪声生成源与收集由用户生成的声音的声音收集单元之间的位置关系来控制输出，以引导所述用户的动作以改变生成的声音的声音收集特性，所述动作不同于与所述声音收集单元的处理有关的操作。

(20)一种程序，用于使计算机实现：

以下控制功能：基于噪声生成源与收集由用户生成的声音的声音收集单元之间的位置关系来控制输出，以引导所述用户的动作以改变生成的声音的声音收集特性，所述动作不同于与所述声音收集单元的处理有关的操作。

此外，本技术还可以被配置成如下。

(1)一种信息处理装置，包括：

控制单元，所述控制单元被配置成基于声音收集单元与要由所述声音收集单元收集的声音的生成源之间的位置关系来进行控制，所述控制涉及与声音收集特性有关的所述声音收集单元的模式以及用于引导要收集的声音的生成方向的输出。

(2)根据(1)所述的信息处理装置，

其中，要收集的声音包括语音，

要收集的声音的生成方向包括用户的面部的方向；并且

所述控制单元基于所述位置关系和所述用户的面部的朝向来进行所述控制。

(3)根据(2)所述的信息处理装置，其中，所述控制单元基于与从所述生成源到所述声音收集单元的方向或从所述声音收集单元到所述生成源的方向与所述用户的面部的朝向之间的差异有关的信息来进行所述控制。

(5)根据(2)至(4)中任一项所述的信息处理装置，其中，所述控制单元基于与所述声音收集单元的声音收集结果有关的信息来控制所述声音收集单元的所述模式的程度和用于所述引导的所述输出的程度。

(6)根据(5)所述的信息处理装置，其中，与所述声音收集结果有关的所述信息包括要使用所述声音收集结果处理的内容的类型信息。

(7)根据(5)或(6)所述的信息处理装置，其中，与所述声音收集结果有关的所述信息包括所述声音收集单元或所述用户的周围环境信息。

(8)根据(5)至(7)中任一项所述的信息处理装置，其中，与所述声音收集结果有关的所述信息包括所述用户的模式信息。

(9)根据(8)所述的信息处理装置，其中，所述用户的所述模式信息包括与所述用户的姿态有关的信息。

(10)根据(8)或(9)所述的信息处理装置，其中，所述用户的所述模式信息包括与所述用户在要使用所述声音收集结果处理的内容中的沉浸有关的信息。

(11)根据(2)至(10)中任一项所述的信息处理装置，其中，所述控制单元基于所述声音收集单元的声音收集灵敏度信息来决定是否进行所述控制。

(12)根据(2)至(11)中任一项所述的信息处理装置，其中，所述控制单元基于与所述声音收集单元的声音收集结果有关的信息来控制所述声音收集单元的所述模式和用于所述引导的所述输出中的仅一者。

(13)根据(2)至(12)中任一项所述的信息处理装置，其中，所述声音收集单元的所述模式包括所述声音收集单元的位置或姿态。

(14)根据(2)至(13)中任一项所述的信息处理装置，其中，所述声音收集单元的所述模式包括与所述声音收集单元的声音收集有关的波束成形的模式。

(15)根据(2)至(14)中任一项所述的信息处理装置，其中，用于所述引导的所述输出包括用于通知所述用户的面部的朝向的改变方向的输出。

(16)根据(2)至(15)中任一项所述的信息处理装置，其中，用于所述引导的所述输出包括用于通知所述声音收集单元的位置的输出。

(17)根据(2)至(16)中任一项所述的信息处理装置，其中，用于所述引导的所述输出包括向所述用户的视觉呈现。

(18)根据(2)至(17)中任一项所述的信息处理装置，其中，用于所述引导的所述输出包括与参照由所述引导导致的所述用户的面部的朝向而对所述用户的面部的朝向的评价有关的输出。

基于声音收集单元与要由所述声音收集单元收集的声音的生成源之间的位置关系来进行控制，所述控制涉及与声音收集特性有关的所述声音收集单元的模式以及用于引导要收集的声音的生成方向的输出。

(20)一种程序，所述程序使计算机实现：

基于声音收集单元与要由所述声音收集单元收集的声音的生成源之间的位置关系来进行控制的控制功能，所述控制涉及与声音收集特性有关的所述声音收集单元的模式以及用于引导要收集的声音的生成方向的输出。

附图标记列表

100 信息处理装置

120 通信单元

122 VR处理单元

124 语音输入适合性确定单元

126 输出控制单元

130 位置信息获取单元

132 调节单元

134 声音收集模式控制单元

200 显示/声音收集装置

300 声音处理装置

400 声音收集/成像装置

Claims

1.一种信息处理装置，包括：

2.根据权利要求1所述的信息处理装置，

其中，要收集的声音包括语音，

要收集的声音的生成方向包括用户的面部的方向；并且

3.根据权利要求2所述的信息处理装置，其中，所述控制单元基于与从所述生成源到所述声音收集单元的方向或从所述声音收集单元到所述生成源的方向与所述用户的面部的朝向之间的差异有关的信息来进行所述控制。

4.根据权利要求3所述的信息处理装置，其中，所述差异包括由从所述生成源到所述声音收集单元的方向或从所述声音收集单元到所述生成源的方向与所述用户的面部的朝向形成的角度。

5.根据权利要求2所述的信息处理装置，其中，所述控制单元基于与所述声音收集单元的声音收集结果有关的信息来控制所述声音收集单元的所述模式的程度和用于所述引导的所述输出的程度。

6.根据权利要求5所述的信息处理装置，其中，与所述声音收集结果有关的所述信息包括要使用所述声音收集结果处理的内容的类型信息。

7.根据权利要求5所述的信息处理装置，其中，与所述声音收集结果有关的所述信息包括所述声音收集单元或所述用户的周围环境信息。

8.根据权利要求5所述的信息处理装置，其中，与所述声音收集结果有关的所述信息包括所述用户的模式信息。

9.根据权利要求8所述的信息处理装置，其中，所述用户的所述模式信息包括与所述用户的姿态有关的信息。

10.根据权利要求8所述的信息处理装置，其中，所述用户的所述模式信息包括与所述用户在要使用所述声音收集结果处理的内容中的沉浸有关的信息。

11.根据权利要求2所述的信息处理装置，其中，所述控制单元基于所述声音收集单元的声音收集灵敏度信息来决定是否进行所述控制。

12.根据权利要求2所述的信息处理装置，其中，所述控制单元基于与所述声音收集单元的声音收集结果有关的信息来控制所述声音收集单元的所述模式和用于所述引导的所述输出中的仅一者。

13.根据权利要求2所述的信息处理装置，其中，所述声音收集单元的所述模式包括所述声音收集单元的位置或姿态。

14.根据权利要求2所述的信息处理装置，其中，所述声音收集单元的所述模式包括与所述声音收集单元的声音收集有关的波束成形的模式。

15.根据权利要求2所述的信息处理装置，其中，用于所述引导的所述输出包括用于通知所述用户的面部的朝向的改变方向的输出。

16.根据权利要求2所述的信息处理装置，其中，用于所述引导的所述输出包括用于通知所述声音收集单元的位置的输出。

17.根据权利要求2所述的信息处理装置，其中，用于所述引导的所述输出包括向所述用户的视觉呈现。

18.根据权利要求2所述的信息处理装置，其中，用于所述引导的所述输出包括与参照由所述引导导致的所述用户的面部的朝向而对所述用户的面部的朝向的评价有关的输出。

19.一种由处理器执行的信息处理方法，所述信息处理方法包括：

20.一种程序，所述程序使计算机实现：