CN112470490A

CN112470490A - 信息处理设备、信息处理系统、信息处理方法和程序

Info

Publication number: CN112470490A
Application number: CN201980049308.6A
Authority: CN
Inventors: 大迫庆一; 光藤祐基
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-07-30
Filing date: 2019-07-22
Publication date: 2021-03-09
Anticipated expiration: 2039-07-22
Also published as: US20210274304A1; EP3833044A4; CN112470490B; JPWO2020026864A1; JP7494732B2; WO2020026864A1; KR20210038431A; KR102666792B1; EP3833044A1

Abstract

根据本公开的信息处理设备、信息处理系统、信息处理方法和程序设置有：声源位置确定单元(131)，其确定由扬声器阵列(20)生成并产生球面波的虚拟声源的位置；以及输出控制单元(133)，其控制从扬声器阵列(20)的输出，使得输出与作为在显示器(30)上显示的信息的视觉信息相对应的音频信息的虚拟声源被定位到该位置。

Description

信息处理设备、信息处理系统、信息处理方法和程序

技术领域

本公开涉及一种信息处理装置、信息处理系统、信息处理方法和程序。

背景技术

近年来，向用户提供在显示器上显示的信息和关于所显示信息的语音信息的信息呈现系统已变得广泛可用。

例如，下面的PTL 1公开了一种引导装置，其包括显示引导信息的显示设备和将引导信息作为语音输出的音频输出设备。引导装置检测属于指定引导区域的用户，并向引导区域输出声音，从而向用户提供适当的引导。

引文列表

专利文献

PTL 1：日本未审查专利申请公开第2017-161448号

发明内容

本发明要解决的问题

然而，由PTL 1中描述的使用具有受控方向性的平面波的引导装置中包括的音频输出设备输出到引导区域的语音可以被引导区域外的人听到。

因此，鉴于上述情况，本公开提出了一种信息处理装置、信息处理系统、信息处理方法和程序，每个都能够向用户提供与在显示器上显示的信息相对应的语音信息，同时抑制声音泄漏到周围空间。

解决问题的手段

根据本公开，提供了一种信息处理装置，其包括声源位置确定部和输出控制部。声源位置确定部确定由扬声器阵列生成并产生球面波的虚拟声源的位置。所述输出控制部控制来自所述扬声器阵列的输出以使所述虚拟声源位于所述位置处。虚拟声源输出视觉信息对应的语音信息，视觉信息为显示器上显示的信息。

此外，根据本公开，提供了一种信息处理系统，其包括声源位置确定部和输出控制部。声源位置确定部确定由扬声器阵列生成并产生球面波的虚拟声源的位置。所述输出控制部控制来自所述扬声器阵列的输出以使所述虚拟声源位于所述位置处。虚拟声源输出视觉信息对应的语音信息，视觉信息为显示器上显示的信息。

此外，根据本公开，提供了一种信息处理方法，包括：确定由扬声器阵列生成并产生球面波的虚拟声源的位置；以及控制来自扬声器阵列的输出以使虚拟声源位于该位置。虚拟声源输出视觉信息对应的语音信息，视觉信息为显示器上显示的信息。所述确定和控制由处理器执行。

此外，根据本公开，提供了一种旨在使计算机用作声源位置确定部和输出控制部的程序。声源位置确定部确定由扬声器阵列生成并产生球面波的虚拟声源的位置。所述输出控制部控制来自所述扬声器阵列的输出以使所述虚拟声源位于所述位置处。虚拟声源输出与显示器上显示的视觉信息对应的语音信息。

根据本公开，从由扬声器阵列生成并产生球面波的虚拟声源输出语音信息。

本发明效果

如上所述，根据本公开，可以向用户提供与显示在显示器上的信息相对应的语音信息，同时抑制向周围空间的声音泄漏。

应当注意，上述效果不必是限制性的，并且除了上述效果之外或代替上述效果，可以提供本文所述的任何效果或可以由本说明书理解的任何其它效果。

附图说明

[图1]图1是描述通过平面波的声音传播向用户提供语音信息的总体信息呈现系统的说明图。

[图2]图2是描述从包括在通用信息呈现系统中的扬声器阵列输出的平面波的说明图。

[图3]图3是描述通过平面波的声音传播向用户提供语音信息的总体信息呈现系统的说明图。

[图4]图4是示出根据本公开的第一实施例的信息处理系统的示例配置的框图。

[图5]图5是示出根据第一实施例的信息处理装置的示例配置的框图。

[图6]图6是描述根据第一实施例的通过声源位置确定部计算用户的听觉位置的方法的示例的说明图。

[图7]图7是描述根据第一实施例的输出控制部生成的虚拟声源的说明图。

[图8]图8是描述根据第一实施例的输出控制部生成的虚拟声源的说明图。

[图9]图9是描述根据第一实施例的输出控制部生成的虚拟声源的说明图。

[图10]图10是描述平面波的声音传播的示例的说明图。

[图11]图11是描述根据第一实施例的信息处理装置呈现给用户的信息的说明图。

[图12]图12是描述根据第一实施例的信息处理装置呈现给用户的信息的说明图。

[图13]图13是描述根据第一实施例的信息处理装置的示例操作的流程图。

[图14]图14是描述根据第一实施例的信息处理装置的示例操作的说明图。

[图15]图15是示出根据本公开的第二实施例的信息处理系统的示例配置的框图。

[图16]图16是示出根据第二实施例的信息处理装置的示例配置的框图。

[图17]图17是描述根据第二实施例的信息处理装置的示例操作的流程图。

[图18]图18是描述根据第二实施例的信息处理装置的示例操作的说明图。

[图19]图19是描述根据本公开的信息处理系统的第一修改示例的说明图。

[图20]图20是描述根据本公开的信息处理系统的第二修改示例的说明图。

[图21]图21是描述根据本公开的信息处理装置的第三修改示例的说明图。

[图22]图22示出根据本公开的实施例的信息处理装置的示例硬件配置。

具体实施方式

在下文中，将参考附图详细描述本公开的优选实施例。另外，在本说明书和附图中，对于功能配置大致相同的部件使用相同的标号，省略重复的说明。

注意，按以下顺序给出描述。

<1.背景技术>

<2.第一实施例>

<3.第二实施例>

<4.修改示例>

<5.硬件配置>

<6.结论>

<1.背景技术>

向用户提供在显示器上显示的信息和关于所显示信息的语音信息的信息呈现系统已变得广泛可用。例如，在诸如机场、车站或公共汽车站的公共机构或诸如大型购物中心或大型零售商的商业设施中使用信息呈现系统。例如，在机场，信息呈现系统使显示器显示飞机的到达和出发时间、登机时间等，并向用户提供关于所显示的到达或出发时间、登机时间等的语音信息。另外，在大型购物中心，在显示器上显示大型购物中心的室内地图，并且用户在显示器上触摸地图上显示的商店信息，从而可以使显示器进一步显示关于商店的详细信息。此外，信息呈现系统使商店信息以与商店详细信息的视图同步的语音信息的形式输出。

在如上所述的信息呈现系统中，在信息呈现系统中使用的显示器的尺寸、要输出的语音的音量等根据预期用户的数量或者要提供给每个用户的信息的内容而变化。例如，为了向大量用户呈现公共信息，使用包括大屏幕显示器和能够输出宽范围语音的语音输出设备的信息呈现系统。另外，例如，为了向少量用户呈现共同信息，使用包括小屏幕显示和能够以少量用户可听的低音量将语音输出到小范围的语音输出设备的信息呈现系统。在对少量用户的语音输出中，例如使用耳机等。

与向多个用户呈现公共信息相反，存在期望向多个用户中的每一个呈现个人信息的情况。这种情况包括例如以不同语言呈现信息的情况、呈现由每个用户指定的个人信息的情况等。具体地，存在在机场以不同的语言等向每个用户呈现关于飞机到达和离开的信息的情况。作为向多个用户中的每一个呈现个人信息的方法，例如，存在如下的使用显示器和语音输出的视图呈现方法。

第一信息呈现方法涉及以规则的间隔改变要使用公共显示器呈现给多个用户的信息，以及以规则的间隔改变要输出到多个用户所在的区域的语音信息。通过以规则的间隔改变和输出多条信息的方法，用户获取期望的信息需要花费时间。因此，该方法不够方便，有改进的空间。

第二信息呈现方法涉及在显示器的多个分割的显示区域或多个显示器中同时显示要呈现给每个用户的多条视觉信息，以及以规则的间隔改变要输出到多个用户所在的区域的语音信息。该视觉信息是用户可视觉识别的信息，例如在显示器上显示的图像信息或文本信息。在该方法中，可以同时显示多条视觉信息。然而，语音信息以规则的间隔变化，并且在用户期望语音信息的情况下需要时间来获取语音信息。因此，该方法不够方便，有改进的空间。

第三信息呈现方法涉及在显示器的多个分割的显示区域或多个显示器中同时显示要呈现给每个用户的多条视觉信息，并将不同的语音信息输出到彼此不同的相应输出区域。作为将不同的语音信息输出到彼此不同的各个输出区域的方法，例如，存在使用耳机将语音信息输出到每个用户的耳朵的方法，使用定向扬声器控制声音的输出方向的声音输出方法等。该信息呈现方法允许每个用户在短时间内获取个人信息。另外，例如，在每个用户使用耳机的情况下，向每个耳机输出必要的语音信息以抑制一个用户要听到的语音与另一用户要听到的语音的混合，从而实现可靠的信息传输。然而，一些用户感到佩戴耳机是麻烦的。而且，使用者佩戴的耳机在使用中会受到损坏，需要更换。这可以增加使用耳机的信息呈现系统的运行成本。

此外，例如，在使用定向扬声器的声音方向性来设置多个语音收听区域的情况下，可以将日语的语音信息呈现给一个收听区域，并将英语的语音信息呈现给另一个收听区域，从而提高信息呈现的效率。然而，即使在使用定向扬声器的情况下，存在多个收听区域之一被语音侵入以输出到另一区域的情况，妨碍了用户获取语音信息。此外，这种语音信息从输出区域的泄漏会使存在于输出区域外并且不想要语音信息的人感到不舒服。

这里，参考图1至图3描述由使用定向扬声器的信息呈现系统输出的语音的概观。图1是描述通过平面波的声音传播向用户提供语音信息的信息呈现系统的说明图。图2是描述从包括在通用信息呈现系统中的扬声器阵列输出的平面波的说明图。图3是描述通过平面波的声音传播向用户提供语音信息的信息呈现系统的说明图。

如图1所示，例如，作为总体信息呈现系统的示例，存在包括扬声器阵列21的信息呈现系统。扬声器阵列21检测进入收听区域A的用户U，并输出具有朝向收听区域A的方向性的声音。例如，该系统通过控制声音的频率或振幅来合成从扬声器阵列21输出的声音的波形，并产生平面波Wp，从而使声音在特定范围上传播。例如，如图1所示，安装在上方的扬声器阵列21输出具有朝向用户U所在的区域A受控的方向性的平面波。这允许用户U收听由扬声器阵列21输出的语音信息。

然而，实际上，如图2所示，产生平面波Wp的扬声器阵列21将平面波Wp输出到以扬声器阵列21为轴为中心的周围空间。因此，如图3所示，从扬声器阵列21输出的平面波Wp也到达存在于收听区域A外部的非用户N的头部。因此，从扬声器阵列21输出的语音信息泄漏到收听区域A的外部，以被不想收听语音信息的人听到。这种语音信息的泄漏是不期望的，因为周围的人不需要该信息并且将语音信息感知为噪声。

另外，例如，总体信息呈现系统通常通过使用红外线、超声波等进行感测来确定用户U是否存在于收听区域A中。因此，当不想获取语音信息的非用户N通过收听区域A时，有可能简单地从扬声器阵列21输出语音信息。这样的语音信息的不必要的输出打扰不想要该语音信息的人。因此，期望在用户U想要的定时输出语音信息。

对于球面波，当离声源的距离加倍时，声压级一般下降6dB。另一方面，对于平面波，当距离声源距离加倍时，声压级一般下降3dB。因此，平面波到达得比球面波更远。因此，在沿着平面波的行进方向提供呈现不同语音信息的多个收听区域A的示例情况下，位于收听区域A之一中的用户U除了感知期望的语音信息之外，还感知其他不期望的语音信息。因此，在使用平面波的总体信息呈现系统中，存在安装布局被限制为防止多条语音信息被输出到一个收听区域A的情况。

在使用通过超声波等产生具有方向性的声音的参量扬声器的情况下，也可能发生如上所述的语音信息泄漏到收听区域A的外部和对安装布局的限制。

因此，作为对上述问题的认真研究的结果，本技术的发明人已经实现了本技术。下面，详细描述本技术的实施例。

<2.第一实施例>

[2-1.配置]

首先，参考图4和图5描述根据第一实施例的信息处理系统1和信息处理装置10中的每一个的配置。图4是示出根据本实施例的信息处理系统1的示例配置的框图。图5是示出根据本实施例的信息处理装置10的示例配置的框图。

首先，描述了根据本实施例的信息处理系统1的配置。信息处理系统1包括信息处理装置10、扬声器阵列20、显示器30和网络40。利用信息处理装置10，信息处理系统1确定将由扬声器阵列20生成并产生球面波的虚拟声源的位置。信息处理系统1还使用信息处理装置10来控制扬声器阵列20的输出，以使得输出与显示器30上显示的视觉信息相对应的语音信息的虚拟声源位于所确定的位置。

信息处理装置10确定将由扬声器阵列20生成并产生球面波的虚拟声源的位置，并控制扬声器阵列20的输出以使虚拟声源位于所确定的位置。如图5所示，信息处理装置10包括操作信息获取部110、语音信息获取部120、控制部130、存储部140和通信部150。

操作信息获取部110获取关于用户的操作的操作信息。操作信息可以包括使用包括在显示器30中的输入设备输入的各种信息，显示器30上用户选择的视觉信息的位置，与视觉信息相关联的信息等。例如，操作信息获取部110可以经由显示器30上显示的输入接口从显示器30获取关于用户操作的操作信息。关于用户操作的操作信息的示例包括关于视觉信息的选择或语音信息的回放、结束或倒带的操作信息。另外，例如，在用户在其上进行选择的显示器30包括触摸传感器的情况下，操作信息获取部110可以从显示器30获取用户在显示器30上的触摸的坐标值。另外，操作信息获取部110可以获取与存储部140保存的视觉信息相关联的信息。例如，在信息处理系统1用于试听音乐的情况下，操作信息获取部110可以获取与在触摸操作位置处显示的音乐作品的封套相关联的语音信息或者包括发行日期、演奏者等的元数据。

语音信息获取部120从存储部140获取与操作信息获取部110在显示器30上的视图中获取的触摸操作位置处的视觉信息相对应的语音信息。

控制部130控制从扬声器阵列20输出的声音和在显示器30上显示的视图。控制部130包括声源位置确定部131、输出控制部133和显示控制部135。

声源位置确定部131确定将由扬声器阵列20生成的虚拟声源的位置。例如，声源位置确定部131可以计算用户的听觉位置，并基于听觉位置确定虚拟声源的位置。例如，这里提到的听觉位置指的是用户的头或耳的位置。此外，在下文中，由声源位置确定部131确定的虚拟声源的位置也称为定位位置。

另外，声源位置确定部131可以基于由包括在显示器30中的触摸传感器检测到的触摸操作位置和由用户检测到的触摸操作来计算听觉位置。参照图6描述的是使用声源位置确定部131确定要生成虚拟声源的位置的示例方法。图6是描述使用声源位置确定部131计算用户的听觉位置的示例方法的说明图。

例如，在将包括用于输入检测的触摸传感器的触摸面板用作显示器30的情况下，声源位置确定部131可以以如下方式确定要生成虚拟声源的位置。声源位置确定部131获取用户触摸的位置的坐标。例如，如图6所示，声源位置确定部131获取用户触摸的触摸操作位置P_T(X_T,Z_T)。例如，声源位置确定部131可以使用预定的转换公式，根据触摸操作位置P_T(X_T,Z_T)计算听觉位置P_H(X_H,Z_H)，以确定声源的位置。具体地，可根据以下表达式(1)计算听觉位置P_H：

(X_H,Z_H)＝(X_T,Z_T+F_Z)…表达式(1)

其中F_Z表示关于z轴方向的校正因子。

表达式(1)是假定用户触摸的点在x轴方向上位于用户前方并且在z轴方向上位于比用户头部的高度低的位置，准备使虚拟声源位于用户头部的位置的转换公式。因此，在表达式(1)中，对于x轴方向，使用触摸操作位置的坐标，并且对于z轴方向，使用利用校正因子F_Z校正的触摸操作位置的值来确定定位位置。例如，此时的校正因子F_Z可以设定在0.1m至0.3m的范围内。

如上所述，声源位置确定部131基于用户的触摸操作位置来计算听觉位置，从而能够向用户适当地呈现用户想要的语音信息。

需要注意的是，转换公式并不局限于表达式(1)，可以使用另一转换公式。例如，可以使用通过机器学习等准备的转换公式。使用通过机器学习等准备的转换公式使得声源位置确定部131能够更准确地计算听觉位置。

上面已经描述了基于由触摸传感器检测的触摸操作位置计算听觉位置和确定由声源位置确定部131检测的定位位置的方法。然而，声源位置确定部131获取与用户选择的视觉信息相关的位置信息并基于该位置信息确定定位位置就足够了。可以将现有技术应用于通过声源位置确定部131确定定位位置的这种方法。此外，例如，在第二实施例中描述的使用相机检测用户头部位置的方法可以应用于由声源位置确定部131确定定位位置的方法。

输出控制部133控制扬声器阵列20的输出，以使产生球面波的虚拟声源位于由声源位置确定部131确定的位置。输出控制部133可以执行波前合成滤波处理，以控制来自扬声器阵列的输出，从而使虚拟声源位于定位位置。具体地，输出控制部133可以计算虚拟声源位于定位位置处的波前合成滤波器，并使用该波前合成滤波器对语音数据执行波前合成滤波处理。可以将现有的虚拟声源生成技术应用于这种控制扬声器阵列20的输出的方法。例如，可以应用现有公开文献中描述的技术：S.Spors等人：“波场合成中的聚焦源的物理和感知特性”，音频工程学会会议论文，第127公约，2009年，10月，9-12(S.Spors et al.:"Physical and Perceptual Properties of Focused Sources in Wave FieldSynthesis",Audio Engineering Society Convention Paper,127th Convention2009October 9-12)。

这里，参考图7至图9和图10描述由输出控制部133生成的虚拟声源。图7至图9分别是描述在来自输出控制部133的控制下由扬声器阵列20产生的虚拟声源的说明图。图10是描述平面波的声音传播的示例的说明图。

例如，应用上述公开文献中描述的方法的输出控制部133控制来自扬声器阵列20的输出并产生产生球面波的虚拟声源S。在扬声器阵列20是在一个方向上并排布置扬声器的线阵列扬声器的情况下，扬声器阵列20沿着扬声器阵列20的纵向方向控制虚拟声源S的位置。例如，如图7所示，在输出控制部133控制扬声器阵列20以使得虚拟声源S位于用户U的头部的位置的情况下，如图8所示，扬声器阵列20生成多个虚拟声源S，每个虚拟声源S在垂直于扬声器阵列20的纵向方向(在图8中，y-z平面)的横截面中，在与扬声器阵列20等距的位置处。语音信息从每个虚拟声源S传播到周围空间。然而，由虚拟声源S产生的声音是球面波，这引起比平面波更大的声音衰减。因此，如图9所示，输出控制部133控制从虚拟声源S输出的声音朝向用户U的头部的位置的声压，由此能够抑制存在于远离虚拟声源S的位置处的人N对从虚拟声源S输出的语音信息的识别。

另外，在声音是平面波并且在如图10所示的平面波的传播方向上存在诸如墙壁的障碍物的情况下，平面波被墙壁反射，这可以导致声音泄漏到所设置的收听区域的外部。相反，由虚拟声源S产生的声音经历比平面波更大的衰减。因此，能够使由虚拟声源S产生的球面波在到达障碍物时充分衰减。由此，能够抑制收听区域外的人对虚拟声源S输出的语音信息的识别。

另外，输出控制部133可以控制扬声器阵列20的输出，以使虚拟声源位于基于由声源位置确定部131计算出的听觉位置而确定的位置处。即使在由虚拟声源产生的语音信息的音量较低的情况下，将虚拟声源定位在听觉位置允许用户收听语音信息，从而抑制存在于用户周围的人对语音信息的识别。

另外，输出控制部133可以控制来自扬声器阵列20的输出以生成多个虚拟声源。生成多个虚拟声源使得能够向多个用户呈现不同的语音信息。

显示控制部135控制显示器30上的视图，并且控制要使用显示器30呈现给用户的视觉信息。例如，在信息处理系统1用于试听音乐的情况下，显示控制部135可以显示与可用于试听的音乐作品相关的图像，包括例如音乐作品的封套、音乐视频等。

存储部140适当地保持在由控制部130执行的上述各种类型的处理中使用的各种程序、数据库等。例如，存储部140可以适当地保持要存储的各种参数、处理的中间进程等，诸如声源位置确定部131确定虚拟声源的位置所需的转换公式、触摸操作位置的坐标，或者通过转换触摸操作位置的坐标而计算的定位位置的坐标。另外，存储部140可以保存由输出控制部133输出的语音信息，或者由显示控制部135在显示器30上显示的视觉信息。控制部130可以自由地对该存储部140执行读/写处理。

通信部150从扬声器阵列20和显示器30接收各种信息或向扬声器阵列20和显示器30发送各种信息。例如，通信部150从显示器30接收视觉信息并将视觉信息输出到控制部130。在显示器30是触摸面板的情况下，通信部150可以从显示器30接收用户的触摸操作位置的坐标。另外，通信部150将来自输出控制部133的输出指令发送到扬声器阵列20，并且将来自显示控制部135的查看指令发送到显示器30。

根据来自输出控制部133的指令，扬声器阵列20生成产生球面波的虚拟声源，并使虚拟声源输出与显示器30上显示的视觉信息相对应的语音信息。例如，其中布置有多个扬声器的线阵列扬声器被用作扬声器阵列20。扬声器阵列20中所包括的扬声器的数量、规格等可以根据虚拟声源所在的位置、虚拟声源的数量、从虚拟声源输出的语音的音量等而变化。

对于扬声器阵列20，其足够能够将虚拟声源定位在由声源位置确定部131确定的位置。可以将扬声器阵列20布置成各种形状，诸如多个扬声器线性布置的形状或多个扬声器弯曲布置的形状。另外，多个线阵列扬声器的堆叠可用作扬声器阵列20。例如，可以使用相对于布置多个扬声器的纵向方向垂直堆叠的多个线阵列扬声器作为扬声器阵列20。

将扬声器阵列20安装成使得虚拟声源位于用户能够识别视觉信息并执行触摸操作的范围内就足够了。例如，如图11所示，扬声器阵列20可以安装在显示器30上方。

显示器30显示视觉信息。显示器30可以显示多条视觉信息。例如，显示器30可以显示由存储部140保持的视觉信息。另外，显示器30可以包括触摸传感器。作为触摸传感器检测到用户触摸的结果，从显示器30上显示的多条视觉信息中选择要输出其语音信息的视觉信息。

显示器30可以显示输入接口。作为经由输入接口的用户操作的结果，显示器30可以向操作信息获取部110发送关于语音信息的回放、结束或倒带的操作信息。应注意，显示器30可包括输入设备，例如鼠标、键盘等。

注意，网络40是从耦合到网络40的设备发送的信息的有线或无线发送路径。例如，网络40可以包括诸如因特网、电话网络或卫星通信网络的公共网络，或者各种类型的LAN(局域网)、WAN(广域网)等。

这里，参照图11和图12描述信息处理系统1的使用的示例。图11和12分别是描述根据本实施例的信息处理装置10呈现给用户的信息的说明图。如图11所示，显示器30安装在用户U的前方，扬声器阵列20安装在显示器30的上方。在图11中，作为多条视觉信息，在显示器30上示出了音乐作品的封套图像。在显示器30上显示由用户U选择的视觉信息的放大视图。虚拟声源S位于用户U的头部位置，虚拟声源S输出视觉信息对应的语音信息，例如封套图像对应的音乐作品。因此，用户U能够收听音乐作品。应当注意，可以在显示器30上显示与用户U选择的视觉信息相关的元数据。

另外，信息处理系统1可以由多个用户同时使用。例如，如图12所示，在用户U1和用户U2各自选择不同的封套图像的情况下，扬声器阵列20可以将两个虚拟声源定位在不同的位置，并使虚拟声源输出不同的语音信息。由扬声器阵列20产生的虚拟声源S产生的球面波根据与虚拟声源S的距离而显著衰减。因此，例如，信息处理系统1防止用户U2识别由位于用户U1的头部位置处的虚拟声源S1产生的语音信息。结果，使得信息处理系统1能够同时向用户呈现不同的语音信息而不会引起用户之间的干扰。

到目前为止，已经描述了根据本实施例的信息处理系统1的配置。

[2-2.操作]

随后，参照图13和14描述信息处理装置10的操作。图13是描述根据本实施例的信息处理装置10的操作的示例的流程图。图14是描述根据本实施例的信息处理装置10的示例操作的说明图。应当注意，在以下描述中，作为示例描述了将根据本实施例的信息处理装置10应用于音乐的试听的情况，但是不言而喻，根据本实施例的信息处理装置10不限于音乐的试听。

首先，显示控制部135在显示器30上显示视觉信息(步骤S101)。例如，显示控制部135在显示器30上显示由存储部140保持的音乐作品的封套图像。接下来，包括在显示器30中的触摸传感器检测用户的触摸操作(步骤S103)。当触摸传感器检测到用户的触摸操作时，操作信息获取部110从显示器30获取触摸操作位置的坐标值，并从存储部140获取与在触摸操作位置显示的封套图像相关联的元数据(步骤S105)。声源位置确定部131从操作信息获取部110获取触摸操作位置的坐标值，并基于该坐标值确定定位位置(步骤S107)。接着，输出控制部133计算波前合成滤波器，利用该波前合成滤波器，虚拟声源位于由声源位置确定部131确定的虚拟声源的定位位置(步骤S109)。

接着，语音信息获取部120从操作信息获取部110获取触摸操作位置的坐标值。语音信息获取部120从存储部140获取与触摸操作位置所示的封套对应的音频数据，并将该音频数据输入到输出控制部133(步骤S111)。随后，输出控制部133使用计算的波前合成滤波器对输入的音频数据执行波前合成滤波处理。另外，输出控制部133向扬声器阵列20发送作为进行了波前合成滤波处理的数字信号的波前合成信号(步骤S113)。扬声器阵列20使用DAC(数模转换器)，将波前合成信号转换为模拟信号，将转换后的模拟信号转换为语音并输出，从而将虚拟声源定位在定位位置，并使虚拟声源输出与封套对应的音乐作品(步骤S115)。此时，显示控制部135可以从操作信息获取部110获取与触摸位置相关的信息，并在显示器30上显示元数据。作为用户操作完成或停止回放的结果，结束语音输出。

<3.第二实施例>

[3-1.配置]

随后，参考图15和图16描述根据本公开的第二实施例的信息处理系统2和信息处理装置50。图15是示出根据本公开的第二实施例的信息处理系统2的示例配置的框图。图16是示出根据本实施例的信息处理装置50的示例配置的框图。

如图15所示，根据本实施例的信息处理系统2包括信息处理装置50、扬声器阵列20、显示器30、网络40和相机60。包括在信息处理系统2中的扬声器阵列20、显示器30和网络40与第一实施例中的类似。然而，根据本实施例的信息处理系统2与第一实施例中的信息处理系统的不同之处在于信息处理系统2包括相机60。扬声器阵列20、显示器30和网络40与第一实施例中描述的类似，因此在此省略其详细描述。

如图16所示，根据本实施例的信息处理装置50包括控制部130、存储部140、通信部150和头部位置检测部160。信息处理装置50中包括的控制部130、存储部140和通信部150均具有与第一实施例中描述的功能类似的功能。然而，根据本实施例的信息处理装置50与第一实施例中的信息处理装置的不同之处在于，信息处理装置50包括头部位置检测部160。包括在控制部130中的操作信息获取部110、语音信息获取部120和输出控制部133，包括在控制部130中的显示控制部135，存储部140和通信部150每个都具有与在第一实施例中描述的功能类似的功能，因此这里省略其详细描述。

头部位置检测部160从由相机60捕获的图像检测用户的头部并且检测用户的头部的位置。例如，头部位置检测部160能够使用公知的面部检测技术来检测用户头部的位置。例如，头部位置检测部160可以偶尔获取由相机60捕获的图像并且偶尔检测用户头部的位置，或者可以从相机60获取当用户在显示器上执行输入操作时捕获的图像，并且从该图像检测用户头部的位置。

除了在第一实施例中描述的功能之外，声源位置确定部131可以基于由头部位置检测部160检测到的头部位置来确定定位位置。声源位置确定部131可以基于当检测到用户的预定输入操作时由头部位置检测部160检测到的用户头部的位置来确定定位位置。例如，声源位置确定部131可以将当用户的触摸操作被包括在显示器30中的触摸传感器检测到时由头部位置检测部160检测到的用户头部的位置确定为定位位置。

相机60捕获安装有信息处理系统2的空间的至少一部分的图像，生成该图像。例如，安装照相机60以获取用户可能出现的范围的图像。将由相机60捕获的图像发送到头部位置检测部160。

到目前为止，已经描述了根据本实施例的信息处理系统2的配置。

[3-2.操作]

随后，参照图17和图18描述信息处理装置50的操作。图17是描述根据本实施例的信息处理装置50的示例操作的流程图。图18是描述根据本实施例的信息处理装置50的示例操作的说明图。如图17所示的步骤S201、步骤S203、步骤S205和步骤S209至S215分别类似于第一实施例中所述的步骤S101、步骤S103、步骤S105和步骤S109至S115，因此这里省略其详细描述。根据本实施例的信息处理装置50的操作与根据第一实施例的信息处理装置10的操作的不同之处在于，信息处理装置50的操作包括头部位置检测步骤S204中的操作。另外，在以下描述中，如在第一实施例中，作为示例描述了为了试听音乐的目的而应用根据本实施例的信息处理装置50的情况，但是不言而喻，根据本实施例的信息处理装置50不限于音乐的试听列表。

在步骤S204中，头部位置检测部160检测用户头部的位置。例如，头部位置检测部160可以偶尔获取由相机60捕获的图像并且偶尔检测用户头部的位置，或者可以从相机60获取当用户在显示器上执行输入操作时捕获的图像，并且从该图像检测用户头部的位置。

在步骤S207中，声源位置确定部131基于由头部位置检测部160检测到的头部位置来确定定位位置。此外，在执行步骤S209至S215之后，作为由用户操作完成或停止音乐作品的回放的结果，结束语音输出。上述操作使得信息处理装置50能够更准确地将虚拟声源定位在用户头部的位置处。结果，能够将语音信息呈现给用户而不会无用地增加从虚拟声源输出的语音信息的音量，从而能够抑制周围的人对语音信息的识别。

<4.修改示例>

[4-1.第一修改示例]

在根据第一实施例的信息处理系统1和根据第二实施例的信息处理系统2的每一个中，已经描述了包括一个扬声器阵列20和一个显示器30的情况。然而，信息处理系统可以包括多个扬声器阵列20和多个显示器30。参照图19描述了包括多个扬声器阵列20和多个显示器30的信息处理系统。图19是描述信息处理系统的第一修改示例的说明图。

根据本修改示例的信息处理系统可以包括例如三个扬声器阵列20和三个显示器30。如图19所示，三个扬声器阵列20中的扬声器阵列20A和扬声器阵列20C可以彼此相对地安装，并且三个显示器30中的显示器30A和显示器30C可以彼此相对地安装。由扬声器阵列20产生的虚拟声源S产生的球面波根据与虚拟声源S的距离而显著衰减。因此，根据本修改示例的信息处理系统防止存在于用户UA后面的用户UC识别由扬声器阵列20A产生的虚拟声源WA产生的语音信息。因此，在根据本修改示例的信息处理系统1中，可以在彼此相对的位置安装多个扬声器阵列20。

[4-2.第二修改示例]

作为示例，上面已经描述了将用户的头部位置确定为虚拟声源的定位位置的情况。然而，声源位置确定部131可以将用户的右耳位置或左耳位置确定为虚拟声源的定位位置。如图20所示，输出控制部133可以控制扬声器阵列20的输出，以使虚拟声源位于右耳位置和左耳位置中的每一个。图20是描述信息处理系统的第二修改示例的说明图。在这种情况下，例如，声源位置确定部131可通过使用下面的表达式(2)和(3)根据触摸操作位置P_T(X_T,Z_T)计算与用户的右耳位置相对应的听觉位置P_HR(X_HR,Z_HR)和与用户的左耳位置相对应的听觉位置P_HL(X_HL,Z_HL)来确定定位位置：

(X_HR,Z_HR)＝(X_T-F_X,Z_T+F_Z)…表达式(2)

(X_HL,Z_HL)＝(X_T+F_X,Z_T+F_Z)…表达式(3)

其中F_X是与x轴方向相关的校正因子，F_Z是与z轴方向相关的校正因子。

校正因子F_X的使用使得能够将用户在x轴方向上的触摸操作位置转换为用户的右耳位置和左耳位置。另外，使用校正因子F_Z使得能够将用户在z轴方向上的触摸操作位置转换为用户的右耳位置和左耳位置。例如，此时的校正因子F_X可以为0.1m，或者校正因子F_Z可以设定在0.1m至0.3m的范围内。

由此，能够使位于右耳位置的虚拟声源和位于左耳位置的虚拟声源分别再现不同的语音信息，能够进行声音的立体声再现。

在输出控制部133控制扬声器阵列20的输出以使虚拟声源分别位于用户的右耳位置和左耳位置的情况下，输出控制部133可以使用头部相关转移函数来执行滤波处理。作为已经使用头部相关转移函数对其执行了滤波处理的语音从位于右耳位置的虚拟声源输出并且从位于左耳位置的虚拟声源输出的结果，可以向用户提供更高的真实感。

[4-3.第三修改示例]

以扬声器阵列20安装在显示器30的上方为例，对信息处理系统1和信息处理系统2进行了描述。然而，如前所述，将扬声器阵列20安装成使得虚拟声源位于用户能够识别视觉信息并执行触摸操作的范围内就足够了。例如，如图21所示，扬声器阵列20可以包括安装在显示器30的背面上的多个线阵列扬声器的堆叠。在扬声器阵列20是单线阵列扬声器的情况下，如先前参考图7所描述的，在垂直于线阵列扬声器的纵向方向的横截面中在与扬声器阵列20等距的位置处产生多个虚拟声源。然而，在堆叠多个线阵列扬声器的扬声器阵列20中，还可以控制每个虚拟声源在垂直于线阵列扬声器的纵向方向的方向上的定位位置。由此，扬声器阵列20能够生成虚拟声源作为点状声源。因此，例如，作为在显示器30的后面安装包括线阵列扬声器的堆叠的扬声器阵列20并将点状虚拟声源定位在显示器30的观看表面上的结果，可以从显示器30上显示的图像的位置输出语音信息。结果，用户能够感觉到显示器30上显示的图像正在产生声音。

应当注意，上述第一至第三修改示例中的每一个可以与第一或第二实施例组合。

<5.硬件配置>

上面已经描述了根据本公开的一些实施例。通过下面描述的信息处理系统或信息处理装置的软件和硬件之间的协作来实现上述信息处理。

图22是示出根据本公开的实施例的信息处理装置的示例硬件配置的框图。参考图21，信息处理装置包括例如CPU 901、ROM 902、RAM 903、主机总线904、桥905、外部总线906、接口907、输入设备908、显示设备909、语音输出设备910、存储设备911、驱动器912、耦合端口913，以及可移除存储介质914。需要注意的是，这里示出的硬件配置是示例，并且可以省略部件的一部分。此外，还可以包括除了这里示出的部件之外的部件。

例如，CPU 901用作算术处理器或控制器，并且基于由ROM 902、RAM 903、存储设备911或可移除存储介质914保存的各种程序控制每个部件的全部或部分操作。CPU 901可以包括在操作信息获取部110、语音信息获取部120、控制部130和头部位置检测部160中。

ROM 902是保持将被读入CPU 901的程序，用于计算的数据等的装置。RAM 903例如暂时或永久地保持要读入CPU 901的程序，在执行程序时适当变化的各种参数等。

例如，CPU 901、ROM 902和RAM 903经由支持高速数据传输的主机总线904彼此耦合。另一方面，例如，主机总线904经由桥905耦合到具有相对低的数据传输速度的外部总线906。另外，外部总线906经由接口907耦合到各种部件。

对于输入设备908，例如，可以使用触摸板、鼠标、键盘等。此外，作为输入设备908，存在使用能够使用红外线或其他无线电波发送控制信号的遥控器的情况。在根据本公开的实施例的信息处理系统中，输入设备908对应于包括在显示器30中的触摸传感器(触摸面板)。

例如，显示设备909是应用了CRT(阴极射线管)、LCD、有机EL等的显示器30，并且语音输出设备910是扬声器阵列20。显示设备909和语音输出设备910各自是能够向用户视觉地或听觉地通知所获取的信息的设备。

存储设备911是保持各种数据的设备。作为存储设备911，例如，使用诸如硬盘驱动器(HDD)、半导体存储设备、光存储设备、磁光存储设备等的磁存储设备。存储设备911对应于存储部140。

例如，驱动器912是读取诸如磁盘、光盘、磁光盘或半导体存储器等可移除存储介质914所保持的信息，或将信息写入可移除存储介质914的设备。

例如，可移除存储介质914是DVD介质、蓝光(注册商标)介质、HD DVD介质、各种类型的半导体存储介质等。不用说，可移除存储介质914可以是例如其上安装有非接触式IC芯片的IC卡、电子设备等。

例如，耦合端口913是外部耦合设备902(例如USB(通用串行总线)端口、IEEE1394端口、SCSI(小型计算机系统接口)、RS-232C端口或光音频终端)与其耦合的端口。

<6.结论>

如上所述，根据本公开，可以向用户提供与显示在显示器上的信息相对应的语音信息，同时抑制向周围空间的声音泄漏。此外，可以抑制非预期用户的人对所输出的语音信息的识别，并且避免干扰非预期用户的人的信息获取动作。

另外，对于根据本公开的信息处理系统，不必佩戴诸如耳机的安装设备。这节省了佩戴安装设备的麻烦，并且可以防止由于佩戴而引起的不舒服的发生。

另外，在安装设备中不会发生由摩擦等引起的损坏，因此能够降低维护成本。此外，不必使用特定的定向扬声器或超声波扬声器，这使得能够降低制造成本。

此外，在根据本公开的信息处理系统中，作为用户输入操作的结果，呈现语音信息。这使得仅通过检测信息处理系统附近的非用户的存在来防止语音信息被输出，从而抑制故障。

另外，在根据本公开的信息处理系统中，由虚拟声源产生的声音是引起声音的显著衰减的球面波。这使得能够以足以仅由用户识别的音量水平呈现语音信息。这抑制了非用户对语音信息的识别，并且防止非用户感觉到不舒服。

此外，根据本公开的信息处理系统使得可以彼此靠近地安装扬声器阵列或者彼此相对地安装扬声器阵列，从而使得可以实现安装空间的有效使用。此外，这使得能够增加安装地点的每单位面积能够使用根据本公开的信息处理系统的用户的数量。

这使得立体声信息呈现成为可能，所述立体声信息呈现对于一般定向扬声器或定向波前合成技术是困难的，并且使得能够向用户提供给予较高真实感和较高定位感的语音。

虽然上面已经参考附图详细描述了本公开的一些优选实施例，但是本公开的技术范围不限于这样的示例。显然，本公开的技术领域的普通技术人员将容易地在权利要求中描述的技术思想的范围内得到各种替换或修改，并且应当理解，这些替换或修改自然地属于本公开的技术范围。

另外，在此描述的效果仅仅是描述性的或说明性的，而不是限制性的。换言之，除了或代替上述效果，根据本公开的技术可以具有本领域技术人员从本文的描述中清楚的其它效果。

另外，对于在此使用流程图描述的处理，不必完全按照附图所示的顺序执行处理。一些处理步骤可以并行执行。另外，可以采用附加的处理步骤，或者可以省略处理的一部分。

注意，以下配置也属于本公开的技术范围。

(1)一种信息处理装置，包括：

声源位置确定部，确定由扬声器阵列生成并产生球面波的虚拟声源的位置；和

输出控制部，其控制来自所述扬声器阵列的输出以使所述虚拟声源位于所述位置，所述虚拟声源输出与作为在显示器上显示的信息的视觉信息相对应的语音信息。

(2)根据上述(1)所述的信息处理装置，其中所述输出控制部通过波前合成滤波处理控制来自扬声器阵列的输出，使虚拟声源位于所述位置。

(3)根据上述(1)或(2)所述的信息处理装置，其中

所述声源位置确定部计算用户的听觉位置以基于听觉位置确定虚拟声源的位置，以及

所述输出控制部控制来自扬声器阵列的输出，使虚拟声源位于所述位置。

(4)根据上述(3)所述的信息处理装置，其中所述声源位置确定部基于由触摸传感器检测到的触摸操作位置来计算听觉位置，所述触摸传感器被包括在显示器中并且检测用户的触摸操作。

(5)根据上述(1)至(4)中任一项所述的信息处理装置，还包括头部位置检测部，所述头部位置检测部检测用户的头部的位置，其中所述声源位置确定部基于用户的头部的位置来确定虚拟声源的位置，当检测到用户执行的预定输入操作时，头部位置检测部检测到头部的位置。

(6)根据上述(5)所述的信息处理装置，其中所述声源位置确定部基于所述用户的头部的位置来确定所述虚拟声源的位置，当所述用户执行的触摸操作被触摸传感器检测到时，所述头部位置被所述头部位置检测部检测到，所述触摸传感器被包括在所述显示器中并且检测所述用户执行的触摸操作。

(7)根据上述(1)至(6)中任一项所述的信息处理装置，其中所述输出控制部输出多个虚拟声源。

(8)根据上述(1)至(7)中任一项所述的信息处理装置，其中所述输出控制部控制来自扬声器阵列的输出以产生多个虚拟声源，多个虚拟声源中的每一个根据多个视觉信息中的对应的一个输出不同的语音信息。

(9)根据上述(8)所述的信息处理装置，其中所述输出控制部控制来自扬声器阵列的输出以使虚拟声源位于用户的右耳位置、左耳位置或这两个位置。

(10)根据上述(9)所述的信息处理装置，其中所述输出控制部使用头部相关转移函数执行滤波处理。

(11)一种信息处理系统，包括：

(12)一种信息处理方法，包括：

确定虚拟声源的位置，所述虚拟声源由扬声器阵列生成并产生球面波；和

控制来自扬声器阵列的输出以使所述虚拟声源位于所述位置，所述虚拟声源输出与作为在显示器上显示的信息的视觉信息相对应的语音信息，

所述确定和所述控制由处理器执行。

(13)一种程序，用于使计算机用作：

声源位置确定部，确定由扬声器阵列生成并产生球面波的虚拟声源的位置，和

参考符号的描述

1、2 信息处理系统

10、50 信息处理装置

20 扬声器阵列

30 显示器

40 网络

60 相机

110 操作信息获取部

120 语音信息获取部

130 控制部

131 声源位置确定部

133 输出控制部

135 显示控制部

140 存储部

150 通信部

160 头部位置检测部

Claims

1.一种信息处理装置，包括：

声源位置确定部，所述声源位置确定部确定虚拟声源的位置，所述虚拟声源是由扬声器阵列生成的并产生球面波；和

输出控制部，所述输出控制部控制来自所述扬声器阵列的输出以使所述虚拟声源位于所述位置，所述虚拟声源输出与视觉信息相对应的语音信息，所述视觉信息是在显示器上显示的信息。

2.根据权利要求1所述的信息处理装置，其中

所述输出控制部通过波前合成滤波处理控制来自所述扬声器阵列的输出，以使所述虚拟声源位于所述位置。

3.根据权利要求1所述的信息处理装置，其中

所述声源位置确定部计算用户的听觉位置以基于所述听觉位置确定所述虚拟声源的位置，以及

所述输出控制部控制来自所述扬声器阵列的输出，以使所述虚拟声源位于所述位置。

4.根据权利要求3所述的信息处理装置，其中

所述声源位置确定部基于由触摸传感器检测到的触摸操作位置来计算所述听觉位置，所述触摸传感器被包括在所述显示器中并且检测所述用户的触摸操作。

5.根据权利要求1所述的信息处理装置，进一步包括头部位置检测部，所述头部位置检测部检测用户的头部的位置，其中

所述声源位置确定部基于所述用户的头部的位置来确定所述虚拟声源的位置，当检测到所述用户执行的预定输入操作时，所述头部位置检测部检测到所述头部的位置。

6.根据权利要求5所述的信息处理装置，其中

所述声源位置确定部基于所述用户的头部的位置来确定所述虚拟声源的位置，当所述用户执行的触摸操作被触摸传感器检测到时，所述头部的位置被所述头部位置检测部检测到，所述触摸传感器被包括在所述显示器中并且检测所述用户执行的所述触摸操作。

7.根据权利要求1所述的信息处理装置，其中

所述输出控制部输出多个虚拟声源。

8.根据权利要求1所述的信息处理装置，其中

所述输出控制部控制来自所述扬声器阵列的输出以产生多个所述虚拟声源，多个所述虚拟声源中的每一个所述虚拟声源根据多个所述视觉信息中的对应的一个所述视觉信息输出不同的语音信息。

9.根据权利要求8所述的信息处理装置，其中

所述输出控制部控制来自所述扬声器阵列的输出以使所述虚拟声源位于所述用户的右耳位置、左耳位置或右耳位置和左耳位置这两个位置。

10.根据权利要求9所述的信息处理装置，其中

所述输出控制部使用头部相关转移函数执行滤波处理。

11.一种信息处理系统，包括：

12.一种信息处理方法，包括：

控制来自所述扬声器阵列的输出以使所述虚拟声源位于所述位置，所述虚拟声源输出与视觉信息相对应的语音信息，所述视觉信息是在显示器上显示的信息，

所述确定和所述控制由处理器执行。

13.一种程序，用于使计算机用作：

声源位置确定部，所述声源位置确定部确定虚拟声源的位置，所述虚拟声源是由扬声器阵列生成的并产生球面波，和