CN108141684A

CN108141684A - 声音输出设备、声音生成方法以及程序

Info

Publication number: CN108141684A
Application number: CN201680057546.8A
Authority: CN
Inventors: 浅田宏平; 五十岚刚; 投野耕治; 大场晴夫; 今誉
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-10-09
Filing date: 2016-09-06
Publication date: 2018-06-08
Anticipated expiration: 2036-09-06
Also published as: EP3657822A1; US20210006927A1; CN108141684B; US10812926B2; US20180367937A1; JPWO2017061218A1; WO2017061218A1; EP3361755A4; EP3361755A1

Abstract

属于本公开内容的声音输出设备配备有：声音获取部分，其用于获取要被输出至中空的声音引导部分的一端的声音，该中空的声音引导部分的另一端被定位在收听者的耳道的入口附近；以及头相关传输函数调整部分，其用于调整要被纳入声音引导部分的声音的头相关传输函数。因为在头相关传输函数调整部分处调整要被纳入声音引导部分的声音的头相关传输函数，所以在佩戴声音输出装置时，可以在没有不舒服的感觉的情况下收听与周围声音一起呈现的来自声音输出设备的声音。

Description

声音输出设备、声音生成方法以及程序

技术领域

本公开内容涉及声音输出设备、声音生成方法以及程序。

背景技术

根据相关技术，被配置成通过扬声器将从再现设备等输出的电信号转换成声音信号的小型耳机已经普及。这样的耳机发出声音使得声音仅被佩戴耳机的收听者听到。因此，这样的耳机已经被用在各种环境中。

这样的耳机具有允许耳机被插入到收听者的耳朵的形式。例如，入耳式耳机具有使得用户能够通过将耳机深深地插入到他们的耳朵(耳道)来使用耳机的形式。由于它们的结构，大多数入耳式耳机具有开放式设计。这样的耳机具有相对较好的噪音隔离性能，因此这样的耳机具有以下优点：即使在噪音稍大的地方用户也可以欣赏音乐等。

通常，入耳式耳机具有作为基本结构元件的扬声器单元和壳体。扬声器单元被配置成将电信号转换成声音信号。壳体具有大致为圆柱形的形状，并且壳体也用作声管(sound tube)。扬声器单元附接在壳体的一端(耳道的外侧)。壳体具有发射口，通过该发射口，在扬声器单元中产生的振动空气被发射至耳道并且被传送至耳膜。另外，通常，耳塞(可移除部分)附接至壳体的另一端(要被插入到耳道中的部分)。耳塞具有在被收听者佩戴时适合收听者的耳道的形状。例如，专利文献1提出了以下入耳式耳机设备：其中，声管被布置成从除了壳体的中心之外的位置倾斜，使得壳体适合耳甲(concha auriculae)，并且声管被布置成靠近耳道的入口。

引用列表

专利文献

专利文献1：JP 4709017B

发明内容

技术问题

即使在收听者正在佩戴耳机并且正在收听所提供的声音的情况下，例如，如果收听者周围的人对收听者讲话，则收听者也必须同时收听周围声音。但是，对于大多数传统耳机例如入耳式耳机，收听者在佩戴耳机时收听周围声音是非常困难的。这是因为这样的耳机具有完全覆盖耳孔以提高再现声音质量并且防止再现声音泄漏至外部的结构。例如，如果收听者在驾驶、被导航或者进行室外或室内运动(诸如步行、慢跑、骑行、登山、滑雪或使用滑雪板)期间不能收听周围声音，则收听者可能会感觉不方便。另外，在这种情况下，收听者可能会遇到危险情况。另外，如果收听者在通信或演示期间不能听到周围声音，则便利性可能会降低。另外，当收听者正在佩戴传统耳机时，收听者周围的人可以看到覆盖收听者的耳孔的耳机。因此，佩戴耳机的收听者周围的人可能会对与收听者讲话感到犹豫，并且这可能会打扰人们之间的交流。

鉴于这种情况，希望收听周围声音和从声音输出设备提供的声音二者，使得即使在收听者正在佩戴声音输出设备的状态下，收听者也不会感觉到不自在。

问题的解决方案

根据本公开内容，提供了一种声音输出设备，该声音输出设备包括：声音获取部分，其被配置成获取要输出至一端布置在收听者的耳道的入口附近的声音引导部分的另一端的声音，该声音引导部分具有中空结构；以及头相关传输函数调整部分，其被配置成调整由声音引导部分捕获的声音的头相关传输函数。

声音输出设备还可以包括声音环境调整部分，其被配置成调整由声音引导部分捕获的声音的声音环境。

另外，头相关传输函数调整部分可以改变头相关传输函数，使得声音的声像被定位在与直接进入收听者的耳朵的周围声音的位置不同的位置处。

另外，头相关传输函数调整部分可以改变头相关传输函数，使得声音的声像被定位在收听者的头部上方或者收听者的脚部附近。

另外，头相关传输函数调整部分可以基于由收听者执行的操作来调整头相关传输函数。

另外，声音环境调整部分可以基于由收听者执行的操作来调整声音环境。

另外，声音环境调整部分可以基于收听者的周围环境的声音信息来调整声音环境。

另外，声音环境调整部分可以基于将周围环境的声音信息分离成人声和除了人声之外的环境声音的结果来调整声音环境。

另外，声音环境调整部分可以从另一设备获取对收听者的周围环境的声音信息进行分析的结果，并且调整声音环境。

另外，声音环境调整部分可以基于收听者的位置信息来调整声音环境。

另外，头相关传输函数调整部分可以基于收听者的头部的方向来调整头相关传输函数。

另外，头相关传输函数调整部分可以调整头相关传输函数，使得无论收听者的头部的方向如何，声像位置是恒定位置。

另外，声音输出设备可以包括声音输出部分，该声音输出部分被配置成输出要在不经过声音引导部分的情况下传送至收听者的耳朵的声音。

另外，要输出至声音引导部分的声音和要在不经过声音引导部分的情况下传送至收听者的耳朵的声音中的一个声音可以被延迟。

另外，声音输出设备可以包括延迟部分，该延迟部分被配置成与要输出至声音引导部分的声音相比较，对要在不经过声音引导部分的情况下传送至收听者的耳朵的声音进行延迟。

另外，声音输出设备可以包括被配置成获取收听者的位置信息的位置信息获取部分，并且声音获取部分可以基于位置信息来获取导航信息。

另外，声音获取部分可以获取收听者的言语或用于给出关于收听者的移动的指令的语音。

另外，声音获取部分可以获取引导信息，该引导信息用于以多种语言当中由收听者指定的语言来说明收听者在视觉上识别的任何事件。

另外，根据本公开内容，提供了一种声音生成方法，该方法包括：获取要输出至一端布置在收听者的耳道的入口附近的声音引导部分的另一端的声音，该声音引导部分具有中空结构；以及调整由声音引导部分捕获的声音的头相关传输函数。

另外，根据本公开内容，提供了一种使计算机用作以下装置的程序：用于获取要输出至一端布置在收听者的耳道的入口附近的声音引导部分的另一端的声音的装置，该声音引导部分具有中空结构；以及用于调整由声音引导部分捕获的声音的头相关传输函数的装置。

本发明的有益效果

如上所述，根据本公开内容，可以收听周围声音和从声音输出设备提供的声音二者，使得即使在收听者正在佩戴声音输出设备的状态下，收听者也不会感觉到不自在。注意，上面描述的效果不一定是限制性的。与上述效果一起或替代上述效果，可以实现本说明书中描述的效果中的任何一种或者可以从本说明书理解到的其他效果。

附图说明

[图1]是示出根据本公开内容的实施方式的声音输出设备的构造的示意图。

[图2]是示出根据本公开内容的实施方式的声音输出设备的构造的示意图。

[图3]是示出耳开式声音输出设备向收听者的耳朵输出声波的情形的示意图。

[图4]是示出作为实施方式的原理的、通过使用头戴式耳机(耳机)来虚拟地定位声像的方法的示意图。

[图5]是示出作为实施方式的原理的、通过使用头戴式耳机(耳机)来虚拟地定位声像的方法的示意图。

[图6]是示出使用信号处理以与图4和图5对应地获取声像定位的基本配置的示意图。

[图7]是示出以下系统的示意图，在该系统中，除了图6所示的结构元件之外耳机还包括传感器例如加速度传感器和陀螺仪传感器，传感器的位置相对于收听者的头部是固定的，并且HRTF滤波处理响应于头部的水平和垂直旋转而变化。

[图8]是示出将根据实施方式的声音输出设备应用于图6所示的系统的示例的示意图。

[图9]是示出在再现期间通过滤波器对声传递函数L和R进行卷积以将声源定位为周围环境中的声像的配置的示意图。

[图10]是示出图9所示的系统的实际应用示例的示意图。

[图11]是示出以下配置的示意图：该配置还包括与由诸如加速度传感器和陀螺仪传感器的传感器检测到的头部移动相关联地来相对于真实空间固定声像位置的处理。

[图12]是示出通过无线系统例如蓝牙(注册商标)或Wi-Fi来提供声源的声音的示例的示意图。

[图13]是示出在运动期间从教练给出建议的系统的示意图。

[图14]是示出在演示等期间从外部向演讲者给出指令的系统的示意图。

[图15]是示出设置有麦克风的声音输出设备的示例的示意图。

[图16]是示出图15所示的配置中的声音环境识别控制部分的具体配置示例的示意图。

[图17]是示出通过自相关计算部分来估计反射声音和混响的方法的示意图。

[图18]是示出以下示例的示意图：在该示例中，声音输出设备能够执行与具有丰富的计算资源的电子设备(例如智能电话)的通信，并且电子设备包括声音环境识别控制部分和周围声音环境数据库。

[图19]是示出以下示例的示意图，在该示例中，包括在声音输出设备中的GPS直接确定位置，云或智能电话基于确定的结果来解释地图信息，与声音输出设备的用户所处的建筑物或位置对应的典型声音环境被获取。

[图20]是示出用户在驾驶车辆期间或在骑自行车期间听到周围声音的同时收听导航信息的示例的示意图。

[图21]是示出用户在驾驶车辆期间或在骑自行车期间听到周围声音的同时收听导航信息的示例的示意图。

[图22]是示出用户在步行期间听到周围声音的同时收听导航信息的示例的示意图。

[图23]是示出用户在步行期间听到周围声音的同时收听导航信息的示例的示意图。

[图24]是示出基于通过GPS获取的信息来对收听者进行导航的配置的示例的示意图。

[图25]是示出多个收听者观看歌舞伎的情况的示意图。

[图26]是示出多个收听者观看歌剧的情况的示意图。

[图27]是示出通过声音广播设备的无线通信部分向各个用户的声音输出设备传递诸如演出说明的声音信息的示例的示意图。

[图28]是示出以下示例的示意图，在该示例中对于图27所示的配置，使用各种语言的演出说明的声音信息，HRTF的滤波器类型可以根据个体之间的HRTF或声像定位的位置的差异(兼容性)来切换。

[图29]是示出将根据实施方式的声音输出设备应用于在博物馆中提供多个虚拟声源的系统的示例的示意图。

[图30]是示出以下系统的示意图，通过该系统，多个用户能够通过使用无线通信部分同时欣赏来自虚拟扬声器的音乐。

[图31]是示出关于5.1声道的多声道内容的扬声器布置示例的示意图。

[图32]是示出针对来自前面的声音使用电视的实际扬声器，并且针对来自后面的环绕声音使用声音输出设备的示例的示意图。

[图33]是示出图32所示的系统的配置的示意图。

[图34]是示出图32所示的系统的配置的示意图。

[图35]是图33所示的系统的说明图，其中，Tpr表示HRTF或声音环境滤波的处理时间，Twl表示通过蓝牙(注册商标)等进行无线传输所花费的时间，并且Tac表示声音从扬声器传播至用户的耳朵所花费的时间。

[图36]是示出同时通过两个再现路线同时再现测量信号A和B并且测量延迟值的情况的示意图。

[图37]是示出作为被同时再现的测量信号A和B的示例的、具有不同频率分量的波形的示意图。

[图38]是示出电影院中的应用示例的示意图。

[图39]是示出在内容包括用作声音输出设备的再现目标的声道和对象的情况下，将用作声音输出设备的再现目标的声道和对象与要在真实扬声器中再现的声道和对象进行分离的示例的示意图。

具体实施方式

在下文中，将参照附图详细描述本公开内容的一个或多个优选实施方式。注意，在本说明书和附图中，具有基本相同的功能和结构的结构元件用相同的附图标记表示，并且省略对这些结构元件的重复说明。

注意，按以下顺序给出描述。

1.声音输出设备的构造示例

首先，参照图1，将描述根据本公开内容的实施方式的声音输出设备的示意性构造。图1和图2是示出根据本公开内容的实施方式的声音输出设备100的构造的示意图。注意，图1是声音输出设备100的前视图，图2是声音输出设备100在被从左侧观看时的透视图。图1和图2所示的声音输出设备100被构造成佩戴在左耳上。要被佩戴在右耳上的声音输出设备(未示出)被构造成使得要被佩戴在右耳上的声音输出设备是要被佩戴在左耳上的声音输出设备的镜像。

图1和图2所示的声音输出设备100包括声音生成部分110、声音引导部分120和支撑部分130。声音生成部分110被配置成生成声音。声音引导部分120被配置成通过一端121捕获由声音生成部分110生成的声音。支撑部分130被配置成在另一端122附近支撑声音引导部分120。声音引导部分120包括具有1mm至5mm的内径的中空管材料。声音引导部分120的两端均为开放端。声音引导部分120的一端121是用于由声音生成部分110生成的声音的声音输入孔，并且另一端122是用于该声音的声音输出孔。因此，由于一端121被附接至声音生成部分110，所以声音引导部分120的一侧是开放的。

如稍后描述的，支撑部分130配合至耳道的开口的附近(例如耳屏间切迹(intertragic notch))，并且在另一端122附近支撑声音引导部分120，使得在声音引导部分120的另一端122处的声音输出孔面向耳道深处。声音引导部分12的至少在另一端122附近的外径远小于耳道的开口的内径。因此，即使在声音引导部分120的另一端122由支撑部分130支撑在耳道的开口附近的状态下，另一端122也不会完全覆盖收听者的耳孔。换言之，耳孔是开放的。声音输出设备100与传统耳机不同。声音输出设备100可以被称为“耳开式(ear-open-style)”设备。

另外，支撑部分130包括开口部分131，该开口部分131被构造成即使在声音引导部分120由支撑部分130支撑的状态下，也使得耳道的入口(耳孔)向外部开放。在图1和图2所示的示例中，支撑部分130具有环形结构，并且仅通过棒状支撑构件132与声音引导部分120的另一端122的附近连接。因此，除了它们之外的环形结构的所有部分都是开口部分131。注意，如稍后描述的，支撑部分130不限于环形结构。只要支撑部分130具有中空结构并且能够支撑声音引导部分120的另一端122，则支撑部分130可以是任何形状。

管状的声音引导部分120将由声音生成部分110生成的声音从声音引导部分120的一端121捕获到管中，传播声音的空气振动，从由支撑部分130支撑在耳道的开口附近的另一端122向耳道发射空气振动，并且将空气振动传送至耳膜。

如上所述，支撑声音引导部分120的另一端122的附近的支撑部分130包括开口部分131，该开口部分131被构造成使得耳道的开口(耳孔)向外部开放。因此，即使在收听者正在佩戴声音输出设备100的状态下，声音输出设备100也不会完全覆盖收听者的耳孔。即使在收听者正在佩戴声音输出设备100并且正在收听从声音生成部分110输出的声音的情况下，收听者也可以通过开口部分131充分地听到周围声音。

注意，虽然根据实施方式的声音输出设备100使得耳孔向外部开放，但是声音输出设备100能够抑制由声音生成部分100生成的声音(再现声音)泄漏至外部。这是因为声音输出设备100被佩戴为使得声音引导部分120的另一端122在耳道的开口附近面向耳道深处、所生成的声音的空气振动被发射至耳膜附近，并且这使得即使在减小来自声音输出部分100的输出的情况下也能够具有良好的声音质量。

另外，从声音引导部分120的另一端122发射的空气振动的方向性也有助于防止声音泄漏。图3示出了耳开式声音输出设备100向收听者的耳朵输出声波的情形。空气振动从声音引导部分120的另一端122朝向耳道的内部发射。耳道300是从耳道的开口301开始并且在耳膜302处结束的洞。通常，耳道300具有大约25mm至30mm的长度。耳道300是管状的封闭空间。因此，如附图标记311所指示的，从声音部分120的另一端122朝向耳道300深处发射的空气振动以一定方向性传播至耳膜302。另外，在耳道300中空气振动的声压增加。因此，对低频率(增益)的灵敏度提高。另一方面，耳道300的外部即外界是开放空间。因此，如附图标记312所指示的，从声音引导部分120的另一端122发射至耳道300的外部的空气振动在外界不具有方向性并且迅速衰减。

返回参照图1和图2的描述，管状声音引导部分120的中间部分具有从耳朵的背侧至耳朵的前侧的弯曲形状。弯曲部分是具有可打开且可关闭结构的夹持部分123，并且能够产生夹力并将耳垂夹在中间。其细节将稍后描述。

另外，声音引导部分120还包括在弯曲的夹持部分123与布置在耳道的开口附近的另一端122之间的变形部分124。当施加过大的外力时，变形部分124变形，使得声音引导部分120的另一端122不会插入到耳道深处太多。

当使用具有上述构造的声音输出设备100时，收听者即使在佩戴声音输出设备100时也可以自然地听到周围声音。因此，收听者可以如同人类依赖于他/她的听觉特性一样充分利用他/她的功能，例如识别空间、识别危险、以及识别会话和会话中的细微差别。

如上所述，在声音输出设备100中，用于再现的结构不完全覆盖耳朵的开口的附近。因此，周围声音在声学上是可透过的。以与不佩戴普通耳机的人的环境类似的方式，可以原样听到周围声音，并且还可以通过其管道或管形状再现期望的声音信息或音乐，来同时听到周围声音和声音信息或音乐二者。

基本上，近年来已经普及的入耳式耳机具有完全覆盖耳道的封闭结构。因此，用户以与他/她的耳道向外部开放的情况不同的方式听到他/她自己的声音和咀嚼声音。在很多情况下，这会导致用户感到不自在和不舒服。这是因为自己发出的声音和咀嚼声音通过骨骼和肌肉发射至封闭的耳道。因此，低频的声音被增强，并且增强的声音传播至耳膜。当使用声音输出设备100时，这样的现象不会发生。因此，即使在收听期望的声音信息时也可以享受平常的会话。

另一方面，虽然用户可以同时听到周围环境中的实际声音和由声音输出设备100再现的必要的声音信息(例如来自无线电或网络的音乐或信息声音)二者，但是这些声音可能彼此打扰。另外，自然地“以与平常相同的方式听到”周围环境声音。因此，以适当的距离感来定位声源。然而，当以与使用普通耳机的情况类似的方式在耳道附近再现再现声音信息或再现音乐时，声像具有近距离并且发生偏侧化(lateralization)。以类似的方式，在立体声状态下收听再现声音信息或再现音乐的情况下，声像也具有近距离并且发生偏侧化。如上所述，当在周围环境声音和再现声音信息等之间的距离感与“收听的结果”不同的情况下同时收听周围环境声音和再现声音信息等二者时，有时会发生“听觉疲劳”，并且需要一段时间来识别声音的内容。例如，在收听音乐时周围环境声音中响起警报的情况下，有时需要一段时间来改变听觉上集中的目标。

因此，根据本公开内容的实施方式，通过建立被称为所谓的“鸡尾酒会效应”的现象作为系统，可以解决这样的问题。存在着关于鸡尾酒会效应的原理的各种理论。其中一个理论是，由于可以在一个人的头部中专门识别三维空间中的多条声像位置信息，因此可以区分不同的声像位置信息。例如，在再现以下内容时难以分离和区分人们的会话：在该内容中，会议中的会话是通过单声道麦克风而记录的。然而，当使用头戴式耳机来再现以下内容时可以分离和区分会话：在该内容中，会议中的会话是通过双声道记录而记录的。

换言之，虽然声音信息、音乐等通过声音输出设备100原样再现在耳朵的耳道附近，但是通过使用信号处理，声像被定位在人造(artefactual)位置处。通过提供适合周围声音环境的声源或者通过提供声源仿佛声源处于自然空间中，可以降低用户的听觉疲劳。另外，可以根据由用户(在他/她的头部中)识别的声像图来选择性地收听周围环境声音和再现声音信息，而不用关注过渡时间和听觉疲劳。

这样的声像定位可以被称为“音频增强现实”(AR)，音频增强现实将在视频领域中普遍流行的AR技术应用于音频领域。另外，还认为再现声音信息覆盖在周围声音上。除了着眼于解决上述问题的系统之外，本公开内容的实施方式还描述了新的UX。

图4和图5是示出作为实施方式的原理的、通过使用头戴式耳机(耳机)来虚拟地定位声像的方法的示意图。图4示出了声源406的声音经由放大器402和扬声器404呈现给人400的情况。在这种情况下，人400通过使用至耳朵的头相关传输函数(在下文中，也称为HRTF)，通过布置在他/她的耳朵处的麦克风408收听声源的声音。通过麦克风408收听到的声音对应于通过双耳收听到的声音。人类依赖通过双耳收听到的声音，并且主要根据过去的经验估计声源的位置。

如图5所示，在经由具有麦克风408的仿真头部(dummy head)410收集声源406的声音，并且以与图4类似的方式经由放大器412再现所收集的声音的情况下，与图4类似，人400可以通过佩戴在他/她的耳朵上的耳机414收听声音。该声音与通过上述双声道记录而记录的声音的再现相对应。头相关传输函数与从声源406的位置至收听者的耳朵的传递特性相对应。注意，在双声道记录和再现中，必须精确地校正麦克风和头戴式耳机的特性。

图6示出了使用信号处理以与图4和图5对应地获取声像定位的基本配置。通过使用MPU或DSP在时间轴上相对于声源406(单声道干源)对每只耳朵的期望声像位置的HRTF进行卷积，可以将声像定位在任何位置处。

图7是以下系统，在该系统中，除了图6所示的结构元件之外耳机414还包括诸如加速度传感器和陀螺仪传感器的传感器416，传感器416的位置相对于人400的头部是固定的，并且HRTF滤波器415的处理响应于头部的水平和垂直旋转而变化。因此，即使在收听者旋转他/她的头部时，也可以通过响应于头部的旋转而调整HRTF滤波器的处理来防止空间中的声像定位的识别位置发生变化。因此，收听者可以更真实地感受到声源406的声像定位。

图8是示出将根据实施方式的声音输出设备100应用于图6所示的系统的示例的示意图。更具体地，在图8中，使用声音输出设备100，并且声音引导部分120而不是耳机414被插入至收听者(人400)的耳朵中。如图8所示，图6所示的系统被应用于根据实施方式的基本构造的“耳开式设备”。在这种情况下，可以在保持收听者(人400)原样听到周围声音的同时，通过对HRTF进行卷积来在虚拟空间中定位声源406的声源信息。因此，可以在空间上对声源406进行定位，仿佛声音信息存在于与真实空间相同的空间中。此外，可以通过对HRTF进行卷积来在虚拟空间中定位声源406的声音信息。因此，可以再现声音，仿佛是虚拟扬声器再现声源406。声音输出设备100的声音生成部分110可以包括诸如图8所示的声源406、滤波器415、和放大器412的各结构元件。另外，图8中的这样的结构元件可以通过电路(硬件)或中央处理部件例如CPU以及用于使电路(硬件)或中央处理部件工作的程序(软件)来配置。

如图8中的配置示例所示，根据本公开内容的声音输出设备100基本包括：声音获取部分，其被配置成获取要输出至一端被布置在收听者的耳道的入口附近的声音引导部分的另一端的声音，该声音引导部分具有中空结构；以及头相关传输函数调整部分，其被配置成调整由声音引导部分捕获的声音的头相关传输函数。在图8所示的配置中，根据本公开内容的“声音获取部分”对应于滤波器415。另外，根据本公开内容的“头相关传输函数调整部分”与滤波器415和声像位置控制部分424对应。

在图8的配置示例中，以与图6类似的方式通过滤波器415对HRTF进行卷积。通过使用已知技术，通过滤波器415对从声源406的位置至收听者的耳朵的传递特性进行卷积，并且可以将声像定位在任何位置处。此处，HRTF_L表示从声源406至收听者左耳的路径的头相关传输函数，以及HRTF_R表示从声源406至收听者右耳的路径的头相关传输函数。在不对HRTF执行卷积的情况下，在一个人的头部中听到由声音输出设备100呈现的声音。在对HRTF执行卷积的情况下，可以在头部外部听见所述声音。因此，可以听到作为头部外部的声音的周围声音和由声音输出设备100呈现的声音两者。因此，用户可以收听周围声音和由声音输出设备100呈现的声音，使得收听者不会感觉到不自在。注意，可以将FIR滤波器实现为HRTF滤波器415。另外，也可以将通过频率轴上的计算或IIR的组合而近似的滤波器实现为HRTF滤波器415。

通常，大多数HRTF是在消声室或混响较少的房间中测量的。通过滤波器415对HRTF和声源406的声音进行卷积，人400可以识别声源406的近似方向和至声源406的近似距离，并且可以定位声像。另外，根据实施方式，如图9所示，通过滤波器418对声传递函数L和R进行卷积，以在再现期间将声音源406混合在周围环境中作为声像。声传递函数L和R主要包括关于反射声音和混响的信息。理想地，在假定实际再现环境或类似于实际再现环境的环境的情况下，期望的是使用在适当的两点之间(例如，在虚拟扬声器的位置与耳朵的位置之间)的传递函数(脉冲响应)。注意，即使声传递函数L和R处于相同的环境中，也可以例如通过为声传递函数L和R中的每一个选择不同的两点集合来将声传递函数L和R定义为不同的函数，从而提高声音环境的真实性。

在实际应用图9所示的系统的情况下，如图10所示，用户通过用户接口(UI)422从数据库420和421中选择声像定位的位置和声音环境的类型。数据库420和421存储多个滤波器。UI 422的示例包括设置在声音输出设备100上的开关、与声音输出设备100无线地协作的智能电话等的屏幕(触摸屏)、等等。

声像位置控制部分424响应于对UI 422执行的操作来控制声源406的声像位置。在这种情况下，响应于对UI 422执行的操作来从数据库420中选择最佳滤波器。另外，声音环境控制部分426响应于对UI 422执行的操作来控制声源406的声音。在这种情况下，响应于对UI 422执行的操作来从数据库421中选择与期望的声音环境对应的最佳滤波器。

例如，用户想要定位声源406的声像的位置有时根据个体之间的听觉差异或根据使用情形而不同。为此，允许用户操作UI 422以选择声像定位的位置。这使得收听者(用户)能够很便利地构建系统。另外，已知的是，由于个体的耳朵的形状，HRTF在个体之间是不同的。因此，用户可以从与多个耳朵形状对应的HRTF中选择与个体差异对应的最佳HRTF，所述与多个耳朵形状对应的HRTF被针对声像位置进行分类，并且被存储在数据库420中。

此外，在声音环境的情况下，用户可以通过使用UI 422来选择最佳的声音环境，以将声源406的声音设置在期望的声音环境中。例如，可以收听声音环境(诸如音乐会场地、电影院等)中的声源406的声音。

图11示出了以下配置：该配置还包括与由图7所示的传感器416(诸如加速度传感器和陀螺仪传感器)检测到的头部移动相关联地来相对于真实空间固定声像位置的处理。传感器416可以与声音输出设备100集成在一起。图11示出了传感器416检测头部的移动，并且声像位置控制部分424根据头部的移动从数据库420中自动选择最佳滤波器并且更新滤波器415的情况。注意，在这种情况下，在用户如图10所示通过使用UI 422指定声源406的声音的声像定位位置之后，优选的是如图11所示改变声像定位位置以跟随头部的移动。因此，即使在头部的方向变化的情况下，也可以控制头相关传输函数使得声像位置在空间中是恒定位置。

图12示出了通过无线系统例如蓝牙(注册商标)或Wi-Fi来提供声源406的声音的示例。此处，作为声源406的声音，可以使用通过麦克风440收集的发出指令的人(指导者)425的语音的声音，或者由自动内容读出部分426执行的读取的声音。任何这样的语音通过由选择部分428执行的切换来进行选择，并且被从无线通信部分430传送至声音输出设备100的无线通信部分432。由无线通信部分432接收到的声音以与图11类似的方式被传送至滤波器415。自动内容读出部分426读出存储在内容数据库434中的自动声音。在这种情况下，时间控制部分436控制时间，并且自动声音被读出。注意，在图12所示的配置中，无线通信部分432对应于根据本公开内容的“声音获取部分”。

例如，可以将图12所示的配置应用于图13所示的系统以在运动期间从他/她的教练得到建议，或者应用于图14所示的系统以在演示等期间从外部向演讲者给出指令。在图13所示的情况下，网球运动员在他的耳朵上佩戴声音输出设备100，并且网球教练作为指导者425通过语音发出指令。由麦克风440收集的声音被无线通信部分432接收，通过滤波器415和418经受处理，并且到达运动者的耳朵。例如，通过滤波器415的声像定位处理来设置虚拟扬声器900，使得教练的建议来自于运动者头部的右侧的后方的近似位置。在这种情况下，运动者还可以听到具有足够音量的周围声音，运动者可以在安全性方面享受运动，并且可以在运动期间收听来自教练的建议。

在图14所示的情况下，演讲者在他的耳朵上佩戴声音输出设备100，无线通信部分432接收由自动内容读出部分426读出的声音，滤波器415和418处理该声音，并且该声音到达演讲者的耳朵。例如，在这种情况下，也通过滤波器415的声像定位处理来设置虚拟扬声器900，使得读出声音来自于演讲者头部的左侧或右侧的后方的近似位置。相应地，即使在演示中讲话期间，演讲者也可以在听到场地中的反馈的同时接收语音指令，并且获得仿佛指导者在演讲者背后的体验。

如上所述，由用户听到的周围环境声音与来自声音输出设备100的指令声音之间在收听方式和距声像的距离上仅存在很小的差别。因此，由于耳朵集中在特定声音上，因此可以防止“注意力分散”，并且可以将注意力引导至声像位置。因此，与指令声音被偏侧化的传统情况相比较，还可以减少用户的注意力从周围环境声音过渡至指令声音所需要的时间。

另外，在图13和图14的情况下，以与图10类似的方式，通过响应于对滤波器415执行的操作鉴于用户关于HRTF的偏好(个体差异)来指定声像定位位置，或者通过响应于对滤波器418执行的操作来指定再现环境，可以更大地改善音频AR体验的真实性。例如，在图13的情况下，声音环境是室外，而在图14的情况下，声音环境是音乐厅等。另外，如图11所示，通过与由传感器416(诸如加速度传感器和陀螺仪传感器)检测到的头部移动相关联地来执行处理，可以感觉到仿佛声音输出设备100所呈现的声音信息被定位在真实世界中的特定位置处。因此，可以改善声音输出设备100所呈现的声音信息的真实性，并且由于鸡尾酒会效应，这具有可以更快地识别信息的优点。

注意，在图13和图14所示的使用方法的情况下，可以在声音输出设备100中安装用于电话通话的麦克风。图15是示出示设置有麦克风440的声音输出设备100的示例的示意图。例如，在图13所示的配置的情况下，可以通过将由麦克风440收集的声音从无线通信部分432传送至指导者终端(例如智能电话)，来在运动期间与教练进行通信。另外，在图14所示的使用语音提词器的情况下，当由麦克风440收集的声音被传送至指导者的终端时，可以使得指导者能够清楚地收听演讲者的对话。另外，例如，在图15所示的配置中，在使用安装在声音输出设备100中的麦克风时，声音环境识别控制部分442可以参考周围声音环境数据库443，识别周围声音环境，并且基于由麦克风440收集的声音信号来最佳地调整滤波器418。滤波器418被配置成调整声音环境。

图16是示出图15所示的配置中的声音环境识别控制部分442的具体配置示例的示意图。通过麦克风440收集的声音信号被传送至语音活动检测442a。VAD 442a确定当前正在由麦克风440收集的声音的主要分量是语音(人声)还是除了语音之外的声音(周围环境声音)，并且切换分析算法。作为由VAD 442a执行的确定方法，可以使用一般方法，例如谱之间的谱熵(spectrum entropy)和余弦值的组合。在VAD 442a确定声音信号流是语音的情况下，信号通过声音带通滤波器442b被滤波，并且由缓冲器442c进行缓冲，并且由自相关计算部分442d来计算其自相关。

图17是示出通过自相关计算部分442d来估计反射声音和混响的方法的示意图。在图17中，声音在时间0处生成。麦克风440被附接在声音输出设备100上，并且被配置在耳朵附近。因此，由麦克风440在时间0处收集的声音信号具有高S/N。另一方面，所生成的声音在周围环境例如房间中被反射，并且在时间0之后生成早期反射声音和混响分量。因此，可以通过使用在时间0处的用户自身的语音作为声源并且计算自相关来估计早期反射声音的水平、时间、混响等。

另一方面，在VAD 442a确定声音信号流是非语音的情况下，确定收集的声音是周围环境声音本身。为了分析周围环境声音的特征，通过使用用于各个频带的带通滤波器(BPF)442e来对周围环境声音进行分类，计算各个频带中的能量，并且缓冲器442f存储各个频带中的能量以及各个频带中的能量的时序变化(变动)。对照预备的周围声音环境数据库442g来检查该结果，模式匹配部分442h将该结果与周围声音环境数据库442g进行匹配，并且选择最相似的最佳声音环境的频谱特性。最佳声音滤波器生成部分442i将根据非语音获得的特性与在确定声音信号是语音时获得的特性进行集成，来生成模拟周围声音环境的滤波器。

另外，如图16中的虚线箭头所指示的，在确定声音信号是语音时获得的早期反射声音、混响行为信息(水平和时间)、以及关于周围环境声音的频谱和时间变化的信息可以被直接输入至模式匹配部分442h，并且从周围声音环境数据库442g中选择被综合认为是最相似的特性，以生成滤波器。在这种情况下，可以根据关于早期反射声音和混响的信息来生成被综合认为是最相似的滤波器。

图18是示出以下示例的示意图：在该示例中，声音输出设备100能够执行与具有丰富计算资源的电子设备500(例如智能电话)的通信，并且电子设备500包括声音环境识别控制部分442和周围声音环境数据库443。根据图18所示的配置，由声音输出设备100的麦克风440收集的声音信息被从无线通信部分432传送至电子设备500的无线通信部分430。基于声音信息，电子设备500的声音环境识别控制部分442参考周围声音环境数据库443来识别周围声音环境。关于声音环境识别控制部分442所识别的声音环境的信息被从电子设备500的无线通信部分430传送至声音输出设备100的无线通信部分432。基于与从电子设备500接收的声音环境相关的信息来控制声音输出设备100的滤波器418。

注意，如图18中使用虚线所示的，声音环境识别控制部分442和周围声音环境数据库443可以被设置在电子设备500的外部。例如，声音环境识别控制部分442和周围声音环境数据库443可以被设置在能够与电子设备500进行通信的云或另一设备中。在这种情况下，还可以通过将由麦克风440收集的声音信息传送至另一设备或云端服务器来识别声音环境。

注意，在上述示例中，声音环境信息是基于由麦克风440收集的信息而被识别和确定，并且最佳滤波器418被设置。然而，如图19所示，包括在声音输出设备100中的GPS 446可以直接确定位置，云或智能电话可以基于确定的结果来解释地图信息，并且例如可以获取与声音输出设备100的用户所处的建筑物或位置对应的典型声音环境。根据图19所示的配置，由GPS 446获取的位置信息被传送至云端服务器中的声音环境识别部分600。基于位置信息，声音环境识别部分600参考地图信息来获取与用户所在的建筑物、位置等对应的声音环境，并且将声音环境传送至声音输出设备100的声音环境控制部分442。声音环境控制部分442基于根据位置信息获得的声音环境来控制滤波器418。

注意，图19示出了声源406在云端的示例。声源406的声音信息由编码器进行编码，通过无线通信传送至声音输出设备100，并且由声音输出设备100解码。

另外，由于声音输出设备100包括GPS 446，因此可以基于通过GPS446获取的信息来对收听者400进行导航。因此，例如，即使在如图20所示的驾驶车辆的情况下，在如图21所示的骑自行车的情况下，或者在如图22和图23所示的步行的情况下，用户也可以在听到周围声音的同时从声音输出设备100收听导航信息。作为示例，通过滤波器415对声像进行定位使得导航语音位于用户的头部上方或者用户的脚部附近。通过将声像定位在与一般周围声音生成源的位置不同的位置处，用户可以通过听觉来清楚地区分导航语音与周围声音，并且即使在驾驶的情况下，用户也可以在听到周围声音的同时安全地收听导航语音。

图24是示出基于通过GPS 446获取的信息来对收听者进行导航的配置的示例的示意图。图24所示的配置包括声音输出设备100和诸如智能电话或云端服务器的系统700。在图24中，由GPS 446获取的位置信息经由无线通信部分432和无线通信部分710被传送至智能电话或云端中的系统700。

系统700中的无线通信部分710将位置信息传送至导航系统702。导航系统702基于位置信息将导航语音信息传送至声源406。

另外，由传感器416和麦克风440获取的信息也经由无线通信部分432传送至智能电话或云端中的系统700。设置在智能电话或云端中的系统700中的声像位置控制部分424基于传感器416的信息来控制滤波器415以控制声像位置。另外，设置在智能电话或云端中的系统700中的声音环境识别控制部分442基于麦克风440的信息来识别声音环境以控制滤波器418。

根据图24所示的配置，声源406被配置为立体声声源。声源406包括右声道(Rch)的声源406a和左声道(Lch)的声源406b。另外，用于设置声音环境的滤波器418包括右声道(Rch)的滤波器418a和左声道(Lch)的滤波器418b。另外，用于设置声像位置的滤波器415包括右声道(Rch)的滤波器415a-1和415a-2，以及左声道(Lch)的滤波器415b-1和415b-2。因此，声音环境识别控制部分442可以分别控制左右滤波器418a和418b，并且声像位置控制部分424可以分别控制左右滤波器415a-1、415a-2、415b-1和415b-2。

例如，当在从声源406向用户提供导航语音信息的情况下目的地、目标对象、将来移动方向等在左侧或右侧时，期望的是，呈现声音仿佛声像被定位在朝向目的地、目标对象或将来移动方向的方向上。例如，当目的地、移动方向等在左侧时，导航语音信息的声像被设置在左侧的位置。因此，用户可以快速并且容易地识别方向。这引起用户更安全的行为。

因此，例如，当目的地、移动方向等在左侧时，声像位置控制部分424基于导航信息控制左右滤波器415a-1、415a-2、415b-1和415b-2，使得导航语音信息定位在用户的左侧，并且用户可以听到来自用户左侧的导航语音信息。

加法部分704a将来自滤波器415a-1和滤波器415b-1的输出进行相加，并且将其传送至无线通信部分710。加法部分704b将来自滤波器415a-2和滤波器415b-2的输出进行相加，并且将其传送至无线通信部分710。无线通信部分710将从加法部分704a和704b获得的声音信息传送至声音输出设备100的无线通信部分432。声音输出设备100使用放大器对从系统700传送的声音信息进行放大，并且将放大的声音信息提供给用户。

通过使用这样的配置，声像位置控制部分424可以自由地设置声像位置。例如，如图20和图21所示，可以通过声像定位来设置虚拟扬声器900，其中该虚拟扬声器900被定位为空间中的声像，并且可以自由设置虚拟扬声器900的位置并且向用户提供语音。因此，当目的地、移动方向等在左侧时，用户可以从左侧听到导航语音信息。

注意，根据图24所示的配置，当不需要导航时可以再现立体声音乐。在这种情况下，如图20和图21所示，还期望通过声像定位来设置被定位为空间中的声像的虚拟扬声器900，并且从虚拟扬声器900再现声音。在这种情况下，如图24所示，也可以通过分别对右声道(Rch)和左声道(Lch)执行滤波来自由地设置虚拟扬声器900的位置。

因此，用户可以清楚地区分周围环境声音和从声音环境设备100提供的声音。例如，当将导航声音信息或立体声音乐正好定位在用户的上方或下方时，更容易区分导航语音信息或立体声音乐与周围环境声音。因此，即使在周围环境声音包括人声或音乐的情况下，用户也可以清楚地区分周围环境声音与从声音输出设备100提供的导航语音信息或立体声音乐。因此，即使在如图20所示驾驶车辆时、在如图21所示骑自行车时、或者在如图22或图23所示步行时使用声音输出设备100的情况下，也可以清楚地区分周围环境声音与从声音输出设备100提供的声音。这确保了安全。

接下来，将描述多个收听者欣赏相同内容的情况。图25示出了多个收听者观看歌舞伎的情况，图26示出了多个收听者观看歌剧的情况。在用户观看这样的演出的情况下，可以通过佩戴声音输出设备100来获取与演出有关的子信息。

通常，用于提供语音的大多数设备通过耳机提供语音，其中该语音用作为歌舞伎或歌剧的子信息。此处，子信息语音的示例包括多种语言的演出内容的说明。然而，耳机覆盖耳朵。因此，用户不能通过他们的耳朵欣赏在用户面前播放的演奏、歌曲或音乐的直接声音。出于这个原因，一些观众选择不收听子信息。然而，通过使用根据实施方式的声音输出设备100，可以没有打扰地向耳朵传递歌剧、歌舞伎等的直接声音。因此，用户可以直接收听作为周围环境声音的、来自虚拟扬声器900的直接声音。另外，通过声音输出设备100输出子信息的语音，例如，可以将子语音信息的声像定位在收听者的左后侧，并且收听者可以听到说明，仿佛是某人在他/她耳边低语。因此，用户可以在得到说明信息的同时直接听到演出等的现场声音并且享受场地中的气氛。

图27示出了通过声音广播设备750的无线通信部分752向各用户的声音输出设备100传递诸如演出说明的声音信息的示例。作为示例，无线通信部分752通过FM广播传递声音信息。用户可以通过利用声道的概念来通过他/她的手切换语言。

在图27所示的配置示例中，声源406以与图24类似的方式被配置成立体声声源。声源406包括右声道(Rch)的声源406a和左声道(Lch)的声源406b。另外，以与图24类似的方式，声音传递设备750包括滤波器415和418、声像位置控制部分424以及声音环境控制部分426。用户可以通过操作UI来设置声像位置和声音环境。具体地，在图25和图26所示的示例中，演出的主人等根据场地来控制声像位置控制部分424和声音环境控制部分426。因此，可以设置最佳的声像位置和声音环境。

图28示出了以下示例，在该示例中对于图27所示的配置，使用各种语言的演出说明的声音信息，并且HRTF滤波器415的类型可以根据个体之间的HRTF和声像定位位置的差异(兼容性)来切换。如图28所示，当无线通信部分752传送根据声道的不同而不同的子信息内容时，接收这样的子信息内容的用户可以通过经由UI 422切换接收声道来根据用户的偏好接收最佳的子信息内容。用户通过UI 422选择的声道切换信息被从声音输出设备100的无线通信部分432传送至说明语音信息提供者侧的无线通信部分752，并且声道被切换。

过去，指导者的语音、导航语音、说明性子语音等被作为单个干源声源。然而，当将其视为“单个对象”时，可以扩展和应用根据本公开内容的实施方式的系统，使得多个对象被同时再现为声源。例如，如图29所示，可以将本公开内容应用于在博物馆中提供多个虚拟声源的系统。在这种情况下，传感器416和GPS 466检测信息(诸如展览室中的收听者的头部的方向或收听者的位置)，通过使用另一系统(包括云端中的系统)来分析该信息，并且与分析的结果相对应的声音被传送至声音输出设备100。因此，可以通过使用虚拟声源(虚拟扬声器900)来构建展览引导系统。例如，在图29所示的示例中，当佩戴声音输出设备100的用户正站在中心的石雕前面时，GPS 446将位置信息传送至声音传递设备750，并且与该位置对应的声音(在这种情况下，假设石雕说些什么)被传送至声音输出设备100并且被提供给用户。以类似的方式，如图29所示，当佩戴声音输出设备100的用户正站在特定位置时，向用户提供诸如“沙漠中的风声”、“法老的尖叫声”、“骆驼的脚步声”、“将用户引导至建议路线的叙述者的语音”等的声音。

例如，当该系统应用于展厅内的所有用户时，所有用户可以在相互进行会话的同时体验在相同声像位置处声源(虚拟扬声器900)的存在，共享虚拟声像的存在，以及欣赏真实世界与虚拟声源的混合。当然，该声音专用于每个个体。因此，可以以与每个个体对应的语言来再现声音。与扬声器的情况不同，彼此说不同语言的多个用户彼此可以欣赏相同的内容。

注意，虽然表演者实时地进行演出(例如演奏音乐、歌唱、进行演奏等)，但是优选地准备预先录制的说明语音。通常，预先创建基于平均演出进度时间的说明内容，并且操作者根据演出的实际进度速度将序列的速度变快或变慢。因此，可以最佳地调整说明语音。

接下来，将描述对来自声音输出设备100的语音的供应和来自立体声声源等的语音的供应进行组合的系统。例如，可以在针对立体声声源(例如音乐)的同时通过使用头戴式耳机来表示虚拟扬声器。在这种情况下，可以定位声像，仿佛虚拟扬声器900处于虚拟声像位置。

例如，在构建图30所示的系统的情况下，通过使用无线通信部分800，多个用户可以同时欣赏来自虚拟扬声器的音乐。还可以将该系统应用于记录在蓝光盘、DVD盘等中的多声道内容。例如，在假设扬声器的布置如图31所示的情况下配置5.1声道多声道内容。以类似于立体声声源的方式，可以通过设置与各扬声器的位置对应的虚拟扬声器来通过头戴式耳机欣赏这样的5.1声道多声道内容。注意，作为用于在头戴式耳机中再现经受信号处理的所有扬声器声道的家庭影院相关的产品，使用这样的原理和头戴式耳机的许多虚拟环绕产品已经成为商业现实。

然而，在根据本公开内容的实施方式中，如图32所示，电视机的实际扬声器被用于来自前面的声音，并且虚拟扬声器900被用于来自后面的环绕声音，其中该虚拟扬声器900的声像通过使用声音输出设备100来进行定位。在这种情况下，由于使用声音输出设备100代替后面的环绕扬声器，所以前方的大型扬声器可以再现低音，并且不需要安装环绕扬声器。因此，即使在难以安装环绕扬声器的小房间的情况下，也可以获得环绕声音效果。

图33和图34是示出图32所示的系统的配置的示意图。在图33和图34中，包括多声道声音数据的多声道声音内容(云或分组)通过声源406(虚拟环绕设备)被分解成5.1声道的各个声道源，并且通过放大器802从实际扬声器804输出除了SL和SR之外的声音，其中SL和SR是后环绕声道。注意，扬声器804对应于本公开内容的“声音输出部分”。

在图33中，在后环绕声道SL和SR的声音数据无线传输至声音输出设备100之前，滤波器415a-1、415a-2、415b-1和415b-2对后环绕声道SL和SR的声音数据执行HRTF滤波处理。因此，以与图27类似的方式，接收侧的声音输出设备100不具有滤波处理机构，并且可以实现简单的结构。例如，可以通过普通的蓝牙耳机等来实现声音输出设备100。

另一方面，图34所示的系统将声源(SL和SR)不做任何改变地传送至声音输出设备100，其中该声源(SL和SR)的声像要被虚拟地定位，并且声音输出设备100基于HRTF通过滤波器415执行滤波处理。在这种情况下，与图33相比较，可以通过使用专用于每个用户的HRTF来通过过滤器415执行处理。此外，通过与传感器416例如陀螺仪传感器结合，可以以与图11类似的方式响应于头部的移动来动态地控制声像位置。这实现了高功能应用。

注意，在图33和图34中，延迟部分860和862被建立在SL和SR侧，以及在声源的其他路线上。在图33和图34中，延迟部分860被设置在声源406与放大器802之间。在图33中，延迟部分862被设置在无线通信部分432与放大器412之间。

延迟部分860和862被设置用于在多声道之间的再现期间使来自真实扬声器804的声音与来自声音输出设备100的声音同步。图35是示出在从声源406输出声音与该声音经由真实扬声器804到达用户之间的时间Tac，以及在从声源406输出声音与该声音经由声音输出设备100到达用户之间的时间的示意图。

在图35中，对于图33所示的系统，Tpr表示HRTF或声音环境滤波的处理时间，Twl表示通过蓝牙(注册商标)等进行无线传输所花费的时间，并且Tac表示声音从扬声器804直接传播至用户的耳朵所花费的时间。此处，当调整Td1和Td2使得下面列出的式子被满足时，可以使来自真实扬声器804的声音与来自声音输出设备100的声音同步，并且可以获得期望的系统。

Td1+Tac＝Td2+Tpr+Twl

通常，视频也与来自真实扬声器804的声音同时地再现。因此，期望将上面列出的式子中的左侧和右侧的值抑制到最小。例如，假设蓝牙(注册商标)被用作图33中的系统的无线通信，并且用户的听觉距离(从真实扬声器804至用户的距离)是1m，基于A2DP，Twl约为250ms，且Tac约为3ms(声速为340m/s)。假设Tpr为零，则可以得到Td1＝247ms，并且Td2＝0[s]。通常，无线系统中的延迟较大。因此，声音输出设备100不必须包括延迟部分862。

在假设用户的使用环境的情况下，上述数值可以预先设置在设备或装备中，或者可以由用户手动设置。另一方面，也可以自动测量和设置延迟值。图36示出了同时通过两个再现路线(从真实扬声器804再现和从声音输出设备100再现)同时再现测量信号A和B并且测量延迟值的情况。参照图36，麦克风440被安装在声音输出设备100中，并且可以通过对测量信号响应的波形和频率的分析处理来计算延迟量。具体地，从麦克风440和无线通信部分432获取测量信号A和测量信号B的响应信号，对响应信号进行缓冲，对波形执行频率分析，并且计算延迟差。延迟差的数值被从无线通信部分432经由无线通信部分752返回至声源406侧。因此，可以设置延迟部分860的延迟量。

作为同时再现的测量信号A和测量信号B的示例，例如，可以通过使用FFT来单独地执行分析，只要它们具有以下波形：该波形具有如图37所示的不同频率分量。例如，可以通过观察频率响应(其包括从测量开始起经过的时间)，根据测量信号A的路线与测量信号B的路线之间的差来计算时间差。在这种情况下，也可以将信号声音成形为音阶，并且将该声音再现为旋律(音乐)，以便不会使用户对测量信号感到不舒服。

注意，在图36中，延迟量是在声音输出设备100中计算的。然而，也可以对测量响应信号本身或根据测量响应信号获得的信息进行压缩，将其传送至声源406侧的系统或另一系统，并且在有足够计算资源的地方计算延迟时间。注意，虽然没有示出，但是在鉴于声音和视频同步(唇同步)而声音延迟太大的情况下，可以通过在视频侧提供视频延迟设备(帧缓冲器)来实现声音和视频同步。

另外，如图38所示，根据本公开内容的实施方式的技术在电影院中也是有效的。例如，为了有效地再现内容，在电影院中使用丰富的再现系统来再现前方声音或低音时，声音输出设备100在每个用户周围再现声音，并且将语音低声送到他/她的耳朵中。因此，可以提供很好的声音效果。例如，从声音输出设备100，而不是电影院中的扬声器，提供在电影中的人上方盘旋的直升机的声音。因此，每个收听者可以获得仿佛直升机在他/她自己上方盘旋的听觉。图38示出了四个独立的对象声源(Obj1至Obj4)，以示出电影内容中包括的对象声源的单独再现，而不是示出从虚拟扬声器的再现。在这种情况下，四个对象声源被定位在靠近每个收听者后面的位置处。因此，不论他/她的座位在电影院中的位置如何，每个人均可以同时感觉到定位在他/她后面的位置处的对象声源，并且可以获得新的再现效果。对于声道与对象之间的差异，声道被解释为“不从初始位置移动的声源”，并且对象被解释为“能够随时间移动的声源”。通常，对象作为以下信息而存在：对象另外地与位置相关联的元信息、关于移动(例如速度和加速度)的信息等。在最近的电影的一些声音格式中，对象声源(干源)和元信息二者均被记录，使得它们被添加至与各个再现扬声器对应的各个声道的内容，并且根据再现环境被最佳地渲染。在一般处理中，对象声源根据再现环境而被渲染，被添加至声道信息，并且然后被从各个扬声器再现。

另外，以类似于图28的方式，该系统可以容纳许多不同的语言。因此，当电影或电视内容中的对话部分(台词)被视为要传送至声音输出设备100的对象时，每个人均可以在同一电影院中选择他/她的母语。如图39所示，在内容包括用作为声音输出设备100的再现目标的声道和对象的情况下，将声音输出设备100的再现目标与要在真实扬声器804中再现的声道和对象分离开。根据实施方式的系统被构建成使得在声道的情况下，如上所述，期望由声音输出设备100再现的声源经受以下处理：将声源放置作为位置固定的虚拟扬声器的处理，并且在对象的情况下，根据对象的定位位置的描述来适当地定位(渲染)虚拟声像，并且它们被混合至两个声道中并以无线方式传送。如图39所示，用户可以以与图28类似的方式从多种类型的HRTF中选择HRTF，以使HRTF与个体之间的差异(兼容性)相匹配。注意，即使在一个内容的情况下，也实现了同步再现，使得延迟部分810被设置在真实空间侧，并且如上所述插入适当时间量的延迟处理，以使从真实扬声器804再现的声音与从声音输出设备100再现的声音同步。

注意，在图37中，使用不同频率的多个正弦波来测量延迟时间。该方法使用时间延展脉冲(TSP)。可以在测量了至声音输出设备100中所安装的麦克风440的延迟之后执行调整。另外，至声音输出设备100的无线再现信号不必须经过麦克风440。可以测量作为电信号的信号。无线传播或无线相关系统中的延迟是必然的。因此，在此时并不总是需要再现。在电信号的情况下，可以使声音输出设备100侧的放大器消音。

注意，关于真实扬声器804与声音输出设备100的麦克风440之间的延迟的测量，在JP 4285457B、JP 4210859B、JP 4407541B和JP 4466453B中描述的技术作为用于多声道扬声器的自动声场校正技术是已知的。例如，当这样的技术应用于声音输出设备100时，可以通过将麦克风440布置在声音输出设备100中的与耳朵对应的各个部分上来测量距多个扬声器(三个扬声器SP-L、C和R)的各个距离。可以通过使用TSP顺序地执行测量本身，或者可以以与图37类似的方式通过使用独立的正弦波来在各个扬声器中同时执行测量。因此，可以获得距扬声器系统(其包括真实扬声器804)的距离和相对于用户的角度。通常，声音输出设备100与包括真实扬声器804的扬声器系统之间的角度是未知的。因此，认为声音输出设备100的左后和右后方虚拟扬声器的位置被设置在用户的头部后方的左右侧。通过使用麦克风440，可以识别距扬声器系统的距离和相对于用户的角度。因此，也可以在与扬声器和用户的位置和角度对应的位置处创建虚拟扬声器。在这种情况下，以与在前方的真实扬声器类似的方式，不论头部的旋转如何，还可以通过将传感器416例如陀螺仪传感器附接至声音输出设备100，来将后方虚拟扬声器的位置固定在房间中的特定位置处。

另外，作为用于用户的再现的示例，可以使用包括这样的延迟可测量分量(delaymeasurable component)的声音作为“设备启动声音”。另外，在电影院的情况下，测量信号可以混合在“电影院礼仪PSA”或电影之前的广告中。因此，可以在不让用户识别测量的情况下测量每个用户的延迟时间。

如上所述，根据实施方式，在图1所示的声音输出设备100向收听者提供声音的情况下，可以通过调整头相关传输函数来将声像定位在期望的位置。因此，直接进入他/她的耳朵的声音不被打扰，并且用户可以清楚地区分直接进入他/她的耳朵的声音与从声音输出设备100提供的声音，使得收听者不会感觉到不自在。因此，声音输出设备100可以在不打扰直接进入他们耳朵的声音的情况下向收听者提供各种信息例如导航信息。

上面参照附图描述了本公开内容的一个或多个优选实施方式，但是本公开内容不限于上述示例。本领域的技术人员可以发现在所附权利要求的范围内的各种变化和修改，并且应该理解，它们将自然地落入本公开内容的技术范围内。

此外，在本说明书中描述的效果仅是说明性或示例性的效果，而非限制性的。即，与上述效果一起或代替上述效果，根据本公开内容的技术可以实现本领域的技术人员根据本说明书的描述而清楚的其他效果。

另外，本技术也可以如下配置。

(1)一种声音输出设备，包括：

声音获取部分，其被配置成获取要被输出至一端布置在收听者的耳道的入口附近的声音引导部分的另一端的声音，所述声音引导部分具有中空结构；以及

头相关传输函数调整部分，其被配置成调整由所述声音引导部分捕获的声音的头相关传输函数。

(2)根据(1)所述的声音输出设备，还包括：

声音环境调整部分，其被配置成调整由所述声音引导部分捕获的声音的声音环境。

(3)根据(1)所述的声音输出设备，

其中，所述头相关传输函数调整部分改变所述头相关传输函数，使得所述声音的声像被定位在与直接进入收听者的耳朵的周围声音的位置不同的位置处。

(4)根据(1)所述的声音输出设备，

其中，所述头相关传输函数调整部分改变所述头相关传输函数，使得所述声音的声像被定位在收听者的头部上方或者收听者的脚附近。

(5)根据(1)所述的声音输出设备，

其中，所述头相关传输函数调整部分基于由收听者执行的操作来调整所述头相关传输函数。

(6)根据(2)所述的声音输出设备，

其中，所述声音环境调整部分基于由收听者执行的操作来调整所述声音环境。

(7)根据(2)所述的声音输出设备，

其中，所述声音环境调整部分基于收听者的周围环境的声音信息来调整所述声音环境。

(8)根据(7)所述的声音输出设备，

其中，所述声音环境调整部分基于将所述周围环境的声音信息分离成人声和除了所述人声之外的环境声音的结果来调整所述声音环境。

(9)根据(2)所述的声音输出设备，

其中，所述声音环境调整部分从另一设备获取对收听者的周围环境的声音信息进行分析的结果，并且调整所述声音环境。

(10)根据(2)所述的声音输出设备，

其中，所述声音环境调整部分基于收听者的位置信息来调整所述声音环境。

(11)根据(1)所述的声音输出设备，

其中，所述头相关传输函数调整部分基于收听者的头部的方向来调整所述头相关传输函数。

(12)根据(2)所述的声音输出设备，

其中，所述头相关传输函数调整部分调整所述头相关传输函数，使得声像位置是恒定位置，而与收听者的头部的方向无关。

(13)根据(1)所述的声音输出设备，包括

声音输出部分，其被配置成输出要在不经过所述声音引导部分的情况下被传送至收听者的耳朵的声音。

(14)根据(13)所述的声音输出设备，

其中，要被输出至所述声音引导部分的声音和要在不经过所述声音引导部分的情况下被传送至收听者的耳朵的声音中的一者被延迟。

(15)根据(13)所述的声音输出设备，包括

延迟部分，其被配置成与要被输出至所述声音引导部分的声音相比较，对要在不经过所述声音引导部分的情况下被传送至收听者的耳朵的声音进行延迟。

(16)根据(1)所述的声音输出设备，包括

被配置成获取收听者的位置信息的位置信息获取部分，

其中，所述声音获取部分基于所述位置信息来获取导航信息。

(17)根据(1)所述的声音输出设备，

其中，所述声音获取部分获取收听者的言语或用于给出关于收听者的移动的指令的语音。

(18)根据(1)所述的声音输出设备，

其中，所述声音获取部分获取用于以由收听者从多种语言中指定的语言来说明收听者视觉上识别的任何事件的引导信息。

(19)一种声音生成方法，包括：

获取要被输出至一端布置在收听者的耳道的入口附近的声音引导部分的另一端的声音，所述声音引导部分具有中空结构；以及

调整由所述声音引导部分捕获的声音的头相关传输函数。

(20)一种使计算机用作以下装置的程序：

用于获取要输出至一端布置在收听者的耳道的入口附近的声音引导部分的另一端的声音的装置，所述声音引导部分具有中空结构；以及

用于调整由所述声音引导部分捕获的声音的头相关传输函数的装置。

附图标记列表

100 声音输出设备

415、418 滤波器

416 传感器(加速度传感器和陀螺仪传感器)

422 UI

424 声像位置控制部分

426 声音环境控制部分

440 麦克风

442 声音环境识别控制部分

446 GPS

804 扬声器

860 延迟部分

Claims

1.一种声音输出设备，包括：

声音获取部分，其被配置成获取要输出至一端布置在收听者的耳道的入口附近的声音引导部分的另一端的声音，所述声音引导部分具有中空结构；以及

2.根据权利要求1所述的声音输出设备，还包括：

3.根据权利要求1所述的声音输出设备，

其中，所述头相关传输函数调整部分改变所述头相关传输函数，使得所述声音的声像的位置被定位在与直接进入收听者的耳朵的周围声音的位置不同的位置处。

4.根据权利要求1所述的声音输出设备，

其中，所述头部相关传递函数调整部分改变所述头部相关传递函数，使得所述声音的声像的位置被定位在收听者的头部上方或者收听者的脚附近。

5.根据权利要求1所述的声音输出设备，

6.根据权利要求2所述的声音输出设备，

7.根据权利要求2所述的声音输出设备，

8.根据权利要求7所述的声音输出设备，

9.根据权利要求2所述的声音输出设备，

10.根据权利要求2所述的声音输出设备，

11.根据权利要求1所述的声音输出设备，

12.根据权利要求2所述的声音输出设备，

其中，所述头相关传输函数调整部分调整头相关传输函数，使得无论收听者的头部的方向如何，声像位置是恒定位置。

13.根据权利要求1所述的声音输出设备，包括：

声音输出部分，其被配置成输出要在不经过所述声音引导部分的情况下传送至收听者的耳朵的声音。

14.根据权利要求13所述的声音输出设备，

其中，要输出至所述声音引导部分的声音和要在不经过所述声音引导部分的情况下传送至收听者的耳朵的声音中的一个声音被延迟。

15.根据权利要求13所述的声音输出设备，包括：

延迟部分，其被配置成：与要输出至所述声音引导部分的声音相比较，对要在不经过所述声音引导部分的情况下传送至收听者的耳朵的声音进行延迟。

16.根据权利要求1所述的声音输出设备，包括：

位置信息获取部分，其被配置成获取收听者的位置信息，

其中，所述声音获取部分获取基于所述位置信息的导航信息。

17.根据权利要求1所述的声音输出设备，

其中，所述声音获取部分获取收听者的话音或用于给出关于收听者的移动的指令的语音。

18.根据权利要求1所述的声音输出设备，

其中，所述声音获取部分获取引导信息，所述引导信息用于以多种语言当中由收听者指定的语言来说明收听者在视觉上识别的任何事件。

19.一种声音生成方法，包括：

获取要输出至一端布置在收听者的耳道的入口附近的声音引导部分的另一端的声音，所述声音引导部分具有中空结构；以及

调整由所述声音引导部分捕获的声音的头相关传输函数。

20.一种使计算机用作以下装置的程序：