CN110383374A

CN110383374A - 音频通信系统和方法

Info

Publication number: CN110383374A
Application number: CN201880015982.8A
Authority: CN
Inventors: 西尔维乌·兹伯曼; T·沙尼; N·巴巴约夫
Original assignee: NOVETO SYSTEMS Ltd
Current assignee: NOVETO SYSTEMS Ltd
Priority date: 2017-01-05
Filing date: 2018-01-04
Publication date: 2019-10-25
Also published as: US20200245089A1; US10694313B2; US10952008B2; US20190349703A1; IL267839B2; EP3566224A4; EP3566466A4; IL267839A; IL267839B1; WO2018127915A1; EP3566466A1; IL267838A; EP3566224A1; WO2018127901A1

Abstract

公开了用于产生双耳音频空间的系统和方法。在一些实现方式中，该方法包括：提供指示音频数据段和虚拟源的相对位置的分级音频数据，音频数据段应从该虚拟源的相对位置被指定收听者感知；确定被指定为收听者的用户的头部的位置(例如位置和方位)；以及朝着位于用户的头部附近的一个或更多个选定音频中心点传输一个或更多个超声场，以用于通过来自超声效应的声音来产生将音频数据段分别传送到用户的左耳和右耳的左可听声场和右可听声场。根据一些实现方式，基于虚拟源的相对位置和用户的头部的位置来控制一个或更多个超声场的至少一个参数，使得在相应的左可听声场和右可听声场之间的差异被用户感知为从虚拟源的相对位置传播到用户的可听声场。

Description

音频通信系统和方法

技术领域

本发明属于利用音频通信的人机接口的领域，并且与用于提供免提音频通信和生成3D听觉空间的系统和方法有关。

背景

音频通信占据人类交互的一大部分。我们进行电话交谈，听与电视节目相关的音乐或声音，以及接收警报，例如闹钟或微波炉或洗碗机循环的结束。

声学信号的自然波行为和相对长的波长导致声波的大范围扩散，并允许位于共同区域中的人听到声音并感知其上携带的数据。

已知用于允许用户通过声音进行通信同时保持通信的私密性的各种技术。在这些技术之间，最出名的示例包括电话接收机和头戴式耳机或耳机，它们都提供指向用户的一只耳朵或两只耳朵的相对低振幅的声学信号。

人和动物的双耳听力使他们能够在听觉空间内在三维中定位声音(即分辨方向和可能还分辨距离，并区分开从在听觉空间中的不同位置到达的声音)。

这是可能的，因为大脑通过比较由左耳和右耳感测的双耳声音以识别在两耳之间的指示声源的方向/位置的声音修改/差异(声音提示)来推断声源的方向和可能还推断距离/位置。在所包括的声音提示当中存在到达时间差和由于声音从源分别到两只耳朵的传播的声学路径差而导致的强度差以及由从声源到达的声音与头/耳解剖结构的相互作用引起的声谱(频谱)修改，其中原始源声音在其进入耳道被听觉系统处理之前被修改。大脑处理由两个不同的耳朵捕获的声音的这些修改以推断声源的方向和可能距离。

通过利用在头戴式耳机上呈现的声音的适当过滤，三维(3D)听觉空间(所谓的虚拟听觉空间(VAS))的幻觉可以由头戴式耳机生成。当利用头戴式耳机时，头部相关传递函数(HRTF)通常用于执行在头戴式耳机的每个单独的头戴式耳机上呈现的声音的适当过滤，以创建VAS。

通常，头部相关传递函数(HRTF)是表征用户的耳朵如何从空间中的点接收声音的响应函数。如上面所指示的，用户的头部和耳朵的属性(例如，其大小和形状和/或机械属性)转换由耳膜感测到的声音，并从而影响来自空间中的不同点的声音如何被感知，并且特别是对从相对于用户的不同方向到达用户的声音引入不同的频谱修改。通常，一些声音频率(例如2-5kHz)被放大，而其它声音频率被衰减，同时放大/衰减的参数通常取决于声源的方向以及可能还取决于距离。也如上面所指示的，由于从源分别到两只耳朵的声学路径差，时间延迟和强度差被引入到从同一声源到达用户的左耳和右耳的声音的过程中。

虚拟听觉空间(VAS)感觉可以例如由头戴式耳机通过分别利用用户的两只耳朵的一对HRTF来创建，以合成由用户感知为来自空间中的特定方向/位置的双耳声音。HRTF根据相对方向(声音从相对方向到达相应的耳朵)对声音引入频谱修改。HRTF呈现由头部对在自由空气中从特定方向传播的声音应用的频谱修改，直到声音到达并被特定耳朵的耳膜感测为止。此外，适当的相对时间延迟和强度差一般也分别被引入到传输到两只耳朵的声音，由此，时间延迟和强度差的大小取决于声音从声源的特定方向/位置朝着相应耳朵的不同轨迹/路径(直接或间接)。

最近，用于从远程扬声器(即超声换能器)产生/生成私人/受限声场的新颖技术被本专利申请的受让人开发。根据这些技术，当声音发生器换能器位于远处时，可以在空间中的某个位置处生成私有/受限可听声场(也常常被称为“声音气泡”)。

更具体地，WO 2014/076707公开了一种用于在指定空间位置上生成局部可听声场的系统和方法。根据这种技术，携带预定声音数据的在空间上受限的可听声音在它应该被听到的指定空间位置处局部地产生。甚至更具体地，根据所公开的技术，为了生成携带期望声音数据的局部受限的可听声音，基于声音数据来确定至少两个超声波束的频率内容，并且至少两个超声波束的频率内容是由声换能器系统(例如，包括多个超声波换能器元件的布置的换能器系统)传输的。然后，空间上受限的可听声音由至少两个超声波束在指定位置处产生。例如，所述至少两个超声波束包括至少一个主音频调制超声波束，其频率内容包括至少两个超声波频率分量和一个或更多个附加超声波束，所述至少两个超声波频率分量被选择为在非线性介质中经历非线性相互作用后产生可听声音，每个附加超声波束包括一个或更多个超声波频率分量。指示指定位置的位置数据用于确定分别关于至少两个超声波束的至少两个焦点，使得将至少两个超声波束聚焦在至少两个焦点上实现生成在指定空间位置附近具有可听声音的局部声场。

也转让给本申请的受让人的WO 2014/147625描述了一种换能器系统，其包括具有一个或更多个压电使能箔/片/层的面板和耦合到面板的电触头的布置。电触头被配置成限定在面板中的多个换能器。每个换能器与面板的相应区域以及与耦合到在面板的相应区域处的至少两个区域处的至少两个电触头相关联。电触头适于在这至少两个区域中提供电场，以引起在这至少两个区域中的不同程度的压电材料变形，并从而使面板的相应区域在实质上垂直于面板的表面的方向上变形，并从而实现电信号到机械振动(声波)的有效转换，和/或反之亦然。本发明的换能器可以被配置成和可操作来产生可用于产生上面讨论的WO 2014/076707中公开的空间上受限的可听声音的至少两个超声波束。

总体描述

在本领域中存在对能够管理指向位于特定空间内的选定的一个或更多个用户的私人声音(即，向选定用户提供声音，从而由用户私密地消费/听到)的新颖的系统和方法的需要。本发明的技术利用与一个或更多个换能器单元相关联的一个或更多个三维传感器模块(TDSM)，其用于确定用户的位置并确定适当的声音轨迹以用于向选定用户传输私人声音信号，同时消除或至少显著减少声音信号对可能位于相同空间中的其他用户的干扰。

关于这一点，应当注意，三维传感器模块可以或者可以不被配置用于当以单个模块操作时提供三维感测数据。更具体地，本发明的技术利用布置在感兴趣区域中的一个或更多个传感器模块，并分析和处理因此接收到的感测数据以确定三维数据。为此目的，TDSM单元可以包括可选地关联/包括扩散IR发射器的相机单元(例如，若干相机单元的阵列/布置)，并且附加地或可选地可以包括可操作来感测指示感测体积的三维布置/内容的三维数据的其他类型的感测模块。

本发明的技术利用适合于布置在空间(例如公寓、房屋、办公楼、公共空间、车辆内部等，并安装在墙壁、天花板上或立在架子或其它表面上)中并被配置成且可操作来向一个或更多个选定用户提供私人(例如局部受限)可听声音(例如语音通信)的一个或更多个换能器单元(换能器阵列)。

例如，在本发明的一些实现方式中，一个或更多个换能器单元(例如在转让给本申请的受让人的WO 2014/147625中公开的换能器单元)被包括在本发明的系统中/与本发明的系统相关联，并且被配置成生成定向的且通常聚焦的声学信号，从而在距换能器单元的选定距离内的空间中的选定点(受限区域)处产生可听声音。

为此目的，在本发明的一些实施例中，一个或更多个换能器单元被配置成选择性地传输在两个或更多个超声波频率范围处的声学信号，使得超声波信号解调以在选定位置处形成可听信号频率。所传输的超声波信号被聚焦到期望位置，在该期望位置中在声波之间的相互作用导致自解调生成在可听频率处的声波。如在关于用于生成私人声音区域的技术的转让给本申请的受让人的并通过引用被并入本文的专利公开WO 2014/076707中所述的，根据输出超声波信号的选定振幅、波束形状和频率来确定接收位置/目标位置和所生成的可听信号。

本技术利用与一个或更多个三维传感器模块(TDSM)和一个或更多个麦克风单元组合的这样的一个或更多个换能器单元，其都可连接到一个或更多个处理单元以提供形成免提音频通信系统的附加管理功能。更具体地，本发明的技术基于生成选定空间的三维模型，并且使位于所述空间中的一个或更多个用户能够私密地且在不需要主动与控制面板或手持设备联系的情况下发起音频通信会话和对音频通信会话做出响应。

关于这一点，本发明可以提供各种类型的通信会话，包括但不限于：与一个或更多个其他用户的本地和/或远程通信、从外部系统/设备接收通知、向一个或更多个外部设备提供语音指令/命令、向系统提供内部操作命令(例如权限管理、音量改变、添加用户身份等)、从本地或远程系统提供信息和广告活动(例如，针对特定用户的用于做广告的公共空间信息、关于博物馆藏品的信息、入耳翻译等)。本发明的技术还可以提供关于用户对所传输的数据的接收的指示，如下面在本文描述的。这样的数据可以被进一步处理以确定广告活动、父母控制等的有效性。

为此目的，可以使用可连接到一个或更多个换能器单元和一个或更多个TDSM以及一个或更多个麦克风单元的集中式或分散式(例如分布式)处理单元(在本文也被称为控制单元或音频服务器系统)或者以提供均包括换能器单元、TDSM单元、麦克风单元和特定处理能力的一个或更多个音频通信系统的分布式管理的形式来实现本技术，其中不同的音频通信系统被配置成在它们之间通信，从而向大于单个换能器单元的覆盖区域的区域或者在断开连接的区域(例如，由墙壁间隔开的不同房间)中提供音频通信。

被配置成用于集中式或分布式管理的处理器被配置成接收关于一个或更多个TDSM所位于的空间的三维配置的数据(例如，感测数据)。基于至少最初的所接收的感测数据，处理器可以被配置成和可操作来生成空间的三维(3D)模型。3D模型通常包括关于在空间内的静止物体的布置的数据，从而确定与一个或更多个换能器单元相关联的一个或更多个覆盖区域。因此，当一个或更多个TDSM提供指示用户位于空间中的特定位置上的数据时，通信会话(远程地发起的或由用户发起的)使用被选择为向用户的位置提供最佳覆盖的换能器单元来私密地进行。

可选地或附加地，该技术可以利用用于基于来自一个或更多个TDSM单元的输入数据和关于换能器阵列单元的覆盖区域的相对布置和TDSM单元的感测体积的数据来定位和识别用户在感兴趣区域内的存在和位置的图像处理技术。应当理解，通常可以对系统执行初始校准。这种初始校准通常包括在被使用时提供关于不同换能器阵列单元、TDSM单元和麦克风单元、以及任何其他所连接的元件(例如扬声器)的数量、安装位置和相应覆盖区域的数据。可以如上所述以生成3D模型的形式自动地或者通过提供关于感兴趣区域的布置以及换能器阵列单元、TDSM单元和麦克风单元的安装位置的数据来手动地完成这种校准。

应当注意，一个或更多个TDSM可以包括一个或更多个相机单元、三维相机单元或任何其他合适的成像系统。另外，一个或更多个换能器单元还可以被配置成用超声波束周期性扫描覆盖区域，并且基于检测到的反射来确定覆盖区域的映射。因此，一个或更多个换能器单元可以作为声纳来操作以提供额外的映射数据。这种基于声纳的映射数据可以包括关于表面的反射特性及其空间布置的数据。

另外，一个或更多个麦克风单元可以被配置为麦克风阵列单元，并且可操作来提供从相应的收集区域(例如，感测体积)收集的输入声音可听数据。一个或更多个麦克风单元可以包括实现可听数据的收集并提供指示所收集的声学信号源自的方向的数据的麦克风元件的阵列。可以基于在由阵列的不同麦克风元件收集的信号部分之间的相位或时间变化来确定所收集的声音方向数据。可选地，麦克风单元可以包括被配置为从在感测区域内的不同方向收集声学信号的一个或更多个定向麦克风元件。在这种配置中，可以基于所收集的振幅的变化以及时间延迟和/或相位变化来确定到所检测的信号的原点方向。

通常，音频通信会话可以是单边的或双边的。更具体地，单边通信会话可以包括被发送给用户的可听通知，例如关于新电子邮件的通知、洗衣机完成循环的通知等。用户的双边音频通信会话通常包括音频对话，在该音频对话期间，可听数据被传输给用户并从用户接收。这种通信会话可以包括与第三方的电话对话、用户发起的请求系统执行一个或更多个任务的命令等。

此外，该系统可用在多个断开连接的远程感兴趣区域中，提供在两个或更多个远程空间之间的私人通信。为此目的，如下面在本文所述的，感兴趣区域可以包括一个或更多个所连接的空间和附加的一个或更多个断开连接的/远程位置，实现在用户之间的私人和免提通信而不管在他们之间的物理距离如何，而不是与和在远程位置之间的数据的传输相关联的可能的时间延迟有关。

本发明的技术还可以提供与单边通信会话以及关于其成功相关联的指示。更具体地，本技术利用从一个或更多个TDSM接收的指示用户在接收输入通知的时间段的运动和/或反应的感测数据，并确定用户是否实际上注意到该通知的特定概率。这种响应可以与身体运动的面部、语音或可以使用与系统相关联的输入设备检测到的任何其他响应相关联。

如上面所指示的，系统被使用于的空间的3D模型可以包括与一个或更多个换能器单元相关联的一个或更多个不重叠或部分重叠的覆盖区域。此外，本技术允许用户在区域之间四处移动时保持通信会话。为此目的，该系统被配置为从一个或更多个TDSM接收感测数据，并用于处理感测数据以提供关于一个或更多个选定用户(例如当前参与通信会话的用户)的位置的周期性指示。

此外，为了提供私人声音，一个或更多个换能器单元优选地被配置和操作成在相对小的焦点内生成可听声音。这形成相对小的区域，其中所生成的声波是可听见的，即可听见的频率和足够的声压级(SPL)。亮区域或可听区域可以例如具有大约30cm的半径，而在该区域之外，声学信号通常足够低以防止由其他人广泛听到。因此，音频通信系统还可以被配置为处理输入感测数据以定位选定用户并识别用户的头部和耳朵的位置和方位以确定用于生成可听(私人)声音区域的位置。基于该系统被使用到的空间的3D模型，该处理可以包括确定在选定换能器单元和用户的耳朵中的至少一只耳朵之间的视线。在没有直接视线被确定的情况下，可以使用不同的换能器单元。可选地，空间的3D模型可用于利用来自一个或更多个反射表面(例如墙壁)的声音反射来确定视线。当一个或更多个换能器单元用作声纳式映射设备时，关于表面的声反射的数据可用于确定最佳间接视线。另外，为了提供有效的声学性能，当沿着间接视线向用户传输声学信号时，本技术可以利用振幅调节。

在这一点上，还应该注意到，在系统被配置成分别与用户的两只耳朵接合的情况/实施例中，振幅调节和平衡也被执行用于平衡在两只耳朵之间的音量(特别是在耳朵在到为它们服务的换能器单元的不同距离处的情况下)。

关于这一点，上面所述的技术和系统能够通过采用多个换能器阵列单元和相对应的TDSM单元和麦克风单元来提供在感兴趣区域(ROI)内的音频通信。该技术实现到一个或更多个用户的音频私人通信，以用于在他们之间或与外部链路进行通信，使得只有某个信号的接收方用户接收可听和可理解的声学信号，而例如位于离接收方低至50厘米的距离处的其他用户将不能够完全接收该信号。

此外，本发明的技术提供了确定接收方的位置，以用于向其直接和准确地传输聚焦的声学信号。该技术还提供了周期性地定位选定用户，例如被标记为在正在进行通信会话的用户，从而允许系统即使用户在空间中移动时也跟踪用户并保持通信会话。为此目的，该技术提供了根据用户位置和方位连续地选择优选的换能器阵列单元以用于向用户进行信号传输。该系统和技术因而使用户能够在ROI内的不同的部分地连接的空间(例如房间)之间移动同时保持正在进行的通信会话。

本发明的一些实施例的另一方面提供了用于从远处向一个或更多个用户提供私人双耳3D音频的系统和方法。在这一点上，术语“私人”、“受限和局部音频”在本文用于表示在用户的耳朵/头部附近产生的且对于用户是可听到的但是对于在用户附近的其他人实质上是不可听到的(或者至少是不可理解的)可听声场。例如，私人/受限可听声场可以无障碍和响亮地被提供给车辆的驾驶员，而在其附近的其他人(例如车辆中的乘客)听不到或几乎听不到由驾驶员听到的音频。在用于产生可听声音的换能器系统/模块不需要位于用户的耳朵或头部附近而是可以离其几分米到几米或甚至更多的意义上，可听声音从远处被提供。然而，如上面所指示的，可听声音私密地被提供给用户。为此目的，超声换能器用于基于来自超声效应的可听声音来产生在用户的头部/耳朵附近产生可听声音的超声场(波形)。

在这一点上，应当注意，在一些方面中，本发明旨在向用户提供双耳3D音频。术语“双耳”在本文用来表示提供给用户的不同(左和右)耳朵的可听声音可能通常是不同的，以及由此，在提供给用户的不同耳朵的可听声音之间的差异是通过系统、一般至少通过用户的头部的位置来控制/调整的。而且所表述的3D双耳音频或双耳3D音频在本文可互换地被使用来表示在提供给用户的左耳和右耳的可听声场之间的差异被控制/调整成使得它们模拟从一个或更多个虚拟声源的特定位置到达用户的音频数据段的可听声场。这使用户能够基于私密地提供给他的可听声音来估计音频数据段的虚拟源的位置/方向。

因此，根据本发明的一个广泛方面，提供了一种用于在音频通信中使用的系统。该系统包括：

-一个或更多个(例如多个)换能器单元，其位于多个位点中，用于覆盖所述位点中的相应覆盖区域。位点可以是不同的空间和/或音频服务应由系统提供到的感兴趣区域(ROI)。换能器单元(例如它们中的至少一些)能够发射在一个或更多个通用频率中的超声波信号，以用于在它们的相应覆盖区域内的选定空间位置处形成局部可听声场；换能器单元可以包括换能器元件的阵列。

-一个或更多个(例如多个)三维传感器模块(TDSM；在本文也被称为三维输入设备，例如3D相机、雷达、声纳、LIDAR)，其被配置为提供关于在输入设备的视场内的周围事物的三维布置的数据。TDSM适于位于将由系统覆盖的位点(空间)中，并且每个三维传感器模块被配置成和可操作来提供关于在位点内的相应感测体积中的元件的三维布置的感测数据。

-映射模块，其提供分别指示在所述TDSM的感测体积和换能器单元覆盖区域之间的关系的映射数据。

-用户检测模块，其可连接到所述一个或更多个三维传感器模块以用于从其接收所述感测数据，并被配置成和可操作来处理所述感测数据以确定至少一个用户在TDSM的感测体积内的空间位置。以及

-输出声音发生器(在本文也被称为声音处理设施)，其可连接到所述一个或更多个换能器单元，并适于接收指示要被传输到所述至少一个用户的声音的声音数据，并且被配置成和可操作来用于操作至少一个选定换能器单元，以用于生成携带所述声音数据的靠近所述至少一个用户的局部声场，其中，所述输出声音发生器利用映射数据来根据关于所述至少一个用户的空间位置的所述数据而确定所述至少一个选定换能器单元，使得所述选定换能器单元的相应覆盖区域包括所述至少一个用户的所述位置。

在一些实施例中，该系统包括音频会话管理器(例如，包括输入和输出通信设施)，其被配置成经由一个或更多个通信网络实现与远程方的通信；以及至少一个声音处理设施。所述至少一个处理器设施包括：感兴趣区域(ROI)映射模块，其被配置成和可操作来从3D输入设备接收视场的三维输入并生成ROI的3D模型；用户检测模块，其被配置成和可操作来从3D输入设备接收视场的三维输入，并确定在感兴趣区域内的一个或更多个人的存在和位置。处理器单元被配置成用于生成语音数据并且用于操作至少一个换能器单元以传输合适的信号，以用于在靠近选定用户的耳朵处生成局部声场，从而实现与用户的私人通信。

该系统还可以包括可连接到一个或更多个麦克风单元的接收声音分析器，该接收声音分析器被配置用于从ROI接收音频输入并且适于确定指示所述音频信号在ROI内的起源的位置的数据。

附加地或可选地，该系统可以包括或可连接到一个或更多个扬声器，以用于提供可以被多个用户公开听到的音频输出。此外，该系统还可以包括被配置成和可操作来向用户提供一个或更多个图像或视频的显示的一个或更多个显示单元。

应当注意，系统可以利用关于用户位置的数据，用于对一个或更多个换能器单元的选择以向用户提供局部私人音频数据。类似地，当扬声器和/或显示单元被使用时，系统可以利用关于一个或更多个选定用户的位置的数据以确定一个或更多个选定扬声器和/或显示单元，以用于向用户提供相对应的数据。

根据一些实施例，处理单元还可以包括手势检测模块，该手势检测模块被配置成和可操作来从音频输入位置模块接收输入音频信号及其位置，并且确定所述输入音频信号是否包括请求过程或通信会话的发起的一个或更多个关键词。

处理单元还可以包括方位检测模块。方位检测模块可以被配置成和可操作来接收关于感兴趣区域的所述3D模型的数据和关于至少一个用户的位置的数据，并且确定至少一个用户的耳朵相对于系统的方位，从而生成至少一个用户的耳朵中的至少一个是否在与至少一个换能器单元的视线内的指示。

根据一些实施例，处理器单元还可以包括换能器选择器模块，该换能器选择器模块被配置成和可操作来接收指示至少一个用户的头部或耳朵中的至少一个是否在至少一个换能器单元的视线内的数据并且用于确定到用户的耳朵的声音传输的优化轨迹。优化轨迹可以利用下列操作中的至少一个：将局部声音区域指向在至少一个换能器单元的视线内同时在距隐藏的用户的耳朵的预定范围内的点；以及接收和处理关于感兴趣区域的3D模型的数据以确定包括从在感兴趣区域内的一个或更多个壁朝着隐藏的用户的耳朵的一个或更多个反射的声音轨迹。

根据一些实施例，处理单元可以被配置成和可操作来与一个或更多个通信系统通信，所述一个或更多个通信系统被布置成形成连续的视场以从而提供与用户的连续音频通信，同时允许用户在大于系统的视场的预定空间内移动。此外，通信系统可以在一个或更多个断开连接的区域内被使用，提供与一个或更多个远程位置的无缝音频通信。

根据一些实施例，处理单元可以被配置成和可操作来提供下列通信方案中的一个或更多个通信方案：

-管理和进行远程音频对话，处理单元被配置成和可操作来通过通信网络与远程音频源通信，以从而实现双边通信(例如电话对话)；

-响应于通过所述通信网络从一个或更多个相关系统接收的一个或更多个输入警报而提供语音指示；

-响应于来自用户的一个或更多个语音命令而生成相对应的命令，并通过通信网络将所述相对应的命令传输到选定的一个或更多个相关系统，从而实现用于由一个或更多个相关系统执行一个或更多个任务的语音控制。

根据又一些实施例，处理单元还可以包括手势检测模块，该手势检测模块被配置成和可操作来从用户检测模块接收关于用户位置的数据，并且识别一个或更多个预定手势是否被用户执行，在检测到所述一个或更多个预定手势时，手势检测模块生成相对应的命令并向处理单元传输相对应的命令以用于执行一个或更多个相对应的动作。

该系统还可以包括面部识别模块，该面部识别模块被配置成和可操作来从三维输入设备接收输入数据并用于定位和识别在ROI内的一个或更多个用户，该系统还包括许可选择器模块，该许可选择器模块包括所识别的用户和所述用户具有使用许可的动作的列表的数据库，该许可选择器模块接收关于用户的身份的数据和关于由所述用户进行的所请求的动作的数据，并提供指示所述用户是否具有对执行所述请求的动作的许可的处理单元数据。

根据本发明的另一个广泛方面，提供了一种用于在音频通信中使用的系统。该系统包括：一个或更多个换能器单元，其位于多个物理位置上，以用于覆盖相应的覆盖区域，其中所述换能器单元能够发射处于一个或更多个频率的超声波信号，以用于在其相应覆盖区域内的选定空间位置处形成局部可听声场；一个或更多个三维传感器模块(TDSM)(例如，3D相机、雷达、声纳、LIDAR)，其位于所述位点上，其中每个三维传感器模块被配置成和可操作来提供关于元件在所述位点内的相应感测体积中的三维布置的感测数据；映射模块，其提供指示在感测体积和覆盖区域之间的关系的映射数据；用户检测模块，其可连接到所述一个或更多个三维传感器模块以用于从其接收所述感测数据，并被配置成和可操作来处理所述感测数据以确定至少一个用户的耳朵在三维传感器模块的感测体积内的空间位置；以及声音处理器设施，其可连接到所述一个或更多个换能器单元，并适于接收指示要被传输到所述至少一个用户的耳朵的声音的声音数据，并被配置成和可操作来操作至少一个选定换能器单元，以用于在靠近所述至少一个用户的耳朵处生成携带所述声音数据的局部声场，其中所述输出声音发生器利用映射数据以根据从相对应的用户检测模块接收的关于至少一个用户的耳朵的空间位置的所述数据来确定所述至少一个选定换能器单元，使得所述选定换能器单元的相应覆盖区域包括所述至少一个用户的耳朵的所述位置。

一个或更多个换能器单元优选地能够发射处于一个或更多个频率的超声波信号，以用于在它的相应覆盖区域内的选定空间位置处形成局部聚焦解调可听声场。

该系统通常可以包括被配置为处理从所述位点接收的输入音频信号的接收声音分析器。此外，该系统可以包括适用于处理所述输入音频信号以确定指示所述音频信号在所述位点内的起源的位置的数据的音频输入位置模块。接收声音分析器可以连接到可操作来从位点接收音频输入的一个或更多个麦克风单元。

根据一些实施例，该系统可以包括或可连接到一个或更多个扬声器和/或一个或更多个显示单元，以用于向用户提供公共音频数据和/或显示数据。通常，系统可以利用关于一个或更多个用户的位置的数据以用于根据用户位置来选择适用于提供期望输出数据的扬声器和/或显示单元。

根据一些实施例，用户检测模块还可以包括手势检测模块，该手势检测模块被配置成和可操作来处理包括来自所述一个或更多个TDSM的输入数据和所述输入音频信号中的至少一个，确定所述输入数据是否包括与系统的一个或更多个操作相关联的一个或更多个触发器，所述声音处理器设施被配置为将输入数据的起源的位置确定为与系统的所述操作相关联的用户的初始位置。所述一个或更多个命令可以包括用于发起音频通信会话的请求。输入数据可以包括由接收声音分析器接收的音频输入数据和由TDSM接收的运动模式输入数据中的至少一个。更具体地，手势检测模块可以被配置为检测语音和/或运动手势。

根据一些实施例，用户检测模块可以包括适于处理所述感测数据以确定所述用户的头部位置和方位并从而估计至少一个用户的耳朵的所述位置的方位检测模块。

根据一些实施例，用户检测模块包括适于处理感测数据以确定用户的至少一只耳朵的位置的面部识别模块。输出声音发生器被配置成和可操作来确定来自至少一个选定换能器单元的声场传播路径，以用于为用户生成局部声场，使得局部声场包括靠近用户的至少一只耳朵的受限声音气泡(a confined sound bubble)。

例如，面部识别模块可以被配置成和可操作来基于用户的头部的人体测量模型来确定用户的至少一只耳朵的所述位置。在一些情况下，面部识别模块被配置成并可操作来基于从TDSM接收的所述感测数据来进行下列中的至少一个：构建用户的头部的所述人体测量模型和更新用户的头部的所述人体测量模型。

在一些实施例中，面部识别模块适于处理感测数据以确定用户的两只耳朵的位置，并且其中所述输出声音发生器被配置成和可操作来分别确定从所述至少一个选定换能器单元朝着用户的所述两只耳朵的两个声场传播路径，并且生成所述局部声场，使得它包括分别定位成靠近用户的所述两只耳朵的两个受限声音气泡，从而向所述用户提供私人双耳(例如立体声)可听声音。

在一些实施例中，输出声音发生器被配置成和可操作来确定沿着两个传播路径到用户的两只耳朵的声场传播的相应相对衰减，并基于所述相对衰减来使指向用户的两只耳朵的相应声场的音量均衡，从而向所述用户提供平衡的双耳可听声音。

根据一些实施例，用户检测模块还被配置成和可操作来处理接收到的感测数据，并根据接收到的感测数据来区分开一个或更多个用户的身份，用户检测模块由此提供指示在三维传感器模块的一个或更多个感测体积内的一个或更多个用户的空间位置和身份的数据。

该系统还可以包括面部识别模块。面部识别模块通常适用于从用户检测模块接收关于用户位置的数据，并且用于从TDSM接收与所述用户位置相关联的感测数据的至少一部分，并且被配置成和可操作来用于应用面部识别以确定指示所述用户的身份的数据。在一些配置中，系统还可以包括特权模块。特权模块可以包括或利用所识别的用户和所述用户具有使用许可的动作的列表的数据库。通常，特权模块从所述面部识别模块接收指示用户的身份的所述数据和关于由所述用户进行的所请求的动作的数据，并且提供指示所述用户是否具有对执行所述请求的动作的许可的处理单元数据。

根据一些实施例，声音处理器设施可以适于将视线处理应用于所述映射数据以确定在各自的所述换能器单元和用户的耳朵的所述位置之间的声音轨迹，以及处理声音轨迹以确定具有用于到用户的耳朵的声音传输的最佳轨迹的至少一个换能器单元，并且将所述至少一个换能器单元设置为选定换能器单元。这样的优化轨迹可以被确定成使得其满足下列情况中的至少一个：其沿着在所述选定换能器单元和用户的耳朵之间的无障碍视线通过，同时不超过距用户的耳朵的特定第一预定距离；其沿着第一视线从所述换能器单元和所述位点中的声反射元件以及从所述声反射元件到所述用户的耳朵通过，同时不超过第二预定距离。

根据一些实施例，声音处理器设施利用两个或更多个换能器单元来实现优化轨迹，使得至少一个换能器单元具有到用户的耳朵之一的无障碍视线，并且至少一个其它换能器单元具有到用户的第二耳朵的无障碍视线。

根据一些实施例，声音处理器设施可以适于进行以下操作：将所述视线处理应用于所述映射数据以确定至少一个换能器单元，对于所述至少一个换能器单元在所述至少一个换能器单元的覆盖区域内存在到用户的耳朵的所述位置的无障碍炮目线；以及将所述至少一个换能器单元设置为选定换能器单元并且沿着所述炮目线设置所述轨迹。

在所述换能器单元和用户的耳朵的所述位置之间的炮目线有障碍的情况下，所述炮目线处理可以包括处理感测数据以识别在所述用户的附近的声反射元件；确定所述选定换能器单元使得来自所述选定换能器单元的所述轨迹沿着来自所述选定换能器单元和所述声反射元件的炮目线通过，并且从此处沿着炮目线到达用户的耳朵。

输出声音发生器被配置成并可操作来监测用户的耳朵的位置以跟踪所述位置的变化，并且其中在检测到所述位置的变化时执行所述炮目线处理以更新所述选定换能器单元，从而提供与用户的连续音频通信同时允许用户在所述位点内移动。声音处理器设施可以适于处理所述感测数据以确定沿着在选定换能器单元和所述用户的耳朵之间的所述传播路径的距离，以及根据所述距离来调节由选定换能器单元生成的所述局部声场的强度。在声反射元件存在于选定换能器单元和用户的耳朵之间的轨迹中的情况下，所述处理设施可以适于调节所述强度以补偿所述声反射元件的所估计的声吸收特性。此外，在声反射元件存在于所述传播路径中的情况下，所述处理设施可以适于根据指示所述声反射元件的声谱吸收分布的所述所估计的声吸收特性来使所述超声波信号的谱内容强度均衡。

通常，声音处理器设施可以适于处理所输入的感测数据以确定所述声反射元件的类型(例如桌子、窗户、墙壁等)并基于所述类型来估计所述声吸收特性。

声音处理器设施还可以被配置为根据存储在相对应的存储设施中并对所述声音处理器设施可访问的关于表面类型的数据来确定一个或更多个声音反射表面的类型。

根据一些实施例，该系统可以包括可连接到所述输出声音发生器并且被配置成和可操作来操作所述输出声音发生器以向所述用户提供通信服务的通信系统。该系统可以被配置成和可操作来提供下列通信方案中的一个或更多个通信方案：

-管理和进行远程音频对话，通信系统被配置成和可操作来通过通信网络与远程音频源通信，从而实现双边通信(例如电话对话)；

-管理和进行在感兴趣区域内的两个或更多个用户之间的无缝局部私人音频通信；

-处理输入音频数据并向一个或更多个选定用户生成相对应的输出音频数据；

-响应于通过所述通信网络从一个或更多个相关系统接收到的一个或更多个输入警报而提供语音指示；以及

-响应于来自用户的一个或更多个语音命令，而生成相对应的命令，并通过通信网络将所述相对应的命令传输到选定的一个或更多个相关系统，从而实现用于由一个或更多个相关系统执行一个或更多个任务的语音控制。

系统1000可以包括手势检测模块，该手势检测模块被配置成和可操作来从用户检测模块接收关于用户位置的数据，并且可连接到所述三维传感器模块以用于从其接收与所述用户位置相关联的感测数据的至少一部分；所述手势检测适于将手势识别处理应用于感测数据的所述至少一部分，以识别一个或更多个预定手势是否由用户执行，在检测到所述一个或更多个预定手势时，手势检测模块生成并传输用于操作所述通信系统的相对应的命令以用于执行一个或更多个相对应的动作。

根据一些实施例，该系统还可以包括适用于从所述通信系统接收指示感兴趣可听内容向所述用户的耳朵的传输的触发信号的用户响应检测模块；并且其中，所述用户响应检测模块适用于从用户检测模块接收关于用户位置的数据，并且适用于从三维传感器模块接收与所述用户位置相关联的感测数据的至少一部分，并且被配置成和可操作来响应于所述触发信号来处理感测数据的所述至少一部分，以确定指示所述用户对所述感兴趣可听内容的响应的响应数据。响应数据可以被记录在所述通信系统的存储设施中或者被上传到服务器系统。

所主张的系统可以与分析服务器相关联，分析服务器被配置成和可操作来从所述系统接收与所述感兴趣内容相关联的所述响应数据，并且处理从多个用户响应于所述感兴趣内容而提供的所述统计响应数据，以确定用户对所述感兴趣内容的反应的参数。

通常，所述感兴趣内容可以包括商业广告，并且其中所述通信系统与提供所述感兴趣内容的广告服务器相关联。

根据本发明的另一个广泛方面，提供了一种语音网络系统，其包括服务器单元和如上所述的被布置在用于以部分重叠的方式覆盖一个或更多个ROI的空间中的一个或更多个局部音频通信系统；服务器系统通过通信网络连接到一个或更多个局部音频通信系统，并且被配置成和可操作来对来自任何局部音频通信系统的用户生成的输入消息做出响应，并且响应于一个或更多个预定条件而选择性地定位在所述一个或更多个ROI内的期望用户以及选择性地向所述期望用户传输语音通信信号。

根据本发明的又一个广泛方面，提供了一种在管理个人语音通信网络时使用的服务器系统；该服务器系统包括：音频会话管理器，其被配置为连接到通信网络和一个或更多个局部音频系统；映射模块，其被配置成和可操作来从一个或更多个局部音频系统接收关于3D模型的数据，并生成由所述一个或更多个局部音频系统覆盖的组合感兴趣区域(ROI)的组合3D地图；用户位置模块，其被配置成和可操作来从一个或更多个局部音频系统接收关于一个或更多个用户的位置的数据并用于确定期望用户在组合ROI内的位置和具有与用户的合适视线的相对应的局部音频系统。服务器系统被配置成和可操作来对指示要传输给选定用户的一个或更多个消息的数据做出响应。响应于这样的数据，服务器系统从用户位置模块接收关于用户的位置和关于合适的局部音频系统的数据，以用于与所述用户通信并将关于所述一个或更多个消息的数据传输到相对应的局部音频系统以向用户提供语音指示。

用户位置模块可以被配置成周期性地定位选定用户和相对应的局部音频系统，并且对用户的位置或方位的变化做出响应，从而改变与局部音频系统的关联以提供与用户的无缝和连续的语音通信。

根据本发明的又一个广泛方面，提供了一种用于在音频通信中使用的方法，该方法包括：提供关于要传输给选定用户的一个或更多个信号的数据，提供与感兴趣区域相关联的感测数据，处理所述感测数据以用于确定选定用户在感兴趣区域内的存在和位置，选择位于感兴趣区域内的一个或更多个合适的换能器单元，并且操作选定的一个或更多个换能器元件以将声学信号传输到用户的所确定的位置，从而向所述选定用户提供携带所述一个或更多个信号的局部可听区域。

根据本发明的又一广泛方面，提供了一种方法，其包括：向用户传输预定声音信号，并收集指示用户对所述预定声音信号的响应的感测数据，从而生成指示所述用户对所述预定声音信号的反应的数据，其中，所述传输包括生成在两个或更多个预定频率范围内的超声波场，所述超声波场被配置为在根据所述用户的物理位置确定的距离处相互作用，从而形成提供所述预定声音信号的局部声场。

根据本发明的另一广泛方面，提供了一种用于在音频通信中使用的系统。该系统包括：

-至少一个换能器单元，其适用于在至少一个位点的至少一个相应覆盖区域内的选定空间位置处形成局部可听声场；

-至少一个三维传感器模块(TDSM)，其被配置成并可操作来提供关于在至少一个位点内的相应感测体积中的元件的三维布置的感测数据；

-用户检测模块，其可连接到一个或更多个三维传感器模块以用于从其接收感测数据，并被配置成和可操作来处理感测数据以确定至少一个用户在至少一个位点内的空间位置；

-面部识别模块，其适于处理感测数据以确定用户的至少一只耳朵的位置；以及

-输出声音发生器，其可连接到一个或更多个换能器单元，并适于接收指示要被传输到至少一个用户的声音的声音数据，并且被配置成和可操作用于确定来自所述至少一个换能器单元的声场传播路径以用于生成包括靠近用户的至少一只耳朵的受限声音气泡的局部声场，并且用于操作至少一个换能器单元用于产生局部声场。

根据本发明的又一个广泛方面，提供了一种用于在音频通信中使用的方法，该方法包括：提供关于要被传输给选定用户的一个或更多个信号的数据；提供与感兴趣区域相关联的感测数据；处理感测数据以确定用户在感兴趣区域内的选定的存在，并确定在感兴趣区域内的用户的至少一只耳朵的位置；以及选择和操作位于感兴趣区域内的一个或更多个合适的换能器单元以将声学信号传输到用户的至少一只耳朵的所确定的位置。

在一些实现方式中，基于用户的头部的人体测量模型来确定用户的至少一只耳朵的位置。在一些情况下，人体测量模型基于感测数据进行构造和更新中的至少一项。

在一些实施例中，该方法/系统被配置成和可操作包括以下项：处理感测数据以确定用户的两只耳朵的位置；确定从选定的一个或更多个换能器单元分别朝着用户的两只耳朵的两个声场传播路径；以及操作选定换能器单元以沿着两个相应的声场传播路径将声学信号传输到两只耳朵的所确定的位置。在一些情况下，该方法还包括确定沿着两个传播路径到用户的两只耳朵的声场传播的相应相对衰减，并基于相对衰减来使指向用户的两只耳朵的相应声场的音量均衡，从而向用户提供平衡的双耳可听声音。

根据本发明的另一广泛方面，提供了用于产生双耳音频空间的方法，该方法包括：

(a)提供指示至少一个音频数据段和所述音频数据段的虚拟源相对于收听者的位置的分级音频数据(staged audio data)；

(b)确定指示用户的头部的位置和方位的头部定位数据，由此，用户被指定为音频数据的所述收听者；

(c)朝着位于用户的头部附近的一个或更多个选定音频中心点传输一个或更多个超声场，以用于通过由超声效应产生的声音来在所述用户的相应的左耳和右耳处产生具有所述至少一个音频数据段的左可听声场和右可听声场，

(d)基于虚拟源的所述位置和所述头部定位数据，控制所述一个或更多个超声场的至少一个参数，使得在所述相应的左可听声场和右可听声场之间的差异被用户感知为从虚拟源的所述位置传播到所述用户并携带所述至少一个音频数据段的可听声场。

在一些实施例中，对头部定位数据的确定包括监测所述用户的头部位置以确定至少指示所述用户的头部的位置的头部定位数据，以及根据所述虚拟源的位置和所述用户的头部的位置来确定一个或更多个选定音频中心点。例如，一个或更多个超声场是由一个或更多个换能器系统产生的；其中，所述头部定位数据进一步指示用户的头部的方位；并且其中，所述头部定位被处理以确定用户的头部相对于所述一个或更多个换能器系统的一个或更多个相对位置和方位，以选择所述换能器系统中的至少一个换能器系统以将所述一个或更多个超声场投射到所述一个或更多个选定音频中心。

在一些实施例中，所述虚拟源相对于收听者的位置数据指示虚拟源相对于所述用户的头部的方位角和仰角数据；所述一个或更多个选定音频中心点包括位于围绕所述用户的头部的周边区域内离头部不超过30厘米的距离的单个音频中心点；并且其中，对所述超声场的至少一个参数的所述控制包括利用虚拟源相对于用户的头部的方位角和仰角数据来确定所述单个音频中心点在所述周边区域内的位置，使得所述左可听声场和右可听声场与用户的头部的声学相互作用模拟所述头部的来自虚拟源的位置的头部相关传递函数(HRTF)。一般，所述单个音频中心点相对于所述用户的头部的标称方位角和标称仰角匹配虚拟源相对于用户的头部的所述方位角和仰角。

在所述用户的头部的方位的变化下，单个音频中心点的位置可以保持固定，以从而确保所述虚拟源被用户感知为相对于用户在固定位置处。

在一些实施例中，所述虚拟源相对于收听者的位置数据指示虚拟源相对于所述用户的头部的方位角和仰角数据。对所述超声场的至少一个参数的控制可以包括：

-在所述虚拟源的方位角在相对于所述用户的头部的对称平面的特定角度范围内的情况下，选择所述一个或更多个音频中心点以包括位于相对于头部的所述方位角处并在围绕所述用户的头部的周边区域内离头部不超过30厘米的距离的单个音频中心点，使得所述左可听声场和右可听声场在它们从所述单个音频中心点分别朝着用户的左耳和右耳传播期间与用户的头部的相互作用模拟头部的对到达虚拟源的方位角的声音的头部相关传递函数(HRTF)效应；以及

-在所述虚拟源的方位角超过所述特定角度范围的情况下，该方法包括选择所述一个或更多个音频中心点以包括在所述周边内的至少两个音频中心点，以及朝着所述至少两个音频中心点传输至少两个超声场，以单独地产生所述左可听声场和右可听声场。

在一些实施例中，一个或更多个超声场包括朝着位于所述用户的左耳和右耳附近的相应的左音频中心点和右音频中心点传输的左超声场和右超声场，以用于在所述用户的左耳和右耳处单独地产生所述左可听声场和右可听声场。头部定位可以被处理以确定用户的头部相对于所述一个或更多个换能器系统的一个或更多个相对位置和方位，以选择所述换能器系统中的用作用于将声场投射到用户的左耳的左换能器系统的至少一个换能器系统，以及选择所述换能器系统中的用作用于将声场投射到用户的右耳的右换能器系统的至少一个换能器系统，所述选定的左换能器系统和右换能器系统与所述一个或更多个换能器系统相同或不同。一个或更多个超声场的强度可以被选择成使得仅在距所述左音频中心点和右音频中心点不超过25–50CM的范围的最大半径内所述可听声场高于听觉水平，从而向所述用户提供私人虚拟双耳音频空间。

对至少一个参数的控制可以包括分别根据在所述虚拟源到所述左耳和右耳的距离之间的差异来调整在左超声场和右超声场之间的时间延迟。

对至少一个参数的控制可以包括利用头部相关传递函数(HRTF)，以根据所述虚拟源相对于所述用户的头部的位置来分别对所述左超声场和右超声场的频率内容应用频谱调整。

对所述左超声场和右超声场的至少一个参数的控制可以包括利用虚拟源相对于用户的头部的方位角和仰角数据来分别相对于用户的左耳和右耳的左和右位置移动所述左音频中心点和右音频中心点，使得所述左可听声场和右可听声场与用户的头部的声学相互作用至少地部分模拟所述头部的来自虚拟源的位置的头部相关传递函数(HRTF)。所述左超声场和右超声场的强度可以被选择成使得分别在不超过距离所述左音频中心点和右音频中心点50cm的范围的半径R内所述相应的左可听声场和右可听声场高于听觉水平，并且其中，所移动的左音频中心点和右音频中心点分别与左耳和右耳的左位置和右位置间隔开不超过所述半径R的距离。

在一些实施例中，所述一个或更多个换能器系统是相控阵超声换能器，并且其中，所述方法还包括对将在相应音频中心点处生成的所述一个或更多个超声场的每个超声场执行下列操作：

基于所述一个或更多个换能器系统相对于所述超声场的音频中心点的位置并基于头部的位置来将所述一个或更多个换能器系统的超声换能器系统分配给所述超声场；

基于在所分配的换能器系统和所述超声场的音频中心点之间的相对位置来处理所述至少一个音频数据段，以生成适用于操作所分配的换能器系统的相对应的换能器通道，以生成相应的超声场使得超声场的频率内容经由由超声波产生的声音生成具有所述至少一个音频数据段的相应可听声场；

将波束形成应用于换能器通道以产生波束形成的通道，以用于操作所分配的换能器的相控列来生成被引导到所述超声场的音频中心点的相应超声波束。

在一些实施例中，相对应的换能器通道的生成包括利用音频数据段来确定将由所分配的换能器系统朝着所述音频中心点传输的一个或更多个超声波束的频率内容，其中，所述超声波束中的至少一个超声波束是音频调制超声波束，其频率内容包括被选择为在经历在非线性介质中的非线性相互作用之后产生所述可听声音的至少两个超声频率分量；以及

换能器通道的所述波束形成包括：

-确定关于一个或更多个超声波束的一个或更多个不同的相应焦点；以及

-处理一个或更多个超声波束的频率内容以形成波束形成的超声通道，该波束形成的超声通道包括适于启动用于生成在所述不同焦点上聚焦的所述一个或更多个超声波束的相应相控阵超声换能器的元件的一组相移信号。

本发明还提供了一种用于在产生车辆驾驶员的可听警报时使用的报警方法，该报警方法包括：监测车辆环境，以及在识别出至少一个危险/事件时执行前述权利要求中的任一项所述的方法，包括生成所述分级音频数据，使得所述至少一个音频数据段指示所述至少一个识别出的危险/事件，并且虚拟源的所述位置对应于所述识别出的至少一个危险/事件相对于车辆中的驾驶员位置的定位。

本发明还提供了一种用于产生虚拟双耳音频空间的系统，该系统包括：

(a)音频会话管理器，其被配置成并可操作来提供指示至少一个音频数据段和所述音频数据段的虚拟源相对于收听者的位置的分级音频数据；

(b)头部定位模块，其被配置成并可操作来确定指示用户的头部的位置和方位的头部定位数据，由此，用户被指定为音频数据的所述收听者；

(c)双耳超声场管理器，其被配置成并可操作来生成一个或更多个超声通道信号中的将被提供给一个或更多个超声换能器以用于朝着一个或更多个音频中心点传输一个或更多个相应超声场的信号，以从而通过由超声效应产生的声音而在所述音频中心点处产生可听声场，该可听声场携带所述至少一个音频数据段点并且从所述音频中心点朝着所述用户的左耳和右耳传播以实现被所述用户的左耳和右耳感知的左可听声场和右可听声场；以及

其中，所述双耳超声场管理器被配置成并可操作来控制超声通道的至少一个参数以根据虚拟源的位置和头部定位数据来进行调整，以便实现在所述相应的左可听声场和右可听声场之间的差异，使得左可听声场和右可听声场被用户感知为从虚拟源传播到所述用户的方向的并携带所述至少一个音频数据段的可听声场；

(d)来自超声的输出声音发生器模块(output sound from ultrasoundgenerator module)，其被配置成并可操作来处理所述一个或更多个超声通道，以用于生成用于操作所述换能器以朝着一个或更多个选定音频中心点传输一个或更多个超声场的波束形成的超声通道。

头部定位模块是可连接到一个或更多个感测模块的，以用于从其接收指示所述用户的感测数据；并且其中，头部检测模块确定头部定位数据包括监测包括模式识别系统的头部定位模块，该模式识别系统适于处理所述感测数据以检测所述用户的头部并且确定指示用户的头部相对于所述一个或更多个超声换能器系统的位置和方位的头部定位数据。

双耳超声场管理器可以被配置成和可操作来根据所述虚拟源相对于所述用户的头部的位置的定位来控制所述一个或更多个选定音频中心点的位置。双耳超声场管理器可以控制所述一个或更多个选定音频中心点的位置，而不管所述头部相对于虚拟源的方位如何。头部定位模块可以确定指示虚拟源相对于所述用户的头部的方位角和仰角的所述位置数据；所述双耳超声场管理器利用虚拟源的方位角和仰角以相对于选择所述一个或更多个选定音频中心点，并控制它们的位置，使得：

(a)所述一个或更多个选定音频中心点位于围绕所述用户的头部的周边区域内离头部不超过30cm的距离；以及

(b)其中，音频中心点在所述周边区域内的相应位置被调整成使得经由由于在所述音频中心点处的超声效应产生的声音而生成的可听声场经历与用户的头部的声学相互作用以在用户的耳朵处形成所述左可听声场和右可听声场，由此，所述声学相互作用模拟由用户的头部应用于从虚拟源的方向到达用户的头部的声音的头部相关传递函数(HRTF)。

双耳超声场管理器可以选择所述音频中心点以包括在所述周边区域内位于与虚拟源相对于头部的方位角和仰角相匹配的标称方位角和仰角处的单个音频中心点。

双耳超声场管理器可以被配置为在所述用户的头部的方位的变化下保持单个音频中心点的位置固定，以从而确保所述虚拟源被用户感知为在相对于用户的固定位置处。

在一些实施例中，系统如下操作：

-在所述虚拟源的方位角在相对于所述用户的头部的对称平面的特定角度范围内的情况下，所述双耳超声场管理器选择所述音频中心点以包括位于相对于头部的所述方位角处并且在围绕所述用户的头部的周边区域内离头部不超过30cm的距离的单个音频中心点，使得所述左可听声场和右可听声场在它们从所述单个音频中心点分别朝着用户的左耳和右耳传播期间与用户的头部的相互作用模拟头部对从虚拟源的方位角到达的声音的头部相关传递函数(HRTF)效应；以及

-在所述虚拟源的方位角超过所述角度范围的情况下，双耳超声场管理器选择所述音频中心点以包括在所述周边内的至少两个音频中心点，以用于分别朝着所述至少两个音频中心点传输至少两个超声场以通过由于在所述至少两个音频中心点处出现的超声效应产生的声音来单独地产生所述左可听声场和右可听声场；并且所述双耳超声场管理器利用超声头部相关传递函数(US-HRTF)来对至少两个超声场的频率内容应用频谱调整，使得左可听声场和右可听声场被用户感知为从虚拟源的方向到达的可听声音。

双耳超声场管理器可以选择所述音频中心点以包括在所述用户的左耳和右耳附近的至少左音频中心点，以用于分别朝着所述至少左音频中心点和右音频中心点传输至少两个超声场以通过由于在左音频中心点和右音频中心点处出现的超声效应产生的声音来单独地产生所述左可听声场和右可听声场；以及

其中，所述双耳超声场管理器控制所述换能器通道的信号的所述至少一个参数包括根据所述虚拟源相对于所述用户的头部的方向利用超声头部相关传递函数(US-HRTF)，从而对至少两个超声场的频率内容应用频谱调整，使得左可听声场和右可听声场被用户感知为从虚拟源的方向到达的可听声音。

该系统可以包括换能器选择器模块，该换能器选择器模块被配置成和可操作来处理头部定位数据以确定用户的头部相对于所述一个或更多个换能器系统的一个或更多个相对位置和方位，并从而选择所述一个或更多个换能器系统中的一个或更多个选定换能器系统以将所述超声场投射到所述音频中心点。

双耳超声场管理器可以被配置成和可操作来调整所述一个或更多个超声场的强度，使得从其生成的所述可听声场仅在不超过距所述音频中心点25-50CM的范围的最大半径内高于听觉水平，从而向所述用户提供私人虚拟双耳音频空间。

此外，在一些实施例中，双耳超声场管理器被配置成并可操作来通过执行下列操作中的一个或更多个来控制所述至少一个参数：

-处理至少一个基于音频的数据段以生成一个或更多个超声通道，每个超声通道包括用于生成超声场的信号，由此，超声场的频率内容适于通过来自超声效应的声音而生成对应于所述至少一个音频数据段的相应可听声场；

-根据所述虚拟源相对于头部的位置来调整在超声通道之间的时间延迟；

-利用超声头部相关传递函数(US-HRTF)来分别对超声通道的频率内容应用频谱调整，由此，所述US-HRTF根据所述虚拟源相对于所述用户的头部的位置而被调谐；

-利用虚拟源相对于用户的头部的方位角和仰角数据来相对于用户的左耳和右耳的位置设置所述一个或更多个音频中心点，使得所述左可听声场和右可听声场与用户的头部的声学相互作用至少部分模拟所述头部的来自虚拟源的位置的头部相关传递函数(HRTF)。

该系统可以包括来自US的局部声音波束发生器，该波束发生器适用于：处理超声通道中的每个超声通道以生成指示将被一个或更多个换能器系统朝着对应于超声通道的音频中心点传输的一个或更多个超声波束的数据，其中，所述超声波束中的至少一个超声波束是音频调制超声波束，其频率内容包括被选择为在经历非线性介质中的非线性相互作用之后产生所述可听声音的至少两个超声频率分量；以及确定在所述音频中心点附近的关于所述一个或更多个超声波束的一个或更多个不同的相应焦点，以用于在围绕所述音频中心点的一个或更多个区域处引起在所述一个或更多个波束之间的相消干涉，以从而在所述音频中心点附近形成受限局部可听声场。

一个或更多个换能器系统可以被配置为相控阵超声换能器，并且该系统可以包括波束形成模块，该波束形成模块适于处理指示一个或更多个超声波束的数据以生成包括一组相移信号的波束形成的超声通道，该一组相移信号适用于启动用于生成在所述不同焦点上聚焦的所述一个或更多个超声波束的相控阵超声换能器的元件。

本发明还提供了一种报警系统，其包括用于产生虚拟双耳音频的上面所述的系统以及危险通知监测器，该危险通知监测器被配置成和可操作来监测车辆环境并且在识别出车辆环境中的至少一个感兴趣事件(例如危险)时生成所述分级音频数据，使得所述至少一个音频数据段指示所述至少一个识别出的感兴趣事件并且虚拟源的所述位置对应于所述识别出的至少一个感兴趣事件相对于车辆中的驾驶员位置的定位。

附图简述

为了更好地理解本文公开的主题并且为了例示其可以如何在实践中被执行，现在将仅仅作为非限制性示例参考附图描述实施例，在附图中：

图1A至图1C示意性示出了根据本发明的一些实施例的音频通信系统，其中图1A是音频通信系统的框图，图1B示意性示出了音频通信系统的部署，以及图1C示出了音频通信系统的终端单元的框图；

图2A是示出根据本发明的实施例执行的用于朝着用户传输局部(受限)声场的方法的流程图。

图2B和图2C是分别在用户的头部和耳朵附近生成的局部(受限)声场的示意图；

图3A和图3B示出根据本发明的实施例被配置成和可操作来从远处产生被指定用户私密地听到的虚拟3D双耳音频的方法11000的流程图和系统12000的框图；

图3C示意性示出了图3B中的合并在车辆中并被配置成和可操作来产生被车辆驾驶员私密地听到的三维可听危险通知的系统12000的模块。

图4A至图4D更详细地例示了根据本发明的某些实施例的系统12000和方法11000的操作，其中音频中心点的位置被特别选择为在用户的头部附近，以便向用户提供私人3D双耳音频，在所述音频中心点处，来自超声波的可听声音是由系统产生的；

图5A至图5C更详细地例示了根据本发明的某些实施例的系统12000和方法11000的操作，其中相应超声场被分别朝着位于用户的左耳和右耳附近的左音频中心点和右音频中心点进行投射，由此，左超声场和右超声场的至少频谱参数被特别调整，使得在用户的耳朵附近产生的左可听声场和右可听声场模仿3D双耳音频并且被用户私密地听到；

图6A至图6C更详细地例示了根据本发明的某些实施例的系统12000和方法11000的操作，其中在图4A至图4D和图5A至图5C中所示的技术被组合；

图7A至图7C例示了用于由超声波产生受限可听声场的技术；

图7D和图7E例示了用于用可听声音数据对超声场/波束进行音频调制使得可听声音通过来自超声效应的声音而从超声场产生的技术；

图8是示意性示出根据本发明的某些实施例的用于估计用户的左耳和右耳的位置的方法的流程图。

具体实施方式

如上面所指示的，本发明提供了一种用于在空间内提供私人和免提可听通信的系统和方法。一起对图1A至图1C进行参考，其中图1A至图1C，其中图1A是根据本发明的实施例的音频通信系统1000的框图，图1B示意性示出了音频通信系统1000的示例性部署，以及图1C是例示根据本发明的一些实施例的音频通信系统1000的终端单元200的配置的框图。

系统1000包括一个或更多个声学/声音换能器单元100，每个声学/声音换能器单元通常可以包括声音传输元件的阵列，声音传输元件的阵列可以被操作来生成定向声束并朝着选定方向引导定向声束。例如，在图中例示了换能器阵列单元100a和可选的100b至100m)。换能器阵列单元100a-100m均可以负责在相应换能器单元的视线内的特定区/区域。此外，音频通信系统1000还包括一个或更多个三维感测设备/模块(TDSM)110，每个三维感测设备/模块包括能够获取指示它们被放置到的环境的/在它们被放置于的环境中的三维结构的感测数据的一个或更多个传感器。TDSM模块110可以例如包括无源和/或有源传感器，例如一个或更多个相机(例如，在视觉和/或IR波段中操作)和/或深度传感器(例如，LIDAR和/或结构光扫描仪)、和/或回波位置传感器(例如，声纳)、和/或如在本领域中可能已知的能够感测环境的3D结构并提供指示其的感测数据的传感器的任何组合。应当注意，在一些情况下，TDSM模块110被配置成利用/操作换能器单元100，也作为用于感测环境的3D结构的声纳模块。在这种情况下，换能器单元100可以适于在超声波信号的传输和接收模式中操作，和/或音频输入传感器120和/或与TDSM模块110相关联的其他传感器可以被配置成和在超声波波长下可操作来感测/接收反射/返回的声纳信号。

在本示例中，TDSM 110包括TDSM单元110a和可选地包括附加TDSM单元110b至110n，由此，每个TDSM单元能够监测给定大小和形状的区域的3D结构。因此，在由音频通信系统1000服务的每个空间/位点(例如，房间/办公室/车辆空间)处，至少一个TDSM 100和可能多于一个TDSM 100被安装成以便覆盖该空间的主要区域并向系统1000提供指示该空间的结构的3D感测数据。此外，该系统包括控制系统500(在本文也被称为局部音频系统)，该控制系统500可连接到TDSM 110和连接到换能器单元100，并且被配置成和可操作来从TDSM110接收指示TDSM110所位于/被装备于的一个或更多个空间的3D结构的3D感测数据，并且操作位于这些空间处的换能器单元100，以便向在这些空间中的用户提供指定的音频数据/信号。

根据本发明的一些实施例，控制系统500包括用户检测模块520，用户检测模块520(例如，通过有线或无线连接)可连接到一个或更多个TDSM 110，并且被配置成和可操作来处理从其获得的3D感测数据以检测、跟踪并且可能还识别位于TDSM 110被安装到的空间中的用户。为此目的，用户检测模块520被配置成并可操作来处理感测数据以确定在由TDSM覆盖的空间/感觉体积内的空间位置元素，并且特别是检测用户的头部或用户的耳朵中的至少一者在三维传感器模块的感测体积内的位置。

通常，TDSM 110可以与换能器100分开地被定位和/或可以与相应的感测坐标系(相对于该坐标系，因而感测的感测体积的3D感测数据被提供)相关联。

事实上，如对图1B中的示例所示的，感测坐标系可以不同于声换能器100的坐标系。例如在图1B中，在房间R2中的TDSM 110b的坐标系C被示为不同于覆盖该房间的换能器单元100b的坐标系C'。因此，TDSM110b可以检测/感测位于感测体积SVb内的用户P(例如，其头部/耳朵)的位置，并且提供指示用户的头部/耳朵相对于TDSM 110b的坐标系C的位置的数据。换能器100b可以布置在房间中不同的位置处和/或不同的方向处，并且通常可以被配置为相对于不同的坐标系C'进行操作，以用于将声音引导到位于换能器100b的覆盖区域CZb处的用户P。

因此，根据本发明的一些实施例，为了在可能被安装在可能不同的位置和/或方位处的TDSM 110和换能器100的不同坐标系之间桥接，控制系统500包括映射模块510，该映射模块510被配置成和可操作来在TDSM110的坐标系(获得针对该坐标系的感测数据)和换能器100的坐标系(由系统1000生成针对该坐标系的声音)之间映射。例如，映射模块510可以包括/存储映射数据512(例如，一个或更多个坐标变换的列表，例如从C到C'的变换)，映射数据512在一个或更多个TDSM 110的坐标到属于/覆盖由对应的TDSM 110感测的相同/公共空间的一个或更多个相对应的换能器100的坐标之间进行映射。

可选地，映射模块510还包括被配置成和可操作来获得在TDSM 110和换能器100之间的映射数据的校准模块514。这在下文中更详细地被讨论。

附加地，控制系统500包括输出声音发生器模块600(在下文中也可互换地被称为声音处理设施/模块)。输出声音发生器模块600(声音处理设施)可连接到一个或更多个换能器单元100，并且适于操作一个或更多个换能器单元100以生成由用户检测模块520所检测的一个或更多个用户接收/听到的声学信号。

为此目的，输出声音发生器模块600可以与系统1000的音频会话管理器570的音频输入模块610(例如外部音频源)相关联。音频输入模块610被配置成和可操作来接收声音数据并向输出声音发生器模块600提供要被传输到在由系统覆盖的空间(例如公寓APT)中的至少一个预定的感兴趣用户(例如用户P)的声音数据。

根据一些实施例，输出声音发生器模块600包括被配置成和可操作来从换能器100中选择(最适合于)生成和引导由预定用户(例如由用户P)听到的声场的至少一个选定换能器(例如100a)的换能器选择器模块620。

为此目的，根据一些实施例，输出声音发生器模块600连接到用户检测模块520，以用于从其接收指示因而被服务的感兴趣用户的位置的数据(例如，位置可以根据至少一个TDSM 110的坐标系C进行指定)。输出声音发生器模块600连接到映射模块510，并且适用于从其接收指示在感测感兴趣用户P的TDSM 110的坐标系(例如TDSM 110b的坐标C)和一个或更多个换能器100的坐标系(例如换能器100b的坐标C')之间的坐标映射(例如变换)的映射数据512。

换能器选择器从用户检测模块520接收预定用户的位置(该位置可以例如是关于在检测用户P的TDSM(例如110b)的相应感测坐标系而言的)。换能器选择器模块620被配置成和可操作来利用从映射模块510获得的映射数据(例如，坐标变换C-C'和/或C-C”)以用于将检测到的用户P的头部/耳朵的位置转换到一个或更多个换能器100的坐标空间/系统中。可选地，换能器选择器模块620可以适于也接收指示位于感兴趣用户P附近(例如，与图1B所示的用户P在相同的空间/房间中)的结构/物体OBJ(例如元件，例如墙壁和/或家具和/或其表面)的数据。然后，换能器选择器模块620利用从映射模块510获得的映射数据(例如，坐标变换C-C'和/或C-C”)以用于将检测到的用户P的头部/耳朵的位置以及可能还有方位转换到一个或更多个相关换能器100的坐标空间/系统中。相关换能器其实是在用户P所位于的覆盖区域内的换能器(为此目的排除了不在相同空间内和/或覆盖区域不与预定用户的位置重叠的换能器)。可能地，在这个阶段，换能器选择器模块620利用从映射模块510获得的映射数据来将物体OBJ在空间中的位置转换成相关换能器的坐标。然后，基于用户的头部/耳朵在相关换能器100的坐标空间中的位置和方位，换能器选择器模块620确定并选择位置和方位最适合于向用户提供最高质量声场的换能器(例如100b)。为此目的，换能器选择器620可以选择具有到预定用户P(到他的头部/耳朵)的较短的无阻碍视线的换能器(例如100b)。在没有具有无阻碍视线的换能器被发现的情况下，换能器选择器620可以利用模式识别来处理3D感测数据(例如，来自TDSM的2D和/或3D图像)以识别如此靠近用户的声反射器，并且选择可以最佳地生成经由来自空间中的物体OBJ的反射到达用户的声场的一个或更多个换能器。为此目的，换能器选择器620确定用于服务预定用户以向他提供音频场的选定换能器(例如100a)，并确定用于将音频场引导至用户的头部/耳朵的音频传输路径(例如，优选地直接的，但可能也间接的/经由反射)。

输出声音发生器模块600还包括音频信号发生器630，音频信号发生器630被配置成并可操作来生成音频信号，以用于操作选定换能器来生成期望音频场并将期望音频场传输给预定用户。在这一点上，音频信号发生器630对来自音频输入模块610的声音数据编码和/或可能地放大声音数据以生成携带声音数据的音频信号(例如模拟信号)。在这一点上，可以根据任何已知的技术来执行对要被传递到选定声换能器(例如100a)的扬声器的信号上的声音数据的编码。

特别地，在本发明的一些实施例中，音频信号发生器630被配置成和可操作来生成仅在用户附近携带声音数据的音频场，使得用户私密地听到传输给他的音频场，而在他附近的用户/人们不能听到声音。这可以例如通过利用来自在被转让给本发明的受让人并通过引用并入本文的WO 2014/076707中公开的超声波技术的声音来实现。为此目的，音频信号发生器630可以包括来自超声的声音信号发生器(sound from ultrasound signalgenerator)632，信号发生器632被配置成和可操作来接收和处理声音数据同时实现在WO2014/076707中公开的私人声场生成技术，以便产生只能被其所指向的预定用户听到的私人声场。为此目的，用户相对于(如从换能器选择器630获得的)选定换能器的相对位置用于生成从换能器指向用户的位置并且被配置为在该区域中具有形成在用户的区域处的局部声场的非线性相互作用的超声波束。

此外，该系统可以包括波束形成模块634，该波束形成模块634被配置成和可操作来处理所生成的携带信号的音频场以生成多个波束形成信号，波束形成信号在被提供给选定声换能器(例如100b)的多个换能器元件时生成聚焦于用户(在他的头部上，以及更优选地在他的耳朵上)的输出声波束。如本领域中的技术人员将容易认识到的，本发明的波束形成模块634可以被配置成和可操作来实现各种在本领域中已知的波束形成技术(例如相控阵波束形成和/或延迟和相减波束形成)中的任何一种或多种。

因此，控制系统500被配置成并可操作来处理从TDSM 110获得的感测数据，以便确定音频信号/数据应该被传递到的在所监测的空间中的用户，并且操作一个或更多个换能器单元100a和100b，以便向用户提供免提私人音频会话，其中用户私密地听到随之被指定的声音数据，而在空间中的其他用户没有听到它。

根据一些实施例，该系统包括被配置成和可操作来管理位于由系统1000覆盖的空间中的一个用户或多个用户的音频会话的音频会话管理器570。音频会话管理器570可以适于管理各种类型的会话，包括例如音频/声音数据被提供给用户的单边会话(例如音乐播放会话、电视观看会话、打游戏等)和/或音频/声音数据被提供给用户并且还从用户被接收的双边会话(例如电话/视频呼叫/会议会话和/或语音控制/命令会话等)。为此目的，会话管理器可以管理和保持跟踪与在由系统覆盖的空间中的多个用户相关联的多个音频会话，该会话管理器区分开要传递给不同的相应用户的声音并且还区分从不同的相应用户接收的声音。

为此目的，可选地在系统被配置为使用户能够进行双向(双边)音频通信会话(例如电话呼叫)的实现方式中。系统1000包括分布在由系统覆盖的空间/位点中的一个或更多个音频输入传感器模块120。每个音频输入传感器模块120被配置成和可操作来在由此覆盖的空间处接收来自用户的音频信息。音频会话管理器570包括输入声音分析器560，其适于处理来自音频输入传感器模块120的音频信息，以便区分开不同用户的声音/话音。

例如，音频输入传感器120可以作为可以用于区分开从不同方向到达的声音的定向音频输入传感器进行配置和操作。因此，输入声音分析器560被配置成和可操作来基于在用户和在同一空间中的一个或更多个定向音频输入传感器120之间的不同相对方向来区分开来自在该空间中的不同用户的输入声音。

例如，在一些情况下，定向音频输入传感器120包括麦克风阵列122。音频输入传感器120可以包括例如面向不同方向的多个定向麦克风122、或者多个麦克风122(例如相似的麦克风)和输入声波束形成器124。因此，不同地被定向的定向麦克风的阵列和/或连接到麦克风的阵列122的输入声波束形成器124提供指示从与它们被接收自的方向相关联的不同方向接收的声音的数据。输入声波束形成器124可以被配置成和可操作来根据任何合适的在本领域中已知的波束形成技术来处理由麦克风阵列接收的信号，以便确定由该阵列接收的不同声音的方向。输入声音分析器560可以被配置成和可操作来基于如例如由用户检测模块520确定的用户在这些空间中的位置来使从不同方向到达的声音与在被监测的空间中的不同相应用户相关联。更特别地，输入声音分析器560可以适于利用用户检测模块520，以便确定不同用户在由系统1000监测的空间中的位置。然后，利用映射模块510(其在这种情况下也保存使音频输入传感器120(如，麦克风阵列)的坐标(位置、方位、和感测特性)与TDSM 110的坐标相关联的映射数据)，输入声音分析器560确定从每个特定方向到达的声音属于哪个用户。因此，声音分析器560将来自每个用户的方向的声音与用户的会话相关联。因此，输出声音发生器模块600凭此私密地向系统的相应用户提供声音，并且声音分析器560单独/独特地从每个用户获得声音，可以与每个用户建立双边音频通信。

如上面所指示的，系统1000可以被配置为分布式系统，其包括一个或更多个换能器单元(通常以100指代)和可分配地布置在期望空间(例如房屋、公寓、办公室、车辆和/或其他空间)中的一个或更多个TDSM(通常以110指代)以及连接到分布式单元的管理服务器系统700。例如，图1B示出了分布式系统1000。系统1000包括布置在公寓APT的房间R1至R3中并连接到管理在公寓内的音频通信会话的控制系统500的TDSM110a至110c。系统1000还包括布置在车辆VCL中并连接到管理在车辆VCL内的音频通信会话的控制系统500'的TDSM110e和换能器100e。在系统的各种实现方式中，控制系统500和500'(其在本文也被称为局部音频系统)可以通过有线或无线连接来连接到它们相应的TDSM 110和换能器100。管理服务器系统700管理用户的音频通信会话同时跟踪当用户在由系统覆盖的空间/位点(在这种情况下是公寓APT的房间R1-R3和车辆VCL)之间穿行时用户的位置。

服务器系统700可以例如距控制系统(局部音频系统)500和/或500'远程地(即距公寓APT和/或距车辆VCL远程地)驻留，并且可以作为基于云的服务器系统被配置和可操作来在用户在公寓APT的房间之间移动时、从公寓到车辆VCL和/或当他驾驶车辆VCL时向用户提供语音通信。为此目的，控制系统500或其一个或更多个模块可以作为从远程例如通过网络通信(例如因特网)可连接到多个TDSM和换能器的基于云的服务进行配置和操作。为此目的，除了TDSM 110和换能器阵列单元100之外，控制系统500和/或500'以及可能还有系统1000的其他模块可以被实现为基于云的模块(硬件和/或软件)，并且距由系统覆盖的空间(例如公寓APT、车辆VCL和/或办公室)远程地被定位，并且适于与TDSM 110和换能器阵列单元100通信。因此，在由系统覆盖的空间处可能没有与控制系统500和/或500'相关的物理硬件。

为此目的，服务器系统700与控制系统500和500'通信以从其接收指示感兴趣用户(P)的位置的数据。为此目的，服务器系统700接收通过处理由各种TDSM 110收集的感测数据而从控制系统500和500'的用户检测模块520获得的用户检测数据，TDSM 110在感兴趣的用户(例如，用户P)在不同空间(公寓的房间和/或车辆)中移动时感测他。因此，服务器系统700在用户在不同空间之间移动时跟踪他，同时在用户移动时管理他的音频会话。在用户在活动音频会话中时从一个/第一控制系统(例如500)的TDSM和换能器的覆盖空间移动到另一个/第二控制系统(例如500')的覆盖区域的情况下，服务器系统700操作第二控制系统500'以继续用户的活动音频会话。

事实上，在一些情况下，用户可以移动到没有TDSM 110和没有换能器100被安装的地方/位置。例如，当用户在公寓APT和车辆VCL之间的路径上行走时。因此，在一些实施例中，服务器系统700还包括移动会话模块710(例如调制解调器)，在该移动会话模块710中能够将音频通信会话传送到用户的移动设备MOB(例如预先注册的移动设备，例如在如与用户相关联的服务器700中预先记录的移动电话)，以便允许用户在不同空间之间穿行时保持连续的音频会话。因此，一旦用户离开系统的覆盖区域，他就可以通过他的电话继续他的音频会话。

可选地或此外，在一些实现方式中，系统1000包括一个或更多个完整的封装单元，其包括一起封装在同一模块中的至少一个换能器单元100、至少一个TDSM 110、以及可选的输入音频传感器(麦克风阵列)120。这例如在图1C中示出，并且在图1B中看到模块100a+110a和100c+110c。可选地，完整的封装单元还包括控制单元500和音频会话管理器570。

在这种情况下，换能器单元100和TDSM 110预先安装在封装内，并且在它们的感测体积和覆盖区域的坐标之间的关系先验地被预先确定，并且在控制单元的映射模块510(例如存储器)中被编码。因此，在这种情况下，在TDSM和换能器之间的映射的校准是不需要的。为此目的，这个示例的完整封装单元被配置为部署在某个空间中而没有校准，并且可以用于在其被部署到的空间处向用户提供私人音频通信会话。

然而，通常可能需要校准，以便确定使换能器的坐标空间/系统(例如，C')、TDSM的坐标空间/系统(例如，C)、和可能还有的音频输入传感器120的坐标系统相关联的映射数据。更特别地，在换能器和TDSM如图1B所示分开地被定位的情况下，校准可能是需要的。为此目的，可选地，映射模块510包括校准模块514，该校准模块514被配置成和可操作来获得和/或确定指示不同TDSM和换能器以及可能还有的连接到控制系统500的音频输入传感器120的相对位置和方位的校准数据。

在一些实施例中，校准模块514适于从安装系统1000的用户接收手动输入校准数据。例如，这种输入数据可以指示TDSM和换能器的相对位置和方位，并且校准模块514可以适于利用该数据来确定指示在TDSM 110的坐标和换能器100以及可能的音频输入传感器120的坐标之间的坐标变换的映射数据。

可选地或此外，校准模块514可以适于实现自动校准方案，其中使用TDSM 110的感测能力以及可能还有的音频输入传感器120的音频感测能力，以便确定TDSM 110相对于各种换能器100和/或输入传感器120的位置和方位。为此目的，在一些实施例中，校准模块514利用模式识别引擎515，以便处理由每个TDSM 110感测的数据以识别位于每个TDSM的感测区域中的换能器100和可能的音频输入传感器120，并确定它们相对于TDSM 110的相对位置和方位。

实际上，在一些实施例中，为了识别换能器100和可选地识别音频输入传感器120，校准模块514利用指示换能器和/或音频输入传感器的外观和/或形状的某些预先存储的参考数据。该参考数据可以由模式识别引擎515使用来识别在由TDSM监测的空间(感测体积SVa-SVn)中的这些元素。

此外，可选地，根据一些实施例，换能器100和可能的音频输入传感器120配置有携带识别标记(例如，一般是视觉被动标记，但可能也是主动标记，例如主动辐射发射标记)和/或声学标记和/或帮助通过TDSM来识别换能器100和/或音频输入传感器120的类型及位置和方位的其他标记的封装。为此目的，标记应具有由在TDSM中包括的传感器可识别的类型。在这样的实施例中，由校准模块514使用的预先存储的参考数据可以包括指示由不同类型的换能器100和/或音频输入传感器120携带的标记连同它们各自的类型和音频属性的数据。参考数据可以由模式识别引擎515使用来识别在由TDSM监测的空间(感测体积SVa-SVn)中的标记，并从而确定换能器100和可选的音频输入传感器120的相对位置和方位。

然而，可选地或附加地，校准模块可以适于执行主动校准阶段，其中通过感测和处理在校准阶段期间由换能器生成的声场并且经由检测和处理由此生成的校准声场而定位(例如回声定位)换能器(例如，通过使用TDSM 110和/或音频输入传感器120来感测这些声场并处理所感测的声场；例如利用波束形成)来确定换能器的位置，以便确定换能器相对于TDSM和/或110和/或音频输入传感器120的相对位置和方位。

此后，一旦换能器100的相对位置和方位被确定，校准模块514就确定在换能器100的坐标空间/系统(换能器100a-100m的覆盖区域的CZa-CZm坐标，系统可以通过所述坐标来调节/控制所生成的声场的方向和/或位置)和TDSM的感测区域SVa-SVn的坐标空间之间的坐标变换。这允许生成映射模块的映射数据，其能够准确地选择和操作选定换能器，以便生成声场并朝着由TDSM之一检测到的用户P的位置引导声场。可选地，以相同的方式，校准模块514确定在音频输入传感器120的覆盖区域(在图中未特别示出)的坐标空间/系统和TDSM的感测区域SVa-SVn的坐标空间之间的坐标变换，系统通过所述音频输入传感器120来接收来自用户的声音。这允许生成能够准确地确定用户(其话音由音频输入传感器120接收)的映射数据。

因此，应当注意，尽管在图中没有特别示出，但是控制系统500且通常系统1000包括一个或更多个通信输入和输出端口，该一个或更多个通信输入和输出端口用于在网络通信中使用和/或根据情况可以用于附加的一个或更多个元件的连接。

在一些实施例中，系统1000还可以包括可连接到控制单元500，并被配置成和可操作来向一个或更多个用户提供显示数据的一个或更多个显示单元130。控制单元500可以从用户检测模块接收关于用户的位置的数据，并且基于该位置数据来确定用于向用户显示一个或更多个选定数据段的合适显示单元130，并且当用户移动时进一步选择附加显示单元130。控制单元可操作来显示各种数据类型，包括但不限于下列操作中的一个或更多个：显示与参与正在进行通信会话的另一用户相关联的数据，显示由用户选择的数据(例如电视节目、视频剪辑等)，显示基于由系统确定的用户属性(例如年龄、性别)而选择的商业数据。如下面进一步描述的，控制单元500可以允许用户使用一个或更多个命令手势来控制所显示的数据。附加地，在一些实施例中，显示器也是系统的用户界面的一部分(可能还包括用户输入设备，例如键盘和/或触摸屏和/或手势检测)，其作为系统设置界面进行配置和操作，系统设置界面向用户呈现系统的设置和配置参数并从用户接收用于配置系统1000的设置和配置参数的指令。

一个或更多个TDSM 110被配置为提供关于在一个或更多个相对应的感测区域内的区域的三维布置的数据。为此目的，一个或更多个TDSM 110可以包括一个或更多个相机单元、三维相机单元、以及附加的感测元件，例如雷达单元、LiDAR(例如基于光的雷达)单元和/或声纳单元。附加地，控制单元500可以被配置成通过用超声波束扫描相对应的覆盖体积并根据超声波束的检测到的反射确定的覆盖体积的布置来操作一个或更多个换能器单元100以充当一个或更多个声纳单元。

如上面所指示的，换能器单元100均可以包括换能器元件的阵列。例如WO 2014/076707公开了可以被包括在系统1000中并且特别适合于实现来自超声波的声音以用于在它的覆盖区域内(例如在感兴趣的指定用户的头部/耳朵附近)生成局部声场(例如受限的声音气泡)的换能器单元。

换能器单元100包括：被配置为发射在超声(US)频率范围处的超声波的声学信号的换能器元件的阵列105；以及声音生成控制器108，其被配置为接收指示要被传输的声学信号和信号将被传输到的空间位置的输入数据。声音生成控制器108还被配置成和可操作来操作不同的换能器元件105以振动和发射具有选定频率和在它们之间的相位关系的声学信号，使得所发射的US信号朝着所指示的空间位置传播，并且在期望位置处在它们之间相互作用以生成对应于将被传输的信号的可听声音，如下面进一步描述的。关于这一点，如本文下面使用的术语换能器阵列、换能器单元和换能器阵列单元应该被理解为指包括能够传输在预定的超声频率范围(例如40-60KHz)内的声学信号的任何类型的换能器元件的阵列的单元。换能器阵列单元可以通常能够提供波束形成和波束转向选项，以引导和聚焦所发射的声学信号，从而实现对可听声音的亮区域的创建。

一个或更多个麦克风阵列120被配置成从空间收集在可听频率范围内的声学信号以允许使用语音手势和双边通信会话。麦克风阵列120被配置为接收输入可听信号，同时至少实现声音信号的起源的可靠区分。为此目的，麦克风阵列120可以包括与空间内的一个或更多个不同方向对准的一个或更多个方向麦克风单元、或者在空间内布置在它们之间的预定距离处的一个或更多个麦克风单元。关于这一点，应该注意到，因为可听声音具有在几毫米和几米之间的典型波长，对相控阵音频输入设备的形式的多个麦克风单元的使用可能需要在麦克风单元之间的大间隔，并且可能是相对困难的。然而，利用在其之间具有几厘米的距离的若干麦克风单元并根据检测的时间来分析音频输入可以提供关于信号起源的方向和位置的可靠指示。一般应当注意，音频输入数据可以与由一个或更多个TDSM 110接收的感测数据并行地被处理，以提供关于音频输入信号的起源的指示并降低背景噪声。

控制/处理系统500被配置成和可操作来向位于该系统被使用的空间内的一个或更多个用户提供免提私人声音通信。通常，系统1000被配置成并可操作来发起一个或更多个用户的音频通信会话或对来自用户的发起做出响应，同时提供私人声音区域，在该私人声音区域只有选定用户能够听到声音信号。为此目的，控制单元500利用关于空间的三维布置的感测数据来确定选定用户的位置，传输具有合适振幅、相位、频率和空间波束形成的两个或更多个选定超声波频率的声学信号，以使超声波信号在选定用户附近在它们之间相互作用，以解调可听声音的频率。这提供了用户可以听到的声音的区域，而声音不能在相对小的区域之外被听到。为此目的，控制单元500通常被配置为提供某些数据处理能力以及指示在换能器阵列单元100的覆盖区域和TDSM单元110的感测体积之间的对应关系的校准数据。如上面所指示的，这种校准数据可以被预先存储或由系统自动生成。控制系统500和/或音频会话管理器570可以包括音频输入模块610，该音频输入模块610被配置成和可操作来与一个或更多个音频源(例如，本地或远程通信模块和/或其他音频数据提供者)通信以从其获得要提供给用户的可听数据。而且，控制系统500和/或音频会话管理器570可以包括被配置成和可操作来从一个或更多个麦克风单元120接收输入音频信号的音频分析器560。控制系统500还可以包括手势检测模块550，手势检测模块550被配置成并可操作来处理来自麦克风单元120的音频信号以确定指示一个或更多个手势的音频信号是否是从系统的用户接收到的，并且可能将这样的手势与从用户接收的某些指令(例如，关于用户正在进行的通信会话和/或通信会话的发起等的用户指令)相关联。

映射模块510可连接到一个或更多个TDSM 110单元，并且被配置成和可操作来接收指示相应感测体积的三维感测数据的输入。映射模块510还被配置为处理输入感测数据，并生成TDSM的一个或更多个相应感测体积的三维(3D)模型。在系统被配置为分布式系统的情况下，例如，如在图1B的当前示例中，一个控制单元500的映射模块可以被配置为沿着合适的通信网络与连接到其的一个或更多个其他音频通信系统的映射模块通信。附加地或可选地，映射模块可以被预先提供有关于不同换能器单元100、TDSM单元110和麦克风单元120的布置的数据，从而实现在由TDSM单元110和相对应的换能器单元100确定的感测数据和接收方位置之间的关联。

用户检测模块520被配置成和可操作来从一个或更多个TDSM 110接收输入感测数据，并处理输入感测数据以确定一个或更多个人在相对应的感测体积内的存在和位置。关于这一点，用户检测模块可以包括被配置成和可操作来识别从TDSM 110获得的图像中的各种物体的模式识别引擎/设施515或者与模式识别引擎/设施515相关联。就此而言，应当理解，TDSM 110的图像可以包括：视觉图像和/或IR图像和/或回声定位图像和/或深度图像和/或包括上述项的任何组合/由上述项的任何组合构成的合成图像。从TDSM 110获得的图像信息的确切类型通常取决于所使用的TDSM和在其中包括的传感器的具体配置。为此目的，术语“图像”在这里应该被理解为在它的与指示被监测空间的各种属性(例如各种谱色、深度和/或其他属性)的空间分布的数据像素的集合有关的广泛含义上。模式识别引擎/设施515可以利用如通常在本领域已知的各种类型的图像处理技术和/或各种模式识别方案，以用于识别在由TDSM监测的空间/感测体积中的人和/或他们的头部/耳朵(例如，图1B中的P)以及可能还有其他可识别物体(例如，图1B中的OBJ)，并确定他们在被监测空间中的位置。这允许使与人或通常前景物体相关联的图像数据部分与背景图像数据分离。

为此目的，在一些实现方式中，模式识别引擎/设施515被配置成和可操作来将模式识别处理应用于从TDSM 110获得的图像，并从而生成由TDSM监测的空间的3D模型。用户检测模块520又可以适于基于由模式识别引擎/设施515生成的空间的3D模型来确定(监测)并(及时)跟踪一个或更多个用户(例如，感兴趣的用户P的)的位置(例如，3D位置)。因此，用户检测模块520确定为感兴趣的用户P生成私人声音区域(声音气泡)所在的期望位置，使得所述位置在选定用户的头部上居中，并且更优选地在用户的单独耳朵上/附近居中。

在系统的一些配置中，用户检测模块520可以包括或连接到面部识别模块530、方位/头部检测模块540、和手势检测模块550中的一者或更多者。一般而言，应当注意，用户检测模块520被配置成和可操作来利用一个或更多个通常已知的处理算法来处理输入感测数据以确定在相对应的感测体积内的一个或更多个人(潜在用户)的存在。面部识别模块530通常可以被配置为接收指示一个或更多个选定用户的存在和位置的感测数据(例如，TDSM的图像)，并且通过一种或多种面部识别技术来处理该数据以确定一个或更多个被检测的用户的身份。面部识别模块530因此被配置成和可操作用于生成指示一个或更多个被检测的用户的位置和身份的身份数据，并用于将身份数据提供到输出声音发生器模块600以使换能器选择器620能够选择合适的换能器单元，并操作它，以用于生成选定用户可听见的局部私人声音区域。面部识别模块530可以适于将身份数据也提供到接收声音分析器560，使得后者可以处理从音频输入声音接收的声音以确定/识别/分离从在被监测空间中的每个特定用户到达的声音。在一些实施例中，面部识别模块530还可以适于执行随意配对，并为了诸如递送商业广告的目的而确定用户年龄/性别。

输出声音发生器模块600和音频输入模块610通常可以根据用户的位置、由用户提供的一个或更多个手势(例如，语音手势)和双边正在进行的通信会话来向用户检测模块520提供关于输入音频信号的数据。

为此目的，方位/头部检测模块540被配置为接收来自TDSM的感测数据的至少一部分和/或从模式识别模块515获得的与感兴趣的用户P的位置相关联的3D模型的至少一部分，并且处理感测数据以确定选定用户的头部的位置，并且可能还确定用户的头部的方位。因此，方位/头部检测模块540可以向输出声音发生器模块600提供指示用户的头部的位置和方位的数据，使得输出声音发生器模块600可以在用户的头部附近(例如，至少部分地围绕用户的头部)生成局部/受限声场。

如下面更详细讨论的，在本发明的一些实施例中，头部方位模块540还被配置为处理来自TDSM的感测数据和/或从模式识别模块515获得的3D模型，以便确定指示用户的耳朵的位置和方位的数据，并将这些数据提供到输出声音发生器模块600，使得后者可以生成至少部分地围绕用户的耳朵的局部/受限可听声场。

如上面所指示的，头部方位模块540和/或换能器选择器模块620还可以生成指示在一个或更多个换能器单元和用户的耳朵/头部之间的视线的数据。关于这一点，应当注意，在一些实施例中，一个或更多个换能器单元100和一个或更多个TDSM 110可以被配置在单个物理封装内以简化系统的部署。

如例如在图1C中所示的，在提供分布式处理的一些实施例中，这种物理封装还可以包括控制系统500和附加元件(未特别示出)，例如在这里未特别示出的存储器和通信设施以及电源单元。在一些其他配置中，物理单元(即具有相同的封装)可以包括换能器单元100、TDSM 110、麦克风单元120、电源单元(未特别示出)、和提供与遥控系统500的通信的通信设施(未特别示出)，遥控系统500被配置为接收和处理感测数据，选择性地传输关于音频通信会话的物理分布式单元数据。

因此，由方位检测模块540基于感测数据确定的视线通常可以指示相对应的换能器单元100的视线。在本发明的一些配置中，方位检测模块可以被配置成根据接收方的头部/耳朵的所确定的位置来选择最适合于向接收方传输选定声学信号的换能器单元100。

另外，手势检测模块550通常被配置成和可操作来接收与一个或更多个选定用户相关联的输入感测数据，并且处理和分析输入数据以检测与被定义为发起一个或更多个命令的一个或更多个预定手势相关联的用户行为/运动。在一些实施例中，手势检测模块550还可以被配置为接收和处理从用户接收并由麦克风阵列120收集的音频信号，以检测与一个或更多个预定命令相关联的一个或更多个语音手势。

通常，为了提供免提音频通信以及提供对系统的免提管理和控制，控制系统500的手势检测模块550被配置成和可操作来对一个或更多个预定手势(运动和/或语音)做出响应并发起一个或更多个预定操作命令。此外，在一些实施例中，一些操作命令可以包括与被配置为从本发明的音频通信系统接收适当指示的外部元件相关联的一个或更多个命令。这种操作命令可以例如包括用于在音频通信会话(例如，与选定联系人的电话对话)中发起的命令、对基于一个或更多个条件的通知的请求、以及由系统和/或用户定义的任何其他预定命令。附加地，在一些配置中，手势检测模块可以用于检测与用户身份相关联的一个或更多个手势。更特别地，一个或更多个用户均可以被分配有唯一的手势，该唯一手势允许音频通信系统识别用户，同时简化对输入数据的处理。

通常，手势检测模块550可以被配置成和可操作来从用户检测模块520接收关于用户位置的数据，并且从一个或更多个TDSM 110和/或从麦克风阵列120接收与同一位置相关联的感测数据。手势检测模块550还被配置为处理输入数据以识别一个或更多个预定义的手势是否由用户执行。在检测到一个或更多个手势时，手势检测模块550操作来生成一个或更多个相对应的命令并将一个或更多个相对应的命令传输到声音处理器设施600，以用于执行一个或更多个相对应的动作。在一些实施例中，接收声音分析器560被配置成接收来自用户的输入语音命令并结合手势模块550来分析输入语音命令。为了实现此，接收声音分析器560可以包括实现如在本领域中通常已知的一种或更多种语言解释技术的一个或更多个自然语言处理(NLP)模块，以用于对自然语言用户命令的破译。更特别地，用户可以在使用选择的自然语言时向音频通信系统提供语音命令。因此，接收声音分析器560可以被配置成和可操作来从周围声音中分离/过滤用户的语音(例如，可选地基于如上面所指示的感兴趣用户P的位置和/或基于用户的语音的频谱内容/颜色)，并分析用户的输入语音/话音数据的部分(例如，分析如由手势检测模块550指示为语音命令的部分)以确定用户P给系统的实际命令。因此，这可以基于用户的自由/自然语言语音和可能还有基于用户的运动或其他身体手势。在一些附加实施例中，接收声音分析器560可以利用远程处理单元(例如云)的一种或更多种语言处理技术。为此目的，控制系统500可以将指示由音频输入传感器120接收的声音的数据传输到远程位置以进行处理，并接收指示输入信号的内容的所分析的数据。

在一些配置中，手势检测模块550也可以被配置为作为唤醒模块来操作。在这种情况下，手势检测模块550被配置成并可操作来对发起以由用户执行的运动手势的可听形式的命令的通信会话做出响应。例如，这种可听手势可以被配置为响应于诸如“呼叫乔治”或任何其他联系人名字的关键字而发起针对远程用户(例如，电话对话)的双边通信会话，以在相对应的存储器设施中定位乔治的联系人信息，并访问输入/输出设施以发起对乔治或任何其他所指示的联系人的外部呼叫。还应当注意，联系人可能同时出现在同一空间处，在该空间的不同或相同的所连接的区域中(即，在视线内或视线外)。在这种情况下，诸如“呼叫爸爸”的命令可以操作用户检测模块520以定位在空间内的用户，并且操作面部识别模块530以识别例如相对于呼叫请求用户被指示为“爸爸”的用户，并且发起在用户之间的私人双边通信会话。在两个用户之间的这种私人双边通信会话中，例如在不同的房间内，第一用户的音频输出由第一音频通信系统1000的选定麦克风阵列120收集，其中第一用户位于第一系统1000的覆盖区域内。所收集的音频电子地被传输到第二音频通信系统1000，第二音频通信系统1000操作来识别第二选定用户(例如乔治、爸爸)的位置，并操作相对应的选定换能器单元100以在第二用户的耳朵周围产生私人音频信号。同时，由第二用户生成的音频被相对应的第二音频通信系统1000收集，并且类似地被传输以被第一用户听到。

如上面所指示的并且如图1B所示的，系统1000可以被部署在一个或更多个所连接的空间中(例如在公寓APT的多个房间中)，并且可能也部署在另外的一个或更多个断开连接的/远程的位置/空间(例如车辆VCL)中。因此，系统1000可以被配置成和可操作来提供在用户之间的无缝通信，而不管在他们之间的物理距离如何。为此目的，远程位置(例如公寓APT、车辆VCL)可以连接到类似的控制系统(例如500和500')，并且可以使用形成在控制系统(例如500和500')之间的外部数据/音频连接/通信的公共管理服务器700或连接到公共管理服务器700。为此目的，管理服务器700可以远离连接到其的一个或更多个控制系统，并且可以包括音频会话管理器570，该音频会话管理器570管理用户的音频会话，同时还在用户在由不同控制系统控制的区域/空间之间移动时跟踪用户的位置，以便当用户进入由其控制的区域/空间时将音频会话的管理和操作无缝地转移到相应的控制系统500或500'。

为此目的，管理服务器700实际上连接到一个或更多个终端单元，例如200、200'，由此，每个终端单元控制某一个或更多个所连接的空间(例如房间)，并管理在这些空间内的用户的音频会话。每个这样的终端单元可以如上面参考图1B和图1C所述的进行配置和操作，并且通常可以包括换能器阵列单元100、TDSM单元110和麦克风单元120中的至少一个。在终端单元例如200、200'和管理服务器700之间的远程连接可以利用任何已知的连接技术，包括但不限于网络连接、光纤光学器件等。

一个或更多个远程位置可以包括提供次中央处理方案的一个或更多个相对应的附加音频服务器单元、提供分布式管理的多个附加音频服务器单元，或者远程地连接到单个音频服务器单元以提供中央管理配置。例如，处理单元500可以连接到外部服务器(云)，其中用户的所有位置被收集。当处理单元500的用户检测模块520在某个地方识别出选定用户时，它向外部服务器700报告它的位置，因而将所有通信(内部或外部的)转移到该特定处理单元500以被引导到选定的用户/接收方。

而且，如上面所指示的，控制/处理单元500通常可以包括方位检测模块540，该方位检测模块540被配置为根据来自一个或更多个TDSM 110的输入感测数据和感测体积的3D模型来确定用户的头部的方位。方位检测模块540因此被配置成用于确定用户的头部或耳朵中的至少一者相对于TDSM 110的方位并且优选地相对于换能器单元100的方位。方位检测模块540因此可以生成至少一个用户的耳朵中的至少一个耳朵是否在至少一个换能器单元的视线内的指示。基于用户的耳朵的所确定的位置和方位，处理单元500可以利用未特别示出的方向模块，该方向模块被配置为接收指示用户的头部/耳朵的位置和方位的数据，并且根据空间的3D模型来处理数据以确定从一个或更多个选定换能器单元到用户的头部/耳朵的声音传输的一个或更多个优化轨迹。

通常，优化轨迹可以是从选定换能器到用户的头部/耳朵的直接视线。然而，当这种直接视线不存在或者存在但基于相对于其他轨迹位于相对大的距离处的换能器单元时，可以使用声学信号的反射或其他技术。更特别地，当在换能器单元和用户的头部/耳朵之间的直接视线不能被确定时，处理单元500可以操作声音处理器设施600以将局部声音区域指向在选定换能器单元100的视线内的尽可能靠近用户的耳朵的点。

应当注意，通常私人声音区域可以被定义为其中在它的外部声音强度降低了例如30dB的区域，因此，声音在非常接近选定区域时仍然可以是可忽略的，并且使用户能够识别声音并且可能四处移动到更好的收听位置。

可选地或附加地，在换能器单元100和用户的头部P之间的直接视线的形式的优化轨迹没有被找到的情况下，声音处理设施600且更特别地其换能器选择器模块620可以操作来确定在换能器100之一到用户的头部P之间的间接路径。这种间接路径可以包括从一个或更多个换能器100到位于用户P的附近区域中的一个或更多个声反射物体OBJ的直接路径。为此目的，换能器选择器620可以接收由模式识别引擎/设施515生成的由TDSM监测的空间的3D模型并利用该模型来确定位于用户附近(例如，在离其的预定距离内)并且可以具有可以被用于声音到用户P的间接传输的足够的声反射率的一个或更多个物体OBJ。为此目的，在一些实施例中，模式识别模块515还包括物体分类器(未特别示出)，该物体分类器被配置成和可操作来将所识别的物体分类为它们相应的类型，并将每个物体类型与通常取决于物体的结构和材料的某个标称声反射/吸收参数(例如反射/吸收/散射的声谱)相关联。因此，在确定从选定换能器单元到用户的头部/耳朵的间接路径(在本文也被称为反射型轨迹)时，换能器选择器620可以模拟/计算针对在换能器100——反射物体OBJ——用户P之间的每个候选路径的声场的衰减(可能计算每频率衰减曲线)。为此目的，换能器选择器620可以被配置成和可操作来使用任何数量的声模拟/估计技术以基于从候选换能器100到物体OBJ和从物体OBJ到用户的距离(例如，其可以由3D模型指示)并且基于物体OBJ的声反射参数来估计每给定候选换能器100和候选反射物体OBJ的声场衰减。本领域中的普通技术人员将容易认识到可以由换能器选择器620实现的各种可能的技术以估计与到用户的每个间接/反射路径相关联的声场衰减。在可能若干候选间接路径(可能涉及不同的换能器和/或不同的物体)当中，换能器选择器620选择具有最小声衰减和/或最小畸变声衰减的路径，并从而选择一个和可能多于一个的换能器以用于经由来自在空间中的物体的反射将声学信号直接传输到用户P。为此目的，在任何换能器100到用户P之间没有足够短的直接路径的情况下，换能器选择器620利用空间(感兴趣区域)的3D模型并确定间接(基于反射的)声音轨迹，其包括从物体(例如墙壁)的表面朝着潜在用户的耳朵的反射。

因为反射可能导致声强的降低和信号的更大扩展，包括单次反射的轨迹通常是优选的，优于更大数量的反射。

在一个或更多个换能器单元100用于生成用于形成3D模型的声纳式感测数据的情况下，模型还可以包括关于来自表面的声反射的某些指示。因此，物体分类器可以利用这种声纳式感测数据来确定在空间中的物体的声反射特性。

现在参考图2A和图2B，其中图2A是示出根据本发明的实施例执行的用于朝着用户P的头部传输局部(受限)声场的方法4000的流程图，而图2B是局部(在用户的头部附近生成的受限声场)的示意图。在操作4010中，系统——通常是用户检测模块520——定位在感兴趣区域中的用户。在操作4020中，面部识别模块530识别并定位在感兴趣区域内的感兴趣用户(例如，用户P)的头部。在操作4050中，系统——通常是换能器选择器620——确定/选择可用于朝着用户的头部直接或间接地传输声音信号/场以便在用户的头部附近(例如，至少部分地围绕用户的头部)生成局部受限声场的合适的换能器单元100。在操作4060中，音频信号发生器630被操作以生成可用于操作选定换能器100以转换在用户附近的局部/受限声场的有效的声音编码信号。为此目的，在操作4060中，来自超声(US)的声音信号发生器632被操作以确定信号的超声内容，其在与在用户附近的介质(例如空气)的非线性相互作用之后将生成/形成可以由用户听到的可听声场。而且，在操作4060中，波束形成器634被操作以生成选定换能器100的每个换能器元件105的特定信号，使得根据被提供给每个换能器元件105的相位延迟和不同频谱内容，预定形状和方向的一个或更多个超声波束(通常是两个或更多个)将由选定换能器100朝着用户传输，由此，这种波束的超声频谱内容使得在与在用户附近的介质(例如空气)相互作用之后，它们将产生将期望声音数据传送到用户的耳朵的可听声场。相应地，换能器阵列单元100被操作来使用相控阵波束形成技术生成超声频率的声波束。

如图2B所示，该技术有效地创建了声学亮区BZ，在该声学亮区BZ中所传输的信号形成可以由用户听到的可听声场。声学亮区BZ通常被选择为在用户的头部附近(例如，围绕用户的头部的全部或部分)。亮区BZ从其侧面和背面被暗区DZ包围，在暗区DZ中所传输的信号仍然可以形成一些可听声波，但具有足够低的声压级(SPL)以至于不被人耳听到或几乎听不到。因此，声学亮区BZ实际上限定声音气泡区域，其中携带期望声音数据的可听声场可以被听到，而在该区域外声场是不可听见的(例如，因为它在超声频带中)，并且实际上不能被听到。实际上，在一些实现方式中，还可以生成私有区域PZ声学区域，其包括在亮区和换能器阵列单元100之间的某个区域，在该区域处超声波形成某种程度的可听声音。通常，该私有区域从用户P朝着换能器100延伸某个距离(例如，在几厘米和几分米之间的范围内)。为此目的，应当理解，在用户后面的区域(例如，从用户到远离换能器100的方向)是可听声音不能被听到的暗区。

附加地或可选地，在选择将被操作用于向用户P传输音频场的换能器单元100(例如换能器100a至100m中的任何一个)时，换能器选择器模块620验证在音频场的朝着指定用户P的传播路径中没有其他用户(即在选定换能器和用户P之间的区域中没有其他用户)。在这种情况下，在选定换能器和用户之间的“暗区”DZ中的音频电平不太重要，只要其SPL低于在亮区BZ中的SPL。通常，在该区域处的SPL实际上明显低于在亮区BZ中的SPL。应当注意，在选定换能器和用户P之间的区域中存在其他用户的情况下，则换能器选择器模块620可以选择换能器100中的用于将音频场投射到用户不同换能器100，和/或确定音频场到用户的反射(间接)传播路径(例如经由通过OBJ的反射)。

通常，应该理解，当使用本发明的私人音频技术时，在亮区BZ之外的SPL(即在任何方向上围绕亮区的私人区PZ和暗区DZ)比在亮区BZ处的ZPL低至少20db。

图2B示出了围绕用户的头部(例如，用户的整个头部)的受限声场的生成的示例。然而，在本发明的系统的一些实现方式/实施例中，生成仅被限制在围绕用户的一个或两只耳朵但不是围绕用户P的整个头部的区域处的更小的声音气泡(更小的局部可听声场)是更优选的。这可能有几个优点。仅举一例，从超声波中生成可听声音可能通常不是在能量上高度有效的。也就是说，由此，大部分的能量被花在超声波声场的生成上，只有超声波声场的小部分的能量经历将它们转换成可听声音的非线性相互作用。因此，为了减少用于生成到用户的期望可听声场的所需功率/能量并且因此还可能降低所使用的换能器的复杂性和成本，生成仅被限制在用户的耳朵附近/周围的较小的局部可听声场气泡是优选的。另外的优点涉及向用户提供双耳(例如立体声)声音数据的能力，这在向不同的耳朵传输不同的声音内容时通常是可能的。然而，此外，在没有/减小的畸变的情况下的在空间上延伸的受限声音气泡(例如，延伸超过几十厘米，以便包围用户的整个头部)的生成在一些情况下可能比仅被限制在用户的耳朵周围的较小声音气泡(例如，仅几厘米至一或两分米)的生成更复杂(例如，在计算上更密集和/或需要更大数量的换能器元件105)。因此，由于上面所述的一个或更多个原因，产生仅聚焦在用户的耳朵附近的较小的局部声场在许多情况下是优选的。

然而，传统的面部识别和/或面部特征分析技术通常在它们准确、连续和可靠地识别和确定用户的耳朵的位置的能力方面是没有能力的和/或缺乏的。这可能是由于几个原因：(i)用户的耳朵可能隐藏/部分地隐藏在他的头发后面/下面；(ii)用户可能是从他的侧影被观察的，从而隐藏他的耳朵之一；和/或(iii)一些可用的技术也可能由于耳朵的复杂3D形状而完全避免对用户耳朵的检测。

为此目的，根据一些实施例，方法4000还包括操作4030，其被执行以确定用户P的耳朵(一个或两只耳朵)的位置，使得小于整个头部所需的可听声场的受限局部可听声场可以在用户P的一个或两只耳朵附近被生成。图2C是以一目了然的方式示出由换能器100生成的在用户的耳朵附近的受限可听声音(气泡)的较小亮区BZ1和BZ2的示意图。如所示，在这些亮区BZ1和BZ2之外有暗区，可听声音实际上不能在该暗区处被听到。在一些实施例中，可选地在从亮区BZ1和BZ2延伸到换能器100的某个距离(例如几分米)处，存在所谓的私人区PZ1和PZ2，可听声音可以在私人区PZ1和PZ2处被听到，但是不清楚和/或是低强度。

因此，回到图1A，应当注意，根据本发明的一些实施例，输出声音发生器模块600适于操作一个或更多个换能器单元100以转换将被用户P和可能附加用户的一只或两只耳朵接收/听到的声学信号。更特别地，用户检测模块520以上述方式检测用户P的耳朵，并且换能器选择器620确定/选择换能器100，通过该换能器100声音应被传输到每个耳朵。如上面所指示的，换能器选择器620确定声学信号从选定换能器到用户P的相应耳朵的传播路径(直接或间接路径)，声学信号应由选定换能器朝着相应耳朵传输。因此，来自超声的声音信号发生器632和波束形成器634被配置成并可操作来生成用于操作选定换能器阵列以转换超声波声学信号的信号，超声波声学信号在它们朝着用户的传播路径中经历与介质(例如空气)的非线性相互作用时在用户P的一只或两只耳朵附近(例如围绕用户P的一只或两只耳朵)形成非常小的声音气泡。为此目的，每个耳朵的可听声音气泡的尺寸可以在直径上小到几毫米，并且通常可以在几毫米到几厘米的范围内，以便不包围用户P的整个头部。

上述技术允许系统1000单独地向用户P的每一只耳朵提供单独的可听声音。这又允许向用户私密地传输双耳声音。为此目的，应当理解，相同或不同换能器100可以被选择(由换能器选择器620进行)，并且被操作以将声音传输到用户P的不同耳朵。例如，在用户的右耳在一个换能器(例如100a)的视线内并且左耳在另一个换能器(例如100b)的视线内的情况下，可以选择不同的换能器100。因此，在换能器100与用户的左耳和右耳之间的距离也可能是不同的(例如，这可能是由于在换能器和耳朵之间的距离的差异和/或由于用户的到一只或两只耳朵的反射传播路径的差异)。因此，在这样的实施例中，可能需要调整被提供给用户的可听双耳声音的平衡(即适当调整在用户听到的可听声音气泡的左音量和右音量之间的平衡)。实际上，由于在相应换能器与用户的左耳和右耳之间的传播路径的差异，以相同强度将声音传输到左耳和右耳可能对用户产生不平衡的左右可听声音。因此，根据一些实施例，在换能器选择器620选择将用于将声音传输到用户P的耳朵的相应的一个或更多个换能器100之后，并且在它确定它们到相应耳朵的相应直接和/或间接传播路径之后，换能器选择器620进一步确定沿着到用户P的每个耳朵的传播路径的所传输的声学信号/场的衰减水平。因此，换能器选择器620向来自超声的声音信号发生器632提供指示可听场在它们传播到用户的耳朵期间的衰减水平的数据。超声信号发生器632又利用接收到的衰减水平，以便调整超声信号的传输振幅，以便获得下列项中的至少一个：

(1)在由用户P的右耳和左耳听到的可听声音的音量之间保持预定的左右平衡(例如均衡的平衡和/或用户调整的平衡)；以及

(2)当用户可以穿过由系统1000覆盖的空间移动时，为用户提供及时的连续/平滑的音量，并且当在这个移动期间时不同的换能器可以被切换到为用户服务，同时可能在离用户的耳朵的不同的距离处。

一起参考图3A和3B。图3A是示意性示出用于产生被指定用户私密地听到的虚拟3D双耳音频空间的方法11000的流程图。图3B是根据本发明被配置成和可操作来从远处向指定用户产生私人虚拟双耳音频空间的系统12000的框图。

在这一点上，应当理解，短语“远程私人双耳音频空间”在本文被用来表示从远离用户的换能器(远程换能器可以位于离用户几分米到几米处，并且可以不再考虑/消除对头戴式耳机的需要)提供给用户同时用户可听到(私密地)并且对可能围绕用户的其他人是不可听到/理解的可听双耳声场。在这一点上，可听声音从远程位置被私密地提供给用户，使得位于离用户超过50-60CM的距离处的人不能听到/理解由用户听到的音频，而在一些实现方式中，该声音甚至可能对位于离用户的耳朵近至30-40cm处的人的耳朵是不能听到/理解的。关于这一点，术语“双耳音频空间”在本文用来表示模仿3D声音感觉的音频空间，通过该音频空间，用户/收听者可以识别各种声音看起来分别从其到达用户的源(虚拟源)的位置/方向。

根据本发明的用于从远处(例如，从远程超声换能器)向用户产生和提供私人双耳可听声音的技术基于用于在围绕用户的头部的指定位置(音频中心点)处由超声波产生局部可听声场的新颖技术，由此，投射到指定位置的超声场/波束的一个或更多个参数(例如，超声场的强度和频率内容、在投射到不同音频中心点的超声场之间的延迟和/或音频中心点本身的位置)被选择/调整，使得用户感知到包括听起来从一个或更多个虚拟源的相应方向到达用户的一个或更多个音频数据段的3D双耳音频空间。

方法11000包括操作11100，其中提供分级音频数据。短语“分级音频数据”在本文用于指定包括指示至少一个音频数据段(例如音频警报和/或音乐创作的一部分，例如歌曲的鼓部分和/或吉他部分)的音频数据和指示音频数据段的虚拟源相对于其指定收听者的位置的源位置数据的数据。分级音频数据通常可以包括具有相应位置的多个数据段，它们应该从该相应位置被用户感知以被听到(相应的源位置)。因此，分级音频数据可用于生成3D双耳和/或环绕声，为收听者提供他正在听到的每个乐器/人的位置感和/或警报。

方法11000还包括操作11200，其中指示被指定为音频数据的收听者的用户的头部的位置和方位的头部定位数据被确定。可以通过利用例如一个或更多个相机和/或在本文被称为感测模块(SM)(例如包括如在本领域中已知的成像器、LIDAR、回声定位和/或其他感测模块或它们的组合)的其他感测模块来识别在空间内的头部位置和方位，用户的头部的3D位置可以从这些感测模块被确定/估计。更特别地，在确定位置(例如，用户的头部的位置和方位时，可能需要在空间中的已知位置处的至少一个SM，并且它的输出感测数据可以例如通过将适当的模式/面部/头部识别技术利用/应用于感测数据来进行处理以识别头部相对于SM的位置和方位。因此，头部在空间内的位置可以相对于位于该空间中的已知位置处的任何其他元件/模块来确定(例如，通过利用适当的坐标变换)。

方法11000的操作11300目的在于产生音频调制超声通道(下文中的超声通道)，每个超声通道包括一个或更多个超声波束，其频率内容被选择用于通过来自超声波的可听声音来产生对应于音频数据段的可听声场。

频率内容超声场被选择成产生可听声场(通过来自在选定位置(音频中心点CP)处出现的超声效应的声音)。在这一点上，在转让给本申请的受让人并在本文通过引用被并入的PCT专利申请公开WO 2014/076707中公开了一种用于通过由于在期望位置处的超声效应产生的声音而产生受限/局部可听声场的技术。该技术可以由本发明的方法/系统利用来在期望的可听中心点处生成局部可听声场。

一般，对于每个虚拟源或至少对于虚拟源相对于用户的每个不同方向/位置，在该阶段产生至少一个超声通道(例如，单声道超声通道)和在一些实施例中进一步产生至少两个超声通道(例如，左超声通道和右超声通道)的组，超声频率内容被选择为产生与虚拟源相关联和/或与具有相对于用户的相似位置或至少相似方向的所有虚拟源相关联的可听声音数据段。

例如，在下面描述的图4A至图4D的实施例中，对于每个虚拟源位置的单声道超声通道被生成并聚焦到在围绕用户的头部的空间中的特别选择的音频中心点，使得在选定音频中心点处生成的可听声场朝着用户的相应耳朵传播期间，它相互作用并由用户的头部在频谱上调制，且因而由用户感知为从虚拟源的位置到达的声音。

可选地，例如，在下面描述的图5A至图5C的实施例中，生成两个相应的左超声通道和右超声通道，每个超声通道被指定为聚焦在用户的左耳和右耳中的相应的一个耳朵处，以用于在该处产生可听声场。如将在下面所述的，可以调整该左超声通道和右超声通道的频谱内容以及在它们之间的强度差和时间延迟，以便模拟头部的头部相关传递函数以及从虚拟源的位置到达的声音的时间延迟和强度差。

为此目的，在操作11400中，基于如在头部定位数据中所指示的虚拟源的位置和用户的头部的位置(位置以及可能还有方位)来控制/调整超声场的一个或更多个参数。控制一个或更多个参数，以便实现在用户的左耳和右耳处捕获的相应左可听声场和右可听声场之间的差异，使得可听声场被用户感知，好像它从虚拟源的位置的定位(至少从虚拟源的方向)并且相对于用户的头部传播到用户，同时携带至少一个音频数据段。如下面将更详细描述的，一个或更多个受控参数可以包括可听中心点相对于用户的头部的数量和位置；可以通过超声头部相关传递函数(US-HRTF)、被引导到不同可听中心点的超声场/波束的时间延迟(在多于一个可听中心点的情况下)和/或上述参数的任何组合来修改超声场的频率/频谱内容和强度。这在下面参考图4A到图6C更详细地进行描述。

在方法11000的操作11500中，一个或更多个超声通道朝着位于用户的头部附近的它们的相应音频中心点进行传输。通常，如下面更详细描述的，每个超声通道被处理以形成被聚焦到在超声通道的音频中心点处/附近的一个或更多个焦点的一组超声波束(通常多于一个超声波束)。通常，在本文被称为初级波束的在每个超声通道的该组超声波束中的至少一个波束是经由波束形成而被传输以聚焦在与超声通道相关联的音频中心点上的音频调制超声波束。初级波束的频率内容被选择成携带与超声通道相关联的音频数据段的音频信息。因此，当聚焦到它的相应音频中心点时，初级波束的超声分量被解调(例如，通过与空气的非线性相互作用)以生成携带音频数据段的可听声场BZ。可能(见例如图5A至图5C的实施例)一些频谱修改在操作11400中被引入，用于模仿从虚拟源的方向到达的声场与用户的头部的相互作用。可选地或此外，(见例如图4A至图4D的实施例)，音频中心点本身的位置被选择/调整成使得所生成的声场在它从音频中心点传播到用户的耳朵期间经历与用户的头部的相互作用，这影响了它的频谱内容，使得它被用户感知为好像它从虚拟源的方向到达一样。然而可选地或附加地，这两种技术可以被组合，如例如在图6A至图6C中所示。

一般，根据一些实施例，所包括的每个超声通道的该组超声波束是一个或更多个额外的超声波束，每个额外的超声波束可以是音频调制的或者不是音频调制的。在本文被称为限制波束的这些额外的超声波束通常被聚焦到与音频中心点稍微不同的焦点，并且被设计成直接或间接地破坏性地干扰初级波束的初级波束超声场和/或干扰由初级波束生成的可听声场，以便减小在限制波束的焦点处的初级波束的可听声场，从而实现在初级波束聚焦到的音频中心点附近的受限可听声场。在这一点上，短语“直接干扰”在本文用于表示限制波束的超声频谱分量干扰初级波束的超声分量的情况。短语“间接干扰”在本文用于表示限制光束是在它的焦点上生成可听场的音频调制光束，并且其中，限制波束的可听场的频谱分量(例如破坏性地)干扰由初级波束生成的可听场的频谱分量的情况。因此，任何或两种类型的直接干扰和间接干扰限制波束可以用于限制由初级波束生成的可听声场。如上面所指示的，限制波束通常聚焦到不同的位置而不是初级波束的焦点(音频中心点)，使得相消干扰不出现在围绕它的指定位置处的音频中心点处，从而限制由初级波束生成的音频场但不破坏它。

现在转向图3B，根据本发明的一些实施例，系统12000包括：音频会话管理器模块12200，其被配置成并可操作来提供分级音频；头部定位模块12300，其可连接到一个或更多个传感器(感测模块)SM(例如，成像器、LIDAR和/或其他传感器)，并且被配置成并可操作来处理传感器数据以识别/确定指示用户的头部的定位数据(头部定位数据)；双耳超声场管理器12400，其被配置成并可操作来生成超声通道，以用于朝着在用户附近的一个或更多个音频中心点传输一个或更多个相应超声场，以从而通过来自超声效应的声音来产生将双耳可听声音传送到用户的耳朵的受限可听声场。

为此目的，音频会话管理器12300被配置成并可操作来提供指示至少一个音频数据段和该音频数据段的虚拟源相对于该音频数据段的预期收听者的位置的分级音频数据。通常，一个或更多个(多个)音频数据段及它们的相应虚拟源的位置可以在分级音频数据中被包括/指示。分级音频数据可以是包括各种乐器/歌手的音调以及它们在舞台上的相应相对位置的音乐段(music piece)，和/或它可以包括各种警报和所宣称的位置/方向，从所宣称的位置/方向警报应被指定用户听到。

更具体地，在一些情况下，分级音频数据可以包括音乐段或其他音频部分的双耳记录。根据它的定义，双耳记录模拟由两只人耳对可听声场的感知，使得它实际上指示音频数据段的集合以及它们在围绕指定收听者的空间中的相应位置/源。为此目的，音频会话管理器12200可以包括外部音频输入部分/管理器12210，该外部音频输入部分/管理器12210被配置成并可操作来从外部源(例如，经由网络通信、信号接收、和/或从存储器模块)接收分级音频数据。

在一些情况下，分级音频数据可以包括指示危险和/或警报的双耳通知和/或以听觉形式提供给用户的有用信息通知连同指示通知(警报/危险)的方向的方向信息。在这一点上，通过产生由用户感知的双耳音频空间，可听通知以及它的方向的信息都以可听形式提供给用户。为此目的，该系统可以包括可连接到危险通知监测器12115的通知发生器模块12220，危险通知监测器12115监测/接收指示在用户的环境中的各种警报/危险的输入，并且向通知发生器模块12220提供指示通知的类型及它的方向(例如，虚拟源的位置，从该虚拟源的位置通知应被用户听到/感知)的数据。通知发生器模块220然后利用与要提供给用户的相应通知相关联(指示要提供给用户的相应通知)的合适的音频数据段，并且利用相应的方向来构建/提供包括通知及其方向/位置的分级音频数据。

在这一点上，应当注意，在一些特定实施例中，系统12000被配置和可操作为驾驶员的警报系统。如在图3C中示意性示出的，系统12000可以被安装在车辆中，并且可以适于向车辆的驾驶员提供关于在车辆附近的内部和/或外部状况/危险的双耳通知，由此，用于每个通知的音频数据段可以指示危险/状况的类型——用户/驾驶员被通知该危险/状况，以及方向——双耳通知被感知为由驾驶员从该方向听到——本能地(向驾驶员)指示他被通知的状况/危险的去向/方向。本发明的技术相对于其他音频通知技术的一个重要优点是，一方面双耳通知被私密地提供给驾驶员而不干扰车辆中的其他人/乘客，而另一方面驾驶员不需要戴干扰他听到外部声音的能力且因此在大多数国家在驾驶期间被禁止的耳机等。此外，作为备选方案，该系统还可以用于允许驾驶员和/或可能的其他汽车乘客进行私人电话呼叫而其余乘客收听不到电话呼叫的另一方，或者在不打扰其他乘客的情况下以私人方式听音乐。

头部定位模块12300可连接到一个或更多个感测模块SM，以用于从其接收指示用户的头部的位置和可能还有方位的感测数据。一个或更多个感测模块SM、通常成像器/相机或可能其他类型的传感器(例如LIDAR或回声位置传感器)适于监测用户所位于的环境并提供指示其的数据。头部定位模块12300可以包括被配置成和可操作来根据任何合适的技术(例如，如在本领域中通常已知的)来输出指示所识别的图案及它们在环境中的位置的数据的模式识别模块12310。头部位置模块还可以包括被配置成并可操作来处理所识别的图案以在它们当中识别用户的头部并从而确定它在环境中的位置(例如，至少它的位置以及可能还有它的方位)的头部检测模块12320。可选地，头部定位模块12300还包括适于进一步处理用户的头部的所识别的图案以识别用户的左耳和右耳在环境中的位置的耳朵定位模块。实际上，如从下面的描述将认识到的，这是可选的，因为根据本发明的一些实施例，甚至在没有关于用户的耳朵的位置的信息的情况下，双耳可听声音也可以被产生并被提供给用户；例如，见例如下面描述的图4A至图4D的实施例)。然而，在一些其他实施例/实现方式中，用户的耳朵的位置被用于向用户提供双耳声音，如例如下面参考图5A至图6C所述。

根据本发明，该系统还包括双耳超声场管理器模块12400，其被配置成并可操作来处理分级音频数据和头部定位数据，以用于生成一个或更多个超声通道的信号，以将相应超声场投射到在用户的头部周边中的一个或更多个音频中心点，从而通过来自超声效应的声音来产生来自在用户的头部附近的超声波的可听声音(例如，音频中心点应该位于围绕用户的头部的周边区域内，并且与其相距不超过40cm)。如下面将更详细描述的，超声通道由来自超声的输出声音发生器模块(output sound from ultrasound generator module)12500进一步处理以从其产生波束形成的超声通道，其特别适用于一个或更多个超声换能器的操作，以从超声波束产生不从用户的头部延伸相当大的距离的受限可听声音，从而向用户提供私人双耳声音。返回双耳超声场管理器模块12400，它包括适用于生成具有超声频率内容的超声通道的超声通道发生器模块12410，该超声频率内容被选择为用于通过来自超声效应的声音产生，该可听声音具有分级音频数据的相应的一个或更多个音频数据段的频率内容，该分级音频数据段应当通过每个超声通道编码。用于产生给定可听声音数据段的超声通道的所需频率内容在例如转让给本申请的受让人并通过引用被并入本文的PCT专利申请公开号WO 2014/076707中进行了描述。下面参考图7D和7E描述用于产生用期望可听频率调制的超声通道音频的技术的示例。超声通道发生器模块12410可以例如被配置成和可操作来实现用于产生用与一个或更多个虚拟源相关联的音频数据段调制的超声通道音频的这些技术。

应当注意，通常由投射到音频中心点的超声场在用户的头部的周边处产生的可听声场实现(通过在头部周围和穿过头部的传播)分别由用户的耳朵捕获的左可听声场和右可听声场。由用户的相应耳朵捕获的左可听声场和右可听声场可以是相似的或不同的。这取决于超声通道(由此生成的场)的参数，例如音频中心点的位置——超声场朝着音频中心点被投射/聚焦、超声场的强度和频谱分量、以及在它们之间的时间延迟。为此目的，如在双耳声音的领域中的技术人员将容易认识到的，在分别被用户的左耳和右耳捕获的左可听声场和右可听声场之间的差异影响用户如何感知由此听到的音频数据段，并且特别影响方向，用户从该方向感知每个音频数据段。

鉴于上述内容，本发明的发明人理解，超声场的至少一个上述参数的控制/调整应该以通过超声波向用户提供双耳音频的方式被执行，由此，双耳音频指示分级音频数据中的音频数据段和每个音频数据段被感知的虚拟源的位置/方向。

因此，双耳超声场管理器模块12400包括被配置成并可操作来根据在超声通道中编码的音频数据段的虚拟源的位置以及根据头部定位数据(至少根据相对于虚拟源的头部位置，并且可能还根据它在空间中的方位)来控制/调整超声通道的一个或更多个参数的双耳控制器12420。如下面更详细描述的，进行对超声通道的一个或更多个参数的控制/调整，以便影响在相应的左可听声场和右可听声场之间的差异，使得用户感知从虚拟源的方向传播到其并携带在分级音频数据中包括的一个或更多个音频数据段的可听声场。在图4A至图6C中更详细地描述了根据本发明的用于调整超声通道的参数以产生上述双耳效应的几种技术。这些通常包括下列操作中的一个或更多个：以引起所感知的双耳声音效应的方式调整超声场被引导到的音频中心点的位置(见例如下面对图4A至图4D的描述)；以引起所感知的双耳声音效应的方式调整不同超声通道的频率内容(频谱)、强度和时间延迟(见例如下面对图5A至图5C的描述)；以及这些技术的组合(见例如下面对图6A至图6C的描述)。

在一些实施例中，该系统还包括来自超声的输出声音发生器模块12500，该发生器模块12500被配置成并可操作来处理用于生成用于操作超声换能器以朝着一个或更多个选定音频中心点传输一个或更多个超声场的波束形成的超声通道的由双耳超声场管理器模块12400提供的一个或更多个超声通道。

更具体地，根据本发明的一些实施例，来自超声的输出声音发生器模块12500包括来自超声的局部声音波束发生器12510，超声波束发生器12510被配置成并可操作来处理由双耳超声场管理器模块12400提供的超声通道的每个超声通道以生成指示一个或更多个超声波束将由一个或更多个换能器系统12110朝着对应于超声通道的音频中心点传输的数据。通常，根据PCT专利申请公开WO 2014/076707中的公开内容，为了在期望音频中心点处产生受限/局部可听声场，来自超声的局部声音波束发生器12510从超声通道产生至少一个音频调制超声波束(其频率内容包括被选择为在经历非线性介质中的非线性相互作用之后产生可听声音的至少两个超声波频率分量)以及一个或更多个附加波束(其频率内容相位和焦点被选择为对在所述一个或更多个周围波束之间的音频中心点周围的一个或更多个区域处的声场造成破坏性干扰)，以从而在音频中心点附近形成受限局部可听声场。此外，音频调制超声波束聚焦到音频中心点，并且附加波束通常聚焦到周围区域中的不同焦点。换句话说，来自超声的局部声音波束发生器12510适用于根据指定的音频中心点处理每个超声通道，在该指定的音频中心点处，来自超声波的可听声音将由通道产生，并且确定将从超声通道的频率内容产生的一个或更多个超声波束的方向/焦点和频率内容，以便在通道的音频中心点附近生成受限局部可听声场。

例如，下面更详细描述的图7A至图7C例示用于处理超声通道的数据/信号以确定至少两个超声波束的技术，所述至少两个超声波束被配置为从空间中的期望位置(音频中心点)处的超声波产生局部/受限声场。来自超声的局部声音波束发生器12510可以例如被配置成和可操作来实现这样的技术或其他技术(例如在WO 2014/076707中公开的)，其用于提供适于从在期望位置处的超声波产生受限可听声音的超声波束的参数。

为此目的，系统12000可包括或可连接到被配置为能够传输具有如通过来自超声的局部声音波束发生器12510确定的波束的方向/焦点的超声波束的相控阵超声换能器的一个或更多个换能器系统12110(例如12110a至12110m)。可选地，在系统12000可连接或包括部署在用户的空间/环境中(例如，在图3C所示的车辆中)的多个超声换能器12110a-12110m的情况下，该系统还可以包括被配置成和可操作来选择/分配用于生成每个超声通道的超声场/波束的换能器系统12110a-12110m中的选定的一个换能器系统的换能器选择器模块12520。通常，换能器选择器可以包括存储指示换能器系统12110在围绕用户的空间中的部署位置的映射数据的数据存储模块。然后，基于映射数据、头部定位数据、以及与每个换能器通道相关联的音频中心点或超声通道的每个超声波束成分的焦点的位置，换能器选择器12520选择/分配用于生成每个通道的超声场的选定换能器，和/或更特别地，分配用于生成通道的每个超声波束成分的选定换能器系统。为了分配选定换能器，换能器选择器12520处理换能器系统的相应位置(如由映射数据提供的)、头部的相应位置、和通道的音频中心点的位置(例如，和/或通常靠近音频中心点的波束的焦点)，以确定一个换能器系统，从该换能器系统朝着音频中心点(例如，或朝着在它的附近区域中的焦点)的超声场的直接(无阻挡的)传播路径存在。因此，选定换能器系统应该满足在它和超声通道的音频中心点之间存在无阻挡的无障碍视线路径的条件(其中用户的头部和/或环境中的其他元件没有阻碍在选定换能器系统和超声通道的相应音频中心点之间的视线)。在多于一个换能器满足这一条件的情况下，换能器选择器12520可以利用其他参数，例如在换能器系统和相应音频中心点之间的距离，以便在它们当中选择选定换能器系统。

系统12000还包括被配置成并可操作来处理指示一个或更多个超声波束的数据并生成波束形成的超声通道的波束形成模块12530(波束形成器)，波束形成的超声通道包括由一个或更多个换能器系统12110产生的一个或更多个波束的一组相移信号。更特别地，一旦选定换能器系统被分配给超声通道的每个波束(即，在选定换能器每通道被分配的情况下，该通道的所有波束由同一选定换能器产生)，波束形成模块12530根据选定换能器系统的元件的数量及它们的位置来处理指示每个超声通道的超声波束成分的数据，并且生成波束形成的超声通道，该波束形成的超声通道包括用于启动用于生成分配到其的聚焦在它们的相应焦点处(在其音频中心点附近)的组成波束的选定换能器的信号。如本领域中的技术人员将认识到的，可以通过各种已知技术通过将相位延迟引入到到达选定(相控阵)换能器的不同元件的超声通道的信号来实现波束形成，以便形成被引导和/或聚焦到它们的相应焦点的期望波束。因此，波束形成模块12530可以被配置成和可操作来根据任何合适技术生成这种波束形成的超声通道以用于启动相控阵超声换能器。

现在一起参考图4A至图4D，其例示了根据本发明的某些实施例的用于向用户提供私人双耳声场的系统12000的操作。图4A、图4C和图4D是示出由系统12000在相应音频中心点(CP、CP1、CP2)处生成的受限/局部可听声场(BZ、BZ1、BZ2)的侧视图和上部视图的示意图。例如，可听声场BZ被生成以模拟从虚拟源VS相对于用户的方向{ψ,Θ}到达用户的声音。在这里，ψ和Θ分别是如相对于围绕用户P的空间的笛卡尔坐标X、Y、和Z测量的虚拟源VS的方位角和仰角。图4B是示出方法1400A的流程图，方法1400A是由双耳超声场管理器12400实现来控制从换能器系统12110发出的超声场USF的参数使得在左可听声场和右可听声场LAF和RAF之间的差异被用户P感知为从虚拟源VS的位置传送音频数据段的可听声场的根据本发明的实施例的方法1000的操作1400的具体实现方式。

根据方法1400A，为了向用户生成双耳可听声场，双耳超声场管理器12400控制/调整超声场USF被传输到的一个或更多个选定音频中心点CP的位置，以用于从超声USF产生可听声场BZ。在这一点上，根据所述虚拟源相对于所述用户的头部P的位置的定位来调整音频中心点CP的位置。在这一点上，应当注意，方法11400A基于发明人的下面的理解：围绕用户的头部P的音频中心点CP(可听声场BZ在音频中心点CP产生)的正确定位由于可听声场BZ在它从中心点CP朝着用户的左耳和右耳传播期间与用户的头部P的相互作用而对由用户的左耳和右耳捕获的左可听声场LAF和右可听声场RAF有显著影响。可听声场与用户的头部的相互作用——所谓的头部相关传递函数——由于所生成的可听声场BZ的特定频率由于在它朝着用户的左耳和右耳传播期间与用户的头部P的相互作用而引起的衰减和/或放大而影响左可听声场LAF和右可听声场RAF的频谱内容，并且也可由于可听声场BZ朝着用户的左耳和右耳传播所沿着的声学轨迹的长度的差异而影响在左可听声场LAF和右可听声场RAF之间的时间延迟和强度差。因此，在方法1400A中，调整可听中心点的数量和位置，以便向用户提供从虚拟源方向到达其的声音的感觉。

为了清楚起见，在图4A的特定非限制性示例中，仅选择单个音频中心点CP用于产生可听声场BZ和因而在用户的相应左耳和右耳处的左可听声场LAF和右可听声场RAF。因此，在该示例中，超声场USF仅被引导/聚焦到单个音频中心点CP，其位置是根据虚拟源VS相对于头部P的方向而被特别选择的。

更特别地，方法11400A包括由双耳超声场管理器12400的音频中心点确定器模块12430执行的下列操作：

11410A–例如从头部定位模块12300提供指示用户的头部P的位置和更特别地它的位置(例如，在用户所位于的空间的坐标系X、Y和Z中)的数据；

11420–确定/提供虚拟源VS相对于用户的头部P的方位角和仰角{ψ,Θ}。实际上，如在分级音频数据中提供的虚拟源VS的位置数据通常指示虚拟源相对于指定收听者(在这里是用户P)的方向和/或位置。因此，可以从分级音频数据中提取/确定方位角和仰角{ψ,Θ}；

11430A–定义位于围绕所述用户的头部的周边区域内离用户的头部P的表面不超过40cm且更优选地不超过30cm的距离的至少一个音频中心点CP；以及

11440A–根据虚拟源相对于用户(指定收听者)的方向{ψ,Θ}调整至少一个音频中心点CP在周边区域内的位置，使得经由来自在音频中心点处的超声效应产生的声音而生成的可听声场BZ在用户的耳朵处经历来自左可听声场LAF和右可听声场RAF的与用户的头部P的声学相互作用，由此，声学相互作用模拟由用户的头部应用于从虚拟源VS的方向到达用户的头部的声音的头部相关传递函数(HRTF)。在这一点上，应当注意，在这里区分开通过由于在音频中心点CP处的超声效应产生的声音而产生的可听声场BZ与通过可听声场BZ朝着用户P的相应耳朵的位置的传播而形成的同时经历沿着它朝着耳朵的路径与用户的头部的相互作用的左可听声场LAF和右可听声场RAF。这些相互作用影响对左可听声场LAF和右可听声场RAF的相对应的频谱修改、强度修改、和时间延迟，左可听声场LAF和右可听声场RAF模仿虚拟源的所感知的位置。

如上所述，根据本发明的一些实施例，在操作11430A中，对于每个虚拟源(即，更特别地，对于每个不同的方向，声音应从该方向被用户感知)，在围绕头部P的周边区域处仅定义单个音频中心点CP。换句话说，系统12000不在除了单个音频中心点CP之外的头部周边中的任何其他位置处由超声波生成可听声音。在这样的实施例中，在操作11440A中，调整/设置在头部P的周界内的单个音频中心点CP的位置，使得它相对于头部P的位置的标称方位角和仰角与虚拟源相对于头部P的方位角和仰角相匹配。换句话说，单个音频中心点CP的位置被设置成使得头部P、单个音频中心点CP、和虚拟源VS的位置都沿着公共直线对齐。

应当注意，在方法11000的操作11400的这个实现方式11400A中，双耳超声场管理器12400(音频中心点确定器模块12430)可以被配置成和可操作来在用户的头部P的方位的变化下维持每个虚拟源VS的单个音频中心点的位置固定。这是因为音频中心点(例如，CP、CP1和/或CP2)的位置根据虚拟源VS相对于用户/头部P的方向{ψ,Θ}关于围绕用户的空间的参考系(例如，X、Y和Z笛卡尔坐标)被确定。即，音频中心点的位置不取决于虚拟源相对于头部固定参考系(例如，X’、Y’和Z’坐标)的方向{ψ',Θ'}，而是基于虚拟源VS相对于用户的头部的位置的方向/位置并且可能不考虑用户的头部的方位(例如，不考虑用户的耳朵的具体位置)。

这例如在图4C和图4D中被示出，其中示出了两个音频中心点CP1和CP2，每个音频中心点与相应的虚拟源VS1和VS2相关联(例如，每个音频中心点为将被感知为来自它的相应虚拟源的可听声场在其处生成的信号音频中心点)。如在这些图中所示的，音频中心点CP1和CP2保持固定，而用户P旋转他的头部或者以其他方式改变他的头部方位(例如，只要头部的位置没有显著改变)。在头部的方位的变化下保持单个音频中心点的位置固定提供了虚拟源被用户感知为在相对于用户的固定位置处。然而，应该注意，当用户平移他的头部(水平的或垂直的横向平移)时，单个音频中心点的位置可以与它一起平移，使得它相对于头部保持在大约相似的角度/方位处，从而仿真位于该方位/角度处的虚拟源。事实上，当仿真位于“无限”距离处的虚拟源(即位于比头部平移的程度大得多的距离处的虚拟源)时，单个音频中心点被平移到头部平移的相同程度。然而，当头部平移相对于虚拟源的距离是相当大的时，当头部平移时角度(虚拟源应该从该角度被感知)改变，且因此在这种情况下，单个音频中心点的位置虽然被平移但在比头部的平移更小的程度上被平移。

实际上，在该实现方式中，在单个音频中心点CP到头部P之间的距离可以不同于在虚拟源VS和头部P之间的虚拟距离。然而，单个音频中心点CP(可听声场BZ在该单个音频中心点处从超声波生成)与虚拟源VS在相同的方向上的事实导致由用户感知为从虚拟源的方向到达的声音的左音频场LAF和右音频场RAF(例如，由于可听声场BZ与头部的相互作用，并且由于在耳朵处的左音频场LAF和右音频场RAF之间的时间延迟和强度差，其由可听声场BZ到左耳和右耳的传播引起并且近似于从虚拟源到达左耳和右耳的声音的时间延迟和强度差)。

为此目的，方法11400A向用户提供了用于产生模拟从虚拟源VS的方向到达的声音的双耳声音的简单技术。在这一点上，应当注意，相对于用户对于一个或更多个虚拟源存在于的每个方向来定义单个音频中心点CP。例如，在音频数据包括与相对于用户位于相同方向上的一个或更多个虚拟源相关联的一个或更多个音频数据段的情况下，携带一个或更多个音频数据段(由一个或更多个音频数据段调制)的超声场USF可以被引导到相同的单个音频中心点，以用于通过来自超声效应的声音在此处产生具有音频数据段的可听声场。

然而，如图4C和图4D所示，在音频数据包括与多个虚拟源(例如相对于用户P位于多个不同的方向(例如{ψ1,Θ1}和{ψ2,Θ2})处的VS1和VS2)相关联的一个或更多个音频数据段的情况下，音频中心点确定器模块12430定义在头部周边区域内的相对应的多个音频中心点，例如CP1和CP2，例如位于每个不同方向处的单个音频中心点(相对于头部P在方向{ψ1,Θ1}处的CP1和在方向{ψ2,Θ2}处的CP2)。超声场USF包括指向多个音频中心点的超声场，以用于在那里分别产生相对应的多个可听声场(例如BZ1和BZ2)以及与相应音频中心点的那些方向相关联的音频数据段(例如CP1和CP2)。例如，用被假设从方向{ψ1,Θ1}听到的相应音频数据段调制的超声场USF中的一个超声场被引导/聚焦到位于相对于头部P的该方向{ψ1,Θ1}处的音频中心点CP1，使得携带这些相应音频数据段的可听声场BZ1在音频中心点CP1被生成。因此，用被假设从方向{ψ2,Θ2}被听到的其他相应音频数据段调制的超声场USF中的另一个超声场被引导/聚焦到位于相对于头部P的方向{ψ2,Θ2}处的音频中心点CP2，使得携带这些其他相应音频数据段的可听声场BZ2在音频中心点CP2生成。为此目的，在这种情况下，由相应的用户的耳朵捕获的左可听声场LAF和右可听声场RAF在可听声场BZ1和BZ2从它们的相应音频中心点CP1和CP2到耳朵的传播的超级位置处形成，因此用户P将不同的音频数据段感知为如同它们是从与其相关联的虚拟源VS1和VS2的相应方向{ψ1,Θ1}和{ψ2,Θ2}到达/传播的。

应当注意，在方法11400A中，双耳超声场管理器400且更特别地音频中心点确定器模块12430可以设置(控制/调整)一个或更多个音频中心点的位置，而不管头部相对于虚拟源的方位。这确保即使在用户的头部的移动下用户也能将音频数据段感知为好像音频数据段是从空间中的固定位置到达他一样。

现在一起参考图5A至图5C，例示了根据本发明的另一实施例的用于向用户提供私人双耳声场的系统12000的操作。图5B是示出由系统12000在分别位于用户P的左耳和右耳的位置处的相应音频中心点CP_L和CP_R处生成的受限/局部可听声场BZ1和BZ2的上视图的示意图。图5A是示出方法11400B的流程图，方法11400B是由双耳超声场管理器12400实现的根据本发明的这个实施例的方法11000的操作11400的具体实现方式。在这个示例中，可听声场BZ1和BZ2在耳朵位置处产生，且因此呈现由相应的右耳和左耳感知的实际的右可听声场RAF和左可听声场LAF。在该示例中，双耳超声场管理器12400将超声头部相关传递函数应用于与可听声场BZ1和BZ2的生成相关联的超声通道/场，使得右可听声场RAF和左可听声场LAF(即在这种情况下的可听声场BZ1和BZ2)模拟从虚拟源VS的方向{ψ,Θ}到达用户的声音。这里，如在上文中的，ψ和Θ分别是如相对于围绕用户P的空间的参考系(例如笛卡尔坐标X、Y和Z)测量的虚拟源VS的方位角和仰角。ψ'和Θ'分别是如相对于固定到用户的头部的头部固定参考系(在下文中被称为头部固定参考系)例如笛卡尔坐标X'、Y'和Z')测量的虚拟源VS的方位角和仰角。

因为在该实施例中相应的音频中心点CP_R和CP_L在用户的右耳和左耳处(非常接近用户的右耳和左耳)，因此由用户的右耳和左耳分别听到的右可听声场RAF和左可听声场LAF在这种情况下实际上类似于在音频中心点CP_R和CP_L处生成的来自超声场(例如BZ1和BZ2)的相应可听声音。

因此，如下面将更详细描述的，在可听声场BZ1和BZ2通过来自发生在用户的相应耳朵的位置处的超声效应的声音从超声场USF1和USF2生成的这个实施例中，通过利用调整左超声场USF2和右超声场USF1的频谱内容的超声头部相关传递函数(US-HRTF)来修改超声场USF1和USF2的频谱内容，使得对在相应的左耳和右耳附近生成的可听声场BZ1/RAF和BZ2/LAF的频谱内容的修改类似于对从虚拟源的位置实际上到达用户左耳和右耳的可听声音出现(由于与头部的相互作用)的频谱修改。

更特别地，方法11400B包括由双耳超声场管理器12400执行的下列操作：

操作11410B包括提供指示包括用户的头部的位置以及还有方位的用户的头部P的位置的数据，确定相对于用户所位于的空间的坐标/参考系(例如，X、Y和Z)的头部固定参考系(坐标系X'、Y'和Z')。因此，利用虚拟源在空间固定坐标中的位置以及在空间固定坐标/参考系(例如，X、Y和Z)和头部固定坐标/参考系(例如，X'、Y'和Z'){ψ',Θ'}之间的转换，可以在这个阶段确定虚拟源VS1相对于用户的头部和耳朵的方向(例如，方位角和仰角){ψ',Θ'}。该操作可以例如由头部定位模块12300执行。如由模式/面部识别领域中的技术人员将容易认识到的，根据本发明的各种实施例，可以例如通过将适当的模式/面部/头部识别技术应用于从感测模块SM(例如被配置成并可操作来捕获用户P的图像的成像器)接收的感测数据(例如图像)来实现确定/估计人/用户头部的位置和方位。

这里的操作11420可以类似于方法11400A的操作11420，并且包括确定/提供虚拟源VS相对于用户的头部P的方位角和仰角{ψ,Θ}或者可选地{ψ',Θ'}。

操作11425B包括确定用户的相应左耳和右耳的位置。该操作可以由如图3B所示的可选的耳朵定位模块12330执行。通常，耳朵定位模块12330处理从感测模块SM获得的感测数据(例如，来自相机的图像)，以便估计/确定用户的耳朵在空间内的3D位置。为此目的，可以使用/处理如在上面的操作11410B中获得的用户的头部P的位置以及可能还有它的方位，以便于对用户的耳朵的位置的确定。可选地或附加地，根据一些实施例，耳朵定位模块12330也可以被配置成和可操作来通过执行下面参考图8所述的方法4000来实现该操作11425B。可使用方法4000，以便准确地估计用户的耳朵的位置，甚至是在从感测模块的角度来看一只或两只耳朵被覆盖或隐藏的情况下。

操作11430B包括定义/选择位于用户的左耳和右耳的位置处/附近的相应的左音频中心点CP_L和右音频中心点CP_R，如在操作11425B中所确定的。该操作通常由双耳超声场管理器12400例如由音频中心点确定器模块12430执行。根据该实施例，音频中心点确定器模块12430选择/定义音频中心点以至少包括在用户的左耳附近的左音频中心点CP2和在用户的右耳附近的右音频中心点CP1。优选地，音频调制超声场USF2和USF1被配置成使得它们的限制半径足够小(例如，在头部沿着横向头部轴X'的半径的数量级上或小于该半径)，以便通过来自在相应的左音频中心点CP_L和右音频中心点CP_R处的超声波的声音生成不同的左可听声场LAF和右可听声场RAF。在这一点上，在用户实质上没有通过他的右耳听到左可听声场LAF和通过他的左耳听到右可听声场RAF的意义上，左可听声场LAF和右可听声场RAF是不同的。

更特别地，优选地，选择左音频中心点CP_L和右音频中心点CP_R，使得它们位于离相应耳朵不超过几厘米的距离处(例如，离相应耳朵不超过7厘米，且更优选地不超过5厘米)。因此，左音频中心点CP_L和右音频中心点CP_R实际上位于围绕用户的头部的周边区域内离头部的表面不超过20cm的距离。此外，优选地，选择左音频中心点CP_L和右音频中心点CP_R的位置，使得它们相对于它们的相应耳朵对称地被定位。在这一点上，应当注意，在该实施例中，左音频中心点CP_L和右音频中心点CP_R实际上位于用户的耳朵处，且因此在该实施例中，操作11425B和11430B在系统12000的操作期间连续地被执行，以用于监测用户的耳朵的位置，并相应地调整左音频中心点CP_L和右音频中心点CP_R的相应位置，由系统12000引导超声场USF2和USF1朝着左音频中心点CP_L和右音频中心点CP_R。

在操作11440B中，调整通过每个虚拟源VS的音频数据段调制的超声通道音频的两个副本(对)的参数或者至少每个不同的方向{ψ',Θ'}(在该方向上来自一个或更多个虚拟源的声音应该被模拟)的参数，以便模仿由此产生的可听声场，使得用户将它感知为它好像从指定方向{ψ',Θ'}到达一样。

为此目的，如上面所指示的，在该实施例中，对于每个虚拟源或者至少对于相对于用户P的每个方向(一个或更多个虚拟源应被感知为从该方向被听到)，产生至少两个左和右超声通道，由此，通道中的一个通道(例如USF1)被引导到左耳，以及一个通道(例如USF2)被引导到右耳。

应当注意，通常图中的参考数字USF1和USF2实际上表示超声场，超声场均可以包括对可能位于不同方向上的多个虚拟源的可听数据编码的多个超声通道。

然而，在图5B的非限制性示例中，示出了仅仅一个虚拟源VS，声音应当是从该虚拟源被感知的。因此，超声场USF1和USF2的内容对应于该虚拟源的超声通道。因此，为了清楚起见，在下面的描述中，超声场USF1和USF2被认为是将虚拟源VS的音频数据段编码到两只耳朵的一对超声通道的对应表示，且因此被称为可互换通道或场。尽管如此，应当理解，术语“超声通道”在本文用于指示对应当用于产生超声场的数据/信号编码的电子/数字通道，并且超声场本身是从超声通道转换的实际声场(例如，在超声通道的适当处理限制和波束形成之后)。为此目的，应当理解，在不同方向上的几个虚拟源的情况下，超声场USF1和USF2均可以由与多个不同虚拟源相关联的多个超声通道形成。

因此，操作11440B包括控制超声通道USF1和USF2的至少一个参数，由此，受控参数被选择以在左耳和右耳附近的左音频中心点CP_L和右音频中心点CP_R产生模仿从虚拟源VS的位置到达用户的可听声音的可听声场BZ1/RAF和BZ2/LAF。为此目的，在图5A至图5C的该实施例中，对于每个虚拟源或者至少对于虚拟源的每个不同方向，在上述操作1300中产生至少两个、左和右超声通道。

在该示例中，该一对超声通道USF1和USF2的下面的参数被控制：

(i)音频中心点确定器12430设置分别被设置/定义在分别位于用户的左耳和右耳处的左音频中心点CP_L和右音频中心点CP_R处的超声通道USF1和USF2的音频中心点。因此，超声通道USF1和USF2与由用户的左耳和右耳听到的不同可听声音的产生相关联；

(ii)US-HRTF滤波器12440调整/控制左超声通道USF1和右超声通道USF2的频谱内容以模仿由于声场与用户的头部P的相互作用而应用于从虚拟源VS到达用户的耳左耳和右耳的声音的频谱修改；

(iii)可选地，时间延迟确定器12450将时间延迟引入到左超声通道USF1和右超声通道USF2。通常，左超声通道的时间延迟ΔT_L和右超声通道的时间延迟ΔT_R取决于从虚拟源VS到用户P的相应左耳和右耳的相应声音传播路径PTH_L和PTH_R的长度除以声速C。双耳超声场管理器12400(例如，时间延迟确定器12450)利用在操作11425B中确定的耳朵的位置和虚拟源的位置来估计传播路径PTH_L和PTH_R。在这一点上，在只有一个虚拟源的情况下，只有时间延迟ΔT_L和ΔT_R的差ΔT_L-ΔT_R可以被引入到该一对超声通道中的一个超声通道(例如，在这种情况下被引入到USF1)。

(iv)可选地，强度确定器12460根据相应的声音传播路径PTH_L和PTH_R的长度来调整左超声通道USF1和右超声通道USF2的相应强度(或相对强度)。事实上，可听声音的强度根据1/D²定律而衰减，其中D是传播路径的长度。为此目的，左超声通道USF1和右超声通道USF2的强度被调整成使得由在左耳和右耳附近的超声通道产生的相应可听场LAF和RAF的增益水平分别与1/D_L和1/D_R成比例。这通过调整超声通道USF1和USF2的强度通过还考虑到在相应的左耳和右耳与超声换能器(在该非限制性例子中的换能器12110.1和12110.2)之间的距离d_L和d_R来实现，超声换能器产生朝着左耳和右耳的相应的超声通道/场USF1和USF2。更特别地，超声通道USF1和USF2的强度如下被调整：分别对于左通道和右通道，将声音段数据按比例调整1/D_L和1/D_R，并且例如通过将d_R/d_L的增益校正应用于左通道来校正因而得到的USF数据以解释d_L和d_R。应当注意，优选地，双耳超声场管理器12400(强度确定器12460)被配置成并可操作来调整超声场USF1和USF2的强度，使得从其生成的可听声场的强度I_L和I_R仅在距音频中心点CP_L和CP_R不超过25-50CM的范围的最大半径内高于听觉水平。这从而向所述用户提供私人虚拟双耳音频空间。

操作11440B可以完全或至少部分地由图3B所示的US-HRTF滤波器模块12440执行。分别控制参数，以及特别是左和右超声通道的频谱内容，以用于模仿头部与从虚拟源的方向朝着左耳和右耳到达的声音的相互作用。

这是通过将选定的左和右超声头部相关传递函数(US-HRTF)应用于左超声通道和右超声通道中的每一个超声通道来实现的。US-HRTF通常是谱过滤函数，其接收虚拟源相对于头部的方向(在头部固定坐标中)和超声头部相关传递函数作为参数。通常两个一般不同的(除了在虚拟源相对于头部对称地被定位的情况下)左和右超声头部相关传递函数被应用于左超声通道和右超声通道。特别地，右超声头部相关传递函数US-HRTF_R(ψ',Θ')被应用于右超声通道，以及左超声头部相关传递函数US-HRTF_L(ψ',Θ')被应用于左超声通道。超声头部相关传递函数US-HRTF的频谱修改通常取决于与虚拟源相对于头部的方向相关联的参数ψ'、Θ'，且也可能取决于头部的参数。

可选地，根据一些实施例，超声头部相关传递函数还接收与用户的头部的形状相关联的参数(例如，头部P的尺寸(S_Z)和/或宽度(W)和/或高度(H)和/或深度(D))。根据本发明的一些实施例，后面的参数由可选的耳朵定位模块12330确定，耳朵定位模块12330被配置成并可操作来处理来自感测模块的数据以确定头部的属性。为此目的，超声头部相关传递函数在一些情况下起作用来接收下列参数的函数：HRTF_R(ψ',Θ',W,H,D)。

图5C是示意性例示左超声头部相关传递函数US-HRTF_L(ψ',Θ')和右超声头部相关传递函数US-HRTF_R(ψ',Θ')对右可听声场BZ1/RAF和左可听声场BZ2/LAF的最终影响的图解说明。应当注意，在该图中示出的曲线是在对数频率轴和增益轴(分别是曲线的x轴和y轴)上呈现的示意图。示出了六个曲线，其例示当虚拟源在相对于头部(在头部固定坐标中)的不同的方向ψ'、Θ'上时，右US-HRTF_R(ψ',Θ')和左US-HRTF_L(ψ',Θ')对在耳朵处产生的(在中心点CP_R和CP_L处)可听声场的最终影响。特别是，在该示例中，对于不同的方位角：ψ'＝0、ψ'＝45、ψ'＝-45，显示右超声头部相关传递函数US-HRTF_R(ψ',Θ')和左超声头部相关传递函数US-HRTF_L(ψ',Θ')的可听效应。如所示，相对于虚拟源相对于头部/固定坐标的方位角，左和右US-HRTF US-HRTF_L(ψ',Θ')＝US-HRTF_R(-ψ',Θ')是相对的。更特别地，一般(除了为实质上不对称的头部特别设计的US-HRTF以外)US-HRTF_L(ψ',Θ')＝US-HRTF_R(-ψ',Θ')，由此，US-HRTF_L和US-HRTF_R分别是应用于左超声通道和右超声通道的左US-HRTF和右US-HRTF。

US-HRTF滤波器12440被设计成影响它被应用于的相对应的超声通道的超声频谱，以便根据从虚拟源的方向到达的实际音频与头部的预期相互作用来放大和/或减弱从其生成的解调的音频场的某些频率。应当理解，US-HRTF滤波器(即超声头部相关传递函数)可以被配置成和可操作来修改音频数据段本身(例如，以图5B所示的方式)。在这种情况下，超声头部相关传递函数在可听频谱范围内操作，并且在它们的操作之后，所修改的音频数据段被转换成超声通道(例如，以下面参考图7D或图7E描述的和/或如在WO 2014/076707中描述的方式)。可选地或附加地，US-HRTF滤波器12440可以被配置成和可操作来修改已经由音频数据段形成的超声通道的超声频谱，以便获得从通道产生的可听声场的期望频谱修改(例如，以与图5B中示意性示出的相同的方式)。

因此，在图5A至图5C的实施例中，超声场USF1和USF2被引导到音频中心点CP_L和CP_R，其位置相对于用户P的左耳和右耳是固定的，即使当用户旋转/摇动/点他的头。US-HRTF滤波器/功能提供方位相关的频谱修改，其根据虚拟源VS相对于头部固定坐标的方位/方向{ψ',Θ'}分别对于左和右超声通道/场USF1和USF2耳朵被调整，这影响左耳和右耳的差异听觉感知。因此，在该实施例中，系统连续地监测用户的头部的排序(ordination)以及左耳和右耳的所估计的位置，并且根据相应的左耳和右耳的位置以及由HRTF滤波器提供的对不同超声场的频谱修改来改变音频中心点CP_L和CP_R的位置。通常不同参数(例如具有不同方向参数{ψ',Θ'})的左和右HRTF滤波器/函数被应用于与不同方向的虚拟源相关联的不同对的左和右音频调制超声通道。因此，每个超声通道的频率内容基于与其相关联的虚拟源的方向和它们应该被引导到的左耳/右耳来被修改。然后，在应用滤波器之后，与同一个耳朵(左耳通道和右耳通道)和可能与它们的虚拟源的不同方向相关联的多个超声通道被分组在一起，并且由输出声音发生器模块进一步处理以产生超声场USF1和USF2。

为此目的，如上面所指示的，在该示例中，例示了仅仅一个虚拟源被模拟的情况。因此，超声场USF1和USF2以及超声通道被认为对应于彼此。然而，一般来说，超声场USF1和USF2(其对应于在不同音频中心点处的可听声场的产生)中的每一个从与相对于用户位于不同方向上的可能不同的虚拟源相关联的一个超声通道产生或从多个超声通道产生。

因此，如上面在图4A至图4D和图5A至图5C的实施例中所述的，双耳超声场管理器12400利用方法11400A和/或11400B，以便控制超声通道的至少一个参数，以便生成超声场(例如USF2和USF1)，为用户P提供双耳3D音频空间，用户可以通过该双耳3D音频空间推断虚拟音频发射源相对于他的位置。现在参考图6A至图6C，其例示根据本发明的特定实施例被实现来向用户P提供双耳3D音频空间的组合方法。根据该技术，方法11400A和/或11400B组合地被使用，以便形成双耳3D音频空间。

例如，如图6A所示，三个超声场被生成。超声场USF1和USF2中的两者根据方法11400B进行配置的(即通过相应的左和右US-HRTF调整，并且被引导/聚焦在位于用户的耳朵附近的左音频中心点CP_L和右音频中心点CP_R处)。此外，一个或更多个超声场(在这种情况下是USF)，根据上述方法1400A进行配置，并被引导到沿着连接头部和虚拟源的线对准的中心点CP。在多个虚拟源/其不同方向的情况下，根据方法11400B配置的左超声场USF1和右超声场USF2可以通过多个虚拟源中的一个或更多个的音频数据段的组合来被调制，并且根据方法11400A配置的附加超声场USF对于每个不同虚拟源方向可以包括例如一个超声场。为此目的，根据图6A至图6C所示的组合技术，可以通过方法11400A和11400B的组合来产生在用户的耳朵处的局部可听声场。

在一些实现方式中，双耳超声场管理器12400基于用户的头部的方位来选择使用方法11400A还是11400B还是其组合。

例如，如图6C所示，在用户头部的方位在特定立体角Ω_D内的情况下，双耳超声场管理器12400适于根据方法11400A来操作。例如，可以基于超声换能器(例如12110.1和/或12110.2)的布置、基于虚拟源相对于用户P的方向{Ψ,Θ}、或者基于这些参数的组合来确定/预定义该特定立体角Ω_D。例如，在虚拟源VS的方位角Ψ在相对于所述用户的头部的对称平面的特定角度范围(例如，该角度范围由立体角Ω_D定义)内的情况下，双耳超声场管理器12400根据方法11400A来操作，并且选择音频中心点以包括位于相对于头部P的该方位角处并且在围绕用户的头部的周边区域内离头部不超过30cm的距离的单个音频中心点CP。这确保在中心点CP处生成的可听声场在它朝着用户的左耳和右耳传播期间与用户的头部相互作用，并且从而以与从虚拟源VS的方位角到达的声音相似的方式被头部的头部相关传递函数(HRTF)影响。

附加地或可选地，如图6B所示，在用户头部的方位在特定立体角Ω_R内的情况下，双耳超声场管理器12400适于根据方法11400B来操作。例如，可以基于超声换能器(例如12110.1和/或12110.2)的布置、基于虚拟源相对于用户P的方向{Ψ,Θ}、或者基于这些参数的组合来确定/预定义该特定立体角Ω_R。例如，在虚拟源的方位角超过该角度范围/立体角Ω_R的情况下或者在虚拟源的方位角在该立体角Ω_R内的情况下，双耳超声场管理器12400可以适于选择音频中心点以包括至少两个左音频中心点CP_L和右音频中心点CP_R，以用于朝着其传输至少两个相应超声场USF1和USF2。音频中心点CP_L和CP_R通常位于用户的相应左耳和右耳的位置处，使得相应超声场USF1和USF2通过由于在耳朵附近出现的超声效应产生的声音来在用户的耳朵处单独地产生左可听声场和右可听声场。根据方法11400B，双耳超声场管理器利用用于将频谱调整和可能还有时间延迟和强度调整应用于至少两个超声场USF1和USF2的频率内容的超声头部相关传递函数(US-HRTF)，使得左可听声场和右可听声场由用户感知为从虚拟源VS的方向到达的可听声音。

可选地，根据一些实现方式，例如如图6A所示，在用户的头部的方位在特定中间立体角Ω_M内(例如，在Ω_R和Ω_D之间或在Ω_R和Ω_D的重叠中)的情况下，双耳超声场管理器12400适于根据方法11400A和11400B二者来操作。例如，可以基于超声换能器(例如12110.1和/或12110.2)的布置、基于虚拟源相对于用户P的方向{Ψ,Θ}、或者基于这些参数的组合来确定/预定义该特定立体角Ω_M。例如，在虚拟源的方位角在该中间立体角Ω_M内的情况下，双耳超声场管理器12400可以适于选择音频中心点以包括在用户的耳朵附近的至少两个左音频中心点CP_L和右音频中心点CP_R以及与虚拟源的方向对齐的音频中心点CP。因此，相应超声场USF1、USF2、和USF至少朝着其进行传输。

在这一点上，应当注意，根据本发明的一些实施例，在一个或更多个音频中心点CP和/或CP_L和CP_R从超声换能器12110排除的情况下(例如，在特定音频中心点和换能器之间的声音传播路径被位于其间的物体中断的情况下)，上述替代方案：(i)将超声场投射到位于虚拟源相对于头部的方位处的单个音频中心点；和/或(ii)将由相应的US-HRTF调整的超声场分别投射到在左耳和右耳处的音频中心点CP_L和CP_R，被可互换地用作互补的替代物。例如在车辆设置中，如果音频中心点CP在头部后面，则它由于颈部枕头而在物理上是不可接近的。在这种情况下，我们将切换到左耳/右耳音频中心点CP_L和CP_R，并使用HRTF滤波器。为此目的，在一些实施例中，可以根据在围绕用户P的空间/环境中的物体的布置(例如，该布置可以基于来自感测模块SM的数据来被确定)来先验地和/或实时地确定/预定义相应的立体角(例如，Ω_R、Ω_D和/或Ω_M)。

在这种组合技术中，操作模式/方法的组合向用户提供完全覆盖和现实的双耳可听声音，同时优化由在围绕用户的空间中的超声换能器12110、12110.1和/或12110.2的布置所提供的约束。在方法11400A和方法11400B的操作模式之间的平滑和无缝过渡也可以通过根据用户的头部的方位适当地调整由方法11400A和11400B生成的场的强度来实现。例如，朝着与虚拟源VS的方向对准的音频中心点CP传输的超声场USF的强度可以被调整为当用户的头部方位接近立体角Ω_D时较强，并且当用户的头部方位接近立体角Ω_R时较弱。以相同的方式，朝着在用户的耳朵附近的音频中心点CP_L和CP_R传输的超声场USF1和USF2的强度可以被调整为当用户的头部方位接近立体角Ω_D时较弱，并且当用户的头部方位接近立体角Ω_R时较强。这确保在操作模式11400A和11400B之间的平滑和无缝的过渡。

参考7A至图7C，其示意性例示了如何通过利用用于产生每个场的超声波束成分的适当配置来从超声场(例如，上面指示的USF、USF1和USF2)产生可听声音的限制。在PCT专利申请公开号WO 2014/076707中更详细地公开了这种技术以及可以根据本发明被实现来从来自超声效应的声音而产生受限可听声场的其他可能的技术。该操作由上面参考图3B讨论的超声波束发生器模块12510执行。

在该示例中，对于每个超声场，例如USF(其可以包括一个或更多个超声通道的信号之和)，形成根据组成期望音频调制超声场的超声通道的信号之和被调制的两个初级和次级音频调制波束。图7A和图7B示出了由超声场USF的两个初级和次级超声波束成分产生的声压级(SPL)的空间分布的曲线SPL-Audio¹(|f_c ¹-f_m ¹|)和SPL-Audio²(|f_c ²-f_m ²|)。在该特定示例中，两个SPL分布SPL-Audio¹(|f_c ¹-f_m ¹|)和SPL-Audio²(|f_c ²-f_m ²|)是在本发明的初级和次级音频调制超声波束与诸如空气的非线性介质的相互作用期间通过它们的解调产生的可听波形。然而，可选地或附加地，超声场USF可以包括被期望在经历来自空气中的超声解调的可听声音之前已经适当地干涉的超声波束，使得在期望位置处生成受限可听场。图7C是示出由介质/空气中的初级和次级可听SPL分布、SPL-Audio¹(|f_c ¹-f_m ¹|)和SPL-Audio²(|f_c ²-f_m ²|)的叠加(例如干扰)产生的有效可听SPL分布SPL-Audio^total的曲线图。初级超声波束聚焦在音频中心点CP(在图中被标记为Z₀)处，在该音频中心点处可听声音实际上应该由超声场USF产生，以及次级超声波束聚焦在稍微不同的位置Z₀+δ处，在该稍微不同的位置Z₀+δ处可听声音应该优选地被减弱。由分布SPL-Audio¹(|f_c ¹-f_m ¹|)和SPL-Audio²(|f_c ²-f_m ²|)指示的初级和次级可听波形分别产生不同的(通常相反的)相位。初级波束和次级波束的相位(例如，和/或在它们之间的所需差)被调整以提供期望的干扰模式，使得由初级波束和次级波束的叠加产生的有效可听SPL分布SPL-Audio^total被限制，如在有效可听SPL分布SPL-Audio^total中所示。

现在参考图7D和图7E，其示意性示出了振幅调制(AM)方案，该方案可以由US通道发生器410执行，用于产生用与通道的虚拟源相关联的期望可听数据段调制的超声通道音频。在该示例中，超声通道数据包括上面参考图7A至图7C描述的初级和次级波束的频谱信息。特别地，在这里提供了与虚拟源相关联的音频数据段的声音数据。在该示例中，可听声音将以频率f_s产生。为了解释的清楚，在本示例中，可听频率f_s被表示为离散单音声音。然而，应当理解，声音数据通常可以包括多个频率/单音的叠加。在图7D的示例中，通过利用单侧频带(SSB)AM调制方案来产生初级和次级音频调制波束。特别地，在这里公共载波频率f_c用于初级和次级音频调制波束。初级和次级音频调制波束中的一个(在该示例中是初级)利用上侧频带(USB)–SSB-AM调制，而另一个(在该示例例中是次级)利用下侧频带(LSB)–SSB-AM调制。利用USB AM调制，初级音频调制波束的调制频率f_m ¹在这种情况下等于载波和可听声音频率f_m ¹＝(f_c+f_s)之和，而次级音频调制波束的调制频率f_m ²等于载波和可听声音频率f_m ²＝(f_c-f_s)之差(或者在其他实施例中反之亦然)。可选地或附加地，在图7E的示例中，两个不同的载波频率f_c ¹和f_c ²用于初级和次级音频调制波束。在这些载波频率之间的差异足以使得在它们之间的非线性相互作用在超声波状况中而不是在可听状况中提供声音；即|f_c ¹-f_c ²|>>Δf，其中Δf在可听频率范围的上限处或以上(例如Δf>～20KHz)。在这里，初级和次级音频调制波束中的每一个都与载波频率f_c ¹和f_c ²中的相应的一个载波频率相关联，并且合适的AM调制技术可以被使用，以便产生/确定具有可听频率f_s的初级和次级音频调制波束的期望频率内容。例如，可以使用双侧频带(DSB)AM调制以及SSB-AM调制(是USB、LSB或两者)。在本示例中，SSB-USB AM调制用于具有调制频率f_m ¹＝(f_c ¹+f_s)的初级音频调制波束，以及DSB AM调制用于具有调制频率f`_m ²＝(f_c ²-f_s)和f``_m ²＝(f_c ²+f_s)的次级音频调制波束。

图8是根据本发明的实施例更详细地示出用于确定用户P的耳朵的位置的方法的流程图。该方法可以是用于实现方法4000的操作4030的方法。在本发明的一些实施例中，面部识别模块530或耳朵定位模块330被配置成和可操作来携带/实现方法4030以在空间上定位和跟踪用户的耳朵的位置，同时可选地通过利用模式识别引擎515的模式识别能力。

在操作4032中，面部识别模块530或耳朵定位模块330操作来将面部/模式识别应用于从TDSM获得的感测数据(例如，应用于从TDSM或SM获得的图像数据或3D模型和/或合成图像和/或3D图像)。为此目的，面部识别可以根据在本领域中已知的任何技术来实现。

在操作4034中，面部识别模块530或耳朵定位模块330基于面部识别来确定用户P的耳朵是否可以在图像中被识别出。在用户P的耳朵在图像中可识别的情况下，面部识别模块530或耳朵定位模块330继续进行到操作4036，在操作4036中面部识别模块530或耳朵定位模块330基于耳朵在图像中的位置来确定耳朵在由TDSM覆盖的空间中的位置。更特别地，在这种情况下，基于来自TDSM的图像/模型的3D数据，面部识别模块530或耳朵定位模块330确定耳朵在由TDSM覆盖的感测体积中的3D位置。

可选地，在用户P的耳朵在图像中可识别的情况下，面部识别模块530或耳朵定位模块330继续执行操作4038，以用于生成/更新用户P的个人头部模型。例如，在操作4038中，面部识别模块530或耳朵定位模块330可以通过如下执行步骤a、b和c基于图像来确定/估计用户P的面部模型：

(a)操作面部识别方案/过程以确定在用户面部中的附加面部特征点(例如，除耳朵之外)的位置。例如，确定鼻梁和眼睛的位置以及在它们之间的距离。

(b)处理耳朵的位置和在用户P中的附加面部特征点的位置以获得用户面部的某些个人人体测量关系的估计。因此，确定包括例如用户面部的使用户的耳朵的位置与其他面部特征点相关联的某些预定人体测量关系的个人头部模型。

(c)基于如为用户面部的当前图像获得的用户面部的人体测量关系来生成/更新个人头部模型。在这一点上，应当注意，面部识别模块可以包括被配置成和可操作来存储用户的个人头部模型的面部数据参考数据存储装置(未特别示出)或者与面部数据参考数据存储装置相关联。用户(其面部模型被存储)可以包括注册用户(例如，在系统中已知/注册的普通用户)，并且用户的面部模型数据可以永久地被存储。可选地，面部参考数据存储装置还存储临时用户(未在系统中注册)的面部模型，至少只要这样的用户参与通信会话和/或只要这样的用户在由系统的TDSM或SM覆盖的空间内(例如，当用户离开由系统覆盖的空间时和/或当他们的通信会话终止后，临时用户的面部模型可以被删除)。因此，在存储个人头部模型之前，在(b)中确定面部识别模块530或耳朵定位模块330首先检查以查看匹配模型是否已经存在于面部参考数据存储装置中。如果否，则该模型将被存储为新模型。然而，如果匹配模型已经存在，则现有模型基于从当前图像获得的数据、即基于最新估计的模型而被更新。为了在该时间期间提高用户P的所存储的个人头部模型的准确度，可以在利用某些滤波方案(例如卡尔曼滤波器和/或PID滤波器)时执行该更新，这些滤波方案允许从多个测量(例如从用户的多个图像)获得的数据被收敛以形成更高准确度的模型。

应当注意，操作4038是可选的，并且可以被执行，以便基于在图像中的耳朵和其他面部特征点的位置来完成/更新头部模型。

在操作4034发现用户P的耳朵不能在图像中被识别的情况下，继续进行到操作4040，其中确定面部识别模块530或耳朵定位模块330的面部数据参考数据存储装置是否已经存储了用户P的面部的个人头部模型。

在参考数据存储装置具有用户P的个人头部模型的情况下，面部识别模块530或耳朵定位模块330继续执行操作4042以基于用户P的个人头部模型和在从TDSM或SM获得的用户的图像中识别的其他面部特征点在空间中的位置来确定用户P的耳朵在空间中的位置。

否则，在参考数据存储装置不包括用户P的个人头部模型的情况下，面部识别模块530或耳朵定位模块330继续执行操作4044，在操作4044中它基于统计人体测量建模方法来确定用户P的耳朵在空间中的位置。更特别地，在这种情况下，面部识别模块530或耳朵定位模块330确定用户的一个或更多个面部特征点在由TDSM监测的空间中的位置(例如，通过处理TDSM的图像)，并且利用在用户的耳朵的位置相对于其他面部特征点的位置之间的一个或更多个在统计上稳定的人体测量关系，以便获得用户的P耳朵的位置的估计。为此目的，在4044中，在图像中的检测到的面部特征点和相对应的人体测量数据本质上在4044中用于推断耳朵的位置。

附加地，在4044中，可以基于例如用户的眼睛、鼻子等的面部特征点来构建或进一步更新个人头部模型。因此，当用户P的附加图像被获得和处理时，头部模型进一步被更新(见操作4046)。在这一点上，即使耳朵在图像中是不可见的，也可以通过根据在当前图像中的相对应面部特征点的所检测的位置来调整模型的面部特征点的位置来更新模型。

在这一点上，由本发明的面部识别模块530或耳朵定位模块330实现的在统计上的人体测量建模方法可以包括下列方法中的一个或更多个：

(a)平均面部比例方法。这是基于下面的事实的简化方法：典型/普通人脸通常遵循某些比例关系，例如在http://dhs.dearbornschools.org/wp-content/uploads/sites/625/2014/03/facial-proportions-worksheet.pdf中描述的那些关系。为此目的，在一些实施例中，面部识别模块530或耳朵定位模块330利用瞳孔间距离(IPD)平均为头部宽度的约3/5的事实。因此，通过应用面部识别以确定对应于用户的瞳孔的面部特征点在TDSM或SM图像中的位置，可以估计头部尺寸以及相应地估计耳朵位置。

(b)人体测量建模方法——该方法基于从多个用户的测量中获得的可用人体测量统计数据。为此目的，在一些实施例中，面部识别模块530利用例如在https://www.facebase.org/facial_norms/处可获得的统计人体测量数据库来导出在用户的耳朵位置和各种面部特征点之间的经验多变量函数关系。这种方法对人类子组中的微妙关系是敏感的，且例如可以考虑各种参数(例如宽鼻子与圆脸等)的综合效应。因此，使用在用户P的图像中的可见面部特征点，面部识别模块530或耳朵定位模块330可以确定它们的形状(例如宽鼻子)，并且相应地将用户分类到子组(例如亚洲人、高加索人或其他人)。然后，基于所分类的子组，面部识别模块530或耳朵定位模块330获得用户P的相关准确人体测量关系。

因此，如在操作4046中所示的，面部识别模块530或耳朵定位模块330对从TDSM或SM获得的包括用户P的每个图像重复方法4000。因此，一般在一个或更多个图像被捕获之后，用户的耳朵一般被显露，并且用户P的个人头部模型被构建(例如，从零开始，即使这样的模型没有先验地被包括在面部参考数据库中)。更特别地，在许多情况下，耳朵被暴露且对相机是可见的，尤其是当随着时间的推移头部运动之后，当用户自然地转动头部时。耳朵位置的直接检测因此是可得到的，并且在特定用户P的面部特征点和耳朵位置之间的个人人体测量关系可以被准确地确定。

因此，在对用户面部的图像的重复分析期间，方法4000提供了进一步更新用户的这种个人头部模型以提高它的准确性。换句话说，当随着时间的推移更多的信息和统计数据被累积时，用户P的个人头部模型的更准确和稳定的估计被获得。因此，在本发明的一些实施例中，方法4000被实现并用于定位和跟踪感兴趣的用户P的耳朵，从而使用方法1400B以产生/投射对用户的耳朵来说平衡可听的声音。输出声音发生器模块600又在用户耳朵附近生成受限/私人可听声场，并从而有效地将可听声音传输给用户P。

为此目的，声学信号形成限定私人区域的局部可听声场，该私人区域被限制到在指定位置Z₀和声换能器系统10之间的区域附近。该区域包括一个或更多个亮区区域，其中无障碍可听和可理解的可听声音被产生。在亮区BZ之外定义暗区区域，其中声音对人耳是不可听的，或者它的内容不能被清楚地理解。

Claims

1.一种用于产生虚拟双耳音频空间的方法，所述方法包括：

(a)提供指示至少一个音频数据段和所述音频数据段的虚拟源相对于收听者的位置的分级音频数据；

(b)确定指示用户的头部的位置和方位的头部定位数据，从而所述用户被指定为所述音频数据的所述收听者；

(c)朝着位于所述用户的头部附近的一个或更多个选定音频中心点传输一个或更多个超声场，以用于通过来自超声效应的声音来在所述用户的相应的左耳和右耳处产生具有所述至少一个音频数据段的左可听声场和右可听声场，以及

(d)基于所述虚拟源的所述位置和所述头部定位数据，控制所述一个或更多个超声场的至少一个参数，使得在所述相应的左可听声场和右可听声场之间的差异被所述用户感知为从所述虚拟源的所述位置传播到所述用户并携带所述至少一个音频数据段的可听声场。

2.根据权利要求1所述的方法，其中，对所述头部定位数据的所述确定包括监测所述用户的头部位置以确定至少指示所述用户的头部的位置的头部定位数据，以及根据所述虚拟源的位置和所述用户的头部的位置来确定一个或更多个选定音频中心点。

3.根据权利要求2所述的方法，其中，所述一个或更多个超声场是由一个或更多个换能器系统产生的；其中，所述头部定位数据进一步指示所述用户的头部的方位；并且其中，所述头部定位被处理以确定所述用户的头部相对于所述一个或更多个换能器系统的一个或更多个相对位置和方位，以选择所述换能器系统中的至少一个换能器系统来将所述一个或更多个超声场投射到所述一个或更多个选定音频中心。

4.根据权利要求1到3中的任一项所述的方法，其中，所述虚拟源相对于所述收听者的所述位置数据指示所述虚拟源相对于所述用户的头部的方位角和仰角数据；所述一个或更多个选定音频中心点包括位于围绕所述用户的头部的周边区域内离所述头部不超过30厘米的距离的单个音频中心点；并且其中，对所述超声场的所述至少一个参数的所述控制包括利用所述虚拟源相对于所述用户的头部的所述方位角和仰角数据来确定在所述周边区域内的所述单个音频中心点的位置，使得所述左可听声场和右可听声场与所述用户的头部的声学相互作用模拟所述头部的来自所述虚拟源的位置的头部相关传递函数(HRTF)。

5.根据权利要求4所述的方法，其中，所述单个音频中心点相对于所述用户的头部的标称方位角和标称仰角匹配所述虚拟源相对于所述用户的头部的所述方位角和仰角。

6.根据权利要求4或5所述的方法，其中，在所述用户的头部的方位的变化下所述单个音频中心点的所述位置保持固定，从而确保所述虚拟源被所述用户感知为相对于所述用户在固定位置处。

7.根据权利要求1到6中的任一项所述的方法，其中，所述虚拟源相对于所述收听者的所述位置数据指示所述虚拟源相对于所述用户的头部的方位角和仰角数据；以及其中，对所述超声场的所述至少一个参数的所述控制包括：

在所述虚拟源的所述方位角在相对于所述用户的头部的对称平面的特定角度范围内的情况下，选择所述一个或更多个音频中心点以包括位于相对于所述头部的所述方位角处并在围绕所述用户的头部的周边区域内离所述头部不超过30厘米的距离的单个音频中心点，使得所述左可听声场和右可听声场在所述左可听声场和右可听声场从所述单个音频中心点分别朝着所述用户的左耳和右耳传播期间与所述用户的头部的相互作用模拟所述头部对到达所述虚拟源的方位角的声音的头部相关传递函数(HRTF)效应；以及

在所述虚拟源的方位角超过所述特定角度范围的情况下，所述方法包括选择所述一个或更多个音频中心点以包括在所述周边内的至少两个音频中心点，以及朝着所述至少两个音频中心点传输至少两个超声场，以用于单独地产生所述左可听声场和右可听声场。

8.根据权利要求1到7中的任一项所述的方法，其中，所述一个或更多个超声场包括朝着位于所述用户的左耳和右耳附近的相应的左音频中心点和右音频中心点传输的左超声场和右超声场，以用于在所述用户的左耳和右耳处单独地产生所述左可听声场和右可听声场。

9.根据权利要求8所述的方法，其中，所述头部定位被处理以确定所述用户的头部相对于所述一个或更多个换能器系统的一个或更多个相对位置和方位，以选择所述换能器系统中的用作用于将声场投射到所述用户的左耳的左换能器系统的至少一个换能器系统，以及选择所述换能器系统中的用作用于将声场投射到所述用户的右耳的右换能器系统的至少一个换能器系统，所述选定的左换能器系统和右换能器系统是与所述一个或更多个换能器系统相同或不同的换能器系统。

10.根据权利要求8或9所述的方法，其中，所述一个或更多个超声场的强度被选择成使得仅在距所述左音频中心点和右音频中心点不超过25–50CM的范围的最大半径内所述可听声场高于听觉水平，从而向所述用户提供私人虚拟双耳音频空间。

11.根据权利要求8到10中的任一项所述的方法，其中，对所述至少一个参数的所述控制包括根据在所述虚拟源分别到所述左耳和右耳的距离之间的差异来调整在所述左超声场和右超声场之间的时间延迟。

12.根据权利要求8到10中的任一项所述的方法，其中，对所述至少一个参数的所述控制包括利用头部相关传递函数(HRTF)，以用于根据所述虚拟源相对于所述用户的头部的位置来分别对所述左超声场和右超声场的频率内容应用频谱调整。

13.根据权利要求8到12中的任一项所述的方法，其中，对所述左超声场和右超声场的所述至少一个参数的所述控制包括利用所述虚拟源相对于所述用户的头部的方位角和仰角数据来分别相对于所述用户的左耳和右耳的左位置和右位置移动所述左音频中心点和右音频中心点，使得所述左可听声场和右可听声场与所述用户的头部的声学相互作用至少地部分模拟所述头部的来自所述虚拟源的位置的头部相关传递函数(HRTF)。

14.根据权利要求13所述的方法，其中，所述左超声场和右超声场的强度被选择成使得所述相应的左可听声场和右可听声场分别在不超过距离所述左音频中心点和右音频中心点50cm的范围的半径R内高于听觉水平，并且其中，所移动的左音频中心点和右音频中心点分别与所述左耳和右耳的左位置和右位置间隔开不超过所述半径R的距离。

15.根据前述权利要求中的任一项所述的方法，其中，所述一个或更多个换能器系统是相控阵超声换能器，并且其中，所述方法还包括对将在相应音频中心点处生成的所述一个或更多个超声场的每个超声场执行下列操作：

基于所述一个或更多个换能器系统相对于所述超声场的所述音频中心点的位置并基于所述头部的位置，将所述一个或更多个换能器系统的超声换能器系统分配给所述超声场；

基于在所分配的换能器系统和所述超声场的所述音频中心点之间的相对位置来处理所述至少一个音频数据段，以用于生成相对应的换能器通道，所述相对应的换能器通道适用于操作所分配的换能器系统，用于生成相应超声场，使得所述超声场的频率内容通过来自超声波的声音而生成具有所述至少一个音频数据段的相应可听声场；

将波束形成应用于换能器通道以产生波束形成的通道，以用于操作所分配的换能器的相控阵列来生成被引导到所述超声场的音频中心点的相应超声波束。

16.根据权利要求15所述的方法，其中：

所述相对应的换能器通道的所述生成包括利用所述音频数据段来确定将被所述分配的换能器系统朝着所述音频中心点传输的一个或更多个超声波束的频率内容，其中，所述超声波束中的至少一个超声波束是音频调制超声波束，所述音频调制超声波束的频率内容包括被选择为在经历在非线性介质中的非线性相互作用之后产生所述可听声音的至少两个超声频率分量；以及

所述换能器通道的所述波束形成包括：

-处理所述一个或更多个超声波束的频率内容以形成波束形成的超声通道，所述波束形成的超声通道包括一组相移信号，所述一组相移信号适用于启动相应的相控阵超声换能器的元件用于生成在所述不同焦点上聚焦的所述一个或更多个超声波束。

17.一种用于在向车辆驾驶员产生可听警报时使用的报警方法，所述报警方法包括：监测车辆环境，以及在识别出至少一个危险/事件时执行前述权利要求中的任一项所述的方法，包括生成所述分级音频数据，使得所述至少一个音频数据段指示所述至少一个识别出的危险/事件，并且所述虚拟源的所述位置对应于所述识别出的至少一个危险/事件相对于所述车辆中的驾驶员位置的定位。

18.一种用于产生虚拟双耳音频空间的系统，所述系统包括：

(a)音频会话管理器，所述音频会话管理器被配置成并可操作来提供指示至少一个音频数据段和所述音频数据段的虚拟源相对于收听者的位置的分级音频数据；

(b)头部定位模块，所述头部定位模块被配置成并可操作来确定指示用户的头部的位置和方位的头部定位数据，从而所述用户被指定为所述音频数据的所述收听者；

(c)双耳超声场管理器，所述双耳超声场管理器被配置成并可操作来生成一个或更多个超声通道信号中的信号以提供给一个或更多个超声换能器以用于朝着一个或更多个音频中心点传输一个或更多个相应超声场，从而通过来自超声效应的声音而在所述音频中心点处产生携带所述至少一个音频数据段并且从所述音频中心点朝着所述用户的左耳的右耳传播的可听声场，以实现被所述用户的左耳和右耳感知的左可听声场和右可听声场；以及

其中，所述双耳超声场管理器被配置成并可操作来控制所述超声通道的至少一个参数以根据所述虚拟源的位置和所述头部定位数据来进行调整，以便实现在所述相应的左可听声场和右可听声场之间的差异，使得所述左可听声场和右可听声场被所述用户感知为从所述虚拟源的方向传播到所述用户并携带所述至少一个音频数据段的可听声场；

(d)来自超声的输出声音发生器模块，其被配置成并可操作来处理所述一个或更多个超声通道以用于生成波束形成的超声通道，所述波束形成的超声通道用于操作所述换能器以朝着所述一个或更多个选定音频中心点传输一个或更多个超声场。

19.根据权利要求18所述的系统，其中，所述头部定位模块可连接到一个或更多个感测模块，以用于从所述一个或更多个感测模块接收指示所述用户的感测数据；并且其中，所述头部检测模块确定所述头部定位数据包括监测包括模式识别系统的所述头部定位模块，所述模式识别系统适于处理所述感测数据以检测所述用户的头部并且确定指示所述用户的头部相对于所述一个或更多个超声换能器系统的位置和方位的头部定位数据。

20.根据权利要求18或19所述的系统，其中，所述双耳超声场管理器被配置成和可操作来根据所述虚拟源相对于所述用户的头部的位置的定位来控制所述一个或更多个选定音频中心点的位置。

21.根据权利要求20所述的系统，其中，所述双耳超声场管理器控制所述一个或更多个选定音频中心点的位置，而不管所述头部相对于所述虚拟源的方位如何。

22.根据权利要求21所述的系统，其中，所述头部定位模块确定指示所述虚拟源相对于所述用户的头部的方位角和仰角的所述位置数据；所述双耳超声场管理器利用所述虚拟源的方位角和仰角以相对于选择所述一个或更多个选定音频中心点，并控制所述一个或更多个选定音频中心点的位置，使得：

(a)所述一个或更多个选定音频中心点位于围绕所述用户的头部的周边区域内离所述头部不超过30cm的距离；以及

(b)其中，在所述周边区域内的所述音频中心点的相应位置被调整，使得经由来自在所述音频中心点处的超声效应的声音而生成的可听声场经历与所述用户的头部的声学相互作用，以在所述用户的耳朵处形成所述左可听声场和右可听声场，从而所述声学相互作用模拟由所述用户的头部应用到从所述虚拟源的方向到达所述用户的头部的声音的头部相关传递函数(HRTF)。

23.根据权利要求22所述的系统，其中，所述双耳超声场管理器选择所述音频中心点以包括位于所述周边区域内的处于与所述虚拟源相对于所述头部的方位角和仰角相匹配的标称方位角和仰角的单个音频中心点。

24.根据权利要求23所述的系统，其中，所述双耳超声场管理器在所述用户的头部的方位的变化时保持所述单个音频中心点的位置固定，从而确保所述虚拟源被所述用户感知为在相对于所述用户的固定位置处。

25.根据权利要求18到24中的任一项所述的系统，其中：

-在所述虚拟源的方位角在相对于所述用户的头部的对称平面的特定角度范围内的情况下，所述双耳超声场管理器选择所述音频中心点以包括位于相对于所述头部的所述方位角处并且在围绕所述用户的头部的周边区域内离所述头部不超过30cm的距离的单个音频中心点，使得所述左可听声场和右可听声场在所述左可听声场和右可听声场从所述单个音频中心点分别朝着所述用户的左耳和右耳传播期间与所述用户的头部的相互作用模拟所述头部对从所述虚拟源的所述方位角到达的声音的头部相关传递函数(HRTF)效应；以及

-在所述虚拟源的方位角超过所述角度范围的情况下，所述双耳超声场管理器选择所述音频中心点以包括在所述周边内的至少两个音频中心点，以用于分别朝着所述至少两个音频中心点传输至少两个超声场，以通过来自在所述至少两个音频中心点处出现的超声效应的声音来单独地产生所述左可听声场和右可听声场；并且所述双耳超声场管理器利用超声头部相关传递函数(US-HRTF)，以用于对至少两个超声场的频率内容应用频谱调整，使得所述左可听声场和右可听声场被所述用户感知为从所述虚拟源的方向到达的可听声音。

26.根据权利要求18到25中的任一项所述的系统，其中，所述双耳超声场管理器选择所述音频中心点以包括在所述用户的左耳和右耳附近的至少左音频中心点，以用于分别朝着所述至少左音频中心点和右音频中心点传输至少两个超声场，以通过来自在所述左音频中心点和右音频中心点处出现的超声效应的声音来单独地产生所述左可听声场和右可听声场；以及

其中，所述双耳超声场管理器控制所述换能器通道的信号的所述至少一个参数包括根据所述虚拟源相对于所述用户的头部的方向利用超声头部相关传递函数(US-HRTF)，从而对至少两个超声场的频率内容应用频谱调整，使得所述左可听声场和右可听声场被所述用户感知为从所述虚拟源的方向到达的可听声音。

27.根据权利要求18到26中的任一项所述的系统，包括换能器选择器模块，所述换能器选择器模块被配置成和可操作来处理所述头部定位数据以确定所述用户的头部相对于所述一个或更多个换能器系统的一个或更多个相对位置和方位，并从而选择所述一个或更多个换能器系统中的用于将所述超声场投射到所述音频中心点的一个或更多个选定换能器系统。

28.根据权利要求18到27中的任一项所述的系统，其中，所述双耳超声场管理器被配置成和可操作来调整所述一个或更多个超声场的强度，使得从所述一个或更多个超声场生成的所述可听声场仅在不超过距所述音频中心点25-50CM的范围的最大半径内高于听觉水平，从而向所述用户提供私人虚拟双耳音频空间。

29.根据权利要求18到28中的任一项所述的系统，其中，所述双耳超声场管理器被配置成并可操作来通过执行下列操作中的一个或更多个操作来控制所述至少一个参数：

-处理所述至少一个基于音频的数据段以生成一个或更多个超声通道，每个超声通道包括用于生成超声场的信号，从而所述超声场的频率内容适于通过来自超声效应的声音而生成对应于所述至少一个音频数据段的相应可听声场；

-根据所述虚拟源相对于所述头部的位置来调整在所述超声通道之间的时间延迟；

-利用超声头部相关传递函数(US-HRTF)来分别对所述超声通道的频率内容应用频谱调整，从而所述US-HRTF根据所述虚拟源相对于所述用户的头部的位置而被调谐；

-利用所述虚拟源相对于所述用户的头部的方位角和仰角数据来相对于所述用户的左耳和右耳的位置设置所述一个或更多个音频中心点，使得所述左可听声场和右可听声场与所述用户的头部的声学相互作用至少部分模拟所述头部的来自所述虚拟源的位置的头部相关传递函数(HRTF)。

30.根据权利要求18到29中的任一项所述的系统，包括来自US的局部声音波束发生器，所述波束发生器适用于：处理所述超声通道中的每个超声通道以生成指示将由所述换能器系统中的一个或更多个换能器系统朝着对应于所述超声通道的音频中心点传输的一个或更多个超声波束的数据，其中，所述超声波束中的至少一个超声波束是音频调制超声波束，所述音频调制超声波束的频率内容包括至少两个超声频率分量，所述至少两个超声频率分量被选择为在经历非线性介质中的非线性相互作用之后产生所述可听声音；以及确定在所述音频中心点附近的所述一个或更多个超声波束的一个或更多个不同的相应焦点，以用于在围绕所述音频中心点的一个或更多个区域处引起在所述一个或更多个波束之间的相消干涉，从而在所述音频中心点附近形成受限局部可听声场。

31.根据权利要求18到30中的任一项所述的系统，其中，所述一个或更多个换能器系统是相控阵超声换能器，并且其中，所述系统包括波束形成模块，所述波束形成模块适于处理指示一个或更多个超声波束的数据以生成包括一组相移信号的波束形成的超声通道，所述一组相移信号适用于启动所述相控阵超声换能器的元件，用于生成在所述不同焦点上聚焦的所述一个或更多个超声波束。

32.一种报警系统，所述报警系统包括根据权利要求18到31中的任一项所述的用于产生虚拟双耳音频空间的系统以及危险通知监测器，所述危险通知监测器被配置成和可操作来监测车辆环境，并且在识别出所述车辆环境中的至少一个感兴趣事件(例如危险)时生成所述分级音频数据，使得所述至少一个音频数据段指示所述至少一个识别出的感兴趣事件，并且所述虚拟源的所述位置对应于所述识别出的至少一个感兴趣事件相对于所述车辆中的驾驶员位置的定位。