CN108702571B

CN108702571B - 音频通信系统和方法

Info

Publication number: CN108702571B
Application number: CN201780015588.XA
Authority: CN
Inventors: 西尔维乌·兹伯曼; T·沙尼; N·巴巴约夫
Original assignee: NOVETO SYSTEMS Ltd
Current assignee: NOVETO SYSTEMS Ltd
Priority date: 2016-01-07
Filing date: 2017-01-05
Publication date: 2021-11-19
Anticipated expiration: 2037-01-05
Also published as: US10999676B2; WO2017118983A1; CN110383855B; IL243513A0; EP3400718A4; CN108702571A; EP3400718B1; EP3400718A1; IL243513B2; CN110383855A; US20200275207A1; IL243513B1

Abstract

公开了用于音频通信的系统和方法。该系统包括多个换能器单元和多个三维传感器模块(TDSM)，其适于位于系统应当向其提供服务的多个地点/空间中。多个换能器单元能够将超声波信号发射/引导和聚焦到地点中的相应覆盖区域，使得通过利用来自超声波技术的声音，可以在覆盖区域中的选定空间位置处形成局部(受限)声场。TDSM与地点中的各个感测体积相关联，并且可操作以获得指示地点中元件的3D排列的感测数据。该系统包括：(i)用户检测模块，用于处理来自TDSM的感测数据，以确定用户在感测体积内的空间位置；(ii)映射模块，提供感测体积和覆盖区域之间的空间映射；以及(iii)输出声音发生器，其适于利用空间映射来选择用于服务于用户的换能器单元，并且操作所选择的换能器以在用户的头部/耳朵附近产生局部声场。

Description

音频通信系统和方法

技术领域

本发明属于人机接口领域，利用音频通信，且涉及提供免提音频通信的系统和方法。

背景

音频通信需要很大一部分人的互动。我们进行电话交谈，听音乐或与电视节目相关的声音，并接收警报，例如闹钟或微波炉或洗碗机循环的结束。

声波信号的自然波行为和相对长的波长导致声波的大幅度传播，并允许位于公共区域的人们听到声音并感知其上承载的数据。

已知各种技术允许用户通过声音进行通信，同时保持通信的私密性。在这些技术之间，最公知的例子包括电话接收机和头戴式耳机或耳机，它们都提供指向用户的一个或两个耳朵的相对低振幅的声音信号。

本申请发明人开发的附加技术提供从远程位置发送到选定用户的私人声音。该技术的细节描述在转让给本申请受让人的WO2014/076707和WO2014/147625中。

更具体地，WO2014/076707公开了一种用于在指定空间位置处产生局部可听声场的系统和方法。根据这种技术，承载预定声音数据的空间受限的可听声音在应该被听到的指定空间位置本地产生。更具体地，根据所公开的技术，为了产生承载期望声音数据的局部受限可听声音，基于声音数据确定至少两个超声波束的频率内容，并且由声换能器系统(例如，包括多个超声波换能器元件的布置的换能器系统)发射至少两个超声波束的频率内容，然后，由至少两个超声波束在指定位置产生空间受限可听声音。例如，所述至少两个超声波束包括至少一个初级音频调制超声波束和一个或更多个附加超声波束，初级音频调制超声波束的频率内容包括至少两个超声波频率分量，所述至少两个超声波频率分量被选择成在非线性介质中经历非线性交互之后产生可听声音，每个附加超声波束包括一个或更多个超声波频率分量。指示指定位置的位置数据被用于分别确定至少两个超声波束的至少两个焦点，使得将至少两个超声波束聚焦在至少两个焦点上能够产生具有指定空间位置附近的可听声音的局部声场。

也转让给本申请的受让人的WO2014/147625描述了一种换能器系统，其包括具有一个或更多个压电致能箔/片/层的面板和耦合到面板的电触点布置。电触点被配置成在面板中限定多个换能器。每个换能器与面板的相应区域相关联，并且与至少两个电触点相关联，所述至少两个电触点耦合到面板的相应区域处的至少两个区域。电触点适于在这至少两个区域中提供电场，以在这至少两个区域中引起不同程度的压电材料变形，从而使面板的相应区域在基本垂直于面板表面的方向上变形，并且由此能够将电信号有效地转换成机械振动(声波)和/或反之亦然。本发明的换能器可以被配置和可操作用于产生至少两个超声波束，所述至少两个超声波束可用于产生上述WO2014/076707中公开的空间受限可听声音。

概要描述

在本领域中需要一种能够管理指向位于特定空间内的所选一个或更多个用户的私人声音(即，向所选用户提供声音以供用户私人消费/听到)的新系统和方法。本发明的技术利用与一个或更多个换能器单元相关联的一个或更多个三维传感器模块(TDSM)来确定用户的位置并确定适当的声音轨迹，用于向所选择的用户发送私人声音信号，同时消除或至少显著减少声音信号与可能位于相同空间中的其他用户的干扰。

关于这一点，应当注意，三维传感器模块可以或也可以不被配置成作为单个模块操作来提供三维感测数据。更具体地，本发明的技术利用布置在感兴趣区域中的一个或更多个传感器模块，并分析和处理由此接收的感测数据以确定三维数据。为此，TDSM单元可以包括摄像机单元(例如，几个摄像机单元的阵列/布置)，可选地关联/包括漫射IR发射器，并且附加地或可选地，可以包括可操作地感测指示感测体积的三维布置/内容的三维数据的其他类型的感测模块。

本发明的技术利用一个或更多个适于布置在空间(例如公寓、房屋、办公楼、公共空间、车辆内部等，以及安装在墙壁、天花板或架子或其他表面上)中的换能器单元(换能器阵列)，并且被配置和可操作用于向一个或更多个所选用户提供私人(例如局部受限的)可听声音(例如语音通信)。

例如，在本发明的一些实施方式中，一个或更多个换能器单元，例如转让给本申请的受让人WO2014/147625中公开的换能器单元，被包括在本发明的系统中/与本发明的系统相关联，并且被配置成产生定向的并且通常聚焦的声学信号，从而在距离换能器单元选定距离内的空间中的选定点(受限区域)处产生可听声音。

为此，在本发明的一些实施例中，一个或更多个换能器单元被配置成选择性地在两个或更多个超声波频率范围发射声信号，使得超声波信号解调以在选定位置形成可听信号频率。发射的超声波信号被聚焦到期望的位置，在该位置，声波之间的相互作用导致产生可听频率的声波的自解调。接收方/目标位置和所产生的可听信号根据所选择的输出超声波信号的振幅、波束形状和频率来确定，如转让给本申请人的专利公布WO2014/076707中所描述的，并且结合用于产生私人声音区域的技术通过引用结合在此。

本技术将这样的一个或更多个换能器单元与一个或更多个三维传感器模块(TDSM)和一个或更多个麦克风单元结合使用，所有这些都可以连接到一个或更多个处理单元，以提供形成免提音频通信系统的附加管理功能。更具体地，本发明的技术基于生成所选空间的三维模型，并且使得位于所述空间中的一个或更多个用户能够私下发起和响应音频通信会话，而不需要主动地与控制面板或手持设备接触。

在这方面，本发明可以提供各种类型的通信会话，包括但不限于：与一个或更多个其他用户的本地和/或远程通信，从外部系统/设备接收通知，向一个或更多个外部设备提供语音指令/命令，向系统提供内部操作命令(例如，权限管理、音量改变、添加用户身份等)。从本地或远程系统提供信息和广告(例如，针对特定用户的广告公共空间信息、关于博物馆作品的信息、耳内翻译等)。本发明的技术还可以提供关于用户接收发送数据的指示，如下所述。这样的数据可以被进一步处理以确定广告、父母控制等的有效性。

为此，本技术可以使用可连接到一个或更多个换能器单元和一个或更多个TDSM和一个或更多个麦克风单元的集中式或分散式(例如，分布式)处理单元(这里也称为控制单元或音频服务器系统)来实现，或者以提供一个或更多个音频通信系统的分布式管理的形式来实现，每个音频通信系统包括换能器单元、TDSM单元、麦克风单元和特定处理能力，其中不同的音频通信系统被配置成在它们之间通信，从而向大于单个换能器单元的覆盖区域的区域或者在分离的区域(例如由墙分隔开来的多个房间)提供音频通信。

被配置用于集中式或分布式管理的处理器被配置为接收关于一个或更多个TDSM所位于的空间的三维配置的数据(例如，感测数据)。至少基于初始接收的感测数据，处理器可以被配置和可操作以生成空间的三维(3D)模型。3D模型通常包括关于空间内静止对象的布置的数据，从而确定与一个或更多个换能器单元相关联的一个或更多个覆盖区域。因此，当一个或更多个TDSM提供指示用户位于空间中的特定位置的数据时，使用被选择为向用户位置提供最佳覆盖的换能器单元私下进行通信会话(远程发起或由用户发起)。

可替换地或附加地，该技术可以利用图像处理技术，用于基于来自一个或更多个TDSM单元的输入数据以及关于换能器阵列单元的覆盖区域的相对布置和TDSM单元的感测体积的数据，来定位和识别感兴趣区域内的用户存在和位置。应当理解，通常可以对系统执行初始校准。这种初始校准通常包括提供关于不同换能器阵列单元、TDSM单元和麦克风单元以及任何其他连接元件(例如使用时的扬声器)的数量、安装位置和各自覆盖区域的数据。这种校准可以如上所述以生成3D模型的形式自动完成，或者通过提供关于感兴趣区域的布置以及换能器阵列单元、TDSM单元和麦克风单元的安装位置的数据来手动完成。

应当注意，一个或更多个TDSM可以包括一个或更多个摄像机单元、三维摄像机单元或任何其他合适的成像系统。另外，所述一个或更多个换能器单元还可以被配置成利用超声波束周期性扫描覆盖区域，并基于检测到的反射确定覆盖区域的映射。因此，一个或更多个换能器单元可以作为声纳操作，以提供附加的映射数据。这种基于声纳的映射数据可以包括关于表面的反射特性及其空间布置的数据。

另外，一个或更多个麦克风单元可以被配置为麦克风阵列单元，并且可操作用于提供从相应的收集区域(例如，感测体积)收集的输入声学可听数据。所述一个或更多个麦克风单元可以包括麦克风元件阵列，所述麦克风元件阵列使得能够收集可听数据并提供指示所收集的声学信号已经从其发出的方向的数据。所收集的声学方向数据可以基于由阵列的不同麦克风元件收集的信号部分之间的相位或时间变化来确定。可选地，麦克风单元可以包括一个或更多个指向性麦克风元件，其被配置为从感测区域内的不同方向收集声信号。在这种配置中，可以基于所收集的振幅的变化以及时间延迟和/或相位变化来确定到检测信号的来源的方向。

通常，音频通信会话可以是单向的或双向的。更具体地，单向通信会话可以包括发送给用户的可听通知，诸如关于新电子邮件的通知、洗衣机完成循环的通知等。用户的双向音频通信会话通常包括音频会话，在该音频会话期间，可听数据被发送到用户并从用户接收。这样的通信会话可以包括与第三方的电话会话、用户发起的请求系统执行一个或更多个任务的命令等。

另外，该系统可用于多个断开的感兴趣的远程区域，提供两个或更多个远程空间之间的私人通信。为此，如下文所述，感兴趣区域可以包括一个或更多个连接空间和附加的一个或更多个断开/远程位置，使得用户之间能够进行私人和免提通信，而与他们之间的物理距离无关，也不涉及与远程位置之间的数据传输相关联的可能时延。

本发明的技术还可以提供与单向通信会话相关联的指示以及关于其成功的指示。更具体地，本技术利用从一个或更多个TDSM接收的指示用户在接收输入通知的时间段的移动和/或反应的感测数据，并且确定用户是否实际注意到通知的一定的概率。这样的响应可以与身体运动的面部、语音或者可以使用与系统相关联的输入设备检测的任何其他响应相关联。

如上所述，使用本系统的空间的3D模型可以包括与一个或更多个换能器单元相关联的一个或更多个非重叠或部分重叠的覆盖区域。此外，本技术允许用户在区域之间移动的同时保持通信会话。为此，该系统被配置为从一个或更多个TDSM接收感测数据，并处理感测数据以提供关于一个或更多个所选用户(例如，当前参与通信会话的用户)的位置的周期性指示。

此外，为了提供私人声音，一个或更多个换能器单元优选地被配置和可操作成在相对小的焦点内产生可听声音。这形成了相对较小的区域，在该区域中产生的声波是可听的，即可听频率和足够的声压级(SPL)。亮区或可听区例如可以具有大约30cm的半径，而在该区之外，声信号通常足够低，以防止他人全面听到。因此，音频通信系统还可以被配置为处理输入感测数据，以定位所选择的用户，并且识别用户的头部和耳朵的位置和方位，以确定用于产生可听(私人)声音区域的位置。基于使用该系统的空间的3D模型，该处理可以包括确定所选择的换能器单元和用户耳朵中的至少一个之间的视线。在没有确定直接视线的情况下，可以使用不同的换能器单元。可选地，空间的3D模型可用于利用来自一个或更多个反射表面(例如墙壁)的声音反射来确定视线。当一个或更多个换能器单元用作声纳类映射装置时，关于表面声反射的数据可用于确定最佳间接视线。另外，为了提供有效的声学性能，本技术可以在沿着间接视线向用户发送声学信号时利用振幅调节。

在这方面，还应当注意，在系统被配置为分别与用户的双耳接合的情况/实施例中，还执行振幅调节和平衡，以平衡两个耳朵之间的音量(特别是在两只耳朵与为其服务的换能器单元的距离不同的情况下)。

在这方面，上述技术和系统通过采用多个换能器阵列单元和相应的TDSM单元和麦克风单元，能够在感兴趣区域(ROI)内提供音频通信。该技术使得能够与一个或更多个用户进行音频私人通信，用于在他们之间或与外部链路进行通信，使得只有某些信号的接收用户接收到可听的和可理解的声音信号，而其他用户，例如位于距接收方低至50cm的距离处的用户，将不能全面地接收信号。

此外，本发明的技术提供了确定接收方的位置，以便直接和精确地向其发送聚焦的声学信号。该技术还提供周期性地定位所选择的用户，例如标记为正在进行的通信会话中的用户，从而即使当用户在空间中移动时，也允许系统跟踪用户并保持通信会话。为此，该技术提供了根据用户位置和方向持续选择用于向用户发送信号的优选换能器阵列单元。该系统和技术由此使得用户能够在ROI内的不同的部分连接的空间(例如房间)之间移动，同时保持正在进行的通信会话。

因此，根据本发明的一个广泛方面，提供了一种用于音频通信的系统。该系统包括：

-一个或更多个(例如多个)换能器单元，其位于多个地点中，用于覆盖所述地点中的各自覆盖区域。地点可以是不同的空间和/或系统应该向其提供音频服务的感兴趣区域(ROI)。换能器单元(例如，它们中的至少一些)能够发射一个或更多个通用频率的超声波信号，用于在它们各自覆盖区域内的选定空间位置处形成局部可听声场；换能器单元可以包括换能器元件阵列。

-一个或更多个(例如多个)三维传感器模块(TDSM；这里也称为三维输入设备，例如3D摄像机、雷达、声纳、激光雷达)，其被配置为提供关于输入设备的视场内的周围的三维布置的数据。TDSM适于位于将由系统覆盖的地点(空间)中，并且每个三维传感器模块被配置和可操作以提供所述地点内的相应感测体积中的元件的三维布置的感测数据。

-映射模块，其提供分别表示所述TDSM的感测体积和换能器单元的覆盖区域之间的关系的映射数据。

-用户检测模块，其可连接到所述一个或更多个三维传感器模块，用于从三维传感器模块接收所述感测数据，并被配置和可操作为处理所述感测数据以确定至少一个用户在TDSM的感测体积内的空间位置。和

-输出声音发生器(在此也称为声音处理设施)，其可连接到所述一个或更多个换能器单元，并适于接收指示将被发送到所述至少一个用户的声音的声音数据，并被配置和可操作用于操作至少一个选择的换能器单元，以产生承载所述声音数据的靠近所述至少一个用户的局部声场，其中所述输出声音发生器利用映射数据根据关于至少一个用户的空间位置的所述数据来确定所述至少一个选择的换能器单元，使得所述选择的换能器单元的各自覆盖区域包括所述至少一个用户的所述位置。

在一些实施例中，系统包括音频会话管理器(例如，包括输入和输出通信设施)，其被配置成能够经由一个或更多个通信网络与远程方通信；和至少一个声音处理设施。所述至少一个处理器设施包括：感兴趣区域(ROI)映射模块，被配置并可操作以从3D输入设备接收视场的三维输入，并生成ROI的3D模型；用户检测模块，被配置和可操作为从3D输入设备接收视野的三维输入，并确定感兴趣区域内一个或更多个人的存在和位置。处理器单元被配置用于生成语音数据，并且用于操作至少一个换能器单元以发送适当的信号，用于在所选用户的耳朵附近生成局部声场，从而实现与用户的私人通信。

该系统还可以包括接收声音分析器，该接收声音分析器可连接到一个或更多个麦克风单元，所述麦克风单元被配置为从ROI接收音频输入，并且适于确定指示所述音频信号在ROI内的来源位置的数据。

附加地或可选地，系统可以包括或可连接到一个或更多个扬声器，用于提供可由多个用户公开听到的音频输出。此外，该系统还可以包括一个或更多个显示单元，其被配置和可操作用于向用户提供一个或更多个图像或视频的显示。

应当注意，系统可以利用关于用户位置的数据来选择一个或更多个换能器单元，以向用户提供本地私人音频数据。类似地，当使用扬声器和/或显示单元时，系统可以利用关于一个或更多个所选用户的位置的数据来确定一个或更多个所选扬声器和/或显示单元，以向用户提供相应的数据。

根据一些实施例，处理单元可以进一步包括姿态检测模块，该姿态检测模块被配置和可操作为从音频输入位置模块接收输入音频信号及其位置，并且确定所述输入音频信号是否包括请求启动处理或通信会话的一个或更多个关键字。

处理单元还可以包括方位检测模块。方位检测模块可以被配置和可操作用于接收关于感兴趣区域的所述3D模型的数据和关于至少一个用户的位置的数据，并且用于确定至少一个用户的耳朵相对于系统的方位，从而生成至少一个用户的耳朵中的至少一个是否在与至少一个换能器单元的视线内的指示。

根据一些实施例，处理器单元还可以包括换能器选择器模块，其被配置和可操作用于接收指示至少一个用户的头部或耳朵中的至少一个是否在与至少一个换能器单元的视线内的数据，并且用于确定用于向用户的耳朵传输声音的优化轨迹。优化轨迹可以利用以下至少一个：将局部声音区域指向位于至少一个换能器单元的视线中且同时在距离隐藏用户耳朵的预定范围内的点；以及接收和处理关于感兴趣区域的3D模型的数据，以确定声音轨迹，该声音轨迹包括从感兴趣区域内的一个或更多个墙壁朝向隐藏的用户耳朵的一个或更多个反射。

根据一些实施例，处理单元可以被配置和可操作用于与一个或更多个通信系统通信，所述通信系统被布置成形成连续的视场，从而提供与用户的连续音频通信，同时允许用户在大于系统的视场的预定空间内移动。此外，通信系统可以在一个或更多个分离的区域内使用，提供与一个或更多个远程位置的无缝音频通信。

根据一些实施例，处理单元可以被配置和可操作用于提供以下通信方案中的一个或更多个：

-管理和进行远程音频对话，处理单元被配置和可操作用于通过通信网络与远程音频源通信，从而实现双向通信(例如电话对话)；

-响应于通过所述通信网络从一个或更多个关联系统接收的一个或更多个输入警报，提供声音指示；

-响应于来自用户的一个或更多个声音命令，生成相应的命令，并且通过通信网络将所述相应的命令发送到所选择的一个或更多个关联系统，从而实现对由一个或更多个关联系统执行一个或更多个任务的声音控制。

根据又一些实施例，处理单元可以进一步包括姿态检测模块，该姿态检测模块被配置和可操作用于从用户检测模块接收关于用户位置的数据，并且识别用户是否执行了一个或更多个预定姿态，在检测到所述一个或更多个预定姿态时，姿态检测模块生成并向处理单元发送用于执行一个或更多个相应动作的相应命令。

该系统还可以包括面部识别模块，该面部识别模块被配置和可操作用于从三维输入设备接收输入数据，并用于定位和识别ROI内的一个或更多个用户，该系统还包括许可选择器模块，许可选择器模块包括所识别的用户的数据库和所述用户具有使用许可的动作的列表，许可选择器模块接收关于用户身份的数据和关于所述用户请求的动作的数据，并提供指示所述用户是否具有执行所述请求的动作的许可的处理单元数据。

根据本发明的另一个广泛方面，提供了一种用于音频通信的系统。该系统包括：一个或更多个换能器单元，其位于多个物理位置，用于覆盖各自的覆盖区域，其中所述换能器单元能够发射一个或更多个频率的超声波信号，用于在其各自的覆盖区域内的选定空间位置形成局部可听声场；一个或更多个三维传感器模块(TDSM)(例如，3D摄像机、雷达、声纳、激光雷达)，其位于所述地点中，其中每个三维传感器模块被配置并可操作以提供关于所述地点内的相应感测体积中的元件的三维布置的感测数据；映射模块，其提供表示感测体积和覆盖区域之间的关系的映射数据；用户检测模块，其可连接到所述一个或更多个三维传感器模块，用于从所述三维传感器模块接收所述感测数据，并被配置和可操作为处理所述感测数据以确定至少一个用户的耳朵在三维传感器模块的感测体积内的空间位置；以及声音处理器设施，其可连接到所述一个或更多个换能器单元，并且适于接收指示要被发送到所述至少一个用户的耳朵的声音的声音数据，并且被配置和可操作用于操作至少一个选择的换能器单元，以产生承载所述声音数据的靠近所述至少一个用户耳朵的局部声场，其中所述输出声音发生器根据从相应的用户检测模块接收的关于至少一个用户耳朵的空间位置的所述数据，利用所述映射数据来确定所述至少一个选择的换能器单元，使得所述选择的换能器单元的各自覆盖区域包括所述位置。

所述一个或更多个换能器单元优选地能够发射一个或更多个频率的超声波信号，用于在其各自覆盖区域内的选定空间位置处形成局部聚焦的解调可听声场。

该系统通常可以包括被配置为处理从所述地点接收的输入音频信号的接收声音分析器。此外，该系统可以包括音频输入定位模块，该音频输入定位模块适于处理所述输入音频信号以确定指示所述音频信号在所述地点内的来源位置的数据。接收声音分析器可以连接到一个或更多个麦克风单元，所述麦克风单元可操作用于从地点接收音频输入。

根据一些实施例，系统可以包括或可连接到一个或更多个扬声器和/或一个或更多个显示单元，用于向用户提供公共音频数据和/或显示数据。通常，系统可以利用关于一个或更多个用户的位置的数据来根据用户位置选择适合于提供期望输出数据的扬声器和/或显示单元。

根据一些实施例，用户检测模块还可以包括姿态检测模块，该姿态检测模块被配置和可操作为处理包括来自所述一个或更多个TDSM和所述输入音频信号的输入数据中的至少一个的输入数据，以确定所述输入数据是否包括与系统的一个或更多个操作相关联的一个或更多个触发器，所述声音处理器设施被配置为将输入数据的来源位置确定为与系统的所述操作相关联的用户的初始位置。所述一个或更多个命令可以包括发起音频通信会话的请求。输入数据可以包括由接收声音分析器接收的音频输入数据和由TDSM接收的运动模式输入数据中的至少一个。更具体地，姿态检测模块可以被配置为检测声音和/或移动姿态。

根据一些实施例，用户检测模块可以包括方位检测模块，该方位检测模块适于处理所述感测数据以确定所述用户的头部位置和方位，从而估计至少一个用户的耳朵的所述位置。

根据一些实施例，用户检测模块包括面部识别模块，其适于处理传感数据以确定用户的至少一只耳朵的位置。输出声音发生器被配置并可操作用于确定来自至少一个选择的换能器单元的声场传播路径，用于为用户产生局部声场，使得局部声场包括靠近用户的至少一个耳朵的受限声音气泡(sound bubble)。

例如，面部识别模块可以被配置和可操作为基于用户头部的人体测量模型来确定用户的至少一只耳朵的所述位置。在一些情况下，面部识别模块被配置和可操作为基于从TDSM接收的所述感测数据来进行构造和更新用户头部的所述人体测量模型中的至少一个操作。

在一些实施例中，面部识别模块适于处理感测数据以确定用户的双耳的位置，并且其中，所述输出声音发生器被配置和可操作用于确定从所述至少一个选择的换能器单元分别朝向用户的所述双耳的两个声场传播路径，并且产生所述局部声场，使得其包括分别位于用户的所述双耳附近的两个受限的声音气泡，从而向所述用户提供私人双耳(例如立体声)可听声音。

在一些实施例中，输出声音发生器被配置和可操作用于确定沿着到用户的两个耳朵的两个传播路径的声场传播的相应相对衰减，并且基于所述相对衰减来均衡指向用户的两个耳朵的各自声场的音量，从而向所述用户提供平衡的双耳可听声音。

根据一些实施例，用户检测模块还被配置和可操作为处理所接收的感测数据，并根据所接收的感测数据区分一个或更多个用户的身份，用户检测模块由此提供指示三维传感器模块的一个或更多个感测体积内的一个或更多个用户的空间位置和身份的数据。

该系统还可以包括面部识别模块。面部识别模块通常适于从用户检测模块接收关于用户位置的数据，并且适于从TDSM接收与所述用户位置相关联的至少一部分感测数据，并且被配置和可操作用于应用面部识别来确定指示所述用户身份的数据。在一些配置中，系统可以进一步包括权限模块。权限模块可以包括或利用所识别的用户的数据库和所述用户具有使用许可的动作的列表。一般来说，权限模块从所述面部识别模块接收指示用户身份的所述数据和关于所述用户所请求的动作的数据，并且提供指示所述用户是否具有执行所请求的动作的许可的处理单元数据。

根据一些实施例，声音处理器设施可适于对所述映射数据应用视线处理，以分别确定所述换能器单元与用户耳朵的所述位置之间的声音轨迹，并处理所述声音轨迹以确定至少一个换能器单元，所述至少一个换能器单元具有用于向用户耳朵传送声音的优化轨迹，并将所述至少一个换能器单元设置为所选择的换能器单元。可以确定这样的优化轨迹，使得它满足以下至少一个：它沿着所述选择的换能器单元和用户耳朵之间的无阻挡视线通过，同时不超过距用户耳朵的某个第一预定距离；它沿着第一视线从所述换能器单元和所述地点中的声反射元件传递，以及从所述声反射元件传递到所述用户的耳朵，同时不超过第二预定距离。

根据一些实施例，声音处理器设施利用两个或更多个换能器单元来实现优化的轨迹，使得至少一个换能器单元具有到用户耳朵之一的无阻挡视线，并且至少另一个换能器单元具有到用户的第二耳朵的无阻挡视线。

根据一些实施例，声音处理器设施可以适于将所述视线处理应用于所述映射数据，以确定至少一个换能器单元，对于该换能器单元，在至少一个换能器单元的覆盖区域内，存在到用户耳朵的所述位置的无阻挡视线，并且将所述至少一个换能器单元设置为所选择的换能器单元，并且沿着所述视线设置所述轨迹。

在所述换能器单元和用户耳朵的所述位置之间的视线有阻挡的情况下，所述视线处理可以包括处理感测数据以识别所述用户耳朵附近的声反射元件；确定所述选择的换能器单元，使得来自选择的换能器单元的所述轨迹沿着视线从选择的换能器单元和所述声反射元件传递，并由此沿着视线传递到用户的耳朵。

输出声音发生器被配置并可操作以监视用户耳朵的位置以跟踪所述位置的变化，并且其中一旦检测到所述位置的变化，就执行所述视线处理以更新所述选择的换能器单元，从而提供与用户的连续音频通信，同时允许该用户在所述地点内移动。声音处理器设施可适于处理所述感测数据，以确定所选换能器单元和所述用户耳朵之间沿着所述传播路径的距离，并根据所述距离调整由所选换能器单元产生的所述局部声场的强度。在所选择的换能器单元和用户耳朵之间的轨迹中存在声反射元件的情况下，所述处理设施可适于调整所述强度，以补偿所述声反射元件的估计的声吸收特性。此外，在声反射元件存在于所述传播路径中的情况下，所述处理设施可适于根据所述估计的声吸收特性均衡所述超声信号的谱内容强度，所述估计的声吸收特性指示所述声反射元件的谱声吸收分布。

通常，声音处理器设施可适于处理输入的感测数据以确定所述声反射元件的类型(例如，桌子、窗户、墙壁等)，并基于所述类型估计所述吸声性能。

声音处理器设施还可以被配置用于根据存储在相应存储设施中并可由所述声音处理器设施访问的关于表面类型的数据来确定一个或更多个声音反射表面的类型。

根据一些实施例，该系统可以包括通信系统，该通信系统可连接到所述输出声音发生器，并且被配置和可操作用于操作所述输出声音发生器以向所述用户提供通信服务。该系统可以被配置和可操作为提供以下通信方案中的一个或更多个：

-管理和进行远程音频对话，通信系统被配置和可操作用于通过通信网络与远程音频源通信，从而实现双向通信(例如电话对话)；

-管理和执行感兴趣区域内两个或更多个用户之间的无缝本地私有音频通信；

-处理输入音频数据，并向一个或更多个选定用户生成相应的输出音频数据；

-响应于通过所述通信网络从一个或更多个关联系统接收的一个或更多个输入警报，提供声音指示；和

-响应于来自用户的一个或更多个声音命令，生成相应的命令，并且通过通信网络将所述相应的命令发送到所选择的一个或更多个关联系统，从而实现对通过一个或更多个关联系统执行一个或更多个任务的声音控制。

系统1000可以包括姿态检测模块，其被配置和可操作用于从用户检测模块接收关于用户位置的数据，并且可连接到所述三维传感器模块，用于从其接收与所述用户位置相关联的感测数据的至少一部分；所述姿态检测适于将姿态识别处理应用于所述感测数据的所述至少一部分，以识别用户是否执行了一个或更多个预定姿态，在检测到所述一个或更多个预定姿态时，姿态检测模块生成并发送用于操作所述通信系统以执行一个或更多个相应动作的相应命令。

根据一些实施例，该系统还可以包括：用户响应检测模块，适于从所述通信系统接收指示感兴趣的可听内容向所述用户的耳朵传输的触发信号；并且其中所述用户响应检测模块适于从用户检测模块接收关于用户位置的数据，并且适于从三维传感器模块接收与所述用户位置相关联的感测数据的至少一部分，并且被配置和可操作用于响应于所述触发信号来处理所述感测数据的所述至少一部分，以确定指示所述用户对所述感兴趣的可听内容的响应的响应数据。响应数据可以被记录在所述通信系统的存储设施中或者上载到服务器系统。

权利要求的系统可以与分析服务器相关联，该分析服务器被配置和可操作为从系统接收与所述感兴趣内容相关联的所述响应数据，并响应于所述感兴趣内容处理从多个用户提供的所述统计响应数据，以确定用户对所述感兴趣内容的反应的参数。

通常，所述感兴趣内容可以包括商业广告，并且其中所述通信系统与提供所述感兴趣内容的广告服务器相关联。

根据本发明的另一个广泛方面，提供了一种语音网络系统，其包括服务器单元和一个或更多个如上所述的本地音频通信系统，所述本地音频通信系统以部分重叠的方式布置在用于覆盖一个或更多个ROI的空间中；所述服务器系统通过通信网络连接到所述一个或更多个本地音频通信系统，并且被配置和可操作为响应于来自任何本地音频通信系统的用户生成的输入消息，并且响应于一个或更多个预定条件选择性地定位所述一个或更多个ROI内的期望用户，并且选择性地向所述期望用户发送语音通信信号。

根据本发明的另一个广泛方面，提供了一种用于管理个人语音通信网络的服务器系统；该服务器系统包括：音频会话管理器，被配置为连接到通信网络和一个或更多个本地音频系统；映射模块，被配置并可操作用于从所述一个或更多个本地音频系统接收关于3D模型的数据，并生成由所述一个或更多个本地音频系统覆盖的组合感兴趣区域(ROI)的组合3D映射；用户定位模块，其被配置并可操作用于从所述一个或更多个本地音频系统接收关于一个或更多个用户的位置的数据，并且用于确定期望用户在组合ROI中的位置以及与用户具有适当视线的相应本地音频系统。服务器系统被配置并可操作为响应于指示将被发送到所选用户的一个或更多个消息的数据。响应于这样的数据，服务器系统从用户定位模块接收关于用户位置的数据和关于用于与所述用户通信的适当的本地音频系统的数据，并且将关于所述一个或更多个消息的数据发送到相应的本地音频系统以向用户提供语音指示。

用户定位模块可以被配置成周期性地定位所选择的用户和相应的本地音频系统，并且响应于用户的位置或方位的变化，从而改变与本地音频系统的关联，以提供与用户的无缝和连续的语音通信。

根据本发明的又一个广泛方面，提供了一种用于音频通信的方法，该方法包括：提供关于待发送到所选择的用户的一个或更多个信号的数据，提供与感兴趣区域相关联的感测数据，处理所述感测数据以确定感兴趣区域内所选择的用户的存在和位置，选择位于感兴趣区域内的一个或更多个合适的换能器单元，并且操作所选择的一个或更多个换能器元件以将声信号发送到所确定的用户位置，从而向所选择的用户提供承载所述一个或更多个信号的局部可听区域。

根据本发明的又一个广泛方面，提供了一种方法，包括：向用户发送预定声音信号，并收集指示用户对所述预定声音信号的响应的感测数据，从而生成指示所述用户对所述预定声音信号的反应的数据，其中所述发送包括在两个或更多个预定频率范围中生成超声波场，所述预定频率范围被配置为在根据所述用户的物理位置确定的距离处交互，从而形成提供所述预定声音信号的局部声场。

附图的详细说明

为了更好地理解在此公开的主题并举例说明如何在实践中实施，现在将参考附图仅以非限制性示例的方式描述实施例，其中：

图1A至1C示意性地示出了根据本发明的一些实施例的音频通信系统，其中图1A是音频通信系统的框图，图1B示意性地示例了音频通信系统的部署，以及图1C示出了音频通信系统的终端单元的框图；

图2示出了利用中央控制单元的根据本发明的一些实施例的音频通信系统的附加示例；

图3例示了适用于根据本发明的一些实施例的音频通信系统中的私有通信的终端单元；

图4A是示出根据本发明的实施例执行的用于向用户发送局部(受限)声场的方法的流程图。

图4B和4C分别是在用户头部和耳朵附近产生的局部(受限)声场的示意图；

图4D是根据本发明的实施例的用于确定用户耳朵位置的方法的流程图；

图5例示了根据本发明的一些实施例的音频通信系统在感兴趣的区域中的应用；

图6示意性地示出了根据本发明的一些实施例的音频通信服务器/控制单元；

图7例示了根据本发明的一些实施例的用于向用户发送声信号的操作方法；

图8例示了根据本发明的一些实施例的用于保持移动用户正在进行的通信的操作方法；

图9例示了根据本发明的一些实施例的用于响应用户发起的请求的操作方法；和

图10例示了根据本发明的一些实施例的用于确定用户对发送的声学信号的响应的操作方法。

实施方式的具体描述

如上所述，本发明提供了一种用于在空间内提供私人和免提可听通信的系统和方法。一起参考图1A至1C，通过图1A至1C，其中图1A是根据本发明实施例的音频通信系统1000的框图，图1B示意性地示出音频通信系统1000的示例性部署，以及图1C是示例性地示出根据本发明一些实施例的音频通信系统1000的终端单元200的配置的框图。

系统1000包括一个或更多个声学/声音换能器单元100，每个声学/声音换能器单元100通常可以包括声音传输元件的阵列，该阵列可以被操作用于产生和引导指向选定方向的定向声束。例如，换能器阵列单元100a和可选的100b至100n在图中举例说明)。换能器阵列单元100a-100n可以各自负责在相应换能器单元的视线中的特定区域/范围。另外，音频通信系统1000还包括一个或更多个三维感测设备/模块(TDSM)110，每个三维感测设备/模块110包括一个或更多个传感器，这些传感器能够获取指示它们所处环境中/的三维结构的感测数据。TDSM模块110可以例如包括无源和/或有源传感器，诸如能够感测环境的3D结构和提供指示其的感测数据的一个或更多个摄像机(例如，在视觉和/或IR波段中操作)、和/或深度传感器(例如，激光雷达和/或结构化光扫描器)、和/或回声位置传感器(例如，声纳)、和/或本领域已知的传感器的任意组合。应当注意，在一些情况下，TDSM模块110被配置成利用/操作换能器单元100也作为声纳模块，用于感测环境的3D结构。在这种情况下，换能器单元100可以适于在超声波信号的发送和接收模式下操作，和/或音频输入传感器120和/或与TDSM模块110相关联的其他传感器可以被配置和可操作在超声波波长下，用于感测/接收反射/返回的声纳信号。

在本示例中，TDSM 110包括TDSM单元110a和可选的附加TDSM单元110b-110m，由此每个TDSM单元能够监视给定尺寸和形状的区域的3D结构。因此，在由音频通信系统1000服务的每个空间/地点(例如，房间/办公室/车辆空间)处，安装至少一个TDSM 100和可能多于一个的TDSM 100，以便覆盖该空间的主要区域并向系统1000提供指示该空间结构的3D感测数据。此外，该系统包括控制系统500(在此也称为本地音频系统)，该控制系统500可连接到TDSM 110和换能器单元100，并且被配置和可操作为从TDSM 110接收指示TDSM 110所处/提供的一个或更多个空间的3D结构的3D感测数据，并且操作位于这些空间的换能器单元100，以便向这些空间中的用户提供指定的音频数据/信号。

根据本发明的一些实施例，控制系统500包括用户检测模块520，用户检测模块520可连接到一个或更多个TDSM 110(例如，经由有线或无线连接)，并被配置和可操作用于处理从其获得的3D感测数据，以检测、跟踪和可能还识别位于安装TDSM 110的空间中的用户。为此，用户检测模块520被配置并可操作来处理感测数据，以确定由TDSM覆盖的空间/感测体积内的空间位置元件，特别是检测三维传感器模块的感测体积内的用户头部或用户耳朵中的至少一个的位置。

通常，TDSM 110可以与换能器100分离地定位和/或可以与相应的感测坐标系相关联(由此感测的感测体积的3D感测数据相对于该感测坐标系提供)。

实际上，例如如图1B所示，感测坐标系可以不同于声换能器100的坐标系。例如在图1B示出R2房间中的TDSM 110b的坐标系C不同于覆盖该房间的换能器单元100b的坐标系C’。因此，TDSM 110b可以检测/感测位于感测体积SVb内的用户P(例如，其头部/耳朵)的位置，并且提供指示用户的头部/耳朵相对于TDSM 110b的坐标系C的位置的数据。换能器100b可以布置在房间中不同的位置和/或不同的方位，并且通常可以被配置为相对于不同的坐标系C’操作，用于将声音引导到位于换能器100b覆盖区域CZb的用户P。

因此，根据本发明的一些实施例，为了在可以安装在可能不同的位置和/或方位的TDSM 110和换能器100的不同坐标系之间桥接，控制系统500包括映射模块510，该映射模块510被配置和可操作用于在获得感测数据的TDSM 110的坐标系和由系统1000产生声音的换能器100的坐标系之间进行映射。例如，映射模块510可以包括/存储映射数据512(例如，一个或更多个坐标变换的列表，诸如C到C’变换)，其将一个或更多个TDSM 110的坐标映射到属于/覆盖由相应TDSM 110感测的相同/公共空间的一个或更多个相应换能器100的坐标。

可选地，映射模块510还包括校准模块514，校准模块514被配置并可操作用于获得TDSM 110和换能器100之间的映射数据。这将在下面详细讨论。

另外，控制系统500包括输出声音发生器模块600(在下文中也可互换地称为声音处理设施/模块)。输出声音发生器模块600(声音处理设施)可连接到一个或更多个换能器单元100，并且适于操作一个或更多个换能器单元100以产生将由用户检测模块520检测到的一个或更多个用户接收/听到的声音信号。

为此，输出声音发生器模块600可以与系统1000的音频会话管理器570的音频输入模块610(例如，外部音频源)相关联。音频输入模块610被配置和可操作用于接收和向输出声音发生器模块600提供声音数据，该声音数据将被发送到由系统覆盖的空间(例如公寓APT)中的至少一个预定的感兴趣用户(例如用户P)。

根据一些实施例，输出声音发生器模块600包括换能器选择器模块620，换能器选择器模块620被配置并可操作用于从换能器100中选择至少一个选择的换能器(例如100a)，所选择的换能器适合(最适合)产生和引导预定用户(例如用户P)要听到的声场。

为此，根据一些实施例，输出声音发生器模块600连接到用户检测模块520，用于从用户检测模块520接收指示要由其服务的感兴趣用户的位置的数据(例如，位置可以根据TDSM 110中的至少一个的坐标C来指定)。输出声音发生器模块600连接到映射模块510，并适于从映射模块510接收表示感测感兴趣用户P的TDSM 110的坐标系(例如TDSM 110b的坐标C)和一个或更多个换能器100的坐标系(例如换能器100b的坐标C’)之间的坐标映射(例如变换)的映射数据512。

换能器选择器从用户检测模块520接收预定用户的位置(该位置可以例如依据检测用户P的TDSM(例如，110b)的相应感测坐标系)。换能器选择器模块620被配置和可操作用于利用从映射模块510获得的映射数据(例如，坐标变换C-C’和/或C-C”)将检测到的用户P的头部/耳朵的位置转换成一个或更多个换能器100的坐标空间/坐标系。可选地，换能器选择器模块620还可以适于接收指示位于感兴趣用户P附近(例如，与图1B中所示的用户P在相同的空间/房间中)的结构/对象OBJ(例如，诸如墙壁和/或家具和/或其表面的元件)的数据。然后，换能器选择器模块620利用从映射模块510获得的映射数据(例如，坐标变换C-C’和/或C-C”)来将检测到的用户P的头部/耳朵的位置以及可能还有方位转换成一个或更多个相关换能器100的坐标空间/坐标系。就此而言，相关的换能器是用户P位于其覆盖区域内的换能器(为此排除了不在相同空间中的换能器和/或其覆盖区域不与预定用户的位置重叠的换能器)。可能地，在此阶段，换能器选择器模块620利用从映射模块510获得的映射数据来将对象OBJ在空间中的位置转换成相关换能器的坐标。然后，基于用户的头部/耳朵在相关换能器100的坐标空间中的位置和方位，换能器选择器模块620确定并选择其位置和方位最适于向用户提供最高质量声场的换能器(例如100b)。为此，换能器选择器620可以选择具有到预定用户P(到他的头部/耳朵)的较短的无障碍视线的换能器(例如100b)。在没有发现具有无障碍视线的换能器的情况下，换能器选择器620可以利用模式识别来处理3D感测数据(例如，来自TDSM的2D和/或3D图像)以识别如此靠近用户的声学反射器，并且选择一个或更多个换能器，该换能器可以通过从空间中的对象OBJ的反射来最佳地产生要到达用户的声场。为此，换能器选择器620确定用于服务预定用户以向他提供音频场的选定换能器(例如100a)，并且确定用于将音频场引导到用户的头部/耳朵的音频传输路径(例如，优选地直接，但是也可能间接/经由反射)。

输出声音发生器模块600还包括音频信号发生器630，音频信号发生器630被配置并可操作以产生音频信号，用于操作所选择的换能器以产生期望的音频场并将其发送到预定用户。在这方面，音频信号发生器630编码和/或可能放大来自音频输入模块610的声音数据，以产生承载声音数据的音频信号(例如模拟信号)。在这点上，可以根据任何已知技术来执行对要传送到所选择的声换能器(例如100a)的扬声器的信号上的声音数据的编码。

特别地，在本发明的一些实施例中，音频信号发生器630被配置和可操作用于仅在用户附近产生承载声音数据的音频场，使得用户私下听到发送给他的音频场，而他附近的用户/人不能听到声音。这可以例如通过利用WO2014/076707中披露的超声技术来实现，WO2014/076707转让给本发明的受让人并通过引用并入本文。为此，音频信号发生器630可以包括来自超声信号发生器632的声音，超声信号发生器632被配置和可操作用于接收和处理声音数据，同时实现WO2014/076707中公开的私有声场产生技术，以便产生只能由它所指向的预定用户听到的私有声场。为此，用户相对于(如从换能器选择器630获得的)所选换能器的相对位置被用于产生超声波束，该超声波束从换能器被引导到用户的位置，并且被配置成在该区域中具有非线性交互作用，从而在用户的区域处形成局部声场。

此外，该系统可以包括波束形成模块634，其被配置和可操作用于处理所生成的承载信号的音频场以生成多个波束形成的信号，当提供给所选择的声换能器(例如100b)的多个换能器元件时，该多个波束形成的信号生成聚焦在用户(在他的头部上，更优选地在他的耳朵上)上的输出声束。本发明的波束形成模块634可以被配置和可操作用于实现本领域技术人员容易理解的波束形成技术(例如相位阵列波束形成和/或延迟和减去波束形成)中的任何一种或多种。

因此，控制系统500被配置和可操作为处理从TDSM 110获得的感测数据，以便确定在被监控空间中音频信号/数据应当被传送到的用户，并且操作一个或更多个换能器单元100a和100b，以便向用户提供免提私人音频会话，其中用户私下听到指定给他们的声音数据，而空间中的其他用户不能听到。

根据一些实施例，系统包括音频会话管理器570，音频会话管理器570被配置并可操作用于管理位于由系统1000覆盖的空间中的一个或更多个用户的音频会话。音频会话管理器570可以适于管理各种类型的会话，包括例如向用户提供音频/声音数据中的单向会话(例如，音乐播放会话、电视观看会话、游戏等)和/或向用户提供音频/声音数据并且还从用户接收音频/声音数据的双向会话(例如，电话/视频呼叫/会议会话和/或语音控制/命令会话等)。为此，会话管理器可以在由系统覆盖的空间中管理和跟踪与多个用户相关联的多个音频会话，该系统区分要传送到不同的相应用户的声音，并且还区分从不同的相应用户接收的声音。

为此，可选地，在系统被配置成使用户能够进行双向(双边)音频通信会话(例如电话呼叫)的实施方式中。系统1000包括分布在系统覆盖的空间/地点中的一个或更多个音频输入传感器模块120。每个音频输入传感器模块120被配置并可操作用于在所覆盖的空间接收来自用户的音频信息。音频会话管理器570包括输入声音分析器560，其适于处理来自音频输入传感器模块120的音频信息，以便区分不同用户的声音/嗓音。

例如，音频输入传感器120可以被配置和可操作为可用于区分来自不同方向的声音的指向性音频输入传感器。因此，输入声音分析器560被配置并可操作用于基于用户与同一空间中的一个或更多个指向性音频输入传感器120之间的不同相对方向来区分来自同一空间中的不同用户的输入声音。

例如，在一些情况下，指向性音频输入传感器120被实现为麦克风阵列。麦克风阵列可以包括面向不同方向的多个指向性麦克风，或者多个麦克风(例如类似的麦克风)和输入声束形成器。因此，不同指向的指向性麦克风阵列和/或连接到麦克风阵列的输入声束形成器(未具体示出)提供指示从不同方向接收的声音的数据，该声音与从其接收的方向相关联。输入声束形成器可以被配置和可操作为根据本领域中任何合适的波束形成技术来处理麦克风阵列接收的信号，以便确定阵列接收的不同声音的方向。输入声音分析器560可以被配置和可操作为基于用户在这些空间中的位置，例如由用户检测模块520确定的，将从不同方向到达的声音与被监控空间中的不同的相应用户相关联。更具体地，输入声音分析器560可以适于利用用户检测模块520，以便确定不同用户在由系统1000监视的空间中的位置。然后，输入声音分析器560利用映射模块510(在这种情况下，映射模块510还保存将麦克风阵列120的坐标(位置、方位和感测特性)与TDSM110的坐标相关的映射数据)，确定从每个特定方向到达的声音属于哪个用户。因此，声音分析器560将来自每个用户方向的声音与用户的会话相关联。因此，由此输出声音发生器模块600向系统的各个用户单独提供声音，并且声音分析器560单独/分别地从每个用户获得声音，可以与每个用户建立双向音频通信。

如上所述，系统1000可以被配置为分布式系统，该分布式系统包括可分布地布置在诸如房屋、公寓、办公室、车辆和/或其他空间的期望空间中的一个或更多个换能器单元(典型地在100处)和一个或更多个TDSM(典型地在110处)，以及连接到分布式单元的管理服务器系统700。例如，图1B示出了分布式系统1000。系统1000包括TDSM 110a至110c，其布置在公寓APT的房间R1至R3中，并且连接到管理公寓内的音频通信会话的控制系统500。系统1000还包括布置在车辆VCL中并且连接到管理车辆VCL内的音频通信会话的控制系统500’的TDSM 110e和换能器100e。在系统的各种实现中，控制系统500和500’(在此也称为本地音频系统)可以通过有线或无线连接连接到它们各自的TDSM 110和换能器100。管理服务器系统700管理用户的音频通信会话，同时当用户在系统覆盖的空间/地点(在这种情况下，公寓APT的房间R1-R3和车辆VCL)之间经过时跟踪用户的位置。

服务器系统700可以例如远离控制系统(本地音频系统)500和/或500’(即远离公寓APT和/或车辆VCL)，并且可以被配置和可操作为基于云的服务器系统，当用户在公寓APT的房间之间、从公寓到车辆VCL和/或当他驾驶车辆VCL时，该服务器系统向用户提供语音通信。为此，控制系统500或其一个或更多个模块可被配置和可操作为基于云的服务，该服务可从远程，例如通过诸如因特网的网络通信，连接到多个TDSM和换能器。为此，除了TDSM110和换能器阵列单元100之外，控制系统500和/或500’以及可能还有系统1000的其他模块可以被实现为基于云的模块(硬件和/或软件)，并且远离由系统覆盖并且适于与TDSM 110和换能器阵列单元100通信的空间(例如公寓APT、车辆VCL和/或办公室)。因此，在系统所覆盖的空间中可能没有与控制系统500和/或500’相关的物理硬件。

为此，服务器系统700与控制系统500和500′通信，以从其接收指示感兴趣用户位置(P)的数据。为此，服务器系统700接收从控制系统500和500’的用户检测模块520获得的用户检测数据，这是通过处理由TDSM 110收集的感测数据来实现的，TDSM 110在感兴趣的用户(例如，用户P)在各种空间(公寓和/或车辆的房间)中移动时对感兴趣的用户进行感测。因此，服务器系统700在用户在各种空间之间移动时跟踪用户，同时在用户移动时管理用户的音频会话。在用户在活动音频会话中从一个/第一控制系统(例如500)的TDSM和换能器的覆盖空间移动到另一个/第二控制系统(例如500’)的覆盖区域的情况下，服务器系统700操作第二控制系统500’，以继续用户的活动音频会话。

实际上，在一些情况下，用户可以移动到没有安装TDSM 110和换能器100的地方/位置。例如当用户在公寓APT和车辆VCL之间的路径上行走时。因此，在一些实施例中，服务器系统700还包括移动会话模块710(例如调制解调器)，在该移动会话模块710中，能够将音频通信会话转移到用户的移动设备MOB(例如，预先注册的移动设备，例如与用户相关联的预先记录在服务器700中的移动电话)，以便允许用户在不同空间之间移动时保持连续的音频会话。因此，一旦用户退出系统的覆盖区域，他可以通过他的电话继续他的音频会话。

可替换地或附加地，在一些实施方式中，系统1000包括一个或更多个全封装单元，所述全封装单元包括至少一个换能器单元100、至少一个TDSM 110，以及可选地封装在同一模块中的输入音频传感器(麦克风阵列)120。这例如在图1C中示出，并且在图1B中参见模块100a+110a和100c+110c。可选地，全封装单元还包括控制单元500和音频会话管理器570。

在这种情况下，换能器单元100和TDSM 110被预安装在封装内，并且它们的感测体积和覆盖区域的坐标之间的关系被预先确定并且被编码在控制单元的映射模块510(例如存储器)中。因此，在这种情况下，不需要校准TDSM和换能器之间的映射。为此，该示例的全封装单元被配置成部署在某个空间中，而无需校准，并且可以用于在其部署的空间向用户提供私人音频通信会话。

然而，通常可能需要校准，以便确定将换能器的坐标空间/系统(例如C’)与TDSM的坐标空间/系统(例如C)以及可能还有音频输入传感器120的坐标系统相关联的映射数据。更具体地说，在换能器和TDSM如图1B所示分开定位的情况下，可能需要校准。为此，可选地，映射模块510包括校准模块514，其被配置和可操作用于获得和/或确定指示不同TDSM和换能器以及可能还有连接到控制系统500的音频输入传感器120的相对位置和方位的校准数据。

在一些实施例中，校准模块514适于从安装系统1000的用户接收手动输入的校准数据。例如，这样的输入数据可以指示TDSM和换能器的相对位置和方位，并且校准模块514可以适于利用该数据来确定指示TDSM 110的坐标和换能器100的坐标以及可能和音频输入传感器120的坐标之间的坐标变换的映射数据。

替代地或附加地，校准模块514可适于实现自动校准方案，其中TDSM 110的感测能力以及可能还有音频输入传感器120的音频感测能力被采用，以便确定TDSM 110相对于各种换能器100和/或输入传感器120的位置和方位。为此，在一些实施例中，校准模块514利用模式识别引擎515来处理由每个TDSM 110感测的数据，以识别位于每个TDSM的感测区域中的换能器100以及可能的音频输入传感器120，并确定它们相对于TDSM 110的相对位置和方位。

实际上，在一些实施例中，为了识别换能器100和可选地识别音频输入传感器120，校准模块514利用指示换能器和/或音频输入传感器的外观和/或形状的某些预先存储的参考数据。该参考数据可由模式识别引擎515用来识别由TDSM监视的空间(感测体积SVa-SVn)中的这些元件。

此外，可选地，根据一些实施例，换能器100和可能的音频输入传感器120被配置有承载识别标记(例如，典型的可视无源标记，但也可能是有源标记，例如有源辐射发射标记)和/或声学标记和/或其他标记的包装，这些标记有助于通过TDSM识别换能器100和/或音频输入传感器120的类型、位置和方位。为此，标记应该是TDSM中包括的传感器可识别的类型。在这样的实施例中，由校准模块514使用的预存参考数据可以包括指示由不同类型的换能器100和/或音频输入传感器120承载的标记及其相应类型和音频属性的数据。模式识别引擎515可以使用参考数据来识别由TDSM监视的空间(感测体积SVa-SVn)中的标记，从而确定换能器100和可选的音频输入传感器120的相对位置和方位。

然而，可选地或附加地，校准模块可以适于执行主动校准阶段，其中换能器的位置通过感测和处理在校准阶段期间由换能器产生的声场来确定，并且通过检测和处理由此产生的校准声场来定位(例如回声定位)换能器(例如，通过采用TDSM 110和/或音频输入传感器120来感测这些声场和处理感测到的声场；例如利用波束形成)以便确定换能器相对于TDSM 110和/或音频输入传感器120的相对位置和方位。

此后，一旦确定了换能器100的相对位置和方位，校准模块514就确定换能器100的坐标空间/系统(系统可以通过其调整/控制所生成的声场的方向和/或位置的换能器100a-100m的覆盖区域的CZa-CZm坐标)和TDSM的感测区域SVa-SVn的坐标空间之间的坐标变换。这允许生成映射模块的映射数据，该映射模块能够精确地选择和操作所选择的转换器，以便生成声场并将其指向由TDSM之一检测到的用户P的位置。可选地，以相同的方式，校准模块514确定音频输入传感器120的覆盖区域(图中未具体示出)的坐标空间/系统与TDSM的感测区域SVa-SVn的坐标空间之间的坐标转换，系统通过音频输入传感器120接收来自用户的声音。这允许生成映射数据，该映射数据使得能够精确地确定其语音被音频输入传感器120接收的用户。

因此，应当注意，尽管在图中没有具体示出，但是控制系统500和通常的系统1000包括一个或更多个通信输入和输出端口，用于网络通信和/或用于连接附加的一个或更多个元件(视情况而定)。

在一些实施例中，系统1000还可以包括一个或更多个显示单元130，显示单元130可连接到控制单元500，并被配置和可操作用于向一个或更多个用户提供显示数据。控制单元500可以从用户检测模块接收关于用户位置的数据，并且基于该位置数据，确定用于向用户显示一个或更多个选择的数据片段的合适的显示单元130，并且当用户移动时进一步选择附加显示单元130。控制单元可操作以显示各种数据类型，包括但不限于以下的一个或更多个：与参与正在进行的通信会话的另一用户相关联的显示数据、由用户选择的显示数据(例如，电视节目、视频剪辑等)、基于系统确定的用户属性(例如年龄、性别)选择的显示商业数据等。控制单元500可以允许用户使用一个或更多个命令姿态来控制所显示的数据，如下面进一步描述的。另外，在一些实施例中，显示器也是系统的用户界面(可能还包括诸如键盘和/或触摸屏和/或姿态检测的用户输入设备)的一部分，其被配置和可操作为向用户呈现系统的设置和配置参数并从用户接收用于配置系统1000的设置和配置参数的指令的系统设置界面。

一个或更多个TDSM 110被配置为提供关于一个或更多个相应感测区域内的区域的三维布置的数据。为此，一个或更多个TDSM 110可以包括一个或更多个摄像机单元、三维摄像机单元以及诸如雷达单元、激光雷达(例如基于光的雷达)单元和/或声纳单元的附加感测元件。另外，控制单元500可以被配置为操作一个或更多个换能器单元100以通过用超声波束扫描相应的覆盖体积并根据检测到的超声波束反射确定覆盖体积的布置来充当一个或更多个声纳单元。

如上所述，换能器单元100可各自包括换能器元件阵列。图3示出了这样的换能器单元100的示例，该换能器单元100可以包括在系统1000中，并且特别适合于实现来自超声技术的声音(例如WO2014/076707中公开的)，用于在其覆盖区域内(例如在指定感兴趣的用户的头部/耳朵附近)产生局部声场(例如受限的声音气泡)。换能器单元100包括：换能器元件阵列105，其被配置为发射超声波(US)频率范围的声信号；以及声音生成控制器108，其被配置为接收指示要发送的声信号和要发送信号的空间位置的输入数据。声音生成控制器108还被配置和可操作为操作不同的换能器元件105以振动和发射具有选定频率和它们之间的相位关系的声音信号。使得所发射的用户信号朝向所指示的空间位置传播，并在期望位置处在它们之间交互，以产生与将被发射的信号相对应的可听声音，如下文进一步描述的。在这方面，这里使用的术语“换能器阵列”、“换能器单元”和“换能器阵列单元”应该被理解为是指包括能够在预定的超声波频率范围(例如，40-60KHz)内传输声信号的任何类型的换能器元件阵列的单元。换能器阵列单元通常能够提供波束形成和波束操控选项，以引导和聚焦发射的声学信号，从而能够产生可听声音的亮区域。

一个或更多个麦克风阵列120被配置成从空间收集可听频率范围内的声学信号，以允许使用语音姿态和双向通信会话。麦克风阵列120被配置用于接收输入可听信号，同时实现声音信号来源的至少某些区分。为此，麦克风阵列120可以包括一个或更多个方向麦克风单元，这些方向麦克风单元对准空间内的一个或更多个不同方向，或者一个或更多个麦克风单元在空间内以它们之间的预定距离布置。关于这一点，应当注意，由于可听声音具有几毫米到几米之间的典型波长，所以采用相控阵音频输入设备形式的多个麦克风单元的使用可能需要麦克风单元之间的大间隔，并且可能相对困难。然而，利用几个麦克风单元，它们之间具有几厘米的距离，并且根据检测时间分析音频输入，可以提供关于信号源的方向和位置的某些指示。通常应该注意，音频输入数据可以与由一个或更多个TDSM 110接收的感测数据并行处理，以提供关于音频输入信号的来源的指示并减少背景噪声。

控制/处理系统500被配置和可操作为向位于使用该系统的空间内的一个或更多个用户提供免提私人声音通信。一般而言，系统1000被配置和可操作以响应于来自用户的启动，启动一个或更多个用户的音频通信会话，同时提供只有所选择的用户能够听到声音信号的私有声音区域。为此，控制单元500利用关于空间的三维布置的感测数据来确定所选择的用户的位置，发射具有适当幅度、相位、频率和空间波束形成的两个或更多个所选择的超声波频率的声信号，以使得超声波信号在所选择的用户附近相互作用，从而解调可听声音的频率。这提供了用户可以听到的声音区域，而在相对小的区域之外不能听到声音。为此，控制单元500通常被配置为提供某些数据处理能力以及指示换能器阵列单元100的覆盖区域和TDSM单元110的感测体积之间的对应关系的校准数据。如上所述，这样的校准数据可以由系统预先存储或自动生成。控制系统500和/或音频会话管理器570可以包括音频输入模块610，音频输入模块610被配置和可操作用于与一个或更多个音频源(例如，本地或远程通信模块和/或其他音频数据提供者)通信，以从中获得要提供给用户的可听数据。此外，控制系统500和/或音频会话管理器570可以包括音频分析器560，该音频分析器560被配置和可操作用于从一个或更多个麦克风单元120接收输入音频信号。控制系统500还可以包括姿态检测模块550，该姿态检测模块550被配置和可操作为处理来自麦克风单元120的音频信号，以确定是否从系统的用户接收到指示一个或更多个姿态的音频信号，并且可能将这样的姿态与从用户接收的某些指令(例如，关于用户正在进行的通信会话的用户指令和/或通信会话的发起等)相关联。

映射模块510可连接到一个或更多个TDSM 110单元，并被配置和可操作为接收指示各个感测体积的三维感测数据的输入。映射模块510还被配置为处理输入感测数据并生成TDSM的一个或更多个相应感测体积的三维(3D)模型。在系统被配置为分布式系统的情况下，例如在图1B的当前示例中，一个控制单元500的映射模块可以被配置为沿着适当的通信网络与连接到其上的一个或更多个其他音频通信系统的映射模块通信。附加地或可选地，映射模块可以预先提供关于不同换能器单元100、TDSM单元110和麦克风单元120的布置的数据，从而实现由TDSM单元110确定的感测数据和和由对应换能器单元100确定的接收方位置之间的相关性。

用户检测模块520被配置和可操作用于从一个或更多个TDSM 110接收输入感测数据，并且用于处理输入感测数据以确定一个或更多个人在相应感测体积内的存在和位置。在这点上，用户检测模块可以包括模式识别引擎/设施515，或者与该模式识别引擎/设施515相关联，该模式识别引擎/设施515被配置和可操作用于识别从TDSM 110获得的图像中的各种对象。为此，应当理解，TDSM 110的图像可以包括：视觉图像和/或IR图像和/或回声定位图像和/或深度图像和/或包括/由上述任何组合构成的合成图像。从TDSM 110获得的图像信息的确切类型通常取决于所使用的TDSM和其中包括的传感器的具体配置。为此，术语“图像”在这里应该被理解为其广义，其涉及指示所监视空间的各种属性的空间分布的数据像素的集合，例如各种光谱颜色、深度和/或其他属性。模式识别引擎/设施515可以利用本领域公知的各种类型的图像处理技术和/或各种模式识别方案来识别人和/或他们的头/耳(例如，图1B中的P)以及可能还识别由TDSM监视的空间/感测体积中的其他可识别对象(例如，图1B中的OBJ)，并且确定他们在监视空间中的位置。这允许从背景图像数据中分离与人或通常前景对象相关联的图像数据部分。

为此，在一些实施方式中，模式识别引擎/设施515被配置和可操作为对从TDSM110获得的图像应用模式识别处理，从而生成由TDSM监视的空间的3D模型。进而，用户检测模块520可以适于基于由模式识别引擎/设施515生成的空间的3D模型来确定(监视)和(实时)跟踪一个或更多个用户(例如感兴趣的用户P)的位置(例如3D位置)。因此，用户检测模块520确定为感兴趣的用户P生成私人声音区域(声音气泡)的期望位置，使得所述位置以所选用户的头部为中心，并且更优选地以用户的单个耳朵或其附近为中心。

在系统的一些配置中，用户检测模块520可以包括或连接到面部识别模块530、方位/头部检测模块540和姿态检测模块550中的一个或更多个。一般来说，应该注意，用户检测模块520被配置和可操作用于利用一个或更多个通常已知的处理算法来处理输入感测数据，以确定在相应感测体积内存在一个或更多个人(潜在用户)。面部识别模块530通常可被配置为接收指示一个或更多个所选用户的存在和位置的感测数据(例如，TDSM的图像)，并且通过一个或更多个面部识别技术处理数据以确定一个或更多个所检测用户的身份。面部识别模块530因此被配置和可操作用于生成指示一个或更多个检测到的用户的位置和身份的身份数据，并且用于将身份数据提供给输出声音发生器模块600，以使换能器选择器620能够选择合适的换能器单元，并且操作它来生成被选择的用户可听的本地私人声音区域。面部识别模块530还可以适于将身份数据提供给接收声音分析器560，使得后者可以处理从音频输入声音接收的声音，以确定/识别/分离从监控空间中的每个特定用户到达的声音。在一些实施例中，面部识别模块530还可适于执行临时配对，并出于诸如递送商业广告等目的确定用户年龄/性别。

输出声音发生器模块600和音频输入模块610通常可以根据用户的位置、用户提供的一个或更多个姿态(例如，声音姿态)和双向正在进行的通信会话，向用户检测模块520提供关于输入音频信号的数据。

为此，方位/头部检测模块540被配置成从TDSM接收至少一部分感测数据和/或从模式识别模块515获得的至少一部分3D模型，该3D模型与感兴趣用户P的位置相关联，并且处理感测数据以确定所选择的用户头部的位置以及可能还有用户头部的方位。因此，方位/头部检测模块540可以向输出声音发生器模块600提供指示用户头部的位置和方位的数据，使得输出声音发生器模块600可以在用户头部附近(例如，至少部分围绕)产生局部/受限声场。

如下文更详细讨论的，在本发明的一些实施例中，头部方位模块540还被配置为处理来自TDSM的感测数据和/或从模式识别模块515获得的3D模型，以便确定指示用户耳朵的位置和方位的数据，并且将这样的数据提供给输出声音发生器模块600，使得输出声音发生器模块600可以产生至少部分围绕用户耳朵的局部/受限可听声场。

如上所述，头部方位模块540和/或换能器选择器模块620还可以生成指示一个或更多个换能器单元和用户的耳朵/头部之间的视线的数据。在这方面，应当注意，在一些实施例中，一个或更多个换能器单元100和一个或更多个TDSM 110可以被配置在单个物理封装内，以简化系统的部署。

例如，如图1C所示，在提供分布式处理的一些实施例中，这样的物理封装还可以包括控制系统500和另外的元件(未具体示出)，例如存储器和通信设施以及这里未具体示出的电源单元。在一些其他配置中，物理单元(即具有相同的封装)可以包括换能器单元100、TDSM 110、麦克风单元120、电源单元(未具体示出)以及提供与远程控制系统500通信的通信设施(未具体示出)，远程控制系统500被配置为接收和处理感测数据，选择性地发送关于音频通信会话的物理分布式单元数据。

因此，由方位检测模块540基于感测数据确定的视线通常可指示相应换能器单元100的视线。在本发明的一些配置中，方位检测模块可以被配置成根据所确定的接收人的头部/耳朵的位置来选择最适于向接收人发送所选择的声学信号的换能器单元100。

另外，姿态检测模块550通常被配置和可操作为接收与一个或更多个所选用户相关联的输入感测数据，并且处理和分析输入数据以检测与被定义为发起一个或更多个命令的一个或更多个预定姿态相关联的用户行为/移动。在一些实施例中，姿态检测模块550还可以被配置为接收和处理从用户接收并由麦克风阵列120收集的音频信号，以检测与一个或更多个预定命令相关联的一个或更多个语音姿态。

通常，为了提供免提音频通信，以及提供系统的免提管理和控制，控制系统500的姿态检测模块550被配置和可操作为响应于一个或更多个预定姿态(移动和/或声音)并启动一个或更多个预定操作命令。此外，在一些实施例中，一些操作命令可以包括与被配置为从本发明的音频通信系统接收适当指示的外部元件相关联的一个或更多个命令。这样的操作命令可以例如包括用于在音频通信会话中发起的命令(例如，与所选联系人的电话对话)、基于一个或更多个条件的通知请求、以及由系统和/或用户定义的任何其他预定命令。另外，在一些配置中，姿态检测模块可用于检测与用户身份相关联的一个或更多个姿态。更具体地，一个或更多个用户可以各自被分配有允许音频通信系统识别用户同时简化输入数据的处理的独特姿态。

通常，姿态检测模块550可以被配置和可操作用于从用户检测模块520接收关于用户位置的数据，并且从一个或更多个TDSM 110和/或从麦克风阵列120接收与相同位置相关联的感测数据。姿态检测模块550还用于处理输入数据，以识别用户是否执行了一个或更多个预定义姿态。在检测到一个或更多个姿态时，姿态检测模块550操作以生成一个或更多个相应的命令并将其发送到声音处理器设施600，用于执行一个或更多个相应的动作。在一些实施例中，接收声音分析器560被配置成结合姿态模块550从用户接收和分析输入的声音命令。为了实现上述功能，接收声音分析器560可以包括一个或更多个自然语言处理(NLP)模块，其实现本领域公知的一种或多种语言解释技术，用于解释自然语言用户命令。更具体地，用户可以在使用所选择的自然语言的同时向音频通信系统提供语音命令。因此，接收声音分析器560可以被配置和可操作为从周围声音中分离/过滤用户的声音(例如，可选地基于如上所述的感兴趣用户P的位置和/或基于用户的声音的谱内容/谱色)，并且分析用户的输入声音/嗓音数据的部分(例如，分析由姿态检测模块550指示为声音命令的部分)，以确定用户P给予系统的实际命令。因此，这可以基于用户的自由/自然语言语音，并且可能还基于用户的移动或其他物理姿态。在一些附加实施例中，接收声音分析器560可以利用远程处理单元(例如云)的一种或多种语言处理技术。为此，控制系统500可以将表示由音频输入传感器120接收的声音的数据发送到远程位置以进行处理，并且接收表示输入信号内容的分析数据。

在一些配置中，姿态检测模块550还可以被配置为作为唤醒模块操作。在这种情况下，姿态检测模块550被配置并可操作以响应用户执行的可听动作姿态形式的通信会话发起命令。例如，这样的可听姿态可以被配置成响应于诸如“呼叫GEORGE”或任何其他联系人姓名的关键字来发起引导远程用户的双向通信会话(例如电话会话)，以在相应的存储器设施中定位GEORGE的联系人信息，并且访问输入/输出设施来发起对GEORGE或任何其他所指示的联系人的外部呼叫。还应该注意，联系人可以在同一时间出现在同一空间中，在该空间的不同或相同的连接区域中(即，无论是否在视线内)。在这种情况下，诸如“呼叫DAD”的命令可以操作用户检测模块520来定位空间内的用户，并且操作面部识别模块530来识别被指示为“DAD”的用户，例如关于呼叫请求用户，并且启动用户之间的私人双向通信会话。在两个用户之间的这种私人双向通信会话中，例如在不同房间内，第一用户的音频输出由第一音频通信系统1000的选定麦克风阵列120收集，其中第一用户位于第一系统1000的覆盖区域内。所收集的音频被电子地发送到第二音频通信系统1000，该第二音频通信系统1000操作以识别第二选定用户(例如George、Dad)的位置，并操作相应的选定换能器单元100以在第二用户的耳朵周围产生私人音频信号。同时，由第二用户生成的音频由相应的第二音频通信系统1000收集，并且类似地被发送以供第一用户听到。

如上所述，并且如图1B所示，系统1000可以部署在一个或更多个连接空间中(例如公寓APT的多个房间中，并且还可以部署在另外的一个或更多个断开/远程位置/空间中，例如车辆VCL。因此，系统1000可以被配置和可操作用于提供用户之间的无缝通信，而不管他们之间的物理距离如何。为此，远程位置(例如车辆VCL，公寓APT)可以连接到类似的控制系统(例如500和500’)，并且可以使用或连接到在控制系统(例如500和500’)之间形成外部数据/音频连接/通信的公共管理服务器700。为此，管理服务器700可以位于远离与其连接的一个或更多个控制系统的位置，并且可以包括音频会话管理器570，该音频会话管理器570管理用户的音频会话，同时还在用户在由不同控制系统控制的区域/空间之间移动时跟踪用户的位置，以便在用户进入由其控制的区域/空间时将音频会话的管理和操作无缝地转移到相应的控制系统500或500’。

为此，管理服务器700实际上连接到一个或更多个终端单元，例如200、200′，由此每个终端单元控制某一个或更多个连接的空间(例如房间)，并管理这些空间内用户的音频会话。每个这样的终端单元可以如以上参照附图1B、1C所描述的那样配置和可操作，并且通常可以包括换能器阵列单元100、TDSM单元110和麦克风单元120中的至少一个。终端单元例如200、200’和管理服务器700之间的远程连接可以利用任何已知的连接技术，包括但不限于网络连接、光纤等。

一个或更多个远程位置可以包括提供次中央处理方案的一个或更多个相应的附加音频服务器单元、提供分布式管理的多个附加音频服务器单元，或者远程连接到单个音频服务器单元以提供中央管理配置。例如，处理单元500可以连接到收集所有用户位置的外部服务器(云)。当在某个地方，处理单元500的用户检测模块520识别出所选择的用户时，它向外部服务器700报告其位置，从而将所有通信(内部或外部)转移到该特定处理单元500，以定向到所选择的用户/接收者。

此外，如上所述，控制/处理单元500通常可包括方位检测模块540，其被配置为根据来自一个或更多个TDSM 110的输入感测数据和感测体积的3D模型来确定用户头部的方位。方位检测模块540因此被配置用于确定用户的头部或耳朵中的至少一个相对于TDSM110的位置的方位，并且优选地相对于换能器单元100的方位。方位检测模块540因此可以生成至少一个用户的耳朵中的至少一个是否在与至少一个换能器单元的视线内的指示。基于所确定的用户耳朵的位置和方位，处理单元500可以利用方向模块(未具体示出)，该方向模块被配置为接收指示用户头部/耳朵的位置和方位的数据，并且根据空间的3D模型处理该数据，以确定用于从一个或更多个所选换能器单元到用户头部/耳朵的声音传输的一个或更多个优化轨迹。

通常，优化轨迹可以是从所选换能器到用户头部/耳朵的直接视线。然而，当这种直接视线不存在或存在但基于相对于其他轨迹位于相对较大距离处的换能器单元时，可以使用声信号的反射或其他技术。更具体地，当不能确定换能器单元和用户的头部/耳朵之间的直接视线时，处理单元500可以操作声音处理器设施600，以将局部声音区域引导到所选换能器单元100的视线内尽可能靠近用户耳朵的点。

应该注意的是，通常私人声音区域可以被定义为这样的区域，在该区域之外，声音强度降低了例如30dB，因此，声音在非常接近所选择的区域处仍然可以被注意到，并且使得用户能够识别声音并且可能移动到更好的收听位置。

可选地或附加地，在没有找到换能器单元100和用户头部P之间的直接视线形式的优化轨迹的情况下，声音处理设施600，更具体地说，其换能器选择器模块620可以操作以确定换能器100之一到用户头部P之间的间接路径。这种间接路径可以包括从换能器100中的一个或更多个到位于用户P附近的一个或更多个声反射对象OBJ的直接路径。为此，换能器选择器620可以接收由模式识别引擎/设施515生成的由TDSM监视的空间的3D模型，并且利用该模型来确定位于用户附近(例如，在距用户预定距离内)并且可以具有足够的声反射率的一个或更多个对象OBJ，该声反射率可以被用于向用户P间接传输声音。为此，在一些实施例中，模式识别模块515还包括对象分类器(未具体示出)，该对象分类器被配置并可操作以将识别的对象分类成它们各自的类型，并将每个对象类型与通常取决于对象的结构和材料的某个标称声反射/吸收参数(例如，反射/吸收/散射的声谱)相关联。因此，在确定从所选择的换能器单元到用户的头部/耳朵的间接路径(在此也称为反射型轨迹)时，换能器选择器620可以模拟/计算换能器100-反射对象OBJ-用户P之间的每个候选路径的声场衰减(可能计算每频率衰减曲线)。为此，换能器选择器620可以被配置和可操作为，对于每个给定的候选的换能器100和候选的反射对象OBJ，基于候选换能器100到对象OBJ以及对象OBJ到用户的距离(例如由3D模型所示出的)并基于对象OBJ的声反射参数，使用任意数量的声学模拟/估计技术来估计声场衰减。本领域普通技术人员将容易理解换能器选择器620可以实现的各种可能的技术，以估计与到用户的每个间接/反射路径相关联的声场衰减。在可能的几个候选间接路径(可能涉及不同的换能器和/或不同的对象)中，换能器选择器620选择具有最小声衰减和/或最小畸变声衰减的路径，从而选择一个或可能多于一个换能器，用于经由来自空间中的对象的反射将声信号直接传输到用户P。为此，在换能器100中的任一个到用户P之间没有足够短的直接路径的情况下，换能器选择器620利用空间(感兴趣的区域)的3D模型，并确定间接(基于反射的)声音轨迹，该轨迹包括从对象的表面(例如墙壁)朝向隐藏的用户耳朵的反射。

因为反射可能导致声强的降低和信号的更大扩展，所以包括单个反射的轨迹通常优于更多数量的反射。

在一个或更多个换能器单元100用于生成用于形成3D模型的类似声纳的感测数据的情况下，该模型还可以包括关于来自表面的声反射的某些指示。因此，对象分类器可以利用这种类似声纳的感测数据来确定空间中对象的声反射特性。

如上所述，根据本发明的音频通信系统可以利用集中式或分布式管理。这体现在图2中，图2示出了包括可连接到多个换能器单元的中央控制单元500A(充当音频通信服务器)的音频通信系统2000，这里例示了换能器100a、100b和100c，并且例示了多个TDSM单元110a和110b。换能器单元(100a、100b或100c)中的每一个可以安装在空间中的选定位置处，以使得能够传输在相应覆盖区域(如图中示例的CZa、CZb或CZc)内的选定位置处形成局部声音区域的声音信号，如下文参考图5所述。此外，TDSM单元110a或11b被配置成安装在空间内的选定位置，以提供指示各个感测体积(如图中示例的SVa和SVb)的感测数据。此外，该系统可以包括一个或更多个麦克风阵列120，该麦克风阵列120在选定位置使用，并且被配置为提供关于从使用该系统的空间收集的声学信号的数据。

应当注意，不同TDSM单元110的感测体积和换能器单元100的覆盖区域可以是分离的物理单元，或者封装在单个公共物理单元中。另外，换能器阵列单元100和TDSM单元110优选地安装成使得系统安装的总空间被换能器阵列单元的覆盖区域CZ和TDSM单元的感测体积SV覆盖。优选地，每个换能器阵列单元100与相应的TDSM单元110配对，以覆盖在换能器单元100的覆盖区域内和TDSM单元110的感测体积内的公共区域。

换能器单元100和TDSM单元110通常可连接到一个或更多个中央控制单元500a，该中央控制单元500a被配置为管理输入和输出数据以及系统的通信，如以上参考图1A中的控制单元500所描述的。控制单元500a通常被配置为充当音频通信服务器，该音频通信服务器被配置为管理使用系统的空间内的不同用户之间的私人音频通信，以及使用通信网络(例如电话通信、因特网通信等)的输入和输出通信。

控制单元500a通常至少包括映射模块510、用户检测模块520和声音处理器设施600。通常，控制单元还可包括或可连接到一个或更多个存储器设施以及输入和输出通信端口。

映射模块510如上所述被配置为从TDSM单元110接收输入感测数据，并且在一些配置中从换能器单元100接收输入感测数据，并且提供指示感测体积和覆盖区域之间的关系的映射数据。这样的映射数据还可以包括使用系统的空间的3D模型。为此，映射模块通常可以获得关于不同换能器单元100和TDSM单元110部署的空间中的位置的校准数据(例如，自动生成和/或手动输入)，并且优选地获得空间本身的示意图。

用户检测模块520可连接到三维传感器模块(TDSM单元)110，用于接收指示对象在相应感测体积SVa和SVb中的布置和移动的感测数据，如图所示。用户检测模块520还被配置和可操作用于处理输入的感测数据，以确定一个或更多个用户在相应空间中的存在和空间位置。如以上参考图1A所指示的，用户检测模块520还可以包括面部识别模块530、方位检测模块540和姿态检测模块550。通常，在本发明的一些实施例中，用户检测模块可操作以接收指示特定用户的输入命令，并处理来自多个TDSM单元110的感测数据，以确定特定用户是否位于由系统覆盖的感测体积中的任何感测体积内，通过面部或其他可识别特征来识别用户，并确定用户的空间位置，适于传输用户将听到的本地、私有、声音区域。优选地，用户检测模块能够提供指示用户的头部/耳朵中的至少一个的位置的空间坐标，以实现声音到用户耳朵的准确和直接传输。

声音处理器设施600可连接到换能器单元100，并且适于接收表示要发送到所选用户的声音的声音数据，并且操作所选换能器单元以生成和发送声音信号，从而私下向用户播放期望的声音信号。

在这方面，声音处理器设施600可以响应于指示被指定为消息目标的所选用户的输入数据和指示要向用户播放的消息的声音内容的数据。响应于这样的输入指令，声音处理器设施可以与用户检测模块520通信，用于指定用户的空间位置；从映射模块510接收关于覆盖所确定的空间位置的对应换能器的数据；并且操作所选择的换能器100以发送适当的声音信号，从而形成承载消息到指定空间位置的私有声音区域。还如上所述，用户检测模块520及其方位检测模块可以优选地提供指示用户耳朵中的至少一个的位置的数据，以提供准确和私密的音频通信。

另外，如上所述，根据一些实施例，控制系统500还可以包括接收声音分析器570，其被配置和可操作为连接到在覆盖区域/空间中使用的一个或更多个麦克风阵列120，并且用于从麦克风阵列120接收输入音频数据，以实现双向通信会话。通常，接收声音分析器570处理从所连接的地点中的一个或更多个所选麦克风阵列120接收的输入音频信号，并确定由所选用户(例如发起或参与通信会话的用户)生成的声音数据。为此，一个或更多个麦克风阵列120可以被配置为使用时间或相位延迟的指向性麦克风阵列，以基于其源的位置区分输入声学数据。附加地或可选地，声音处理器设施可利用由向用户发送声音信号的换能器单元100接收的超声波反射，并将超声波反射与由麦克风阵列120收集的声音信号相关联，以确定与特定用户相关联的声音部分。

通常应注意，一个或更多个麦克风单元120通常可连接到控制/处理单元500a(或如图1A中示例的500)以提供音频输入数据。这样的音频输入数据可以与一个或更多个语音姿态相关联和/或是双向正在进行的通信会话的一部分。为此，用户检测模块520以及声音处理设施600通常被配置和可操作，用于接收输入音频数据和用于确定一个或更多个声音姿态，和/或操作以处理数据内容以用于操作指令，和/或将输入音频数据关联为正在进行的通信会话的一部分，并将数据发送到本地或远程接收者。

如上所述，这里描述的音频通信系统利用可与一个或更多个换能器单元100、TDSM单元110以及可能的一个或更多个麦克风阵列/单元120连接的一个或更多个控制单元(500或500a)来提供特定空间(感兴趣的区域)内的私人、免提通信管理。在这方面，参考图3，其示出了被配置用于上述音频通信系统中的终端单元200。终端单元通常包括换能器阵列单元100、三维感测模块110，并且可以包括麦克风阵列单元120。另外，终端单元200通常还包括输入/输出模块130，其被配置为在终端单元和连接到终端单元的控制单元500之间提供输入和输出通信。

如上所述，换能器阵列单元100通常可以包括换能器元件105的阵列，每个换能器元件105被配置成发射超声波信号。换能器阵列单元100通常还可以包括声音生成控制器108，其被配置为确定从不同换能器元件105发射的信号之间的适当的信号结构和相位关系。换能器阵列单元100被配置并可操作用于在期望位置产生局部声音区域。为此，声音生成控制器108被配置成驱动阵列100的不同换能器元件105以在换能器元件105之间发送具有选定相位差的选定超声波信号，以形成聚焦的超声波束到根据发射信号之间的相位差确定的选定位置(空间点)。超声波信号可以由两个或更多个具有选定振幅和相位结构的选定主频率形成。选择两个或更多个频率及其振幅和相位结构，以提供在期望位置形成期望可听声波的信号的声波的空中非线性解调。

从技术上讲，由于压力波在非线性介质(例如空气、充气体积、水)中的相互作用，超声波束内的不同基频被解调。更具体地，当信号包含具有两个(或更多)不同频率f₁和f₂的声波时，空气的非线性解调信号并产生f₁和f₂的整数倍、f₁+f₂的和以及f₁和f₂之间的差的频率。使用适当的超声波频率提供了频率之间的差在可听声谱内并且包括期望的可听声信号。

因此，所发送的声信号被配置成在所选择的位置处，优选地在用户头部附近产生局部可听区域(私下听到声音的区域)。为此，基于来自用户检测模块520的数据，声音处理器设施600确定所选用户的头部的位置。然后，如上所述，利用来自映射模块510的映射数据，换能器选择器620选择所选择的换能器(可能不止一个换能器；例如图2中的100a、100b、100c或它们的组合)，以被操作以将声音直接或间接传送到用户的头部/耳朵。

然后，以上述方式操作所选择的换能器，以产生并向用户的头部/耳朵附近发送承载所需声音数据的局部声场。

现在参考图4A和4B，其中图4A是示出根据本发明的实施例执行的用于向用户P的头部发送局部(受限)声场的方法4000的流程图，以及图4B是局部(在附近或用户头部产生的受限声场)的示意图。在操作4010中，系统，通常是用户检测模块520定位在感兴趣的区域中的用户。在操作4020中，面部识别模块530识别并定位感兴趣的区域内的感兴趣用户(例如，用户P)的头部。在操作4050中，系统，通常为换能器选择器620，确定/选择合适的换能器单元100，该换能器单元100可用于直接或间接地向用户头部发送声音信号/场，以便在用户p的头部附近(例如，至少部分地包围)产生局部受限声场。在操作4060中，操作音频信号发生器630以产生操作声音编码信号，该操作声音编码信号可用于操作所选择的换能器100以在用户附近转换局部/受限声场。为此，在操作4060中，操作来自超声(US)信号发生器632的声音以确定信号的超声内容，在与用户附近的介质(例如空气)非线性交互之后，该超声内容将产生/形成用户可以听到的可听声场。同样在操作4060中，波束形成器634被操作以为所选换能器100的每个换能器元件105生成特定信号，使得根据提供给每个换能器元件105的相位延迟和不同的谱内容，具有预定形状和方向的一个或更多个超声波波束(通常为两个或更多个)将由所选换能器100向用户发射，由此这样的波束的超声波谱内容使得在与用户附近的介质(例如空气)交互之后，它们将产生将所需声音数据传送到用户耳朵的可听声场。因此，操作换能器阵列单元100以使用相位阵列波束形成技术来产生超声波频率的声波束。

如图4B所示，该技术有效地创建了声学亮区BZ，在该声学亮区BZ中，发送的信号形成用户可以听到的可听声场。声学亮区BZ通常被选择为靠近用户头部(例如，围绕用户头部的全部或部分)。亮区BZ从其侧面和背面被暗区DZ包围，在暗区DZ中，发射的信号仍然可以形成一些可听声波，但是声压级(SPL)足够低，以至于人耳听不到或几乎听不到。因此，声学亮区BZ实际上限定了气泡区域，在该气泡区域中可以听到承载期望声音数据的可听声场，并且在该气泡区域之外不能听到声场(例如，因为它在超声频带中)，并且实际上不能听到声场。实际上，在一些实施方式中，还可以生成私有区域PZ声学区域，该私有区域PZ声学区域包括在亮区和换能器阵列单元100之间的特定区域，在该特定区域处，超声波声波形成某种程度的可听声音。通常，该私有区从用户P向换能器100延伸一定距离(例如，在几厘米到几分米之间的范围内)。为此，应当理解，用户后面的区域(例如，从用户到远离换能器100的方向)是听不到可听声音的黑暗区域。

附加地或可选地，在选择用于向用户P发送音频场的要操作的换能器单元100(例如，换能器100a至100m中的任何一个)时，换能器选择器模块620验证在朝向指定用户P的音频场传播路径中没有其他用户(即，在所选择的换能器和用户P之间的区域中没有其他用户)。在这种情况下，所选择的换能器和用户之间的“暗区域”DZ中的音频电平不太重要，只要其SPL低于亮区域BZ中的SPL即可。通常，实际上该区域处的SPL显著低于亮区BZ中的SPL。应当注意，在所选择的换能器和用户P之间的区域中存在其他用户的情况下，换能器选择器模块620可以选择换能器100中的不同的一个，用于将音频场投影到用户，和/或确定用于音频场到用户的反射(间接)传播路径(例如通过OBJ的反射)。

一般来说，应该理解，当使用本发明的私人音频技术时，亮区BZ之外的SPL(即，在任何方向上围绕亮区的私有区和暗区PZ和DZ)比亮区BZ处的ZPL低至少20db。

图4B示出了围绕用户头部(例如，用户的整个头部)产生受限声场的示例。然而，在本发明的系统的一些实施方式/实施例中，更优选地产生较小的声音气泡(较小的局部可听声场)，其仅局限于围绕用户的一个或两个耳朵的区域，而不围绕用户P的整个头部。这具有很多优点。第一，从超声波产生可听声音通常能量效率不高。也就是说，大部分能量用于产生超声波场，只有小部分超声波场的能量经历非线性相互作用，这将它们转换成可听声音。因此，为了降低产生用户期望的可听声场所需的功率/能量，并因此也可能降低所使用的换能器的复杂性和成本，优选产生仅局限于用户耳朵附近/周围的较小的局部可听声场气泡。另外的优点涉及向用户提供双耳(例如立体声)声音数据的能力，当向不同的耳朵发送不同的声音内容时，这通常是可能的。然而另外，在一些情况下，与仅局限在用户耳朵周围的较小声音气泡(例如，仅几厘米到一个或两个分米)的产生相比，没有/减少失真的空间延伸受限声音气泡(例如，延伸超过几十厘米以便包围整个用户头部)的产生可能更复杂(例如，计算更密集和/或需要更多数量的换能器元件105)。因此，出于上述一个或更多个原因，在许多情况下，优选产生仅聚焦在用户耳朵附近的较小的局部声场。

然而，传统的面部识别和/或面部特征分析技术通常不能和/或缺乏准确、连续和可靠地识别和确定用户耳朵位置的能力。这可能是由于几个原因：(I)用户耳朵可能隐藏/部分隐藏在他的头发后面/下面；(ii)可能从用户的侧面观看用户，从而隐藏他的一个耳朵；和/或(iii)一些可用技术也完全避免检测用户耳朵，这可能是由于耳朵的复杂3D形状。

为此，根据一些实施例，方法4000还包括操作4030，所述操作4030被执行以确定用户P的耳朵(一个或两个耳朵)的位置，使得可以在用户P的一个或两个耳朵附近产生小于整个头部所需的受限的局部可听声场。图4C是以自解释方式示出由换能器100在用户耳朵附近产生的受限可听声音(气泡)的较小亮区BZ1和BZ2的示意图。如图所示，在这些亮区BZ1和BZ2之外，存在实际上听不到可听声音的暗区。在一些实施例中，可选地，在从亮区BZ1和BZ2延伸到换能器100的某一距离(例如，几分米)处，存在所谓的私有区PZ1和PZ2，在该私有区PZ1和PZ2处可以听到可听声音但不能清楚地听到和/或具有低强度。

图4D是更详细地示出用于实现用于确定用户P的耳朵位置的方法4000的操作4030的方法的流程图。在本发明的一些实施例中，面部识别模块530被配置和可操作用于支持/实现方法4030，以在空间上定位和跟踪用户耳朵的位置，同时可选地通过利用模式识别引擎515的模式识别能力。

在操作4032中，面部识别模块530操作以将面部/模式识别应用于从TDSM获得的感测数据(例如，应用于从TDSM获得的图像数据或3D模型，和/或合成图像和/或3D图像)。为此，可以根据本领域中已知的任何技术来实现面部识别。

在操作4034中，面部识别模块530基于面部识别来确定是否可以在图像中识别用户P的耳朵。在用户P的耳朵在图像中可识别的情况下，面部识别模块530继续到操作4036，在操作4036中，基于它们在图像中的位置来确定耳朵在TDSM覆盖的空间中的位置。更具体地，在这种情况下，基于来自TDSM的图像/模型的3D数据，面部识别模块530确定耳朵在由TDSM覆盖的感测体积中的3D位置。

可选地，在图像中可识别用户P的耳朵的情况下，面部识别模块530继续执行用于生成/更新用户P的个人头部模型的操作4038。例如，在操作4038中，面部识别模块530可以通过执行以下步骤a、b和c来基于图像确定/估计用户P的面部模型：

(a)操作面部识别方案/过程以确定用户面部中附加面部标志(例如，除耳朵之外)的位置。例如，确定鼻梁和眼睛的位置以及它们之间的距离。

(b)处理耳朵的位置和用户P中附加面部标志的位置，以获得用户面部的某些个人人体测量关系的估计。因此，确定个人头部模型，该模型包括例如用户面部的某些预定人体测量关系，该关系将用户耳朵的位置与其他面部标志相关联。

(c)基于针对用户面部的当前图像获得的用户面部的人体测量关系，生成/更新个人头部模型。在这方面，应该注意，面部识别模块可以包括或者关联于面部数据参考数据存储器(未具体示出)，该面部数据参考数据存储器被配置并可操作用于存储用户的个人头部模型。其面部模型被存储的用户可以包括注册用户(例如，在系统中已知/注册的常规用户)，并且可以永久存储面部模型数据。可选地，面部参考数据存储器还存储临时用户(未在系统中注册)的面部模型，至少只要这样的用户参与通信会话和/或只要这样的用户在由系统的TDSM覆盖的空间内(例如，当用户离开由系统覆盖的空间时和/或当他们的通信会话结束后，可以删除临时用户的面部模型)。因此，在存储个人头部模型之前，在(b)中确定面部识别模块530首先检查面部参考数据存储器中是否已经存在匹配模型。如果不是，则该模型被存储为新模型。然而，如果匹配模型已经存在，则基于从当前图像获得的数据，即基于新估计的模型，更新现有模型。为了在时间上提高所存储的用户P的个人头部模型的精度，可以在利用某些滤波方案(例如卡尔曼滤波器和/或PID滤波器)的同时执行更新，这些滤波方案允许从多个测量(例如，从用户的多个图像)获得的数据被收敛以形成更高精度的模型。

应当注意，操作4038是可选的，并且可以基于耳朵和图像中其他面部标志的位置来执行，以便完成/更新头部模型。

在操作4034发现图像中无法识别用户P的耳朵的情况下，继续到操作4040，确定面部识别模块530的面部数据参考数据存储器是否已经存储了用户P面部的个人头部模型。

在参考数据存储器具有用户P的个人头部模型的情况下，面部识别模块530继续执行操作4042，以基于从TDSM获得的用户图像中识别的用户P的个人头部模型和其他面部标志在空间中的位置，确定用户P的耳朵在空间中的位置。

否则，在参考数据存储器不包括用户P的个人头部模型的情况下，面部识别模块530继续执行操作4044，其中基于统计人体测量建模方法确定用户P的耳朵在空间中的位置。更具体地说，在这种情况下，面部识别模块530确定用户的一个或更多个面部标志在由TDSM监视的空间中的位置(例如，通过处理TDSM的图像)，并且利用用户耳朵的位置相对于其他面部标志的位置之间的一个或更多个统计上稳定的人体测量关系，以便获得用户P耳朵的位置的估计。为此，在4044中，在图像中检测到的面部标志和相应的人体测量数据本质上用在4044中用于推断耳朵的位置。

另外，在4044中，可以例如基于用户的眼睛、鼻子等的面部标志来构建或进一步更新个人头部模型。因此，随着获得并处理用户P的附加图像，头部模型被进一步更新(参见操作4046)。在这方面，即使在图像中耳朵不可见，也可以通过根据当前图像中相应面部标志的检测位置调整模型的面部标志的位置来更新模型。

在这方面，由本发明的面部识别模块530实现的统计人体测量建模方法可以包括以下一个或更多个：

(a)平均面部比例方法。这是基于以下事实的简化方法：典型/平均人脸通常遵循某些比例关系，例如在http://dhs.dearbornschools.org/wp-content/uploads/sites/625/2014/03/face-proportion-worksheet.pdf中描述的那些比例关系。为此，在一些实施例中，人脸识别模块530利用瞳孔间距离(IPD)平均为头部宽度的大约3/5的事实。因此，通过应用面部识别来确定与用户瞳孔相对应的面部标志在TDSM图像中的位置，可以估计头部尺寸以及相应的耳朵位置。

(b)人体测量建模方法-该方法基于从多个用户的测量中获得的可用人体测量统计数据。为此，在一些实施例中，面部识别模块530利用诸如在https://www.facebase.org/facial_norms/上的统计人体测量数据库来导出用户的耳朵位置和各种面部标志之间的经验多元函数关系。这种方法对人类子组中的微妙关系很敏感，可以考虑到各种参数的组合效应，例如宽鼻子、圆脸等。因此，使用用户P的图像中可见的面部标志，面部识别模块530可以确定他们的形状(例如宽鼻子)，并且相应地将用户分类到诸如亚洲人、高加索人或其他人的某个子组，然后，基于分类的子组，面部识别模块530获得用户P的相关精确人体测量关系。

因此，如操作4046所示，面部识别模块530针对从TDSM获得的包括用户P的每个图像重复方法4000。因此，通常在捕获一个或更多个图像之后，用户的耳朵被展示并且用户P的个人头部模型被构建(例如，从零开始，即使这样的模型不是预先包括在面部参考数据库中)。更具体地说，在许多情况下，耳朵对摄像机是暴露的和可见的，特别是当随着时间的推移跟踪头部运动时，当用户自然地转动头部时。因此可以直接检测耳朵位置，并且可以精确地确定特定用户P的面部标志和耳朵位置之间的个人人体测量关系。

因此，在重复分析用户面部图像期间，方法4000提供进一步更新用户的这种个人头部模型以提高其准确性。换句话说，随着时间的推移，随着更多信息和统计数据的累积，获得了用户P的更准确和稳定的个人头部模型估计。因此，在本发明的一些实施例中，方法4000被实现并用于定位和跟踪感兴趣用户P的耳朵。接着，输出声音发生器模块600在用户耳朵附近产生受限/私人可听声场，从而有效地向用户P发送可听声音。

为此，声信号形成局部可听声场，其限定限制在指定位置Z₀和声换能器系统10之间的区域附近的私有区域。该区域包括一个或更多个亮区区域，在这些亮区区域中产生清晰可闻和可理解的可听声音。在亮区BZ之外，定义了一个暗区区域，其中声音不是人耳听不到，就是其内容不能被清楚地理解。

因此，返回到图1A，应当注意，根据本发明的一些实施例，输出声音发生器模块600适于操作一个或更多个换能器单元100，以转换将由用户P的一个或两个耳朵以及可能的附加用户的耳朵接收/听到的声音信号。更具体地，用户检测模块520以上述方式检测用户P的耳朵，并且换能器选择器620确定/选择换能器100，通过该换能器100将声音发送到每个耳朵。如上所述，换能器选择器620确定声信号从所选择的换能器到用户P的相应耳朵的传播路径(直接或间接路径)，声信号应当由所选择的换能器向该耳朵发送。因此，来自超声波信号发生器632和波束形成器634的声音被配置并可操作以产生用于操作所选择的换能器阵列以对超声波信号进行换能的信号，当超声波信号在其朝向用户的传播路径中与介质(例如空气)进行非线性交互时，在用户的一个或两个P耳附近(例如周围)形成非常小的可听声音气泡。为此，每个耳朵的可听声音气泡的尺寸可以小到直径几毫米，并且通常可以在几毫米到几厘米的范围内，以便不包围用户P的整个头部。

上述技术允许系统1000分别向用户P耳朵中的每一个提供单独的可听声音。这又允许私下向用户P发送双耳声音。为此，应当理解，可以选择(由换能器选择器620)不同换能器100，并且操作不同换能器100以向用户P的不同耳朵发送声音。例如，在用户的右耳在一个换能器(例如100a)的视线中并且左耳在另一个换能器(例如100b)的视线中的情况下，可以选择不同的换能器100。因此，换能器100与用户的左耳和右耳之间的距离也可以不同(例如，这可能是由于换能器与耳朵之间的距离不同和/或由于用户的对一个或两个耳朵的反射传播路径的结果)。因此，在这样的实施例中，可能需要调整提供给用户的可听双耳声音的平衡(即适当调整用户听到的可听气泡的左右音量之间的平衡)。实际上，由于各个换能器与用户P的左右耳朵之间的传播路径不同，以相同强度向左右耳朵发送声音可能会向用户产生不平衡的左右可听声音。因此，根据一些实施例，在换能器选择器620选择将用于向用户P的耳朵发送声音的相应的一个或更多个换能器100之后，并且在它确定了它们各自到各个耳朵的直接和/或间接传播路径之后，换能器选择器620进一步确定沿着到用户p的每个耳朵的传播路径发送的声信号/场的衰减水平。因此，换能器选择器620向来自超声信号发生器632的声音提供指示可听场在传播到用户耳朵期间的衰减水平的数据。超声信号发生器632又利用接收到的衰减水平来调节超声信号的投射振幅，以便获得以下中的至少一个：

(1)在用户P的右耳和左耳听到的可听声音的音量之间保持预定的左右平衡(例如均衡平衡和/或用户调节平衡)；和

(2)在用户可以移动通过由系统1000覆盖的空间的同时，向用户提供及时连续/平滑的音量，并且在该移动期间，不同的换能器可以切换到服务于用户，同时可能与用户的耳朵相距不同的距离。

现在参考图5，图5示出了根据本发明的一些实施例的用于音频通信的系统3000，该系统用于具有与空间(感兴趣的区域ROI)的部分连接的地点。在该示例中，ROI可以是公寓、办公空间或任何其他期望的位置。为了提供ROI的覆盖，在ROI内的选定位置处采用多个终端单元(在该示例中为EU1、EU2、EU3和EU4)。终端单元通常包括换能器阵列单元100、TDSM单元110以及可能的麦克风阵列120，并且通常类似于图3所示的终端单元200或者类似于图1所示的分布式管理通信系统1000。不同的终端单元(例如EU1)可以安装在墙壁、天花板或任何其他表面上，或者是直立单元，并且被配置成覆盖相应的覆盖区域，该覆盖区域优选地在使用时与终端单元的TDSM单元的感测体积对齐或大部分对齐。

在该示例中，音频通信系统3000被配置为中央控制系统，并且包括控制单元/音频服务器5000。音频服务器5000可以包括一个或更多个上述模块，包括映射模块、用户检测模块和声音处理器设施。如上所述，控制单元5000被配置为响应于发起通信会话(单向或双向)的请求，并且管理向通信的一个或更多个用户提供私有声音区域的正在进行的通信会话。如上所述，通信会话可以是单向的(系统向用户发送所选择的声音)或双向的(系统还从用户收集声音以处理或向另一用户/系统发送相应的数据)。

在这方面，参考图6，其示意性地示出了音频通信服务器6000，该音频通信服务器6000被配置并可操作用于与感兴趣的区域内的感测模块相结合地操作多个一个或更多个换能器阵列单元，以提供私人和免提音频通信。服务器6000可用作中央控制单元(例如，图2和5中的控制单元500a或5000)，其可连接到包括换能器阵列单元、TDSM单元和麦克风单元的多个分布式终端单元；或者它可以被配置为如图1中示例的音频通信系统的整体部分，其中终端单元200和处理设施被封装在单个单元(单个盒)中。通常，音频通信服务器6000可以是独立服务器，其被配置为连接到多个终端单元200，如以上参考图3所描述的。可替换地或附加地，在一些实施例中，音频通信服务器6000可以被配置有一个或更多个集成终端单元200，同时可以视情况连接到一个或更多个附加终端单元200。

音频服务器系统6000通常包括一个或更多个处理设施6010、存储器设施720和输入/输出控制器730。然而，应当注意，服务器系统6000通常可以被配置为计算机化系统和/或可以包括这里未具体示出的附加模块/单元。还应当注意，服务器系统的单元/模块/设施的内部布置可以与这里描述的特定示例不同。

输入/输出控制器730被配置为连接到多个终端单元，每个终端单元包括换能器阵列单元、TDSM单元和麦克风阵列中的至少一个。典型地，一些终端单元可以被配置为如上图3所述，提供包括换能器阵列单元、TDSM和麦克风阵列的单个物理单元。一般来说，输入/输出控制器730能够使用一般已知的网络通信技术与一个或更多个选定的终端单元通信。

一个或更多个处理设施6010通常包括如上所述的映射模块510、用户检测模块520、声音处理模块600，此外，一个或更多个处理设施6010还可以包括外部管理服务器700、响应检测模块570和权限模块580。

通常，如上所述，映射模块510被配置为提供关于ROI内换能器单元和TDSM单元的布置的校准数据。校准数据可以预先存储或自动生成。在一些实施例中，映射模块510被配置和可操作为从多个TDSM单元接收传感数据，并且在一些实施例中从换能器阵列单元接收传感数据和关于感兴趣的区域中的系统使用的输入数据，并且处理这些数据用于生成感兴趣的区域的3D映射模型。3D模型通常包括ROI的结构、不同换能器单元和TDSM单元的覆盖区域以及指示ROI中相对静止的对象的数据。在一些配置中，3D模型还可以包括关于由不同换能器阵列单元检测到的ROI中的不同表面的声反射和吸收特性的数据。3D模型通常存储在存储器设施720中，并且可以周期性地或响应于一个或更多个预定触发而更新。

用户检测模块520被配置并可操作以接收关于要检测的用户的输入数据，以及从TDSM单元接收关于ROI内的用户的输入数据，从而定位期望的用户并确定其空间坐标。在一些实施例中，用户检测模块520被配置为确定与用户耳朵的位置相关联的空间坐标。附加地或可选地，用户检测模块520被配置和可操作为响应ROI中的一个或更多个用户提供的命令，并生成对声音处理设施600的相应指示。一般来说，如上所述，用户检测模块可以包括一个或更多个子模块，或者与一个或更多个子模块相关联，所述子模块包括面部识别模块530、方位检测模块540和姿态检测模块550。

如上所述，面部识别模块530被配置并可操作用于接收指示一个或更多个用户，优选地是用户面部的输入感测数据，以及可以在存储器设施中预先分类的关于用户身份的数据，并且用于处理感测数据，从而确定一个或更多个用户的身份。为此，面部识别模块530可以利用一种或多种面部识别技术以及关于注册用户的一个或更多个身份的预存数据。

方位检测模块540被配置为确定检测到的用户头部的方位和用户耳朵的位置。为此，方位检测模块被配置和可操作用于接收输入感测数据，并用于使用本领域公知的一种或多种图像处理技术处理如上所述的输入数据。

姿态检测模块550被配置和可操作为对来自ROI中的一个或更多个用户的一个或更多个移动和/或声音姿态进行响应，并且用于生成包括关于发出请求的用户及其位置的数据和所请求的命令的适当通知。一般而言，如上所述，姿态检测模块550被配置为对多个预定的声音或运动相关姿态进行响应，这些姿态被分配有与将由系统执行的一个或更多个动作相关联的对应命令。例如，用户可以请求“呼叫家庭”，请求系统将操作以确定用户的身份，搜索用户的家庭电话号码，并利用外部管理服务器700与电话连接通信以发起呼叫。附加命令可以与不同外部系统的操作控制相关联，例如与识别用户所在区域内的电视单元并将其打开相关联的“打开电视”命令，或者与其他用户的通信相关联。在一些实施例中，预定命令可以包括与系统管理相关联的操作命令，诸如请求增加音量、访问数据等。

声音处理设施600被配置和可操作成可连接到一个或更多个换能器单元，并且操作一个或更多个所选择的换能器单元以产生所选择的声音信号并且向一个或更多个所选择的用户提供期望的私人声音。通常，声音处理设施被配置为接收或生成关于要发送到一个或更多个所选用户的音频信号的数据，并且从用户检测模块520接收关于用户位置的数据。声音处理设施还可以从映射模块510(或从存储器设施720)接收关于ROI的3D模型的数据，并确定适于向所选用户发送期望声音信号的一个或更多个所选换能器单元。

声音处理设施600还可以被配置和可操作用于分析输入和/或输出音频数据。例如，声音处理设施600可以被配置为从姿态检测模块接收指示音频/语音用户指令的数据，从而利用一种或多种语音(自由语音)识别技术分析输入数据并生成相应指令。

在一些配置中，声音处理设施600还可以被配置为使用一种或多种云处理技术。声音处理设施600因此可以被配置为通过外部管理服务器700向远程处理设施发送指示要处理的音频信号的数据。数据由远程服务器处理和分析，并且相应的分析数据被发送回音频通信服务器6000及其声音处理设施600。

通常，声音处理设施600可以被配置和可操作用于处理输入数据并生成相应的输出数据，以及执行以下处理类型中的一种或多种：将输入数据从一种语言翻译成一种或多种其他语言，分析输入数据以确定其中的一个或更多个技术指令，分析输入数据以提供过滤的音频数据(例如滤出噪声)，处理输入数据以改变其一个或更多个属性(例如，增加/减少音量、速度等)和其它处理技术。处理可以由声音处理设施600执行和/或如上所述在远程处理服务器处部分执行。

如上所述，声音处理设施600可以确定所选择的换能器阵列单元和用户耳朵之间的一个或更多个可能的视线。通常，声音处理单元可以被配置为优选沿着无阻挡视线传输声音信号；然而，在一些实施例中，声音处理设施可以利用反射型视线，其中声音信号在到达用户位置之前从一个或更多个表面经历一次或多次反射。同样如上所述，声音处理设施600通常被配置为操作一个或更多个所选换能器阵列单元，用于在所选位置处产生私人声音区域，如上所述和在专利公开WO2014076707中，并且在转让给本申请受让人的WO2014147625中。

另外，根据一些实施例，声音处理设施600可以包括音频输入模块610，或者与音频输入模块610相关联。音频输入模块可连接到ROI中采用的一个或更多个麦克风阵列单元，并接收与用户产生的声音相关联的声学输入数据。作为双向通信会话的一部分，这样的声学输入数据可以与语音命令相关的姿态以及用户响应相关联。音频输入模块610可经配置以接收与由一个或一个以上麦克风阵列单元收集的声学可听信号相关联的输入数据。通常，麦克风阵列单元还可以被配置为提供与所收集的声学可听信号的源的位置相关联的数据。这可以通过适当选择麦克风阵列单元来提供，例如配置为麦克风元件或指向性麦克风元件的相位阵列的单元。另外，在一些配置中，可以根据由一个或更多个选择的换能器阵列收集的超声波信号来处理收集的声学可听信号，以确定来自用户的超声波反射和来自用户的可听输入之间的相关性，并滤除来自用户外围的噪声。更具体地，根据来自相应TDSM单元的感测数据，基于由用户检测模块520提供的用户位置，操作换能器阵列以将单个超声波聚焦在用户面部上。换能器单元还可以收集关于从接收方(用户)面部反射的超声波信号的反射的数据。由于多普勒效应，用户面部的运动，例如嘴部运动，对反射波产生小的变化。这些变化通常与用户产生的音频信号相关，并且可以与输入音频信号结合处理，以滤除周围噪声并提高信噪比。

如上所述，音频通信服务器6000及其处理设施6010还可以包括响应检测模块570和/或权限模块580。响应检测模块570通常被配置和可操作以确定指示用户对发送到其的输入信号的反应的数据。更具体地，响应检测模块570可以被配置和可操作为从声音处理设施600接收关于发送给用户的一个或更多个信号的数据，以及从终端单元的用户检测模块520和/或一个或更多个对应的TDSM接收用户的感测数据，并且关联输入数据以确定用户对信号的响应。通常，用户的响应可以与运动模式、面部表情的变化、产生声音等相关联。

这样的响应数据可以被收集用于进一步处理和分析，或者被发送到外部系统，例如最初生成发送给用户的信号的系统，作为接收的指示。这样的响应数据可以用于例如父母识别他们的孩子是否已经响应发送给他们的消息，用于广告分析和其他用途。

用户权限模块580被配置用于接收关于一个或更多个用户向系统生成一个或更多个命令的数据，以及关于所请求的命令的数据，并用于确定请求用户具有发起命令的权限。如上所述，音频通信系统可以向一个或更多个不同的用户提供私人声音。此外，用户之间的声音和移动姿态以及访问和管理权限可能会有所不同。为此，权限模块580可以将关于用户身份的数据与所请求的动作相关联，并且基于预先存储的权限映射来确定用户是否有权发起所请求的动作，或者根据请求用户的身份来具体标识所请求的动作。应当注意，可以根据与用户相关联的输入感测数据或者根据用户提供的声音或姿态类型密码来确定用户身份。为此，权限模块580可以被配置和可操作用于接收指示由用户提供的一个或更多个关键词的输入数据，并确定是否充分确定了用户身份。另外，权限模块580可以被配置和可操作用于根据情况允许或阻止对由外部管理服务器700执行的外部动作的访问。

处理设施还可以包括外部管理服务器700，其被配置为根据情况减轻音频通信服务器6000和外部系统之间的通信。例如，外部管理服务器700可以连接到通信网络、电话线、诸如家用电器、远程(云)服务器等不同电子系统。外部管理服务器700被配置成发起诸如向特定用户提供通知(例如洗衣机完成周期)、管理来自外部源的输入呼叫以及将来自系统或ROI中的用户的数据传输到任何期望的连接的外部系统的动作。

在这方面，参考图7、8、9和10，图7、8、9和10是根据本发明的音频通信系统的操作方法的示例性动作。在图7中，系统操作以向所选用户发送某些信号；在图8中，系统向移动用户提供无缝通信会话；在图9中，系统对用户发起的动作的响应；在图10中，系统确定用户对输入信号的响应。

如图7所示，系统从不同的用户、处理设施(例如管理数据信号)或通过外部管理服务器从外部系统接收向用户7010发送消息的请求。请求通常包括关于要发送的一个或更多个消息的数据和关于消息的用户/接收者的数据。接收到的请求通常可以被预处理以确定一个或更多个请求属性，例如紧急性、请求类型等。此外，预处理可以包括验证是否存在关于相应请求的未完成的用户指令(例如，用户希望仅在特定时间接收请求，用户希望成批接收请求，或者在特定时间段内的多个请求等)。一旦允许将请求发送给用户，通信系统操作用户检测模块以定位ROI 7020内的用户，并在用户7030之间识别所选择的接收者。如果未找到所请求的用户，则可向请求信号传输的源发送响应通知，系统可选择默认用户或利用到一个或更多个扬声器的连接，并向所有用户播放一般可听消息。如果用户被定位，则用户检测模块识别用户7040的空间坐标，并且声音处理设施可以确定用于发送信号7050的优选换能器阵列单元。声音处理设施然后可以将指示信号和用户空间位置的数据发送到所选择的换能器阵列单元，用于将信号发送到用户7060。应当注意，这样的信号可以发起诸如电话会话之类的双向通信会话。或者，这样的信号可以仅仅是信息性的，并且仅仅指示用户对确定用户是否实际接收到信号的反应。

图8例示了根据本发明的用于向用户提供无缝和免提通信的技术。如图所示，当用户正在进行通信会话8010(例如，与第三方的电话对话，或听音乐)时，系统标记用户是活动的，并跟踪用户的位置8020。此外，该系统收集由用户产生的音频信号以发送到第三方，并因此保持通信。用户检测模块跟踪用户8020的位置数据，并且如果用户接近所使用的换能器单元8030的覆盖区域的边缘，则生成对声音处理设施的指示。当用户接近覆盖区域的边缘时，声音处理设施确定并识别具有适于向用户位置提供通信的覆盖区域的附加换能器阵列单元8040，并确定指示换能器阵列单元对用户的特定位置和方位的适合性的测量数据。当附加换能器阵列优于当前使用的换能器阵列时，声音处理设施将通信会话转移到新选择的换能器阵列8050，以继续正在进行的通信会话8060。

另外，图9例示了响应于用户发起的动作的系统操作。在这方面，用户检测模块通常主动地从ROI接收感测数据，以处理感测数据并确定用户的位置。姿态检测模块接收关于用户移动的数据或由此产生的可听信号，并确定用户是否执行了可识别的姿态9010。当识别姿态时，面部检测模块可操作以确定用户的身份9020，并且姿态模块确定与姿态9030相关联的对应命令。通常，将用户的身份与所请求动作的用户权限进行比较9040。如果用户没有权限，系统可以向他提供适当的通知。可以通过经由外部管理服务器向远程位置发送所请求的数据，或者发起通信会话或指定的任何其他动作来提供所请求的动作9050。如上所述，动作可以是在ROI(内部私人通信会话)或远程(例如，电话呼叫类型通信会话，或与连接到相同或相似音频通信系统的远程ROI通信)内的与特定其他用户通信的请求。附加地或可选地，这种动作可以与第三方系统的操作相关联，例如打开热水器、打开前门、向上或向下调节音频系统的音量等。

图10例示了用于确定关于用户对向其发送的输入消息的响应的数据的操作技术。当声学消息被发送到用户时10010，用户检测模块和响应检测模块可以被操作以接收指示用户的输入感测数据10020。接收到的感测数据被关于发送信号的数据相关联地处理10030，以识别用户感测数据和发送到用户的信号之间的相关性。这种相关性可以与发送信号的内容相关联，但是相关性也可以是时间相关性。如果响应检测模块确定相关性高于相应的预定阈值，则确定用户响应10040，并生成适当的指示10050。该指示可以作为读取收据被发送到信号源，和/或被存储用于本地或远程的进一步处理。

因此，本发明的技术提供了直接发送到所选用户耳朵的单向和双向音频通信，同时仅允许所选用户清楚地听到信号。然而，应当注意，这里描述的本发明的系统和技术也可以被配置成选择性地利用一个或更多个可听扬声器来提供ROI内的公共声音。这可以在ROI中没有找到特定期望用户时执行，或者为了向多个用户提供清晰的信号。此外，该技术及其权限模块还可用于请求用户证明其身份，例如请求密码或安全问题以确定用户身份。

此外，如上所述的本发明的技术和系统可操作用于基于上述构建块提供各种类型的通信会话。这样的通信会话可以在用户和系统控制(例如声音处理设施)之间、在ROI内通过系统的两个或更多个用户的通信(位于不同的覆盖区域(例如房间))之间、或者在一个或更多个用户和外部第三方之间。这样的外部第三方可以是利用类似或不同音频通信系统(例如电话会话)的远程用户，或者能够接收和/或发送适当命令的一个或更多个其他系统。

本领域技术人员将容易理解，在不背离由所附权利要求书限定的范围的情况下，可以将各种修改和改变应用于上文所述的本发明的实施例。

Claims

1.一种用于音频通信的系统，该系统包括：

(a)一个或更多个换能器单元，其位于多个地点，用于覆盖各自覆盖区域，其中所述换能器单元能够发射一个或更多个频率的超声波信号，用于在其各自覆盖区域内的选定空间位置形成局部可听声场；

(b)一个或更多个三维传感器模块TDSM，其位于所述地点，其中每个三维传感器模块被配置和可操作为提供关于所述地点内的相应感测体积中的元件的三维布置的感测数据；

(c)映射模块，其提供分别表示所述TDSM的感测体积和换能器单元的覆盖区域之间的关系的映射数据；

(d)用户检测模块，其可连接到所述一个或更多个三维传感器模块，用于从所述三维传感器模块接收所述感测数据，并被配置和可操作为处理所述感测数据以确定至少一个用户在TDSM的感测体积内的空间位置；以及

(e)输出声音发生器，其可连接到所述一个或更多个换能器单元，并适于接收指示要被发送到所述至少一个用户的声音的声音数据，并被配置和可操作用于操作至少一个选择的换能器单元，用于引导声束以产生承载所述声音数据的靠近所述至少一个用户的至少一只耳朵的局部声场，其中所述输出声音发生器根据关于所述至少一个用户的空间位置的所述数据利用所述映射数据来确定所述至少一个选择的换能器单元，所述选择的换能器单元具有用于将所述声束引导到所述用户的耳朵附近的优化轨迹，使得所述选择的换能器单元的各自覆盖区域包括所述至少一个用户的所述位置；

其中确定所述选择的换能器单元和用于引导所述声束以产生所述局部声场的所述优化轨迹包括：

对所述映射数据进行视线处理，以确定所述换能器单元中的在其覆盖区域内对所述用户的耳朵的所述位置具有无阻挡的视线的一个换能器单元，并将所述一个换能器单元设置为所述选择的换能器单元，并沿着所述无阻挡的视线设置所述优化轨迹；并且在所述换能器单元和所述用户的耳朵的所述位置之间的视线在所述换能器单元的相应覆盖区域内有阻挡的情况下，执行以下操作：

-处理所述感测数据以识别所述用户的耳朵附近的声反射元件；

-确定所述选择的换能器单元，使得来自所述选择的换能器单元的所述优化轨迹沿着来自所述选择的换能器单元和所述声反射元件的视线传递，并由此沿着视线到达所述用户的耳朵。

2.如权利要求1所述的系统，其中，所述换能器单元能够发射一个或更多个频率的超声波信号，用于在其各自覆盖区域内的选定空间位置处形成局部聚焦的解调可听声场。

3.如权利要求1所述的系统，包括接收声音分析器，所述接收声音分析器被配置为处理从所述地点接收的输入音频信号，以确定指示所述地点中接收的输入音频信号的来源位置的数据。

4.如权利要求3所述的系统，其中所述接收声音分析器可连接到一个或更多个麦克风单元，所述麦克风单元可操作用于从所述地点接收音频输入。

5.如权利要求3所述的系统，其中，所述用户检测模块还包括姿态检测模块，所述姿态检测模块被配置和可操作为处理输入数据，所述输入数据包括来自所述一个或更多个TDSM的输入数据和从所述地点接收的所述输入音频信号中的至少一个，以确定所述输入数据是否指示用于触发所述系统的一个或更多个特定操作的一个或更多个用户命令，所述输出声音发生器被配置为将所述输入数据的来源位置确定为与所述系统的所述一个或更多个特定操作相关联的所述用户的初始位置。

6.如权利要求5所述的系统，其中，所述一个或更多个用户命令包括发起音频通信会话的请求。

7.如权利要求6所述的系统，其中，所述输入数据包括由所述接收声音分析器接收的音频输入数据和由所述TDSM接收的运动模式输入数据中的至少一个。

8.如权利要求1至7中任一项所述的系统，其中，所述用户检测模块包括方位检测模块，所述方位检测模块适于处理所述感测数据以确定所述用户的头部的位置。

9.如权利要求8所述的系统，包括面部识别模块，其适于处理所述感测数据以确定所述用户的至少一只耳朵的位置，并且其中所述输出声音发生器被配置和可操作用于确定来自所述至少一个选择的换能器单元的声场传播路径，用于产生所述局部声场，使得其包括靠近所述用户的所述至少一只耳朵的受限的声音气泡。

10.如权利要求9所述的系统，其中，所述面部识别模块被配置和可操作为基于所述用户的头部的人体测量模型来确定所述用户的所述至少一只耳朵的所述位置。

11.如权利要求10所述的系统，其中，所述面部识别模块被配置和可操作为基于从所述TDSM接收的所述感测数据来进行构造和更新所述用户的头部的所述人体测量模型中的至少一个操作。

12.如权利要求9所述的系统，其中，所述面部识别模块适于处理所述感测数据以确定所述用户的两只耳朵的位置，并且其中，所述输出声音发生器被配置和可操作用于确定从所述至少一个选择的换能器单元分别朝向所述用户的所述两只耳朵的两个声场传播路径，并且产生所述局部声场，使得其包括分别位于靠近所述用户的所述两只耳朵的两个受限的声音气泡，从而向所述用户提供私人双耳可听声音。

13.如权利要求12所述的系统，其中，所述输出声音发生器被配置和可操作用于确定到所述用户的所述两只耳朵的声场传播沿着所述两个传播路径的各自的相对衰减，并且基于所述相对衰减来均衡指向所述用户的所述两只耳朵的各自声场的音量，从而向所述用户提供平衡的双耳可听声音。

14.如权利要求1至7中任一项所述的系统，其中，所述用户检测模块还被配置和可操作为处理所接收的感测数据，并根据所接收的感测数据区分一个或更多个用户的身份，所述用户检测模块由此提供指示所述三维传感器模块的一个或更多个感测体积内的一个或更多个用户的空间位置和身份的数据。

15.如权利要求1至7中任一项所述的系统，包括面部识别模块；所述面部识别模块适于从所述用户检测模块接收关于用户位置的数据，并且适于从所述三维传感器模块接收与所述用户位置相关联的所述感测数据的至少一部分，并且被配置和可操作用于应用面部识别来确定指示所述用户的身份的数据。

16.如权利要求15所述的系统，包括权限模块，所述权限模块包括所识别的用户的数据库和所述用户具有使用许可的动作的列表，所述权限模块从所述面部识别模块接收指示所述用户的身份的所述数据和关于所述用户请求的动作的数据，并且提供指示所述用户是否具有执行所述请求的动作的许可的处理单元数据。

17.如权利要求1所述的系统，其中，确定所述优化轨迹，使得其满足以下至少一个：

(a)其沿着所述选择的换能器单元和所述用户的耳朵之间的无阻挡视线传递，同时不超过距所述用户的某一第一预定距离；

(b)其沿着第一视线从所述换能器单元和所述地点中的声反射元件传递，以及从所述声反射元件传递到所述用户的耳朵，同时不超过第二预定距离。

18.如权利要求1所述的系统，其被配置和可操作用于通过利用两个或更多个换能器单元获得到所述用户的两只耳朵的优化轨迹，使得至少一个换能器单元具有到所述用户的耳朵之一的无阻挡视线，且至少另一个换能器单元具有到所述用户的第二耳朵的无阻挡视线。

19.如权利要求1所述的系统，其中，所述输出声音发生器被配置和可操作为监视所述用户的耳朵或头部的所述位置，以跟踪所述位置的变化，并且其中，在检测到所述位置的变化时，执行所述视线处理以更新所述选择的换能器单元，从而提供与用户的连续音频通信，同时允许该用户在所述地点内移动。

20.如权利要求19所述的系统，其中，所述输出声音发生器适于处理所述感测数据，以确定沿着传播路径在所述选择的换能器单元和所述用户的耳朵之间的距离，并根据所述距离调节由所述选择的换能器单元产生的所述局部声场的强度。

21.如权利要求20所述的系统，其中在所述选择的换能器单元和所述用户的耳朵之间的轨迹中存在声反射元件的情况下，所述输出声音发生器适于调节所述强度以补偿所述声反射元件的估计的声吸收特性。

22.如权利要求21所述的系统，其中，在所述传播路径中存在声反射元件的情况下，所述输出声音发生器适于根据所述估计的声吸收特性均衡所述超声波信号的谱内容强度，所述估计的声吸收特性指示所述声反射元件的谱声吸收分布。

23.如权利要求21所述的系统，其中，所述输出声音发生器适于处理所述感测数据，以确定所述声反射元件的类型，并基于所述类型估计所述声吸收特性。

24.如权利要求1-7中任一项所述的系统，其中，所述输出声音发生器被配置为根据存储在相应的存储设施中并可由所述输出声音发生器访问的关于表面类型的数据来确定声反射表面的类型。

25.如权利要求1至7中任一项所述的系统，包括音频会话管理器，所述音频会话管理器可连接到所述输出声音发生器，并被配置和可操作用于操作所述输出声音发生器以向所述用户提供通信服务。

26.如权利要求25所述的系统，其被配置和可操作为提供以下通信方案中的一个或更多个：

(a)管理并进行远程音频对话，所述音频会话管理器被配置和可操作用于通过通信网络与远程音频源通信，从而实现双向通信；

(b)处理输入音频数据，并向一个或更多个选择的用户生成相应的输出音频数据；

(c)响应于通过所述通信网络从一个或更多个相关系统接收的一个或更多个输入警报，提供声音指示；

(d)响应于来自用户的一个或更多个声音命令，生成相应的命令，并通过所述通信网络将所述相应的命令发送到所选择的一个或更多个相关系统，从而实现对由一个或更多个相关系统执行一个或更多个任务的声音控制。

27.如权利要求25所述的系统，包括姿态检测模块，其被配置和可操作用于从所述用户检测模块接收关于用户位置的数据，并且可连接到所述TDSM，用于从其接收与所述用户位置相关联的所述感测数据的至少一部分；所述姿态检测适于对所述感测数据的所述至少一部分应用姿态识别处理，以识别所述用户是否执行了一个或更多个预定姿态，在检测到所述一个或更多个预定姿态时，所述姿态检测模块生成并发送用于操作所述音频会话管理器以执行一个或更多个相应动作的相应命令。

28.如权利要求25所述的系统，包括用户响应检测模块，其适于从所述音频会话管理器接收指示感兴趣的可听内容到所述用户的耳朵的传输的触发信号；并且其中所述用户响应检测模块适于从所述用户检测模块接收关于所述用户位置的数据，并且适于从所述三维传感器模块接收与所述用户位置相关联的所述感测数据的至少一部分，并且被配置和可操作用于响应于所述触发信号来处理所述感测数据的所述至少一部分，以确定指示所述用户对所述感兴趣的可听内容的响应的响应数据。

29.如权利要求28所述的系统，其中，所述响应数据被记录在所述响应检测模块的存储设施中或上载到服务器系统。

30.如权利要求28所述的系统，其与分析服务器相关联，所述分析服务器被配置和可操作为从所述系统接收与所述感兴趣的内容相关联的所述响应数据，并处理响应于所述感兴趣的内容从多个用户提供的所述响应数据，以确定用户对所述感兴趣的内容的反应的参数。

31.如权利要求28所述的系统，其中所述感兴趣的内容包括商业广告，并且其中通信系统与提供所述感兴趣的内容的广告服务器相关联。

32.一种用于管理个人语音通信网络的服务器系统；该服务器系统包括：音频会话管理器，其被配置为连接到通信网络和一个或更多个本地音频系统；映射模块，其被配置和可操作用于从所述一个或更多个本地音频系统接收关于3d模型的数据，并生成由所述一个或更多个本地音频系统覆盖的组合感兴趣区域ROI的组合3d映射；用户定位模块，其被配置和可操作用于从所述一个或更多个本地音频系统接收关于一个或更多个用户的位置的数据，并且用于确定特定用户在组合ROI中的位置以及包括一个或更多个换能器单元，并且能够引导声束以在所述特定用户的至少一只耳朵附近产生局部声场的相应的本地音频系统；并且其中所述服务器系统被配置和可操作为对指示要被发送到所述特定用户的一个或更多个消息的数据进行响应，从所述用户定位模块接收关于所述特定用户的位置和关于用于与所述特定用户通信的合适的本地音频系统的数据，所述合适的本地音频系统包括所选择的换能器单元，所述选择的换能器单元具有用于通过引导所述声束到所述用户的耳朵的所述附近，以产生承载指示所述一个或更多个消息的声音数据的局部声场的优化轨迹，并且将关于所述一个或更多个消息的数据发送到所述合适的本地音频系统，用于向所述用户提供所述一个或更多个消息的语音指示；

其中确定所述选择的换能器单元和用于引导所述声束以产生所述局部声场的优化轨迹包括：

对所述映射进行视线处理，以确定所述换能器单元中的在其覆盖区域内对用户耳朵的所述位置具有无阻挡的视线的一个换能器单元，并将所述一个换能器单元设置为所选择的换能器单元，并沿着所述无阻挡的视线设置所述优化轨迹；并且在所述换能器单元和所述用户的耳朵的所述位置之间的视线在所述换能器单元的相应覆盖区域内有阻挡的情况下，执行以下操作：

-识别在所述用户的耳朵附近的声反射元件；

-确定所述选择的换能器单元，使得来自所述选择的换能器单元的所述优化轨迹沿着来自所述选择的换能器单元和所述声反射元件的视线传递，并由此沿着视线到达用户的耳朵。

33.如权利要求32所述的服务器系统，其中，所述用户定位模块被配置成周期性地定位所述选择的用户和相应的所述本地音频系统，并且对所述用户的位置或方向的变化进行响应，从而改变与本地音频系统的关联，以提供与所述用户的无缝和连续的语音通信。

34.一种在音频通信中使用的方法，该方法包括：

提供关于要发送给选择的用户的一个或更多个信号的数据；

提供与感兴趣区域相关联的感测数据；

处理所述感测数据以确定所述感兴趣区域内所述选择的用户的存在和位置；

从一个或更多个换能器单元中选择至少一个合适的换能器单元，所述至少一个合适的换能器单元位于所述感兴趣区域内，且具有用于将承载所述一个或更多个信号的声束引导到所述用户的耳朵附近的优化轨迹；并且

操作所选择的换能器单元以将所述声束引导到所述用户至少一个耳朵的位置的附近，从而向所述选择的用户提供承载所述一个或更多个信号的局部可听声场；

其中确定所述选择的换能器单元和用于引导所述声束以产生局部声场包括：

进行视线处理，以确定所述换能器单元中的在其覆盖区域内对用户耳朵的所述位置具有无阻挡的视线的一个换能器单元，并将所述一个换能器单元设置为所选择的换能器单元，并沿着所述无阻挡的视线设置所述优化轨迹；并且在所述换能器单元和所述用户的耳朵的所述位置之间的视线在所述换能器单元的相应覆盖区域内有阻挡的情况下，执行以下操作:

-处理所述感测数据以识别所述用户耳朵附近的声反射元件；

35.如权利要求34所述的方法，包括：

向所述选择的用户发送预定声音信号，作为至少一个所述一个或更多个信号，并且

收集指示用户对所述预定声音信号的响应的感测数据，从而生成指示所述用户对所述预定声音信号的反应的数据；

其中所述发送包括在两个或更多预定频率范围中生成超声波场，所述预定频率范围被配置为在根据所述用户的物理位置确定的距离处交互，从而形成提供所述预定声音信号的所述局部声场。