CN112312297B

CN112312297B - 音频带宽减小

Info

Publication number: CN112312297B
Application number: CN202010744942.6A
Authority: CN
Inventors: C·T·尤班克; L·加布尔; M·S·康诺利; R·D·西尔维法斯特; S·A·拉姆普拉沙德; C·阿文达诺; M·E·马科斯
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-07-30
Filing date: 2020-07-29
Publication date: 2022-08-02
Anticipated expiration: 2040-07-29
Also published as: US11721355B2; US11295754B2; US20210035597A1; US20220180889A1; CN112312297A

Abstract

本公开涉及音频带宽减小。第一设备从阵列获得若干音频信号并且处理所述音频信号以产生语音信号和一个或多个环境信号。所述第一设备处理所述环境信号以产生声音对象声音描述符，所述声音对象声音描述符具有描述声学环境内的声音对象的元数据。所述第一设备通过通信数据链路将所述语音信号和所述描述符传输到第二电子设备，所述第二电子设备被配置为使用与所述语音信号混合的所述描述符空间地再现所述声音对象，以产生若干混合信号来驱动若干扬声器。

Description

音频带宽减小

技术领域

本公开的一个方面涉及一种电子设备，该电子设备执行带宽减小操作以减少要通过计算机网络传输到另一电子设备的数据量。

背景技术

头戴受话器是包括一对扬声器的音频设备，当头戴受话器配戴在用户头上或围绕用户头部配戴时，每个扬声器被放置在用户的耳朵上。类似于头戴受话器，耳机(或入耳式头戴受话器)是两个分开的音频设备，每个音频设备具有插入到用户耳朵中的扬声器。头戴受话器和耳机通常有线连接到单独的回放设备诸如数字音频播放器，该回放设备以音频信号驱动设备的每个扬声器以便生成声音(例如，音乐)。头戴受话器和耳机提供用户可用以单独收听音频内容而不必将音频内容广播给附近其他人的一种方便的方法。

发明内容

本公开的一个方面是一种系统，该系统执行带宽减小操作以减少在参与通信会话(例如，IP语音(VoIP)电话呼叫)的两个电子设备(例如，音频源设备和音频接收器设备)之间传输的音频数据量。例如，两个设备可经由无线通信数据链路(例如，通过无线网络诸如局域网(LAN))参与会话，该无线通信数据链路的带宽或可用吞吐量可根据若干因素而变化。例如，带宽可根据通过无线网络进行无线通信的其他设备的数量以及源设备与无线接入点(或无线路由器)之间的距离而变化。本公开提供了一种系统，该系统用于通过减少在两个设备之间交换的音频数据量来减少进行通信会话所需的带宽量。系统包括音频源设备和音频接收器设备，两者都可以是通过计算机网络(例如，互联网)进行通信的头戴式设备(HMD)。源设备获得由设备的麦克风阵列捕获的若干麦克风音频信号。源设备处理音频信号以将语音信号(例如，包含源设备的用户的语音)与包含来自源设备所在的声学环境的环境声音的一个或多个环境信号分离。源设备处理音频信号以产生声音对象声音描述符，该声音对象声音描述符具有描述声学环境内的一个或多个声音对象的元数据，诸如狗吠或在空中飞行的直升机。元数据可包括索引标识符，该索引标识符将声音对象唯一地识别为源设备和/或接收器设备先前已知的声音库内的成员或条目。元数据还可包括指示声音对象的位置的位置数据(例如，狗吠在源设备的左侧)和指示声音对象在麦克风阵列处的声级的响度数据。源设备将声音描述符(其相对于可与声音对象相关联的音频数据具有减小的文件大小)和语音信号传输到音频接收器设备。接收器设备使用声音描述符空间地再现声音对象，并且将再现的声音对象与语音信号混合以产生若干混合信号来驱动若干扬声器。

在一个方面，系统使用声音描述符的元数据来产生声音对象的再现，该再现包括音频信号和指示声音对象的虚拟声源的位置的位置数据。例如，接收器设备可使用索引标识符来对具有预定义声音对象的一个或多个条目且每个条目具有对应的唯一标识符的声音库执行表查找，使用唯一标识符来识别具有匹配的唯一标识符的预定义声音对象。在识别预定义声音对象时，接收器设备从声音库中检索包括存储在声音库内的音频信号的声音对象。接收器设备根据位置数据空间地渲染音频信号以产生与语音信号混合的若干双耳音频信号来驱动若干扬声器。

在一个方面，系统可产生描述其他类型的声音的其他声音描述符。例如，系统可产生声音床声音描述符，该声音床声音描述符描述环境或扩散背景噪声或作为环境的声音床的一部分的声音。又如，系统可产生音素声音描述符，该音素声音描述符包括可以是语音信号的文本表示的音素数据。这些声音描述符中的每一者，包括声音对象声音描述符，可具有比包含类似声音的对应音频信号减小的文件大小。因此，系统可基于带宽或可用吞吐量传输任何数量的声音描述符的组合代替实际音频信号。例如，如果带宽或可用吞吐量有限，则声源设备可传输音素声音描述符而不是语音信号(其原本将需要更多带宽)。音频接收器设备可基于音素声音描述符来合成语音信号代替由音频源设备产生的语音信号，以用于通过至少一个扬声器输出。

在一个方面，当现有声音库不包括对应于所识别的声音对象的条目时，系统可更新或构建声音库。例如，在识别声学环境内的声音对象时，音频源设备可对现有声音库执行表查找，以确定库是否包括匹配的预定义声音对象。如果不存在匹配的预定义声音对象，则源设备可在声音库内创建条目，从而将与所识别的声音对象相关联的元数据分配给条目。例如，源设备可创建声音对象的唯一标识符。源设备可将包括声音对象(例如，与声音对象相关联的音频数据和/或元数据)的条目传输到音频接收器设备以存储在接收器设备的本地库中。因此，下次由源设备识别声音对象时，源设备可传输包括唯一索引标识符的声音对象声音描述符，而不是传输声音对象。继而，接收器设备可检索对应的声音对象以用于通过两个或更多个扬声器进行空间渲染，如本文所述。

以上概述不包括本公开的所有方面的详尽列表。可预期的是，本发明包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在随该专利申请提交的权利要求中特别指出的各种方面的所有合适的组合来实施的所有系统和方法。此类组合具有未在上面的概述中具体叙述的特定优点。

附图说明

本公开的各个方面是通过举例而非限制的方式在附图的图中示出，在附图中类似的附图标号指示类似的元素。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，可使用给定附图示出本公开的不止一个方面的特征部，并且对于给定方面，可能并非需要该附图中的所有元件。

图1示出了根据本公开一个方面的音频源设备的框图。

图2示出了根据本公开的一个方面的由声音对象和声音床标识符执行以识别声音对象的操作的框图。

图3示出了根据本公开的一个方面的由音频源设备产生的声音对象声音描述符。

图4示出了根据本公开一个方面的音频接收器设备的框图。

图5是减小传输音频数据所需的带宽的过程的一个方面的流程图。

图6是根据本公开的一个方面的用于音频源设备传输声音对象的轻量级声音表示以及用于音频接收器设备使用该表示来再现和回放声音对象的过程的信号图。

图7是用于构建和更新声音库的过程的信号图。

具体实施方式

现在将参考所附附图来解释本公开的各方面。只要在这些方面中描述的部件的形状、相对位置和其他方面未明确限定，本公开的范围就不仅仅局限于所示出的部件，所示出的部件仅用于说明的目的。另外，虽然阐述了许多细节，但应当理解，本公开的一些方面可在没有这些细节的情况下被实施。在其他情况下，未详细示出熟知的电路、结构和技术，以免模糊对该描述的理解。在一个方面，本文所公开的范围可包括端点值之间的任何值(或数量)和/或端点值。

物理环境(或设置)是指人们在没有电子系统帮助的情况下能够感测和/或交互的物理世界。物理环境诸如物理公园包括物理物品，诸如物理树木、物理建筑物和物理人。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。

相反，计算机生成现实(CGR)环境(设置)是指人们经由电子系统感测和/或交互的完全或部分模拟的环境。在CGR中，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如，CGR系统可以检测人的头部转动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如，声音命令)来进行。

人可以利用其感官中的任一者来感测CGR对象和/或与CGR对象交互，包括视觉、听觉、触觉、味觉和嗅觉。例如，人可以感测音频对象和/或与音频对象交互，该音频对象创建3D或空间音频环境，该3D或空间音频环境提供3D空间中点音频源的感知。又如，音频对象可以使能音频透明度，该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中，人可以感测和/或只与音频对象交互。

CGR的示例包括虚拟现实和混合现实。虚拟现实(VR)环境是指被设计成对于一个或多个感官完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或交互的多个虚拟对象。例如，树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟、和/或通过在计算机生成的环境内人的物理运动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。

与被设计成完全基于计算机生成的感官输入的VR环境相比，混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如，虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上，混合现实环境是完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况，但不包括这两端。

在一些MR环境中，计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外，用于呈现MR环境的一些电子系统可以跟踪相对于物理环境的位置和/或取向，以使虚拟对象能够与真实对象(即，来自物理环境的物理物品或其表示)交互。例如，系统可以导致运动使得虚拟树木相对于物理地面看起来是静止的。

混合现实的示例包括增强现实和增强虚拟。增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，用于呈现AR环境的电子系统可具有透明或半透明显示器，人可以透过该显示器直接查看物理环境。该系统可以被配置成在透明或半透明显示器上呈现虚拟对象，使得人利用该系统感知叠加在物理环境之上的虚拟对象。另选地，系统可以具有不透明显示器和一个或多个成像传感器，成像传感器捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上呈现组合物。人利用系统经由物理环境的图像或视频而间接地查看物理环境，并且感知叠加在物理环境之上的虚拟对象。如本文所用，在不透明显示器上显示的物理环境的视频被称为“透传视频”，意味着系统使用一个或多个图像传感器捕获物理环境的图像，并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地，系统可以具有投影系统，该投影系统将虚拟对象投射到物理环境中，例如作为全息图或者在物理表面上，使得人利用该系统感知叠加在物理环境之上的虚拟对象。

增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如，在提供透传视频中，系统可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如，视点)。又如，物理环境的表示可以通过图形地修改(例如，放大)其部分而进行转换，使得经修改部分可以是原始捕获图像的代表性的但不是真实的版本。再如，物理环境的表示可以通过以图形方式消除其部分或将其部分进行模糊处理而进行转换。

增强虚拟(AV)环境是指其中虚拟或计算机生成的环境结合来自物理环境的一个或多个感官输入的模拟环境。感官输入可以是物理环境的一个或多个特征的表示。例如，AV公园可以具有虚拟树木和虚拟建筑物，但人的脸部是从对物理人拍摄的图像逼真再现的。又如，虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如，虚拟对象可以采用符合太阳在物理环境中的位置的阴影。

有许多不同类型的电子系统使人能够感测和/或与各种CGR环境交互。示例包括头戴式系统(或头戴式设备(HMD))、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人眼睛上的透镜的显示器(例如，类似于隐形眼镜)、头戴受话器/耳机、扬声器阵列、输入系统(例如，具有或没有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑和台式/膝上型计算机。头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地，头戴式系统可以被配置成接受外部不透明显示器(例如，智能电话)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可以具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一个实施方案中，透明或半透明显示器可被配置成选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置成将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

随着通过互联网(诸如在物联网(IoT)系统中)彼此互连的家用和商务电子设备的激增，经由计算机网络(例如，局域网(LAN))通过互联网(例如，到远程服务器)的数据传输的速度和速率(或数据传输速率)成为重要问题。例如，一个LAN上的电子设备可各自经由接入点(诸如经由互联网服务提供商(ISP)与其他远程设备交换数据(例如，发送和接收互联网协议(IP)分组)的电缆调制解调器)共享同一互联网连接。与ISP的互联网连接可具有基于若干因素(诸如正在使用的电缆调制解调器的类型)的有限互联网带宽。例如，不同的电缆调制解调器可支持不同的连接速度(例如，超过150Mbps)，这取决于电缆调制解调器支持哪个电缆数据服务接口规范(或DOCSIS)标准。

对于通过无线局域网(WLAN)彼此通信的无线电子设备诸如多媒体游戏系统、安全设备和便携式个人设备(例如，智能电话、计算机平板电脑、膝上型电脑等)，带宽也是一个问题。例如，连同具有共享有限互联网带宽(当这些设备通过互联网与其他设备通信时)，无线电子设备可共享无线带宽，该无线带宽是无线路由器和WLAN内的设备之间的数据传输速率。该带宽可基于若干附加因素(诸如由提供WLAN的无线路由器支持的IEEE 802.11x标准的类型以及无线电子设备和无线路由器之间的距离)而在设备之间变化。由于家用和商务无线电子设备的数量不断增加，而每个无线电子设备都竞争可用无线带宽(和/或互联网带宽)的一部分，这些设备的带宽需求可能超过可用性。在这种情况下，每个设备可被分配可用带宽的较小部分，从而导致较慢的数据传输速率。

在依赖于近实时数据传输的电子设备上执行的应用程序可能受到较慢数据速率(或较慢吞吐量)的严重影响。例如，使得电子设备参与通信会话的应用程序(例如，互联网协议语音技术(VoIP)电话呼叫)可能需要一定量的带宽(或吞吐量)。例如，为了参与通信会话，电子设备(例如，源设备)可捕获音频数据(例如，使用集成在电子设备中的麦克风)并且将音频数据作为上行链路(例如，无线地)传输到另一电子设备(例如，接收设备)。为了保留接收设备上的实时用户体验，可能需要带宽的特定最小阈值。又如，两个设备都可以参与视频会议，其中两个设备都实时传输音频/视频数据。当超过带宽时，电子设备可调整应用程序设置(例如，声音质量、视频质量等)，以便减少进行视频会议所需的带宽量。然而，在一些情况下，调整可能是不够的，并且应用程序可能被迫完全终止数据传输(例如，通过结束电话呼叫或视频会议)。

又如，电子设备(例如，无线耳机)在与参与通信会话的媒体回放设备(例如，智能电话)通信地耦接或配对时可能经历带宽或吞吐量问题。例如，用户可参与由媒体回放设备发起但通过无线耳机进行的免提电话呼叫。在这种情况下，无线耳机可使用任何无线协议诸如BLUETOOTH协议经由无线个人局域网(WPAN)建立通信链路。在电话呼叫期间，数据分组的吞吐量可减小(例如，基于无线耳机和媒体回放设备之间的距离)。因此，媒体回放设备可结束电话呼叫。因此，需要减少将音频数据传输到其他设备的应用的带宽(或吞吐量)需求。

为了实现这一点，本公开描述了一种电子设备(例如，音频源设备)，该电子设备能够执行带宽减小操作以减少要经由通信数据链路传输到另一电子设备(例如，音频接收器设备)的(例如，音频)数据量。具体地讲，音频源设备被配置为获得由麦克风阵列产生的若干音频信号，并且处理这些音频信号以产生语音信号和一组环境信号。设备处理该组环境信号以产生多个声音对象声音描述符，该多个声音对象声音描述符具有描述环境信号内的声音对象或声音资产(例如，设备所在的周围环境内的声音诸如汽车喇叭声)的元数据。例如，元数据可包括唯一地识别声音对象的索引标识符，以及关于声音对象的其他信息(或数据)诸如其相对于源设备的位置。在一个方面，声音对象声音描述符可具有比环境信号更小的文件大小。设备向音频接收器设备传输语音信号和声音对象声音描述符(其可具有比环境信号显著更小的文件大小)，而不是传输语音信号和环境信号。然后，接收器设备被配置为使用声音对象声音描述符来空间地再现声音对象与语音信号，以产生若干混合信号来驱动扬声器。因此，音频源设备可通过传输声音对象声音描述符而不是环境信号中的至少一个环境信号，代替传输环境信号或声音对象(其可包括音频信号)，从而减少用于向音频接收器设备传输音频数据的带宽需求(或必要的吞吐量)。

在一个方面，“带宽”可对应于可在特定时间段内从音频源设备发送到音频接收器设备的数据量。在另一方面，如本文所述，带宽或可用吞吐量可对应于源设备将音频数据传输到接收器设备以便接收器设备以给定音频质量水平渲染并输出音频数据所必需的数据速率(或吞吐量)。然而，该数据速率可超过在源设备和/或接收器设备任一者处可用的带宽。因此，如本文所述，为了保持音频质量，源设备可基于任一侧的带宽或可用吞吐量来调节用于传输的音频数据量。本文描述了关于该方法的更多内容。

如本文所用，“声音对象”可指由电子设备的至少一个麦克风在电子设备所在的声学环境内捕获的声音。声音对象可包括包含声音的音频数据(或音频信号)和/或描述声音的元数据。例如，元数据可包括声音在声学环境内相对于电子设备的位置数据以及描述声音的其他数据(例如响度数据等)。在一个方面，元数据可包括对声音对象的物理描述(例如，大小、形状、颜色等)。

图1示出了根据本公开的一个方面的例示用于执行音频数据带宽减小操作的音频源设备1的框图。在一个方面，音频源设备1可以是能够使用至少一个麦克风来捕获环境声学环境的声音作为音频数据(或一个或多个音频信号)，并且将包括描述音频数据的元数据的声音描述符(例如，数据结构)(无线地)传输到另一电子设备的任何电子设备。此类设备的示例可包括头戴式耳机、头戴式设备(HMD)诸如智能眼镜或可穿戴设备(例如，智能手表、头带等)。此类设备的其他示例可包括头戴受话器，诸如入耳式(例如，无线耳机或耳塞)、贴耳式或包耳式头戴受话器。因此，“头戴受话器”可包括一副头戴受话器(例如，具有两个耳罩)或至少一个耳机(或耳塞)。

如本文所述，设备1可以是无线电子设备，该无线电子设备被配置为使用例如BLUETOOTH协议或WLAN通过无线计算机网络(例如，无线个人局域网(WPAN))经由网络接口6与另一电子设备建立无线通信数据链路以便交换数据。在一个方面，网络接口6被配置为与无线接入点建立无线通信链路，以便与远程电子服务器(例如，通过互联网)交换数据。在另一方面，网络接口6可被配置为经由采用任何类型的无线电信协议(例如，4G长期演进(LTE)网络)的移动语音/数据网络建立通信链路。

在一个方面，音频源设备1可以是计算机系统的一部分，该计算机系统包括单独的(例如，配套)设备，诸如智能电话或膝上型电脑，音频源设备1与所述单独的设备建立(例如，有线和/或无线)连接以便将这两个设备配对在一起。在一个方面，配套设备(例如，其经编程处理器)可以执行本文所述的一个或多个操作，诸如带宽减小操作。例如，配套设备可从音频源设备1获得麦克风信号并且执行减小操作，如本文所述。在另一方面，源设备1的元件中的至少一些元件可以是系统内的配套设备(或另一电子设备)的一部分。本文描述了关于源设备1的元件的更多信息。

音频源设备1包括麦克风阵列2(其具有“n”个麦克风3)、一个或多个相机4、控制器5和网络接口6。每个麦克风3可以是被配置为将由在声学(例如，物理)环境中传播的声波导致的声能转换成音频(或麦克风)信号的任何类型的麦克风(例如，差分压力梯度微机电系统(MEMS)麦克风)。相机4被配置为捕获表示相机4视场中的物理环境场景的图像数据(例如，数字图像)和/或视频数据(其可表示为一系列数字图像)。在一个方面，相机4是互补金属氧化物半导体(CMOS)图像传感器。在另一方面，相机可以是电荷耦合器件(CCD)照相机类型。在一些方面，相机可以是任何类型的数字相机。

控制器5可以是专用处理器诸如专用集成电路(ASIC)、通用微处理器、现场可编程门阵列(FPGA)、数字信号控制器或一组硬件逻辑结构(例如滤波器、算术逻辑单元以及专用状态机)。控制器5被配置为执行音频数据带宽减小操作，如本文所述。在一个方面，控制器5可执行其他操作，诸如音频/图像处理操作、联网操作和/或渲染操作。本文描述了关于控制器5可如何执行这些操作的更多内容。

在一个方面，音频源设备可包括更多或更少的部件，如本文所述。例如，音频源设备1可包括更多或更少的麦克风3和/或相机4。又如，音频源设备1可包括其他部件，诸如一个或多个扬声器和/或一个或多个显示屏。本文描述了关于这些其他部件的更多内容。

控制器5包括语音和环境分离器7、声音库9以及声音对象和声音床标识符10。在一个方面，控制器可任选地包括音素标识符12。本文描述了关于该操作框的更多内容。在一个方面，尽管被示出为独立的，但网络接口6(的一部分)可以是控制器5的一部分。

现在将描述其中音频源设备1可执行音频带宽减小操作，同时将音频数据传输到音频接收器设备20以供呈现的过程。音频设备1使用麦克风阵列2中的一个或多个n麦克风3来捕获来自声学环境内的声音作为一个或多个(麦克风)音频信号。具体地讲，音频信号包括由人(例如，设备1的用户)说出的语音16和其他环境声音诸如狗吠17和风噪声18(其可包括树叶沙沙声)。语音和环境分离器7被配置为获得(或接收)由该n个麦克风产生的音频(或麦克风)信号中的至少一些音频信号，并且处理这些音频信号以将语音16与环境声音(例如，17和18)分离。具体地讲，分离器产生语音信号(或音频信号)，该语音信号主要包含(或仅包含)由阵列2的麦克风捕获的语音13。分离器还产生一个或多个(或一组)环境信号，该一个或多个环境信号主要包含(或仅包含)来自源设备1所在的声学环境内的环境声音。在一个方面，“n”个环境信号中的每个环境信号对应于阵列2中的特定麦克风3。在另一方面，该组环境信号可能比由阵列2中的麦克风3中的每个麦克风产生的音频信号的数量更多(或更少)。在一些方面，分离器7通过对麦克风信号执行语音(或声音)检测算法以检测语音16从而分离语音。然后，分离器7可根据检测到的语音产生语音信号。在一个方面，分离器7可对音频信号中的一个或多个音频信号执行噪声抑制操作以产生语音信号(其可以是来自一个麦克风的一个音频信号或多个音频信号的混合)。分离器7可通过抑制麦克风信号中的至少一些麦克风信号中包含的语音来产生环境信号。在一个方面，分离器7可对麦克风信号执行噪声抑制操作以便改善信噪比(SNR)。例如，分离器7可对信号中的至少一些信号(例如，语音信号)进行频谱整形以减少噪声。在一个方面，分离器7可执行将语音信号与音频信号分离和/或抑制音频信号中的语音以产生环境信号的任何方法。在一个方面，环境信号可包括至少一些语音(例如，来自不同的谈话者，而不是设备1的用户)。

声音对象和声音床标识符10被配置为识别包含在声学环境内的声音对象(例如，包含的环境信号)并且/或者将环境或扩散背景声音识别为声学环境的声音床(的至少一部分)。如本文所述，声音对象是由麦克风阵列2捕获的特定声音诸如狗吠17。在一个方面，声音对象是可在环境内非周期性地发生的声音。在另一方面，声音对象是由环境内的声源(或对象)产生的特定或具体声音。声音对象的一个示例可以是狗吠17，其可由特定品种的狗作为声源发出。然而，作为声音床的一部分的声音可以是环境或扩散背景声音，或者可连续出现的噪声，或者可以是与特定环境相关联的重复出现的声音。一个示例可以是周期性地打开和关闭的冰箱冷凝器的声音。在一个方面，在环境内扩散并因此不具有特定声源的环境背景噪声可以是声音床的一部分，诸如风噪声18。在另一方面，一般环境声音(例如，在多个位置处可听起来一样的声音)可以是声音床的一部分。具体地讲，包含不能与其他类似声音区分的音频内容的声音可与声音床相关联。例如，与可能因狗的品种而异的狗吠相反，无论位置如何，风噪声18的声音可以是相同的(例如，不同风噪声的频谱内容可彼此类似)。在一个方面，声音对象可与声音床相关联或与声音床的一部分相关联。

声音对象和声音床标识符10如下识别声音对象和声音床。标识符被配置为获得并处理该组环境信号中的至少一个以：1)在环境信号中的至少一个环境信号中识别声源(例如，声源在声学环境内的位置)，并且2)产生空间地表示声源的声音的空间声源数据(例如，具有指示声源相对于设备1的位置的数据)。例如，空间声源数据可以是声源相对于音频源设备1的角度/参数表示。具体地讲，声源数据将声源相对于设备的三维(3D)位置(例如，位于围绕设备的虚拟球体上)指示为位置数据(例如，仰角、方位角、距离等)。在一个方面，可执行任何方法以产生声源的角度/参数表示，诸如通过平移和/或上混环境信号中的该至少一个环境信号来将声源编码成HOA B格式从而产生声源的高阶立体混响(HOA)表示。在另一方面，空间声源数据可包括声音的音频数据(或音频信号)和与声音相关联的元数据(例如，位置数据)。例如，音频数据可以是从所识别的声源投射的声音的数字音频数据(例如，脉冲编码调制(PCM)数字音频信息等)。因此，在一些方面，空间声源数据可包括声源的位置数据(例如，作为元数据)和/或与声源相关联的音频数据。例如，狗吠17的空间声源数据可包括音频信号，该音频信号包含狗吠17和狗吠17的源(例如，狗嘴)的位置数据，诸如相对于设备1的方位角和仰角以及/或者源和设备1之间的距离。在如本文所述的一个方面，所识别的声源可以与声音对象相关联，该声音对象可以使用空间声源数据而被识别。

在一个方面，标识符10可包括声音拾取麦克风波束形成器，该波束形成器被配置为处理环境音频信号(或麦克风信号)以在特定方向上形成至少一个定向波束方向图，以便对环境中的声源更敏感。在一个方面，标识符10可使用声源的位置数据来将波束方向图导向源。在一个方面，波束形成器可使用任何方法诸如到达时间延迟和延迟与求和波束形成来产生波束方向图，以对音频信号施加波束形成权重(或权重向量)以产生包括指向声源的定向波束方向图的至少一个声音拾取输出波束形成器信号。因此，空间声源数据可包括至少一个声音拾取输出波束形成器信号，该至少一个声音拾取输出波束形成器信号包括所产生的波束方向图，该波束方向图包括至少一个声源。本文描述了关于使用波束形成器的更多内容。

声音库9可以是具有针对一个或多个(例如，预定义)声音对象的条目的表(例如，存储在本地存储器中的数据结构中)。每个条目可包括描述对应条目的声音对象的元数据。例如，元数据可包括与声音对象诸如狗吠17相关联的唯一索引标识符(例如，文本标识符)。此外，条目的元数据可包括描述(或包括)声音对象(或声音对象的源)的物理特征的描述性数据。例如，返回先前的示例，当声源是狗并且声音对象是狗吠17时，描述性数据可包括狗的类型(或品种)、狗的颜色、狗的形状/大小、狗的位置(相对于设备1)以及狗的任何其他物理特征。在一些方面，元数据可包括位置数据，诸如全球定位系统坐标或相对于音频源设备1的位置数据，例如方位角、仰角、距离等。在一个方面，元数据可包括声音对象的声音特征，诸如包含声音对象的音频数据(例如，PCM数字音频等)(的至少一部分)、声音对象的频谱内容的样本、响度数据(例如，声压级(SPL)测量，响度、K加权、相对于满刻度(LKFS)测量等)以及其他声音特征诸如音调、音色等。因此，关于狗吠，库9可包括针对每一类型狗的狗吠条目。在一些方面，一些条目可包括比库9中的其他条目更多(或更少)的元数据。

在一个方面，条目中的至少一些条目可在受控设置中预定义(例如，在实验室中产生并存储在设备1的存储器中)。如本文所述，条目中的至少一些条目可由音频源设备1(或另一设备，诸如音频接收器设备20)创建。例如，如果确定声音对象不包含在声音库9内，则针对声音对象的条目可由标识符10创建并存储在库9内。本文描述了关于创建库9中的条目的更多内容。

声音对象和声音床标识符10被配置为使用(或处理)空间声源数据来识别源的相关联声音对象。在一个方面，标识符10可使用声音识别算法来识别声音对象。继续先前的示例，为了识别狗吠17，标识符10可分析空间声源数据内的音频数据，以识别与狗吠或更具体地与特定狗吠17(例如，来自特定品种的狗)相关联的音频数据的一个或多个声音特征(例如，频谱内容等)。在另一方面，标识符10可使用空间声源数据对声音库9执行表查找，以将声音对象识别为声音库中包含的匹配的声音对象(或条目)。具体地讲，标识符10可执行表查找，以将空间声源数据(例如，音频数据和/或元数据)与库9内包含的条目(例如，条目的元数据)中的至少一些条目进行比较。例如，标识符10可将空间声源数据的音频数据和/或位置数据与库9的每个声音对象的所存储的音频数据和/或所存储的位置数据进行比较。因此，当声源数据的音频数据和/或位置数据与库9内的声音对象(或条目)的声音特征中的至少一些声音特征匹配时，标识符10识别库9内的匹配的预定义声音对象。在一个方面，为了识别声音对象，标识符10可将空间声源数据与所存储的元数据中的至少一些元数据以最高一定容差(例如，5％、10％、15％等)进行匹配。换句话讲，库9中的匹配的预定义声音对象不一定需要是完全匹配。

在一个方面，除了(或代替)使用空间声源数据的声音特征(或元数据)来识别声音对象，标识符10还可使用由相机4捕获的图像数据来(帮助)识别环境内的声音对象。标识符10可对图像数据执行对象识别算法以识别相机视野内的对象。例如，算法可确定(或识别)描述对象的物理特征(诸如形状、大小、颜色、移动等)的描述性数据。标识符10可使用所确定的描述性数据对声音库9执行表查找，以(至少部分地)利用匹配的描述性数据来识别声音对象。例如，标识符10可将对象的物理特征(诸如狗的头发颜色)与声音库中与狗相关的条目中的至少一些条目的毛色进行比较。在另一方面，标识符10可对将描述性数据与预定义对象相关联的数据结构执行单独的表查找。一旦发现匹配的物理特征(其可在容差阈值内)，标识符10就将相机视野内的对象识别为预定义对象中的至少一个预定义对象。

在一个方面，标识符10被配置为使用(或处理)空间声源数据以将与源数据相关联的声音(或声音对象)识别为声学环境的声音床(的一部分)。在一个方面，被确定为环境或扩散背景噪声声音的声音对象由标识符10确定为环境的声音床的一部分。在一个方面，标识符10可执行与为了识别源的相关联声音对象而执行的那些操作类似的操作。在一个方面，在识别出声音库中的匹配条目时，条目的元数据可指示声音是声音床的一部分。在另一方面，标识符可基于确定声音在阈值时间段(例如，十秒)内发生了至少两次来确定与空间声源数据相关联的声音(对象)是声音床的一部分，从而指示声音是环境背景声音。在另一方面，如果声音是连续的(例如，恒定的诸如高于声级，持续一段时间诸如十秒)，则标识符10可确定声音是声音床的一部分。在另一方面，标识符10可基于声音的扩散性来确定空间声源数据的声音是声音床的一部分。又如，标识符10可确定声音是否类似于库9内的多个(例如，多于一个)条目，从而指示声音更一般，因此其可以是声音床的一部分。

在一些方面，标识符10可采用其他方法来识别声音对象。例如，源设备1可利用由麦克风阵列2产生的音频数据(或音频信号)和由相机4产生的图像数据来识别设备1所在的环境内的声音对象。具体地讲，设备1可通过使用对象识别算法来识别环境内的声音对象(或对象)，并且使用声音对象的识别来朝向对象更好地引导(或产生)定向声音方向图，从而减少原本可使用常规预训练波束形成器捕获的噪声。图2示出了根据本公开的一个方面的由声音对象和声音床标识符10执行以识别并产生声音对象(和/或声音床的声音对象)的操作的框图。具体地讲，该图示出了可由音频源设备1(的控制器5)的标识符10执行的操作。如图所示，图示包括参数估计器70、源分离器71和方向性估计器72。

参数估计器70被配置为获得：1)由麦克风阵列2产生的至少一个麦克风音频信号和/或2)由至少一个相机4捕获的图像数据。在一个方面，代替(或除了)获得麦克风信号，估计器70可获得由语音和环境分离器7产生的环境信号中的一个或多个环境信号。参数估计器70被配置为估计声源的参数，诸如声源的位置作为位置数据(例如，到源的距离和与源成的角度、源的位置等)、响度数据(例如，SPL水平)以及与声源相关联的任何其他声音特征。在一个方面，估计器可根据声源定位算法(例如，基于声波到达时间和麦克风阵列2的几何形状)来处理信号。在另一方面，估计器可处理由相机4捕获的图像数据以识别声音对象(和/或声音对象或源相对于设备1的位置)。例如，估计器可通过对图像数据执行对象识别算法以识别相机视野内的对象来估计声音对象在环境内的位置。算法可对包括与已知声音对象(例如，被认为发出声音或作为声源的对象)相关联的对象(诸如人的嘴巴)的数据结构执行表查找。由此，估计器70可确定描述对象的物理特征(例如，颜色、类型、大小等)的描述性数据。估计器被配置为产生元数据，该元数据包含所估计的参数和/或所确定的数据中的至少一些。在另一方面，估计器可处理图像数据结合处理音频信号来识别声源。在一个方面，估计器70可通过使用对象识别来跟踪所识别的对象的活动。例如，估计器70可基于对象的移动(诸如所识别的直升机在天空中飞行)来调节位置数据(例如，速度、距离等)。

源分离器71被配置为获得由估计器70估计的参数(或元数据)，并且执行源分离操作以根据麦克风音频信号产生与声源相关联的音频信号(或音频数据)。例如，可通过聚集所有时频仓中的来波方向(DOA)估计来实现分离。分离器可通过考虑估计参数(例如，所识别的声源的位置数据、对象的移动等)来改善DOA估计。在一个方面，分离器可通过补偿或考虑来自一个或多个机载传感器的传感器数据来改善DOA估计。例如，传感器数据可包括由设备1的惯性测量单元(IMU)产生的运动数据。根据运动数据，标识符10可考虑设备1相对于声源的位置和/或取向。在一个方面，分离器71可利用竞争音频信号(或声源)的独立性及其在时域和频域中的稀疏性的统计属性。

在一个方面，为了产生包含声音对象的声音的输出波束形成器信号，源分离器71可根据估计参数对音频信号中的至少一些音频信号执行波束形成操作，以朝向声源的方向调整定向波束方向图从而产生输出波束形成器信号。例如，分离器可基于参数中指示的位置数据来调整波束形成器算法，诸如多通道维纳滤波器(MCWF)或最小方差无失真响应(MVDR)波束形成器。因此，分离器可产生具有比预训练波束形成器更高音频质量的输出波束形成器信号。在一个方面，例如在分离器中，可使用MVDR波束成形器中的估计参数以执行声源(或声音对象)的更粒状识别。例如，分离器可使用参数诸如期望的源协方差和噪声协方差来定义信噪比(SNR)，可利用该信噪比产生空间声源数据。

方向性估计器72被配置为推断(或确定)声音对象的方向性。在一个方面，估计器72可通过对表执行表查找来确定方向性函数，该表将预测量的函数与以下中的至少一者相关联：1)预定义声音对象，2)声音对象的声音特征，以及3)声音对象相对于设备1的移动的声音特征。因此，估计器72可执行类似的操作以确定声音对象的身份标识并且/或者确定声音对象的声音特征，如本文所述。例如，方向性估计器72可对从相机4获得的图像数据执行对象识别算法，如本文所述。一旦识别出对象，估计器72就可确定对象相对于设备1的位置数据(例如，使用三角测量)。在一个方面，当确定位置数据时，估计器可考虑从一个或多个机载传感器获得的传感器数据(例如，IMU数据，如本文所述)。具体地讲，估计器72可考虑设备1的取向和移动的变化。元数据生成器62还可生成描述性数据，如本文所述。在一个方面，该表可以是预定义的，或者该表可通过使用机器学习算法来产生。在一个方面，估计器可从参数估计器获得描述声音对象的估计参数中的至少一些估计参数(例如，位置数据、描述性数据等)以执行方向性估计。根据所识别的声音对象，标识符10可确定声音对象是否存储在声音库内，如本文所述。

在一个方面，为了识别声音对象(或声音床)而执行的操作可在后台执行(例如，无需用户知道)。然而，在另一方面，控制器或正在由控制器执行的应用程序(例如，虚拟个人助理(VPA)应用程序)可在正在执行识别操作时向用户提供警报。例如，VPA可提供口头指令以使用户向环境内正在发出声音的对象走近(例如，“在您前方检测到鸟，请走近”)，以便源分离器71产生更准确或细粒度的空间声源数据(例如，通过缩小波束方向图的波束宽度以降低噪声)。

返回图1，标识符10被配置为产生(或生成)声音对象声音描述符13，该声音对象声音描述符包括与所识别的声音对象相关联的元数据。例如，标识符10可在从库9找到(或选择)匹配的预定义声音对象的条目时产生声音对象声音描述符13，并且将元数据添加到描述符中，诸如来自库的元数据(例如，对应于匹配的预定义声音对象的索引标识符)和/或空间声源数据的元数据。图3示出了此类声音对象声音的示例。例如，描述符13的元数据可包括匹配条目的索引标识符、位置数据、响度数据和时间戳(例如，声源产生声音对象的开始和/或结束时间、声音对象的持续时间等)。在一个方面，描述符13可包括包含在空间声源数据内的波束方向图的波束形成器数据，诸如方向性和波束宽度。在一个方面，声音对象描述符13可包含其他元数据，诸如声音对象(或声源)的声音特征和/或物理特征的描述符数据。在另一方面，描述符13可仅包含来自匹配条目的元数据，或者可仅包含来自空间声源数据的元数据。如本文所述，声音对象声音描述符13可包括所识别的声音对象的更多(或更少)的数据(或元数据)。

在一个方面，标识符10被配置为生成声音床声音描述符14，该声音床声音描述符包括描述声音床(和/或作为声音床的一部分的所识别的环境或扩散背景声音)的元数据。例如，元数据可从来自库9的与声音相关联的条目获得，如关于声音对象声音描述符13所述，诸如索引标识符。在一个方面，声音床声音描述符14可包括与声音对象声音描述符13相关联的类似元数据，诸如响度数据和位置数据。在一个方面，由于声音床描述符14可描述“一般”环境声音(例如，具有不能与具有类似内容的另一类似声音区别的内容的声音)，因此描述符可包括可用于合成(或再现)声音的数据。例如，关于风噪声15，标识符10可包括合成器数据(例如频率、滤波器系数)，音频接收器设备20处的合成器可使用这些合成器数据来合成风噪声。在一个方面，声音床声音描述符可包括指示如何合成声音的任何数据(例如，声音效果参数等)。

在一个方面，由于声音床可包括与环境相关联的一个或多个背景噪声或声音，因此声音描述符14可以包括与噪声或声音中的每一个(或至少一部分)相关联的元数据。在另一方面，声音床声音描述符14可包括声音床的元数据。换句话讲，声音库9可包括条目，这些条目包括与不同声音床(诸如包括劈啪声的森林篝火、猫头鹰声音和蟋蟀声音)相关联的元数据(和/或音频数据)。在一个方面，在识别出环境或扩散背景噪声或声音时，标识符可产生声音描述符15，该声音描述符具有与包括噪声或声音的声音床相关联的元数据。

在一个方面，使用(例如，产生和传输)声音床声音描述符14可减少声源设备1将音频数据传输到音频接收器设备20所需的总带宽。例如，由于环境内的声音床可包含连续或周期性声音，源设备1可产生并传输声音床描述符14一次，而不是每当声音发生时都产生并传输声音床描述符。例如，如果声音每分钟出现一次(例如，冰箱冷凝器)，则床描述符14可包括声音床将由音频接收器设备20合成(或再现)并输出的时间段。在一个方面，可周期性地产生声音床描述符14并将其传输到音频接收器设备20(例如，每当新声音被识别为属于声音床时)。在另一方面，声音床描述符14可具有比声音对象声音描述符13更小的文件大小，因为声音床可比声音对象更一般，因此不需要很多数据(例如，相对于在环境内扩散的风噪声的位置数据)。

在一个方面，控制器可执行至少一些附加(或任选)操作。例如，在一些方面，控制器5可包括音素标识符12，该音素标识符被配置为根据语音信号产生音素数据。音素是在特定语言中将一个字词与另一个字词区分开的语音单元。音素标识符12获得由分离器7产生的语音信号，并且对语音信号执行自动语音识别(ASR)算法和/或语音转文本算法(或音素识别算法)以产生将语音信号(的对应部分)表示为文本的语音(或音素)数据。例如，当语音信号包含口语单词“猫”时，音素标识符12可针对每个字母“c”、“a”和“t”产生音素(例如，文本)。在一个方面，音素标识符12可产生表示语音信号的任何类型的语音数据，诸如作为表示语音声音的一个或多个字母的字素数据。在一个方面，音素标识符12可使用任何方法来根据语音信号产生该数据。音素标识符12产生包括语音(或音素)数据的音素声音描述符15。在一些方面，音素声音描述符具有比语音信号中的对应的语音部分更小的文件大小。

网络接口6被配置为获得用于经由通信数据链路作为上行链路信号(例如，无线地)传输到音频接收器设备20的至少一些音频数据(例如，声音描述符13-15中的任一个声音描述符和语音信号)。在一个方面，音频源设备1可基于计算机网络的可用带宽(或吞吐量)传输该数据的不同组合。例如，如果源设备1正在传输语音数据和声音床声音描述符并且存在极少可用(互联网或无线)带宽(例如，降至低于第一阈值)，则可阻止源设备1传输声音床声音描述符而继续传输语音信号。又如，如果带宽或可用吞吐量再次下降(例如，低于第二阈值)，则源设备可向音频接收器设备20传输音素声音描述符15代替语音信号，因为语音信号将消耗比音素声音描述符15更多的带宽。尽管这可能不是优选的(因为对于音频接收器设备20的用户来说语音信号将听起来更自然地)，但取代可允许音频源设备1即使当存在最小带宽时继续与音频接收器设备20的通信会话。本文描述了关于音频源设备1如何确定要传输哪些数据的更多内容。

在一个方面，音频源设备1可使用任何已知方法来压缩语音音频信号，以便减小进行通信会话所需的带宽。在另一方面，可不压缩语音音频信号。

在一个方面，描述符(例如，音素声音描述符15、声音床声音描述符14和/或声音对象声音描述符13)可以是存储为任何类型的文件格式(例如，DAT文件、TEXT文件等)的文件(例如，数据结构)。在另一方面，可将描述符编码(或嵌入)到正在以任何类型的音频格式(例如，AAC、WAV等)从源设备1传输到接收器设备20的音频流中。

在一些方面，源设备1可将描述符中的至少一些描述符实时传输到音频源设备20。在另一方面，可将描述符传输到电子服务器，该电子服务器可存储描述符并且可稍后将描述符传输到接收器设备20。在这种情况下，描述符可作为单独的数据文件传输，或者可将其嵌入到正在向接收器设备20传输的其他数据流中。例如，当音频接收器设备20正在呈现CGR环境的音频和/或图像数据时，可将描述符嵌入到CGR环境图像数据文件诸如通用场景描述(USD)格式中，该图像数据文件由服务器传输到接收器设备以用于渲染CGR环境。

在另一方面，源设备1可传输由相机4捕获的图像(或视频)数据以及描述符中的至少一些描述符。例如，当源设备和接收器设备20参与视频会议呼叫时，可在两个设备之间交换图像数据、描述符和/或语音信号。

图4示出了根据本公开一个方面的音频接收器设备20的框图。音频接收器设备20包括左扬声器21、右扬声器22、至少一个显示屏23、网络接口24、音频渲染处理器25和图像源26。在一个方面，音频接收器设备20可以是被配置为经由通信数据链路从音频源设备1获得作为下行链路信号的音频数据以通过扬声器21和/或22输出音频数据进行呈现的任何电子设备。在一个方面，音频接收器设备20可与音频源设备相同(或类似)。例如，两个设备都可以是HMD，如本文所述。因此，音频源设备1可包括音频接收器设备20的部件(或元件)中的至少一些，反之亦然。例如，两个设备都可包括显示器、麦克风阵列和/或扬声器，如本文所述。在另一方面，接收器设备20可以是源设备的配套设备。例如，源设备1可以是使用任何无线协议(诸如BLUETOOTH)与音频接收器设备20通信地耦接(或配对)的HMD，该音频接收器设备可以是另一设备，诸如智能电话、膝上型电脑、台式电脑等。

扬声器21例如可以是可被专门设计用于特定频带的声音输出的电动驱动器，诸如低音扬声器、高音扬声器或中音驱动器。在一个方面，扬声器21可以是“全音域”(或“全频”)电动驱动器，其尽可能多地再现可听频率范围。扬声器通过将模拟或数字扬声器驱动器信号转换成声音来“输出”或“回放”音频。在一个方面，接收器设备20包括用于扬声器的驱动器放大器(未示出)，该驱动器放大器可从相应数模转换器接收模拟输入，其中后者从处理器25接收数模转换器的输入数字音频信号。

如本文所述，接收器设备20可以是能够通过至少一个扬声器21输出声音的任何电子设备。例如，接收器设备20可以是一副入耳式、贴耳式或包耳式(诸如封闭式或开放式)头戴受话器，其中左扬声器21位于左耳罩中，并且右扬声器22位于右耳罩中。在一个方面，接收器设备是被配置为插入到用户耳道中的至少一个耳机(或耳塞)。例如，接收器设备20可以是包括用于用户左耳的左扬声器21的左耳耳塞。

在一个方面，除了(或代替)左扬声器和右扬声器，接收器设备还可包括扬声器阵列，该扬声器阵列包括两个或更多个“耳外”扬声器，这些“耳外”扬声器可被定位在接收器设备20的外壳上(或集成到该外壳中)并且被布置成将声音直接投射(或输出)到物理环境中。这与将声音直接产生到用户的相应耳朵中的耳机(或头戴式耳机)形成对比。在一个方面，接收器设备20可包括两个或更多个耳外扬声器，这些耳外扬声器形成被配置为产生空间选择性声音输出的扬声器阵列。例如，阵列可产生指向环境内的位置(诸如用户的耳朵)的声音的定向波束方向图。

如本文所述，显示屏23被配置为向接收器设备20的用户显示图像数据和/或视频数据(或信号)。在一个方面，显示屏23可以是已知显示器(诸如液晶显示器(LCD)、有机发光二极管(OLED)等)的微型版本。在另一方面，显示器可以是被配置为将数字图像投影到透明(或半透明)叠层上的光学显示器，用户可透过该叠层进行观看。显示屏23可定位在用户的眼睛中的一只或两只眼睛的前方。在一个方面，音频接收器设备20可不包括显示屏23。在一个方面，音频接收器设备20可从图像数据源26(例如，内部存储器)获得图像数据，并且在显示屏23上呈现该图像数据。在另一方面，音频接收器设备20可经由通信数据链路从远程位置(例如，从远程服务器或从音频源设备1)获得图像数据。

在一个方面，音频接收器设备20的元件中的至少一些元件可以是与设备20通信地耦接(例如，配对)的独立电子设备。例如，左扬声器21和右扬声器22可以是与接收器设备20无线耦接(例如，经由BLUETOOTH协议)的独立无线耳机(或耳塞)。

网络接口24被配置为经由计算机网络与音频源设备建立通信数据链路以获得音频数据，如本文所述。具体地讲，网络接口24可从下行链路信号获得声音描述符13-15和/或语音信号中的至少一者，该下行链路信号从另一电子设备诸如源设备1获得(或由其传输)。

音频渲染处理器25可完全实现为编程的处理器、数字微处理器，或者实现为编程的处理器和专用硬连线数字电路(诸如数字滤波器块和状态机)的组合。处理器25被配置为从网络接口24获得音频数据，并且空间地渲染(或再现)音频数据以用于通过扬声器21和22输出。处理器25包括声音对象引擎27、声音库28、声音床合成器29、空间混响器30和(任选的)语音合成器31。声音库28可与音频源设备1的声音库9相同(或类似)。在一个方面，两个库可共享至少一些条目和/或与这些条目相关联的数据中的至少一些数据。本文描述了关于库与库之间的相似性(或差异)的更多内容。

声音对象引擎27被配置为获得声音对象声音描述符13并再现与声音描述符相关联的声音对象。具体地讲，引擎27可使用包含在声音描述符13内的元数据(诸如索引标识符)对声音库28执行表查找。在找到声音库28内的条目的匹配索引标识符时，引擎27选择与条目相关联的声音对象。引擎27再现所选择的声音对象，该声音对象可包括存储在条目内的音频数据(例如，PCM数字音频)。在一个方面，所再现的声音对象可包括来自条目的至少一些元数据和/或来自声音描述符13的元数据，诸如响度数据(例如，SPL、LKFS等)和位置数据(例如，方位角、仰角、方向、波束形成器数据等)，混响器可使用该位置数据在适当(虚拟)位置处空间地渲染声音对象。例如，如果两个设备都参与电话呼叫(或会议呼叫)，其中设备的两个用户都面向彼此，并且狗吠17出现在源设备1的用户的左侧，由接收器设备20再现的狗吠的声音对象可将狗吠的再现输出到接收器设备20的用户的右侧，因为当两个人说话时，他们通常彼此面对。在另一方面，声音对象可定位在由扬声器21和22产生的声音空间内的任何位置处。本文描述了关于空间地渲染音频数据的更多内容。

类似地，声音床合成器29被配置为获得声音床声音描述符14并且产生与声音描述符相关联的合成声音床。例如，合成器29可使用与声音床描述符14相关联的索引标识符来从库28获得对应条目的音频数据。又如，合成器29可使用声音描述符14中的数据来合成声音床。例如，合成器29可使用描述符的参数(例如，合成器参数，诸如频率和滤波器系数、声音效果参数等)来再现声音床。在一个方面，声音床的音频文件(小波或PCM音频)可存储在声音库28内。因此，合成器29可确定哪些音频文件可与声音床相关联并且从库28中检索这些音频文件。

语音合成器31被配置为(任选地)获得音素声音描述符15并且基于包含在声音描述符内的音素数据来合成语音信号。具体地讲，语音合成器使用音素数据来产生合成语音信号。在一个方面，合成器31可使用任何方法(例如文本到语音算法等)来根据音素数据合成语音。在一个方面，所产生的合成语音信号可被合成为不同于由分离器7产生(并且由网络接口24获得)的语音信号。例如，合成器31可通过具有不同音色、音调等来产生听起来不同于该语音信号的合成语音信号。又如，合成器31可产生合成语音信号以具有与初始语音信号内的语音(或口音)不同的语音(或口音)。又如，语音合成器31可使用音素声音描述符15(内包含的音素数据)来合成语音信号，该语音信号是与由源设备的麦克风阵列捕获的语音16不同的语言。例如，合成器31可采用翻译应用程序，该翻译应用程序将音素数据翻译成不同的语言并且将已翻译的音素数据合成为已翻译的语音信号。在一个方面，这可以是音频接收器设备的预定义用户设置。在另一方面，语音合成器31可以是在音频接收器设备20内执行的虚拟个人助理(VPA)应用程序的一部分。因此，合成语音信号可包括VPA的语音。

空间混响器30被配置为获得再现的或合成的音频数据，诸如以下中的一者或多者：1)合成语音信号(由语音合成器31产生)，2)语音信号，3)再现声音对象，和/或4)合成声音床，并且执行空间混合操作(例如，矩阵混合操作等)以产生用于左扬声器21和右扬声器22中的至少一者的驱动器信号。因此，就包含语音16、狗吠17的描述符13和风18的描述符的语音信号而言，空间混响器被配置为空间地混合每三个的再现音频数据，以便通过左扬声器21和右扬声器22输出声音中的每个声音。

在一个方面，空间混响器30可使用通过声音描述符(13、14和/或15)获得的数据来输出声音。例如，就狗吠17的声音描述符13而言，描述符的元数据可指示狗吠17的开始/停止时间。因此，空间混响器30可在该时间段内输出(例如，再现)狗吠17。在另一方面，空间混响器30可与图像数据在显示屏23上的呈现同步地输出声音对象。例如，当显示屏呈现包括狗的VR设置时，可在VR设置中的狗的嘴巴动作时输出狗吠。

在一个方面，空间混响器30可在由扬声器21和22产生的虚拟声源处空间地渲染声音，该虚拟声源对应于在源设备1所在的环境内检测到声音(例如，声音对象)的物理位置(或位置)。例如，空间混响器30可应用为接收器设备20的用户定制的空间滤波器(例如，头相关传输函数(HRTF))，以便考虑用户的人体测量。在这种情况下，空间混响器30可产生双耳音频信号、对于左扬声器21的左信号和对于右扬声器22的右信号，这些信号在通过相应扬声器输出时产生3D声音(例如，向用户提供声音正在从声学空间内的特定位置发出的感觉)。在一个方面，当存在多个声音时，空间混响器30可对每个(或声音的一部分)单独地应用空间滤波器，然后将空间滤波的声音混合成一组混合信号。

如本文所述，音频接收器设备20可在与音频源设备1进行通信会话时获得音频数据。在一个方面，该通信会话可在VR环境中发生，与用户相关联的化身参与其中。这些化身可基于可通过源(或接收器)设备和/或通信地耦接到源设备的配套设备(例如，遥控器)接收的用户输入来执行动作(例如，移动、说话等)。在一个方面，HRTF可以是通用的或针对用户定制的，但是在VR设置中相对于用户的化身应用。因此，可根据VR设置内的虚拟声源相对于化身的位置应用与HRTF相关联的空间滤波器，以渲染VR设置的3D声音。这些虚拟声源可与对应于声音描述符13的声音对象相关联，其中虚拟声源的位置对应于来自声音描述符的位置数据的位置。该3D声音在与虚拟声源和用户的化身之间的虚拟距离对应的距离处提供由用户感知的声学深度。在一个方面，为了实现创建虚拟声源所在的正确距离，混响器30可对音频信号施加附加的线性滤波器，诸如混响和均衡。

图5是减小将音频数据从音频源设备1传输到音频接收器设备20(反之亦然)所需的带宽的过程40的一个方面的流程图。在一个方面，过程40的至少一部分可由音频源设备1和/或音频接收器设备20(例如，其控制器5)执行。例如，两个设备都可执行过程40，以便减少每个相应侧上的带宽需求。过程40开始于经由通信数据链路并且通过计算机网络在音频源设备1和音频接收器设备20之间建立通信会话(在框41处)。例如，两个设备可彼此配对，以便通过互联网与另一设备进行电话呼叫(例如VoIP)或会议呼叫。在另一方面，两个设备都可以是参与VR设置中的HMD。过程40从麦克风阵列2获得一个或多个音频信号(在框42处)。过程40处理音频信号以产生包含语音的语音信号以及包含来自音频源设备所在的声学环境的环境声音的一个或多个环境信号(在框43处)。过程40处理环境信号以产生以下中的至少一者：1)声音对象声音描述符，该声音对象声音描述符具有描述声学环境内的声音对象(例如，其声音特征等)的元数据，2)声音床声音描述符，该声音床声音描述符具有描述与声学环境(或声音床)相关联的背景环境声音的声音特征的元数据，以及3)音素声音描述符，该音素声音描述符将语音信号表示为音素数据，如本文所述(在框44处)。

过程40确定用于在通信会话期间向音频接收器设备20传输数据的通信数据链路的带宽或可用吞吐量(在框45处)。在一个方面，音频源设备1可使用任何(已知或未知)方法来确定通信数据链路的带宽或可用吞吐量。例如，音频源设备1可通过向音频接收器设备20传输特定大小的数据文件并且将该大小除以往返时间来确定带宽或吞吐量。在一个方面，音频源设备可基于正在音频源设备中执行并通过网络传输数据的其他应用程序的当前组合吞吐量来确定可用吞吐量。在另一方面，音频源设备可使用任何带宽测试软件来确定网络的带宽。在另一方面，音频源设备1可基于暂时存储用于无线传输的数据(分组)的输出缓冲器的大小来确定带宽或可用吞吐量。如果缓冲器为空，则其可指示设备1具有显著量的可用吞吐量(例如，高于阈值)，而如果缓冲器正在填满，则这可指示存在极少可用吞吐量(例如，低于阈值)。在一个方面，带宽可以是用户定义的(例如，在用户设置菜单中)。在另一方面，带宽或可用吞吐量可由计算机网络上的任何设备(例如，路由器、通过网络具有互联网连接的另一设备等)设置。例如，如果(无线)网络上存在其他设备，则路由器(或调制解调器)可向每个设备包括音频源设备提供20Mbps。

在另一方面，可用带宽可基于音频接收器设备20所连接的独立网络的吞吐量。在一个示例中，音频源设备1可与音频接收器设备20配对，该音频接收器设备继而参与VoIP电话呼叫。在这种情况下，音频接收器设备20可通过计算机网络(与另一设备)进行通信。又如，两个设备可通过不同的无线网络通信地耦接。在这两种情况下，音频接收器设备20可执行与音频源设备类似的操作以用于确定设备的带宽或可用吞吐量，并且将该值传输到音频源设备。

过程40根据带宽或可用吞吐量经由通信数据链路并且通过计算机网络传输语音信号、声音对象声音描述符13、声音床声音描述符14、音素声音描述符15或它们的组合(在框46处)。例如，音频源设备1可确定在一段时间(例如，一秒)内传输上述音频数据的不同组合所需的数据量(例如，kb、mb等)。例如，控制器5可确定在一秒期间要传输多少语音数据。在一个方面，该确定可基于若干因素，诸如采样频率、位深度以及信号是否被压缩。此外，控制器5可确定声音描述符中的每一个声音描述符的文件大小。一旦确定了每一个声音描述符的文件大小，控制器5就可构建不同组合的表。在一个方面，该表从可传输的最多音频数据到最少音频数据(以降序)排序。例如，用于传输的最多音频数据可包括语音信号和声音描述符中的全部，而传输声音描述符中的仅一个声音描述符(例如，声音床声音描述符)可能需要最少量的数据。然后，控制器5可确定在该时间段期间可传输多少数据(例如，阈值数据)(例如，基于带宽或吞吐量)。然后，控制器5使用阈值数据基于对所构建表的表查找来确定是将信号和/或声音描述符彼此分开传输还是以特定组合传输。

在一个方面，控制器5可基于音频数据的优先级来确定要传输哪些音频数据。具体地讲，一些音频数据可具有比其他数据更高的重要性优先级。例如，优先级顺序可以如下：语音信号、声音对象声音描述符、声音床声音描述符和音素声音描述符。因此，如果存在足够的带宽，则控制器5可尝试传输语音信号，即使这样做可能导致不能传输声音描述符中的任一个。在另一方面，在可能的情况下，控制器5可尝试传输语音信号以及声音对象声音描述符。然而，如果不可能，则控制器5随后可尝试传输语音信号以及声音床声音描述符。应当理解，用于在通信会话期间传输音频数据的任何组合都是可能的。

在另一方面，控制器5可基于先前的传输来确定要传输哪些音频数据。例如，如本文所述，由于环境的声音床可能不经常改变，因此声音床声音描述符可能不一定需要频繁传输。因此，控制器5可确定自从声音床声音描述符传输到音频接收器设备已经多久了，并且确定该时间是否小于阈值时间。如果是，则控制器5可不传输声音床声音描述符，从而允许改为传输其他声音描述符。

一些方面执行过程40的变型形式。例如，过程40的特定操作可不以所示出和所描述的确切顺序执行。可不在连续的一系列操作中执行该特定操作，并且可在不同方面中执行不同的特定操作。例如，在框43处，控制器可仅产生包含来自声学环境的声音的一个或多个音频信号(或仅产生语音信号)，而不是处理音频信号以产生语音信号和该一个或多个音频信号。在这种情况下，标识符7可仅产生n个环境音频信号。因此，控制器可处理n个环境音频信号中的至少一些环境音频信号以产生一个或多个声音描述符(例如，声音对象和/或声音床)，并且将声音描述符传输到音频接收器设备20，如本文所述。

在另一方面，在框45处，控制器可在处理环境信号之前确定带宽或可用吞吐量以产生声音描述符中的至少一个声音描述符。具体地讲，控制器5可确定有多少带宽或吞吐量可用于传输音频数据。一旦确定，控制器5就可确定传输什么音频数据。该确定可基于语音信号和/或声音描述符的先前(或平均)数据大小。一旦确定，控制器5就可处理环境信号以产生要传输的声音描述符。在一个方面，当源设备要传输仅语音信号时，框44的操作可完全省略。

传输一秒语音信号的数据量可基于若干因素(例如，采样频率、位深度以及信号是压缩的还是未压缩的，诸如PCM音频)。在一个方面，语音信号将需要比声音描述符中的任一者更多的带宽。可在该时间段期间传输的数据量(例如，通过将可用带宽乘以该时间段)。

图6和图7是可由音频源设备1(例如，其控制器5和/或网络接口6)和音频接收器设备20(例如，其音频渲染处理器25和/或网络接口24)执行的过程的信号图。例如，音频源设备1可执行与框61-64相关联的操作，以便处理一个或多个音频信号以产生至少包含所识别的声音对象的数字表示的声音描述符，而音频接收器设备20可执行与框65-67相关联的操作。在另一方面，设备中的任一个设备可执行更多或更少的操作。因此，这些图中的每一个图将参考图1至图4来描述。

转到图6，该图是根据本公开的一个方面的用于音频源设备1传输声音对象的轻量级声音表示(例如，作为声音描述符)以及用于音频接收器设备20使用该表示来再现和回放(输出)声音对象的过程60的信号图。过程60开始于从麦克风阵列2的一个或多个麦克风获得一个或多个(麦克风)音频信号(在框61处)。在一个方面，音频信号可以是从语音和环境分离器7获得的一个或多个环境音频信号。过程60从一个或多个传感器诸如IMU获得运动和/或取向数据作为传感器数据(在框62处)。例如，源设备1可包括一个或多个IMU，每个IMU被配置为产生指示设备1(以及因此当用户佩戴设备时指示用户)的取向数据，并且/或者产生指示移动的速度和/或方向的运动数据。

过程60处理音频信号(中的一个或多个音频信号)以将其中包含的声源识别为空间声源数据，该空间声源数据包括源的音频数据(信号)和/或空间特征(在框63处)。具体地讲，声音对象和声音床标识符10可执行本文所述的操作以识别一个或多个声源，从而产生空间声源数据。在一个方面，空间特征可包括指示声源相对于源设备1的位置的位置数据。在另一方面，标识符10可执行声源分离操作，如关于图2的源分离器71所描述的。例如，标识符可聚集音频信号的一些(或所有)时频仓中的DOA估计以识别声源。在另一方面，标识符10可执行任何方法以分离声源(例如，每个源与音频信号(或数据)和/或空间特征相关联)。过程60处理空间声源数据以确定(或生成)与至少一个声源相关联的声音对象的分布式数字表示(在框64处)。例如，音频源设备1(的标识符10)可执行分布式算法，该分布式算法分析空间声源数据(更具体地讲，音频数据)的特征(特性)，以识别具有类似(或相同)特征的对应声音对象。例如，分布式算法可将声源数据的特征(例如，音频数据的频谱内容)与预先确定的特征(例如，存储在声音库9内)进行比较，并且可选择具有类似(或匹配)特征的对应声音对象。例如，当声音对象是狗吠17时，数字表示可与类似(或相同)的狗吠相关联。在一个方面，所确定的分布式数字表示可以是一个或多个值的矢量，每个值与声音对象的特征相关联。

在一个方面，分布式算法可以是机器学习算法，该机器学习算法被配置为通过将与对象的特征相关联的值映射到矢量来确定声音对象的分布式数字表示。在另一方面，机器学习算法可包括被配置为确定数字分布的一个或多个神经网络(例如，卷积神经网络、递归神经网络等)。例如，算法可包括视觉几何组(VGG)神经网络。

过程60传输声音对象声音描述符，该声音对象声音描述符包括声音对象的数字表示和空间特征以及运动数据和/或取向数据(例如，作为元数据)，诸如描述符13。在一个方面，声音描述符可包含其他声音描述符。过程60使用数字表示将声音对象重现(或检索)为音频数据(在框65处)。例如，声音对象引擎27可获得包括该表示的声音对象声音描述符13，并且检索与该表示相关联的声音对象。例如，引擎使用数字表示对声音库28执行表查找，以选择具有匹配的相关联数字表示的声音对象。在另一方面，引擎可从声音库检索最接近(例如，类似于)原始声音对象的声音对象。例如，引擎可从声音库中选择具有最接近的数字表示的声音对象，诸如具有比与声音库内的其他声音对象相关联的对应数值更接近所接收的数字表示(例如，在阈值内)的数值。因此，从声音库检索的声音对象可类似于音频源设备所识别的原始声音对象，但并不精确。

过程60根据从与再现声音对象相关联的数字表示的声音描述符获得的空间特征、运动数据和/或取向数据来空间地渲染再现声音对象(例如，音频)，从而产生一个或多个驱动器信号(在框66处)。例如，空间混响器30可根据空间特征、运动数据和/或取向数据(例如，通过对将HRTF与此类数据相关联的数据结构执行表查找)来确定一个或多个空间滤波器(例如，HRTF)。一旦确定，混响器就可将音频数据(信号)施加到HRTF，从而产生双耳音频信号作为驱动器信号。过程60利用驱动器信号驱动一个或多个扬声器(例如，扬声器21和22)以输出空间地渲染的声音对象(在框67处)。

在一个方面，可在任何给定时间对一个或多个声音对象执行过程60。因此，空间混响器可混合通过空间地渲染每个声音对象来确定的双耳音频信号，以便输出双耳音频信号的混合信号。

图7是用于构建和更新声音库的过程50的信号图。在一个方面，本文所述的操作可由音频源设备1(例如，其控制器5和/或网络接口6)执行。如本文所述，源设备1和接收器设备20两者均可包括声音库(例如，分别为9和28)，这些声音库包括针对一个或多个预定义声音对象和/或声音床的条目。然而，在一些情况下，可能识别到(例如，通过声音对象和声音床标识符10)在库中的至少一个库中不具有对应条目的声音对象(或声音床)。因此，在通信会话期间可在任一库中创建条目。在一个方面，声音库可由任一设备离线(例如，在不参与通信会话时)构建。本文描述了关于离线构建声音库的更多内容。

过程50开始于获得由音频源设备1的麦克风阵列产生的音频信号(在框51处)。例如，控制器5可获得并使用由麦克风阵列2产生的音频信号来构建和更新声音库9。在一个方面，控制器5可获得由语音和环境分离器7产生的环境信号。过程50处理音频信号以将其中包含的声源识别为空间声源数据(在框52处)。过程50处理空间声源数据以识别与声源相关联的声音对象(在框53处)。例如，如本文所述，声音对象和声音床标识符10可使用与空间声源数据相关联的声音特征来将声音识别为声音对象(例如，特定声音，诸如位于右上位置处的飞行的直升机)或识别为声音床的一部分(例如，背景噪声)。又如，标识符10可使用图像数据结合(或代替)声音特征(或声源数据)来识别与声源相关联的对象。一旦识别出对象(例如，在相机的视场内)，标识符10就可根据图像数据来处理音频信号以识别声音对象(例如，狗或位于视场的右上位置处的飞行的直升机)。过程50确定声音库(例如，9)是否具有针对所识别的声音对象或声音床的条目(例如，库是否具有针对飞行的直升机的条目？)(在决策框54处)。例如，声音对象和声音床标识符10可使用声音对象执行表查找，以确定库是否包括针对声音对象的对应条目，如本文所述。如果是，则过程50返回到框52以针对不同的空间声源重复该过程。

然而，如果标识符10确定声音库不具有与所识别的声音对象相关联的条目，则过程50在声音库中为所识别的声音对象创建(或产生)新条目(在框55处)。在一个方面，条目可与本文所述的声音描述符相同或类似。条目可包括空间声源数据(例如，音频数据和/或元数据，诸如声源的位置数据等)、时间戳信息、响度数据以及可从空间声源数据导出的其他声音特征的至少一部分，如本文所述。在一个方面，标识符10可为声音对象分配(或创建)唯一索引标识符并将其存储在新条目中。在另一方面，标识符10可指示声音对象是否与声音床相关联，如本文所述。例如，标识符10可确定声源的扩散程度，并且基于声音的扩散性，可确定声源是声音床的一部分。在另一方面，标识符10可产生条目并等待一段时间(例如，一秒、30秒等)以确定源是否连续，并且因此确定源是否是环境的一部分。如果不是，则可确定源是声音对象而不是声音床的一部分。在另一方面，新条目可包括描述声音对象的物理特征的描述性数据，如本文所述。

在一个方面，包括在新条目中的任何信息(或数据)可由控制器5自动确定(例如，通过机器学习过程)。在另一方面，设备1可获得条目中包括的信息中的至少一些信息的用户输入。例如，在创建条目时，设备1的用户可(例如，通过设备的触摸屏或语音命令)输入信息(例如，物理特征等)。然后将条目存储在设备1的本地存储器中。

过程50将新条目传输到音频接收器设备20。在一个方面，所传输的条目可包括由标识符10填充的元数据中的至少一些元数据。在另一方面，所传输的条目可包括声源的音频数据(例如，PCM数字音频)和/或元数据中的至少一些元数据。因此，当声源稍后(或随后)被音频源设备识别时，可产生声音对象声音描述符或声音床声音描述符并将其传输到音频接收器设备以用于渲染声音的再现，如本文所述。音频接收器设备20将新条目存储在本地声音库28中(在框56处)。在一些方面，在存储条目之前，设备20可确定本地库28是否已经包括由源设备1传输的新条目。如果是，则设备20可将新条目的数据中的至少一些数据(例如，标识符、PCM数字音频、图像数据等)与现有条目相关联。在另一方面，设备20可改为将现有条目传输回源设备1，以供源设备1存储现有条目而不是新条目。

一些方面执行过程50的变型形式。例如，过程50的特定操作可不以所示出和所描述的确切顺序执行。可不在连续的一系列操作中执行该特定操作，并且可在不同方面中执行不同的特定操作。在一个方面，在确定本地声音库9不包括与空间声源数据相关联的条目时，音频源设备1可向远程设备传输请求，以确定与远程设备相关联的远程库是否包括对应条目。例如，音频源设备1可传输使远程服务器对远程库执行表查找的请求。又如，音频源设备1可向音频接收器设备20传输请求，以确定设备20是否已经包括对应条目。如果是，则远程设备可将对应条目传输到源设备1以存储在库9中。在一个方面，当获得条目时，源设备1可修改条目的数据中的至少一些数据(例如，位置数据、响度数据等)。

在一个方面，音频源设备可将声音库9(的至少一部分)存储在远程存储装置(例如，基于云的存储装置)中。具体地讲，源设备可编码(或加密)声音库以阻止其他设备在没有授权的情况下检索库。在一个方面，音频源设备1和/或音频接收器设备20可共享远程存储的声音库的至少一部分，同时彼此进行通信会话。例如，一旦接合，音频源设备1就可向音频接收器设备传输授权消息，从而授权音频接收器设备20检索和使用声音库的该部分。在一个方面，音频源设备可基于音频源设备的位置来确定音频接收器设备可检索声音库的哪个部分。在一个方面，音频接收器设备可执行类似的操作。

在一个方面，音频源设备1可在不与音频接收器设备20进行通信会话时更新和/或构建声音库。在这种情况下，音频源设备1可执行框51-55中所述的操作中的至少一些操作，以便在用户所在的环境内构建不同声音对象(和声音床)的库。在一个方面，当处于这种状态时，设备1可在没有用户干扰的情况下或在后台执行这些操作。

在另一方面，声音对象和/或声音床的声音描述符可由音频源设备1传输到音频接收器设备20，以基于设备1处的用户输入进行空间再现。具体地讲，如上所述，可基于通信数据链路的带宽或可用吞吐量来传输声音描述符。然而，在一个方面，用户可命令设备1将声音描述符传输到接收器设备20，以便在给定位置处空间地渲染声音描述符的声音对象。例如，两个设备都可以是正在通过在相应的显示屏上显示设置并且通过相应的扬声器输出设置的声音来呈现CGR环境(例如，VR和/或MR)的HMD。设备1的用户可能希望接收器设备从接收器设备20的用户的化身后面输出声音(例如，狗吠17)。因此，设备1的用户可为设备1提供用户输入(例如，通过源设备1的显示屏上的虚拟键盘、语音命令等)以将狗吠17传输到接收器设备20。作为响应，标识符10可针对具有匹配的描述性数据的预定义声音对象对声音库执行表查找。一旦识别，标识符10可产生针对狗吠的声音对象声音描述符，包括任何相关联元数据(例如，由用户指示的位置数据)，并且将声音描述符传输到接收器设备20以用于空间渲染。

在一个方面，如迄今为止所述，声音库可包含与在环境内识别的声音对象和/或声音床相关联的元数据和/或音频数据。在一些方面，声音库9(和/或28)内的条目中的至少一些条目可包含声音对象的图像数据。在一个方面，图像数据可在更新和/或构建库时由标识符10填充。在另一方面，当新条目被传输到音频接收器设备20时，图像数据可以是声音描述符(例如，13和14)的一部分。以这种方式，结合空间地渲染声音对象，可将与声音对象相关联的图像数据显示在显示屏23上。继续先前的示例，当两个设备经由CGR环境进行通信时，音频源设备1可能想要将狗吠17添加到环境中。在接收到狗吠的声音描述符时，音频接收器设备20可检索与狗吠(例如，狗)相关联的图像数据，并且将狗呈现在环境中，呈现在环境内的要空间地渲染狗吠的位置处。在一个方面，添加到CGR环境中的任何声音对象可由音频源设备1和音频接收器设备20两者呈现。

根据一个方面，一种方法包括：经由通信数据链路与音频源设备建立通信会话；通过所述通信数据链路并且从所述音频源设备获得与所述通信会话相关联的下行链路信号，所述下行链路信号包含语音音频信号和具有描述声音对象的元数据的声音对象声音描述符；使用所述元数据来产生包括音频信号和指示所述声音对象的虚拟声源的位置的位置数据的所述声音对象的再现；根据所述位置数据空间地渲染所述音频信号以产生若干双耳音频信号；以及将所述语音音频信号与所述双耳音频信号混合以产生若干混合信号来驱动若干扬声器。在一个方面，所述下行链路信号包括音素声音描述符，所述音素声音描述符具有以文本方式表示所述语音音频信号的音素数据。在另一方面，所述方法还包括使用所述音素数据来产生合成语音信号，以及将所述合成语音信号与所述双耳音频信号而不是所述语音音频信号混合以产生若干不同的混合音频信号来驱动扬声器。在一些方面，所述合成语音信号不同于所述语音音频信号，因为所述合成语音信号具有满足以下至少一项的语音：具有与所述语音音频信号的语音不同的声音，并且是与所述语音音频信号的所述语音的语言不同的语言。

在一个方面，所述元数据具有识别所述声音对象的唯一索引标识符，其中使用所述元数据来产生所述声音对象的所述再现包括使用所述唯一索引标识符对具有针对预定义声音对象的一个或多个条目且每个条目具有对应的唯一标识符的声音库执行表查找，从而识别具有匹配的唯一索引标识符的预定义声音对象。在一些方面，在识别所述预定义声音对象时，所述方法还包括从所述声音库中检索包括存储在所述声音库内的所述音频信号的所述声音对象。在另一方面，所述声音对象是第一声音对象，所述方法还包括：通过所述通信数据链路获得所述声音库的针对第二声音对象的新条目，所述第二声音对象包括与所述第二声音对象相关联的音频信号和描述所述第二声音对象的元数据，其中所述元数据包括：1)索引标识符，所述索引标识符唯一地识别所述第二声音对象，以及2)位置数据，所述位置数据指示所述声音对象在声学环境内的位置；以及根据所述位置数据空间地渲染所述第二声音对象以产生第二若干双耳音频信号来驱动所述扬声器。在一个方面，所述声音对象声音描述符是第一声音对象声音描述符，所述方法还包括：获得所述下行链路信号的未来部分，该未来部分包含所述语音音频信号的附加部分和具有描述所述第二对象的元数据的第二声音对象数据声音描述符，其中所述第二声音对象声音描述符的元数据具有：1)所述索引标识符但不包含与所述第二声音对象相关联的音频信号，以及2)所述位置数据；使用所述索引标识符来检索所述第二声音对象；根据所述位置数据空间地渲染所述第二声音对象以产生第三多个双耳信号；以及将所述语音音频信号的所述附加部分与所述第三双耳音频信号混合以产生第二多个混合信号来驱动所述多个扬声器。

根据一个方面，一种方法包括：从电子设备的麦克风阵列获得若干音频信号；处理所述音频信号以识别声音对象；确定所述声音对象是否存储在包含先前识别的声音对象的声音库内；以及响应于确定所述声音对象未存储在所述声音库内，在所述声音库中为所述声音对象创建新条目，所述新条目包括描述所述声音对象的元数据，其中所述元数据至少包括唯一地识别所述声音对象的索引标识符。在一个方面，处理所述音频信号包括产生与所述声音对象相关联的音频信号。在另一方面，所述方法还包括使用所述电子设备的相机来捕获所述电子设备所在的环境的场景作为图像数据，其中根据所述图像数据来处理所述多个音频信号。在一些方面，产生所述音频信号包括通过对所述图像数据执行对象识别算法以识别所述环境的所述场景内与所述声音对象相关联的对象来估计所述声音对象在所述环境内的位置；以及对所述音频信号执行波束形成操作，以使用所述估计位置来朝向所述对象的方向调整定向波束方向图，以便产生包含所述声音对象的声音的输出波束形成器信号。

在一个方面，所述电子设备是第一电子设备并且所述声音库是第一声音库，所述方法还包括向第二电子设备传输所述声音库的所述新条目，所述新条目包含具有所述音频信号的所述声音对象和与所述声音对象相关联的元数据，其中所述第二电子设备被配置为将所述条目存储在第二声音库中并且空间地渲染所述声音对象以用于通过若干扬声器输出。在一些方面，所述方法还包括：处理所述音频信号的一部分以随后在所述声音对象的先前识别之后识别所述声音对象；产生具有描述所述声音对象的元数据的声音对象声音描述符，其中所述元数据包括所述索引标识符；以及将所述声音对象声音描述符传输到所述第二电子设备，所述第二电子设备被配置为：1)使用所述索引标识符对所述第二声音库执行表查找以识别所述声音对象，2)再现包含所述音频信号的所述声音对象，以及3)并且将所述声音对象空间地再现为若干音频信号来驱动若干扬声器。在另一方面，所述方法还包括：获得指示所述声音对象将由所述第二电子设备空间地渲染的用户输入；响应于所述用户输入，产生具有描述所述声音对象的元数据的声音对象声音描述符，其中所述元数据包括所述索引标识符；以及将所述声音对象声音描述符传输到所述第二电子设备，所述第二电子设备被配置为：1)使用所述索引标识符对所述第二声音库执行表查找以识别所述声音对象，2)再现包含所述音频信号的所述声音对象，以及3)并且将所述声音对象空间地再现为多个音频信号来驱动多个扬声器。

本公开的一个方面可为其上存储有指令的非暂态机器可读介质(诸如微电子存储器)，所述指令对一个或多个数据处理部件(这里一般性地称为“处理器”)进行编程以执行网络操作、信号处理操作和音频处理操作。在其他方面，可通过包含硬连线逻辑的特定硬件部件来执行这些操作中的一些操作。另选地，可通过所编程的数据处理部件和固定硬连线电路部件的任何组合来执行那些操作。

虽然已经在附图中描述和示出了某些方面，但是应当理解，此类方面仅仅是对广义公开的说明而非限制，并且本公开不限于所示出和所述的具体结构和布置，因为本领域的普通技术人员可以想到各种其他修改型式。因此，要将描述视为示例性的而非限制性的。

要使用的个人信息应遵循通常公认为满足(和/或超过)维护用户隐私的政府和/或行业要求的实践和隐私政策。例如，任何信息都应该被管理以便降低未经授权或无意访问或使用的风险，并且应清楚地通知用户任何经授权使用的性质。

在一些方面，本公开可包括语言例如“[元素A]和[元素B]中的至少一者”。该语言可以是指这些元素中的一者或多者。例如，“A和B中的至少一者”可以是指“A”、“B”、或“A和B”。具体地讲，“A和B中的至少一者”可以是指“A中至少一者和B中至少一者”或者“至少A或B任一者”。在一些方面，本公开可包括语言例如“[元素A]、[元素B]、和/或[元素C]”。该语言可以是指这些元素中任一者或其任何组合。例如，“A、B和/或C”可以是指“A”、“B”、“C”、“A和B”、“A和C”、“B和C”或“A、B和C”。

Claims

1.一种驱动扬声器的方法，包括：

从第一电子设备的麦克风阵列获得多个音频信号；

处理所述多个音频信号以产生语音信号以及包含来自所述第一电子设备所在的声学环境的环境声音的一个或多个环境信号；

处理所述环境信号以产生声音对象声音描述符，所述声音对象声音描述符具有描述所述声学环境内的声音对象的元数据；

确定用于将数据从所述第一电子设备传输到第二电子设备的通信数据链路的带宽或可用吞吐量；以及

基于所确定的所述通信数据链路的所述带宽或可用吞吐量，通过所述通信数据链路将所述语音信号、所述声音对象声音描述符、或所述语音信号和所述声音对象声音描述符两者的组合传输到所述第二电子设备，其中所述第二电子设备被配置为使用与所述语音信号混合的所述声音对象声音描述符空间地再现所述声音对象，以产生多个混合信号来驱动多个扬声器。

2.根据权利要求1所述的方法，其中处理所述环境信号以产生所述声音对象声音描述符包括：

识别所述声学环境内的声源，所述声源与所述声音对象相关联，以及

产生空间声源数据，所述空间声源数据相对于所述第一电子设备空间地表示所述声源。

3.根据权利要求2所述的方法，其中所述空间声源数据将所述声源参数地表示为所述声源的高阶立体混响格式。

4.根据权利要求2所述的方法，其中所述空间声源数据包括音频信号和指示所述声源相对于所述第一电子设备的位置的位置数据。

5.根据权利要求4所述的方法，其中所述音频信号包括定向波束方向图，所述定向波束方向图包括所述声源。

6.根据权利要求2所述的方法，还包括处理所述空间声源数据以确定所述声音对象的分布式数字表示，其中所述元数据包括所述声音对象的所述数字表示。

7.根据权利要求2所述的方法，还包括通过使用所述空间声源数据对具有一个或多个条目且每个条目针对对应的预定义声音对象的声音库执行表查找以将所述声音对象识别为所述声音库中包含的匹配的预定义声音对象，从而识别所述声音对象。

8.根据权利要求7所述的方法，其中所述条目中的至少一些条目包括描述所述对应的预定义声音对象的声音特征的元数据，其中对所述声音库执行所述表查找包括将所述空间声源数据的声音特征与所述声音库中的所述条目中的所述至少一些条目的所述声音特征进行比较以及选择具有匹配的声音特征的所述预定义声音对象。

9.根据权利要求7所述的方法，还包括使用所述第一电子设备的相机来捕获图像数据；

对所述图像数据执行对象识别算法以识别所述图像数据中包含的对象，

其中所述声音库中的所述条目中的至少一些条目包括描述所述对应的预定义声音对象的物理特征的元数据，其中对所述声音库执行所述表查找包括将所识别的对象的物理特征与所述声音库中的所述条目中的所述至少一些条目的所述物理特征进行比较以及选择具有匹配的物理特征的所述预定义声音对象。

10.根据权利要求7所述的方法，其中所述声音库的每个条目包括对应于预定义声音对象的元数据，其中每个条目的所述元数据至少包括所述条目的对应声音对象的索引标识符，其中产生所述声音对象声音描述符包括：

找到所述匹配的预定义声音对象；以及

将对应于所述匹配的预定义声音对象的所述索引标识符添加到所述声音对象声音描述符。

11.根据权利要求10所述的方法，其中产生所述声音对象声音描述符包括根据所述空间声源数据确定指示所述声音对象在所述声学环境内的位置的位置数据和指示所述声音对象在所述麦克风阵列处的声级的响度数据以及将所述位置数据和所述响度数据添加到所述声音对象声音描述符。

12.根据权利要求7所述的方法，其中响应于确定所述声音库不包括所述匹配的预定义声音对象，所述方法还包括：

创建用于唯一地识别所述声音对象的索引标识符；以及

针对所述声音对象创建进入所述声音库的条目，所述条目包括所创建的索引标识符。

13.根据权利要求12所述的方法，其中所述空间声源数据包括所述声音对象的音频信号，其中所述声音对象声音描述符还包括所述声音对象的所述音频信号，其中在接收到所述声音对象声音描述符时，所述第二电子设备被配置为将所述音频信号和所述索引标识符存储在本地声音库中的新条目中。

14.根据权利要求1所述的方法，其中所述第一电子设备是头戴式设备。

15.一种驱动扬声器的方法，包括：

从音频源设备的麦克风阵列获得多个音频信号；

处理所述多个音频信号以产生语音信号和一个或多个环境信号；

根据所述环境信号将背景或扩散环境声音识别为与所述音频源设备所在的声学环境相关联的声音床的一部分；

产生声音床声音描述符，所述声音床声音描述符具有描述所述声音床的元数据，其中所述元数据包括：1)索引标识符，所述索引标识符唯一地识别所述背景或扩散环境声音，以及2)响度数据，所述响度数据指示所述麦克风阵列处的所述背景或扩散环境声音的声级；

确定用于将数据从所述音频源设备传输到音频接收器设备的通信数据链路的带宽或可用吞吐量；以及

基于所确定的所述通信数据链路的所述带宽或可用吞吐量，通过所述通信数据链路将所述语音信号、所述声音床声音描述符、或所述语音信号和所述声音床声音描述符两者的组合传输到音频接收器设备，其中所述音频接收器设备被配置为使用所述声音床声音描述符将包括所述背景或扩散环境声音的所述声音床空间地再现为与所述语音信号混合的多个音频信号，以产生多个混合信号来驱动多个扬声器。

16.根据权利要求15所述的方法，其中识别所述背景或扩散环境声音包括：

识别所述声学环境内的声源；以及

确定所述声源在阈值时间段内在所述声学环境内产生声音至少两次。

17.根据权利要求16所述的方法，其中所述音频接收器设备被配置为在利用所述多个混合信号驱动所述多个扬声器之后周期性地使用所述多个音频信号来驱动所述多个扬声器。

18.根据权利要求17所述的方法，其中所述音频接收器设备根据预定义时间段周期性地使用所述多个音频信号来驱动所述多个扬声器。

19.根据权利要求15所述的方法，还包括：

确定所确定的所述带宽或可用吞吐量是否少于阈值；以及

响应于所确定的所述带宽或可用吞吐量少于所述阈值，阻止所述音频源设备传输未来的声音床声音描述符，同时继续向所述音频接收器设备传输所述语音信号。

20.根据权利要求19所述的方法，其中所述阈值是第一阈值，其中所述方法还包括：

使用所述语音信号产生将所述语音信号表示为音素数据的音素声音描述符；以及

响应于所确定的所述带宽或可用吞吐量少于第二阈值而所述第二阈值少于所述第一阈值，传输所述音素声音描述符代替所述语音信号。

21.一种驱动扬声器的方法，包括：

从第一电子设备的麦克风阵列获得多个音频信号，所述多个音频信号包含来自所述第一电子设备所在的声学环境的声音；

处理所述多个音频信号中的至少一些音频信号以产生声音对象声音描述符，所述声音对象声音描述符具有描述所述声学环境内的声音对象的元数据，其中所述元数据包括：1)索引标识符，所述索引标识符唯一地识别所述声音对象，2)位置数据，所述位置数据指示所述声音对象在所述声学环境内的位置，3)响度数据，所述响度数据指示所述声音对象在所述麦克风阵列处的声级；以及

通过通信数据链路将所述声音对象声音描述符传输到第二电子设备，所述第二电子设备被配置为使用所述声音对象声音描述符空间地再现所述声音对象，以产生多个双耳音频信号来驱动多个扬声器。

22.根据权利要求21所述的方法，其中处理所述多个音频信号中的所述至少一些音频信号包括：

识别所述声学环境内的声源，所述声源与所述声音对象相关联；以及

23.根据权利要求22所述的方法，还包括通过使用所述空间声源数据对具有一个或多个条目且每个条目针对对应的预定义声音对象的声音库执行表查找以将所述声音对象识别为所述声音库中包含的匹配的预定义声音对象，从而将所述空间声源数据识别为所述声音对象。

24.根据权利要求23所述的方法，其中所述条目中的至少一些条目包括描述所述对应的预定义声音对象的声音特征的元数据，其中对所述声音库执行所述表查找包括将所述空间声源数据的声音特征与所述声音库中的所述条目中的所述至少一些条目的所述声音特征进行比较以及选择具有匹配的声音特征的所述预定义声音对象。

25.根据权利要求24所述的方法，其中所述索引标识符是第一索引标识符，其中所述方法还包括：

处理所述多个音频信号中的至少一些音频信号以产生声音床声音描述符，所述声音床声音描述符具有描述所述声学环境的声音床的元数据，其中所述元数据包括：1)第二索引标识符，所述第二索引标识符唯一地识别所述声音床，以及2)响度数据，所述响度数据指示所述声音床在所述麦克风阵列处的声级；以及

通过所述通信数据链路将所述声音床声音描述符传输到所述第二电子设备，所述第二电子设备被配置为将所述声音床空间地再现为与所述多个双耳音频信号混合的多个音频信号，以产生多个混合信号来驱动所述多个扬声器。

26.根据权利要求21所述的方法，还包括：

处理所述多个音频信号中的至少一些音频信号以产生语音信号，所述语音信号包含所述第一电子设备的用户的语音；以及

通过所述通信数据链路将所述语音信号传输到所述第二电子设备，所述第二电子设备被配置为将所述语音信号与所述多个双耳音频信号混合以产生多个混合信号来驱动所述多个扬声器。

27.一种第一电子设备，包括：

麦克风阵列；

至少一个处理器；以及

存储器，具有指令，在所述指令由所述至少一个处理器执行时，使得所述第一电子设备：

从麦克风阵列获得多个音频信号；

28.根据权利要求27所述的第一电子设备，其中所述存储器还具有用于以下的指令：

确定所确定的所述带宽或可用吞吐量是否少于阈值；以及

响应于所确定的所述带宽或可用吞吐量少于所述阈值，阻止所述第一电子设备传输未来的声音床声音描述符，同时继续向所述第二电子设备传输所述语音信号。

29.根据权利要求28所述的第一电子设备，其中所述阈值是第一阈值，其中所述存储器还具有用于以下的指令：

30.根据权利要求27所述的第一电子设备，其中用于处理所述环境信号以产生所述声音对象声音描述符的指令包括用于以下的指令：

产生空间声源数据，所述空间声源数据相对于所述第一电子设备空间地表示所述声源，其中所述元数据是基于所述空间声源数据。