CN113519023A

CN113519023A - 具有压缩环境的音频编码

Info

Publication number: CN113519023A
Application number: CN202080017940.5A
Authority: CN
Inventors: T·霍尔曼; C·T·尤班克; J·D·阿特金斯; S·佩尔策; D·施罗德
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-10-29
Filing date: 2020-10-15
Publication date: 2021-10-19
Also published as: US20240163609A1; US11930337B2; WO2021086624A1; US20210329381A1

Abstract

本公开涉及具有压缩环境的音频编码。音频设备可使用多个麦克风来感测物理环境中的声音以生成多个麦克风信号。干净语音可从麦克风信号中提取。环境可从麦克风信号中提取。可在第一压缩水平对干净语音进行编码。环境可在高于第一压缩水平的第二压缩水平进行编码。也描述了其他方面并要求对其他方面进行保护。

Description

具有压缩环境的音频编码

相关申请的交叉引用

本申请要求提交于2019年10月29日的美国临时专利申请第62/927244号的权益，该申请以引用的方式全文并入本文。

技术领域

本公开的一个方面涉及具有压缩环境的音频处理。

背景技术

可嵌入消费电子设备中的麦克风阵列可有利于用于捕获声音并呈现空间(3D)声音的装置。麦克风捕获的信号可包含有关空间的3D声学信息。3D音频渲染可被描述为音频信号(诸如麦克风信号或其他记录或合成的音频内容)的处理，以便产生由多信道扬声器装置产生的声音，例如立体声扬声器、环声扬声器、扬声器阵列或耳机。

由扬声器产生的声音可被收听者感知为来自特定方向或在三维空间中围绕收听者。例如，此类虚拟声源中的一个或多个虚拟声源可在声音节目中生成，该声音节目将被收听者感知为在收听者后面、上方或下方，或者从收听者的一侧平移到另一侧。

在诸如电话会议、扩展现实或其他多用户应用程序的应用程序中，第一用户可利用显示第一用户(或第一用户的表示)和第一用户的物理环境的语音和视觉信息来向第二用户进行通信。第二用户可沉浸于第一用户的物理环境中。

发明内容

音频信号可由麦克风阵列在物理环境或环境中捕获。物理环境是人们可在不使用电子系统的情况下感测和/或交互的世界中的那些环境。例如，房间是包括物理元素诸如物理椅子、物理桌子、物理灯等的物理环境。人可通过直接触觉、味觉、视觉、嗅觉和听觉来感测物理环境的这些物理元素并与这些物理元素进行交互。

虚拟声源可在扩展现实环境或环境中生成。与物理环境相比，扩展现实(XR)环境是指部分或完全使用计算机产生的内容生成的计算机产生的环境。虽然人可使用各种电子系统与XR环境进行交互，但这种交互利用各种电子传感器来监视人的动作，并将那些动作转换为XR环境中的对应动作。例如，如果XR系统检测到人正向上看，则XR系统可以改变其图形和音频输出，从而以与向上移动一致的方式呈现XR内容。XR环境可遵守物理定律来模拟物理环境。

XR的概念包括虚拟现实(VR)和增强现实(AR)。XR的概念还包括混合现实(MR)，其有时用于指代来自一端的物理环境(但不包括物理环境)与另一端的VR之间的现实的频谱。XR的概念还包括增强虚拟(AV)，其中虚拟或计算机产生的环境集成了来自物理环境的感官输入。这些输入可表示物理环境的特征。例如，虚拟对象可呈现使用图像传感器从物理环境捕获的颜色。或者，AV环境可以采用物理环境的当前天气状况。

一些用于实现XR的电子系统与不透明显示器和用于捕获物理环境的视频和/或图像的一个或多个成像传感器一起操作。在一些具体实施中，当系统捕获物理环境的图像并且使用所捕获的图像在不透明显示器上显示物理环境的表示时，所显示的图像被称为视频透传。用于实现XR的一些电子系统与透明或半透明显示器(并且任选地与一个或多个成像传感器)一起操作。此类显示器允许人通过显示器直接查看物理环境，并且还允许通过将内容叠加在物理环境上而将虚拟内容添加到人的视场中。用于实现XR的一些电子系统与将虚拟对象投影到物理环境上的投影系统一起操作。例如，投影仪可将全息图呈现到物理环境上，或者可将图像投影到物理表面上，或者可投影到人的眼睛(例如，视网膜)上。

提供XR环境的电子系统可具有各种形状因数。智能电话或平板电脑可结合成像和显示部件以提供XR环境。一种头戴式系统可包括成像和显示部件以提供XR环境。这些系统可提供用于提供XR环境的计算资源，并且可彼此结合工作以提供XR环境。例如，智能电话或平板电脑可与头戴式显示器连接以提供XR环境。或者，计算机可与家庭娱乐部件或车辆系统连接以提供车载显示器或平视显示器。提供XR环境的电子系统可利用显示技术，诸如LED、OLED、硅基液晶、激光扫描光源、数字光投影仪或它们的组合。显示技术可采用透射光的基板，包括光波导、全息基板、光学反射器和合路器或它们的组合。

在本公开的一个方面，由音频设备执行的方法包括：使用多个麦克风来感测物理环境中的声音以生成多个麦克风信号；从麦克风信号提取干净语音；从麦克风信号提取环境；以及在比特流中对a)第一压缩水平的编码的语音信号中的干净语音进行编码，以及对b)高于第一压缩水平的第二压缩水平的编码的环境信号中的环境进行编码。环境可在回放设备处回放以提供更沉浸式的体验。以这种方式，可以相对高的比特率(例如，96kB/sec、128kB/sec或更高)发送干净语音。另一方面，环境音频可具有相等或甚至低得多的比特率。环境是除语音之外的噪声和/或声音，并且可以在更高的压缩水平下压缩到比语音低得多或相等的比特率，而音频质量降低不太明显。

附加地或另选地，生成表征扬声器的声学环境的一个或多个声学参数并将其编码入比特流。这可应用于语音信号，使得语音听起来不太干巴巴的。

压缩是指减少表示底层数据(例如，声音)所需的位数。压缩数据可改善存储能力、数据传输效率和网络带宽利用率。压缩水平是指有多少数据被压缩。例如，如果音频流具有256kB/sec的原始比特率，则可以第一压缩水平对音频流进行编码，从而得到128kB/sec的比特率。如果使用较高的压缩水平来编码相同的音频流，则这可导致96kB/sec的比特率。该示例旨在示出不同压缩水平的应用并且不旨在为限制性的。

以上概述不包括本公开的所有方面的详尽列表。可预期的是，本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书部分特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。

附图说明

本公开的各方面以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，可使用给定附图示出本公开的不止一个方面的特征部，并且对于给定方面，可能并非需要该附图中的所有元件。

图1在一个方面示出了示例性多用户音频处理系统。

图2在一个方面示出了音频处理系统的流程图。

图3在一个方面示出了具有相机和视频处理的音频处理系统的流程图。

图4在一个方面示出了用于基于相机和麦克风数据生成声学参数的音频处理系统的流程图。

图5示出了具有编程处理器的音频系统的示例性具体实施。

具体实施方式

现在将参考所附附图来解释本公开的各方面。每当所描述的部件的形状、相对位置和其它方面未明确限定时，本发明的范围并不仅局限于所示出的部件，所示出的部件仅用于例证的目的。另外，虽然阐述了许多细节，但应当理解，本公开的一些方面可在没有这些细节的情况下被实施。在其他情况下，未详细示出熟知的电路、结构和技术，以免模糊对该描述的理解。

图1示出了多用户环境(例如，XR环境或视频会议)中的音频处理的示例。第一用户60位于第一声学环境58中，该第一声学环境可以是室内(例如，客厅)或室外(例如，野外或体育场)。第一用户具有音频系统(例如，捕获设备)，该音频系统具有多个麦克风。捕获设备可包括耳机装置52、移动电话56、平板电脑、膝上型计算机或台式计算机、智能扬声器、相机、具有显示器和耳机的头戴式设备或具有麦克风的其他电子设备中的一者或多者。

第一用户可向位于第二声学环境66中的第二用户64进行通信(例如，讲话)，第二用户还具有音频系统(例如，回放设备)以接收由第一用户发送的比特流62。第一用户和第二用户处于不同的声学环境中，例如，第一用户可在客厅中，并且第二用户可在野外。在多用户应用程序(诸如XR环境或视频电话会议)中，当被处理以去除混响和/或噪声时，将第一用户的语音回放给第二用户可能听起来“干巴巴的”。向第二用户传送环境音频信息(例如，第一用户的声学环境中除语音之外的声音)可能由于带宽约束而对通信系统施加压力，尤其是当使用无线通信时。

在捕获设备处，语音和环境可从麦克风信号中分别提取成独立音频信号、干净语音信号和一个或多个环境信号。语音可以第一比特率进行编码，而环境可以以低于或等于第一比特率的一个或多个位率进行编码，然而，以更高的压缩水平进行编码。比特流62可以被传送给第二用户以用于回放。第二用户的回放设备可以更高比特率和/或更低压缩水平智能地播放语音，而同时回放具有更低比特率和/或更高压缩水平的环境以为第二用户提供沉浸式体验。

尽管以更低比特率和/或更高压缩水平对环境声音进行编码，但由于第一用户/发送人的语音是第二用户的主要关注点，因此质量的降低不太明显。发送人的捕获设备还可确定发送人的环境的声学数据，诸如混响时间、早期反射模式和用户的环境的声学脉冲响应。该声学数据可被传送到第二用户并且应用于第一用户的语音，使得语音听起来不太“干巴巴的”。该数据的大小可以远小于第一用户语音的数据，因此还保留通信带宽，同时仍然提供沉浸式环境。

视频流也可与音频同时在用户之间传送，如其他部分中所述。视频流可以包括说话人的视频或计算机生成的“头像”，其可以是说话人的图形表示。视频流还可以描绘说话人的声学环境。可基于在元数据中发送(例如，从第一用户到第二用户)的声学参数或空间参数来处理(例如，空间化和/或混响)说话人的语音以匹配XR环境。

应当理解，第二用户可类似地捕获并处理音频(例如，语音和环境)，并且使用上文相对于第一用户所述的相同过程将比特流68传送回第一用户。

图2示出了用于处理音频的音频系统和过程以提供沉浸式音频体验。捕获设备21可具有麦克风72，该麦克风形成具有固定位置和已知位置的麦克风阵列。麦克风可感测物理环境中的声音并生成对应的麦克风信号。如所提及的，捕获设备和回放设备22可包括耳机装置52、移动电话56、平板电脑、膝上型计算机或台式计算机、智能扬声器、相机、具有显示器和耳机的虚拟现实头戴式耳机或具有麦克风的其他电子设备中的一者或多者。

音频处理器74可从麦克风信号提取干净语音。音频处理器从麦克风72接收麦克风信号并提取：a)用户的干净语音，以及b)环境声音。本文的“环境声音”可被理解为包括用户的物理环境中除了由麦克风72拾取的用户的语音之外的声音。干净语音82可不含混响和环境声音分量。应当理解，音频处理器可利用模数转换器将麦克风信号中的每个麦克风信号从模拟转换成数字，如本领域中所公知的。此外，音频信号处理器可将数字麦克风信号中的每个数字麦克风信号从时域转换到频域(例如，短时傅里叶变换或其他已知的频域格式)。

在一个方面，修改的感知维纳滤波器(MPWF)77可用于从麦克风信号中分别提取语音和环境声音。附加地或另选地，波束形成器71可实现自适应波束形成算法以处理麦克风信号以分别提取语音和环境。波束形成器可从麦克风信号形成声学拾取波束，该声学拾取波束聚焦在语音从其发出的物理环境中的位置(例如，语音源位置)处。为了确定语音源位置，在一个方面，空间波束可聚焦在目标方向(其可为语音可能所在的预定“猜测”)上并且自适应(例如，动态地)，以便使期望的参数诸如信号噪声干扰比或信噪比(SNR)最大化或最小化。其他自适应波束形成技术可包括最小均方(LMS)误差和/或采样矩阵求逆(SMI)算法。

在一个方面，音频处理器74包括去除混响语音分量的去混响器85。去混响器可应用于麦克风信号或干净语音信号，以去除由麦克风拾取的语音的混响分量。

音频处理器74可从麦克风信号提取环境。在一个方面，提取环境80包括从麦克风信号中减去干净语音。通过确定干净语音，然后从麦克风信号减去干净语音，所得的一个或多个信号可仅包含环境(例如，一个或多个环境声音或噪声)。

另选地或除此之外，可通过在物理环境中的语音源位置(例如，说话人的嘴部)处引导零声学拾取波束来从麦克风信号提取环境。由麦克风拾取的声学环境中除语音之外的声音(包括混响、早期反射、噪声、其他说话人等)可存在于环境音频信号80中。编码器76可在比特流86中对干净语音和环境进行编码。

干净语音以第一比特率和/或第一压缩水平进行编码，并且环境以第二比特率和/或第二压缩水平进行编码。第二比特率低于或等于第一比特率。附加地或另选地，环境的第二压缩水平高于干净语音的第一压缩水平。编码器可例如针对干净语音和环境使用不同编解码器(例如，编解码器A和编解码器B)或压缩算法。应用于环境的编解码器或算法具有比应用于干净语音的编解码器或算法更大的压缩率。通过使用更高的压缩水平来对环境进行编码，更多的带宽可被分配给干净语音，其中质量或分辨率的下降往往更容易被收听者注意到。

在一个方面，编码的干净语音的比特率为128kB/sec或更大。在一个方面，编码的环境的比特率显著低于编码的干净语音，例如，小于编码的干净语音的比特率的十分之一。空间编解码器可具有比语音编解码器更高的比特率。因此，环境如果不被压缩，则可具有非常高的比特率并对网络带宽施加压力。在一个方面，编码的干净语音的比特率可以与环境相同。尽管比特率相同或大致相似，但编码的环境以更高水平进行压缩。例如，编码的干净语音具有96kB/sec的比特率，并且编码的环境在以更高水平压缩之后具有96kB/sec的比特率。

在一个方面，音频处理器74可基于麦克风信号来确定表征物理环境的声学的一个或多个声学参数78。例如，音频处理器可基于麦克风信号来确定混响衰减时间(例如，T60、T30、T20等)、物理环境中声音的早期反射模式和/或物理环境的一个或多个脉冲响应(例如，双耳房间脉冲响应)。声学参数可被编码到比特流86中并由回放设备应用于干净语音。

在一个方面，捕获设备的音频处理器提取和编码干净语音和一个或多个声学参数(例如，混响时间、早期反射模式和/或物理环境的一个或多个脉冲响应)，而不提取和编码环境信号。换句话讲，仅对干净语音和声学参数(以及任选地，空间数据和视频数据)进行编码。这可进一步减少带宽使用并将附加带宽分配给待传送的干净语音(和/或视频)。

在一个方面，一个或多个声学参数可以随时间变化并随时间推移而改变。麦克风信号可被连续处理以生成新的参数，因为捕获设备可在相同的空间(例如，房间)中移动或改变空间(例如，从一个房间到另一个房间，或从房间内到开放空间，或反之亦然)。

在一个方面，麦克风与捕获设备成一整体。音频设备处理来自麦克风信号的声音并且将音频信息编码入比特流86，该比特流利用发射器84通过通信协议(例如，Wi-Fi、以太网、TPC/IP等)的任何组合传输到第二设备(例如，回放设备)，该发射器可以是有线或无线的。

在一个方面，比特流还包括空间参数/数据79。例如，音频处理器可使用波束形成或利用到达时间(TOA)和/或到达时间差(TDOA)的其他已知定位算法来估计由多个麦克风72感测的语音或环境的方向和/或位置。空间数据可由编码器编码并包括在比特流中。空间数据可由回放设备应用于干净语音，以在回放期间在虚拟位置处空间再现语音。在一个方面，空间数据可以是预先确定的环境，而不是基于处理音频信号来确定。例如，空间数据可以是与干净语音相关联的预先确定的环境，使得语音在收听者正前方被空间化和回放，而不管干净语音最初从何处发出。

回放设备22可具有接收器89，该接收器通过网络83接收比特流或直接从捕获设备的发射器84接收比特流。在一个方面，比特流包括：a)编码的语音信号，该编码的语音信号包含由物理环境中的多个麦克风感测的语音，该编码的语音信号具有第一压缩水平；b)编码的环境信号，该编码的环境信号包含由物理环境中的多个麦克风感测的环境声音，该编码的环境信号具有高于编码的语音信号的压缩水平的第二压缩水平；以及c)物理环境的一个或多个声学参数。在一个方面，存在多个环境信号。应当理解，“环境”和“环境”在本公开中可互换使用。

解码器88可对编码的语音信号和环境信号进行解码。在框70处，可将一个或多个声学参数诸如混响时间或早期反射应用于语音信号以将混响分量添加到语音信号，使得语音信号在回放给收听者时不会听起来“干巴巴的”。

在一个方面，一个或多个声学参数包括一个或多个脉冲响应(例如，双耳房间脉冲响应(BRIR)，并且脉冲响应被应用于解码的语音信号以空间化语音以通过多个扬声器中的左耳机扬声器和右耳机扬声器进行回放。在一个方面，比特流包括空间数据，诸如语音的位置和/或方向。空间渲染器73可将一个或多个HRTF 75或脉冲响应应用于语音信号。HRTF或脉冲响应可基于语音的位置和/或方向来选择或生成，以对语音进行空间化。包含空间化语音的音频信号可用于驱动扬声器81(例如，耳机装置的左扬声器和右扬声器)。左扬声器和右扬声器可以是入耳式扬声器、挂耳式扬声器或嵌耳式扬声器。耳机装置可被密封或打开。应当理解，HRTF和脉冲响应在本公开中是可互换的，HRTF适用于频域，而脉冲响应适用于时域，并且相对于本公开的音频的处理可在时域或频域中执行。

在一个方面，生成与干净语音协调的说话人的视觉表示并与干净语音一起传送。例如，如图3所示，相机91可生成一个或多个图像，诸如视频流。视频流可以包括说话人/发送人的视觉表示。视频处理器90可生成模拟视频信号93中说话人的移动(例如，嘴部移动)的用户虚拟表示(例如，计算机生成的模型或“头像”)。或者，视频信号93可简单地包含由相机93捕获的用户的真实视频流。

空间数据可包括语音的位置(x、y和z)和/或方向(例如，翻滚、俯仰和偏航)。视频编码器92可对视频流进行编码并且将流传输到收听者以用于回放。在回放期间，可使用语音的位置和/或方向对干净语音进行空间化。同时，视频处理器96可将视频流呈现到回放设备的显示器98上。视频流可以包括说话人的头像或真实描绘，以及说话人的声学环境(例如，在背景或前景中)。语音在时间上和空间上与回放期间头像的渲染或说话人的真实描绘协调，从而提供沉浸式XR体验或电话会议体验。

例如，重新参考图1，第一用户60可具有带有相机的设备56，该相机捕获正在讲话的第一用户的视频流以及第一用户58在背景中的声学环境，该背景恰好在礼堂中。设备56或耳机装置52上的麦克风可生成感测第一用户语音的麦克风信号。在第一压缩水平下提取语音并对其进行编码，并且在高于第一压缩水平的第二压缩水平下提取环境声音并对其进行编码。可基于麦克风信号(例如，通过波束形成、TOA和/或TDOA)和/或基于视频流(例如，使用对象识别、计算机视觉和/或训练的神经网络来识别用户的面部和嘴部运动)来确定与语音相关联的空间数据。可以将第一用户的真实描绘或计算机生成的头像发送到第二用户。

使用对象识别、计算机视觉、面部识别和/或训练的神经网络，可以生成头像并以动画方式显示以匹配用户的移动(例如，嘴部移动)，使得头像看起来正在讲话。头像或真实描绘可以与来自第一用户的语音同时回放给第二用户。可为移动设备和头戴式耳机或具有耳机的虚拟现实显示器的组合的第二用户的回放设备可呈现视频和音频比特流。第一用户的语音可以用与头像或真实描绘的嘴部位置和/或说话方向匹配的虚拟位置和/或方向在空间上渲染(例如，在XR环境中)。

在一个方面，基于a)物理环境的一个或多个图像，以及b)基于多个麦克风信号测量的物理环境的混响来确定一个或多个声学参数。

例如，图4示出了可基于由相机102捕获的物理环境的一个或多个图像104和由同一物理环境的麦克风108感测的测量的声学参数(例如，混响、早期反射、脉冲响应)来生成声学参数的系统和过程。如所讨论的，扩展现实环境可包括空间化声音以及任选地具有用描绘物理环境的图像渲染的虚拟内容的视觉分量。

相机102生成物理环境的一个或多个场景图像104。环境模型生成器22基于一个或多个场景图像来生成物理环境的估计模型。所估计的模型可包括物理环境的三维空间表示，以及物理环境的一个或多个环境参数，诸如房间和所检测的对象的一个或多个声学表面材料参数和/或散射参数。环境参数可以是频率相关的，例如，可以估计不同的参数以对应于不同的频率。所估计的模型可存储在已知数据结构中，例如作为体素网格或网格数据结构。声学表面材料参数可包括取决于表面、对象或房间的材料(例如，表面材料)的吸声参数。表面或对象的散射参数可以是基于表面或对象的尺寸、结构和/或形状或受其影响的几何属性。因此，所估计的模型可包括物理房间几何形状以及在物理环境中检测到的对象以及房间和对象的环境参数。

所估计的模型可通过计算机视觉技术诸如对象识别来生成。训练的神经网络可用于识别图像中的对象和材料表面。可用生成二维图像(例如，位图)的2D相机来检测表面。3D相机(例如，具有一个或多个深度传感器)也可以用于生成具有二维参数(例如，位图)和深度参数的三维图像。因此，相机102可以是2D相机或3D相机。模型库可用于定义场景图像中的所识别的对象。

一个或多个麦克风阵列108可捕获音频信号，该音频信号捕获物理环境中的一个或多个声音(例如，环境和语音)。音频信号处理器110可用模数转换器将音频信号中的每一个音频信号从模拟转换成数字，如本领域中所公知的。此外，音频信号处理器可将数字音频信号中的每个数字音频信号从时域转换到频域。声学参数生成器112(例如，计算机估计器)可生成物理环境的一个或多个声学参数，诸如但不限于混响衰减时间、早期反射模式或直接混响比(DRR)。

在一个方面，生成对应于音频信号的一个或多个频率范围的物理环境的一个或多个声学参数。这样，每个频率范围(例如，频带或频点)可具有对应的参数(例如，混响特性、衰减速率或所提及的其他声学参数)。参数可以是频率相关的。

声学模型完善器114可以通过基于所测量的声学参数修改和/或生成所估计的模型的一个或多个声学表面材料参数和/或散射参数来完善所估计的模型，从而得到物理环境的更新模型。这样，基于相机图像的所估计的模型还可具有改善或优化(例如，增加或减少)以更紧密地匹配物理环境的所测量的声学参数的声学表面材料参数(例如，声音吸收、散射或声音降低参数)。例如，该处理可包括基于将所估计的模型的所估计的或模拟的声学响应与环境的所测量的声学参数进行比较，通过增加或减少一个或多个声学表面材料参数来修改所估计的模型的声学表面材料参数。因此，系统可通过基于感测物理环境中的声音的麦克风信号调整这些参数来改善模型的声音参数(例如，模型中的对象的散射特性/参数、吸声系数、混响时间、早期反射模式和/或声音降低参数)。

编码器116可对所估计的模型和/或改善的声学参数进行编码，并且将其包括在要传送给收听者的比特流中。该比特流还可以包括用户的干净语音(如图2和图3所示)以及任选地环境，其中环境被压缩到比比特流中的干净语音更低的比特率和/或以更高的压缩水平进行压缩。在一个方面，声学模型完善器可以基于更新的模型来选择或生成一个或多个脉冲响应。

可在框116处对可包括物理环境的三维模型、散射参数、吸声系数、混响时间、早期反射模式和/或一个或多个脉冲响应的改善的声学参数进行编码并将其传送给收听者以用于回放。该信息可形成图2和图3所示的“声学参数”和“空间数据”。回放设备可将语音信号与一个或多个脉冲响应进行卷积以生成空间化输出音频通道，使得由音频通道驱动的扬声器可生成声音(例如，语音)将看起来从XR环境中的目标位置发出。

在一个方面，输出音频通道与在图像(例如，头像)上渲染的虚拟视觉对象同步地驱动扬声器，并且虚拟声源的虚拟位置对应于在虚拟化环境中在图像上渲染的虚拟视觉对象的视觉位置。

在一个方面，可用图像渲染虚拟视觉对象以生成在数据中编码的虚拟视觉环境；并且可用虚拟视觉环境的数据来驱动显示器。捕获设备诸如平板电脑或智能电话可具有在前面和后面的多个相机以及显示器。因此，在一些情况下，前向相机可生成说话的用户的视频，而后向相机可生成用户的物理环境的视频。

图5示出了在一个方面可与本文所述方面中的任一方面一起使用的音频处理系统硬件的框图。该音频处理系统可表示通用计算机系统或专用计算机系统。需注意，虽然图5示出了可被结合到耳机、扬声器系统、麦克风阵列和娱乐系统中的音频处理系统的各种部件，但这仅仅是特定具体实施的一个示例，并且仅仅是为了示出可存在于音频处理系统中的部件的类型。图5并不旨在表示使这些部件互连的任何特定架构或方式，因为此类细节与本文所述的各方面并无密切关系。还应理解，还可使用具有比图5所示更少部件或更多部件的其他类型的音频处理系统。因此，本文所述的过程不限于与图5的硬件和软件一起使用。

如图5所示，音频处理系统150(例如，膝上型计算机、台式计算机、移动电话、智能电话、平板电脑、智能扬声器、头戴式显示器(HMD)或者用于汽车或其他车辆的信息娱乐系统)包括用于将系统的各种部件互连的一条或多条总线162。如本领域中所公知地，一个或多个处理器152耦接到总线162。一个或多个处理器可以是微处理器或专用处理器、片上系统(SOC)、中央处理单元、图形处理单元、通过专用集成电路(ASIC)创建的处理器或它们的组合。存储器151可包括使用本领域已知的技术耦接到总线的只读存储器(ROM)、易失性存储器和非易失性存储器或它们的组合。

虽然未在图5中示出，存储器可连接到总线并且可包括DRAM、硬盘驱动器或闪存存储器，或磁性光驱或磁性存储器，或光驱或者是甚至在系统断电之后仍维护数据的其他类型的存储器系统。在一个方面，处理器152检索存储在机器可读存储介质(存储器)中的计算机程序指令并执行这些指令以执行本文所述的操作。

尽管未示出，但音频硬件可耦接到一条或多条总线162，以便接收待由扬声器156处理并输出的音频信号。音频硬件可包括数模转换器和/或模数转换器。音频硬件还可包括音频放大器和滤波器。音频硬件还可与麦克风154(例如，麦克风阵列)连接以接收音频信号(无论是模拟的还是数字的)，在必要时将其数字化，并且将该信号传送到总线162。

通信模块164可与远程设备和网络通信。例如，通信模块164可通过已知的技术诸如Wi-Fi、3G、4G、5G、蓝牙、ZigBee或其他等效技术进行通信。通信模块可包括可与联网设备诸如服务器(例如，云端)和/或其他设备诸如远程扬声器和远程麦克风通信(例如，接收和发送数据)的有线或无线发射器和接收器。

应当理解，本文所公开的方面可利用远离系统的存储器，诸如通过网络接口诸如调制解调器或以太网接口耦接到音频处理系统的网络存储设备。如本领域所熟知的，总线162可通过各种网桥、控制器和/或适配器彼此连接。在一个方面，一个或多个网络设备可耦接到总线162。一个或多个网络设备可为有线网络设备(例如，以太网)或无线网络设备(例如，WI-FI、蓝牙)。在一些方面，所述的各个方面(例如，模拟、分析、估计、建模、对象检测等)可由与捕获设备通信的联网服务器执行。音频系统可包括一个或多个相机158和显示器160。

本文所述的各个方面可至少部分地在软件中体现。也就是说，响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(诸如DRAM或闪存存储器))中包含的指令序列而可在音频处理系统中实施这些技术。在各个方面中，可将硬连线电路与软件指令结合地使用来实现本文所述的技术。因此，这些技术不限于硬件电路与软件的任何指定组合，也不限于由音频处理系统执行的指令的任何特定源。例如，图2至图4中的各种处理框可在各种硬件和/或软件中实现。

在本说明书中，某些术语用于描述各个方面的特征。例如，在某些情况下，术语“分析器”、“分隔符”、“渲染器”、“估计器”、“编码器”、“解码器”、“接收器”、“发射器”、“完善器”、“合路器”、“合成器”、“组件”、“单元”、“模块”、“逻辑”、“提取器”、“减法器”、“生成器”、“优化器”、“处理器”和“模拟器”代表用于执行一个或多个功能的硬件和/或软件。例如，“硬件”的示例包括但不限于集成电路诸如处理器(例如，数字信号处理器、微处理器、专用集成电路、微控制器等)。当然，硬件可另选地实现为有限状态机或甚至组合逻辑部件。“软件”的示例包括应用程序、小应用程序、例程甚至一系列指令形式的可执行代码。如上所述，软件可存储在任何类型的机器可读介质中。

已按照对计算机存储器中的数据位进行操作的算法和符号表示来呈现前面详细描述的某些部分。这些算法描述和表示是音频处理领域技术人员所用的方法，而这些方法也能最有效地将他们的工作实质传达给该领域其他技术人员。算法在这里并通常是指导致所希望的结果的操作的自相一致的序列。操作是需要对物理量进行物理操纵的那些操作。然而，应当谨记，所有这些以及类似的术语都与适当的物理量相关联，并且只是应用于这些量的方便标签。除非另外特别说明，否则从上述讨论中显而易见的是，可以理解在整个说明书中，使用诸如那些在下文权利要求书中给出的术语的讨论涉及音频处理系统或类似电子设备的动作和过程，其操纵在系统的寄存器和存储器中被表示为物理(电子)量的数据以及将其转换成在系统存储器或寄存器或其他此类信息存储、传输或显示设备中类似地被表示为物理量的其他数据。

本文所述的过程和块不限于所述的特定示例，并且不限于在本文中作为示例使用的特定次序。相反，可根据需要对任何处理块进行重新排序、组合或移除、并行或串行地执行，以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行，以执行系统的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如，FPGA(现场可编程门阵列)和/或ASIC(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如处理器、存储器、可编程逻辑器件或逻辑门中至少一者的电子硬件电路来实现。另外，过程可在任何组合硬件设备和软件部件中实现。

虽然已经在附图中描述和示出了某些方面，但是应当理解，这些方面仅仅是对本发明的说明而非限制，并且本发明不限于所示出和所描述的具体结构和布置，因为本领域的普通技术人员可以想到各种其他修改型式。因此，要将描述视为示例性的而非限制性的。

为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书，申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用35U.S.C.112(f)，除非在特定权利要求中明确使用字词“用于......的装置”或“用于......的步骤”。

众所周知，使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地，应管理和处理个人可识别信息数据，以使无意或未经授权的访问或使用的风险最小化，并应当向用户明确说明授权使用的性质。

Claims

1.一种由音频设备执行的方法，所述方法包括：

使用多个麦克风来感测物理环境中的声音以生成多个麦克风信号；

从所述多个麦克风信号的至少一部分提取干净语音；

从所述多个麦克风信号的至少一部分提取环境；以及

在比特流中对a)第一压缩水平的编码的语音信号中的干净语音进行编码，以及对b)高于所述第一压缩水平的第二压缩水平的编码的环境信号中的环境进行编码。

2.根据权利要求1所述的方法，其中所述多个麦克风与所述音频设备成一整体；所述音频设备是以下各项中的一者或多者：头戴式设备、具有显示器的移动设备、智能扬声器或虚拟现实头戴式耳机；并且所述比特流通过通信协议传输到第二设备。

3.根据权利要求2所述的方法，其中所述音频设备具有无线发射器，并且所述通信协议是无线通信协议。

4.根据权利要求3所述的方法，所述方法还包括

基于所述多个麦克风信号来确定所述物理环境的一个或多个声学参数；以及

在所述比特流中包括所述一个或多个声学参数，其中所述一个或多个声学参数由回放设备应用于所述干净语音以用于回放。

5.根据权利要求4所述的方法，其中所述一个或多个声学参数包括所述物理环境的混响衰减时间或早期反射模式。

6.根据权利要求4所述的方法，其中所述一个或多个声学参数包括基于所述多个麦克风信号确定的所述物理环境的一个或多个脉冲响应。

7.根据权利要求6所述的方法，其中所述一个或多个脉冲响应包括双耳房间脉冲响应(BRIR)。

8.根据权利要求4所述的方法，其中基于a)所述物理环境的一个或多个图像，以及b)基于所述多个麦克风信号测量的所述物理环境的混响来确定所述一个或多个声学参数。

9.根据权利要求1所述的方法，所述方法还包括：

基于所述麦克风信号生成a)所述环境或b)所述干净语音的一个或多个空间参数，所述一个或多个空间参数限定所述物理环境中的所述环境或所述干净语音的空间位置；以及

将所述空间参数编码到所述比特流中，所述空间参数将由回放设备应用于所述环境或所述干净语音。

10.根据权利要求1所述的方法，其中所述编码的语音信号的比特率为96kB/sec或更大。

11.根据权利要求10所述的方法，其中所述编码的环境信号的比特率与所述编码的语音信号的比特率相同。

12.根据权利要求1所述的方法，其中所述干净语音不包含混响或环境声音分量。

13.根据权利要求1所述的方法，其中提取所述干净语音包括向所述多个麦克风信号施加去混响。

14.根据权利要求1所述的方法，其中提取所述干净语音包括从所述多个麦克风信号形成拾取波束，所述拾取波束聚焦在所述物理环境中的语音源位置处。

15.根据权利要求1所述的方法，其中提取所述环境包括从所述麦克风信号中减去所述干净语音或在所述物理环境中的语音源位置处引导零点拾取波束。

16.根据权利要求1所述的方法，其中：

所述比特流还包括

与所述语音相关联的方向和位置，和

说话人的视觉表示，所述扬声器与所述干净语音协调，并且

所述方向和所述位置由回放设备用于在回放时空间化所述干净语音。

17.一种用于解码音频的方法，所述方法包括：

在比特流中接收a)编码的语音信号，所述编码的语音信号包含由物理环境中的多个麦克风感测的语音，所述编码的语音信号具有第一压缩水平，b)编码的环境信号，所述编码的环境信号包含由所述物理环境中的所述多个麦克风感测的环境声音，所述编码的环境信号具有高于所述第一压缩水平的第二压缩水平；以及c)所述物理环境的一个或多个声学参数；

对所述编码的语音信号和所述编码的环境信号进行解码；

将所述一个或多个声学参数应用于解码的语音信号以通过多个扬声器进行回放。

18.根据权利要求17所述的方法，其中所述一个或多个声学参数包括一个或多个双耳房间脉冲响应(BRIR)，并且将所述BRIR应用于所述解码的语音信号以空间化所述语音以便通过所述多个扬声器中的左耳机扬声器和右耳机扬声器进行回放。

19.根据权利要求17所述的方法，其中所述一个或多个声学参数包括混响时间或早期反射模式，当应用于所述解码的语音信号时，所述混响时间或所述早期反射模式生成具有混响分量的语音信号以用于通过所述多个扬声器回放。

20.一种制品，所述制品包括：

多个麦克风，所述多个麦克风形成麦克风阵列，所述麦克风阵列生成表示在物理环境中感测的声音的多个麦克风信号；

处理器；以及

在其中存储有指令的机器可读介质，所述指令在由所述处理器执行时还使得所述制品执行以下操作：

从所述多个麦克风信号提取干净语音；

基于所述多个麦克风信号来确定所述物理环境的一个或多个声学参数，其中所述一个或多个声学参数包括以下中的一者或多者：混响时间、早期反射模式或所述物理环境的一个或多个脉冲响应；以及

在比特流中对a)所述干净语音和b)所述物理环境的所述一个或多个声学参数进行编码，其中所述一个或多个声学参数由接收设备应用于所述干净语音。