CN114402631A

CN114402631A - 分离和渲染话音信号和周围环境信号

Info

Publication number: CN114402631A
Application number: CN202080031640.2A
Authority: CN
Inventors: J·D·谢弗; J·D·阿特金斯; M·桑德恩; S·德利凯瑞斯·马尼亚斯; S·A·拉姆普拉沙德
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-05-15
Filing date: 2020-05-09
Publication date: 2022-04-26
Also published as: US20220059123A1; WO2020231883A1

Abstract

周围环境和语音的处理可包括从音频信号提取周围环境信号和语音信号。可生成一个或多个空间参数，该一个或多个空间参数限定该一个或多个周围环境音频信号中的周围环境声音的空间特性。可将该主语音信号、该一个或多个周围环境音频信号和该空间参数编码到一个或多个编码数据流中。其他方面也有所描述并受权利要求书保护。

Description

分离和渲染话音信号和周围环境信号

技术领域

本公开的一个方面涉及分离和渲染话音信号和周围环境信号。

背景技术

可嵌入消费电子设备(例如，移动电话或平板电脑)中的麦克风阵列可有利于用于捕获并渲染空间(3D)声音的装置。麦克风音频的麦克风信号(在本文中也称为多信道声音拾取)捕获3D声音场景。3D音频渲染可被描述为音频信号(诸如麦克风信号或其他记录的音频内容)的处理，以便产生由立体声扬声器、环绕声扬声器、扬声器阵列或耳机产生的声音，该声音由收听者感知为来自特定方向或在三维空间中从各处围绕收听者。例如，此类虚拟声源中的一个或多个虚拟声源可在声音节目中生成，该声音节目将被收听者感知为在收听者后面、上方或下方，或者从收听者的一侧平移到另一侧。

发明内容

声场中的一个或多个麦克风阵列可捕获可用于为收听者创建沉浸式音频环境的音频信号。在一些场景中，例如，在视频聊天期间，主说话者可特别受收听者关注。周围环境声音(例如，声场中除了主说话者的声音之外的声音)可在回放时为收听者提供沉浸式周围环境。然而，周围环境也可分散并减损对主说话者的注意力。因此，将周围环境声音与主说话者的语音分离或解除关联可能是有益的。在这种情况下，可以根据本公开的方式处理和渲染语音和周围环境，这些方式增加了语音的可理解性，同时使周围环境声音更清晰和可识别，还以空间上远离的方式与主说话者分离。收听者可听到与周围环境不同的主说话者的语音，但仍然经历所捕获的声场的沉浸式空间回放。

当用户利用具有麦克风的捕获设备记录音频和/或视频(包括向收听者实时流传输音频/视频)时，捕获设备的取向或位置可由于用户的移动而改变，例如当用户穿戴或保持设备时。在这种情况下，由于捕获设备和周围环境声音之间的相对位置改变，捕获音频的用户周围的周围环境声音可能表现为改变方向或移动到收听音频的收听者。这可能分散收听者的注意力并使收听者分心。因此，在一个方面，可能有益的是处理声音，使得周围环境声音不会以分散注意力或使人分心的方式移动。

当收听者例如通过接收设备播放音频和/或视频时，对周围环境渲染的偏好可在不同的收听者之间变化。此外，可检测回放周围环境中的提示以自动修改周围环境的回放，由此改善收听者的体验。在一些方面，在本公开中解决周围环境声音的回放。

在一个方面，一种由具有多个麦克风的设备的处理器执行的方法，包括：从该多个麦克风接收多个音频信号，该多个麦克风捕获声场；将该音频信号处理成多个频域信号；从该频域信号提取主语音信号；从该频域信号提取一个或多个周围环境音频信号；生成一个或多个空间参数，该一个或多个空间参数限定该一个或多个周围环境音频信号中的周围环境声音的空间特性；以及将该主语音信号、该一个或多个周围环境音频信号和该空间参数编码到一个或多个编码数据流中。编码数据可由回放设备用于空间音频体验。

在一个方面，一种由回放设备执行以用于回放由捕获设备捕获的声音的方法，包括：接收一个或多个编码数据流；对该一个或多个编码数据流进行解码以提取主语音信号、一个或多个周围环境音频信号，以及该一个或多个周围环境音频信号的空间参数；基于该空间参数来确定一个或多个脉冲响应；以及将该一个或多个周围环境音频信号中的每一者与该一个或多个脉冲响应进行卷积，从而产生空间化周围环境音频信号；处理该空间化周围环境音频信号和该主语音信号以产生多个时域信道信号；以及基于该多个时域信道信号来驱动多个扬声器。

以上概述不包括本公开的所有方面的详尽列表。可预期的是，本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书部分特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。

附图说明

本公开的各方面以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，可使用给定附图示出本公开的不止一个方面的特征部，并且对于给定方面，可能并非需要该附图中的所有元件。

图1示出了根据一个方面的处理语音和周围环境的系统或设备的图示。

图2示出了根据一个方面的渲染和回放语音和周围环境的系统或设备的图示。

图3示出了根据一个方面的处理语音和周围环境的系统或设备的图示。

图4示出了根据一个方面的具有形成拾取波束的麦克风阵列的移动设备。

图5示出了根据一个方面的移动设备和头戴式耳机。

图6示出了根据一个方面的音频处理系统。

具体实施方式

现在将参考所附附图来解释本公开的各方面。每当所描述的部件的形状、相对位置和其它方面未明确限定时，本发明的范围并不仅局限于所示出的部件，所示出的部件仅用于例证的目的。另外，虽然阐述了许多细节，但应当理解，本公开的一些方面可在没有这些细节的情况下被实施。在其他情况下，未详细示出熟知的电路、结构和技术，以免模糊对该描述的理解。

现在参见图1，示出了与语音和周围环境的处理相关的系统2。系统可以是捕获设备。系统(其可采取设备或制品的形式)可以是例如膝上型计算机、台式计算机、移动电话、智能电话、平板计算机、智能扬声器、头戴式耳机或用于汽车或其他车辆的信息娱乐系统，或它们的组合。

麦克风

在一个方面，系统可从多个即M个麦克风50接收多个即M个音频信号，该多个麦克风捕获声场。模数转换器92可将音频信号从其模拟形式转换为数字形式。分析器94可将M个信号转换成M个原始频域信号94(例如，使用傅里叶分析技术)。在一个方面，波束分析器或波束形成器(未示出)可根据频域音频信号产生将由子组模块52和54选择的多个声音拾取波束。

子组模块

子组模块52可基于例如盲信号分离(也称为盲源分离)来选择具有主说话者的信道。在一个方面，盲信号分离用于识别来自声场中的一个或多个说话者的语音。如果存在多个说话者，则可基于不同因素来选择信道。在一个方面，给定记录设备的麦克风的已知布置，可在相机也指向的方向上选择音频信号。在这种情况下，可假设主说话者位于相机前方，使得说话者的视频和音频被同时处理。在一个方面，基于最高信噪比(SNR)来选择信道(或波束形成或分离的信号)，较高SNR比指示信道主要包含语音。在另一个方面，基于音频内容(诸如聚焦于语音并且忽略背景噪声)来选择信道或波束形成信号(波束)或分离流。

类似地，子组模块54可选择将由周围环境处理器58处理的频域信号的子组。可基于SNR(例如，低于阈值SNR)或可指示信号包含周围环境声音的其他指示符来选择麦克风信号。周围环境声音可包括除主话音之外的声音，包括定向声源、漫射声音和已定位声音(例如，具有位置的声音)。子组模块54可以是任选的，例如，所有音频信号M可被选择为由周围环境处理器58处理。

在一个方面，波束形成器可根据M个经分析音频信号生成拾取波束，并且子组模块可选择X和/或Y个拾取波束。例如，图4示出了具有麦克风192、194和196的设备190。来自这些麦克风的音频信号可由波束形成器以不同的组合进行组合以生成例如拾取波束193、195和197。在另一个方面，源分离算法可生成多个分离的音频信号。

重新参见图1，子组模块52和54可选择将由语音处理器56和周围环境处理器58处理的信号。如本公开的其他方面所示，可在已提取语音之后而不是之前执行子组模块(参见例如图3)。

语音处理器

语音处理器56可从M个频域信号提取主语音信号。在一个方面，语音处理器56可包括单信道去混响器、单信道降噪器、多信道去混响器、多信道降噪器诸如参数多信道威纳滤波器(PMWF)、多信道线性预测模块，或它们的组合。语音处理器56可生成具有纯净话音信号的语音流(或语音数据)60。语音处理器还可包括话音活动检测器、具有调谐至主说话者的假定方向的波束的波束形成器、具有调谐至主说话者的两个或更多个假定方向的波束的波束形成器系列。

周围环境处理器

周围环境处理器58可从频域信号提取一个或多个周围环境音频信号，对音频信号执行定位，并且生成限定一个或多个周围环境音频信号中的周围环境声音的空间特性的一个或多个空间参数。

周围环境处理器58可接收M个音频信号的子组X个音频信号。在一个方面，子组X可以是M个音频信号的整个组。周围环境处理器可从X个音频信号提取周围环境声音。在一个方面，这可通过从X个音频信号中减去语音分量来执行，如图3所示。这在另一节中描述。在一个方面，从所选择的音频信号提取声源，并且基于多个麦克风处的声音的到达时间、相位和/或水平的差异来定位声源。明确限定源可与实质上扩散并且不太明确限定的背景声音分离。定位技术的示例包括用于计算声源的方向、范围和深度的最大似然法，人工神经网络方法，或使延迟和求和波束形成器的输出能量最大化以找到在所有可能方向上转向的波束形成器的最大输出值的波束形成方法。

周围环境处理器可生成限定周围环境声音的空间特性的空间参数64。周围环境声音可包括在声场中具有方向和/或位置的定位声音，和/或没有位置的扩散(散射)声音。空间参数64可包括对应周围环境声音的一个或多个虚拟位置、周围环境声音的方向性和/或周围环境声音的响度水平。周围环境流62可混合成限定信道输出格式(例如，立体声、5.1、6.1)或者被编码为具有空间参数的基于对象的音频(OBA)。空间参数可被编码为元数据或OBA。

跟踪数据

在一个方面，可基于跟踪数据88(例如，设备的位置或取向)来修改一个或多个空间参数64。在一个方面，通过抵消周围环境声音的位置/地点的相对移动或变化(该相对移动由设备的位置或取向的改变引起)，用跟踪数据修改空间参数，以在回放期间维持周围环境声音的恒定(或基本上恒定)的虚拟空间位置。因此，可移除由捕获设备的移动引起的虚拟位置或方向的相对变化，使得周围环境声源对于收听者表现为不改变，由此移除不期望的干扰。

在一个方面，基于一个或多个传感器诸如相机、麦克风阵列、陀螺仪、加速度计和GPS接收器来生成跟踪数据。在一个方面，一个或多个传感器和麦克风50与相同设备成一整体。

在一个方面，基于由相机捕获的图像来生成跟踪数据。例如，跟踪处理器可将由相机生成的第一图像与第二图像进行比较，并且基于在两个图像中检测到的感兴趣的对象或图案来确定捕获设备的位置或取向/旋转的改变。例如，如果感兴趣的对象或图案从第一图像的第一位置移动到第二图像中的第二位置，则可估计或计算捕获设备的旋转。类似地，如果感兴趣的对象或图案的尺寸改变，则可估计或计算捕获设备和对象之间的距离的改变。感兴趣的对象或图案可例如通过计算机视觉、对象识别和其他技术来识别。可基于由相机捕获的图像来使用各种技术以跟踪捕获设备在捕获设备的物理环境中的位置信息。

在一个方面，跟踪数据可基于声场中的声源位置(例如，周围环境声音)的估计以及声场中的声源位置的检测变化来生成，从而指示设备的位置或取向的改变。因此，所检测的位置或取向的改变可基于捕获设备的麦克风阵列来使用，从而通过用于声源估计的声音生成音频信号。在一个方面，周围环境声音的定位数据用于跟踪数据以及空间化。

在一个方面，跟踪数据(例如，记录设备的位置和/或取向)可被编码在将由回放设备使用以修改空间参数的数据68中，而不是在编码侧修改空间参数。这可有益地允许回放设备或回放设备处的用户选择是否移除由捕获设备的移动引起的周围环境声音中的移动。

在一个方面，主语音信号在没有空间参数的情况下在语音流60中进行编码，以便在没有空间化的情况下由回放设备播放(例如，直接地或“在收听者的头部中”)。因此，收听者可听到语音直接进入耳朵，而周围环境声音被空间化，从而提供沉浸式音频环境并同时仍然维持语音和收听者之间的清晰通信信道。在一个方面，在音频信号中检测到多个语音源的情况下，可基于所检测的说话者(说话人)相对于设备的位置来将主语音信号识别为主要的。例如，如果主语音位于设备(例如，智能电话或平板计算机)前方，则可将该主语音视为主要的。主语音信号的位置还可基于从捕获设备的相机的视线发出的语音，这里假设相机视线中的事物是感兴趣的，并且感兴趣的和说话的事物可能是主说话者。在一个方面，主语音可由话音活动检测器识别。话音活动检测器可使用包括以下部件中的一者或多者：机器学习(DN)、加速度计、相机。

在一个方面，仅在捕获设备的相机的视野内的周围环境声音被空间化。这样，收听者可看到的周围环境(例如，作为视频流在回放设备的显示器上回放)被空间化，并且收听者无法看到的相机视野之外的周围环境未被空间化。收听者由此沉浸在捕获设备的物理环境中。

编码器

编码器66可将主语音信号、一个或多个周围环境音频信号和空间参数编码到一个或多个编码数据或数据流68中。数据流可以是视听数据流(例如，视频流)的一部分。在一个方面，编码的音频或视听数据可被实时编码为数据流(例如，与捕获和/或处理来自麦克风50的音频信号同时的编码)。数据流可实时传送到解码器，以实时回放。在一个方面，每个周围环境声源或扩散声音可被编码到周围环境流62中作为限定信道数据(例如，立体声、5.1、6.1)或周围环境声音的基于对象的表示。

在一个方面，数据68通过网络传输以便由接收设备3回放，如图2所示。在一个方面，编码数据流68可实时传输到回放设备，其中编码数据流还包括与主语音信号和周围环境音频信号同步的图像流。这可提供用户之间的实时会话，其中一个用户正在捕获并说话，并且另一个用户正在倾听该说话者并体验周围环境声音，几乎随着其进行。

回放

现在参见图2，示出了与语音的回放和空间化周围环境相关的系统3。系统(其可采取设备或制品的形式)可以是例如膝上型计算机、台式计算机、移动电话、智能电话、平板计算机、智能扬声器、头戴式耳机或用于汽车或其他车辆的信息娱乐系统。在一个方面，系统可以是设备的组合，例如，回放系统可包括具有播放视频的显示器和播放对应音频的头戴式耳机的移动设备。

在一个方面，回放设备可接收编码数据68(例如，数据流或实时数据流)。解码器68可对数据进行解码以提取具有主语音信号的语音流72、具有被编码为对象或信号的一个或多个周围环境声音的周围环境流74，以及具有一个或多个周围环境声音的空间参数的元数据78。语音流可以是包含具有表示语音的数据的一个或多个音频信号的数字比特流。类似地，周围环境流可以是包含具有表示周围环境声音的数据的一个或多个音频信号的数字比特流。

具有空间引擎的空间渲染器82可基于空间参数处理主语音信号和一个或多个周围环境音频信号以产生多个时域信道信号，其中一个或多个周围环境音频信号在多个时域信道信号7中被空间化。例如，空间渲染器可基于空间参数来确定一个或多个脉冲响应。脉冲响应(例如，头部相关脉冲响应、左耳和右耳的双耳响应脉冲响应)可选自数据库，或者基于头部、耳廓和上身的模型来合成。位置数据可作为参数被编码到脉冲响应或从脉冲响应导出的传递函数中。声场定位器可将一个或多个周围环境音频信号中的每一者与一个或多个脉冲响应进行卷积，从而产生空间化周围环境音频信号。可处理(例如，逆傅里叶分析)空间化周围环境音频信号和主语音信号以产生多个时域信道信号。回放设备可基于多个时域信道信号来驱动多个扬声器84。

在一个方面，渲染器可基于包括以下的因素来选择周围环境和/或纯净话音信号的适当渲染：a)语音与噪声水平的比率、b)数据的内容、c)渲染器的噪声环境、或d)用户输入(例如，用于调整周围环境水平的滑块)。作为具体示例，如果渲染器的噪声环境使得用户已经沉浸在非常高的噪声水平中，则系统可自动决定显著减小周围环境流或不播放所有周围环境流。

在一个方面，基于在编码数据流68中接收并从其解码的跟踪数据来修改一个或多个周围环境音频信号的空间参数，该跟踪数据包括捕获设备的位置或取向。在一个方面，通过抵消由捕获设备的位置或取向的改变引起的周围环境声源的相对移动，用跟踪数据修改一个或多个周围环境音频信号的空间参数，以在回放期间维持周围环境声源的虚拟空间位置。可导致周围环境声音中的不期望的空间变化的捕获设备的移动可由回放设备抵消或移除。

在一个方面，基于用户输入来限定和/或修改一个或多个周围环境音频信号(或对象)的回放水平(或其他特性，例如方向性)。可通过图形用户界面(例如，触摸屏上的滑块)接收用户输入。除此之外或另选地，可基于a)语音与噪声比、b)内容类型、或c)回放周围环境中的检测到的噪声来自动调整和/或生成一个或多个周围环境音频信号的回放水平。

在一个方面，语音流72中的语音(例如，主语音信号)在没有空间化的情况下直接通过多个扬声器播放。这样，系统可空间化周围环境，但直接向收听者回放语音信号。这可提供沉浸式体验，同时在空间上区分周围环境声音和主语音并且由此使语音更易理解。还可增强主语音，这进一步增加了语音的可理解性。

在一个方面，第一用户可具有捕获设备，该捕获设备在物理环境中捕获声音、处理声音并将声音传输到第二用户。同时，第二用户可具有捕获设备，该捕获设备还捕获第二用户的物理环境中的声音并将其传输到第一用户。两个捕获设备还可例如在视频会议或聊天场景中同时处理所接收的数据并且回放数据。

具有语音增强的系统

在本公开的一个方面，在图3中示出了用于处理周围环境和语音的系统100。系统100可以是捕获设备。此类系统可包括生成M个音频信号的一个或多个麦克风90，该信号捕获声场中的声音(例如，语音和周围环境)。模数转换器92可将每个模拟音频信号转换为数字音频信号。分析器94可将每个信号转换为M个频域信号(例如，使用傅里叶分析、短时间傅里叶变换、离散傅里叶变换或其他技术)。

语音处理器110可包括语音提取器96，该语音提取器可从频域信号移除混响和/或扩散分量。语音提取器96可包括例如参数多信道威纳滤波器(PMWF)或多信道去混响器。语音提取器的输出可为具有纯净语音分量的M个信号97。选择器或子组模块98可从最佳捕获场景中的纯净语音和其他期望信号的信号97中选择一个或多个音频信号。这可例如基于SNR或盲信号分离，和/或如前所讨论的话音活动检测器和/或一个或多个假定的期望说话者方向来完成。在一个方面，波束形成器可基于信号97生成拾取波束，并且选择器可选择最佳捕获纯净语音的拾取波束。在一个方面，基于来自话音活动检测器的信息来选择最佳波束。在一个方面，选择器可选择Y个信号或波束。在一个方面，选择器可选择单个信号或波束。在一个方面，任选的语音增强器102可使用语音增强技术来改善语音信号中的所选择的语音信号的语音质量(例如，改善可理解性)。语音增强可包括语音信号的均衡和/或共振峰整形。

在一个方面，周围环境处理器112可包括减法器108，该减法器用于从原始频域信号减去语音信号97中的主语音分量。在一个方面，减法器使用主语音的固定复缩放，该复缩放取决于频率和周围环境信道，然后从原始周围环境信道减去该缩放流。在一个方面，例如通过使减法后的所得信号能量最小化的标准，自适应地估计复缩放。可使用熟知的自适应算法，诸如最小均方(LMS)算法。减法器的输出可为仅包含周围环境声音(例如，除主语音之外的声音)的M个音频信号。这可包括扩散声音和空间定位的声源(例如，鸟啁啾和非主语音)。混频器100可将包含周围环境声音的M个音频信号混合到X个信道中，如以输出格式(例如，立体声、5.1、7.1等)限定。声场定位器104可定位信道X中的周围环境声音并且生成对应的空间参数105(例如，周围环境声音的方向和/或位置)。尽管未示出，但跟踪数据可任选地由声场定位器使用以抵消捕获设备的移动，如在其他节中所述。

编码器106可将语音信号Y、周围环境信号X和空间参数编码到可由回放设备处理和回放的输出数据108中。空间参数可被编码为元数据，并且语音信号Y和周围环境信号X可被编码为相应信道中的音频流。

在一个方面，纯净语音和周围环境的音频/声音信息被编码为OBA(例如，声音和/或声源被编码为在音频场景中具有方向和/或位置的对象)。

回放期间的语音空间轨

在一个方面，一种由回放设备执行的方法，包括：接收具有音频和视觉数据的编码数据流；对该编码数据流进行解码以提取主语音信号和一个或多个周围环境音频信号；基于限定该回放设备的位置或取向的跟踪数据来修改该主语音信号的空间参数，该空间参数限定该主语音信号的虚拟位置或取向，使得该主语音信号的虚拟位置或取向遵循所跟踪的该回放设备的位置或取向。在一个方面，该方法还可包括：基于该空间参数来确定一个或多个脉冲响应；将该主语音信号与该一个或多个脉冲响应进行卷积，从而产生空间化主语音；处理该周围环境音频信号和该空间化主语音信号以产生多个时域信道信号；基于该多个时域信道信号来驱动头戴式耳机扬声器；以及通过该视觉数据驱动显示器。在一个方面，回放设备可接收该一个或多个周围环境音频信号的空间参数，如其他节中所述。因此，方法可空间化周围环境以匹配捕获设备的环境，但空间化主语音以遵循回放设备的位置。

例如，如图5所示，可向穿戴头戴式耳机124并握持电话/平板电脑120的收听者130回放视频通话的视听流。可通过显示器122示出主说话者的图像。主语音可被空间化，使得当电话或平板电脑四处移动时，可修改通过头戴式耳机回放的主说话者的虚拟位置以遵循正在显示说话者的电话或平板电脑的物理位置。同时，周围环境声源以不会使收听者从主语音分心的方式进行空间化。这可提供沉浸式体验。

图6示出了用于解释可与本文所述的任何方面一起使用的音频处理系统硬件的示例的框图。该音频处理系统可表示通用计算机系统或专用计算机系统。需注意，虽然图6示出了可被结合到耳机、扬声器系统、麦克风阵列和娱乐系统中的音频处理系统的各种部件，但这仅是特定具体实施的一个示例并且仅是为了示出可存在于音频处理系统中的部件的类型。图6并不旨在表示使这些部件互连的任何特定架构或方式，因为此类细节与本文所述的各方面并无密切关系。还应理解，还可使用具有比图6所示更少部件或更多部件的其他类型的音频处理系统。因此，本文所述的过程不限于与图6的硬件和软件一起使用。

如图6所示，音频处理系统601(例如，膝上型计算机、台式计算机、移动电话、智能电话、平板电脑、智能扬声器，或者用于汽车或其他车辆的信息娱乐系统)包括用于将系统的各种部件互连的一条或多条总线607。如本领域中所公知地，一个或多个处理器603耦接到总线607。一个或多个处理器可以是微处理器或专用处理器、片上系统(SOC)、中央处理单元、图形处理单元、通过专用集成电路(ASIC)创建的处理器或它们的组合。存储器605可包括使用本领域已知的技术耦接到总线607的只读存储器(ROM)、易失性存储器和非易失性存储器或它们的组合。

存储器可包括DRAM、硬盘驱动器或闪存存储器，或磁性光驱或磁性存储器，或光驱或者是甚至在系统断电之后仍维护数据的其他类型的存储器系统。在一个方面，处理器603检索存储在机器可读存储介质(存储器)中的计算机程序指令并执行这些指令以执行本文所述的操作。

本地音频硬件609耦接到一条或多条总线607以便接收待由本地扬声器610处理并输出的音频信号。本地音频硬件609可包括数模转换器和/或模数转换器。本地硬件609还可包括音频放大器和滤波器。本地音频硬件还可与本地麦克风(例如，麦克风阵列)连接以接收音频信号(无论是模拟的还是数字的)，在必要时将其数字化，并且将该信号传送到总线607。本地麦克风和本地扬声器可位于与系统601相同的外壳中，例如，它们可以是移动电话、平板电脑中的扬声器、智能扬声器或系统601可采用的其他形式。

无线通信接口613可与远程设备和网络通信。例如，无线通信接口613可通过已知的技术诸如Wi-Fi、3G、4G、5G、蓝牙、ZigBee或其他等效技术进行通信。无线通信接口613可与联网设备诸如服务器(例如，云端)和/或其他设备诸如远程无线扬声器和麦克风614通信(例如，接收和传输数据)。远程扬声器和麦克风也可通过有线连接来进行连接以集成到系统601中，如本领域中已知的。

应当理解，本文所公开的方面可利用远离系统的存储器，诸如通过网络接口诸如调制解调器或以太网接口耦接到音频处理系统的网络存储设备。如本领域所熟知的，总线607可通过各种网桥、控制器和/或适配器彼此连接。在一个方面，一个或多个网络设备可耦接到总线607。一个或多个网络设备可为有线网络设备(例如，以太网)或无线网络设备(例如，WI-FI、蓝牙)。

本文所述的各个方面可至少部分地在软件中实现。也就是说，响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(诸如DRAM或闪存存储器))中包含的指令序列而可在音频处理系统中实施这些技术。在各个方面中，可将硬连线电路与软件指令结合地使用来实现本文所述的技术。因此，这些技术不限于硬件电路与软件的任何指定组合，也不限于由音频处理系统执行的指令的任何特定源。

在本说明书中，某些术语用于描述各个方面的特征。例如，在某些情况下，术语“分析器”、“提取器”、“渲染器”、“估计器”、“组合器”、“处理器”、“合成器”、“部件”、“单元”、“模块”和“逻辑部件”表示被配置为执行一个或多个功能的硬件和/或软件。例如，“硬件”的示例包括但不限于集成电路诸如处理器(例如，数字信号处理器、微处理器、专用集成电路、微控制器等)。当然，硬件可另选地实现为有限状态机或甚至组合逻辑部件。“软件”的示例包括应用程序、小应用程序、例程甚至一系列指令形式的可执行代码。如上所述，软件可存储在任何类型的机器可读介质中。

已按照对计算机存储器中的数据位进行操作的算法和符号表示来呈现前面详细描述的某些部分。这些算法描述和表示是音频处理领域技术人员所用的方法，而这些方法也能最有效地将他们的工作实质传达给该领域其他技术人员。算法在这里并通常是指导致所希望的结果的操作的自相一致的序列。操作是需要对物理量进行物理操纵的那些操作。然而，应当谨记，所有这些以及类似的术语都与适当的物理量相关联，并且只是应用于这些量的方便标签。除非另外特别说明，否则从上述讨论中显而易见的是，可以理解在整个说明书中，使用诸如那些在下文权利要求书中给出的术语的讨论涉及音频处理系统或类似电子设备的动作和过程，其操纵在系统的寄存器和存储器中被表示为物理(电子)量的数据以及将其转换成在系统存储器或寄存器或其他此类信息存储、传输或显示设备中类似地被表示为物理量的其他数据。

本文所述的过程和块不限于所述的特定示例，并且不限于在本文中作为示例使用的特定次序。相反，可根据需要对任何处理块进行重新排序、组合或移除、并行或串行地执行，以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行，以执行系统的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如，FPGA(现场可编程门阵列)和/或ASIC(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如处理器、存储器、可编程逻辑器件或逻辑门中至少一者的电子硬件电路来实现。另外，过程可在任何组合硬件设备和软件部件中实现。

虽然已经在附图中描述和示出了某些方面，但是应当理解，这些方面仅仅是对本发明的说明而非限制，并且本发明不限于所示出和所描述的具体结构和布置，因为本领域的普通技术人员可以想到各种其他修改型式。因此，要将描述视为示例性的而非限制性的。

例如，虽然图1描绘了其中子组52和54选择音频信号作为处理器56和58中的输入的系统或设备，但可以包括与语音处理器和周围环境处理器成一整体的此类子组模块，如图3所示。此外，子组模块54可以是任选的，这意味着所有音频信号都可用于周围环境，而音频信号被选择用于语音。

众所周知，使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地，应管理和处理个人可识别信息数据，以使无意或未经授权的访问或使用的风险最小化，并应当向用户明确说明授权使用的性质。

为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书，申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用35U.S.C.112(f)，除非在特定权利要求中明确使用字词“用于......的装置”或“用于......的步骤”。

Claims

1.一种由具有多个麦克风的设备的处理器执行的方法，包括：

从所述多个麦克风接收多个音频信号，所述多个麦克风捕获声场；

将所述音频信号处理成多个频域信号；

从所述频域信号提取主语音信号；

从所述频域信号提取一个或多个周围环境音频信号；

生成一个或多个空间参数，所述一个或多个空间参数限定所述一个或多个周围环境音频信号中的周围环境声音的空间特性；以及

将所述主语音信号、所述一个或多个周围环境音频信号和所述空间参数编码到一个或多个编码数据流中。

2.根据权利要求1所述的方法，还包括基于跟踪数据来修改所述一个或多个空间参数，所述跟踪数据包括所述设备的位置或取向。

3.根据权利要求2所述的方法，其中通过抵消周围环境声音的相对移动，用所述跟踪数据修改所述空间参数以在回放期间维持所述周围环境声音的恒定虚拟空间位置，所述相对移动由所述设备的所述位置或所述取向的改变引起。

4.根据权利要求2所述的方法，其中基于一个或多个传感器来生成所述跟踪数据，所述传感器包括以下中的一者或多者：相机、麦克风组、陀螺仪、加速度计和GPS接收器。

5.根据权利要求2所述的方法，其中基于由相机捕获的图像来生成所述跟踪数据，包括将第一图像与第二图像进行比较，以及基于所述比较来确定所述设备的所述位置或所述取向的改变。

6.根据权利要求2所述的方法，其中基于对所述声场中的声源位置的估计以及所述声场中的所述声源位置的检测变化来生成所述跟踪数据，从而指示所述设备的所述位置或所述取向的改变。

7.根据权利要求1所述的方法，还包括对所述编码数据流中的跟踪数据进行编码，所述跟踪数据包括所述设备的位置或取向，其中回放设备基于所述跟踪数据来修改所述一个或多个周围环境音频信号的所述空间参数。

8.根据权利要求1所述的方法，其中所述主语音信号在没有对应空间参数的情况下被编码并且将在没有空间化的情况下由回放设备回放。

9.根据权利要求1所述的方法，其中基于所检测的说话者相对于所述设备的位置，所述主语音信号被识别为所述主语音信号。

10.根据权利要求1所述的方法，还包括将所述编码数据流实时传输到回放设备，其中所述编码数据流还包括与所述主语音信号和所述周围环境音频信号同步的图像流。

11.一种由回放设备执行以用于回放由捕获设备捕获的声音的方法，包括：

接收一个或多个编码数据流；

对所述一个或多个编码数据流进行解码以提取主语音信号、一个或多个周围环境音频信号，以及所述一个或多个周围环境音频信号的空间参数；

基于所述空间参数来确定一个或多个脉冲响应；

将所述一个或多个周围环境音频信号中的每一者与所述一个或多个脉冲响应进行卷积，从而产生空间化周围环境音频信号；

处理所述空间化周围环境音频信号和所述主语音信号以产生多个时域信道信号；以及

基于所述多个时域信道信号来驱动多个扬声器。

12.根据权利要求11所述的方法，还包括基于在所述编码数据流中接收并从所述编码数据流解码的跟踪数据来修改所述一个或多个周围环境音频信号的所述空间参数，所述跟踪数据包括所述捕获设备的位置或取向。

13.根据权利要求12所述的方法，其中通过抵消由所述捕获设备的所述位置或取向的改变引起的周围环境声源的相对移动，用所述跟踪数据修改所述一个或多个周围环境音频信号的所述空间参数，以在回放期间维持所述周围环境声源的虚拟空间位置。

14.根据权利要求12所述的方法，其中基于所述捕获设备的一个或多个传感器来生成所述跟踪数据，所述传感器包括以下中的一者或多者：相机、麦克风组、陀螺仪、加速度计和GPS接收器。

15.根据权利要求11所述的方法，还包括基于用户输入来限定或修改所述一个或多个周围环境音频信号的回放水平。

16.根据权利要求15所述的方法，其中通过所述回放设备的图形用户界面来接收所述用户输入。

17.根据权利要求11所述的方法，还包括基于a)语音与噪声比、b)内容类型、或c)在所述回放周围环境中的检测到的噪声来限定或修改所述一个或多个周围环境音频信号的回放水平。

18.根据权利要求11所述的方法，其中所述主语音信号在没有空间化的情况下直接通过所述多个扬声器播放。

19.一种由回放设备执行的方法，包括：

接收具有音频和视觉数据的编码数据流；

对所述编码数据流进行解码以提取主语音信号和一个或多个周围环境音频信号；

基于限定所述回放设备的位置或取向的跟踪数据来修改所述主语音信号的空间参数，所述空间参数限定所述主语音信号的虚拟位置或取向，使得所述主语音信号的虚拟位置或取向遵循跟踪的所述回放设备的所述位置或所述取向；

基于所述空间参数来确定一个或多个脉冲响应；

将所述主语音信号与所述一个或多个脉冲响应进行卷积，从而产生空间化主语音；

处理所述周围环境音频信号和所述空间化主语音以产生多个时域信道信号；

基于所述多个时域信道信号来驱动头戴式耳机扬声器；以及

通过所述视觉数据驱动显示器。

20.一种制品，包括：在其中存储有指令的机器可读介质，所述指令在由音频捕获设备的处理器执行时致使所述制品执行以下操作：

从捕获声场的多个麦克风接收多个音频信号；

将所述音频信号处理成多个频域信号；

从所述频域信号提取主语音信号；

从所述频域信号提取一个或多个周围环境音频信号；

生成一个或多个空间参数，所述一个或多个空间参数限定所述一个或多个周围环境音频信号中的周围环境的空间特性；以及

将所述主语音信号、所述周围环境音频信号和所述空间参数编码到一个或多个编码数据流中。

21.一种制品，包括：在其中存储有指令的机器可读介质，所述指令在由回放设备的处理器执行时致使所述制品执行以下操作：

接收一个或多个编码数据流；

基于所述空间参数来确定一个或多个脉冲响应；以及

基于所述多个时域信道信号来驱动多个扬声器。