CN118233825A

CN118233825A - 可配置音频处理器的控制方法、系统、介质和计算装置

Info

Publication number: CN118233825A
Application number: CN202311765623.3A
Authority: CN
Inventors: 加布里埃尔·哈斯; 马库斯·芬克; 西蒙·格拉夫; 托比亚斯·沃尔夫
Original assignee: Sailunsi Operating Co
Current assignee: Sailunsi Operating Co
Priority date: 2022-12-20
Filing date: 2023-12-20
Publication date: 2024-06-21
Also published as: EP4391592A1; US20240205637A1

Abstract

一种可配置音频处理器的控制方法、系统、介质和计算装置，可配置音频处理器经由例如图2的麦克风220A‑220C和/或扬声器224A‑224B的多个换能器耦接到声学环境，该方法包括基于音频处理器的配置值来确定音频处理器的处理特性在声学环境中的三维空间变化，形成处理特性的三维空间变化的三维图像，以及提供用于呈现给用户的三维图像以控制配置值。

Description

可配置音频处理器的控制方法、系统、介质和计算装置

技术领域

本发明涉及通过使用用户界面对音频处理系统进行交互式控制，在用户界面中，表示音频处理特性的3D可交互视觉对象可以由用户呈现和操纵。

背景技术

音频处理系统(也称为语音信号增强(speech signal enhancement,SSE)系统)寻求控制和提高在各种声音环境中的音频输出质量。例如，配备有音频处理的汽车寻求减轻嘈杂声音分量，并增强由实际扬声器产生的信号分量的声音信号质量，该实际扬声器试图与话音助手系统或远程扬声器二者之一进行交互。

配置部署在声音环境中的越来越复杂的音频处理系统的问题是，各种处理特性(例如，噪声消除、声音灵敏度控制)以及控制它们的操作参数是难以察觉的，并且只能通过密切关注声音环境中声音行为的数据来推断。这使得配置和微调部署在声音环境中的音频系统的处理特性具有挑战性，导致配置过程粗糙且不直观。

发明内容

在一个方面，通常，音频处理系统包括音频处理器，该音频处理器可配置为修改声学环境中(例如，车厢的声学环境中)处理特性的空间变化(例如，改变空间性质)。这种空间变化是通过呈现由特性的空间变化确定的三维图像来向用户显示的，例如，经由虚拟现实或增强现实平台来呈现。在一些示例中，音频处理器是或被设计为经由多个换能器(例如经由麦克风阵列)耦接到声学环境，并且处理特性包括麦克风阵列的输入灵敏度的空间变化。在这种情况下，三维图像可以显示灵敏度的方向和/或程度(例如，通过束或漏斗的图形呈现)，这定义了具有声音环境的空间区域的边界，在声音环境中用户可以与音频处理系统交互。三维图像可以进一步示出由麦克风阵列捕获的音频输入的水平的空间变化。在一些示例中，观看呈现的用户可以提供输入(例如，由诸如相机或触摸屏的传感器设备跟踪和捕获的手势)以修改音频处理器的配置。姿势操纵的空间特性与表示音频处理特性(例如，声学灵敏度)的3D图像的空间特性相结合，允许用于控制这种音频处理特性的高效且直观的平台。提供空间变化的视觉呈现的优点在于，如若不然用户将不容易基于系统的音频处理来感知这种空间变化。因此，可视化平台上的(例如，可交互3D对象的)视觉呈现提供了对部署在声音环境(无论是汽车舱、办公室、会议室等)中的音频处理器的配置进行特定调整的有效方式。

本文描述的所提出的解决方案和方法采用增强现实可视化平台或在一些其他可视化平台上，包括虚拟现实平台和在二维显示表面设备(如平板电脑设备、汽车显示设备等)上呈现的3D可视化，以便于调整和配置音频处理系统(SSE系统)参数。这些参数的调整和配置可以在初始配置时间(在修理厂或工厂处，在汽车的道路使用之前)期间或在汽车的常规使用期间，当汽车静止或运动时执行。在初始配置时间期间，SSE工程师可以在设置更改后收听处理后信号。使用增强现实信息(或用于在其他可视化平台上呈现音频处理特性的信息)，除了收听处理后音频之外，还可以对信号和参数进行可视化，以促进系统的开发、测试和优化。在某些情况下，所提出的解决方案和方法有助于可视化声学场景的各个方面(例如，声源位于房间中的何处、这些声源是否在移动、这些声源是有规律地活动的还是偶发的等等)。因此，所提出的解决方案和方法可以提取关于声音环境的信息，然后将这些信息可视化为三维图像。

所提出的解决方案和方法的几个使用场景包括以下内容：

a)束成形-与其他“不可见束”进行视觉交互，以改变束的转向角，并可视化生成的束形图。

b)音频区域的可视化-目标区域的可视化，目标区域的语音能量将由语音处理空间捕获。例如，当驾驶员声音与其他声音隔离时，突出显示驾驶员区域(例如，通过乘客干扰消除实现)。

c)空间话音活动的可视化-可视化声源(例如，汽车中的扬声器)在其各自空间位置处的活动或能量。因此，本文描述的系统的可视化平台允许谁在说话以及何时说话的可视化。

d)声学场景分析-由音频处理系统提供的信息(如声源的数量、声源的位置、声源的当前活动和其他特征)的可视化。

所提出的框架实现了为音频处理器配置的操作参数与这些值的视觉表示之间的同构匹配。视觉表示在音频处理器的操作参数的配置值的人在环(human-in-the-loop)控制/调整过程中提供人可感知的版本。

因此，在一些变体中，提供了一种用于控制可配置音频处理器的方法，该可配置音频处理器经由多个换能器(如图2的麦克风220A-220C和/或扬声器224A-224B)耦接到声学环境。该方法包括基于音频处理器的配置值来确定音频处理器的处理特性在声学环境中的三维空间变化、形成处理特性的三维空间变化的三维图像，以及提供用于呈现给用户的三维图像以控制配置值。

该方法的实施例可以包括本发明中描述的至少一些特征，包括以下特征中的一个或更多个。

该方法还可以包括向用户呈现三维图像。

该方法还可以包括对响应于三维图像的呈现而接收的来自用户的输入进行处理，以确定音频处理器的更新后配置值。

该方法还可以包括基于响应于来自用户的输入而确定的处理特性的更新后三维空间变化来确定更新后三维图像，并向用户呈现更新后三维图像。

该方法还可以包括根据配置值操作音频处理器。

多个换能器可以包括麦克风阵列。

处理特性在声学环境中的三维空间变化可以包括输入声音灵敏度的空间变化。

三维图像可以表示输入声音灵敏度的灵敏度方向。

三维图像可以进一步表示输入声音灵敏度的空间范围。

处理特性在声学环境中的三维空间变化可以进一步包括由麦克风阵列捕获的音频输入水平的空间变化。

多个换能器可以包括多个扬声器，并且处理特性的声学环境中的三维空间变化可以包括输出增益的空间变化。

形成三维图像可以包括在可视化平台上形成三维图像，该可视化平台包括呈现设备，该呈现设备包括例如增强现实设备、虚拟现实设备和/或二维触摸屏设备中的一个或更多个。

控制音频处理器的处理特性的配置值可以包括捕获交互式用户输入，响应于处理特性的三维图像，以可控地改变音频处理器的处理特性，从而根据变化的处理特性实现音频处理器的目标行为，根据改变后处理特性来确定处理特性的调整后配置值以实现音频处理器的目标行为，并且根据所确定的处理特性的调整后配置值来配置由音频控制器控制的音频系统的参数。

捕获交互式用户输入可以包括捕获指示处理特性变化的用户手势。

在一些变体中，提供了一种音频处理系统，其包括可视化平台、多个换能器(例如图2的麦克风220A-220C或扬声器224A-224B)、至少控制多个换能器的可配置音频处理器、以及与可视化平台、多个换能器和音频处理器电通信的控制器。控制器被配置为基于音频处理器的配置值来确定声学环境中的处理特性的三维空间变化，形成处理特性的该三维空间变化的三维图像，并且提供在可视化平台上呈现给用户的三维图像以控制配置值。

在一些变体中，提供了一种非暂时性计算机可读介质，用于控制经由多个换能器耦接到声学环境的可配置音频处理器。计算机可读介质存储可在至少一个可编程设备上执行的一组指令，以基于音频处理器的配置值来确定音频处理器的处理特性在声学环境中的三维空间变化，形成处理特性的三维空间变化的三维图像，并提供用于呈现给用户的三维图像以控制配置值。

在某些变体中，提供了一种计算装置，该计算装置包括一个或更多个可编程设备，用于根据上述方法步骤中的任何一个，控制经由多个换能器耦接到声学环境的可配置音频处理器。

在某些变体中，提供了一种非暂时性计算机可读介质，该介质用可在处理器上执行的一组计算机指令进行编程，该计算机指令在执行时执行包括上述各种方法步骤中的任何一个的操作。

上述系统、装置和非暂时性计算机可读介质的实施例可以包括本发明中描述的至少一些特征，包括以上关于方法描述的至少一些特征。

本发明的其他特征和优点从以下描述并且从权利要求中显而易见。

附图说明

现在将参考以下附图详细描述这些和其他方面。

图1是采用增强现实平台来配置音频处理系统的系统的示意图。

图2是使用交互式可视化平台来控制音频处理特性的示例系统的示意图。

图3包括示出由两个麦克风的阵列创建的束形图的图。

图4A-图4C是配置音频处理系统的声音灵敏度特性的可视化平台的操作使用的图示。

图5是用于控制可配置音频处理器的示例过程的流程图。

各附图中相同的附图标记表示相同的元件。

具体实施方式

本文描述的所提出的框架实现了一种具有用户界面的音频处理器，在该用户界面中可以定义和操纵音频处理器的处理特性。在所提出的框架的示例中，在交互式可视化平台上形成并呈现表示音频处理器的处理特性的三维图像(例如，束形图)，该三维图像表示声学激活或敏感的区域，该交互式可视化平台允许交互用户通过例如简单的手势操纵处理特性的配置值。例如，用户可以将束/漏斗的开口移动到可视化平台的另一区域，或者操纵3D图像的维度以改变其定向和/或尺寸。控制器可以响应于来自用户的操纵输入而导出由音频处理器控制的声音设备的参数值。例如，控制器可以计算控制耦接到音频处理器的换能器设备的操作的新的操作参数(例如，麦克风灵敏度、幅度延迟参数等)。换能器参数的变化改变了麦克风束的模式(定向和尺寸)，从而改变了声音环境中的声音灵敏度分布(例如，导致麦克风阵列更显著地感测到来自特定扬声器的声学)。

考虑到，作为简单示例，图1中的图示100显示了增强现实平台的使用，在该平台上呈现可交互束110的图像，以控制音频处理系统130产生的声音敏感束形图的属性。声音灵敏度图案由根据一些初始麦克风操作参数值配置的阵列120中的麦克风的交互形成。如图1中所示，配备有增强现实或虚拟现实护目镜142(护目镜也被称为呈现设备，并且可以包括其他类型的设备，例如平板电脑或智能手机设备，以呈现可交互图形对象)的用户140，从音频系统130接收图像数据134，该图像数据134使得束110的三维图像在用户140正在使用的可视化平台上形成。例如，如果可视化平台是增强现实平台，则束110的3D呈现将叠加在通过护目镜142显示的场景的正常视图上。如下面将更详细地讨论的，音频系统130包括图像生成器和音频处理器(如图2中所示)，音频处理器控制用户140所处的声音环境内的处理特性(例如，对噪声环境的声音敏感度、从声音环境捕获的各种嘈杂元素的消除或减少等)。音频处理器通过导出其控制的各种设备和子系统(例如麦克风阵列120)的操作参数来配置处理特性(例如麦克风在声音环境中的声音灵敏度)，以被配置为具有期望的目标行为(例如，适应声学环境的不同部分的经修改的声音灵敏度)。

系统130(如前所述，包括音频处理器和用于执行音频处理特性可视化的框架)与用户用于可视化音频处理特性(如空间声音灵敏度)的呈现设备建立通信链路，并且向用户提供在护目镜142处处理的图像数据134，以呈现正在被可视化的音频处理器的特定处理特性的3D可交互图像表示(例如，表示声音灵敏度的束110)。响应于处理特性的视觉呈现，用户提供指示在用户140使用的可视化平台上显示的三维呈现的交互式操纵的输入(被标识为用户输入数据132)。例如，用户可以配备有传感器/控制器设备(包括相机、例如加速度计等的惯性传感器)，传感器/控制器设备附接到用户(例如，在用户的手或附近处)、用户正在握持传感器/控制器设备、或者可以以其他方式跟踪/感测由用户执行的移动和姿势，以操纵音频处理特性的3D图像呈现。在图1的示例中，用户可以做出抓握或捏动作的姿势以模拟对束的基部的抓握，并且在与用户希望移动束形图的基部对应的方向上移动其手指。由用户提供的输入数据还可以包括表示用户正在观看的观看场景中的特征和/或用户的眼睛所指向的方向的观看数据，从而提供关于用户希望如何控制/操纵束的空间属性的附加信息。如下文所述，用户还可以提供输入(以手势或身体姿势的形式)来控制束的维度(束的定向和宽度)，从而进一步细化用户140操作的声音环境中的声音敏感度特性。如前所述，在一些示例中，可视化平台可以包括诸如平板设备或智能手机设备的触敏设备，其中音频处理特性的3D图像呈现将出现在2D显示设备上，并且通过应用于设备的触摸屏显示器的触摸姿势来提供来自用户的操纵输入。

系统100的用例的示例或(如下文更具体地描述的)本文描述的任何其他实现包括以下情况。第一示例涉及束成形设置的配置和验证。音频工程师可以使用所提出的框架以更直观、更快且不易出错的方式配置车辆内的麦克风设置。物理汽车内部的3D可视化有助于定位麦克风阵列并找到束成形器的最佳对准。由于诸如语音信号能量之类的信号的可视化也是近实时可视化的，因此可以立即验证配置的正确性。束成形(即，束形图)可以在稍后由车辆的占用者(例如，驾驶员或乘客)进行调整。

第二示例涉及向利益相关者(零售商、客户、汽车经销商、制造商等)演示某些无形的(或难以察觉的)音频系统技术特征。由于音频技术本质上是看不见的(即，无法自然地看到其操作和效果)，因此很难向潜在客户和对该技术感兴趣的其他人展示和解释它。该技术的现场3D可视化有助于理解和传达束成形或其他音频处理特性和特征的功能和好处。由于语音能量和其他相关信号的近实时可视化，利益相关者可以交互式地探索该技术，并立即看到其效果。这有助于解释和证明音频处理(SSE)技术的有效性。

图2提供了类似于图1的系统100的示例系统200的更详细的示意图，以使用交互式可视化平台来控制声音环境中的音频处理特性(例如声音灵敏度、声音消除)。尽管图2的示例描绘了汽车204中的车厢声音环境，但是图2的实施方式可以用于其他类型的声音环境，例如开放式公共空间声音环境、办公空间声音环境、家庭声音环境、以及任何其他环境，在这些环境中，各种音频处理特性，例如可以使用交互式可视化平台来控制的基于空间的声音灵敏度、噪声抑制、回声消除等。关于噪声降低音频处理操作的细节在题为“可切换噪声降低配置文件(Switchable Noise Reduction Profiles)”的美国申请第17/952,432号中提供，其内容通过引用整体并入本文。

在图2中，用户202正在驾驶配备有音频处理系统230的汽车204，该音频处理系统被配置为控制汽车204内的声音环境中的各种音频处理特性。汽车204的车厢配备有例如多个麦克风220A-220C(在本示例中布置成阵列)的多个换能器设备，以及例如扬声器224A-224B(在本示例中布置成扬声器阵列)的一个或更多个扬声器。如图2中进一步所示，汽车204的车厢配备有一个或更多个传感器或输入设备，用户202可以通过该一个或更多个传感器或输入设备提供输入，以使音频处理特性根据期望或需要而变化/调整。图2描绘了安装在汽车202中的相机206，该相机206跟踪/监视驾驶员的运动和姿势，并捕获可以被分析以确定驾驶员的交互式请求和命令的视频数据。尽管在图2中没有具体示出，但是可以安装在汽车204中或直接安装在用户202上的其他传感器和输入设备包括惯性/运动传感器(例如，加速度计、陀螺仪等)，惯性/运动传感器捕获驾驶员的一个或多个运动，然后分析所捕获的数据以确定用户是否已经指示了对汽车系统的任何操作改变(包括对音频处理特性的操作改变)。驱动器可以使用的另一种类型的交互式输入设备是触摸屏，例如通常安装在平板设备或汽车显示设备(例如，汽车的导航系统显示器)上的触摸屏。触摸屏显示设备可以起到作为呈现设备的双重作用，在该呈现设备上显示音频处理特性(例如，表示为束成形的声音灵敏度)，并且可以被操纵以定义新的处理特性配置(例如，引导或移动束成形以指向不同的方向)。还如图2中所示，可以生成音频处理特性的图形表示的呈现，以在虚拟现实可视化平台的增强现实上显示。例如，用户202配备有护目镜250(其可以类似于图1的护目镜142)，使得驾驶员202(或一些其他用户)可以看到(在增强现实平台的情况下)叠加在驾驶员/用户看到的视图上的处理特性(例如，束成形)的三维图像表示。如进一步所示，在各种示例中，音频处理系统230还可以从车辆系统221接收输入，例如，提供车辆状态(例如，车辆速度、导航状态等)，这可以影响音频处理系统230的操作。

在一些示例中，音频处理系统230可以控制的处理特性中，是能够通过包括麦克风220A-220C的麦克风阵列(该麦克风阵列可以包括大于2的任何数量的麦克风)自适应地实现的空间声音灵敏度。图2包括如插图260所示的音频处理系统230的框图图示。如图所示，音频处理系统包括音频处理器242，该音频处理器242尤其可以自适应地控制麦克风阵列220A-220C。如前所述，束成形的期望配置(或某些其他处理特性)由驾驶员/用户通过包括示出用户的姿势和移动的(由相机206捕获的)视频数据的输入数据来改变束成形的配置、通过由惯性传感器捕获的运动数据(例如通过话音数据(由驾驶员/用户发出的命令))、通过写入数据等来提供。响应于由诸如相机206的传感器和输入设备捕获的传感器和输入数据232，由处理特性更新器单元234计算目标束成形，该处理特性更新器单元234计算针对束成形(或者针对可以通过例如音频处理器242控制的任何其他处理特性)的调整配置(定向和维度)。传感器和输入数据232表示用户输入(例如，用户的姿势)，该用户输入指示音频处理系统230的音频处理特性的期望改变。例如，传感器和输入数据232可以指示束成形的声音灵敏度的空间变化，束成形代表麦克风所适应的声音环境的区域。传感器和输入数据232可以包括表示例如由用户执行以指示束成形的方向/定向、束成形的维度等的视觉姿势的数据。传感器和输入数据232的其他示例包括语音数据(其中用户用语言描述期望的改变)、写入数据等等。

处理特性更新器单元234分析通过各种输入设备和传感器提供的输入数据，以确定用户请求的对音频处理特性的改变的性质。例如，视频数据可能已经捕获到用户抓取或捏住束成形器基部的图像呈现，并将其引导一定距离到另一位置。在一个示例中，处理特性更新器单元234计算束成形基部已经移动的相对距离(例如，以像素表示)，并将计算的相对距离(和束成形的其他属性)转换为表示束成形的新目标配置的新配置值(或其他可操纵的处理特性)。要注意的是，也可以基于控制输入数据由更新器单元234计算配置值，该控制输入数据通过增加或减少音频处理器242的操作参数的当前值(下面更详细地讨论)来调整声音灵敏度的当前配置值。例如，可以操纵具有虚拟旋钮和按钮的用户界面，以引起由音频处理器控制的操作行为的改变(通常是增量改变)。然而，这种类型的调整控制通常比本文所讨论的所提出的视觉解决方案和方法更粗糙且不那么直观。

表示为配置数据235的束成形的新配置值接下来被提供给音频配置值计算单元240，音频配置值计算单元240导出操作参数值(标记为单元240的输出241)，该操作参数值控制换能器220A-220C(以及换能器224A-224B，以及可能安装在声音环境中的其他音频设备)的操作以配置换能器以根据用户提供的输入进行操作。因此，例如，响应于指定汽车204中的声音灵敏度图案的期望变化的输入，音频配置值计算单元240导出用于由音频处理器242实现滤波的滤波器参数值，这些滤波器参数值以产生与由驾驶员/用户202指定的新的期望束形图匹配的空间灵敏度图案的方式应用于声音信号。音频配置值计算单元240可以类似地基于音频行为的可视化来计算与由驾驶员/用户202指定的期望音频行为(例如扬声器224A-224B产生的声学信号的束形图)匹配或一致的其他音频设备(例如换能器/扬声器224A-224B)的操作参数。

在实现期望的声音灵敏度束成形的示例中，音频配置值计算单元240导出例如应用于由阵列的各种麦克风捕获的声音信号的滤波参数。为此，单元240被配置为计算阵列的麦克风中的每一个的相应延迟或相位值以及信号权重，其组合(作为当这样的延迟、相位和权重被应用于捕获的声音信号时声音信号的波干扰的结果)导致由处理特性更新器234确定的更新束成形表示的期望声音灵敏度。在一些示例中，根据一个或更多个选定的优化过程(例如，归一化最小均方过程)来执行阵列的各种麦克风的滤波参数的推导。

已经根据来自驾驶员或用户的输入计算了麦克风阵列的更新的操作参数值(例如，实现应用于麦克风阵列捕获的信号的滤波操作的更新的滤波参数)，音频处理器将新导出的值应用于从麦克风220A-220C接收的声音信号(由标记为“声源(Audio Src.)”的框表示)。

类似地，可能存在驾驶员/用户希望配置其他音频设备(如扬声器224A-224B)的操作行为的情况，例如，定义束成形，用于以期望的方式传播声学声音，从而提高到达特定乘客或用户的声音的质量。在这种情况下，用户将响应于那些其他音频设备的音频操作特性的视觉表示(例如，扬声器224A-224B的当前声音传播图案)，通过例如姿势或口头指定期望的改变来指定修改后图案。处理特性更新器234将计算结果操作特性(例如，驾驶员/用户使用的视觉帧中的结果传播模式)，并且单元240将计算设备参数以控制扬声器的实际操作行为。例如，单元240可以导出滤波器参数(以使声音信号具有特定的延迟/相位和/或增益)，这些滤波器参数将被应用于将被转发到扬声器的声音信号。一旦由音频处理器242实现，根据由音频配置值计算单元240计算的操作参数滤波的声音信号将以与由驾驶员/用户指定的修改后图案一致的方式从扬声器224A-224B传播。

如图2中进一步所示，音频处理器通常耦接到话音助手/通信单元244(或者，话音助手/通信单元244可以是音频处理器242的一部分)。话音助手/通信单元244被配置为对由汽车的占用者之一发出的语音执行话音识别操作，并且响应于在识别的语音中识别的命令或指令，话音助手/通信单元244被设置为生成控制信令以根据来自占用者的请求执行某些功能。例如，话音助手可以促进导航功能的执行，促进音频系统功能(包括控制声音灵敏度)，以及可选地控制其他汽车功能(车厢内的光照水平、巡航控制功能等)。单元244的通信电路控制通信连接处理(例如，在“免提电话”模式下与远程用户的通信连接处理)。话音助手/通信单元244可以包括(或者可以耦接到)信号发送/接收电路，以直接向远程用户发送通信信号和/或从远程用户接收通信信号(例如，基于诸如长期演进(Long TermEvolution,LTE)的无线广域网(Wireless Wide Area Network,WWAN)通信技术，由单元244实现)，或者基于通信协议(例如蓝牙(Bluetooth^TM)或蓝牙低能耗(Bluetooth Low Energy,BLE^TM))与附近的无线设备建立通信链路。从远程呼叫者接收的通信信号可以经由话音助手/通信单元244从本地接收无线设备路由到音频处理器240，并且从那里被引导到音频目的地(例如，扬声器224A-224B中的一个或更多个)。类似地，由麦克风220A-220C捕获并由音频处理器242处理的语音可以经由话音助手/通信单元244直接地或经由附近的无线设备间接地指向远程呼叫者。

继续参考图2，处理特性更新器234确定与用户指示的期望输入相对应的新配置值，还将配置数据提供给图像生成器236，图像生成器236被配置为生成表示与用户寻求控制的处理特性相对应的三维图像的图像数据237(图像生成器实际上提供从更新器234计算的配置数据到呈现图像237的映射)。要注意的是，在一些示例中，图像生成器可以是处理特性更新器234的一部分。处理特性更新器234的输出数据(235)可以是与图像237相对应的实际图像数据表示，或者可以是表示音频处理特性的先前三维图像和由用户修改的要呈现给驾驶员/用户202的现在更新的图像之间的变化的数据。在配置表示声音环境内的空间声音灵敏度的束成形的示例中，图像生成器236生成表示具有与来自驾驶员/用户202的输入所指定的变化相称的定向和维度的更新的束形图的更新的三维图像的数据。由图像生成器生成的图像数据237与由音频配置值计算单元240计算并由音频处理器242实现的音频操作参数匹配(同构)。

例如，使用通信链路238将生成的三维图像数据237传送到用户202可访问的呈现设备，该通信链路238可以基于诸如蓝牙^TM或BLE^TM的短距离通信协议，或者可以基于无线局域网(Wireless Local Area Network,WLAN)通信协议(例如，WiFi)。在图2的示例中，呈现设备是护目镜250，其可以将图像数据237的呈现叠加在显示器上，通过该显示器可以看到用户202观看的场景。也可以使用其他类型的呈现设备，例如平板设备、无线通信设备、声音环境内的固定显示设备。要注意的是，在各种示例中，可以在呈现设备(例如，护目镜250)处计算图像数据(例如图像数据237)。在这样的示例中，传输到护目镜250的数据可以是由处理特性更新器234确定的配置数据235。呈现设备250可以实现图像生成器(类似于图2中所示的图像生成器236)以生成图像数据并将其呈现在呈现设备的显示设备上。

在驾驶员/用户使用的呈现设备上呈现了音频处理特性后，用户随后可以通过交互式地操纵(如可以由诸如相机206、惯性传感器等的传感器设备捕获的)呈现的图像来进一步修改处理特性，从而做出进一步的改变。例如，如果声音灵敏度的束形图指示驾驶员是有源扬声器，并且驾驶员希望另一个占用者成为有源扬声器，则驾驶员(或某个其他用户)可以做出抓握束成形的基部的姿势，以使其在新扬声器所在的方向上移动。在另一示例中，并且参考示出由两个麦克风的阵列创建的束图300和310的图3，用户可以根据自适应束成形过程来配置音频处理系统，该自适应束成形处理根据当前声场优化空间声音灵敏度。这种优化导致可以在可视化平台(例如护目镜250)上可视化的束形图，在该可视化平台上呈现(例如由图像生成器236生成的)束图的图像(2D或3D)。所得束图300和310的可视化可用于支持分析和进一步开发(配置和改进)。如前所述，在各种示例中，处理特性的可视化包括声场特性的可视化，但不直接使用这样的声场特性来可控地修改音频处理器的操作/行为。例如，当音频处理器的束成形固定到某个角度时，用户可以确定并可视化声学到达角。因此，所提出的解决方案和方法包括将声学环境的当前特征可视化的实现，但不必主动修改声学处理器的任何处理特性。

图4A-图4C是演示可视化平台的操作使用以配置音频系统的声音灵敏度特性的图示/屏幕截图。图4A-图4C的屏幕截图示出了表示汽车的模拟声音环境中的空间声音灵敏度的束图的三维交互式图像的呈现。特别地，图4A包括通过站在汽车模型外部的用户佩戴的护目镜看到的增强现实视图的屏幕截图400，该增强现实视图模拟寻求配置音频处理系统的声音灵敏度特性的技术人员的角色。屏幕截图400示出了用于驾驶员的束成形的锥形图像402的初始呈现(锥形图像402将以类似于图2的图像237的方式生成，并且将经由诸如图2的链路238之类的通信链路传送到用户的呈现设备)。该呈现指示麦克风阵列(类似于图2中包括麦克风220A-220C的阵列)的当前配置使得束图适应来自驾驶员方向的声音，并且对来自声音环境的其他区域的声音远不那么敏感。

图4B是在图4A的后续实例处拍摄的屏幕截图410，其中车外的用户在靠近锥体412的基部的位置414处交互地做出姿势以抓住锥体412的基部(以类似于图2的图像237的方式生成，并且经由诸如图2的链路238的通信链路传送到用户的呈现设备)，以在朝向配置用户且远离驱动器的方向上移动锥体。视图在增强现实平台中呈现，用户可以将其可视化。然而，如果没有可视化平台的帮助，用户将无法察觉实际的声音灵敏度特性。如本文所述，在示例实施例中，可以由相机或运动传感器捕获的姿势运动被提供给诸如处理特性更新器234之类的单元，以计算由用户对视觉呈现的输入所指示的空间变化(即，所计算的变化对应于用户观看的三维图像的变化)。计算出的变化可以被提供给图像生成器，例如图2的图像生成器236，图像生成器使用锥体(束成形)的当前呈现数据和与用户的交互式输入相对应的计算出的变化，以生成要传送到可视化平台的更新图像，以便用户可以查看由用户的输入产生的呈现。伴随地，将由用户的输入引起的改变提供给计算更新音频处理器的电路的操作参数所需的配置值的单元，该配置值将导致具有与更新的图像的行为/配置匹配的行为/配置的声音环境中的实际声音灵敏度(或一些其他音频处理特性)在可视化平台中呈现。

如前所述，可视化平台可被配置为呈现其他音频处理特性的视觉表示。例如，图4C提供了使图4A和图4B中使用的汽车模型内的声音环境可视化的另一屏幕截图420，示出了声音环境中捕获的声能的可视化。如图4C中所示，在可视化平台上呈现由指向汽车乘客侧的束成形(锥体)422表示的空间声音灵敏度的当前配置。当乘客说话时，在锥体422内捕获的声能被显示为斑点，例如标记的矩形区域424内的斑点。如图所示，捕获的声能是从束成形422覆盖的方向到达的，其中来自束成形外部区域的声能被显著抑制。

虽然本文没有具体说明，但可以以类似于图4A-图4C中所讨论的方式来可视化由声音环境的音频处理器控制的许多其他不可感知的音频处理特性。在一些示例中，汽车内的活动语音区域(例如，在单独的麦克风和扬声器被布置在单独定义的区域中的情况下)可以通过在所观看的场景中呈现隔声室来在可视化平台中表示。这种隔间可以被呈现为覆盖不同区域的有墙的包厢或房间。激活这些隔间的交互式控制可以通过指向需要激活有墙部分的区域或通过口头输入来执行。音频处理特性的其他示例可以包括噪声抑制消除操作的视觉表示、音频区域和从扬声器发出的声音类型的视觉表示(例如，控制声音环境的占用者应该如何听到古典音乐作品的音频演示，在一个扬声器处产生弦声音分量，在另一个扬声器处产生黄铜声音分量)等。

接下来参考图5，提供了用于控制可配置音频处理器(例如图2中所示的处理器242)的示例过程500的流程图，可配置音频处理器经由多个换能器(例如图2中所示的麦克风220A-220C和扬声器224A-224B)耦接到声学环境。过程500包括基于音频处理器的配置值(诸如由图2的配置值计算单元240计算的配置值)来确定510音频处理器的处理特性的声学环境中的三维空间变化。过程500还包括形成520处理特性的三维空间变化的三维图像，以及提供530用于呈现给用户以控制配置值的三维图像。

在一些示例中，多个换能器可以包括麦克风阵列。在这样的示例中，处理特性的声学环境中的三维空间变化可以包括输入声音灵敏度的空间变化。三维图像可以表示输入声音灵敏度的灵敏度方向。三维图像可以进一步表示输入声音灵敏度的空间范围。在各种示例中，处理特性的声学环境中的三维空间变化可以进一步包括由麦克风阵列捕获的音频输入的水平的空间变化。在某些示例中，多个换能器可以包括多个扬声器，并且处理特性的声学环境中的三维空间变化可以包括输出增益的空间变化。

过程500还可以包括向用户呈现三维图像。呈现可以在呈现设备上执行，该呈现设备包括例如增强现实设备、虚拟现实设备和/或二维触摸屏设备中的一个或更多个。

该过程还可以包括对响应于三维图像的呈现而接收的来自用户的输入进行处理，以确定音频处理器的更新后配置值。在这样的示例中，该过程还包括基于响应于来自用户的输入而确定的处理特性的更新后三维空间变化来确定更新后三维图像，并将更新后三维图像呈现给用户。该过程还可以包括根据配置值来操作音频处理器。

在一些示例中，控制音频处理器的处理特性的配置值可以包括响应于处理特性的三维图像捕获交互式用户输入，根据改变后处理特性可控地改变音频处理器的处理特性以实现音频处理器的目标行为，根据改变后处理特性确定处理特性的调整后配置值以实现音频处理器的目标行为，以及根据所确定的处理特性的调整后配置值来配置由音频处理器控制的音频系统的参数。捕获交互式用户输入可以包括(例如，通过相机或运动传感器)捕获指示处理特性的改变后用户手势。

本文所述的实现，包括使用神经网络的实现，可以在任何计算平台(包含包括一个或更多个微处理器、微控制器和/或提供处理功能以及其他计算和控制功能的数字信号处理器的计算平台)上实现。计算平台可以包括一个或更多个中央处理器(centralprocessing unit,CPU)、一个或更多个图形处理单元(graphics processing unit,GPU，例如英伟达(NVIDIA)GPU)，并且还可以包括专用逻辑电路，例如现场可编程门阵列(fieldprogrammable gate array,FPGA)、专用集成电路(application-specific integratedcircuit,ASIC)、数字信号处理(Digital Signal Process,DSP)处理器、加速处理单元(accelerated processing unit,APU)、应用处理器、定制专用电路等，以至少部分地实现本文所述的神经网络、过程和方法的过程和功能。计算平台通常还包括用于存储数据的存储器和用于在设备内执行编程功能的软件指令。一般来说，计算机可访问的存储介质可以包括在使用期间计算机可访问以向计算机提供指令和/或数据的任何非暂时性存储介质。例如，计算机可访问的存储介质可以包括例如磁盘或光盘和半导体(固态)存储器、动态随机存取存储器(Dynamic Random Access Memory,DRAM)、静态随机存取存储器(StaticRandom-Access Memory,SRAM)等的存储介质。通过使用神经网络实现的各种学习过程可以使用TensorFlow(用于诸如神经网络的机器学习应用的软件库)来配置或编程。可以使用的其他编程平台包括keras(一种开源神经网络库)构建块、NumPy(一种用于实现处理阵列的模块的开源编程库)构建块等。

除非另有定义，否则本文中使用的所有技术和科学术语与通常或传统理解的具有相同的含义。如本文所用，冠词“一个(a)”和“一个(an)”指的是文章的一个或多于一个(即，至少一个)语法对象。例如，“一个元素”是指一个元素或多于一个元素。当提及可测量值(如量、持续时间等)时，本文使用的“大约”和/或“近似”包括与指定值相差±20％或±10％、±5％或+0.1％的变化，因为这种变化适用于本文所述的系统、设备、电路、方法和其他实现方式。当提及可测量值(如量、持续时间、物理属性(如频率)等)时，本文所用的“实质上”也包括与指定值相差±20％或±10％、±5％或+0.1％的变化，因为这种变化适用于本文所述的系统、设备、电路、方法和其他实施的上下文。

如本文所用，包括在权利要求中，以“至少一个”或“一个或更多个”开头的项目列表中使用的“或”表示析取列表，使得例如，“A、B或C中的至少一个”的列表是指A或B或C或AB或AC或BC或ABC(即，A和B和C)，或具有多于一个特征的组合(例如，AA、AAB、ABBC等)。并且，所本文所用，除非另有说明，否则功能或操作“基于”项目或条件的声明是指该功能或操作基于所述项目或条件，并且可以基于除所述项目和条件之外的一个或更多个项目和/或条件。

已经描述了本发明的许多实施例。然而，应理解，以上描述旨在说明而不是限制本发明的范围，本发明由以下权利要求的范围限定。因此，其他实施例也在以下权利要求的范围内。例如，在不脱离本发明的范围的情况下，可以进行各种修改。此外，以上描述的一些步骤可以顺序独立，因此可以以不同于所描述的顺序执行。

Claims

1.一种用于控制可配置音频处理器(242)的方法，所述可配置音频处理器(242)经由多个换能器(220A-220C、224A-224B)耦接到声学环境(204)，所述方法包括：

基于所述音频处理器(242)的配置值(241)来确定所述音频处理器的处理特性在所述声学环境中的三维空间变化；

形成所述处理特性的三维空间变化的三维图像(237)；以及

提供用于呈现给用户(202)的所述三维图像(237)以控制所述配置值。

2.根据权利要求1所述的方法，还包括将所述三维图像呈现给所述用户。

3.根据权利要求1或权利要求2所述的方法，还包括对响应于所述三维图像的呈现而接收的来自所述用户的输入进行处理，以确定所述音频处理器的更新后配置值。

4.根据权利要求3所述的方法，还包括基于响应于来自所述用户的输入而确定的所述处理特性的更新后三维空间变化来确定更新后三维图像，并将所述更新后三维图像呈现给所述用户。

5.根据权利要求1至4中任一项所述的方法，还包括根据所述配置值来操作所述音频处理器。

6.根据权利要求1至5中任一项所述的方法，其中，所述多个换能器包括麦克风阵列。

7.根据权利要求6所述的方法，其中，所述处理特性在所述声学环境中的三维空间变化包括输入声音灵敏度的空间变化。

8.根据权利要求7所述的方法，其中，所述三维图像表示输入声音灵敏度的灵敏度方向。

9.根据权利要求8所述的方法，其中，所述三维图像还表示所述输入声音灵敏度的空间范围。

10.根据权利要求6所述的方法，其中，所述处理特性在所述声学环境中的三维空间变化还包括由所述麦克风阵列捕获的音频输入的水平的空间变化。

11.根据权利要求1至5中任一项所述的方法，其中，所述多个换能器包括多个扬声器，并且其中，所述处理特性在所述声学环境中的三维空间变化包括输出增益的空间变化。

12.根据权利要求1至11中任一项所述的方法，其中，形成所述三维图像包括在可视化平台上形成所述三维图像，所述可视化平台包括呈现设备，所述呈现设备包括增强现实设备、虚拟现实设备或二维触摸屏设备中的一个或更多个。

13.根据权利要求1至12中任一项所述的方法，其中，控制所述音频处理器的处理特性的配置值包括：

响应于所述处理特性的三维图像，捕获交互式用户输入，以可控地改变所述音频处理器的处理特性，从而根据改变后处理特性实现所述音频处理器的目标行为；

根据所述改变后处理特性来确定所述处理特性的调整后配置值以实现所述音频处理器的所述目标行为；以及

根据所确定的处理特性的调整后配置值来配置由所述音频处理器控制的音频系统的参数。

14.根据权利要求13所述的方法，其中，捕获所述交互式用户输入包括：

捕获指示所述处理特性的改变的用户手势。

15.一种音频处理系统，包括：

可视化平台(236、250)；

多个换能器(220A-220C、224A-224B)；

可配置音频处理器(242)，用于至少控制所述多个换能器；以及

控制器(234、240)，与所述可视化平台、所述多个换能器和所述音频处理器电通信，所述控制器被配置为：

基于所述音频处理器(230)的配置值(241)来确定处理特性在声学环境中的三维空间变化；

形成所述处理特性的三维空间变化的三维图像(237)；以及

提供所述三维图像以在所述可视化平台上呈现给用户(202)以控制所述配置值。

16.根据权利要求15所述的音频处理系统，其中，所述多个换能器包括麦克风阵列，其中，所述处理特性在所述声学环境中的三维空间变化包括输入声音灵敏度的空间变化，并且其中，所述三维图像表示所述输入声音灵敏度的灵敏度方向或所述输入声音灵敏度的空间范围中的一个或更多个。

17.根据权利要求15所述的音频处理系统，其中，所述多个换能器包括多个扬声器，并且其中，所述处理特性在所述声学环境中的三维空间变化包括输出增益的空间变化。

18.根据权利要求15至17中任一项所述的音频处理系统，其中，所述控制器还被配置为对响应于所述三维图像的呈现而接收的来自所述用户的输入进行处理，以确定所述音频处理器的更新后配置值。

19.根据权利要求18所述的音频处理系统，其中，所述控制器还被配置为基于响应于来自所述用户的输入而确定的所述处理特性的更新后三维空间变化来确定更新后三维图像，并使所述更新后三维图像被呈现。

20.一种非暂时性计算机可读介质，用于控制经由多个换能器(220A-220C、224A-224B)耦接到声学环境(204)的可配置音频处理器(243)，所述计算机可读介质存储能够在至少一个可编程设备上执行的指令集，以：

基于所述音频处理器的配置值(241)来确定所述音频处理器的处理特性在所述声学环境中的三维空间变化；

形成所述处理特性的三维空间变化的三维图像(237)；以及

21.一种计算装置，包括：

一个或更多个可编程设备，用于根据权利要求1至14中任一项中的步骤来控制经由多个换能器(220A-220C、224A-224B)耦接到声学环境(204)的可配置音频处理器(242)。

22.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质用能够在处理器上执行的计算机指令集编程，所述计算机指令集在被执行时执行包括权利要求1至14中任一项的方法步骤的操作。