CN116803106A

CN116803106A - 基于声源方向性的心理声学增强

Info

Publication number: CN116803106A
Application number: CN202180091715.0A
Authority: CN
Inventors: I·G·穆诺茨
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2021-01-29
Filing date: 2021-12-17
Publication date: 2023-09-22
Anticipated expiration: 2041-12-17
Also published as: US11646046B2; TW202304226A; JP7459391B2; US20220246160A1; EP4285611A1; JP2023554694A; KR20230113853A; CN116803106B; WO2022164590A1; BR112023014480A2; KR102650763B1

Abstract

一种设备包括：存储器，其被配置为存储与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据。该设备还包括一个或多个处理器，其被配置为至少部分地基于方向性数据来确定一个或多个均衡器设置。一个或多个处理器还被配置为基于均衡器设置来生成与一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号。

Description

基于声源方向性的心理声学增强

与相关申请的交叉引用

本申请要求保护于2021年1月29日递交的共同所有的美国非临时专利申请No.17/162,241的优先权的权益，通过引用将所述申请的内容整体上明确地并入本文。

技术领域

概括而言，本公开内容涉及基于音频源方向性的心理声学增强。

背景技术

技术的进步已经导致更小且更强大的计算设备。例如，当前存在各种各样的便携式个人计算设备，包括小型、轻量级以及容易由用户携带的无线电话(诸如移动和智能电话、平板设备和膝上型计算机)。这些设备可以在无线网络上传送语音和数据分组。此外，许多这样的设备并入了额外的功能，诸如数字静止照相机、数字摄像机、数字记录器和音频文件播放器。此外，这样的设备可以处理可执行指令，包括可以用以接入互联网的软件应用(诸如网页浏览器应用)。照此，这些设备可以包括关键的计算能力。

这样的计算设备通常合并有从一个或多个麦克风接收音频信号的功能。例如，音频信号可以表示由麦克风捕获的用户语音、由麦克风捕获的环境声音或其组合。由于麦克风距其用户语音被麦克风捕获的用户的距离，用户语音可能难以在音频信号中听到。例如，距用户较远的麦克风可能捕获较多的环境声音，诸如交通、其他用户的语音等。作为另一示例，当被较远的麦克风捕获时，用户语音听起来更弱。关注音频信号中的特定声音的能力对于各种应用是有用的，诸如在通信应用或声控辅助系统中更清楚地传达用户语音。

发明内容

根据本公开内容的一种实现，一种设备包括：存储器，其被配置为存储与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据。所述设备还包括一个或多个处理器，其被配置为：至少部分地基于所述方向性数据来确定一个或多个均衡器设置。所述一个或多个处理器还被配置为：基于所述均衡器设置来生成与所述一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号。

根据本公开内容的另一种实现，一种方法包括：在设备处获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据。所述方法还包括：在所述设备处，至少部分地基于所述方向性数据来确定一个或多个均衡器设置。所述方法还包括：基于所述均衡器设置来生成与所述一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号。

根据本公开内容的另一种实现，一种非暂时性计算机可读介质存储指令，所述指令在由一个或多个处理器执行时使得所述一个或多个处理器进行以下操作：获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据。所述指令在由一个或多个处理器执行时还使得所述一个或多个处理器进行以下操作：至少部分地基于所述方向性数据来确定一个或多个均衡器设置。所述指令在由一个或多个处理器执行时还使得所述一个或多个处理器进行以下操作：基于所述均衡器设置来生成与所述一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号。

根据本公开内容的另一种实现，一种装置包括：用于获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据的单元。所述装置还包括：用于至少部分地基于所述方向性数据来确定一个或多个均衡器设置的单元。所述装置还包括：用于基于所述均衡器设置来生成与所述一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号的单元。

在阅读整个申请(包括以下章节：附图说明、具体实施方式和权利要求书)之后，本公开内容的其它方面、优势和特征将变得显而易见。

附图说明

图1是根据本公开内容的一些示例的可操作性以基于音频源方向性来执行心理声学增强的系统的特定说明性方面的框图。

图2A是根据本公开内容的一些示例的由图1的系统生成的图形用户界面(GUI)的说明性示例的图。

图2B是根据本公开内容的一些示例的由图1的系统生成的GUI的另一说明性示例的图。

图3是根据本公开内容的一些示例的图1的系统的组件的说明性方面的图。

图4是根据本公开内容的一些示例的图1的系统的组件的说明性方面的图。

图5是根据本公开内容的一些示例的图1的系统的组件的说明性方面的图。

图6是根据本公开内容的一些示例的图1的系统的组件的说明性方面的图。

图7示出了根据本公开内容的一些示例的可操作以基于音频源方向性来执行心理声学增强的集成电路的示例。

图8是根据本公开内容的一些示例的可操作以基于音频源方向性来执行心理声学增强的移动设备的图。

图9是根据本公开内容的一些示例的可操作以基于音频源方向性来执行心理声学增强的耳机的图。

图10是根据本公开内容的一些示例的可操作以基于音频源方向性来执行心理声学增强的可穿戴电子设备的图。

图11是根据本公开内容的一些示例的可操作以基于音频源方向性来执行心理声学增强的声控扬声器系统的图。

图12是根据本公开内容的一些示例的可操作以基于音频源方向性来执行心理声学增强的相机的图。

图13是根据本公开内容的一些示例的可操作以基于音频源方向性来执行心理声学增强的耳机(诸如虚拟现实或增强现实耳机)的图。

图14是根据本公开内容的一些示例的可操作以基于音频源方向性来执行心理声学增强的车辆的第一示例的图。

图15是根据本公开内容的一些示例的可操作以基于音频源方向性来执行心理声学增强的车辆的第二示例的图。

图16是根据本公开内容的一些示例的可以由图1的设备执行的基于音频源方向性的心理声学增强的方法的特定实现的图。

图17是根据本公开内容的一些示例的可操作以基于音频源方向性来执行心理声学增强的设备的特定说明性示例的框图。

具体实施方式

麦克风生成表示所捕获的声音的音频信号，诸如用户语音、环境声音或其组合。由于麦克风距音频源的距离，各种声音可能难以在音频信号中听到。聚焦于音频信号中的特定声音的能力对于各种应用是有用的，诸如通信应用中的用户语音或鸟类跟踪应用中的鸟类声音。

公开了基于音频源方向性的心理声学增强的系统和方法。不同类型的音频源可以具有不同的声音方向性特性。例如，人类语音更多地定向在人类头部的前方而不是后方，并且可能表现出基于人类讲话者面对的距离以及与该方向的角度偏移而变化的频率响应，而十二面体声源近似于全向方向性。

音频增强器基于音频源的方向性来执行心理声学增强，以近似通过相对于音频源(例如，靠近或远离)移动麦克风而捕获的声音。例如，音频增强器包括方向性分析器和均衡器。方向性分析器基于音频源和变焦目标的方向性数据来生成均衡器设置。例如，方向性分析器生成均衡器设置，使得应用均衡器设置调整特定音频频率的响度以模拟将麦克风移动到变焦目标。均衡器将均衡器设置应用于输入音频信号，以生成对应于输入音频信号的心理声学增强版本的输出音频信号。例如，输入音频信号是基于麦克风的麦克风输出的，并且输出音频信号近似音频源在变焦目标处的频率响应。因此，输出音频信号近似由麦克风在变焦目标处捕获的声音。

下文参考附图描述了本公开内容的特定方面。在该描述中，共同的特征通过共同的附图标记来指定。如本文所使用的，各种术语仅用于描述特定实现方式的目的，而不旨在限制实现方式。例如，单数形式的“一(a)”、“一个(an)”和“所述(the)”旨在还包括复数形式，除非上下文另外明确地指出。此外，本文描述的一些特征在一些实现中是单数，而在其它实现中是复数。举例说明，图1描绘了包括一个或多个处理器(图1的“处理器”190)的设备102，这指示在一些实现中，设备102包括单个处理器190，而在其它实现中，设备102包括多个处理器190。

如本文所使用的，术语“包括(comprise、comprises和comprising)”可以与“包含(include、includes或including)”互换地使用。另外，术语“其中(wherein)”可以与“其中(where)”互换地使用。如本文所使用的，“示例性”指示示例、实现和/或方面，而不应当被解释为限制或指示偏好或优选的实现方式。如本文所使用的，用于修饰诸如结构、组件、操作等的元素的序数词(例如，“第一”、“第二”、“第三”等)本身不指示该元素相对于另一个元素的任何优先级或次序，而仅是将该元素与具有相同名称(但是没有使用序数词)的另一元素区分开。如本文所使用的，术语“集合”指代特定元素的一者或多者，以及术语“多个”指代特定元素的多者(例如，两个或更多个)。

如本文所使用的，“耦合”可以包括“通信地耦合”、“电耦合”或“物理地耦合”，以及还可以(或替代地)包括其任何组合。两个设备(或组件)可以经由一个或多个其它设备、组件、线、总线、网络(例如，有线网络、无线网络或其组合)等直接或间接地耦合(例如，通信地耦合、电耦合或物理地耦合)。作为说明性的非限制性示例，被电耦合的两个设备(或组件)可以被包括在相同设备或不同设备中，以及可以经由电子器件、一个或多个连接器或感应耦合进行连接。在一些实现方式中，被通信地耦合(诸如进行电子通信)的两个设备(或组件)可以直接或间接地(经由一个或多个线、总线、网络等)发送和接收信号(例如，数字信号或模拟信号)。如本文所使用的，“直接地耦合”可以包括在没有中间组件的情况下耦合(例如，通信地耦合、电耦合或物理地耦合)的两个设备。

在本公开内容中，诸如“确定”、“计算”、“估计”、“移位”、“调整”等的术语可以用于描述如何执行一个或多个操作。应当注意的是，这样的术语不应被解释为限制性的，以及可以利用其它技术来执行类似的操作。另外，如本文所引用的，“生成”、“计算”、“估计”、“使用”、“选择”、“访问”和“确定”可以互换地使用。例如，“生成”、“计算”、“估计”或“确定”参数(或信号)可以指代主动地生成、估计、计算或确定参数(或信号)，或者可以指代使用、选择或访问已经例如由另一组件或设备生成的参数(或信号)。

参考图1，公开了被配置为基于音频源方向性来执行心理声学增强的系统的特定说明性方面，并且将其总体上指定为100。系统100包括耦合到一个或多个麦克风120、相机140、一个或多个扬声器160、显示设备162、输入设备130或其组合的设备102。在一些实现中，显示设备162包括输入设备130(例如，触摸屏)。

设备102包括耦合到存储器132的一个或多个处理器190。存储器132被配置为存储均衡器(Eq)设置数据149、方向性数据141、由音频增强器192使用或生成的其它数据或其组合。在一个特定方面中，一个或多个处理器190经由一个或多个输入接口124耦合到一个或多个麦克风120。例如，一个或多个输入接口124被配置为从一个或多个麦克风120接收一个或多个麦克风输出122，并且将一个或多个麦克风输出122作为一个或多个输入音频信号(SIG)126提供给音频增强器192。

在一个特定方面中，一个或多个处理器190经由输入接口144耦合到相机140。例如，输入接口144被配置为从相机140接收相机输出142，并且将相机输出142作为图像数据145提供给音频增强器192。在一个特定方面中，与一个或多个输入接口124将图像数据145提供给音频增强器192同时地，输入接口144被配置为将相机输出142提供给音频增强器192。

设备102被配置为使用被包括在一个或多个处理器190中的音频增强器192基于音频源方向性来执行心理声学增强。音频增强器192包括耦合到均衡器148的方向性分析器152和耦合到均衡器148的预均衡信号处理器146。根据一些实现，方向性数据更新器150被包括在音频增强器192中。

输入设备130被配置为将指示变焦目标133的用户输入131提供给设备102。方向性分析器152被配置为基于方向性数据141、变焦目标133、均衡器设置数据149或其组合来生成均衡器设置153。例如，方向性分析器152被配置为生成均衡器设置153，使得应用均衡器设置153调整特定音频频率的响度，以模拟将一个或多个麦克风120移动到更接近变焦目标133。

均衡器148被配置为将均衡器设置153应用于一个或多个均衡器输入音频信号147，以生成一个或多个输出音频信号138。在一个特定方面中，一个或多个均衡器输入音频信号147包括一个或多个输入音频信号126。在一种替代实现中，预均衡信号处理器146被配置为处理一个或多个输入音频信号126以生成一个或多个均衡器输入音频信号147，如参考图3进一步描述的。

在一些实现中，设备102对应于或被包括在一种或多种类型的设备中。在一个说明性示例中，处理器190集成在包括一个或多个扬声器160的耳机设备中，如参考图9进一步描述的。在其它示例中，处理器190集成在以下各者中的至少一者中：移动电话或平板计算机设备(如参考图8所描述的)、可穿戴电子设备(如参考图10所描述的)、声控扬声器系统(如参考图11所描述的)、相机设备(如参考图12所描述的)、或虚拟现实耳机或增强现实耳机(如参考图13所描述的)。在另一说明性示例中，处理器190集成到还包括一个或多个扬声器160的车辆中，诸如参考图14和图15进一步描述的。

在操作期间，一个或多个麦克风120从包括音频源184(例如，人)的一个或多个音频源捕获声音186，并且生成表示声音186的一个或多个麦克风输出122。在一个特定方面中，一个或多个音频源包括人、动物、鸟类、车辆、乐器、另一种类型的音频源或其组合。一个或多个输入接口124将一个或多个麦克风输出122作为一个或多个输入音频信号126提供给音频增强器192。

在一种特定实现中，相机140捕获一个或多个音频源(诸如音频源184)的图像(例如，视频、静态图像或两者)，并且生成表示图像的相机输出142。在这种实现中，输入接口144将相机输出142作为图像数据145提供给音频增强器192。在一个特定方面中，与一个或多个麦克风120将一个或多个麦克风输出122提供给设备102同时地，相机140将相机输出142提供给设备102。

在一种特定实现中，图像数据145、一个或多个输入音频信号126或其组合对应于所存储的数据，诸如视频游戏数据或先前记录的数据，而不是对应于经由外部传感器(例如，麦克风120和相机140)而捕获的数据。例如，音频增强器192从存储器132检索图像数据145、一个或多个输入音频信号126或其组合。

一个或多个处理器190基于一个或多个输入音频信号126来生成一个或多个输出音频信号138，并且经由一个或多个扬声器160输出一个或多个输出音频信号138。在一种具体实现中，一个或多个处理器190基于图像数据145来生成图形用户界面161，并且将图形用户界面161提供给显示设备162，以便与经由一个或多个扬声器160输出一个或多个输出音频信号138同时地，向用户101显示由相机140捕获的图像。

设备102对用户101发起音频变焦操作进行响应。例如，用户101使用输入设备130将指示变焦目标133的用户输入131提供给音频增强器192。在一种特定实现中，用户101使用输入设备130(例如，鼠标、键盘、按钮、滑块输入或其组合)来移动在图形用户界面161中显示的变焦选择器以选择变焦目标133，如参考图2A-2B进一步描述的。在另一种实现中，用户101独立于图形用户界面161来发起音频变焦操作。例如，一个或多个处理器190独立于向显示设备162提供任何GUI来向一个或多个扬声器160提供一个或多个输出音频信号138。用户101使用输入设备130(例如，键盘上的箭头键、耳机上的按钮等)将指示变焦目标133的用户输入131提供给音频增强器192。举例说明，用户101使用输入设备130来变焦到与一个或多个扬声器160的音频输出相对应的声场的不同区域，如参考图9进一步描述的。

变焦目标133包括指示将如何执行音频变焦的信息。在各种实现中，变焦目标133可以包括或指示用户对至少一个音频源(例如，音频源184)的选择、用户以模拟移动麦克风120的方式调整音频的选择、或其组合，如参考图4-6进一步描述的。例如，变焦目标133可以包括用户对音频源184的选择和变焦距离135，变焦距离135指示一个或多个麦克风120应当被视为位于距音频源184近多少(例如，近2英尺)。在另一示例中，变焦目标133可以包括用户对变焦距离135和变焦朝向137的选择，变焦朝向137指示一个或多个麦克风120应当被视为已经从位置134(例如，物理位置)移动了多少以及在哪个方向上移动。在一个特定说明性示例中，变焦朝向137的第一值(例如，0度)、第二值(例如，90度)、第三值(例如，180度)或第四值(例如，270度)分别对应于一个或多个麦克风120相对于位置134的向前移动、向右移动、向后移动或向左移动。在一个特定示例中，诸如当用户101选择变焦距离135和变焦朝向137时，音频增强器192通过将变焦朝向137和变焦距离135应用于位置134来确定(一个或多个麦克风120的)变焦位置136。在另一示例中，当变焦目标133包括用户对变焦位置136的选择时，音频增强器192基于位置134和变焦位置136的比较来确定变焦朝向137和变焦距离135。在一个特定示例中，当变焦目标133包括用户对音频源184的选择，音频增强器192估计音频源184的位置并且基于音频源184的估计位置来确定变焦距离135、变焦位置136、变焦朝向137或其组合。在一个特定方面中，音频增强器192使用图像分析技术、音频分析技术、音频源184的位置信息或其组合来估计音频源184的位置。在一个特定方面中，位置134对应于多个麦克风120的位置的代表性位置(例如，平均位置)，并且变焦位置136对应于多个麦克风120被模拟为已经移动到的位置的代表性位置(例如，平均位置)。

方向性分析器152获得与一个或多个输入音频信号126相对应的一个或多个音频源(例如，音频源184)的方向性数据141。例如，方向性分析器152识别音频源184(例如，基于源的类型，诸如通过分析输入音频信号126、分析图像数据145或其组合)，并且从存储器132检索与音频源184最紧密对应的方向性数据141。在另一示例中，方向性分析器152从另一设备或网络请求(例如，下载)方向性数据141。

特定音频源的方向性数据141指示特定音频源的朝向和距离频率响应特性。在一个特定方面中，方向性数据141与通用音频源相关联。例如，方向性数据141指示通用音频源的朝向和频率响应特性。举例说明，方向性数据141指示：响应于从相对于通用音频源的第一距离到相对于通用音频源的第二距离的改变，对应于中频的频率响应改变(例如，减少或增加)第一量。在一个替代方面中，方向性数据141指示与特定类型的音频源相关联的方向性数据。例如，如参考图4进一步描述的，方向性数据141指示响应于距特定音频源类型(例如，人类讲话者、鸟类、乐器等)的音频源184的距离、朝向或两者的变化的各种频率的频率响应变化。

方向性分析器152至少部分地基于方向性数据141、变焦目标133和均衡器设置数据149来确定均衡器设置153，如参考图4进一步描述的。例如，方向性分析器152生成均衡器设置153，使得应用均衡器设置153调整特定音频频率的响度，以模拟将一个或多个麦克风120移动到(或更接近)变焦位置136。在一种特定实现中，方向性分析器152响应于确定用于音频源184的音频源类型的方向性数据不可用，基于默认方向性数据来选择均衡器设置153。举例说明，方向性分析器152选择均衡器设置153以调整(例如，增加或减少)对应于中频的频率响应(例如，独立于音频源184的音频源类型)。例如，响应于确定变焦位置136和音频源184之间的距离小于位置134和音频源184之间的距离，方向性分析器152选择均衡器设置153以增加对应于中频的响度。作为另一示例，响应于确定变焦位置136和音频源184之间的距离大于位置134和音频源184之间的距离，方向性分析器152选择均衡器设置153以降低对应于中频的响度。在一种替代实现中，方向性分析器152基于由方向性数据141指示的音频源184的音频源类型(例如，人类讲话者或鸟类)的方向性(例如，频率响应)来选择均衡器设置153，如参考图4进一步描述的。方向性分析器152将均衡器设置153提供给均衡器148。

均衡器148通过将均衡器设置153应用于一个或多个均衡器输入音频信号147来生成一个或多个输出音频信号138。在一种特定实现中，一个或多个均衡器输入音频信号147包括一个或多个输入音频信号126。在另一实现中，预均衡信号处理器146通过将预均衡处理应用于一个或多个输入音频信号126来生成一个或多个均衡器输入音频信号147，如参考图3进一步描述的。均衡器148将一个或多个输出音频信号138提供给一个或多个扬声器160。

一个或多个输出音频信号138对应于一个或多个输入音频信号126的心理声学增强版本。心理声学增强版本(例如，一个或多个输出音频信号138)模仿音频源184在与音频变焦操作相关联的变焦位置136(例如，变焦朝向137和变焦距离135)处的频率响应。因此，由一个或多个扬声器160生成的声音(对应于一个或多个输出音频信号138)模拟已经将一个或多个麦克风120移动到(或更接近)变焦位置136。

在一种特定实现中，方向性数据更新器150生成或更新方向性数据141。方向性更新器150被配置为对距音频源的不同距离和朝向处捕获的音频进行采样和分析，并且生成或更新与该音频源相关联的方向性数据。在一个特定示例中，方向性数据更新器150在第一时间处生成与音频源184相对应的一个或多个输入音频信号126中的输入音频信号的第一声谱。第一声谱表示当音频源184具有相对于一个或多个麦克风120的第一朝向时，在距音频源184的第一距离处由一个或多个麦克风120捕获的声音。方向性数据更新器150在第二时间处生成与音频源184相对应的一个或多个输入音频信号126中的输入音频信号的第二声谱。第二声谱表示当音频源184具有相对于一个或多个麦克风120的第二朝向时，在距音频源184第二距离处由一个或多个麦克风120捕获的声音。方向性数据更新器150更新方向性数据141，以指示第一距离和第一朝向与第二距离和第二朝向之间的差对应于第一声谱和第二声谱之间的差。

系统100对变焦目标133启用音频变焦操作，变焦目标133近似将一个或多个麦克风120移动到变焦位置136。与仅调整一个或多个输入音频信号126的增益相比，通过基于音频源184的方向性调整针对频率的响度来生成一个或多个输出音频信号138导致更自然的声音音频变焦。

尽管一个或多个麦克风120、相机140、一个或多个扬声器160、显示设备162和输入设备130被示为耦合到设备102，但是在其它实现中，一个或多个麦克风120、相机140、一个或多个扬声器160、显示设备162、输入设备130，或其组合可以集成在设备102中。系统100的各种实现可以包括更少的、额外的或不同的组件。例如，在一些实现中，可以省略方向性数据更新器150、相机140或两者。

参考图2A，示出了GUI 161的示例。在一个特定方面中，图形用户界面161由图1的音频增强器192、一个或多个处理器190、设备102、系统100或其组合来生成。

图形用户界面161包括视频显示器204，其被配置为显示与图1的图像数据145相对应的图像。例如，视频显示器204显示音频源184的图像。图形用户界面161包括可以用于发起音频变焦操作的变焦选择器202。例如，图1的用户101可以向上移动变焦选择器202以拉近到音频源184，或者向下移动以从音频源184拉远。在一个特定方面中，向上移动变焦选择器202对应于为变焦朝向137选择第一值(例如，0度、向前或拉近)，而向下移动变焦选择器202对应于为变焦朝向137选择第二值(例如，180度、向后或拉远)。变焦选择器202的移动量指示变焦距离135。变焦目标133包括变焦距离135、变焦朝向137或两者。

参考图2B，示出了图形用户界面161的示例。在一个特定方面中，图形用户界面161由图1的音频增强器192、一个或多个处理器190、设备102、系统100或其组合来生成。

图形用户界面161指示用户101已经移动变焦选择器202以发起音频变焦操作。例如，用户101使用输入设备130以便与对变焦朝向137(例如，向前、0度或拉近)和变焦距离135(例如，2英尺)的选择相对应地向上移动变焦选择器202，并且输入设备130将指示变焦目标133的用户输入131提供给音频增强器192。变焦目标133指示变焦朝向137(例如，0度、向前或拉近)和变焦距离135(例如，基于变焦选择器202的移动量)。如参考图4进一步描述的，方向性分析器152至少部分地基于变焦目标133来生成均衡器设置153。均衡器148通过将均衡器设置153应用于一个或多个均衡器输入音频信号147来生成(例如，更新)一个或多个输出音频信号138，如参考图1所描述的。均衡器148将一个或多个输出音频信号138提供给一个或多个扬声器160。

在一个特定方面中，响应于用户输入131，一个或多个处理器190对图像数据145执行图像变焦操作，并且更新视频显示器204以与均衡器148将一个或多个输出音频信号138提供给一个或多个扬声器160同时地显示图像数据145的经变焦版本。如图所示，与图2A相比，图2B中的视频显示器204中的音频源184被放大，这指示音频变焦操作已经拉近到音频源184。

提供变焦选择器202作为选择变焦目标133的说明性示例。在其它实现中，用户101可以使用指定变焦目标133的其它方式。在一个特定示例中，图形用户界面161显示在触摸屏(例如，输入设备130)上，并且用户101与触摸屏交互(例如，轻触或使用捏拉变焦手势)以指定变焦目标133。例如，用户101可以轻触触摸屏以在视频显示器204上选择与对变焦位置136、音频源184或两者的选择相对应的位置，作为变焦目标133。作为另一示例，用户101可以使用第一捏拉变焦(例如，加宽)手势来指示变焦朝向137的第一值(例如，向前、0度或拉近)，或者使用第二捏拉变焦(例如，变窄)手势来指示变焦朝向137的第二值(例如，向后、180度或拉远)。捏拉变焦手势的距离指示变焦距离135。变焦目标133包括变焦距离135、变焦朝向137或两者。

在一个特定示例中，用户101提供用户输入(例如，语音命令、选项选择或两者)，其指示变焦位置136、音频源184或两者的标识符(例如，名称)作为变焦目标133。音频增强器192对图像数据145执行图像识别，执行对输入音频信号126的音频分析或两者，以识别音频源184、变焦位置136或两者。例如，用户101提供具有音频源184的标识符(例如，联系人姓名)(例如，“Sarah Lee”)的用户输入(例如，“拉到Sarah Lee”)。音频增强器192对图像数据145执行图像识别(例如，人识别或对象识别)以识别图像数据145的与音频源184(例如，“Sarah Lee”)相对应的部分，对输入音频信号126执行语音识别以识别输入音频信号126的与音频源184(例如，“Sarah Lee”)相对应的部分或两者。变焦目标133包括音频源184。

参考图3，根据一种特定实现示出了图1的系统100的组件的图300。预均衡信号处理器146包括空间分析器340、活动检测器342、增益调整器344、噪声抑制器346、上下文检测器350或其组合。上下文检测器350包括源检测器362、源位置检测器364或两者。在一些实现中，可以省略在图3中用虚线所示的一个或多个组件。

空间分析器340被配置为将波束成形应用于一个或多个输入音频信号126，以生成一个或多个经波束成形的音频信号341。在一个特定方面中，空间分析器340基于变焦目标133来应用波束成形。例如，空间分析器340基于图1的变焦朝向137来应用波束成形，使得一个或多个经波束成形的音频信号341表示围绕变焦朝向137而捕获的声音。空间分析器340将一个或多个经波束成形的音频信号341提供给预均衡信号处理器146的一个或多个组件或提供给均衡器148。例如，空间分析器340将一个或多个经波束成形的音频信号341作为一个或多个活动输入音频信号361提供给活动检测器342，作为一个或多个增益调整器输入音频信号363提供给增益调整器344，作为一个或多个上下文检测器输入音频信号369提供给上下文检测器350，作为一个或多个噪声抑制输入音频信号365提供给噪声抑制器346，作为一个或多个均衡器输入音频信号147提供给均衡器148，或其组合。

活动检测器342被配置为检测一个或多个活动输入音频信号361中的活动。在一种特定实现中，一个或多个活动输入音频信号361包括一个或多个输入音频信号126。在一种替代实现中，一个或多个活动输入音频信号361包括一个或多个经波束成形的音频信号341。

活动检测器342被配置为基于在一个或多个活动输入音频信号361中检测到的活动来生成一个或多个活动音频信号343。在一个特定示例中，活动检测器342(例如，语音活动检测器)被配置为检测一个或多个活动输入音频信号361中的第一活动输入音频信号中的语音，并且生成一个或多个活动音频信号343中的包括该语音的第一活动音频信号和包括第一活动输入音频信号的剩余声音的第二活动音频信号。举例说明，第一活动音频信号包括减少的声音或没有剩余声音，并且第二活动音频信号包括减少的语音或没有语音。

在一种特定实现中，活动检测器342被配置为检测对应于各种类型音频源、相同类型的各种音频源或两者的声音。在一个说明性示例中，活动检测器342被配置为在一个或多个活动输入音频信号361中的第一活动输入音频信号中检测与第一讲话者相关联的第一语音、与第二讲话者相关联的第二语音、与乐器相关联的音乐声音、与鸟类相关联的鸟类声音或其组合。活动检测器342被配置成生成包括第一语音(例如，无剩余声音或具有减少的剩余声音)的第一活动音频信号、以及包括第二语音(例如，无剩余声音或具有减少的剩余声音)的第二活动音频信号、包括音乐声音(例如，无剩余声音或具有减少的剩余声音)的第三活动音频信号、包括鸟类声音(例如，无剩余声音或具有减少的剩余声音)的第四活动音频信号、包括第一活动输入音频信号的剩余声音的第五活动音频信号、或其组合。一个或多个活动音频信号343包括第一活动音频信号、第二活动音频信号、第三活动音频信号、第四活动音频信号、第五活动音频信号或其组合。

活动检测器342将一个或多个活动音频信号343提供给预均衡信号处理器146的一个或多个组件、均衡器148或其组合。例如，活动检测器342将一个或多个活动音频信号343作为一个或多个增益调整器输入音频信号363提供给增益调整器344，作为一个或多个上下文检测器输入音频信号369提供给上下文检测器350，作为一个或多个噪声抑制输入音频信号365提供给噪声抑制器346，作为一个或多个均衡器输入音频信号147提供给均衡器148，或其组合。

增益调整器344将一个或多个增益应用于一个或多个增益调整器输入音频信号363。一个或多个增益调整器输入音频信号363包括一个或多个输入音频信号126、一个或多个经波束成形的音频信号341或一个或多个活动音频信号343。增益调整器344基于变焦目标133来应用一个或多个增益。例如，当音频变焦操作对应于拉近到变焦目标133时，增益调整器344增加一个或多个增益调整器输入音频信号363中的与来自变焦朝向137的声音相对应的第一输入音频信号的增益，降低一个或多个增益调整器输入音频信号363中的与来自剩余方向的声音相对应的第二输入音频信号的增益，或两者。在另一示例中，当音频变焦操作对应于从变焦目标133拉远时，增益调整器344减小一个或多个增益调整器输入音频信号363中的与来自变焦朝向137的声音相对应的第一输入音频信号的增益，增加一个或多个增益调整器输入音频信号363中的与来自剩余方向的声音相对饮的第二输入音频信号的增益，或两者。在一个特定方面中，增益调整量是基于变焦距离135的。

增益调整器344将一个或多个经增益调整的音频信号345提供给预均衡信号处理器146的一个或多个组件、均衡器148或其组合。例如，增益调整器344将一个或多个经增益调整的音频信号345作为一个或多个上下文检测器输入音频信号369提供给上下文检测器350，作为一个或多个噪声抑制输入音频信号365提供给噪声抑制器346，作为一个或多个均衡器输入音频信号147提供给均衡器148，或其组合。

上下文检测器350处理一个或多个上下文检测器输入音频信号369、图像数据145或其组合，以生成上下文数据351。在一个特定方面中，一个或多个上下文检测器输入音频信号369包括一个或多个输入音频信号126、一个或多个经波束成形的音频信号341、一个或多个活动音频信号343或一个或多个经增益调整的音频信号345。

源检测器362对一个或多个上下文检测器输入音频信号369、图像数据145或其组合执行音频源识别，以识别一个或多个音频源(诸如音频源184)的音频源类型。例如，源检测器362对图像数据145执行图像分析(例如，对象识别和距离分析)，以确定图像数据145指示在相对于相机140的第一位置处的音频源类型(例如，人类讲话者)。在一个特定方面中，源检测器362对一个或多个上下文检测器输入音频信号369执行声音分析(例如，音频源识别和距离分析)，以确定一个或多个上下文检测器输入音频信号369包括与来自相对于一个或多个麦克风120的第二位置的音频源类型匹配的声音。在一个特定方面中，源检测器362确定相对于相机140的第一位置对应于与相对于一个或多个麦克风120的第二位置相同的物理位置。源检测器362向源位置检测器364提供指示音频源类型、相对于相机140的第一位置、相对于一个或多个麦克风120的第二位置、物理位置或其组合的源检测数据。

源位置检测器364执行图像分析以在图像数据145中检测音频源184相对于相机140的朝向。举例说明，如果音频源184对应于人类讲话者，则源位置检测器364通过对图像数据145执行图像识别来估计人类讲话者的头部的朝向(例如，看向相机140或目光远离相机140)。

在一个说明性示例中，源位置检测器364基于音频源184相对于相机140的朝向以及相机140和一个或多个麦克风120的位置差异，来确定音频源184相对于一个或多个麦克风120的朝向。上下文检测器350确定相对于一个或多个麦克风120的第二位置指示音频源184距一个或多个麦克风120的距离。上下文检测器350生成上下文数据351，上下文数据351指示音频源184距一个或多个麦克风120的距离、音频源184相对于一个或多个麦克风120的朝向、音频源184的音频源类型或其组合。上下文检测器350将上下文数据351提供给方向性分析器152。

噪声抑制器346对一个或多个噪声抑制输入音频信号365执行噪声抑制，以生成一个或多个经噪声抑制的音频信号347。在一个特定方面中，一个或多个噪声抑制输入音频信号365包括一个或多个输入音频信号126、一个或多个经波束成形的音频信号341、一个或多个活动音频信号343、或一个或多个经增益调整的音频信号345。噪声抑制器346将一个或多个经噪声抑制的音频信号347作为一个或多个均衡器输入音频信号147提供给均衡器148。

预均衡信号处理器146的组件的特定操作顺序是作为说明性示例来提供的。在其它示例中，预均衡信号处理器146的组件的操作顺序可以不同。在一个特定示例中，变焦目标133指示对音频源184的选择。基于变焦目标133，上下文检测器350将音频源184的音频源类型(例如，人类讲话者或鸟类)提供给活动检测器342。活动检测器342生成一个或多个活动音频信号343中的对应于音频源类型的声音(例如，具有减少的剩余剩余或无剩余声音)的第一活动信号、对应于剩余声音(例如，无该音频源类型的声音或具有减少的该音频源类型的声音)的第二活动信号或组合。活动检测器342将一个或多个活动音频信号343提供给增益调整器344。响应于确定音频变焦操作包括朝着变焦目标133拉近，增益调整器344增加第一活动信号的增益，降低第二活动信号的增益，或两者。替代地，响应于确定音频变焦操作包括从变焦目标133拉远，增益调整器344降低第一活动信号的增益，增加第二活动信号的增益，或两者。

在一个特定方面中，方向性分析器152基于音频源184的音频源类型来获得方向性数据141，如参考图4进一步描述的。方向性分析器152基于方向性数据141来生成均衡器设置153，如参考图4进一步描述的。方向性分析器152将均衡器设置153提供给均衡器148。

均衡器148将均衡器设置153应用于一个或多个均衡器输入音频信号147，以生成一个或多个输出音频信号138。在一个特定方面中，一个或多个均衡器输入音频信号147包括一个或多个输入音频信号126、一个或多个活动音频信号343、一个或多个经增益调整的音频信号345、或一个或多个经噪声抑制的音频信号347。

因此，预均衡信号处理器146在执行均衡之前，通过波束成形、调整增益、降低噪声或其组合来执行预均衡信号处理以改进音频增强器192的性能。在一个特定方面中，预均衡信号处理器146确定上下文数据351，以使得方向性分析器152能够基于一个或多个音频源的音频源类型的方向性来确定均衡器设置153。

在一些实现中，可以省略预均衡信号处理器146。例如，方向性分析器152基于默认方向性数据来生成均衡器设置153，并且均衡器148将均衡器设置153应用于一个或多个输入音频信号126(例如，调整其中频)以生成一个或多个输出音频信号138。

在一些实现中，可以省略预均衡信号处理器146的一个或多个组件。在一个示例中，省略空间分析器340和活动检测器342，并且将一个或多个输入音频信号126作为一个或多个增益调整器输入音频信号363提供给增益调整器344。在一些实现中，省略空间分析器340，并且将一个或多个输入音频信号126作为一个或多个活动输入音频信号361提供给活动检测器342。在一些实现中，省略活动检测器342，并且将一个或多个经波束成形的音频信号341作为一个或多个增益调整器输入音频信号363提供给增益调整器344。在一些实现中，省略增益调整器344，并且将一个或多个活动音频信号343作为一个或多个上下文检测器输入音频信号369提供给上下文检测器350，并且作为一个或多个噪声抑制输入音频信号365提供给噪声抑制器346。组件的特定组合被描述为说明性示例。在其它实现中，在预均衡信号处理器146中包括组件的其它组合。

参考图4，示出了图1的系统100的组件的特定示例的图400。方向性分析器152被示为获得方向性数据141、上下文数据351和用户输入131。上下文数据351包括音频源184的源位置数据420。例如，源位置数据420指示音频源184相对于一个或多个麦克风120的源朝向422(例如，0度或面向)、音频源184距一个或多个麦克风120的源距离424(例如，6英尺)，或两者，如参考图3所描述的。

基于源朝向422(例如，0度)和变焦朝向137(例如，0度)，图3的源位置检测器364确定音频源184相对于变焦位置136的源朝向432(例如，0度)。源位置检测器364基于变焦距离135(例如，2英尺)、变焦朝向137(例如，0度)和源距离424(例如，6英尺)，来确定音频源184距变焦位置136的源距离434(例如，4英尺)。

在一个特定方面中，方向性分析器152基于音频源184的音频源类型来获得方向性数据141。例如，声音方向性图案402的图形描绘指示在水平面和垂直面中音频源类型(例如，人类讲话者)的频率依赖方向性。在一个特定方面中，方向性数据141包括与音频源类型的各种朝向相关联的多个方向性数据集合。响应于确定方向性数据集合404与音频源类型的特定朝向(例如，在轴上，沿着水平轴和垂直轴的0度)相关联，方向性分析器152从方向性数据141中选择与源朝向422和源朝向432匹配的方向性数据集合404。

方向性数据集合404的图形描述指示音频源类型(例如，音频源184)的频率响应特性，该频率响应特性对应于(例如，麦克风的)从特定距离(例如，1米)沿着特定朝向到各种距离的距离变化。例如，方向性数据集合404指示音频源类型(例如，音频源184)的用于从源距离424(例如，1米)沿着特定朝向(例如，在轴上)到源距离434(例如，1厘米)的变化的频率响应特性449。在一个特定方面中，频率响应特性449指示用于各种声音频率的响度(例如，分贝(dB))的变化。例如，频率响应特性449指示从源距离424(例如，1米)沿着特定方向(例如，在轴上)朝着源距离434(例如，1厘米)移动对应于用于特定频率(例如，500赫兹(Hz))的响度下降(例如，-0.2dB)、用于另一频率范围(例如，800Hz至1千赫兹(kHz))的响度增加(例如，+4dB)或两者。在一个特定示例中，频率响应特性449指示从源距离424(例如，1米)沿着特定朝向(例如，在轴上)朝着源距离434(例如，1厘米)移动对应于用于另一特定频率范围(例如，200Hz至400Hz)的可忽略的响度变化(例如，低于门限)。举例说明，用于特定频率范围(例如，200Hz至400Hz)的响度变化可能是人类听觉系统无法感知的。

在一个特定示例中，源朝向422与源朝向432匹配，并且方向性分析器152选择与沿着特定朝向(例如，源朝向422和源朝向432)的源距离的变化相对应的方向性数据集合404。在该示例中，方向性数据集合404指示与沿着特定朝向(例如，源朝向422和源朝向432)的源距离的变化(例如，从源距离424到源距离434)相对应的频率响应特性449。在一些其它示例中，如参考图6进一步描述的，源朝向422不同于源朝向432，并且方向性分析器152从方向性数据141中选择指示与源距离的变化(例如，从源距离424到源距离434)和源朝向的变化(例如，从源朝向422到源朝向432)相对应的频率响应特性449的方向性数据集合。

在一个特定方面中，方向性分析器152从存储器132、另一设备、网络或其组合获得均衡器设置数据149。在一种特定实现中，均衡器设置数据149将以下各项与均衡器设置153进行关联：上下文数据351(例如，音频源184的音频源类型)、方向性数据141(例如，方向性数据集合404)、变焦距离135、源距离424、源距离434、变焦朝向137、源朝向422、源朝向432、频率响应特性(例如，频率响应特性449)或其组合。方向性分析器152基于均衡器设置数据149来选择与以下各项匹配的均衡器设置153：音频源184的音频源类型、变焦距离135、源距离424、源距离434、变焦朝向137、源朝向422、源朝向432、频率响应特性449或其组合。

在一个特定方面中，方向性分析器152基于均衡器设置数据149来选择与频率响应特性449匹配的均衡器设置153。例如，均衡器设置153对应于用于特定频率(例如，500Hz)的响度下降(例如，-0.2dB)、用于第一频率范围(例如，800Hz到1千赫兹(kHz))的响度上升(例如，+4dB)、用于第二频率范围(例如，200Hz到400Hz)的无响度变化、或其组合。因此，方向性分析器152生成均衡器设置153，以使得应用均衡器设置153近似将一个或多个麦克风120移动到(或更接近)变焦位置136的频率响应特性。

参考图5，示出了图1的系统100的组件的特定示例的图500。方向性数据141的方向性数据集合504的图形描绘指示针对特定朝向(例如，-45度水平轴和0度垂直轴)而言音频源184的音频源类型(例如，人类讲话者)的频率响应特性。例如，方向性数据集合504指示与(例如，麦克风的)从特定距离(例如，1米)沿着特定朝向到各种距离的距离变化相对应的频率响应特性。

如参考图3所描述的，图3的上下文检测器350确定音频源184的源位置数据520。例如，源位置数据520指示音频源184以相对于一个或多个麦克风120的位置134的源朝向522(例如，-45度水平轴和0度垂直轴)近似地位于源距离424(例如，1米)处。源位置数据520指示音频源184以相对于变焦位置136的源朝向532(例如，-45度水平轴和0度垂直轴)近似地位于源距离434(例如，10厘米)处。

方向性分析器152响应于确定源朝向422(例如，在水平轴上为-45度，以及在垂直轴上为0度)和源朝向432(例如，在水平轴上为-45度，以及在垂直轴上为0度)与和方向性数据集合504相关联的特定朝向(例如，-45度水平轴和0度垂直轴)匹配，从方向性数据141中选择方向性数据集合504。方向性数据集504指示用于从源距离424(例如，1米)沿着特定朝向(例如，在水平轴上为-45度，以及在垂直轴上为0度)到源距离434(例如，1厘米)的变化的频率响应特性549。在一个特定方面中，频率响应特性549指示从源距离424(例如，1米)沿着特定朝向(例如，在水平轴上为-45度，以及在垂直轴上为0度)朝着源距离434(例如，1厘米)移动对应于用于第一频率(例如，500Hz)的响度下降(例如，-0.2dB)、用于第二频率(例如，800Hz)的第一响度上升(例如，+2dB)、用于第三频率(例如，1kHz)的第二响度上升(例如，+4dB)、用于特定频率范围(例如，200Hz至315Hz)的可忽略的响度变化(例如，低于门限)、或其组合。

在一个特定方面中，方向性分析器152基于均衡器设置数据149来选择与频率响应特性549匹配的均衡器设置153。例如，均衡器设置153对应于用于第一频率(例如，500Hz)的响度下降(例如，-0.2dB)、用于第二频率(例如，800Hz)的第一响度上升(例如，+2dB)、用于第三频率的第二响度上升(例如，+4dB)、用于特定频率范围(例如，200Hz至315Hz)的无响度变化、或其组合。因此，方向性分析器152基于方向性数据集合504来生成均衡器设置153，使得当音频源184具有相对于一个或多个麦克风120的特定朝向(例如，在水平轴上为-45度以及在垂直轴上为0度)时，应用均衡器设置153近似将一个或多个麦克风120移动到(或更接近)变焦位置136的频率响应特性。

参考图6，根据其中图3的上下文检测器350已经基于图3的一个或多个上下文检测器输入音频信号369检测到多个音频源(例如，音频源184和音频源684)的实现，示出了图1的系统100的组件的示例的图600。

上下文检测器350以参考图3描述的类似方式来确定音频源684的源位置数据620。例如，源位置数据620指示音频源684以相对于一个或多个麦克风120的位置134的源朝向622(例如，-30度水平轴和0度垂直轴)近似地位于源距离624(例如，2米)处。在一个特定方面中，源位置数据620指示音频源684以相对于变焦位置136的源朝向632(例如，-2度水平轴和0度垂直轴)近似地位于源距离634(例如，2.2米)处。

在一种特定实现中，变焦目标133指示音频源184，并且方向性分析器152在确定均衡器设置153时忽略音频源684。在一个特定方面中，一个或多个输出音频信号138包括音频源684的减少的声音(例如，无声音)。作为一个示例，活动检测器342生成与音频源184的声音相对应的一个或多个活动音频信号343，其具有音频源684的减少的声音(例如，无声音)。作为另一示例，增益调整器344生成一个或多个经增益调整的音频信号345，其具有音频源684的减少的声音(例如，无声音)。在另一示例中，空间分析器340应用波束成形来生成一个或多个经波束成形的音频信号341，其具有音频源684的减少的声音(例如，无声音)。在这种实现中，如参考图5所描述的，方向性分析器152基于方向性数据集合504和源位置数据520来生成均衡器设置153。

在一种特定实现中，变焦目标133指示音频源184，并且音频增强器192生成一个或多个输出音频信号138，其中音频源184的声音是基于音频源184的方向性来调整的，而对音频源684的声音具有很小改变或者没有改变。例如，活动检测器342生成一个或多个活动音频信号343的第一子集，第一子集对应于音频源184的声音，其具有音频源684的减少的声音(例如，无声音)，并且生成一个或多个活动音频信号343的第二子集，第二子集对应于剩余声音(例如，包括音频源684的声音)，其具有音频源184的减少的声音(例如，无)。

如参考图5所描述的，方向性分析器152基于方向性数据集合504和源位置数据520来生成均衡器设置153。一个或多个均衡器输入音频信号147包括一个或多个活动音频信号343的第一子集、一个或多个活动音频信号343的第一子集的增益调整版本、一个或多个活动音频信号343的第一子集的噪声抑制版本、或其组合。均衡器148通过将均衡器设置153应用于一个或多个均衡器输入音频信号147，生成来自音频源184的被视为如同用户101位于变焦位置136处的声音的心理声学增强版本，从而生成一个或多个输出音频信号138的第一子集。

一个或多个输出音频信号138的第二子集是基于一个或多个活动音频信号343的第二子集的，并且包括来自音频源684的声音。例如，一个或多个输出音频信号138的第二子集包括一个或多个活动音频信号343的第二子集、一个或多个活动音频信号343的第二子集的增益调整版本、一个或多个活动音频信号343的第二子集的噪声抑制版本、或其组合。

因此，一个或多个输出音频信号138通过将一个或多个麦克风120从位置134移动到变焦位置136来近似音频源184的频率响应特性，并且对于音频源684来说没有(或很少)变化。在这种实现中，音频变焦操作似乎相对于音频源184进行变焦，而相对于音频源684很少变化或没有变化。例如，在一个或多个输出音频信号138中音频源184的声音似乎来自以相对于变焦位置136的源朝向532近似地在源距离434处的音频源184。在一个或多个输出音频信号138中音频源684的声音似乎来自以相对于变焦位置136的源朝向622近似地在源距离624处的音频源684。

在另一具体实现中，变焦目标133指示音频源184，并且音频增强器192在包括如下各项的操作中生成一个或多个输出音频信号138：基于音频源184的方向性来调整音频源184的声音，以及基于音频源684的方向性来调整音频源684的声音。在一个特定方面中，音频源684具有与音频源184相同的音频源类型(例如，人类讲话者)。在这点上，方向性分析器152从方向性数据141中选择方向性数据集合604，方向性数据集合604与和音频源684相关联的朝向变化(例如，从源朝向622到源朝向632)和距离变化(例如，从源距离624到源距离634)匹配。

在一个替代方面中，音频源684具有与音频源184的第一音频源类型(例如，人类讲话者)不同的第二音频源类型(例如，鸟类)。在这方面中，方向性分析器152获得与第二音频源类型相关联的第二方向性数据，并且从第二方向性数据中选择方向性数据集合604，方向性数据集合604指示音频源684针对朝向变化(例如，从源朝向622到源朝向632)以及从源距离624到各种距离的频率响应特性。举例说明，方向性数据集合604指示针对朝向变化(例如，从源朝向622到源朝向632)和距离变化(例如，从源距离624到源距离634)的频率响应特性649。

方向性分析器152基于均衡器设置数据149来确定与频率响应特性649匹配的均衡器设置653。方向性分析器152将对应于音频源684的均衡器设置653和对应于音频源184的均衡器设置153提供给均衡器148。

在一个特定方面中，活动检测器342生成以下各项：一个或多个活动音频信号343的第一子集，第一子集对应于音频源184的声音以及减少的其它声音(例如，无其它声音)；一个或多个活动音频信号343的第二子集，第二子集对应于音频源684的声音和减少的其它声音(例如，无其它声音)；一个或多个活动音频信号343的第三子集，第三子集对应于音频源184和音频源684的剩余声音和减少的声音(例如，无声音)；或其组合。在一个特定方面中，一个或多个均衡器输入音频信号147的第一子集是基于一个或多个活动音频信号343的第一子集的，一个或多个均衡器输入音频信号147的第二子集是基于一个或多个活动音频信号343的第二子集的，一个或多个均衡器输入音频信号147的第三子集是基于一个或多个活动音频信号343的第三子集的，或其组合。均衡器148通过以下操作来生成一个或多个输出音频信号138：将均衡器设置153应用于与音频源184相对应的一个或多个均衡器输入音频信号147的第一子集，将均衡器设置653应用于与音频源684相对应的一个或多个均衡器输入音频信号147的第二子集，对与剩余音频相对应的一个或多个均衡器输入音频信号147的第三子集不进行改变，或其组合。均衡器设置153和均衡器设置653因此使得一个或多个输出音频信号138能够模仿与将一个或多个麦克风120从位置134移动到变焦位置136相关联的音频源184和音频源684的频率响应特性。例如，在一个或多个输出音频信号138中音频源184的声音似乎来自以相对于变焦位置136的源朝向532近似地在源距离434处的音频源184。在一个或多个输出音频信号138中音频源684的声音似乎来自以相对于变焦位置136的源朝向632近似地在源距离634处的音频源684。

图7将设备102的实现700描绘为包括一个或多个处理器190的集成电路702。集成电路702还包括音频输入704(诸如一个或多个总线接口)，以使得能够接收一个或多个输入音频信号126以进行处理。集成电路702还包括音频输出706(诸如总线接口)，以使得能够发送输出信号(诸如一个或多个输出音频信号138)。集成电路702使得能够基于音频源方向性的心理声学增强实现为系统中的组件，诸如如在图8中描绘的移动电话或平板设备、如在图9中描绘的耳机、如在图10中描绘的可穿戴电子设备、如在图11中描绘的声控扬声器系统、如在图12中描绘的相机、如在图13中描绘的虚拟现实耳机或增强现实耳机、或如在图14或图15中描绘的车辆。

图8描绘了实现800，其中设备102包括移动设备802，诸如电话或平板设备，作为说明性的非限制性示例。移动设备802包括一个或多个扬声器160、一个或多个麦克风120和显示屏幕804。处理器190的组件(包括音频增强器192)集成在移动设备802中，并且使用虚线来示出，以指示通常对于移动设备802的用户不可见的内部组件。在一个特定示例中，音频增强器192进行操作以增强用户语音活动，然后对其进行处理以在移动设备802处执行一个或多个操作，诸如启动图形用户界面或以其它方式在显示屏幕804处显示与用户的语音相关联的其它信息(例如，经由集成的“智能助手”应用)。在特定示例中，音频增强器192增强在在线会议期间讲话者的语音活动。举例说明，用户可以在在线会议期间在显示屏幕804上看到讲话者，并且选择该讲话者作为变焦目标。音频增强器192响应于对变焦目标的选择来增强讲话者的语音。在另一示例中，移动设备802的鸟类跟踪应用的用户选择树作为变焦目标。音频增强器192响应于对变焦目标的选择来增强来自树上的鸟的鸟声音。

图9描绘了其中设备102包括耳机设备902的实现900。耳机设备902包括一个或多个麦克风120、一个或多个扬声器160或其组合。处理器190的组件(包括音频增强器192)集成在耳机设备902中。在一个特定示例中，音频增强器192进行操作以增强用户语音活动，这可以使得耳机设备902在耳机设备902处执行一个或多个操作，将对应于用户语音活动的音频数据发送给第二设备(未示出)以供进一步处理，或其组合。在一个特定方面中，耳机设备902具有可以用于变焦到与耳机设备902的音频输出相对应的声场的不同部分的输入(例如，按钮或箭头)。例如，耳机设备902输出管弦乐队音乐，并且佩戴耳机设备902的用户使用耳机设备902的输入来选择管弦乐队的特定部分或乐器作为变焦目标。音频增强器192生成对应于变焦目标(例如，特定部分或乐器)的音频变焦操作的一个或多个输出音频信号138。

图10描绘了实现1000，其中设备102包括被示为“智能手表”的可穿戴电子设备1002。音频增强器192、一个或多个麦克风120、一个或多个扬声器160或其组合集成到可穿戴电子设备1002中。在一个特定示例中，音频增强器192进行操作以增强用户语音活动，然后对其进行处理以在可穿戴电子设备1002处执行一个或多个操作，诸如启动图形用户界面或以其它方式在可穿戴电子设备1002的显示屏幕1004处显示与用户语音相关联的其它信息。举例说明，可穿戴电子设备1002可以包括显示屏幕，其被配置为显示基于由可穿戴电子设备1002增强的用户语音的通知。在一个特定示例中，可穿戴电子设备1002包括触觉设备，其响应于用户语音活动来提供触觉通知(例如，振动)。例如，触觉通知可以使得用户查看可穿戴电子设备1002以查看所显示的通知，该通知指示对用户所说的关键词的检测。因此，可穿戴电子设备1002可以向患有听力障碍的用户或佩戴耳机的用户提醒检测到该用户的语音活动。在一个特定方面中，可穿戴电子设备1002包括可以用于变焦到与可穿戴电子设备1002的音频输出相对应的声场的不同部分的输入(例如，按钮或箭头)。

图11是其中设备102包括无线扬声器和语音激活设备1102的实现1100。无线扬声器和语音激活设备1102可以具有无线网络连接，并且被配置为执行辅助操作。包括音频增强器192的一个或多个处理器190、一个或多个麦克风120、一个或多个扬声器160或其组合被包括在无线扬声器和语音激活设备1102中。在操作期间，响应于经由音频增强器192的音频增强操作接收到被识别为用户语音的口头命令，无线扬声器和语音激活设备1102可以执行辅助操作，诸如经由语音激活系统(例如，集成助手应用)的执行。助手操作可以包括调整温度、播放音乐、打开灯等。例如，助手操作响应于在关键词或关键短语(例如，“helloassistant”)之后接收到命令而执行。

图12描绘了其中设备102包括对应于相机设备1202的便携式电子设备的实现1200。音频增强器192、一个或多个麦克风120、一个或多个扬声器160或其组合被包括在相机设备1202中。在操作期间，响应于经由音频增强器192的操作而接收到作为增强用户语音的口头命令，相机设备1202可以执行响应于口头用户命令的操作，诸如执行变焦操作、调整图像或视频捕获设置、图像或视频回放设置、或图像或视频捕获指令，作为说明性示例。在一个特定示例中，相机设备1202包括摄像机，其当拉近在取景器中可见的音频源184时使得音频增强器192执行音频变焦操作以增强从音频源184捕获的音频。

图13描绘了其中设备102包括对应于虚拟现实、增强现实或混合现实耳机1302的便携式电子设备的实现1300。音频增强器192、一个或多个麦克风120、一个或多个扬声器160或其组合集成到耳机1302中。可以基于从耳机1302的一个或多个麦克风120接收的音频信号来执行音频增强。在一个特定示例中，可以对从存储器、网络、另一设备或其组合接收的与虚拟、增强或混合现实相对应的音频信号执行音频增强。视觉接口设备位于用户眼睛的前方，以使得在耳机1302被佩戴时能够向用户显示增强现实或虚拟现实图像或场景。在一个特定示例中，视觉接口设备被配置为显示指示音频信号的增强语音的通知。在一种特定实现中，当用户使用耳机1302来变焦到在视觉接口设备中所示的虚拟或实际对象时，音频增强器192执行对应于该对象的音频的音频变焦(例如，作为游戏玩法的一部分)。在一些示例中，音频增强器192结合由视觉接口设备显示的视觉变焦来执行音频变焦。

图14描绘了实现1400，其中设备102对应于或集成在车辆1402(被示为有人驾驶或无人驾驶空中设备(例如，包裹递送无人机))内。音频增强器192、一个或多个麦克风120、一个或多个扬声器160或其组合集成到车辆1402中。音频(例如，用户语音活动)增强可以基于从车辆1402的一个或多个麦克风120接收的音频信号(诸如用于来自车辆1402的授权用户的递送指令)来执行。

图15描绘了另一种实现1500，其中设备102对应于车辆1502(被示为汽车)或集成在车辆1502内。车辆1502包括处理器190，处理器190包括音频增强器192。车辆1502还包括一个或多个麦克风120。可以基于从车辆1502的一个或多个麦克风120接收的音频信号来执行音频(例如，用户语音活动)增强。在一些实现中，可以基于从内部麦克风(例如，一个或多个麦克风120)接收的音频信号(诸如用于来自授权乘客的语音命令)来执行音频(例如，语音活动)增强。例如，用户语音活动增强可以用于增强来自车辆1502的操作员或乘客的语音命令。在一些实现中，可以基于从外部麦克风(例如，一个或多个麦克风120)接收的音频信号(诸如来自音频源184(例如，鸟类、海滩上的波浪、户外音乐、车辆1502的授权用户、免下车零售员工或路边取货人员)的声音来执行音频增强。在一种特定实现中，响应于经由音频增强器192的操作来接收作为增强用户语音的口头命令，语音激活系统基于在一个或多个输出音频信号138中检测到的一个或多个关键词(例如，“解锁”、“启动发动机”、“播放音乐”、“显示天气预报”或另一语音命令)来发起车辆1502的一个或多个操作，诸如通过经由显示器1520或一个或多个扬声器(例如，扬声器1510)提供反馈或信息。在一种特定实现中，经由一个或多个扬声器160在车辆1502的内部回放经增强的外部声音(例如，室外音乐、鸟类声音等)。

参考图16，示出了基于音频源方向性的心理声学增强的方法1600的具体实现。在一个特定方面中，方法1600的一个或多个操作由图1的方向性分析器152、均衡器148、音频增强器192、一个或多个处理器190、设备102、系统100或其组合中的至少一者执行。

在1602处，方法1600包括：获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据。例如，图1的方向性分析器152获得与一个或多个输入音频信号126相对应的音频源184的方向性数据141，如参考图1和4-6所描述的。

在1604处，方法1600还包括：至少部分地基于方向性数据来确定一个或多个均衡器设置。例如，图1的方向性分析器152至少部分地基于方向性数据141来确定均衡器设置153，如参考图1和4-6所描述的。

在1606处，方法1600还包括：基于均衡器设置来生成与一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号。例如，图1的均衡器148基于均衡器设置153来生成与一个或多个输入音频信号126的心理声学增强版本相对应的一个或多个输出音频信号138。

方法1600使得能够通过基于音频源184的方向性而调整用于频率的响度来生成一个或多个输出音频信号138。与仅调整一个或多个输入音频信号126的增益相比，一个或多个输出音频信号138对应于更自然的声音音频变焦。

图16的方法1600可以由以下各者来实现：现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、诸如中央处理单元(CPU)之类的处理单元、DSP、控制器、另一硬件设备、固件设备或其任何组合。作为一个示例，图16的方法1600可以由执行指令的处理器来执行，如参考图17所描述的。

参考图17，描绘了设备的特定说明性实现的框图，并且将其总体上指定为1700。在各种实现中，设备1700可以具有比在图17中所示的更多或更少的组件。在一种说明性实现中，设备1700可以对应于设备102。在一种说明性实现中，设备1700可以执行参考图1-16所描述的一个或多个操作。

在一种特定实现中，设备1700包括处理器1706(例如，中央处理单元(CPU))。设备1700可以包括一个或多个额外处理器1710(例如，一个或多个DSP)。在一个特定方面中，图1的一个或多个处理器190对应于处理器1706、处理器1710或其组合。处理器1710可以包括语音和音乐编解码器(CODEC)1708，其包括语音译码器(“声码器”)编码器1736、声码器解码器1738、音频增强器192或其组合。

设备1700可以包括存储器132和CODEC 1734。存储器132可以包括可由一个或多个额外处理器1710(或处理器1706)执行以实现参考音频增强器192描述的功能的指令1756。设备1700可以包括经由收发机1750耦合到天线1752的调制解调器1746。

设备1700可以包括耦合到显示控制器1726的显示设备162。一个或多个扬声器160、一个或多个麦克风120或其组合可以耦合到CODEC 1734。例如，一个或多个麦克风120可以经由图1的一个或多个输入接口124耦合到CODEC 1734。一个或多个扬声器160可以经由一个或多个输出接口耦合到CODEC 1734。CODEC 1734可以包括数模转换器(DAC)1702、模数转换器(ADC)1704或两者。在一种特定实现中，CODEC 1734可以从一个或多个麦克风120接收模拟信号，使用模数转换器1704将模拟信号转换为数字信号，并且将数字信号提供给语音和音乐编解码器1708。语音和音乐编解码器1708可以处理数字信号，并且数字信号可以进一步由音频增强器192处理。在一种特定实现中，语音和音乐编解码器1708可以将数字信号提供给CODEC 1734。CODEC 1734可以使用数模转换器1702将数字信号转换为模拟信号，并且可以将模拟信号提供给一个或多个扬声器160。

在一种特定实现中，设备1700可以被包括在系统级封装或片上系统设备1722中。在一种特定实现中，存储器132、处理器1706、处理器1710、显示控制器1726、CODEC 1734和调制解调器1746被包括在系统级封装或片上系统设备1722中。在一种特定实现中，输入设备130、相机140和电源1744耦合到片上系统设备1722。此外，在一种特定实现中，如图17所示，显示设备162、输入设备130、相机140、一个或多个扬声器160、一个或多个麦克风120、天线1752和电源1744位于片上系统设备1722的外部。在一种特定实现中，显示设备162、输入设备130、相机140、一个或多个扬声器160、一个或多个麦克风120、天线1752和电源1744中的每一者都可以耦合到片上系统设备1722的组件，诸如接口(例如，一个或多个输入接口124、输入接口144、一个或多个额外接口或其组合)或控制器。

设备1700可以包括虚拟助理、家用电器、智能设备、物联网(IoT)设备、通信设备、耳机、车辆、计算机、显示设备、电视机、游戏控制台、音乐播放器、无线电单元、视频播放器、娱乐单元、个人媒体播放器、数字视频播放器、相机、导航设备、智能扬声器、条形扬声器、移动通信设备、智能电话、蜂窝电话、膝上型计算机、平板设备、个人数字助理、数字视频光盘(DVD)播放器、调谐器、增强现实耳机、虚拟现实耳机、飞行器、家庭自动化系统、，语音激活设备、无线扬声器和语音激活设备、便携式电子设备、汽车、计算设备、虚拟现实(VR)设备、基站、移动设备或其任何组合。

结合所描述的实现，一种装置包括用于获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据的单元。例如，用于获得的单元可以对应于图1的方向性分析器152、音频增强器192、一个或多个处理器190、设备102、系统100、处理器1706、处理器1710、调制解调器1746、收发机1750、天线1752、被配置为获得一个或多个音频源的方向性数据的一个或多个其它电路或组件、或其任何组合。

该装置还包括用于至少部分地基于方向性数据来确定一个或多个均衡器设置的单元。例如，用于确定的单元可以对应于图1的方向性分析器152、音频增强器192、一个或多个处理器190、设备102、系统100、处理器1706、处理器1710、被配置为至少部分地基于方向性数据来确定一个或多个均衡器设置的一个或多个其它电路或组件、或其任何组合。

该装置还包括用于基于均衡器设置来生成与一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号的单元。例如，用于生成的单元可以对应于图1的方向性分析器152、音频增强器192、一个或多个处理器190、设备102、系统100、处理器1706、处理器1710、被配置为基于均衡器设置来生成与一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号的一个或多个其它电路或组件、或其任何组合。

在一些实现中，一种非暂时性计算机可读介质(例如，计算机可读存储设备，诸如存储器132)包括指令(例如，指令1756)，指令在由一个或多个处理器(例如，一个或多个处理器1710或处理器1706)执行时，使得一个或多个处理器获得与一个或多个输入音频信号(例如，一个或多个输入音频信号126)相对应的一个或多个音频源(例如，音频源184、音频源684或两者)的方向性数据(例如，方向性数据141)。指令在由一个或多个处理器执行时还使得一个或多个处理器至少部分地基于方向性数据来确定一个或多个均衡器设置(例如，均衡器设置153、均衡器设置653或其组合)。指令在由一个或多个处理器执行时还使得一个或多个处理器基于均衡器设置来生成与一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号(例如，一个或多个输出音频信号138)。

下文在第一组相关条款中描述了本公开内容的特定方面：

根据条款1，一种设备包括：一个或多个处理器，其被配置为：获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据；至少部分地基于所述方向性数据来确定一个或多个均衡器设置；以及基于所述均衡器设置来生成与所述一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号。

条款2包括根据条款1所述的设备，其中，所述心理声学增强版本模仿在与音频变焦操作相关的变焦朝向和变焦距离处所述一个或多个音频源的频率响应。

条款3包括根据条款1或2所述的设备，其中，所述一个或多个处理器还被配置为：接收指示音频变焦操作的变焦目标的用户输入；以及基于所述变焦目标来确定所述一个或多个均衡器设置。

条款4包括根据条款3所述的设备，其中，所述变焦目标包括变焦位置、变焦距离、变焦朝向、对所述一个或多个音频源中的至少一者的选择、或其组合。

条款5包括根据条款1至条款4中任一项所述的设备，其中，所述一个或多个音频源中的特定音频源的所述方向性数据指示所述特定音频源的朝向和距离频率响应特性。

条款6包括根据条款1至条款5中任一项所述的设备，其中，所述一个或多个处理器还被配置为：对所述一个或多个输入音频信号执行波束成形，以生成一个或多个经波束成形的音频信号；以及处理基于所述一个或多个经波束成形的音频信号的均衡器输入音频信号以生成所述一个或多个输出音频信号。

条款7包括根据条款1至条款6中任一项所述的设备，其中，所述一个或多个处理器还被配置为：识别基于所述一个或多个输入音频信号的语音检测输入音频信号中的语音，以生成一个或多个语音音频信号；以及处理基于所述一个或多个语音音频信号的均衡器输入音频信号以生成所述一个或多个输出音频信号。

条款8包括根据条款1至条款7中任一项所述的设备，其中，所述一个或多个处理器还被配置为：基于变焦目标来将一个或多个增益应用于基于所述一个或多个输入音频信号的增益调整器输入音频信号，以生成经增益调整的音频信号；以及处理基于所述经增益调整的音频信号的均衡器输入音频信号以生成所述一个或多个输出音频信号。

条款9包括根据条款1至条款8中任一项所述的设备，其中，所述一个或多个处理器还被配置为：对基于所述一个或多个输入音频信号的噪声抑制器输入音频信号执行噪声抑制，以生成经噪声抑制的音频信号；以及处理基于所述经噪声抑制的音频信号的均衡器输入音频信号以生成所述一个或多个输出音频信号。

条款10包括根据条款1至条款9中任一项所述的设备，其中，所述一个或多个处理器还被配置为：处理基于所述一个或多个输入音频信号的上下文检测器输入音频信号，以生成所述一个或多个音频源的上下文数据，其中，所述一个或多个音频源中的特定音频源的所述上下文数据指示所述特定音频源的朝向、所述特定音频源的距离、所述特定音频源的类型或其组合；以及基于所述特定音频源的所述类型来获得所述特定音频源的所述方向性数据。

条款11包括根据条款10所述的设备，其中，所述一个或多个处理器还被配置为：至少部分地基于与所述一个或多个输入音频信号相关联的图像数据来生成所述上下文数据。

条款12包括根据条款11所述的设备，其中，所述一个或多个处理器还被配置为：从存储器检索所述图像数据和所述一个或多个输入音频信号。

条款13包括根据条款11或条款12所述的设备，还包括：一个或多个麦克风，其耦合到所述一个或多个处理器，并且被配置为生成所述一个或多个输入音频信号。

条款14包括根据条款11至条款13中任一项所述的设备，还包括：相机，其耦合到所述一个或多个处理器，并且被配置为生成所述图像数据。

条款15包括根据条款11至条款14中任一项所述的设备，其中，所述一个或多个处理器还被配置为：基于所述一个或多个输入音频信号、所述图像数据或两者执行音频源识别，以识别所述一个或多个音频源中的所述特定音频源的所述类型。

条款16包括根据条款11至条款15中任一项所述的设备，其中，所述一个或多个处理器还被配置为：基于所述一个或多个输入音频信号、所述图像数据或两者执行音频源识别，以确定所述一个或多个音频源中的所述特定音频源；以及对所述图像数据执行图像分析以确定所述特定音频源的所述朝向。

条款17包括根据条款11至条款16中任一项所述的设备，其中，所述一个或多个处理器还被配置为：基于所述一个或多个输入音频信号、所述图像数据或两者执行音频源识别，以确定所述一个或多个音频源中的所述特定音频源；以及对所述一个或多个输入音频信号、所述图像数据或两者执行距离分析，以确定所述特定音频源的所述距离。

条款18包括根据条款10至条款17中任一项所述的设备，其中，所述一个或多个处理器还被配置为：基于均衡器设置数据来选择所述一个或多个均衡器设置，所述均衡器设置数据将所述一个或多个均衡器设置与所述上下文数据、所述方向性数据、变焦朝向、变焦距离或其组合进行关联。

条款19包括根据条款18所述的设备，其中，所述一个或多个处理器还被配置为：从存储器、另一设备或两者获得所述均衡器设置数据。

条款20包括根据条款10至条款19中任一项所述的设备，其中，所述一个或多个处理器还被配置为：选择所述一个或多个均衡器设置，以降低与中频相对应的频率响应。

条款21包括根据条款1至条款20中任一项所述的设备，其中，所述一个或多个处理器还被配置为：在第一时间处生成与所述一个或多个音频源中的特定音频源相对应的第一输入音频信号的第一声谱；在第二时间处生成与所述特定音频源相对应的第二输入音频信号的第二声谱；以及更新所述方向性数据，以指示所述第一时间处的第一距离和第一朝向与所述第二时间处的第二距离和第二朝向之间的差对应于所述第一声谱和所述第二声谱之间的差。

条款22包括根据条款1至条款21中任一项所述的设备，其中，所述一个或多个处理器还被配置为：从存储器、另一设备或两者获得所述方向性数据。

条款23包括根据条款1至条款5、条款21或条款22中任一项所述的设备，其中，所述一个或多个处理器还被配置为：对所述一个或多个输入音频信号执行波束成形，以生成一个或多个经波束成形的音频信号；检测所述一个或多个输入音频信号中的语音以生成一个或多个语音音频信号；基于变焦目标来将一个或多个增益应用于所述一个或多个经波束成形的音频信号、所述一个或多个语音音频信号或其组合，以生成一个或多个经增益调整的音频信号；至少部分地基于所述一个或多个经增益调整的音频信号来生成所述一个或多个音频源的上下文数据，其中，所述一个或多个音频源中的特定音频源的所述上下文数据指示所述特定音频源的朝向、所述特定音频源的距离、所述特定音频源的类型、或其组合；基于所述特定音频源的所述类型来获得所述特定音频源的所述方向性数据；进一步基于所述上下文数据、变焦朝向和变焦距离来确定所述一个或多个均衡器设置；将噪声抑制应用于所述一个或多个经增益调整的音频信号，以生成一个或多个经噪声抑制的音频信号；以及通过基于所述一个或多个均衡器设置处理所述一个或多个经噪声抑制的音频信号来生成所述一个或多个输出音频信号。

下文在第二组相关条款中描述了本公开内容的特定方面：

根据条款24，一种方法包括：在设备处获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据；在所述设备处，至少部分地基于所述方向性数据来确定一个或多个均衡器设置；以及基于所述均衡器设置来生成与所述一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号。

条款25包括根据条款24所述的方法，还包括：在所述设备处接收指示音频变焦操作的变焦目标的用户输入；以及在所述设备处，基于所述变焦目标来确定所述一个或多个均衡器设置，其中，所述变焦目标包括变焦位置、变焦距离、变焦朝向、对所述一个或多个音频源中的至少一者的选择、或其组合。

下文在第三组相关条款中描述了本公开内容的特定方面：

根据条款26，一种非暂时性计算机可读介质存储指令，所述指令在由一个或多个处理器执行时使得所述一个或多个处理器进行以下操作：获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据；至少部分地基于所述方向性数据来确定一个或多个均衡器设置；以及基于所述均衡器设置来生成与所述一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号。

条款27包括根据条款26所述的非暂时性计算机可读介质，其中，所述指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器进行以下操作：对所述一个或多个输入音频信号执行波束成形，以生成一个或多个经波束成形的音频信号；以及处理基于所述一个或多个经波束成形的音频信号的均衡器输入音频信号以生成所述一个或多个输出音频信号。

条款28包括根据条款26或条款27所述的非暂时性计算机可读介质，其中，所述指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器进行以下操作：识别基于所述一个或多个输入音频信号的语音检测输入音频信号中的语音，以生成一个或多个语音音频信号；以及处理基于所述一个或多个语音音频信号的均衡器输入音频信号以生成所述一个或多个输出音频信号。

下文在第四组相关条款描述了本公开内容的特定方面：

根据条款29，一种装置包括：用于获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据的单元；用于至少部分地基于所述方向性数据来确定一个或多个均衡器设置的单元；以及用于基于所述均衡器设置来生成与所述一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号的单元。

条款30包括根据条款29所述的装置，其中，所述用于获得的单元、所述用于确定的单元和所述用于生成的单元被集成到以下各者中的至少一者中：虚拟助理、家用电器、智能设备、物联网(IoT)设备、通信设备、耳机、车辆、计算机、显示设备、电视机、游戏控制台、音乐播放器、无线电单元、视频播放器、娱乐单元、个人媒体播放器、数字视频播放器、相机或导航设备。

技术人员还将明白的是，结合本文所公开的实现方式来描述的各个说明性的逻辑框、配置、模块、电路和算法步骤可以被实现为电子硬件、由处理器执行的计算机软件、或这两者的组合。上文已经对各种说明性的组件、框、配置、模块、电路和步骤均围绕其功能进行了总体描述。这样的功能是实现为硬件还是处理器可执行指令，取决于特定的应用和对整个系统施加的设计约束。本领域技术人员可以针对每个特定应用，以变化的方式实现所描述的功能，这样的实现决策将不被解释为造成对本公开内容的范围的背离。

结合本文公开的实现方式所描述的方法或者算法的步骤可以直接地体现在硬件中、由处理器执行的软件模块中、或者这两者的组合中。软件模块可以驻留在随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、压缩光盘只读存储器(CD-ROM)、或本领域中已知的任何其它形式的非暂时性存储介质。示例性的存储介质耦合到处理器，使得处理器可以从该存储介质读取信息以及向该存储介质写入信息。替代地，存储器介质可以整合到处理器中。处理器和存储介质可以位于专用集成电路(ASIC)中。该ASIC可以位于计算设备或者用户终端中。替代地，处理器和存储介质可以作为分立组件位于计算设备或者用户终端中。

提供对所公开的实现的先前描述，以使本领域技术人员能够实现或使用所公开的方面。对于本领域技术人员而言，对这些方面的各种修改将是容易显而易见的，以及在不脱离本公开内容的范围的情况下，本文中定义的原理可以应用于其它方面式。因此，本公开内容不旨在限于本文中所示出的方面，而是要被赋予与通过下文的权利要求限定的原理和新颖特征相一致的可能的最广范围。

Claims

1.一种设备，包括：

存储器，其被配置为存储与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据；以及

一个或多个处理器，其被配置为：

至少部分地基于所述方向性数据来确定一个或多个均衡器设置；以及

基于所述均衡器设置来生成与所述一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号。

2.根据权利要求1所述的设备，其中，所述心理声学增强版本模仿在与音频变焦操作相关的变焦朝向和变焦距离处所述一个或多个音频源的频率响应。

3.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：

接收指示音频变焦操作的变焦目标的用户输入；以及

基于所述变焦目标来确定所述一个或多个均衡器设置。

4.根据权利要求3所述的设备，其中，所述变焦目标包括变焦位置、变焦距离、变焦朝向、对所述一个或多个音频源中的至少一者的选择、或其组合。

5.根据权利要求1所述的设备，其中，所述一个或多个音频源中的特定音频源的所述方向性数据指示所述特定音频源的朝向和距离频率响应特性。

6.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：

对所述一个或多个输入音频信号执行波束成形，以生成一个或多个经波束成形的音频信号；以及

处理基于所述一个或多个经波束成形的音频信号的均衡器输入音频信号以生成所述一个或多个输出音频信号。

7.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：

识别基于所述一个或多个输入音频信号的语音检测输入音频信号中的语音，以生成一个或多个语音音频信号；以及

处理基于所述一个或多个语音音频信号的均衡器输入音频信号以生成所述一个或多个输出音频信号。

8.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：

基于变焦目标来将一个或多个增益应用于基于所述一个或多个输入音频信号的增益调整器输入音频信号，以生成经增益调整的音频信号；以及

处理基于所述经增益调整的音频信号的均衡器输入音频信号以生成所述一个或多个输出音频信号。

9.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：

对基于所述一个或多个输入音频信号的噪声抑制器输入音频信号执行噪声抑制，以生成经噪声抑制的音频信号；以及

处理基于所述经噪声抑制的音频信号的均衡器输入音频信号以生成所述一个或多个输出音频信号。

10.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：

处理基于所述一个或多个输入音频信号的上下文检测器输入音频信号，以生成所述一个或多个音频源的上下文数据，其中，所述一个或多个音频源中的特定音频源的所述上下文数据指示所述特定音频源的朝向、所述特定音频源的距离、所述特定音频源的类型或其组合；以及

基于所述特定音频源的所述类型来获得所述特定音频源的所述方向性数据。

11.根据权利要求10所述的设备，其中，所述一个或多个处理器还被配置为：至少部分地基于与所述一个或多个输入音频信号相关联的图像数据来生成所述上下文数据。

12.根据权利要求11所述的设备，其中，所述一个或多个处理器还被配置为：从存储器检索所述图像数据和所述一个或多个输入音频信号。

13.根据权利要求11所述的设备，还包括：一个或多个麦克风，其耦合到所述一个或多个处理器，并且被配置为生成所述一个或多个输入音频信号。

14.根据权利要求11所述的设备，还包括：相机，其耦合到所述一个或多个处理器，并且被配置为生成所述图像数据。

15.根据权利要求11所述的设备，其中，所述一个或多个处理器还被配置为：基于所述一个或多个输入音频信号、所述图像数据或两者执行音频源识别，以识别所述一个或多个音频源中的所述特定音频源的所述类型。

16.根据权利要求11所述的设备，其中，所述一个或多个处理器还被配置为：

基于所述一个或多个输入音频信号、所述图像数据或两者执行音频源识别，以确定所述一个或多个音频源中的所述特定音频源；以及

对所述图像数据执行图像分析以确定所述特定音频源的所述朝向。

17.根据权利要求11所述的设备，其中，所述一个或多个处理器还被配置为：

对所述一个或多个输入音频信号、所述图像数据或两者执行距离分析，以确定所述特定音频源的所述距离。

18.根据权利要求10所述的设备，其中，所述一个或多个处理器还被配置为：基于均衡器设置数据来选择所述一个或多个均衡器设置，所述均衡器设置数据将所述一个或多个均衡器设置与所述上下文数据、所述方向性数据、变焦朝向、变焦距离或其组合进行关联。

19.根据权利要求18所述的设备，其中，所述一个或多个处理器还被配置为：从所述存储器、另一设备或两者获得所述均衡器设置数据。

20.根据权利要求10所述的设备，其中，所述一个或多个处理器还被配置为：选择所述一个或多个均衡器设置，以降低与中频相对应的频率响应。

21.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：

在第一时间处生成与所述一个或多个音频源中的特定音频源相对应的第一输入音频信号的第一声谱；

在第二时间处生成与所述特定音频源相对应的第二输入音频信号的第二声谱；以及

更新所述方向性数据，以指示所述第一时间处的第一距离和第一朝向与所述第二时间处的第二距离和第二朝向之间的差对应于所述第一声谱和所述第二声谱之间的差。

22.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：从所述存储器、另一设备或两者获得所述方向性数据。

23.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：

对所述一个或多个输入音频信号执行波束成形，以生成一个或多个经波束成形的音频信号；

检测所述一个或多个输入音频信号中的语音以生成一个或多个语音音频信号；

基于变焦目标来将一个或多个增益应用于所述一个或多个经波束成形的音频信号、所述一个或多个语音音频信号或其组合，以生成一个或多个经增益调整的音频信号；

至少部分地基于所述一个或多个经增益调整的音频信号来生成所述一个或多个音频源的上下文数据，其中，所述一个或多个音频源中的特定音频源的所述上下文数据指示所述特定音频源的朝向、所述特定音频源的距离、所述特定音频源的类型、或其组合；

基于所述特定音频源的所述类型来获得所述特定音频源的所述方向性数据；

进一步基于所述上下文数据、变焦朝向和变焦距离来确定所述一个或多个均衡器设置；

将噪声抑制应用于所述一个或多个经增益调整的音频信号，以生成一个或多个经噪声抑制的音频信号；以及

通过基于所述一个或多个均衡器设置处理所述一个或多个经噪声抑制的音频信号来生成所述一个或多个输出音频信号。

24.一种方法，包括：

在设备处获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据；

在所述设备处，至少部分地基于所述方向性数据来确定一个或多个均衡器设置；以及

25.根据权利要求24所述的方法，还包括：

在所述设备处接收指示音频变焦操作的变焦目标的用户输入；以及

在所述设备处，基于所述变焦目标来确定所述一个或多个均衡器设置，其中，所述变焦目标包括变焦位置、变焦距离、变焦朝向、对所述一个或多个音频源中的至少一者的选择、或其组合。

26.一种存储指令的非暂时性计算机可读介质，所述指令在由一个或多个处理器执行时使得所述一个或多个处理器进行以下操作：

获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据；

27.根据权利要求26所述的非暂时性计算机可读介质，其中，所述指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器进行以下操作：

28.根据权利要求26所述的非暂时性计算机可读介质，其中，所述指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器进行以下操作：

29.一种装置，包括：

用于获得与一个或多个输入音频信号相对应的一个或多个音频源的方向性数据的单元；

用于至少部分地基于所述方向性数据来确定一个或多个均衡器设置的单元；以及

用于基于所述均衡器设置来生成与所述一个或多个输入音频信号的心理声学增强版本相对应的一个或多个输出音频信号的单元。

30.根据权利要求29所述的装置，其中，所述用于获得的单元、所述用于确定的单元和所述用于生成的单元被集成到以下各者中的至少一者中：虚拟助理、家用电器、智能设备、物联网(IoT)设备、通信设备、耳机、车辆、计算机、显示设备、电视机、游戏控制台、音乐播放器、无线电单元、视频播放器、娱乐单元、个人媒体播放器、数字视频播放器、相机或导航设备。