CN114727193A

CN114727193A - 声学变焦

Info

Publication number: CN114727193A
Application number: CN202210491087.1A
Authority: CN
Inventors: C·郑; A·A·奈尔; A·赖特; S·K·纳亚尔
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2018-09-03
Filing date: 2019-08-30
Publication date: 2022-07-08
Also published as: WO2020051086A1; US11189298B2; KR102557774B1; CN112956209A; US20220108713A1; CN112956209B; KR20230113831A; KR20210055066A; EP3847825A4; US11721354B2; EP3847825A1; US20210217432A1

Abstract

执行声学变焦的方法开始于麦克风捕获与视频内容相关联的声学信号。波束成形器使用声学信号生成波束成形器信号。波束成形器信号分别对应于视频内容的图块。每个波束成形器分别指向每个图块的中心。使用波束成形器信号生成目标增强信号。目标增强信号与视频内容的变焦区域相关联。通过如下操作来生成目标增强信号：识别分别至少具有被包括在变焦区域中的部分的图块，选择与所识别的图块相对应的波束成形器信号，以及组合所选择的波束成形器信号以生成目标增强信号。组合所选择的波束成形器信号可包括：确定每个所识别的图块相对于变焦区域的比例；以及基于该比例来组合所选择的波束成形器信号以生成目标增强信号。本文描述了其他实施例。

Description

声学变焦

本申请是申请日为2019年8月30日、申请号为201980056985.0、发明名称为“声学变焦”的专利申请的分案申请。

优先权

本申请要求于2018年9月3日提交的序列号为201811032980的印度专利申请的优先权的权益，在此要求其每一个的优先权的权益，并且其每一个均通过引用整体并入本文。

背景技术

当前，许多消费电子设备适于捕获音频和/或视频内容。例如，用户可以在公共场合使用他的移动设备快速捕获视频。

在视频的播放期间，观看者可以放大感兴趣的区域以更大的格式看到所选择的感兴趣的区域。但是，如果捕获视频的环境嘈杂，则与视频中感兴趣区域有关的音频可能已被淹没。

附图说明

在不一定按比例绘制的附图中，相似的数字可以在不同的视图中描述相似的组件。具有不同字母后缀的相似数字可以代表相似组件的不同实例。在附图的图中，通过示例而非限制的方式示出了一些实施例，其中：

图1是根据一个示例实施例的用于在使用中执行声学变焦的系统的示例。

图2是示出根据一个示例实施例的图1的系统的更多细节的框图。

图3是根据一个示例实施例的系统的图2中的声学变焦控制器111的细节的框图。

图4A-D示出了根据本发明的实施例的视频内容上的图块(tile)的布置(图4A)，图块的布置上的变焦区域(图4B)以及基于包括在变焦区域中的图块来组合波束成形器信号(图4C-4D)。

图5是根据一个示例实施例的系统的图2中的声学变焦控制器111的细节的框图。

图6示出了根据本发明的实施例的视频内容上的变焦区域和以变焦区域为中心的视场锥的示例。

图7是根据本发明的一个实施例的用于执行声学变焦的示例方法的流程图。

图8是根据本发明的一个实施例的用于执行声学变焦的示例方法的流程图。

图9是示出了可以与本文所述的各种硬件架构结合使用的代表性软件架构的框图。

图10是示出根据一些示例实施例的能够从机器可读介质(例如机器可读存储介质)读取指令并执行本文讨论的方法中的任何一个或多个的机器的组件的框图。

具体实施方式

以下描述包括体现本公开的说明性实施例的系统、方法、技术、指令序列和计算机器程序产品。在下面的描述中，出于解释的目的，阐述了许多具体细节以便提供对本发明主题的各种实施例的理解。然而，对于本领域技术人员显而易见的是，也可以在没有这些具体细节的情况下实践本发明主题的实施例。通常，众所周知的指令实例、协议、结构和技术不必详细示出。

本文所述的实施例通过允许在视频播放期间执行声学变焦来改进当前系统。具体地，声学变焦是指增强与视频中的感兴趣区域有关的音频。例如，当用户在播放期间在视觉上放大视频中的感兴趣区域时，可以在视觉上增强(例如，更大的格式)感兴趣区域，并且通过增大源自该感兴趣区域的音量，抑制源自该感兴趣区域之外的声音(例如，环境噪声，其他扬声器等)，或其任何组合，同样可以增强与该感兴趣区域相对应的音频。

图1是根据一个示例实施例的用于在使用中执行声学变焦的系统的示例。如图1所示，系统100可以是诸如客户端设备的装置(例如，图10中的机器1000)，其捕获包括多个对象的视频以及与该视频相对应的声学信号。

如本文所使用的，术语“客户端设备”可以指与通信网络接口连接以从一个或多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、台式计算机、笔记本电脑、便携式数字助理(PDA)、智能电话、平板电脑、超级本、上网本、便携式计算机、多处理器系统、基于微处理器的或可编程的消费类电子产品、游戏机、机顶盒或用户可用于访问网络的任何其他通信设备。

一些实施例可以包括一个或多个可穿戴设备，例如，具有集成相机的吊坠，该集成相机与客户端设备集成，通信，或耦接到客户端设备。可以结合本公开的实施例使用任何期望的可穿戴设备，例如，手表、眼镜、护目镜、头戴式耳机、腕带、耳塞、衣服(例如具有集成电子设备的帽子或夹克)、夹式电子设备、或任何其他可穿戴设备。

图2是示出根据一个示例实施例的系统100的更多细节的框图。如图2所示，系统100包括麦克风113_1至113_N(N>1)、相机模块112、和声学变焦控制器111。麦克风113_1至113_N可以是将声音转换为电子信号的空中接口拾音设备。尽管在图1中，系统100包括六个麦克风113_1至113_6，但是麦克风的数量可以变化。在一个实施例中，系统100可包括至少两个麦克风，并且可以形成麦克风阵列。

麦克风113_1至113_N可用于创建麦克风阵列波束(即，波束成形器)，该麦克风阵列波束可以通过强调和削弱(deemphasizing)选定的麦克风113_1至113_N来转向到给定方向。类似地，麦克风阵列还可以在其他给定方向上显示或提供零值(null)。因此，波束成形过程(也称为空间滤波)可以是使用麦克风阵列进行定向声音接收的信号处理技术。

相机模块112包括相机镜头和图像传感器。相机镜头可以是透视(perspective)相机镜头或非透视(non-perspective)相机镜头。非透视相机镜头可以是例如鱼眼镜头、广角镜头、全向镜头等。图像传感器通过相机镜头捕获数字视频。图像也可以是静止图像帧或包括多个静止图像帧的视频。在一个实施例中，系统100可以与相机模块112分离，但是耦接到包括相机模块112的客户端设备。在该实施例中，系统100可以是包括麦克风113_1至113_N和窗口的外壳或壳体，该窗口允许相机镜头捕获图像或视频内容。

在图1的实施例中，系统100使用相机模块112捕获包括多个对象的视频，并使用麦克风113_1至113_N捕获与视频相对应的声学信号。在播放期间，声学信号在时间上与视频同步。声学信号可包括期望的(或目标)音频信号以及外围或环境噪声。例如，在图1中，如果系统100的用户打算从位于中心的源(source)捕获音频信号，则来自其余源(例如，顶部和底部源)的音频信号也将被捕获为环境噪声学信号。

在一个实施例中，当播放捕获的视频和相应的音频信号时，系统100中的声学变焦控制器111确定视频内容的视场(或变焦区域)，并增强对应于该视场的音频信号。在另一个实施例中，声学变焦控制器111实时确定视频内容的视场(或变焦区域)，并实时增强与该视场相对应的音频信号。

图3是根据一个示例实施例的系统的图2中的声学变焦控制器111的细节的框图。在图3中，声学变焦控制器111包括时-频变换器310、神经网络320、包括多个波束成形器的波束成形器单元330、目标增强器340和频-时变换器350。

时-频变换器310从麦克风113_1至113_N接收声学信号，并将声学信号从时域变换到频域。在一个实施例中，时-频变换器310在时域中对声学信号执行短时傅立叶变换(STFT)以获得频域中的声学信号。

神经网络320在频域中接收声学信号并生成噪声参考信号。神经网络320可以是用于生成噪声参考信号的深层神经网络，该噪声参考信号估计噪声协方差矩阵，该噪声协方差矩阵对空间中噪声的能量分布进行编码。神经网络320可以被离线训练以识别和编码空间中的噪声分布。

在一个实施例中，神经网络320还被用来在频域中屏蔽声学信号中的噪声，以生成在频域中被噪声抑制的声学信号。神经网络320还可以将在频域中被噪声抑制的声学信号提供给波束成形器单元330以进行进一步处理。

图4A示出了根据一个实施例的在视频内容上对图块的布置的示例。被捕获的视频内容可被划分为多个图块410_1至410_M(M>1)。在图4A的实施例中，视频内容的图块是具有至少10度的角宽度的相同形状的图块。对于每个图块410_j(M≥j≥1)，波束成形器单元330包括被定向到图块410_j的中心的波束成形器。在图4A的实施例中，波束成形器单元330包括九(9)个波束成形器，其分别被引导或转向到九(9)个图块的九(9)个中心。因此，波束成形器各自生成波束成形器信号，该信号包括与每个图块中的视频内容部分相对应的音频。波束成形器单元330中的波束成形器可以包括指向图块410_j的中心的固定波束成形器、诸如最小方差无失真响应(MVDR)波束成形器的自适应波束成形器、或其任意组合。

尽管图4A中的实施例包括形状相同的图块410_1至410_M，但是应当理解，图块410_1至410_M可以具有不同的任意形状。类似地，尽管图4A中的实施例包括具有至少10度的角宽度的图块410_1至410_M，但是应当理解，图块410_1至410_M可以具有不同的角宽度。

图4B示出了根据一个实施例的来自图4A的图块的布置上的变焦区域420。当用户选择视频内容中将要以更大的(变焦)格式显示的区域时，用户的视场从包括图4A中的所有图块的第一视场变为对应于包括不同图块的部分的图4B中的变焦区域420的第二视场。

图3中的目标增强器340从波束成形器单元330接收多个波束成形器信号，并生成与视频内容的变焦区域420相关联的目标增强信号。在一个实施例中，目标增强器340通过识别分别至少具有被包括在变焦区域420中的部分的图块来生成目标增强信号。在图4C中，四个图块410_1至410_4的部分被识别为至少具有被包括在变焦区域420中的部分。在该示例中，整个图块410_1包括在变焦区域420中，并且图块410_2至410_4的较小部分被包括在变焦区域420中。目标增强器340选择与所识别的图块410_2至410_4对应的波束成形器信号，并组合所选择的波束成形器信号以生成目标增强信号。

在一个实施例中，目标增强器340以与每个所识别的图块对变焦区域的贡献相同的比例来组合所选择的波束成形器信号。图4D示出了根据一个实施例的由目标增强器340执行的组合。在该实施例中，目标增强器340确定每个所识别的图块相对于变焦区域420的比例，并基于该比例组合所选择的波束成形器信号以生成目标增强信号。目标增强器340可通过基于比例在频谱上将所选波束成形器信号相加来组合所选波束成形器信号。

频-时变换器350从目标增强器340接收目标增强信号，并将目标增强信号从频域变换到时域。在一个实施例中，频-时变换器350在频域中对目标增强信号执行短时傅立叶逆变换(STFT)，以获得时域中的目标增强信号。

图5是根据一个示例实施例的系统的图2中的声学变焦控制器111的细节的框图。类似于图3中的声学变焦控制器111的细节，图5中的声学变焦控制器111还包括时-频变换器310、神经网络320和频-时变换器350。但是，在此实施例中，声学变焦控制器111包括：波束成形器单元530，其包括目标波束成形器和噪声波束成形器；以及目标增强器540，其包括对波束成形器单元530的反馈信号。波束成形器单元530从时-频变换器310接收频域中的声学信号并从神经网络320接收噪声参考信号。

图6示出了根据本发明实施例的视频内容上的变焦区域和以变焦区域420为中心的视场圆620的示例。当用户选择视频内容中将要以更大(变焦)格式显示的变焦区域420时，用户的视场从与图6中视频内容的整个区域610的第一视场改变成与图6中的变焦区域420相对应的第二视场。尽管图6包括作为圆620的第二视场，但是第二视场可以是任何形状。

在一个实施例中，波束成形器单元530包括目标波束成形器和噪声波束成形器。目标波束成形器指向与视频内容的变焦区域420相对应的第二视场圆620的中心。在一个实施例中，第二视场圆620是试图覆盖尽可能多的变焦区域420的尝试。在一个实施例中，目标波束成形器实现对待增强的声音的方向(例如，第二视场圆620的中心)进行编码的转向向量。噪声波束成形器指向第一视场610，并且具有指向第二视场圆620的中心的零值。噪声波束成形器可以是心形或指向远离第二视场圆620中心的其它波束成形图案，以在尽可能少地污染(例如，来自第二视场圆620的中心的)感兴趣的音频的情况下捕获环境噪声。噪声波束成形器生成噪声波束成形器信号，其捕获不在待增强的声音方向上的声学信号。

在一个实施例中，神经网络320接收多个声学信号以生成噪声参考信号。在该实施例中，波束成形器单元530接收噪声参考信号，并使用多个声学信号和噪声参考信号来生成目标波束成形器信号和噪声波束成形器信号。

目标增强器540确定与视频内容的变焦区域420相对应的第二视场圆620。在一个实施例中，目标增强器530确定变焦区域420相对于第一视场610的位置和方向。目标增强器540可将包括第二视场圆620的数据按顺序发送到波束成形器单元530，使波束成形器单元530相应地引导目标波束成形器和噪声波束成形器。目标增强器接收目标波束成形器信号和噪声波束成形器信号，并使用目标波束成形器信号和噪声波束成形器信号来生成与视频内容的变焦区域420相关联的目标增强信号。在一个实施例中，目标增强器540通过在频谱上从目标增强信号中减去噪声波束成形器信号来生成目标增强信号。

本发明的以下实施例可以被描述为过程，该过程通常被描绘为流程框图、流程图，结构图或框图。尽管流程图可将操作描述为顺序过程，但是许多操作可以并行或同时执行。另外，可以重新安排操作顺序。过程的操作完成后，过程将终止。过程可以对应于方法，程序等。

图7是根据本发明的一个实施例的用于执行声学变焦的示例方法的流程图。该方法开始于，在框701中，多个麦克风捕获与视频内容相关联的多个声学信号。在框702，多个波束成形器使用多个声学信号来生成多个波束成形器信号。波束成形器信号可分别对应于视频内容的多个图块。每个波束成形器可分别指向每个图块的中心。在框703，目标增强器使用波束成形器信号生成目标增强信号。目标增强信号可以与视频内容的变焦区域相关联。在一个实施例中，在框703中，目标增强器通过如下步骤来生成目标增强信号：识别分别至少具有被包括在变焦区域中的部分的图块，选择与所识别的图块相对应的波束成形器信号，以及组合所选择的波束成形器信号以生成目标增强信号。在一个实施例中，组合所选择的波束成形器信号包括确定每个所识别的图块相对于变焦区域的比例，并且基于该比例来组合所选择的波束成形器信号，以生成目标增强信号。

图8是根据本发明的一个实施例的用于执行声学变焦的示例方法的流程图。该方法开始于，在框801处，多个麦克风捕获多个声学信号。视频内容的第一视场可以与多个声学信号相关联。在框802，目标波束成形器使用多个声学信号生成目标波束成形器信号。目标波束成形器指向与视频内容的变焦区域相对应的第二视场的中心。在框803，噪声波束成形器使用多个声学信号生成噪声波束成形器信号。噪声波束成形器指向第一视场，并具有指向第二视场的中心零点。在框804，目标增强器确定与视频内容的变焦区域相对应的第二视场，并且在框805，使用目标波束成形器信号和噪声波束成形器生成与视频内容的变焦区域相关联的目标增强信号。在一个实施例中，目标增强器生成目标增强信号包括在频谱上从目标增强信号减去噪声波束成形器信号。

软件架构

图9是示出示例软件架构906的框图，该示例软件架构906可以与本文所述的各种硬件架构结合使用。图9仅是软件架构的非限制性示例，并且将理解，可以实现多个其他架构以促进本文描述的功能。软件架构906可以在诸如图10的机器1000的硬件上执行，机器1000尤其包括处理器1004、存储器1014和I/O组件1018等。代表性硬件层952被示出并且可以表示例如图10的机器1000。代表性硬件层952包括具有相关联的可执行指令904的一个或多个处理单元954。可执行指令904表示软件架构906的可执行指令，包括在此描述的方法、组件等的实现。硬件层952还包括也具有可执行指令904的存储器和/或存储模块956。硬件层952还可包括其他硬件958。

如本文中所使用的，术语“组件”可以指具有由提供用于特定处理或控制功能的分区或模块化的功能或子例程调用、分支点、应用程序接口(API)或其他技术来定义的边界的设备、物理实体或逻辑。组件可通过它们与其他组件的接口进行组合以执行机器过程。组件可以是被设计为与其他组件以及通常执行相关功能的特定功能的程序的一部分一起使用的经封装的功能硬件单元。

组件可构成软件组件(例如体现在机器可读介质上的代码)或硬件组件。“硬件组件”是能够执行某些操作的有形单元，并且可以以某种物理方式被配置或设置。在各种示例实施例中，一个或多个计算机系统(例如独立计算机系统、客户端计算机系统，或服务器计算机系统)或计算机系统的一个或多个硬件组件(例如处理器或一组处理器)可以由软件(例如应用或应用部分)配置为操作以执行本文所述的某些操作的硬件组件。硬件组件也可机械地、电子地或其任何合适的组合来实现。例如，硬件组件可包括被永久性地配置为执行某些操作的专用电路或逻辑。

硬件组件可以是专用处理器，例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件组件还可包括可编程逻辑或电路，其由软件临时配置为执行某些操作。例如，硬件组件可包括由通用处理器或其他可编程处理器执行的软件。在由此类软件进行配置之后，硬件组件变成专门被定制以执行配置的功能的特定机器(或机器的特定组件)，并且不再是通用处理器。可以理解，机械地在专用和永久配置的电路中或者在临时配置的电路中(例如由软件配置的)实现硬件组件的决定可以由成本和时间考虑来驱动。

处理器可以是或可以包括根据控制信号(例如“命令”、“操作码”、“机器码”等)操纵数据值并产生适用于操作机器的对应输出信号的任何电路或虚拟电路(由在实际处理器上执行的逻辑来仿真的物理电路)。处理器可以例如是中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)或其任意组合。处理器可进一步是具有可同时执行指令的两个或更多个独立处理器(有时称为“核”)的多核处理器。

因此，短语“硬件组件”(或“硬件实现的组件”)应理解为包括有形实体，其是物理构造的、永久配置的(例如硬连线的)或临时配置的(例如编程的)，以某种方式操作或执行本文所述的某些操作的实体。考虑到其中硬件组件被临时配置(例如编程)的实施例，每个硬件组件不需要在任何时刻被配置或实例化。例如，在硬件组件包括由软件配置为成为专用处理器的通用处理器的情况下，通用处理器可在不同时间被分别配置为不同的专用处理器(例如包括不同的硬件组件)。因此，软件对应地配置特定处理器或处理器，例如以在一个时刻构成一个特定硬件组件，而在另一个不同时刻构成另一个不同硬件组件。硬件组件可向其他硬件组件提供信息并从其他硬件组件接收信息。因此，所描述的硬件组件可以被认为是通信耦接的。在同时存在多个硬件组件的情况下，可以通过在两个或更多个硬件组件之间的信号传输(例如通过适当的电路和总线)来实现通信。在其中在不同时间配置或实例化多个硬件组件的实施例中，可以例如通过在多个硬件组件可以访问的存储器结构中存储和取得信息来实现此类硬件组件之间的通信。

例如，一个硬件组件可执行操作并将该操作的输出存储在其通信耦接到的存储器设备中。然后，另一硬件组件可以在稍后的时间访问该存储器设备以取得和处理所存储的输出。硬件组件还可发起与输入或输出设备的通信，并且可以在资源(例如信息的集合)上进行操作。本文所述的示例方法的各种操作可以至少部分地由临时配置(例如通过软件)或永久配置为执行相关操作的一个或多个处理器执行。无论是临时配置还是永久配置，此类处理器都可以构成处理器实现的组件，该组件操作以执行本文所述的一个或多个操作或功能。如本文中所使用的，“处理器实现的组件”是指使用一个或多个处理器实现的硬件组件。类似地，本文描述的方法可以至少部分地由处理器实现，其中特定的一个或多个或处理器是硬件的示例。例如，一种方法的操作中的至少一些操作可以由一个或多个处理器或处理器实现的组件执行。

此外，一个或多个处理器还可操作以在“云计算”环境中或作为“软件即服务”(SaaS)来支持相关操作的执行。例如，操作中的至少一些操作可由一组计算机来执行(作为包括处理器的机器的示例)，其中这些操作可以经由网络(例如互联网)以及经由一个或多个适当的接口(例如API)来访问。某些操作的执行可分布在处理器之间，不仅驻留在单个机器内，而且跨多个机器部署。在一些示例实施例中，处理器或处理器实现的组件可位于单个地理位置中(例如在家庭环境、办公室环境，或服务器场中)。在其他示例实施例中，处理器或处理器实现的组件可分布在多个地理位置上。

在图9的示例架构中，软件架构906可以被概念化为层的堆叠，其中每个层提供特定的功能。例如，软件架构906可包括诸如操作系统902、库920、应用916、和呈现层914的层。在操作上，这些层内的应用916或其他组件可通过软件堆栈来调用应用程序接口(API)API调用908，并且响应于API调用908，接收消息912。所示出的层本质上是代表性的，并非所有软件架构都具有所有层。例如，某些移动或专用操作系统可能不提供框架/中间件918，而其他操作系统可提供此类层。其他软件架构可包括附加的或不同的层。

操作系统902可管理硬件资源并提供公共服务。操作系统902可包括例如内核922、服务924和驱动器926。内核922可以充当硬件和其他软件层之间的抽象层。例如，内核922可负责存储器管理、处理器管理(例如调度)、组件管理、联网、安全性设置等。服务924可为其他软件层提供其他公共服务。驱动器926负责控制底层硬件或与底层硬件接口连接。例如，驱动器926包括显示驱动器、相机驱动器、

驱动器、闪存驱动器、串行通信驱动器(例如通用串行总线(USB)驱动器)、

驱动器、音频驱动器、电源管理驱动器等，取决于硬件配置。

库920可提供可被应用916或其他组件或层使用的公共基础结构。库920通常提供如下功能：允许其他软件组件以比通过直接与基础操作系统902功能(例如内核922、服务924和/或驱动器926)接口连接更容易的方式执行任务。库920可包括系统库944(例如C标准库)，该系统库924可提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。此外，库920可包括诸如媒体库的API库946(例如，用于支持各种媒体格式(例如MPEG4、H.264、MP3、AAC、AMR、JPG、PNG)的呈现和操作的库)、图形库(例如，可用于在显示器上呈现2D和3D图形内容的OpenGL框架)、数据库库(例如，可提供各种关系数据库功能的SQLite)、网络库(例如，可提供网络浏览功能的WebKit)，等。库920还可包括各种各样的其他库948，以向应用916和其他软件组件/模块提供多个其他API。

框架/中间件918(有时也称为中间件)提供可由应用916和/或其他软件组件/模块使用的高级通用基础设施。例如，框架/中间件918可提供各种图形用户界面(GUI)功能、高级资源管理、高级位置服务等。框架/中间件918可提供可被应用916或其他软件组件/模块使用的广泛的其他API，其中一些可能是特定于特定操作系统902或平台的。

应用916包括内置应用938或第三方应用940。代表性内置应用938的示例可包括但不限于：联系人应用、浏览器应用、书籍阅读器应用、位置应用、媒体应用、消息传递应用，或游戏应用。第三方应用940可包括由特定平台的卖方以外的实体使用Android^TM或iOS^TM软件开发工具包(SDK)开发的应用，可以是在移动操作系统(例如iOS^TM、Android^TM、

Phone或其他移动操作系统)上运行的移动软件。第三方应用940可以调用由移动操作系统(诸如操作系统902)提供的API调用908，以促进本文描述的功能。

应用916可利用内置的操作系统功能(例如内核922、服务924和/或驱动器926)、库920和框架/中间件918来创建用户界面以与系统的用户进行交互。替代地或附加地，在一些系统中，与用户的交互可通过诸如呈现层914的呈现层发生。在这些系统中，可将应用/组件“逻辑”与跟用户交互的应用/组件的各方面分开。

图10示出了根据一些示例实施例的机器1000的组件(本文也称为“模块”)的框图，该组件能够从机器可读介质(例如，机器可读存储介质)读取指令，并执行本文所讨论的方法中的任何一个或多个。具体地，图10示出了具有计算机系统的示例形式的机器1000的图解表示，在其中可以执行用于使机器1000执行本文讨论的任何一种或多种方法的指令1010(例如软件、程序、应用、小应用、应用程序或其他可执行代码)。这样，指令1010可用于实现本文描述的模块或组件。指令1010将通用的、未编程的机器1000转换为被编程为以所描述的方式执行所描述和示出的功能的特定机器1000。在替代实施例中，机器1000作为独立设备运行，或者可耦接(例如联网)到其他机器。在网络部署中，机器1000可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份运行，或者在对等(或分布式)网络环境中作为对等机器运行。机器1000可包括但不限于：服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如智能手表)、智能家居设备(例如智能电器)、其他智能设备、网络家电、网络路由器、网络交换机、网桥，或能够依次或以其他方式执行指令1010的任何机器，这些指令指定了机器1000要采取的动作。此外，尽管仅示出了单个机器1000，但术语“机器”还应认为为包括单独地或共同地执行指令1010以执行本文讨论的方法中的任何一个或多个方法的机器的集合。

机器1000可包括处理器1004、存储器/存储装置1006和I/O组件1018，它们可以被配置为例如经由总线1002彼此通信。存储器/存储装置1006可包括存储器1014，(诸如，主存储器，或其它存储器存储装置)和存储单元1016，它们都可以诸如经由总线1002被处理器1004访问。存储单元1016和存储器1014存储体现本文所述方法或功能中的任何一个或多个的指令1010。在由机器1000执行期间，指令1010还可全部或部分地驻留在存储器1014内、存储单元1016内、处理器1004中的至少一个处理器内(例如在处理器的高速缓冲存储器内)或其任何组合。因此，存储器1014，存储单元1016和处理器1004的存储器是机器可读介质的示例。

如在此所使用的，术语“机器可读介质”、“计算机可读介质”等可指能够临时或永久存储指令和数据的组件、设备或其他有形介质。此类介质的示例可包括但不限于：随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存、光学介质、磁性介质、高速缓存、其他类型的存储设备(例如可擦除可编程只读存储器(EEPROM))和/或其任何合适的组合。术语“机器可读介质”应被认为包括能够存储指令的单个介质或多个介质(例如集中式或分布式数据库，或相关联的高速缓存和服务器)。术语“机器可读介质”还应被理解为包括能够存储由机器执行的指令(例如代码)使得指令在由机器的一个或多个处理器执行时使得机器执行本文描述的任何一种或多种方法的任何介质或多种介质的组合。因此，“机器可读介质”是指单个存储装置或设备，以及包括多个存储装置或设备的“基于云的”存储系统或存储网络。术语“机器可读介质”自身不包括信号。

I/O组件1018可以包括各种各样的组件，以提供用于接收输入、提供输出、产生输出、发送信息、交换信息、采集测量的用户接口等。包括在特定机器1000中的用户接口的特定I/O组件1018将取决于机器的类型。例如，诸如移动电话的便携式机器将可能包括触摸输入设备或其他此类输入机构，而无头(headless)服务器机器将可能不包括此类触摸输入设备。应当理解，I/O组件1018可包括在图10中未示出的多个其他组件。仅出于简化下面讨论的目的，根据功能对I/O组件1018进行分组，并且分组绝不是限制性的。在各种示例实施例中，I/O组件1018可包括输出组件1026和输入组件1028。输出组件1026可包括视觉组件(例如显示器，诸如，等离子体显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪，或阴极射线管(CRT))、声学组件(例如扬声器)、触觉组件(例如振动马达、电阻机构)、其他信号发生器等。输入组件1028可包括字母数字输入组件(例如键盘、被配置为接收字母数字输入的触摸屏、光电键盘或其他字母数字输入组件)、基于点的输入组件(例如鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向仪器)、触知输入组件(例如物理按钮、提供触摸的位置和/或力或触摸手势的触摸屏，或其他触知输入组件)、音频输入组件(例如麦克风)等。输入组件1028还可包括一个或多个图像捕获设备，例如用于生成数字图像或视频的数字相机。

在进一步的示例实施例中，I/O组件1018可包括各种各样的其他组件中的生物特征组件1030、运动组件1034、环境组件1036或位置组件1038。这些组件中的一个或多个(或其一部分)在本文中可以统称为“传感器组件”或“传感器”，用于收集与机器1000、机器1000的环境、机器1000的用户、或其组合有关的各种数据。

例如，生物特征组件1030可包括用于检测表达(例如手部表达、面部表情、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如血压、心率、体温、汗水或脑波)、识别人(例如语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的组件。运动组件1034可包括加速度传感器组件(例如加速度计)、重力传感器组件、速度传感器组件(例如，速度计)、旋转传感器组件(例如陀螺仪)等。环境组件1036可包括例如照明传感器组件(例如光度计)、温度传感器组件(例如检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如气压计)、声学传感器组件(例如一个或多个检测背景噪声的麦克风)、接近度传感器组件(例如检测附近物体的红外传感器)、气体传感器(例如，用于为了安全而检测有害气体的浓度或测量大气中的污染物的气体检测传感器)、或可提供与周围物理环境相对应的指示、测量或信号的其他组件。位置组件1038可包括位置传感器组件(例如，全球定位系统(GPS)接收器组件)、高度传感器组件(例如检测可从哪个高度获得该空气压力的高度计或气压计)、取向传感器组件(例如磁力计)等。例如，位置传感器组件可提供与系统1000相关联的位置信息，例如系统1000的GPS坐标或有关系统1000当前所在位置的信息(例如，餐馆或其他公司的名称)。

可使用多种技术来实现通信。I/O组件1018可包括通信组件1040，该通信组件1040可操作以分别经由耦接(coupling)1024和耦接1022将机器1000耦接到网络1032或设备1020。例如，通信组件1040可包括网络接口组件或与网络1032接口连接的其它合适的设备。在进一步的示例中，通信组件1040可包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、

组件(例如

低能耗)、

组件和经由其它形态提供通信的其他通信组件。设备1020可以是另一机器或各种各样的外围设备(例如经由通用串行总线(USB)耦接的外围设备)中的任何一个。

此外，通信组件1040可检测标识符或包括可操作以检测标识符的组件。例如，通信组件1040可包括射频识别(RFID)标签读取器组件、NFC智能标记检测组件、光学读取器组件(例如用于检测诸如通用产品代码(UPC)条形码的一维条形码、多维条形码(例如快速响应(QR)码、Aztec码、数据矩阵、数字图形、最大码、PDF417、超码、UCC RSS-2D条形码)和其他光学码的光学传感器)，或声学检测组件(例如用于识别所标记的音频信号的麦克风)。另外，可以经由通信组件1040来获得各种信息，例如经由互联网协议(IP)地理位置来获得位置、经由

信号三角测量来获得位置、经由检测可指示特定位置的NFC信标信号来获得位置等。

当类似于“A、B或C中的至少一个”，“A、B和C中的至少一个”，“A、B或C中的一个或多个”或“A，B和C中的一个或多个”的短语被使用，该短语旨在被解释为表示A可单独存在于一个实施例中，B可单独存在于一个实施例中，C可单独存在于一个实施例中，或者元素A，B和C的任何组合可存在于单个实施例中；例如A和B、A和C、B和C、或者A和B和C。

在不脱离本公开的范围的情况下，可以对所公开的实施例进行改变和修改。如所附权利要求所表达的，这些和其他改变或修改旨在被包括在本公开的范围内。

Claims

1.一种用于执行声学变焦的系统，包括：

多个波束成形器，其：

生成对应于与多个声学信号相关联的视频内容的多个图块的多个波束成形器信号，其中，每个波束成形器被定向到每个图块的中心；以及

目标增强器，其：

识别至少具有被包括在所述视频内容的变焦区域中的部分的图块，

选择与所识别的图块相对应的波束成形器信号，以及

组合所选择的波束成形器信号以生成与所述变焦区域相关联的目标增强信号。

2.根据权利要求1所述的系统，其中，所述目标增强器还被配置为：

确定每个所识别的图块相对于所述变焦区域的比例；以及

基于所述比例来组合所选择的波束成形器信号以生成所述目标增强信号。

3.根据权利要求2所述的系统，其中，所述目标增强器还被配置为：

基于所述比例在频谱上将所选择的波束成形器信号相加。

4.根据权利要求1所述的系统，还包括：

神经网络，其用于接收所述多个声学信号以生成噪声参考信号，

其中，多个波束成形器接收所述噪声参考信号并使用所述多个声学信号和所述噪声参考信号来生成所述多个波束成形器信号。

5.根据权利要求1所述的系统，还包括：

时-频变换器，其用于接收所述多个声学信号并将所述多个声学信号从时域变换到频域；以及

频-时变换器，其用于接收所述目标增强信号并将所述目标增强信号从频域变换到时域。

6.根据权利要求1所述的系统，还包括：

相机，其用于捕获所述视频内容。

7.根据权利要求1所述的系统，其中，所述视频内容的图块是具有至少10度的角宽度的相等形状的图块。

8.一种用于执行声学变焦的方法，包括：

由处理器使多个波束成形器使用与视频内容相关联的多个声学信号生成多个波束成形器信号，其中，所述波束成形器信号对应于所述视频内容的多个图块，其中，每个波束成形器被定向到每个图块的中心；

选择与所识别的图块相对应的波束成形器信号，以及

9.根据权利要求8所述的方法，还包括：

确定每个所识别的图块相对于所述变焦区域的比例；以及

10.根据权利要求9所述的方法，还包括：

基于所述比例在频谱上将所选择的波束成形器信号相加。

11.根据权利要求8所述的方法，还包括：

由神经网络使用所述多个声学信号来生成噪声参考信号，

使用所述波束成形器使用所述多个声学信号和所述噪声参考信号来生成所述多个波束成形器信号。

12.根据权利要求8所述的方法，其中，所述视频内容的图块是具有至少10度的角宽度的相等形状的图块。

13.一种计算机可读存储介质，在其上存储有指令，当由处理器执行所述指令时使处理器执行操作，所述操作包括：

使多个波束成形器使用与视频内容相关联的多个声学信号来生成多个波束成形器信号，其中，所述波束成形器信号对应于所述视频内容的多个图块，其中，每个波束成形器被定向到每个图块的中心；

选择与所识别的图块相对应的波束成形器信号，以及

14.根据权利要求13所述的计算机可读存储介质，其中，所述处理器执行还包括以下操作的操作：

确定每个所识别的图块相对于所述变焦区域的比例；以及

15.根据权利要求13所述的计算机可读存储介质，其中，所述处理器执行还包括以下操作的操作：

使用神经网络基于所述多个声学信号来生成噪声参考信号，

其中，所述多个波束成形器信号是使用所述多个声学信号和所述噪声参考信号来生成的。

16.根据权利要求13所述的计算机可读存储介质，其中，所述处理器执行还包括以下操作的操作：

将所述多个声学信号从时域变换到频域；以及

将所述目标增强信号从频域变换到时域。

17.一种用于执行声学变焦的系统，包括：

多个波束成形器，其用于接收多个声学信号，所述多个波束成形器包括目标波束成形器和噪声波束成形器，其中，

所述目标波束成形器指向与所述视频内容的变焦区域相对应的视场的中心并生成目标波束成形器信号，以及

所述噪声波束成形器具有指向所述视场的中心的零值，并生成噪声波束成形器信号；以及

目标增强器，其用于：

确定与所述视频内容的所述变焦区域相对应的视场，

使用所述目标波束成形器信号和所述噪声波束成形器信号来生成与所述视频内容的所述变焦区域相关联的目标增强信号。

18.根据权利要求17所述的系统，其中，所述目标增强器生成所述目标增强信号包括在频谱上从所述目标增强信号减去所述噪声波束成形器信号。

19.根据权利要求17所述的系统，还包括：

其中，所述多个波束成形器接收所述噪声参考信号并使用所述多个声学信号和所述噪声参考信号来生成所述目标波束成形器信号和所述噪声波束成形器信号。

20.根据权利要求17所述的系统，还包括：