CN109997369B

CN109997369B - 用于处理音频信号的方法、装置和计算机程序

Info

Publication number: CN109997369B
Application number: CN201780070098.XA
Authority: CN
Inventors: A·埃罗南; A·勒蒂涅米; J·勒帕南; V-M·科尔默南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-09-13
Filing date: 2017-09-08
Publication date: 2021-12-03
Anticipated expiration: 2037-09-08
Also published as: EP3513573B1; US20220150624A1; GB201615538D0; CN109997369A; US11863946B2; WO2018050960A1; EP3513573A4; US20210289292A1; EP3513573A1; US11272286B2

Abstract

一种方法，包括：获取依赖于第一麦克风(25)处的音频输入(24)的第一干净信号(S1)和第一经处理信号(S4)；获取依赖于第二麦克风(27)处的音频输入(26)的第二干净信号(S2)和第二经处理信号(S3)；使用第一干净信号和第二干净信号来支持至少第一经处理信号和第二经处理信号的进一步处理(37)。

Description

用于处理音频信号的方法、装置和计算机程序

技术领域

本公开的示例涉及用于处理音频信号的方法、装置和计算机程序。特别地，本公开的示例涉及用于处理由多个麦克风提供的音频信号的方法、装置和计算机程序。

背景技术

用于处理音频信号的装置是已知的。有时，对依赖于不同麦克风处的音频输入的信号进行混音或以其他方式进行组合可能是有用的。例如，如果乐队或管弦乐队正在创作音乐，则不同的麦克风可以位于不同乐器和/或表演者附近。可以对由不同麦克风提供的不同音频信号进行混音以提供声音输出。

有益的是，提供一种改进的处理由多个麦克风提供的不同音频信号的方法。

发明内容

根据本发明的各种但不一定是所有实施例，可以提供一种方法，其包括：获取依赖于第一麦克风处的音频输入的第一干净信号和第一经处理信号；获取依赖于第二麦克风处的音频输入的第二干净信号和第二经处理信号；使用第一干净信号和第二干净信号来支持至少第一经处理信号和第二经处理信号的进一步处理。

根据本发明的各种但不一定是所有实施例，可以提供一种装置，其包括：用于获取依赖于第一麦克风处的音频输入的第一干净信号和第一经处理信号的部件；用于获取依赖于第二麦克风处的音频输入的第二干净信号和第二经处理信号的部件；用于使用第一干净信号和第二干净信号来支持至少第一经处理信号和第二经处理信号的进一步处理的部件。

根据本发明的各种但不一定是所有实施例，可以提供一种方法，其包括：获取依赖于第一麦克风处的音频输入的第一干净信号和第一经处理信号；获取依赖于第二麦克风处的音频输入的第二干净信号和第二经处理信号；使用干净信号来获取由麦克风捕获的音频信号之间的时间偏移；以及使用时间偏移来支持至少第一经处理信号和第二经处理信号的进一步处理。

根据本发明的各种但不一定是所有实施例，可以提供一种方法，其包括：获取音频信号，该音频信号包括依赖于不同麦克风处的音频输入的干净信号和经处理信号；以及将音频信号分组成组，每组包括依赖于相同麦克风处的音频输入的音频信号。

根据本发明的各种但不一定是所有实施例，可以提供如所附权利要求中要求保护的示例。

附图说明

为了更好地理解有助于理解具体实施方式的各种示例，现在将仅通过示例的方式参考附图，在附图中：

图1示出了一种装置；

图2示出了一种电子设备；

图3A、3B、3C示出了方法的示例；

图4示出了一种方法；

图5示出了一种方法；以及

图6示出了一种方法。

具体实施方式

附图示出了一种方法，包括：获取31依赖于第一麦克风25处的音频输入24的第一干净信号S₁和第一经处理信号S₄；获取33依赖于第二麦克风27处的音频输入26的第二干净信号S₂和第二经处理信号S₃；使用干净信号S₁、S₂来支持至少第一经处理信号S₃和第二经处理信号S₄的进一步处理37。

依赖于不同麦克风处的音频输入的音频信号(包括干净信号和经处理信号)可以被分组成组G_n，其中每组G_n仅包括依赖于相同麦克风处的音频输入的音频信号S_nm。

第一干净信号和第二干净信号可以用于获取定时信息，该定时信息用于支持至少第一经处理信号和第二经处理信号的进一步处理。第一干净信号和第二干净信号可以用于获取来自麦克风的音频信号之间的时间偏移来作为定时信息。例如，干净信号可以用于获取第一干净信号与第一经处理信号之间的第一通道内时间偏移和/或第二干净信号与第二经处理信号之间的第二通道内时间偏移来作为定时信息。例如，干净信号可以用于获取第一经处理信号与第二经处理信号之间的通道间时间偏移来作为定时信息。

该方法可以用于使得不同的经处理信号能够在进一步处理之前被同步到公共时间参考，进一步处理诸如是对不同的经处理信号执行空间音频混音。

图1示意性地示出了可以在本公开的示例中使用的示例装置1。图1中所示的装置1可以是芯片或芯片组。在一些示例中，装置1可以被提供在电子设备21内。电子设备21可以是音频混音台、计算机、通信设备或任何其他合适的电子设备21。

示例装置1包括控制电路3。控制电路3可以提供用于控制电子设备21的部件。控制电路3还可以提供用于执行本公开的示例的方法或至少部分方法的部件。

处理电路5可以被配置为从存储器电路7读取和向存储器电路7写入。处理电路5可以包括一个或多个处理器。处理电路5还可以包括输出接口和输入接口，处理电路5经由该输出接口来输出数据和/或命令，数据和/或命令经由该输入接口被输入到处理电路5。

存储器电路7可以被配置为存储包括计算机程序指令(计算机程序代码11)的计算机程序9，该计算机程序指令在被加载到处理电路5中时控制装置1的操作。计算机程序9的计算机程序指令提供使得装置1能够执行图3至6所示的示例方法或至少部分示例方法的逻辑和例程。通过读取存储器电路7，处理电路5能够加载和执行计算机程序9。

在一些示例中，计算机程序9可以包括音频信号处理应用。音频信号处理应用可以被布置为从不同的麦克风25、27获取多个音频信号41、43，并且支持音频信号的处理。该处理可以包括对由不同麦克风获取的不同音频信号的混音或其他组合。

因此，装置1包括：处理电路5；以及包括计算机程序代码11的存储器电路7，存储器电路7和计算机程序代码11被配置为与处理电路5一起引起装置1至少执行：获取31依赖于第一麦克风25处的音频输入24的第一干净信号S₁和第一经处理信号S₄；获取33依赖于第二麦克风27处的音频输入26的第二干净信号S₂和第二经处理信号S₃；使用干净信号S₁、S₂来支持至少第一经处理信号S₄和第二经处理信号S₃的进一步处理。

计算机程序9可以经由任何合适的传送机制到达装置1。传送机制可以是，例如，非暂态计算机可读存储介质、计算机程序产品、存储器设备、诸如光盘只读存储器(CD-ROM)或数字通用盘(DVD)等记录介质、或有形地体现计算机程序的制品。传送机制可以是被配置为可靠地传输计算机程序9的信号。装置1可以支持作为计算机数据信号的计算机程序9的传播或传输。在一些示例中，可以使用诸如蓝牙、蓝牙低功耗、蓝牙智能、6LoWPan(基于IPv6的低功率个域网)、ZigBee、ANT+、近场通信(NFC)、射频识别、无线局域网(无线LAN)或任何其他合适的协议等无线协议向装置1传输计算机程序代码11。

尽管存储器电路7在附图中被示出为单个组件，但是应当理解，它可以被实现为一个或多个单独的组件，其中的一些或全部组件可以是集成的/可移除的，和/或可以是永久性/半永久性的/动态的/高速缓存的存储装置。

尽管处理电路5在附图中被示出为单个组件，但是应当理解，它可以实现为一个或多个单独的组件，其中的一些或全部组件可以是集成的/可移除的。

对“计算机可读存储介质”、“计算机程序产品”、“有形地体现的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用应当被理解为不仅包括具有诸如单/多处理器架构、精简指令集计算(RISC)和串行(冯诺依曼)/并行架构等不同架构的计算机，而且还包括诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理设备和其他处理电路等专用电路。对计算机程序、指令、代码等的引用应当被理解为包括用于可编程处理器或固件的软件，诸如，例如硬件设备的可编程内容，无论是用于处理器的指令，还是用于固定功能设备、门阵列或可编程逻辑器件等的配置设置。

如本申请中所使用的，术语“电路”指的是以下所有内容：

(a)仅硬件电路实现(诸如仅在模拟和/或数字电路中的实现)，以及

(b)电路和软件(和/或固件)的组合，诸如(在适用的情况下)：(i)(一个或多个)处理器的组合，或(ii)处理器/软件的部分(包括数字信号处理器、软件和存储器，它们一起工作以引起诸如移动电话或服务器等设备执行各种功能)，以及

(c)需要软件或固件来进行操作的电路，诸如微处理器或微处理器的一部分，即使软件或固件物理上不存在。

“电路”的这种定义适用于该术语在本申请中的所有用途，包括在任何权利要求中。作为另一示例，如在本申请中使用的，术语“电路”还将覆盖仅处理器(或多个处理器)或处理器的一部分及其(或它们的)伴随的软件和/或固件的实现。术语“电路”还将覆盖(例如并且如果适用于特定的权利要求元素)用于移动电话的基带集成电路或应用处理器集成电路、或者服务器、蜂窝网络设备或其他网络设备中的类似集成电路。

图2示意性地示出了示例电子设备21。电子设备21包括如上所述的包括处理电路5和存储器电路7的装置1。相应的附图标记用于相应的特征。除了装置1之外，图2的示例电子设备21还包括接口23。应当理解，电子设备21可以包括图2中未示出的其他特征，诸如一个或多个麦克风、图像捕获设备或任何其他合适的特征。

接口23可以包括可以使得电子设备21能够与一个或多个其他电子设备接收或交换信息的任何部件。在图2的示例中，接口23被布置为使得电子设备21能够从多个不同的麦克风25、27接收音频信号41、43。在一些示例中，接口23可以被布置为使得电子设备21能够与其他类型的设备接收、提供或交换信息，该其他类型的设备诸如是图像捕获设备、音频混音台或任何其他合适的电子设备等。

在一些示例中，接口23可以包括电线或其他物理连接。在这样的示例中，电线或物理连接可以在麦克风25、27与电子设备21之间延伸。

在其他示例中，接口23可以包括用于支持无线通信的部件。例如，接口23可以包括可以支持电子设备21与麦克风25、27之间的无线通信连接的一个或多个收发器。无线通信连接可以是短程无线通信连接或任何其他合适类型的无线通信连接。

在图2的示例中，在电子设备21的外部提供有多个麦克风25、27。在图2的示例中，提供有两个麦克风25、27。应当理解，在本公开的示例中可以使用一个、两个或更多个麦克风25、27。

例如，可以存在提供空间音频信号的至少一个额外麦克风、空间音频捕获麦克风。额外的空间音频捕获麦克风可以是例如麦克风的线性阵列。随后使用空间音频处理将来自麦克风25和27的音频信号41、43与附加的空间音频捕获麦克风的空间音频信号混音。

麦克风25、27可以包括可以被配置为将音频输入24、25转换为电输出信号(音频信号41、43)的任何装置。麦克风25、27可以经由接口23耦合到装置1以使得装置1能够处理由麦克风25、27提供的音频信号41、43。

麦克风25、27可以在空间上彼此分离以使得由不同麦克风25、27提供的音频信号41、43存在时间延迟。这是麦克风间(通道间)时间延迟。

装置1可以被配置为确定各个音频信号41、43之间的通道间时间延迟，并且当对由麦克风25、27提供的音频信号41、43执行诸如空间音频混音等处理时，使用该通道间时间延迟。

每个麦克风25、27可以捕获不同的音频输入24、26。每个麦克风25、27可以捕获不同的声源。由麦克风25、27提供的音频信号41、43可以表示所记录的不同的声音对象。可以使用空间音频处理来处理音频信号41、43，以产生渲染的声音对象。所渲染的声音对象可以与所记录的声音对象相对应。然而，空间音频处理可以改变所渲染的声音对象的特性和/或相对于收听者来渲染所渲染的声音对象的位置。空间音频处理可以例如选择性地在音频信号之间引入相对延迟，选择性地在音频信号之间引入相对增益，针对音频信号选择性地引入具有可变增益的混响。

在一些但不一定是所有示例中，麦克风25、27中的一个或两个可以是固定麦克风。

在一些但不一定是所有示例中，麦克风25、27中的一个或两个可以是可移动麦克风，诸如悬臂式麦克风或诸如拉瓦利尔麦克风等近距离佩戴式麦克风。

在图2的示例中，麦克风25、27位于电子设备21外部。麦克风25、27位于电子设备21的壳体之外。在其他示例中，一个或多个麦克风可以位于电子设备21的壳体内。这样的麦克风可以位于电子设备21的壳体内，并且可以被布置为向装置1提供音频信号41、43以使得装置1能够处理音频信号41、43。

在图2的示例中，麦克风25、27被布置为直接向电子设备21提供音频信号41、43。在一些示例中，在麦克风25、27与电子设备21之间可以存在其他中间设备。例如，在麦克风25、27与电子设备21之间可以提供诸如音频混音台49等处理设备。音频混音台49可以被布置为执行由麦克风25、27提供的音频信号41、43的预处理。

图3A示出了方法30。该方法可以使用如上所述的装置1和电子设备21来实现。方法30包括：获取31依赖于第一麦克风25处的音频输入24的第一干净信号S₁和第一经处理信号S₄；获取33依赖于第二麦克风27处的音频输入26的第二干净信号S₂和第二经处理信号S₃；使用干净信号S₁、S₂来支持至少第一经处理信号S₃和第二经处理信号S₄的进一步处理。

图3B示出了图3A的方法30的示例，并且类似的附图标记用于类似的特征。该方法可以使用如上所述的装置1和电子设备21来实现。在该示例中，方法30包括：获取32音频信号，该音频信号包括依赖于不同麦克风25、27处的音频输入24、26的干净信号S₁、S₂和经处理信号S₃、S₄；将音频信号S₁、S₂、S₃、S₄分组36成组G₁、G₂，每组包括依赖于相同麦克风25、27处的音频输入24、26的音频信号。

组G_n是成对的，每对G_n包括依赖于相同麦克风M_n处的音频输入的干净信号S_n1和经处理信号S_n2。例如，组G₁包括依赖于第一麦克风25处的音频输入24的干净信号S₁₁(第一干净信号S₁)和经处理信号S₁₂(第一经处理信号S₄)。例如，组G₂包括依赖于第二麦克风27处的音频输入26的干净信号S₂₁(第二干净信号S₂)和经处理信号S₂₂(第二经处理信号S₃)。

在执行了组间区分并且生成与每个麦克风M_n相关联的组G_n之后，方法30然后执行组内区分并且将组G_n内的音频信号区分为干净信号S_n1和经处理信号S_n2。

图3B示出了图3A的方法30的示例，并且类似的附图标记用于类似的特征。该方法可以使用如上所述的装置1和电子设备21来实现。

在该示例中，方法30包括在框31处获取依赖于第一麦克风25处的音频输入24的第一干净信号S₁和第一经处理信号S₄，并且在框33处，该方法包括获取依赖于第二麦克风27处的音频输入26的第二干净信号S₂和第二经处理信号S₃。

该方法还包括在框35处使用干净信号S₁、S₂来获取定时信息；以及在框37处使用定时信息来支持至少第一经处理信号S₄和第二经处理信号S₃的进一步处理。

该方法可以例如在框35处包括使用第一干净信号和第二干净信号来获取由麦克风25、27提供的音频信号41、43之间的时间偏移61作为定时信息，并且在框37处包括使用时间偏移61来支持至少第一经处理信号S₄和第二经处理信号S₃的进一步处理。

第一干净信号可以用于获取第一干净信号与第一经处理信号之间的第一通道内时间偏移作为定时信息或定时信息的一部分。第二干净信号可以用于获取第二干净信号与第二经处理信号之间的第二通道内时间偏移作为定时信息或定时信息的一部分。

第一干净信号和第二干净信号可以用于获取第一干净信号与第二干净信号之间的通道间时间偏移作为提供第一经处理信号与第二经处理信号之间的时间偏移的定时信息。

图4示出了可以使用如上所述的装置1和电子设备21来实现的方法30的另一示例。

在图4的示例中，第一麦克风25被布置为捕获第一音频输入24并且产生第一音频信号41，并且第二麦克风27被布置为捕获第二音频输入26并且产生第二音频信号43。

在图4的示例中，第一麦克风25被布置为从第一声源45捕获第一音频信号41，并且第二麦克风27被布置为从第二声源47捕获第二音频信号43。在图4的示例中，第一声源45是歌手，并且第二声源47是吉他。各个麦克风25、27可以靠近相应的声源45、47定位以确保麦克风25、27捕获来自各个声源45、47的声音。

第一麦克风25可以被提供为静态麦克风或可移动麦克风。第二麦克风27可以被提供为静态麦克风或可移动麦克风。

音频信号41、43被提供给音频混音台49。音频混音台49被布置为将音频信号41、43转换成干净信号和经处理信号。

在本公开的一些但不一定是所有示例中，干净信号可以包括来自麦克风的未经处理的原始信号。在这样的示例中，音频混音台49可以被布置为使得不对干净信号执行处理。

在其他示例中，可以对音频信号41、43执行一些处理以获取干净信号。所执行的处理可能不涉及任何非线性处理(这将影响时间偏移的确定)。例如，干净信号的产生可以不包括来自麦克风的原始信号的处理，或者仅包括来自麦克风的原始信号的线性处理。线性处理的示例是调节音频信号41、43的增益。

音频混音台49还可以被布置为处理音频信号41、43以获取经处理信号。可以执行任何合适的处理以提供经处理信号。然而，这样的处理与用于产生干净信号的处理(如果有的话)不同。例如，可以通过用于产生经处理信号的处理来修改每个音频信号的特性，该特性不会被用于产生干净信号的处理(如果有的话)修改。因此，经处理信号可以包括至少一个特性，该特性是用于产生经处理信号的处理的伪影(artefact)并且可以用于区分干净信号和经处理信号。经处理信号的产生可以包括来自麦克风的原始信号的非线性处理。在一些示例中，处理可以包括添加混响、音调校正、应用诸如动态范围压缩等压缩、非线性滤波或任何其他合适的处理。所执行的处理可以依赖于所捕获的声源的类型、所使用的麦克风的类型、输出信号的预期用途和/或任何其他合适的因素。

在图4的示例中，N个(在该示例中，N＝2)音频信号41、43被提供给音频混音台49，并且作为响应，音频混音台49提供M个(在该示例中，M＝2N＝4)输出信号。输出信号包括干净的歌唱信号S₁、经处理的歌唱信号S₄、干净的吉他信号S₂和经处理的吉他信号S₃。应当理解，在使用更多声源和/或麦克风(N>2)的情况下，音频混音台49将提供多于四个输出信号。

输出信号S₁、S₂、S₃和S₄被提供给装置11。在一些示例中，装置11可以设置在音频混音台49内。在其他示例中，装置11可以设置在单独的电子设备21内。

一旦通过装置11获取了输出信号S₁、S₂、S₃和S₄，装置11就被布置为将所获取的信号S₁、S₂、S₃和S₄分组51成源自相同麦克风M_n的音频信号的组G_n。组间区分将音频信号区分为每个与一个通道/麦克风M_n相关联的组G_n，每组G_n可以包括X_n个音频信号。

在该示例中，组G_n是成对的，每对G_n包括依赖于相同通道/麦克风M_n处的音频输入的干净信号S_n1和经处理信号S_n2。

例如，第一组G₁包括依赖于第一麦克风25处的音频输入24的第一干净信号S₁₁(第一歌手干净信号S₁)和第一经处理信号S₁₂(第一歌手经处理信号S₄)。

例如，第二组G₂包括依赖于第二麦克风27处的音频输入24的第二干净信号S₂₁(第一吉他干净信号S₂)和第二经处理信号S₂₂(第二吉他经处理信号S₃)。

因此，在图4的示例中，源自歌手45和第一麦克风25的信号S₁，S₄被布置为第一组G₁，并且源自吉他43和第二麦克风27的信号S₂，S₃被布置为第二组G₂。应当理解，在使用更多麦克风23、25和/或声源45、47的示例中，将存在更多信号组G_n。

信号的分组确保了信号S₁、S₂、S₃和S₄被正确地匹配以进行进一步处理。

装置11可以被布置为在没有来自用户的任何输入的情况下完全自动地执行分组，或者响应于用户输入而半自动地执行分组。

可以使用任何合适的过程将所获取的信号S₁、S₂、S₃和S₄分组到它们各自的组中。图5示出了可以用于组间区分的方法的示例，并且稍后将描述该方法的细节。

装置11还被布置为将信号尚未区分组G_n内的音频信号区分57为干净信号S_n1和经处理信号S_n2以产生信号区分组G_n'。可以使用任何合适的过程来标识57信号组G_n内的干净信号S_n1和经处理信号S_n2。图6示出了可以在本公开的一些示例中用于组内区分的过程的示例，并且稍后将描述该方法的细节。

在图4的示例中，标识出S₁和S₂是干净信号，并且S₃和S₄是经处理信号。

在该示例中，干净信号S₁₁、S₂₁用于获取时间偏移61。

可以将干净信号S_n1提供给装置11内的时间对准模块59以使得能够获取时间偏移61。时间偏移61可以在来自时间对准模块59的输出信号内提供。

时间偏移确定可以通过将信号S₁₁、S₂₁与来自放置在期望收听点处的空间音频捕获麦克风的信号SS进行比较来进行。因此，可能存在时间偏移T_n，一个T₁用于S₁₁，另一T₂用于S₂₁，时间偏移T_n指示相应信号(通道)与空间音频捕获麦克风的信号(通道)相比的时间偏移。

可以使用任何合适的过程来获取与干净信号S_n1的时间偏移61。该过程可以包括基于音频的互相关或任何其他合适的过程。

在图4的示例中，仅干净信号S_n1用于获取时间偏移。

经处理信号S_n2被提供给装置11内的音频渲染模块63以支持进一步处理。信号组G_n之间的时间偏移61也被提供给音频渲染模块63。时间偏移61可以使得经处理信号S_n2能够与公共时间帧同步，这允许歌唱信号S₄和经处理的吉他信号S₃同步。

进一步处理可以包括混音，例如经处理信号S_n2的空间的；音频混音或任何其他合适的组合。在图4的示例中，混音可以包括使用加权相对延迟来对经处理的吉他信号S₃和时移后的经处理的歌唱信号S₄进行加权求和。该处理还可以包括将该第一求和的结果与来自空间音频捕获麦克风的至少一个信号求和。

在一些示例中，进一步处理可以包括空间音频处理，空间音频处理生成一个或多个空间音频信号。在图4的示例中，空间音频混音可以包括使用加权相对延迟来对经处理的吉他信号S₃和经处理的歌唱信号S₄进行加权求和，其中具有或不具有经处理的吉他信号S₃和经处理的歌唱信号S₄的使用加权相对延迟的混响版本。该处理还可以包括将该第一求和的结果与来自空间音频捕获麦克风的至少一个信号相加。例如，如果输出是扬声器或双耳格式，则可以布置处理以使得声源45、47被映射到特定位置，例如麦克风25、27的位置和/或具有特定特性。

一旦已经执行了进一步处理，就可以将包括经进一步处理的音频信号的输出信号65提供给音频接口67，以使得能够渲染经进一步处理的信号。

在图4的示例中，为简单起见，仅示出了两个麦克风25、27和两个声源45、47。应当理解，在本公开的其他示例中可以使用任何数目的麦克风25、27和/或声源45、47。

在图4的示例中，麦克风25、27可以被布置为捕获音频输入，例如，由多个不同声源45、47生成的音乐。音乐可以由乐队或管弦乐队或任何其他布置生成。应当理解，本公开的示例可以用于其他示例中。

例如，在一些示例中，可以在图像捕获设备中提供一个或多个麦克风25、27。图像捕获设备可以是存在捕获设备或任何其他合适类型的图像捕获设备。存在捕获设备可以被布置为获取全景图像或任何其他合适类型的图像。存在捕获设备还可以与可以被布置为捕获附加音频信号的其他外部麦克风相关联。在一些示例中，外部麦克风可以被定位为使得外部麦克风比存在捕获设备更靠近声源。本公开的示例可以使得由外部麦克风提供的音频信号能够与由图像捕获设备内的麦克风和/或任何其他外部麦克风提供的音频信号同步。在一些实例中，本公开的示例可以使得音频信号能够与由存在设备捕获的图像同步。

图5示出了用于组间区分的方法的示例，该方法将音频信号区分为组G_n，每组G_n与一个通道/麦克风M_n相关联。

分组包括对最相似的音频信号进行分组。可以通过比较音频信号的互相关来确定相似性。

可以通过例如比较音频信号随时间的低频时间变化以及通过比较音频信号随时间的高频变化来在不同时间时序(epoch)上确定相似性。

例如，可以通过比较音频信号随时间的低频幅度变化(波形变化)来确定相似性。

例如，可以通过比较音频信号随时间的频谱变化来确定相似性，例如，通过比较音频信号随时间的基频变化。

在图5的示例中，使用一种方法对所获取的信号S₁、S₂、S₃和S₄进行分组。示例方法可以使用可以如上所述的装置1和电子设备21来实现。分组使得来自每个麦克风25、27的干净信号和经处理信号能够被分组成对。分组可以包括标识信号对之间的相似性并且将最相似的信号分组在一起。

在框71处，接收多个干净信号和经处理信号。干净信号和经处理信号可以依赖于多个麦克风25、27处的音频输入。在一些示例中，可以为系统内的每个麦克风25、27提供干净信号和经处理信号。在由装置11获取多个信号之前，可以通过音频混音台49或任何其他合适的设备来执行处理。

在框73处，为音频信号的短连续部分(帧)计算基频F₀。基频可以是例如主要频谱分量或音调。每帧的持续时间可以是例如40ms。可以针对每个帧时间序列针对多个输入信号中的每个计算基频F₀以产生每个音频输入信号的“轨迹”。对于音频输入信号，轨迹记录其基频F₀如何随时间变化。每帧的基频F₀可以使用任何合适的方法来计算。在一些示例中，基频F₀可以使用YIN算法或任何其他合适的过程来计算，例如，互相关、快速傅立叶变换、基于倒谱的方法。

在框75处，针对在框73处计算的每对基频轨迹来计算互相关。

在框77处，针对多个输入信号的每对音频波形来计算互相关。音频波形是限制输入音频信号的幅度包络。

在框79处，对在框75和77处计算的互相关系数求和，并且在框81处，使用求和的互相关系数来将信号分组成来自相同通道/麦克风的信号组G_n。

互相关r_fg可以定义为：

其中f和g是待被互相关的信号，并且[]是索引。索引可以是框77处的时间索引，其中针对音频波形来计算互相关。在框75处，索引可以是帧索引，其中针对基频F₀来计算互相关。

在框79处获取的最大相关系数可以被定义为：

r_fg＝max(f★g)[n]

图5的示例方法可以用在图4的示例中，其中由两个麦克风25、27捕获的两个声源45、47提供经处理信号和干净信号。在这样的示例中，在框71处接收总共四个信号S₁、S₂、S₃和S₄。图5的示例方法可以用于计算最大相关系数r₁₂、r₁₃、r₁₄、r₂₃、r₂₄、r₃₄，其中索引指代四个输入信号S₁、S₂、S₃和S₄中的每个输入信号。

然后，使用最大相关系数r₁₂、r₁₃、r₁₄、r₂₃、r₂₄、r₃₄来标识最相似的信号以将信号分类成组。

最大相关系数r₁₂、r₁₃、r₁₄、r₂₃、r₂₄、r₃₄可以用于音频波形的互相关(框77)、基频轨迹的互相关(框73)或音频波形的互相关和基频轨迹的互相关的总和(框79)。

可以通过按照幅度降序对所计算的最大相关系数r₁₂、r₁₃、r₁₄、r₂₃、r₂₄、r₃₄进行分类来标识最相似的信号。可以将信号对标识为与最大的最大相关系数相对应的对。

例如，在图4的示例中，最大的最大相关系数可以是r₁₄。这表示信号S₁和S₄来自同一麦克风/通道，并且因此，在框81处，信号S₁和S₄被分组成一对以作为组G₁。一旦信号S₁和S₄被分组，可以排除与信号S₁或信号S₄相关的任何最大相关系数，因为这些信号已经被布置成组。一旦移除了这些值，就可以标识下一最大的最大相关系数，以获取被分组成一对的作为组G₂的下一对信号。在图4的示例中，下一最大的最大相关系数将是r₂₃，其指示信号S₂和S₃来自同一麦克风/通道并且可以被分组成一对以作为组G₂。

在上述示例中，r₂₃将是在可以排除与信号S₁或信号S₄相关的任何最大相关系数之后的唯一剩余的最大相关系数。然而，应当理解的是，图4和5的方法可以用于具有多于两个麦克风25、27的其他示例中，并且因此该方法的各个框可能需要重复多次以使得能够将所接收的所有信号分组成对。

在本公开的一些示例中，可以计算最大相关值之间的时间滞后以用于确定时间偏移61。最大相关滞后可以定义为：

τ_fg＝arg_nmax(f★g)[n]

在上述示例中，所接收的输入音频信号仅包括干净信号和经处理信号对。在一些示例中，所接收的输入音频信号可以包括一个或多个干净信号而没有相应的经处理信号和/或包括一个或多个经处理信号而没有相应的干净信号(单个信号，没有相应的对)。在这样的示例中，分组过程可以被布置为使得这种单个信号不会被错误地配对。例如，未区分的信号分组G_n可能只是推定分组，直到它成为经区分的分组G_n′，此时，因为它正确地包括所标识的一对干净信号和经处理信号，所以它成为最终分组。如果对未区分的信号分组G_n的处理指示它不包括一对干净信号和经处理信号，则该分组可以被标记为禁止分组，然后用于产生未区分的分组G_n的初始分组可以使用不允许禁止分组的约束来完全或部分地重新进行。以这种方式，即使在存在单个信号的情况下，该过程也将正确地配对信号。

可以使用创建未区分的组G_n所需要的最大相关值的阈值，使得仅在信号的最大互相关值高于阈值的情况下将信号分组成未区分的组G_n。

图6示出了可以用于标识信号的每个未区分组G_n内的干净信号和经处理信号以形成经区分的信号组G_n′的示例方法。

区分干净信号和经处理信号可以包括分析至少一个音频信号特性，该特性通过用于产生经处理信号的处理进行修改并且没有通过用于产生干净信号的处理(如果有的话)进行修改。

作为示例，分析可以包括分析至少一个音频信号特性以标识用于产生经处理信号的非线性处理的伪影。例如，可以通过分析音频信号之间的相对压缩来标识这种伪影。例如，可以通过分析音频信号之间的相对延迟(由处理引起)来标识这种伪影。

在图6的示例中，使用一种方法来区分每个信号组G_n内的干净信号和经处理信号。示例方法可以在图4的示例方法的框57处执行。

在框91处，接收信号组G_n。在图4的示例中，接收两个信号组G₁、G₂。应当理解，在本公开的其他示例中可以接收更多信号组。

在图6的示例中，还在框91处接收时间偏移。可以从最大相关滞后获取时间偏移。

在框93处，确定组G_n内的每个信号的时间延迟。可以使用任何合适的方法来确定时间延迟。在一些示例中，可以根据最大互相关值的位置来确定时间延迟。

在框95处，确定组内的每个信号中的压缩的存在。可以使用任何合适的手段来确定压缩的存在。在一些示例中，压缩的存在可以通过计算输入的逐帧均方根能量，并且然后计算0.7四分位数与0.3四分位数的比率来确定。将具有较大比率的输入信号确定为已经被施加了压缩。

在框97处，确定每组G_n内的哪一信号是干净信号S_n1，哪一信号是经处理信号S_n2。表现出延迟并且被施加有压缩的信号可以被确定为经处理信号S_n2。没有延迟并且没有被施加压缩的信号可以被确定为干净信号S_n1。

本公开的示例提供了一种获取时间偏移的方法，该时间偏移可以用于进一步处理音频信号。这确保了正确的时间对准可以被用于多个不同的音频信号。

在本公开的示例中，自动获取时间偏移，而不需要来自用户的直接输入。对信号的分组以及对干净信号和经处理信号的标识可以在不需要来自用户的任何特定输入的情况下执行。

术语“包括”在本文件中以包含性而非排他性含义来使用。即，对包括Y的X的任何引用表示X可以仅包括一个Y或者可以包括多于一个Y。如果打算以排他性含义来使用“包括”，则在上下文中将通过参考“仅包括一个......”或者通过使用“由......组成”来清楚地说明。

在该简要描述中，已经参考了各种示例。与示例相关的特征或功能的描述指示那些特征或功能出现在该示例中。在文本中对术语“示例”或“例如”或“可以”的使用表示(无论是否明确阐述)那些特征或功能至少出现在所描述的示例(无论是否作为示例描述)中，并且它们可以但不一定出现在某些或所有其他示例中。因此，“示例”、“例如”或“可以”指代一类示例中的特定实例。实例的属性可以是仅该实例的属性，也可以是该类的属性，也可以是包括该类中的一些但不是所有实例的该类的子类的属性。因此，隐含地公开了，参考一个示例而不是参考另一示例描述的特征在可能的情况下可以在该另一示例中使用，但不一定必须在该另一示例中使用。

尽管已经参考各种示例在前面的段落中描述了本公开的示例，但是应当理解，在不脱离所要求保护的本发明的范围的情况下，可以对给出的示例进行修改。

在前面的描述中描述的特征可以以除了明确描述的组合之外的组合来使用。

尽管已经参考某些特征描述了功能，但是这些功能可以通过其他特征(无论是否被描述)来执行。

尽管已经参考某些实施例描述了特征，但是这些特征也可以存在于其他实施例(无论是否被描述)中。

虽然在前述说明书中努力引起对被认为特别重要的本发明的那些特征的注意，但是应当理解，申请人要求保护关于上文中提及和/或在附图中示出的任何可专利特征或特征的组合，而无论是否对其进行特别强调。

Claims

1.一种用于处理音频信号的方法，包括：

从混音器获取第一音频信号，所述第一音频信号包括依赖于第一麦克风处的音频输入的第一干净信号和第一经处理信号；

从混音器获取第二音频信号，所述第二音频信号包括依赖于第二麦克风处的音频输入的第二干净信号和第二经处理信号；

将所述第一音频信号和所述第二音频信号分组成至少两组，第一组包括依赖于所述第一麦克风处的音频输入的信号，并且第二组包括依赖于所述第二麦克风处的音频输入的音频信号；

区分所述至少两组中的干净信号和经处理信号；

使用所述第一干净信号和所述第二干净信号来获取由所述第一麦克风和所述第二麦克风捕获的音频信号之间的时间偏移；以及

使用所述时间偏移来支持对至少所述第一经处理信号和所述第二经处理信号的进一步处理，

其中，区分干净信号和经处理信号包括：分析每个音频信号的至少一个特性，所述至少一个特性是用于产生经处理信号的处理的伪影。

2.根据权利要求1所述的方法，其中所述组是成对的，每对包括均依赖于相同麦克风处的音频输入的干净信号和经处理信号。

3.根据权利要求1所述的方法，其中所述分组包括将最相似的音频信号分组，其中相似性基于以下中的至少一项而被确定：

比较音频信号的互相关；

通过不同时间时序上；和

比较音频信号随时间的低频幅度变化和音频信号随时间的基频变化。

4.根据权利要求1所述的方法，其中区分干净信号和经处理信号还包括以下中的至少一项：

分析每个音频信号的这样的至少一个特性，其中所述这样的至少一个特性通过用于产生经处理信号的处理而被修改，并且在存在用于产生干净信号的处理的情况下，所述这样的至少一个特性没有通过所述用于产生干净信号的处理而被修改；和

分析针对每个音频信号的压缩。

5.根据权利要求1所述的方法，还包括以下中的至少一项：

使用所述第一干净信号来获取所述第一干净信号与所述第一经处理信号之间的第一通道内时间偏移；

使用所述第二干净信号来获取所述第二干净信号与所述第二经处理信号之间的第二通道内时间偏移来作为定时信息；和

使用所述第一干净信号和所述第二干净信号来获取所述第一经处理信号与所述第二经处理信号之间的通道间时间偏移来作为定时信息。

6.根据权利要求1所述的方法，还包括使用互相关来确定所述时间偏移。

7.根据权利要求1所述的方法，其中所述第一干净信号是来自所述第一麦克风的未经处理的原始信号，并且其中所述第二干净信号是未经处理的原始信号。

8.根据权利要求所述1的方法，还包括以下中的至少一项：

经处理信号的产生包括对来自所述第一麦克风和所述第二麦克风中的一个麦克风的原始信号进行非线性处理；

干净信号的产生不包括对来自所述第一麦克风和所述第二麦克风中的一个麦克风的所述原始信号进行非线性处理；以及

干净信号的产生包括如下至少一项：不对来自所述第一麦克风和所述第二麦克风中的一个麦克风的原始信号进行处理或者对来自麦克风的原始信号进行线性处理。

9.根据权利要求1所述的方法，其中至少所述第一经处理信号和所述第二经处理信号的进一步处理包括：

对至少所述第一经处理信号和所述第二经处理信号进行混音。

10.根据权利要求9所述的方法，其中至少所述第一经处理信号和所述第二经处理信号的进一步处理包括：

对至少所述第一经处理信号和所述第二经处理信号进行空间音频混音。

11.根据权利要求1至10中任一项所述的方法，其中所述第一麦克风被提供为静态麦克风，并且其中所述第二麦克风被提供为可移动麦克风。

12.一种用于处理音频信号的装置，包括：

处理电路；以及

包括计算机程序代码的存储器电路，所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使所述装置能够引起根据权利要求1至11中任一项所述的方法的执行。

13.一种音频处理设备，包括根据权利要求12所述的装置。

14.一种用于处理音频信号的方法，包括：

获取依赖于第一麦克风处的音频输入的第一干净信号和第一经处理信号；

获取依赖于第二麦克风处的音频输入的第二干净信号和第二经处理信号；

使用所述时间偏移来支持至少所述第一经处理信号和所述第二经处理信号的进一步处理，

其中，经处理信号包括至少一个特性，所述至少一个特性是用于产生经处理信号的处理的伪影并且被用于区分干净信号和经处理信号。

15.根据权利要求14所述的方法，还包括：

获取所述音频信号，所述音频信号包括依赖于不同麦克风处的音频输入的干净信号和经处理信号；以及

将所述音频信号分组成组，每组包括依赖于相同麦克风处的音频输入的音频信号。

16.一种用于处理音频信号的方法，包括：

使用所述第一干净信号和所述第二干净信号来支持至少所述第一经处理信号和所述第二经处理信号的进一步处理，

其中，经处理信号包括至少一个特性，所述至少一个特性是用于产生所述经处理信号的处理的伪影并且被用于区分干净信号和经处理信号。

17.根据权利要求16所述的方法，包括：

获取音频信号，所述音频信号包括依赖于不同麦克风处的音频输入的干净信号和经处理信号，以及

18.根据权利要求17所述的方法，包括区分音频信号的所述组中的干净信号和经处理信号。

19.根据权利要求16至18中任一项所述的方法，还包括以下中的至少一项：

使用所述第一干净信号和所述第二干净信号来获取定时信息；或

使用所述定时信息来支持至少所述第一经处理信号和所述第二经处理信号的进一步处理。

20.根据权利要求19所述的方法，包括使用所述第一干净信号和所述第二干净信号来获取来自所述第一麦克风的音频信号和来自所述第二麦克风的音频信号之间的时间偏移，以作为所述定时信息。