CN104025699A

CN104025699A - 适应性音频捕获

Info

Publication number: CN104025699A
Application number: CN201280017109.5A
Authority: CN
Inventors: 蒋斌; 吴晟; 林福辉; 徐晶明
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2014-09-03
Anticipated expiration: 2032-12-31
Also published as: US9692379B2; EP2797080A3; CN104025699B; WO2014101156A1; EP2797080B1; EP2797080A2; US20150341006A1

Abstract

本发明的实施例涉及适应性音频捕获。公开了一种用于适应性音频捕获的方法，该方法包括通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号；通过对获取的音频信号进行处理来计算音频通道的信号幅值；以及基于信号幅值和与用户终端上的至少一个其他音频捕获元件关联的至少一个其他音频通道的其他信号幅值来确定音频捕获元件的功能。还公开了相应的装置、计算机程序产品和用户终端。

Description

适应性音频捕获

技术领域

本发明的实施例总体上涉及音频处理，并且更具体地，涉及一种用于适应性音频捕获的方法、装置、计算机程序和用户终端。

背景技术

移动电话、平板式计算机或个人数字助理(PDA)之类的用户终端可具有多个音频捕获元件，诸如多个麦克风。这种配置在过去几年已变得流行起来。例如，可购得的智能移动电话通常配备有两个或多个麦克风。一般而言，在单个用户终端上的多个音频捕获元件中，某些音频捕获元件被设计为充当主音频捕获元件，并且用于例如捕获前景音频信号；而另一些音频捕获元件可以充当参考音频捕获元件或称辅音频捕获元件，并且用于例如捕获背景音频信号。例如，位于移动电话下半部的麦克风通常被假设能够捕获来自说话人的高质量的语音信号。因此，该麦克风通常被用作主音频捕获元件，以捕获用户在话音呼叫中的语音信号。另一位置的麦克风可以充当可用于捕获背景噪声的辅音频捕获元件，以用于环境噪声估计、噪声抑制，等等。

本领域的技术人员将会理解，用户终端相对于音频信号源的空间位置和周围环境将影响音频捕获效果。例如，在某些情况下，原始设计的主音频捕获元件可能被遮挡或者处于用户终端相对于音频信号源的背面，从而造成原始设计的主音频捕获元件无法捕获高质量的音频信号。然而，在现有技术中，辅音频捕获元件或参考音频捕获元件在这种情况下无法被激活以充当主音频捕获元件，即便该元件现位于较优或最优位置。换言之，用户终端上的音频捕获元件的功能在设计和制造时就已被固定，并且无法在使用中适应性地改变或切换。因此，音频捕获的质量将会降低。

鉴于前述内容，本领域需要一种能够适应各种使用条件的音频捕获解决方案。

发明内容

为了解决前述和其他潜在问题，本发明的实施例提出一种用于适应性音频捕获的方法、装置、计算机程序和用户终端。

在一个方面，本发明的实施例提供一种用于适应性音频捕获的方法。该方法包括：通过与用户终端上的音频捕获元件关联的音频通道获取音频信号；通过对获取的音频信号进行处理来计算音频通道的信号幅值；并且基于信号幅值和与用户终端上的至少一个其他音频捕获元件关联的至少一个其他音频通道的其他信号幅值，确定音频捕获元件的功能。本方面的其他实施例包括相应的计算机程序产品。

在另一方面，本发明的实施例提供一种用于适应性音频捕获的装置。该装置包括：获取单元，被配置为通过与用户终端上的音频捕获元件关联的音频通道获取音频信号；计算单元，被配置为通过对获取的音频信号进行处理来计算音频通道的信号幅值；以及确定单元，被配置为基于信号幅值和与用户终端上的至少一个其他音频捕获元件关联的至少一个其他音频通道的其他信号幅值，确定音频捕获元件的功能。

在又一方面，本发明的实施例提供一种用户终端。该用户终端包括至少一个处理器；多个音频捕获元件；以及至少一个存储器，与至少一个处理器耦合并且存储计算机可执行指令的程序，计算机可执行指令被配置为与至少一个处理器一起使移动终端至少根据上文概述的方法执行。

本发明的这些和其他可选实施例可以被实施以实现以下一个或多个优点。对于配备有多个音频捕获元件的用户终端，通过实时地对音频信号进行处理和分析，单个用户终端上的多个音频捕获元件的功能可以动态地被确定并且改变。例如，根据用户终端相对于音频信号源的相对位置和/或用户终端本身的姿态等各种因素，最优音频捕获元件可以被适应性地确定为主元件，而一个或多个其他音频捕获元件可以相应地充当参考音频捕获元件。以此方式，捕获的音频信号的质量可以在各种使用条件下被维持在高水平。

在结合附图阅读时，还将从以下对示例性实施例的描述中理解本发明的实施例的其他特征和益处。附图以示例方式说明了本发明的精神和原理。

附图说明

本发明的一个或多个实施例的细节将在附图和以下描述中得到阐述。本发明的其他特征、方面和益处将从说明书、附图和权利要求中变得明显，其中：

图1是示出了根据本发明的示例性实施例的一种用于适应性音频捕获的方法的流程图；

图2是示出了根据本发明的另一示例性实施例的一种用于适应性音频捕获的方法的流程图；

图3A和图3B是示出了根据本发明的示例性实施例的适应性音频捕获的示例的示意图；

图4是示出了根据本发明的示例性实施例的一种用于适应性音频捕获的装置的框图；

图5是示出了根据本发明的示例性实施例的用户终端的框图。

所有附图中，相同或相似的参考标号指示相同或相似的元素。

具体实施方式

总体上，本发明的实施例提供一种用于适应性音频捕获的方法、装置和计算机程序产品。根据本发明的实施例，对于配备有多个音频捕获元件的用户终端，通过实时地对音频信号进行处理和分析，单个用户终端上的多个音频捕获元件的功能可以动态地被确定和改变。由此，捕获的音频信号的质量可以在各种使用条件下被维持在较高水平。

首先参考图1，其示出了图示根据本发明的示例性实施例的一种用于适应性音频捕获的方法100的流程图。如图所示，方法100开始后，在步骤S101，通过与用户终端上的音频捕获元件相关联的音频通道来获取音频信号。根据本发明的实施例，用户终端配备有多个音频捕获元件。此处所使用的术语“音频捕获元件”是指可以被配置为捕获、记录或以其他方式获取音频信号的任何适当设备，诸如麦克风。每个音频捕获元件与一个音频通道相关联，音频捕获元件所捕获的音频信号可以通过音频通道被传递至例如用户终端的处理器或控制器。

方法100继而进行到步骤S103，在此通过对获取的音频信号进行处理来计算音频通道的信号幅值(amplitude)。根据本发明的实施例，音频通道的信号幅值可以包括指示该通道上的音频信号的量值(magnitude)的任何信息。在一些示例性实施例中，在步骤S103处计算的信号幅值可以包括时域中的信号量值，其例如可以表示为音频信号的均方根值。备选地或附加地，获取的音频信号在频域中的幅值，如频谱幅值和/或功率谱，也可以用作信号幅值。将会理解，这些仅仅是信号幅值的一些示例，不应被解释为对本发明的限制。任何能够指示音频通道的信号幅值的信息都可以与本发明的实施例结合使用，无论是目前已知的还是将来开发的。具体示例将在下文参考图2详述。

此外，在话音呼叫等某些情况中，音频信号源(例如，说话人)相对于用户终端上的音频捕获元件的位置通常将至少将在一段特定时间内保持稳定。因此，在一些示例性实施例中，在步骤S103计算的信号幅值可以包括在给定的时间间隔中累计的信号幅值的平均。在这些实施例中，平均信号幅值例如可以用于确定音频捕获元件在下一时间间隔中的功能。下面将参考图2对这一方面的具体示例进行详细说明。

接下来，在步骤S104，基于信号幅值以及针对与用户终端上的至少一个其他音频捕获元件相关联的至少一个其他音频通道的另一信号幅值，确定音频捕获元件的功能。如上所述，除了步骤S101和S103考虑的音频通道之外，用户终端还配备有一个或多个其他音频捕获元件，每个音频捕获元件与相应的音频通道相关联。这些音频通道中一个或多个的信号幅值可以按照与上文描述的类似方式被计算。根据本发明的实施例，其他音频通道的信号幅值可以通过方法100或通过与该该音频通道相关联或者专用于该音频通道的类似过程而计算。

音频捕获元件的功能可以基于相关联的音频通道的信号幅值以及同一用户终端上的一个或多个其他音频通道的其他信号幅值而被确定。一般而言，如果一个音频通道具有较高的信号幅值，则相关联的音频捕获元件可被用作主元件，并且例如被配置为捕获前景音频信号(例如，用户在话音呼叫中的语声信号)。反之，如果一个音频通道具有较低信号幅值，则相关联的音频捕获元件可被用作辅音频捕获元件或参考音频捕获元件，并且例如被配置为捕获背景音频信号以用于噪声估计目的。

方法100在步骤S104之后结束。通过使用方法100，多个音频捕获元件的功能可以实时地根据具体情况而被适应性地确定。例如，假定移动电话具有两个麦克风，其中之一是用于捕获用户的语声信号的主麦克风，而另一个是用于捕获背景噪声的辅麦克风。如果原始的主麦克风被物体遮挡并且相关联的音频通道上的信号量值因此降低到低于与原辅麦克风相关联的音频通道的信号量值，那么这两个麦克风的功能可以相应地交换。即，原始的辅元件现在变为充当主音频捕获元件，而原始的主音频捕获元件可以变成充当辅音频捕获元件或是被直接停用。

现在将参考图2对一个更为具体的示例进行描述。图2示出了图示根据本发明的另一示例性实施例的一种用于适应性音频捕获的方法200。

方法200开始之后，在步骤S201，通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号。假定用户终端包括多个麦克风作为音频捕获元件，音频信号可以从与一个麦克风相关联的音频通道被获取。步骤S201对应于上文参考图1描述的步骤S101，在此不再详述。

接下来，方法200进行到步骤S202，在此执行话音活动检测(Voice Activity Detection，VAD)，以确定用户终端的一个或多个音频通道上是否存在话音活动。如果不存在话音活动，方法200返回步骤S201。换言之，根据图2中示出的实施例，后续步骤只有在话音活动存在的情况下才会被执行。这主要是出于节能考虑。也即，如果用户终端的音频通道上不存在话音活动，则无需计算信号幅值以及确定或改变音频捕获元件的功能。以此方式，用户终端可以更有效地进行操作。

根据本发明的实施例，可以利用各种策略来实现话音活动检测。在一些示例性实施例中，话音活动检测可以仅在单个音频通道上执行。例如，话音活动检测可以在与用户终端上的当前主音频捕获元件相关联的音频通道上执行。备选地，音频活动检测可以在不止一个音频通道上执行。仅出于说明目的，下面将描述在多个音频通道上执行话音活动检测的实施例。

在这些实施例中，假定话音活动检测将在话音通道的一个子集(表示为L_sub)上被执行，该子集可以包括用户终端上的某些或所有话音通道。可以对集合中每个话音通道中的话音活动状态进行检测。一般地，话音活动可以基于音频信号的某个特征而被检测，特征例如包括但不限于：短时能量、过零率、倒谱特征、Itakura LPC谱距离和/或元音的周期性测量。一个或多个这种特征可从音频信号中被提取，继而与预定阈值进行比较以确定当前帧是话音帧还是噪声帧。任何适当的话音活动检测算法或过程都可以结合本发明的实施例使用。

如果第j个音频通道上存在话音活动，那么对于信号帧n，与第j个音频通道相关联的话音活动状态可以被设置为VAD_j(n)＝1，以指示当前帧是语音帧。否则，与第j个通道相关联的话音活动状态被标志为VAD_j(n)＝0，以指示当前帧是噪声帧。当前用户终端的全部话音活动状态可以被计算为集合L_sub中的每个话音通道的VAD(n)的和，其可以如下表达：

\overset{&OverBar;}{VAD (n)} = \{\begin{matrix} 1, & Σ_{j = 1}^{L_{sub}} {VAD}_{j} (n) &GreaterEqual; 1 \\ 0, & Σ_{j = 1}^{L_{sub}} {VAD}_{j} (n) = 0 \end{matrix}

将会理解，话音活动检测是可选的。可以计算并且相互比较不同音频通道的信号幅值，以确定相关联的音频捕获元件的功能(这将在下文的步骤S203和S204处描述)，而无需在音频通道上检测话音活动。

返回图2，方法200继而进行到步骤S203，在此通过对获取的音频信号进行处理而计算音频通道的信号幅值。如上文参考图1的步骤S103所描述的，根据本发明的实施例，音频通道的信号幅值可以包括任何指示该通道上的音频信号的量值的信息，包括但不限于所获取音频信号的频谱幅值、功率谱或任何其他信息(时域中的或频域中的)。在图2中示出的实施例中，仅仅出于说明目的，功率谱将被描述为信号幅值。

为了计算所获取的语音信号的功率谱，在一些示例性实施例中，对所获取的音频信号进行逐帧处理。加窗(windowing)操作可被应用于音频信号的每个帧，并且经过加窗的信号进行离散傅里叶变换以得到帧的频谱，其可以表示为X_j(n，k)，其中n是帧的序号，k表示离散傅立叶变换之后的频点的序号。在一些示例性实施例中，X_j(n，k)可以如下计算：

X_{j} (n, k) = Σ_{m = - \infty}^{+ \infty} x_{j} (m) w (nR - m) e^{- i 2 πkm / N}

其中R表示信号的更新样本的数目，N表示离散傅里叶变换点的数目，并且w(m)表示加窗函数。根据本发明的实施例，加窗函数可以是适于音频信号处理的任何加窗函数，诸如汉明窗、汉宁窗、矩形窗等。帧长度可以在10-40ms的范围内，例如20ms。

在一些示例性实施例中，一个帧和其前一帧之间可以存在重叠，并且重叠量可以根据具体情况进行选择。另外，离散傅里叶变换可以通过快速傅立叶变换(Fast Fourier Transform，FFT)来实现。FFT可以直接地应用于经过加窗的音频信号。备选地，可以执行补零(zero padding)操作，以提高频率分辨率和/或满足FFT的长度是2的指数倍这一条件。例如，对N个点应用FFT变换将会得到这N个点的频谱值。

在一些示例性实施例中，采样率F_s可以是16kHz，可以选择汉明窗，帧长度可以是20ms，帧间重叠可以是50％。在这些实施例中，每帧信号共有320个采样点，并且更新样本的数目R＝160。通过在音频信号末尾补零，可以得到共512个采样点。这样，N-点FFT处理(N＝512)可得到512个频点。基于音频信号的帧的频谱和前一帧的功率谱，当前帧的功率谱值可以如下估计：

P_{X_{j} X_{j}} (n, k) = α_{j} \cdot P_{X_{j} X_{j}} (n - 1, k) + (1 - α_{j}) \cdot {| X_{j} (n, k) |}^{2}

其中n表示当前帧的序号，j表示所考虑的音频通道的序号，表示用户终端的音频通道的自功率谱，α_j表示该音频通道的平滑因子，其可以被设置在0到1的范围内，并且|·|表示取模(mod)操作。

将会理解，上文描述只是计算功率谱以作为音频通道的信号幅值的一个示例性实施例。任何其他适当的过程或算法都可以与本发明的实施例结合使用以计算音频信号的功率谱，无论当前已知或将来被开发。此外，如上所述，可以使用其他信息来指示音频通道的信号幅值。

此外，用户终端可以具有主音频捕获元件，并且与该主音频捕获元件相关联的音频通道可以称为主音频通道(例如，表示为j_m)。在这些实施例中，在步骤S203，针对任何给定的用户终端的音频通道，可以计算该音频通道相对于主音频通道的信号幅值并且可选地对其进行归一化。这种相对信号幅值指示了主通道j_m和其他音频通道之间的幅值差异，并且可被用作分析准则。仍考虑上文中功率谱被用作信号幅值的示例性实施例，通道j与主通道j_m的归一化相对信号幅值计算如下：

λ_{j} (n, k) = \frac{P_{X_{j} X_{j}} (n, k) - P_{X_{j_{m}} X_{j_{m}}} (n, k)}{P_{X_{j} X_{j}} (n, k) + P_{X_{j_{m}} X_{j_{m}} (n, k)}}, j = 1, . . ., L

其中-1≤λ_j(n，k)≤1。可以看出，当远小于时，λ_j(n，k)≈-1；当远大于时，λ_j(n，k)≈1；并且当j＝j_m时，λ_j(n，k)≈0。可以对不同音频通道的相对信号幅值进行比较，以做出步骤S204的决策，这将在下文中详细说明。

附加地或备选地，在步骤S203，可以计算音频通道在时间间隔内的平均信号幅值。可以理解，音频源相对于用户终端及其音频捕获元件的空间位置在短时间段内可能不会改变。因此，可以通过检测和分析某个时间间隔内的通道状况，来提高后续步骤的决策精度。仅仅出于说明目的，在执行话音活动检测并且相对功率谱值被计算为信号幅值的示例性实施例中，可以如下计算音频通道j的平均信号幅值：

\overset{&OverBar;}{λ_{j} (t)} = \underset{n &Element; T_{VAD}}{Σ} Σ_{k = k_{1}}^{k_{2}} λ_{j} (n, k)

其中T表示时间间隔的长度，其可以具有1～10s的范围，并且在一些示例性实施例中通常为2s，n∈T_VAD表示在当前时间间隔T内具有话音活动的每个帧，并且k₁和k₂分别为频带的上限阈值和下限阈值。频带可以是语音能量主要集中的一个频带。例如，如果采样率F_S＝16kHz并且FFT点的数目N＝512，那么频带可以是200～3500Hz。相应地，并且

将会理解，无论单独考虑或结合考虑，上文的示例性实施例都不应该被解释为对本发明的限制。任何能够指示音频通道的信号幅值的信息及其任意组合都可以在步骤S203被计算。

接下来，方法200进行到步骤S204，在此可以基于当前音频通道的信号幅值和用户终端上的一个或多个其他音频通道的其他信号幅值，来确定音频捕获元件的功能。一般而言，音频捕获元件的功能基于它们在特定情况下的音频捕获能力而被确定。当前情况下具有较高能力的音频捕获元件将在音频捕获中起主要作用。

例如，在计算一个或多个音频通道在时间间隔T内的平均相对功率谱值时，这些值可以降序排列其中{a₁，a₂，…，a_L}是通过重新排序{1，2，…j，…，L}得到的。继而，与排最高位的M音频通道(其在当前情况下被期望具有较高的捕获能力)相关联的音频捕获元件可以被归类到主音频捕获元件组中，以用于在下一时间间隔中捕获前景音频信号(例如，来自说话人的语音信号)。反之，与排在较低位的音频通道相关联的那些音频捕获元件可以被归类到辅语音采集元件组中，以用于在下一时间间隔中捕获背景音频信号(例如，背景噪声)。以此方式，用户终端上的音频捕获元件的功能可以根据当前情况而适应性地、动态地被设置。

将会理解，步骤S204的决策并非必须基于平均信号幅值。在一些备选的实施例中，可以基于音频通道的瞬时状态来确定功能。例如，对信号幅值的计算(步骤S203)可以周期性地执行，并且可以对不同音频通道在执行计算的时刻的瞬时信号幅值进行比较，以确定语音捕获元件的功能。

现在考虑双麦克风移动电话的具体示例。在这一示例中，移动电话包括电话正面下方的第一麦克风和背面上方的第二麦克风作为音频捕获元件。第一麦克风和第二麦克风分别具有相关联的第一音频通道和第二音频通道。在平均相对功率谱值被计算为信号幅值的实施例中，采样率可以被设置为16kHz，并且采样点的数目是16比特。音频信号在大型开放性办公室被捕获，周围具有背景噪声。说话人首先面对移动电话的正面说话，然后面对移动电话的背面说话。捕获的时域信号在图3A中示出，其中X轴表示时间，Y轴坐标表示信号幅值。图3A中，第一麦克风和第二麦克风的信号幅值分别由图示301和302示出。

在一些示例性实施例中，汉明窗用作加窗函数，帧长度是20ms，帧间重叠为50％，对音频信号的每帧末尾执行补零，并且执行N＝512个点的FFT。另外，功率谱的平滑因子α_j＝0.8，频率阈值为k₁＝6并且k₂＝112，并且时间间隔长度T选择为2秒。图3B示出了经处理的结果。如图示303所示，当说话人面对移动电话的正面(在图3A中的时刻T₁之前)时，第一音频通道的信号幅值高于第二音频通道的信号幅值。因此，相关联的第一麦克风(麦克风-1)将充当主麦克风。当说话人面对移动电话的背面(在图3B的时刻T₁之后)时，由于第一麦克风和第二音频通道的信号幅值的改变，所以第二麦克风(麦克风-2)将变为主麦克风，而第一麦克风将转而充当辅麦克风。

参考图4，示出了图示根据本发明的示例性实施例的一种用于适应性音频捕获的装置400。根据本发明的实施例，装置400可以被配置为执行如上所述的方法100和/或200.

如图所示，装置400包括获取单元401，该获取单元401被配置为通过与用户终端上的音频捕获元件关联的音频通道获取音频信号。装置400还包括计算单元402，该计算单元402被配置为通过对获取的音频信号进行处理来计算音频通道的信号幅值。此外，装置400包括确定单元403，该确定单元403被配置为基于信号幅值和与用户终端上的至少一个其他音频捕获元件关联的至少一个其他音频通道的其他信号幅值来确定音频捕获元件的功能。

在一些示例性实施例中，装置400还可以包括：话音活动检测单元，被配置为检测用户终端的一个或多个音频通道上是否存在话音活动，其中确定单元被配置为在一个或多个音频通道上存在音频活动的情况下确定音频捕获元件的功能。

在一些示例性实施例中，计算单元402可以包括以下至少一个：时域幅值计算单元，被配置为计算获取的音频信号的时域幅值；以及频域幅值计算单元，被配置为计算获取的音频信号的频域幅值。

在一些示例性实施例中，计算单元402可以包括平均幅值计算单元，该平均幅值计算单元被配置为计算音频通道在时间间隔内的平均信号幅值。在这些实施例中，其他信号幅值可以包括至少一个其他音频通道在时间间隔内的其他平均信号幅值，并且确定单元403可以包括平均幅值比较单元，该平均幅值比较单元被配置为比较平均信号幅值和其他平均信号幅值。

在一些示例性实施例中，用户终端具有主音频通道。在这些实施例中，计算单元402可以包括相对幅值计算单元，该相对幅值计算单元被配置为计算音频通道关于主音频通道的相对幅值，并且其他信号幅值包括至少一个其他音频通道关于主音频通道的其他相对幅值。确定单元403可以包括相对幅值比较单元，该相对幅值比较单元被配置为比较相对幅值和其他相对幅值。

在一些示例性实施例中，确定单元403可以包括归类单元，该归类单元被配置为将音频捕获元件归类到用于捕获前景音频信号的主音频捕获元件组或用于捕获背景音频信号的辅音频捕获元件组。

将会理解，装置400中的各个单元对应于上述方法100和/或200的步骤。因此，可选单元未在图4中示出，并且相应特征未在此处详细说明。

图5是图示了根据本发明的示例性实施例的用户终端的框图。在一些实施例中，用户终端500可以体现为移动电话。然而，应该理解，移动电话仅仅是能从本发明的实施例获益的一个说明性的类型的装置，并且因此不应该用于限制本发明的实施例的范围。

用户终端500包括与发射器514和接收器516可操作地通信的天线512。用户终端500还包括至少一个处理器或控制器520。例如，控制器520可以由数字信号处理器、微处理器、各种模拟数字转换器、数字模拟转换器、以及其他支持电路组成。用户终端500的控制和信息处理功能根据它们各自的能力被分配在这些设备之间。

用户终端500还包括用户接口，该用户接口包括输出设备，诸如振铃器522、耳机或扬声器524、作为音频捕获元件的多个麦克风526和显示器528，以及用户输入设备，诸如小键盘530、操纵杆或其他用户输入接口，其全部都耦合至控制器520。用户终端500还包括电池534，诸如震动电池组，用于向操作用户终端500所需的各个电路供电，以及可选择地提供机械震动作为可检测的输出。

在一些实施例中，用户终端500包括媒体捕获元件，诸如摄相机、视频和/或音频模块，与控制器520通信。媒体捕获元件可以是用于捕获图像、视频和/或音频以供存储、显示或传输的任何装置。例如，在媒体捕获元件是相机模块536的示例性实施例中，摄相机模块536可以包括能够从捕获的图像中形成数字图像文件的数字摄相机。

当体现为移动终端时，用户终端500还可以包括通用识别模块(UIM)538。UIM538通常是具有内置的处理器的存储设备。UIM538可以例如包括订户识别模块(SIM)、通用集成电路卡(UICC)、通用订户识别模块(USIM)、可移动式用户识别模块(R-UIM)等。UIM538通常存储与订户有关的信息元素。

用户终端500可以配备有至少一个存储器。例如，用户终端500可以包括易失性存储器540，诸如包括用于数据的临时存储的高速缓存区域的随机存取存储器(RAM)。用户终端500还可以包括其他非易失性存储器542，其可以被嵌入并且/或者可以是可移动的。非易失性存储器542可以附加地或备选地包括EEPROM、闪存等等。存储器可以存储任意数量的信息、程序和数据，供用户终端500用于实现用户终端500的功能。例如，存储器可以存储计算机可执行代码的程序，其可以被配置为，与控制器520一起，使用户终端500至少执行如上所述的方法100和/或200的步骤。

为说明本发明的精神和原理目的，以上已对其某些具体实施例进行了描述。针对配备有多个音频捕获元件的用户终端，通过实时地处理并分析音频信号，可以动态地确定并改变单个用户终端上的多个音频捕获元件的功能。例如，根据各种因素，如用户终端关于音频信号源的相对位置和/或用户终端本身的姿势，最优音频捕获元件可以适应性地被确定为主元件，而一个或多个其他音频捕获元件可以相应地充当参考音频捕获元件。以此方式，捕获的音频信号的质量可以在各种使用条件下被维持在高水平。

总之，各个示例性实施例可以实现在硬件或专用电路、软件、逻辑或其任意组合中。一些方面可以实现在硬件中，而其他方面可以实现在固件或软件中，该固件或软件可以被控制器、微处理器或其他计算设备执行。尽管本发明的示例性实施例的各个方面被图示并描述为框图、流程图、或使用一些其他的图形表示，但是将领会此处描述的方框、装置、系统、技术或方法可以实现在(作为非限制性的示例)硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其组合中。

例如，以上描述的装置400可以实现为硬件、软件/固件、或其任意组合。在一些示例性实施例中，装置400中的一个或多个单元可以被实现为软件模块。备选地或附加地，一些或全部的单元可以使用硬件模块实现，硬件模块如集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等等。本发明的范围关于此点不受限制。附加地，图1至图2中示出的各个方框可以被视为方法步骤、和/或从计算机程序代码的操作中得到的操作、和/或被构造成执行关联的功能的多个耦合的逻辑电路元件。例如，方法100和/或200可以由被包含在有形地体现在机器可读介质上的计算机程序中的计算机程序代码实现。

在本说明书的上下文中，机器可读存储介质可以是能够包含、或存储程序以供或结合指令执行系统、装置、或设备使用的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读存储介质可以包括但不限于电、磁、光、电磁、红外、或半导体系统、装置、或设备、或任意前述合适的组合。机器可读存储介质更具体的示例可以包括具有一个或多个电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或任意前述合适的组合。

用于执行本发明的方法的计算机程序代码可以以一种或多种编程语言的任意组合编写。这些计算机程序代码可以被提供给通用计算机、专用计算机、或其他可编程数据处理装置的处理器，使得程序代码在被计算机或其他可编程数据处理装置的处理器执行时，使流程图和/或框图中规定的功能/操作被实现。程序代码可以完整地在计算机上、部分地在计算机上、作为独立的软件包、部分地在计算机上并且部分地在远程计算机上或完整地在远程计算机或服务器上执行。

进一步，尽管操作以特定的顺序被描述，但是这不应该被理解为要求此类操作以示出的特定顺序或者以顺序次序执行，或者所有图示的操作得到执行，以实现期望的结果。在某些情况下，多任务和并行处理可以是有利的。同样，尽管上述讨论中包含若干具体实现细节，但是这些不应该被解释为对任何发明的或所要求保护的范围的限制，而是对可以特定于特定发明的特定实施例的特征的描述。本说明书中的单独的实施例的上下文中描述的某些特征还可以结合实现在单个实施例中。相反地，在单个实施例的上下文中描述的各个特征还可以分别或以任何合适的子组合实现在多个实施例中。

鉴于前述说明，当结合附图阅读时，对本发明的前述示例性实施例的各种修改、改编可以对相关领域的技术人员变得明显。任意和所有修改将仍落入本发明的非限制性及示例性实施例的范围内。此外，本发明的这些实施例对本领域的技术人员具有呈现在前述说明书和附图中的教导益处，本领域的技术人员能够想到此处阐述的本发明的其他实施例。

因此，将领会本发明的实施例不限于公开的具体实施例，并且修改和其他实施例旨在被包括在所附权利要求的范围内。尽管此处使用了特定术语，但是它们仅在通用和描述意义上使用并且不用于限制目的。

Claims

1.一种用于适应性音频捕获的方法，所述方法包括：

通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号；

通过对获取的所述音频信号进行处理，来计算所述音频通道的信号幅值；以及

基于所述信号幅值以及与所述用户终端上的至少一个其他音频捕获元件相关联的至少一个其他音频通道的其他信号幅值，来确定所述音频捕获元件的功能。

2.根据权利要求1所述的方法，还包括：

检测所述用户终端的一个或多个音频通道上是否存在话音活动，

其中所述音频捕获元件的所述功能在所述一个或多个音频通道上存在所述话音活动的情况下被确定。

3.根据权利要求1所述的方法，

其中计算所述信号幅值包括计算获取的所述音频信号的时域幅值或频域幅值。

4.根据权利要求1所述的方法，

其中计算所述信号幅值包括计算所述音频通道在一个时间间隔内的平均信号幅值，

其中所述其他信号幅值包括所述至少一个其他音频通道在所述时间间隔内的其他平均信号幅值，以及

其中确定所述音频捕获元件的所述功能包括比较所述平均信号幅值和所述其他平均信号幅值。

5.根据权利要求1所述的方法，其中所述用户终端具有主音频通道，

其中计算所述信号幅值包括计算所述音频通道相对于所述主音频通道的相对幅值；

其中所述其他信号幅值包括所述至少一个其他音频通道相对于所述主音频通道的其他相对幅值，以及

其中确定所述音频捕获元件的所述功能包括比较所述相对幅值和所述其他相对幅值。

6.根据权利要求1-5中的任一项所述的方法，其中确定所述音频捕获元件的所述功能包括：

将所述音频捕获元件归类为用于捕获前景音频信号的主音频捕获元件组或者用于捕获背景音频信号的辅音频捕获元件组。

7.一种用于适应性音频捕获的装置，所述装置包括：

获取单元，被配置为通过与用户终端上的音频捕获元件相关联的音频通道获取音频信号；

计算单元，被配置为通过对获取的所述音频信号进行处理，来计算所述音频通道的信号幅值；以及

确定单元，被配置为基于所述信号幅值和与所述用户终端上的至少一个其他音频捕获元件相关联的至少一个其他音频通道的其他信号幅值，来确定所述音频捕获元件的功能。

8.根据权利要求7所述的装置，还包括：

话音活动检测单元，被配置为检测所述用户终端的一个或多个话音通道上是否存在话音活动，

其中所述确定单元被配置为在所述一个或多个音频通道上存在所述话音活动的情况下，确定所述音频捕获元件的所述功能。

9.根据权利要求7所述的装置，其中所述计算单元包括以下至少一个：

时域幅值计算单元，被配置为计算获取的所述音频信号的时域幅值；以及

频域幅值计算单元，被配置为计算获取的所述音频信号的频域幅值。

10.根据权利要求7所述的装置，

其中所述计算单元包括平均幅值计算单元，被配置为计算所述音频通道在一个时间间隔内的平均信号幅值，

其中所述确定单元包括平均幅值比较单元，被配置为比较所述平均幅值和所述其他平均幅值。

11.根据权利要求7所述的装置，

其中所述用户终端具有主音频通道，

其中所述计算单元包括相对幅值计算单元，被配置为计算所述音频通道相对于所述主音频通道的相对幅值，

其中所述确定单元包括相对幅值比较单元，被配置为比较所述相对幅值和所述其他相对幅值。

12.根据权利要求7-11中的任一项所述的装置，其中所述确定单元包括：

归类单元，被配置为将所述音频捕获元件归类为用于捕获前景音频信号的主音频捕获元件组或者用于捕获背景音频信号的辅音频捕获元件组。

13.一种计算机程序产品包括有形地体现在计算机可读介质上的计算机程序代码，所述计算机程序代码包含被配置为执行根据权利要求1-6中的任一项所述的方法的程序代码。

14.一种用户终端，包括：

至少一个处理器；

多个音频捕获元件；以及

至少一个存储器，耦合至所述至少一个处理器并且存储计算机可执行指令的程序，所述计算机可执行指令被配置为与所述至少一个处理器一起使所述移动终端至少根据权利要求1-6中的任一项所述的方法执行。