CN102498514A

CN102498514A - 用于音频信号分类的方法和装置

Info

Publication number: CN102498514A
Application number: CN2009801614830A
Authority: CN
Inventors: J·V·T·劳哈拉
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2009-08-04
Filing date: 2009-08-04
Publication date: 2012-06-13
Anticipated expiration: 2029-08-04
Also published as: US9215538B2; US20130103398A1; WO2011015237A1; CN102498514B; DE112009005215T5; DE112009005215T8

Abstract

一种装置，其包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一同使得该装置至少执行：确定音频信号的信号识别值；确定所述音频信号的至少一个噪声水平值；将所述信号识别值与信号识别阈值比较，并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较；以及取决于所述比较来识别所述音频信号。

Description

用于音频信号分类的方法和装置

技术领域

本发明涉及用于音频信号分类的装置。本发明进一步涉及但不限于用于移动设备的装置。

背景技术

在许多应用中，存在对识别和分类音频信号的强烈兴趣。一个这样的分类是自动识别音频信号何时是话音音频信号、音乐音频信号、或静默。尽管人类耳朵可以例如通过聆听短片段数秒而容易地在话音和音乐音频信号之间进行区分，但已发现自动识别或区分是技术上困难的问题。

在无线通信系统装置中，对音频信号是音乐还是话音的这样的识别尤其有益。无线通信系统中的装置内的音频信号处理可以取决于信号是话音、音乐还是静默而对信号实施不同的编码和解码算法。所使用的算法的类型可以更优化地处理所考虑的音频信号的特性，从而优化地处理音频信号以使得不丢失话音音频信号中的可懂度、不显著劣化音乐音频信号的保真度、并且不在通信静默时使用显著的网络资源。

先前已经多次处理了话音和音乐音频信号的自动音频信号分类。这些方法经常需要使用诸如神经网之类的模式识别装置的复杂的分析来尝试对信号是话音还是音乐进行分类。然而，这样的高处理强度方法不适合于通信设备、尤其是其中处理能力带来功率消耗和成本损失的便携式设备。

例如，在用户设备处在蜂窝无线通信中从基站接收的下行链路编码音频信号的自动分类将不适合于诸如神经网处理之类的高处理强度技术。此外，在这样的环境中，存在要克服的三个具体障碍。

首先，音频信号通常使用自适应多速率(AMR)压缩方案来编码和解码。使用诸如算术码激发线性预测(ACELP)之类的技术的AMR编码选择编解码器模式以满足本地无线电信道能力要求。AMR编码的该编解码器的选择显著影响音频信号。

其次，如上所述的识别器或分类器需要尽可能高效以使得它可以在用户设备中实施而不需要显著的处理或功率要求并且影响用户设备的通信能力。

第三，识别器或分类器应当生成低概率的音乐的误报识别。换言之，算法将话音识别为音乐的概率必须非常低。因为用户设备的角色是提供话音通信，所以音频信号实际是话音的情况下的音乐的误报将导致话音音频信号的劣化，因为音乐编解码器或音乐编解码器设置被选择为解码话音音频信号。

发明内容

本发明的至少一些实施例的目标在于解决这些问题中的一个或多介。

根据本发明，存在一种方法，其包括：确定音频信号的信号识别值；确定所述音频信号的至少一个噪声水平值；将所述信号识别值与信号识别阈值比较，并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较；以及取决于所述比较来识别所述音频信号。

识别所述音频信号可以包括：当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时，将所述音频信号识别为音乐音频信号。

识别所述音频信号可以进一步包括：当所述信号识别值等于或大于所述信号识别阈值，和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时，将所述音频信号识别为话音音频信号。

确定所述信号识别值可以包括：对所述音频信号采样值进行低通滤波；确定经低通滤波的音频信号值的至少两个均方根值；从所述均方根值中选择最大均方根值和最小均方根值；确定所述最大均方根值和所述最小均方根值的比率；以及对所述最大均方根值和所述最小均方根值的比率进行低通滤波。

该方法可以进一步包括：确定所述最小均方根值小于信号水平阈值；以及取决于确定所述最小均方根值小于信号水平阈值而丢弃所述最大均方根值和所述最小均方根值的所确定的比率。

确定所述音频信号的所述至少一个噪声水平值中的一个可以包括：对所述音频信号采样值进行高通滤波；确定经高通滤波的音频信号值的至少两个均方根值；从所述均方根值中选择最小均方根值；以及对来自所述均方根值的最小均方根值进行低通滤波以确定所述音频信号的所述至少一个噪声水平中的一个。

确定所述音频信号的所述至少一个噪声水平值中的第二个可以包括：对所述音频信号采样值进行高通滤波；确定经高通滤波的音频信号值的至少两个均方根值；从经所述高通滤波的音频信号值的均方根值中选择最小均方根值；对来自经所述高通滤波的音频信号值的均方根值的最小均方根值进行低通滤波；对所述音频信号采样值进行低通滤波；确定经所述低通滤波的音频信号值的至少两个均方根值；从经所述低通滤波的音频信号值的均方根值中选择最小均方根值；对来自经所述低通滤波的音频信号值的最小均方根值进行低通滤波；确定经所述低通滤波的来自经所述低通滤波和经高通滤波音频信号的最小均方根值的比率；以及将所述音频信号的所述至少一个噪声水平值中的第二个确定为经低通滤波的来自经所述低通滤波和经高通滤波的音频信号的最小均方根值的比率或经低通滤波的最小均方根值的先前的比率。

该方法可以进一步包括缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。

该方法可以进一步包括重置缓冲的值。

该方法可以进一步包括缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。

该方法可以进一步包括重置缓冲的值。

该方法可以进一步包括取决于所述识别而解码所述音频信号。

该方法可以进一步包括取决于所述识别而从音乐库中选择要播放的音乐。

该方法可以进一步包括取决于所述识别而实施话音到文本应用。

根据本发明的第二方面，提供了一种装置，其包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一同使得所述装置至少执行：确定音频信号的信号识别值；确定所述音频信号的至少一个噪声水平值；将所述信号识别值与信号识别阈值比较，并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较；以及取决于所述比较来识别所述音频信号。

识别所述音频信号可以使得所述装置至少执行：当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时，将所述音频信号识别为音乐音频信号。

识别所述音频信号可以进一步使得所述装置至少执行：当所述信号识别值等于或大于所述信号识别阈值，和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时，将所述音频信号识别为话音音频信号。

确定所述信号识别值可以使得所述装置至少执行：对所述音频信号采样值进行低通滤波；确定经低通滤波的音频信号值的至少两个均方根值；从所述均方根值中选择最大均方根值和最小均方根值；确定所述最大均方根值和所述最小均方根值的比率；以及对所述最大均方根值和所述最小均方根值的比率进行低通滤波。

所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行：确定所述最小均方根值小于信号水平阈值；以及取决于确定所述最小均方根值小于信号水平阈值而丢弃所述最大均方根值和所述最小均方根值的所确定的比率。

确定所述音频信号的所述至少一个噪声水平值中的一个可以使得所述装置至少执行：对所述音频信号采样值进行高通滤波；确定经高通滤波的音频信号值的至少两个均方根值；从所述均方根值中选择最小均方根值；以及对来自所述均方根值的最小均方根值进行低通滤波以确定所述音频信号的所述至少一个噪声水平中的一个。

确定所述音频信号的所述至少一个噪声水平值中的第二个可以使得该装置至少执行：对所述音频信号采样值进行高通滤波；确定经高通滤波的音频信号值的至少两个均方根值；从经所述高通滤波的音频信号值的均方根值中选择最小均方根值；对来自经所述高通滤波的音频信号值的均方根值的最小均方根值进行低通滤波；对所述音频信号采样值进行低通滤波；确定经所述低通滤波的音频信号值的至少两个均方根值；从经所述低通滤波的音频信号值的均方根值中选择最小均方根值；对来自经所述低通滤波的音频信号值的最小均方根值进行低通滤波；确定经所述低通滤波的来自经所述低通滤波和经高通滤波的音频信号的最小均方根值的比率；以及将所述音频信号的所述至少一个噪声水平值中的第二个确定为经所述低通滤波的来自经所述低通滤波和经高通滤波的音频信号的最小均方根值的比率或经低通滤波的最小均方根值的先前的比率。

所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行：缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。

所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行：重置缓冲的值。

所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行：缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。

所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行：取决于所述识别而解码所述音频信号。

所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行：取决于所述识别而从音乐库中选择要播放的音乐。

所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行：取决于所述识别而实施话音到文本应用。

根据本发明的第三方面，提供了一种装置，其包括：信号参数估计器，被配置为确定音频信号的信号识别值；噪声水平估计器，被配置为确定所述音频信号的至少一个噪声水平值；以及信号分类器，被配置为取决于将所述信号识别值与信号识别阈值比较以及将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较来识别所述音频信号。

所述信号分类器优选地被配置为：当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时，将所述音频信号识别为音乐音频信号。

所述信号分类器优选地进一步被配置为：当所述信号识别值等于或大于所述信号识别阈值和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时，将所述音频信号识别为话音音频信号。

所述信号参数估计器可以包括：低通滤波器，被配置为对所述音频信号采样值进行低通滤波；信号处理器，被配置为确定经低通滤波的音频信号值的至少两个均方根值；至少一个选择器，被配置为从所述均方根值中选择最大均方根值和最小均方根值；比率计算器，被配置为确定所述最大均方根值和所述最小均方根值的比率；以及进一步的低通滤波器，被配置为对所述最大均方根值和所述最小均方根值的比率进行低通滤波。

所述信号参数估计器可以进一步包括：开关，被配置为取决于确定所述最小均方根值小于信号水平阈值而丢弃所述最大均方根值和所述最小均方根值的所确定的比率。

所述噪声水平估计器可以包括：高通滤波器，被配置为对所述音频信号采样值进行高通滤波；信号处理器，被配置为确定经高通滤波的音频信号值的至少两个均方根值；选择器，被配置为从所述均方根值选择最小均方根值；以及低通滤波器，被配置为对来自所述均方根值的最小均方根值进行低通滤波以确定所述音频信号的所述至少一个噪声水平中的一个。

所述噪声水平估计器可以进一步包括：低通滤波器，被配置为对来自所述信号参数估计器至少一个选择器的最小均方根值进行低通滤波；比率估计器，被配置为确定经低通滤波的来自所述信号参数估计器至少一个选择器以及来自所述噪声水平估计器选择器的最小均方根值的比率；以及开关，被配置为作为所述至少一个噪声水平值中的第二个而输出由所述比率估计器所确定的比率或历史比率值。

所述开关优选地被配置为：当由所述比率确定器所确定的比率大于所述历史比率值并且所述音频信号的所述至少一个噪声水平值中的所述一个大于相关联的阈值时，在所述至少一个噪声水平值中的第二个输出由所述比率值所确定的比率。

所述噪声水平估计器可以进一步包括：缓冲器，被配置为接收所述开关的输出；以及增益，被配置为向所述缓冲器的输出应用增益以生成所述历史比率值。

所述信号参数估计器可以进一步包括至少一个缓冲器，被配置为缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。

该装置可以进一步包括缓冲控制器，其被配置为重置缓冲的值。

所述噪声水平估计器可以进一步包括至少一个缓冲器，其被配置为缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。

该装置可以进一步包括进一步的缓冲控制器，其被配置为重置所述噪声水平估计器缓冲器缓冲的值。

该装置可以进一步包括解码器，其被配置为取决于所述信号分类器而解码所述音频信号。

该装置可以进一步包括处理器，其被配置为取决于所述信号分类器而从音乐库中选择要播放的音乐。

该装置可以进一步包括处理器，其被配置为取决于所述信号分类器而实施话音到文本应用。

根据本发明的第四方面，提供了一种用指令编码的计算机可读介质，所述指令当被计算机执行时，执行：确定音频信号的信号识别值；确定所述音频信号的至少一个噪声水平值；将所述信号识别值与信号识别阈值比较，并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较；以及取决于所述比较来识别所述音频信号。

根据本发明的第五方面，提供了一种设备，其包括：用于确定音频信号的信号识别值的装置；用于确定所述音频信号的至少一个噪声水平值的装置；用于将所述信号识别值与信号识别阈值比较并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较的装置；以及用于取决于所述比较来识别所述音频信号的装置。

一种电子设备可以包括如上所述的装置。

一种芯片组可以包括如上所述的装置。

附图说明

为了更好地理解本发明，现在以示例的方式参考以下附图：

图1示意性地示出了采用本申请的一些实施例的电子设备；

图2示意性地示出了根据本申请的一些实施例的合适的装置；以及

图3示出了图2中所示的识别和噪声水平估计装置的操作的流程图。

具体实施方式

以下更详细地描述了用于提供识别或分类所接收的下行链路音频信号为包含话音还是音乐的合适的装置和可能的机制。就此而言，首先参考图1，其示出了示例性装置或电子设备10的示意框图，该示例性装置或电子设备10从经低通滤波的信号识别若干帧内的最大和最小均方根(RMS)值。在这样的装置中，为了改进噪声方面的鲁棒性，实施用于检测噪声导致识别不可能的情况的背景噪声估计器。这样描述的装置可以具有三个主要优点。首先，该装置可以将目标定在使话音优先从而产生低误报音乐检测。其次，可以操作该装置以考虑到噪声水平。第三，由于该方案和实施该方案所需的装置的相对的简单性和低复杂度，可以将该装置实施到用户设备中。

在一些实施例中，电子设备10可以是无线通信系统的移动终端或用户设备。

在一些实施例中，电子设备10包括麦克风11，该麦克风11经由模数转换器(ADC)14链接到处理器21。在一些实施例中，处理器21进一步经由数模(DAC)转换器32链接到扬声器33。在一些实施例中，处理器21进一步链接到收发器(TX/RX)13、链接到用户接口(UI)15、以及链接到存储器22。

在一些实施例中，处理器21可以被配置为执行多种程序代码。在一些实施例中，所实施的程序代码可以包括编码代码例程。在一些实施例中，所实施的程序代码23可以进一步包括音频解码代码。此外，在一些实施例中，所实施的程序代码可以包括分类代码例程。所实施的程序代码23例如可以存储在存储器22中以供处理器21在需要时获取。存储器22可以进一步提供部分24以供存储数据。

在一些实施例中，用户接口15可以使得用户能够例如经由键盘向电子设备10输入命令，和/或例如经由显示器从电子设备10获得信息。在一些实施例中，收发器13使得能够进行例如经由无线通信网络的与其他电子设备的通信。在一些实施例中，收发器13可以被配置为通过有线连接与其他电子设备通信。

再次将理解，电子设备10的结构可以以许多方式补充和改变。

在一些实施例中，电子设备10的用户可以使用麦克风11以输入要发送到一些其他电子设备、或要存储在存储器22的数据部分24中的话音或其他声音信号。在一些实施例中，可以由用户经由用户接口15为此激活对应的应用。可以由处理器21运行的该应用使得处理器21执行存储在存储器22中的编码代码。

在一些实施例中，模数转换器14可以将输入模拟音频信号转换为数字音频信号，并且向处理器21提供该数字音频信号。

在一些实施例中，收发器13可以接收比特流以供发送到另一电子设备。备选地，经编码数据可以存储在存储器22的数据部分24中，例如供随后的发送或供由相同的电子设备10进行的随后的展示。

在一些实施例中，处理器21也可以被配置为使用存储在存储器22中的分类代码，根据话音/音乐音频分类来分类或识别数字音频信号。

在一些实施例中，电子设备10还可以经由收发器13从诸如基站之类的另一电子设备接收具有对应经编码数据的比特流。在该情况下，在一些实施例中，处理器21可以执行存储在存储器22中的解码程序代码以解码所接收的数据，并且向本申请后面将更详细描述的话音/音乐音频分类过程提供经解码的数据。在一些实施例中，处理器可以在执行解码过程之前应用话音/音乐音频分类过程，其中解码过程至少部分取决于分类过程的结果来确定。

此外，在一些实施例中，处理器可以向数模转换器32提供经解码的数据。在一些实施例中，数模转换器32可以将数字的经解码的数据转换为模拟音频数据，并且向扬声器33输出模拟信号。解码程序代码的执行也可以由已经由用户经由用户接口15调用的应用触发。

在一些实施例中，扬声器33可以由头戴式耳机组件补充或替换，该头戴式耳机组件可以例如通过经由收发器13通信的蓝牙简档与电子设备10或装置无线地通信，或使用传统有线连接通信。

将理解，图2中所描述的示意性结构和图3中的方法步骤仅仅表示示例性地示出为实施在图1所示的电子设备中的用户设备的操作的一部分。

参考图2，示出了适合于执行本发明的一些实施例的操作的装置。该装置包括在一些实施例中被配置为接收音频信号并且产生信号识别值的识别器201、在一些实施例中被配置为还接收音频信号并且产生噪声水平的估计的噪声水平估计器203、以及在一些实施例中被配置为接收识别器201和噪声水平估计器203的输出并且确定就音频信号是音乐还是话音而言的音频信号的分类的话音/音乐检测器。

在一些实施例中，识别器201、噪声水平估计器203和话音/音乐检测器207表示位于相同或不同的芯片组中的、被配置为执行如下所述的过程的处理器。

备选地，处理器21被配置为执行全部过程，并且图2例示了根据本申请的一些实施例的音频信号的分析和分类。

在一些实施例中，识别器201可以包括第一低通滤波器(LPF1)211，其被配置为接收音频信号的采样。在图3中由步骤301示出了在识别器处接收信号采样的操作。

第一低通滤波器211可以取决于实施例利用合适的滚降频率和滚降梯度来配置，以通过去除音频信号的高频成分来改进识别器201的噪声容限。低通滤波器211的输出被传递到帧均方根(RMS)计算器213。在图3中由步骤303示出了向信号采样应用低通滤波的操作。

在一些实施例中，识别器201还包括帧均方根计算器213。帧均方根(RMS)计算器213接收经低通滤波音频信号采样并且对于帧计算均方根值。在一些实施例中，RMS计算器可以使用以下方程计算帧采样值的RMS值：

RMS = \sqrt{(\frac{1}{M} Σ_{i = 1}^{i = M} {x_{i}}^{2})}

其中M是帧的长度，并且x_i是帧内的第i个采样的经滤波的值。帧RMS计算器213向缓冲器215输出帧的均方根值。在图3中由步骤305示出了帧的RMS值的计算。

在一些实施例中，识别器201还包括缓冲器215。在一些实施例中，缓冲器215接收帧RMS值并且将其存储在缓冲器215存储器中。缓冲器215被配置为存储最后N帧RMS值。在一些实施例中，值N是10。在一些实施例中，N的值是预定义的。在一些实施例中，N的值可以改变。由于N的值确定用于确定音频信号是否是音乐的冲击时间(attack time)，所以就具有短检测延迟而言该值越小越好。从而相信可以利用小至2并且大至100的N的值来实施一些实施例，但在一些实施例中该值的范围优选为从5到20。在图3中由步骤307示出了N帧RMS值的缓冲。在一些实施例中，缓冲器215向最大RMS选择器217和最小RMS选择器219两者输出最后N帧的RMS值。

在一些实施例中，识别器201还包括最大RMS选择器217。在一些实施例中，最大RMS选择器217接收最后N帧的缓冲RMS值，并且从最后N帧中选择最大RMS值I_max。在一些实施例中，所选择的最大RMS值I_max可以被传递到比率计算器221。

在一些实施例中，识别器201还包括最小RMS选择器219。在一些实施例中，最小RMS选择器219还接收最后N帧的RMS值，并且从这最后N帧中选择最小RMS值I_min。在一些实施例中，这N帧的最小RMS值I_min还被传递到比率计算器221。

在图3中由步骤309示出了来自最后N帧RMS值的最大I_max和最小I_min RMS值。

在一些实施例中，识别器201还可以包括比率计算器221。在一些实施例中，比率计算器221从最后N帧RMS值接收最大RMS值和最小RMS值，并且计算最大RMS值与最小RMS值的比率。在一些实施例中，由比率计算器221计算的比率I_r可以继而被传递到识别器开关222。在图3中由步骤311示出了最大与最小值比率I_r的确定。

在一些实施例中，识别器201还包括识别器开关222，其被配置为接收由比率计算器221计算的比率I_r，并且还被配置为在比较输入端处接收最小RMS值I_min。在一些实施例中，识别器开关222可以被配置为当最小RMS值I_min大于开关阈值L_th时输出由比率计算器221计算的比率I_r。开关阈值L_th可以是预定的，以避免当最小RMS值低时输出比率值I_r，从而量化噪声将在最小RMS值中显著。

在图3中由步骤312示出了最小RMS值I_min是否大于开关阈值L_th的检测。当该检测确定I_min大于开关阈值L_th时，在图3中由步骤314示出了要输出的新比率值I_r的选择，而在图3中由步骤313示出了新比率值I_r的阻塞。

在一些实施例中，比率值I_r可以被输出到第二低通滤波器(LPF2)223。

在一些实施例中，识别器201还可以包括第二低通滤波器(LPF2)223。在一些实施例中，第二低通滤波器(LPF2)223接收最大比最小RMS比率值I_r，并且在该比率值上执行低通滤波以有效地平滑该比率值。在一些实施例中，它可以由一阶无限脉冲响应(IIR)滤波器来实施。第二低通滤波器223的输出可以被定义为信号识别器值y并且在一些实施例中被输出到话音/音乐检测器207。在图3中由步骤315示出了比率值的第二低通滤波。

如图3中由步骤301所示，噪声水平估计器203还接收信号采样。

噪声水平估计器203包括高通滤波器(HPF)230。高通滤波器(HPF)230可以通过任何合适的方法来实施，并且被配置为尝试过滤音频信号从而选择音频信号的高频噪声成分而同时阻断音频信号的语音和低频音乐成分。在一些实施例中，高通滤波器向噪声水平估计器203RMS计算器231输出经滤波的音频信号。在图3中由步骤320示出了音频信号的高通滤波。

噪声水平估计器203进一步包括RMS计算器231，其计算帧上的RMS值。在实施例中，可以与上面对于识别器201中所实施的经低通滤波的音频信号RMS计算器213所描述的方式类似的方式，来实施经高通滤波的音频信号的RMS值的计算。RMS计算器231向噪声水平估计器缓冲器233输出逐帧值上的RMS值。在图3中由步骤321示出了计算RMS值的操作。

在一些实施例中，噪声水平估计器203还可以包括噪声水平估计器缓冲器233，其接收帧噪声水平估计器RMS值并且将其存储在缓冲器233存储器中。缓冲器233被配置为存储最后N帧噪声水平估计器RMS值。如上所述，在一些实施例中，值N是10。在一些实施例中，N的值是预定义的。在一些实施例中，N的值可以在装置的操作期间改变。同样如上所述，可以利用小至2并且大至认为合适的N的值来实施一些实施例，因为N的值越大则检测延迟越长。在图3中由步骤323示出N帧噪声水平估计器RMS值的缓冲。在一些实施例中，缓冲器233向最小噪声水平估计器RMS值选择器235输出最后N帧的RMS值。

在一些实施例中，噪声估计器203还可以包括最小RMS选择器235。在一些实施例中，最小RMS选择器235从缓冲器233接收噪声水平估计器RMS值并且选择噪声水平估计器最小RMS值。最小RMS选择器235向第三低通滤波器(LPF3’)237输出最小RMS值。

在图3中由步骤325示出了选择噪声水平估计器最小RMS值rmin的操作。

在一些实施例中，噪声水平估计器203还可以包括第三低通滤波器(LPF3’)237。在这些实施例中，第三低通滤波器(LPF3’)237向噪声水平估计器最小RMS值应用低通滤波，并且向乘法器239输出经低通滤波的值r_h以确定最小RMS值比率。

在一些实施例中，噪声水平估计器203还可以包括进一步的第三低通滤波器(LPF3)209，其被配置为从识别器最小RMS选择器219接收最小RMS值I_min，并且在噪声水平估计器最小RMS值r_min上应用与第三低通滤波器(LPF3’)237中所采用的低通滤波相同的低通滤波。在一些实施例中，第三低通滤波器237和进一步的低通滤波器209这两者可以由一阶IIR滤波器来实施。进一步的第三低通滤波器(LPF3)209向反转器210输出经滤波的最小RMS值r_i。

在一些实施例中，噪声水平估计器203还可以包括反转器210，其反转经滤波的最小RMS值r_i。在一些实施例中，经反转的值被传递到乘法器239。

在一些实施例中，噪声水平估计器203还包括乘法器239，其接收经滤波的噪声水平估计器最小RMS值r_h和经滤波经反转的最小RMS值1/r_i这两者，以确定信号识别器和噪声水平估计器最小RMS值r_r之间的比率。在一些实施例中，“最小比率”值r_r继而可以被输出到第二开关241。在图3中由步骤327示出了“最小比率”值r_r的确定。

在一些实施例中，噪声水平估计器203还可以包括第二开关241。在一些实施例中，第二开关241内部地存储历史比率值r_z。在一些实施例中，第二开关241还可以内部地存储噪声阈值H_th。噪声阈值H_th是噪声水平阈值并且确定最小噪声水平阈值。

在一些实施例中，第二开关241被配置为接收由乘法器239计算的“最小比率”比率r_r，并且还被配置为接收经滤波的噪声水平估计器最小RMS值r_h。在一些实施例中，第二开关可以被配置为当经滤波的噪声水平估计器RMS值r_h大于噪声阈值H_th并且“最小比率”值r_r大于历史比率值r_z时输出“最小比率”r_r作为r的下一值。否则，在这些实施例中，第二开关241被配置为输出历史比率值r_z作为r的下一值。噪声阈值H_th可以是预定的，以避免当噪声水平估计最小RMS值低或其相对历史值r_z下降时输出比率值r_r。

在图3中由步骤328示出了经滤波的噪声水平估计器最小RMS值r_h是否大于噪声阈值H_th以及“最小比率”值r_r是否大于历史比率值r_z的检测。当该检测确定经滤波的噪声水平估计器最小RMS值r_h大于噪声阈值H_th并且“最小比率”值r_r大于历史比率值r_z时，在图3中由步骤329示出了要输出为r的新比率值r_r的选择，而在图3中由步骤334示出了输出历史比率值r_z作为下一值。

在一些实施例中，第二开关241可以向话音/音乐检测器207、并且还向延迟元件243输出噪声水平估计参数r的下一值。

在一些实施例中，噪声水平估计器203还可以包括延迟元件243。在这些实施例中，延迟元件243存储r的下一值，并且向滤波器增益元件245输出值r。

在一些实施例中，噪声水平估计器203还包括滤波器增益元件245，其被配置为接收值r，将其乘以增益因子g_t，并且将其输出作为要用于第二开关241中的新的历史比率值r_z。增益因子可以是任何合适的增益值。

在一些实施例中，话音/音乐检测器207接收信号识别器值y和噪声识别器值r(其可以是r_r或r_z的值)两者，并且来自这些值的经低通滤波的噪声水平估计最小RMS值r_h然后确定当前音频信号是话音还是音乐。在一些实施例中，话音/音乐检测器确定信号识别器值y是否小于阈值Y_th。此外，在一些实施例中，话音/音乐检测器207确定噪声识别器值r是否也小于阈值R_th、或经低通滤波的噪声水平估计最小RMS值r_h是否小于噪声阈值H_th。

如果话音/音乐检测器207确定条件为真，换言之信号和至少一个噪声值小于相关联的阈值，则在一些实施例中话音/音乐检测器207确定当前音频信号是音乐。如果信号或两个噪声值不小于其相关联的阈值，则在这些实施例中话音/音乐检测器207确定当前音频信号是话音。在一些实施例中，话音/音乐检测器207输出利用确定的结果进行编码的指示符。检查值r和r_h的第二确定或条件确定指示：如果话音/音乐检测器207在这些实施例中确定存在太多噪声以至于r_h和r值两者都高于阈值，则在信号中存在太多噪声从而无法进行可靠识别，并且检测器选择输出话音指示。

在图3中由步骤332示出了条件的确定，并且因此示出了关于是话音还是音乐的检测。此外，在图3中由步骤333示出了指示音频信号的操作，而在图3中由步骤335示出了指示音频信号是话音的操作。

在一些实施例中，话音/音乐检测器207对于若干帧M存储如上所述的条件检查的结果。在这样的实施例中，话音/音乐检测器207可以被配置为仅仅在如上所述的条件检查对于存储了条件检查结果的所述若干(在该例子中为M)帧一致地为真时，确定被处理的音频信号为音乐。例如在一些实施例中，M的值可以是20。这些实施例进一步辅助音乐/话音音频信号的检测并且帮助避免生成音乐音频信号的过早的确定。

在其他实施例中，如果话音/音乐检测器确定对于所存储的M个条件检查中的若干个(例如L个)满足上述条件，则可以进行音乐音频信号的确定。在进一步的实施例中，M个条件检查中的L个必须是相邻的帧条件检查——换言之，音频信号一致地被确定为音乐音频信号。

在一些实施例中，装置的应用进一步包括重置操作器205。重置操作器205被配置为在每个新呼叫的开始或通信的开始重置噪声水平估计器缓冲器233和识别器缓冲器215。此外，在一些实施例中，重置操作器205可以被配置为保持或暂停识别器/噪声水平估计器缓冲器，换言之，避免当设备不在接收任何数据时考虑到RMS值。

上面示出的装置以及上面描述的方法可以用于窄带或宽带下行链路信号这两者。然而，取决于所考虑的实施例的应用，可以选择帧长度M、缓冲的帧N和阈值R_th、H_th和Y_th的不同的值。

已经利用一些话音和音乐采样模拟了以上方法。在这些模拟中，白噪声被添加到采样中以评估模拟的装置方法噪声鲁棒性。模拟的结果指示，在50dB的信噪比，检测到全部话音帧中的100％，而音乐帧的检测精度(当音乐信号帧被检测为音乐)在84％到89％之间。利用40dB的减少的信噪比，音乐的检测精度被减少为63％，并且随着信噪比进一步减少，模拟的装置性能进一步劣化。然而，在正常的实践中，不太可能将在这样嘈杂的条件下向用户设备播放音乐。

从而，概括而言，根据一些实施例，存在一种方法，其包括：确定音频信号的信号识别值；确定所述音频信号的至少一个噪声水平值；将所述信号识别值与信号识别阈值比较，并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较；以及取决于所述比较来识别所述音频信号。

在本发明的一些实施例中，话音/音乐识别器可以被实施为用户设备中的应用以检测用户是否在等待线或待机场景中被迫使聆听音乐。在这些实施例中，当检测到等待线音乐时，该应用可以触发用户设备用来自用户设备自身的音乐库的音乐进行替换，而不是在等待线中播放的“电梯音乐”。

在一些进一步的实施例中，可以在诸如话音到文本应用之类的应用中实施话音/音乐检测装置，其中话音到文本功能确定何时在输入话音以及何时在输入音乐，以避免话音到文本应用尝试转译音乐并因此产生错误。

一般的下行链路音频处理算法可以实施这些实施例，并且从而具有对于话音和音乐音频信号这两者的不同的优化调谐参数。如上所述的音频信号特性的检测从而使得这些下行链路音频处理算法能够更高效地工作。

在本发明的一些实施例中，识别器噪声水平估计器和话音/音乐检测装置可以实施在音频链中信号解码之后以及任何修改信号的算法之前，以产生对音频信号的最有效的分析。

在这些实施例中，以上装置和方法将具有三个优点。首先，这些实施例对于AMR解码的信号尤其有效。其次，这些实施例对于具有良好信噪比的音频信号具有良好性能，并且不需要大量的存储器或计算能力。第三，这些实施例最小化由于背景噪声水平估计造成的话音被识别为音乐的错误。

应当理解，术语用户设备旨在覆盖任何合适类型的无线用户设备，诸如移动电话、便携式数据处理设备或便携式web浏览器。此外，将理解，术语声学声音通道旨在覆盖声音出口、通道和空腔。并且这样的声音通道可以与换能器整体形成、或形成为换能器与设备的机械集成的一部分。

一般地，可以在硬件或专用电路、软件、逻辑或其任何组合中实施本发明的多种实施例。例如，一些方面可以实施在硬件中，而其他方面可以实施在可以由控制器、微处理器或其他计算设备执行的固件或软件中，但本发明不限于此。尽管本发明的多个方面可以被图示和描述为框图、流程图，或使用一些其他形象表示来图示和描述，但众所周知本发明所描述的这些块、装置、系统和技术或方法可以实施在(作为非限制性例子)硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其组合中。

从而，至少一些实施例可以是一种装置，其包括：信号参数估计器，其被配置为确定音频信号的信号识别值；噪声水平估计器，其被配置为确定所述音频信号的至少一个噪声水平值；以及信号分类器，其被配置为取决于将所述信号识别值与信号识别阈值比较以及将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较来识别所述音频信号。

本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件、或通过硬件、或通过软件和硬件的组合来实施。就此而言，进一步应当注意如图中的逻辑流的任何块可以表示程序步骤、或互连的逻辑电路、块和功能、或程序步骤或逻辑电路、块和功能的组合。软件可以存储在诸如以下的物理介质上：存储器芯片、或在处理器内实施的存储器块、诸如硬盘或软盘之类的磁介质、以及诸如例如DVD的光介质及其数据变体CD。

从而，在一些实施例中，可以存在一种装置，其包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一同使得所述装置至少执行：确定音频信号的信号识别值；确定所述音频信号的至少一个噪声水平值；将所述信号识别值与信号识别阈值比较，并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较；以及取决于所述比较来识别所述音频信号。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术来实施，诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移除存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性例子可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)专用集成电路(ASIC)、门级别电路和基于多核处理器架构的处理器。

可以在诸如集成电路模块之类的多种组件中实践本发明的实施例。集成电路的设计总体上是高度自动化的过程。复杂和强大的软件工具可用于将逻辑层设计转换为准备好刻蚀并形成在半导体衬底上的半导体电路设计。

诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣荷塞的Cadence设计公司所提供的程序之类的程序使用良好建立的设计规则以及预存储的设计模块的库来在半导体芯片上自动地对导体布线以及定位元件。一旦已经完成半导体电路的设计，处于标准化电子格式(例如Opus、GDSII等)的作为结果的设计可以被发送到半导体制造设备或制造(fabrication)的简称“fab”。

如在本申请中所使用的，术语“电路”指以下全部：

(a)仅硬件的电路实施(诸如仅模拟和/或数字电路中的实施)以及

(b)电路和软件(和/或硬件)的组合，诸如：(i)处理器的组合或(ii)一起工作以使得诸如移动电话或服务器之类的装置执行多种功能的处理器/软件(包括数字信号处理器)、软件和存储器的部分，以及

(c)需要软件或固件以进行操作的(即使软件或固件并不物理地存在)诸如微处理器或微处理器的部分之类的电路。

“电路”的定义适用于包括任何权利要求的本申请中对该术语的全部使用。作为进一步的例子，如在本申请中所使用的，术语“电路”还将覆盖仅处理器(或多个处理器)或处理器的部分及其伴随的软件和/或固件的实施方式。例如并且如果适用，术语“电路”还将覆盖特定的权利要求元素，即用于移动电话的基带集成电路或应用处理器集成电路、或服务器、蜂窝网络设备或其他网络设备中的类似的集成电路。

以上描述通过示例和非限制性例子的方式提供了对本发明的示例实施例的完整和启发性的描述。然而，当与附图和所附权利要求结合阅读以上描述时，鉴于以上描述，许多修改和改造可以对于相关领域技术人员变得明显。然而，对本发明的教导的全部这样和类似的修改将仍然落入如所附权利要求中所定义的本发明的范围中。

Claims

1.一种方法，包括：

确定音频信号的信号识别值；

确定所述音频信号的至少一个噪声水平值；

将所述信号识别值与信号识别阈值比较，并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较；以及

取决于所述比较来识别所述音频信号。

2.如权利要求1所述的方法，其中识别所述音频信号包括：当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时，将所述音频信号识别为音乐音频信号。

3.如权利要求2所述的方法，其中识别所述音频信号进一步包括：当所述信号识别值等于或大于所述信号识别阈值，和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时，将所述音频信号识别为话音音频信号。

4.如权利要求1至3所述的方法，其中确定所述信号识别值包括：

对所述音频信号采样值进行低通滤波；

确定经所述低通滤波的音频信号值的至少两个均方根值；

从所述均方根值中选择最大均方根值和最小均方根值；

确定所述最大均方根值和所述最小均方根值的比率；以及

对所述最大均方根值和所述最小均方根值的比率进行低通滤波。

5.如权利要求4所述的方法，进一步包括：

确定所述最小均方根值小于信号水平阈值；以及

取决于确定所述最小均方根值小于信号水平阈值而丢弃所述最大均方根值和所述最小均方根值的所确定的比率。

6.如权利要求4和5所述的方法，其中确定所述音频信号的所述至少一个噪声水平值中的一个包括：

对所述音频信号采样值进行高通滤波；

确定经高通滤波的音频信号值的至少两个均方根值；

从所述均方根值中选择最小均方根值；以及

对来自所述均方根值的所述最小均方根值进行低通滤波以确定所述音频信号的所述至少一个噪声水平中的一个。

7.如权利要求6所述的方法，其中确定所述音频信号的所述至少一个噪声水平值中的第二个包括：

对所述音频信号采样值进行高通滤波；

确定经高通滤波的音频信号值的至少两个均方根值；

从经所述高通滤波的音频信号值的均方根值中选择最小均方根值；

对来自经所述高通滤波的音频信号值的均方根值的所述最小均方根值进行低通滤波；

对所述音频信号采样值进行低通滤波；

确定经所述低通滤波的音频信号值的至少两个均方根值；

从经所述低通滤波的音频信号值的均方根值中选择最小均方根值；

对来自经所述低通滤波的音频信号值的所述最小均方根值进行低通滤波；

确定经所述低通滤波的来自经所述低通滤波和经所述高通滤波的音频信号的最小均方根值的比率；以及

将所述音频信号的所述至少一个噪声水平值中的第二个确定为经所述低通滤波的来自经所述低通滤波和经高通滤波的音频信号的最小均方根值的比率或经所述低通滤波的最小均方根值的先前的比率。

8.如权利要求4至7所述的方法，进一步包括缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。

9.如权利要求7所述的方法，进一步包括缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。

10.一种装置，其包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一同使得所述装置至少执行：

确定音频信号的信号识别值；

确定所述音频信号的至少一个噪声水平值；

取决于所述比较来识别所述音频信号。

11.如权利要求10所述的装置，其中识别所述音频信号使得所述装置至少执行：当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时，将所述音频信号识别为音乐音频信号。

12.如权利要求11所述的装置，其中识别所述音频信号进一步使得所述装置至少执行：当所述信号识别值等于或大于所述信号识别阈值，和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时，将所述音频信号识别为话音音频信号。

13.如权利要求10至12所述的装置，其中确定所述信号识别值使得所述装置至少执行：

对所述音频信号采样值进行低通滤波；

确定经所述低通滤波的音频信号值的至少两个均方根值；

从所述均方根值中选择最大均方根值和最小均方根值；

确定所述最大均方根值和所述最小均方根值的比率；以及

14.如权利要求13所述的装置，所述至少一个处理器和至少一个存储器进一步使得所述装置至少执行：

确定所述最小均方根值小于信号水平阈值；以及

15.如权利要求13所述的装置，其中确定所述音频信号的所述至少一个噪声水平值中的一个使得所述装置至少执行：

对所述音频信号采样值进行高通滤波；

确定经高通滤波的音频信号值的至少两个均方根值；

从所述均方根值中选择最小均方根值；以及

16.如权利要求15所述的装置，其中确定所述音频信号的所述至少一个噪声水平值中的第二个使得该装置至少执行：

对所述音频信号采样值进行高通滤波；

确定经高通滤波的音频信号值的至少两个均方根值；

对所述音频信号采样值进行低通滤波；

确定经所述低通滤波的音频信号值的至少两个均方根值；

将所述音频信号的所述至少一个噪声水平值中的第二个确定为经所述低通滤波的来自经所述低通滤波和经高通滤波音频信号的最小均方根值的比率或经所述低通滤波的最小均方根值的先前的比率。

17.如权利要求13至16所述的装置，所述至少一个处理器和至少一个存储器进一步使得所述装置至少执行：缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。

18.如权利要求16所述的装置，所述至少一个处理器和至少一个存储器进一步使得该装置至少执行：缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。

19.一种装置，包括：

信号参数估计器，被配置为确定音频信号的信号识别值；

噪声水平估计器，被配置为确定所述音频信号的至少一个噪声水平值；以及

信号分类器，被配置为取决于将所述信号识别值与信号识别阈值比较以及将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较来识别所述音频信号。

20.如权利要求19所述的装置，其中所述信号分类器被配置为：当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时，将所述音频信号识别为音乐音频信号。

21.如权利要求20所述的装置，其中所述信号分类器进一步被配置为：当所述信号识别值等于或大于所述信号识别阈值，和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时，将所述音频信号识别为话音音频信号。

22.如权利要求19至21所述的装置，其中所述信号参数估计器包括：

低通滤波器，被配置为对所述音频信号采样值进行低通滤波；

信号处理器，被配置为确定经低通滤波的音频信号值的至少两个均方根值；

至少一个选择器，被配置为从所述均方根值中选择最大均方根值和最小均方根值；

比率计算器，被配置为确定所述最大均方根值和所述最小均方根值的比率；以及

进一步的低通滤波器，其被配置为对所述最大均方根值和所述最小均方根值的比率进行低通滤波。

23.如权利要求22所述的装置，其中所述信号参数估计器进一步包括：

开关，被配置为取决于确定所述最小均方根值小于信号水平阈值而丢弃所述最大均方根值和所述最小均方根值的所确定的比率。

24.如权利要求22所述的装置，其中所述噪声水平估计器包括：

高通滤波器，被配置为对所述音频信号采样值进行高通滤波；

信号处理器，被配置为确定经高通滤波的音频信号值的至少两个均方根值；

选择器，被配置为从所述均方根值中选择最小均方根值；以及

低通滤波器，对来自所述均方根值的所述最小均方根值进行低通滤波以确定所述音频信号的所述至少一个噪声水平中的一个。

25.如权利要求24所述的装置，其中所述噪声水平估计器进一步包括：

低通滤波器，被配置为对来自所述信号参数估计器至少一个选择器的最小均方根值进行低通滤波；

比率估计器，被配置为确定经低通滤波的来自所述信号参数估计器至少一个选择器以及来自所述噪声水平估计器选择器的最小均方根值的比率；以及

开关，被配置为作为所述至少一个噪声水平值中的第二个而输出由所述比率估计器所确定的比率或历史比率值。

26.如权利要求25所述的装置，其中所述开关被配置为：当由所述比率确定器所确定的比率大于所述历史比率值并且所述音频信号的所述至少一个噪声水平值中的所述一个大于相关联的阈值时，在所述至少一个噪声水平值中的第二个输出由所述比率值所确定的比率。

27.如权利要求25和26所述的装置，其中所述噪声水平估计器进一步包括：缓冲器，被配置为接收所述开关的输出；以及增益，其被配置为向所述缓冲器的输出应用增益以生成所述历史比率值。

28.如权利要求22至27所述的装置，其中所述信号参数估计器进一步包括至少一个缓冲器，其被配置为缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。

29.如权利要求24至27所述的装置，其中所述噪声水平估计器进一步包括至少一个缓冲器，其被配置为缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。