CN111344781A

CN111344781A - 音频处理

Info

Publication number: CN111344781A
Application number: CN201880072045.6A
Authority: CN
Inventors: J·P·莱索; G·R·麦克劳德
Original assignee: Cirrus Logic International Semiconductor Ltd
Current assignee: Cirrus Logic International Semiconductor Ltd
Priority date: 2017-11-14
Filing date: 2018-11-13
Publication date: 2020-06-26
Also published as: WO2019097217A1; US10818298B2; GB2581678A; GB201801875D0; GB2581678B; GB202006214D0; US20190147887A1

Abstract

一种音频处理的方法，包括接收音频信号。形成所接收的音频信号的多个组帧型式，所述组帧型式中的每一组帧型式具有相应的帧起始位置。选择所接收的音频信号的多个组帧型式中的一个组帧型式。在后续的过程中，使用所接收的音频信号的多个组帧型式中的选定的一个组帧型式。

Description

音频处理

技术领域

本文所描述的实施方案涉及用于音频处理的方法和设备。

背景技术

许多设备都包含音频处理系统。大量音频处理系统特别关注于话语处理，例如出于说话人识别(以说话人标识的形式，或者以说话人验证的形式)或话语识别(即，确定话语的内容)的目的。

发明内容

典型地，话语处理系统将接收代表声音的信号，且将该信号划分成固定长度的帧。然后，分析这些帧的内容。话语活动检测器(VAD)通常被用于标识包含话语的帧，从而在话语处理系统中仅使用那些帧。

然而，现在已经认识到，使用VAD可能意味着，出现话语的起点的帧可能不会被识别为包含话语。

此外，现在已经认识到，当帧的长度接近说话人的话语的特性周期(例如，声门脉冲周期(Glottal Pulse Period))时，对该说话人的话语执行话语处理的尝试趋向于出现高于正常的误差率。

根据本发明的一个方面，提供了一种音频处理方法，包括：

接收音频信号；

形成所接收的音频信号的多个组帧型式，所述组帧型式中的每一组帧型式具有相应的帧起始位置；

选择所接收的音频信号的多个组帧型式中的一个组帧型式；以及

在后续的过程中，使用所接收的音频信号的多个组帧型式中的选定的一个组帧型式。

根据本发明的另一方面，提供了一种用于音频处理的系统，该系统被配置成根据所述方法操作。

根据本发明的另一方面，提供了一种包括这种系统的设备。该设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。

根据本发明的另一方面，提供了一种计算机程序产品，包括计算机可读有形介质，以及用于执行根据第一方面的方法的指令。

根据本发明的另一方面，提供了一种非暂时性计算机可读存储介质，在所述非暂时性计算机可读存储介质上存储有计算机可执行指令，当由处理器电路系统执行所述计算机可执行指令时，所述计算机可执行指令使所述处理器电路系统执行根据第一方面的方法。

附图说明

为了更好地理解本发明，且为了示出如何实施本发明，现在将参考附图，在附图中：

图1例示了智能电话；

图2是例示智能电话的形式的示意图；

图3例示了话语处理系统；

图4例示了图3的话语处理系统的一部分；

图5是例示处理音频信号的方法的流程图；以及

图6例示了图5的方法的一部分；

图7(a)例示了执行图5的方法的第一结果，且图7(b)例示了执行图5的方法的第二结果。

具体实施方式

下面的描述阐述了根据此公开内容的示例实施方案。对于本领域普通技术人员而言，其他示例实施方案和实施方式将是显而易见的。此外，本领域普通技术人员将认识到，可以代替下面所讨论的实施方案或与下面所讨论的实施方案结合地应用多种等同技术，且所有这样的等同物应被认为是本公开内容所涵盖的。

本文所描述的方法可以被实施在各种各样的设备和系统中，例如移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。然而，为了易于解释一个实施方案，将描述一个例示性实施例，其中实施方式发生在智能电话中。

图1例示了一个智能电话10，该智能电话10具有用于检测周边声音的麦克风12。在正常使用中，麦克风当然用于检测靠近他们的脸部握持智能电话10的用户的话语。

图2是例示智能电话10的形式的示意图。

具体地，图2示出了智能电话10的多个互连部件。应理解，智能电话10实际上将包含许多其他部件，但是以下描述对于理解本发明是足够的。

因此，图2示出了上面所提及的麦克风12。在某些实施方案中，智能电话10设置有多个麦克风12、12a、12b等。

图2还示出了存储器14，该存储器14实际上可以被设置为单个部件或多个部件。存储器14被设置用于存储数据和程序指令。

图2还示出了处理器16，该处理器16实际上再次可以被设置为单个部件或多个部件。例如，处理器16的一个部件可以是智能电话10的应用处理器。

图2还示出了收发器18，该收发器18被设置用于允许智能电话10与外部网络通信。例如，收发器18可以包括用于经由WiFi局域网或经由蜂窝网络建立互联网连接的电路系统。

图2还示出了音频处理电路系统20，用于根据需要对由麦克风12所检测到的音频信号执行操作。例如，音频处理电路系统20可以对音频信号进行滤波，或可执行其他信号处理操作。

在此实施方案中，智能电话10设置有语音生物测定功能且设置有控制功能。因此，智能电话10能够响应于来自已注册用户的口语命令来执行多种功能。生物测定功能能够在来自已注册用户的口语命令和由一个不同的人说出的相同命令之间进行区分。因此，本发明的某些实施方案涉及操作智能电话或具有某种语音可操作性的另一便携式电子设备，例如平板计算机或膝上型计算机、游戏控制台、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等，其中在旨在执行口语命令的设备中执行语音生物测定功能。某些其他实施方案涉及在智能电话或其他设备上执行语音生物测定功能的系统，如果语音生物测定功能能够确认说话人是已注册用户，则智能电话或其他设备随后将命令传输至一个分立的设备。

在一些实施方案中，虽然在智能电话10或靠近用户定位的其他设备上执行语音生物测定功能，但是使用收发器18将口语命令传输至远程话语识别系统，该远程话语识别系统确定口语命令的含义。例如，话语识别系统可以位于云计算环境中的一个或多个远程服务器上。然后，基于口语命令的含义的信号被返回至智能电话10或其他本地设备。

在其他实施方案中，还在智能电话10上执行话语识别。

本发明的实施方案可以在包括话语处理系统的多种音频处理系统中使用。下面所描述的是在说话人识别系统中使用的实施方案。

图3是例示说话人识别系统的基本形式的框图。

典型的说话人识别系统30使用基于大量人的话语的背景模型，例如通用背景模型(UBM)。此话语(被称为开发话语(development speech))被传送至参数化块32，在参数化块32中获得话语的特征。

这些特征被传送至建模块34，该建模块34形成背景模型。

当用户希望在说话人识别系统中注册时，他们向麦克风说话，且注册用户的话语被传送至第二参数化块36，在第二参数化块36中获得话语的特征。第二参数化块36可以获得与参数化块32相同的特征。

由第二参数化块36所获得的特征被传送至第二建模块38，第二建模块38形成用户的话语的模型，也被称为声纹。此考虑了由建模块34所形成的背景模型，从而用户的话语的模型包含有助于将用户与其他说话人区分开的特征。

由建模块38所形成的注册用户的话语的模型被存储在数据库40中。

说话人识别系统30可以被用于说话人标识和/或说话人验证。

在说话人验证的情况下，说话人明确地或隐含地提供对他们作为已注册用户的身份的指示。此被用于选择该已注册用户的话语的模型。

来自该说话人的话语数据被传送至第三参数化块42，在第三参数化块42中获取话语的特征。第三参数化块42可以获得与参数化块32相同的特征。

由第三参数化块42所获得的特征被传送至计分块44。计分块44将由第三参数化块42所获得的特征与声称说话人(purported speaker)的话语的模型进行比较，且以与系统所需的安全性水平相适合的确定度，确定相似性是否足以推断出该说话人的确是他们所宣称的那个人。

在说话人标识的情况下，不存在对说话人的身份的指示。

来自说话人的话语数据再次被传送至第三参数化块42，在第三参数化块42中获得话语的特征。

由第三参数化块42所获得的特征被传送至计分块44。在此情况下，计分块44将由第三参数化块42所获得的特征与每一已注册说话人的话语的模型进行比较，且确定那些已注册说话人中哪个最有可能是说话人。

在说话人识别系统30旨在在诸如智能电话10或任何其他消费设备的设备中使用的情况下，很可能的是，参数化块32和建模块34将不会被设置在智能电话10中，智能电话10替代地将设置有背景模型。

在智能电话、家庭自动化控制器等的情况下，说话人识别系统可以依靠用户说出预定的触发短语(诸如，“Hello phone”)来唤醒系统。在那种情况下，在注册时，用户会被要求说出该短语。此外，仅当触发短语检测模块确定已经说出预定的触发短语时，才可以激活验证系统。

图4是更详细地例示参数化块60的形式的框图。图4中所示出的结构可以在参数化块32中用作生成背景模型的过程的一部分，和/或在第二参数化块36中用作用户注册的过程的一部分，和/或在第三参数化块42中用作说话人识别的过程的一部分。

图5是例示处理音频信号的方法的流程图。

麦克风12检测声音，且在图5的方法的步骤80中，参数化块60接收来自麦克风的音频信号。

在步骤82中，所接收的音频信号被传送至组帧块(framing block)62，该组帧块62形成所接收的音频信号的多个组帧型式(framed version)，所述组帧型式中的每一组帧型式具有相应的帧起始位置。

图6例示了所接收的音频信号的多个组帧型式的形成。

在此所例示的实施例中，每一帧包含320个数据样本(持续时间为20ms)。此外，每一帧与前一帧重叠50％。

图6(a)示出了所接收的音频信号的第一组帧型式。因此，如图6(a)中所示出的，第一帧a1具有320个样本的长度，第二帧a2起始于第一帧开始之后的160个样本，第三帧a3起始于第二帧开始之后的160个样本(即，起始于第一帧的结束处)，对于第四帧a4、第五帧a5和第六帧a6等，依此类推。

此第一组帧型式中的第一帧a1的起点位于帧起始位置Oa处。

如图6(b)中所示出的，再次在此所例示的实施例中，每一帧包含320个数据样本(持续时间为20ms)。此外，每一帧与前一帧重叠50％。

图6(b)示出了所接收的音频信号的另一组帧型式。因此，如图6(b)中所示出的，第一帧b1具有320个样本的长度，第二帧b2起始于第一帧开始之后的160个样本，第三帧b3起始于第二帧开始之后的160个样本(即，起始于第一帧的结束处)，对于第四帧b4、第五帧b5和第六帧b6等，依此类推。

此第二组帧型式中的第一帧b1的起点位于帧起始位置Ob处，且此帧起始位置Ob从第一组帧型式的帧起始位置Oa偏移了20个样本周期。

如图6(c)中所示出的，再次在此所例示的实施例中，每一帧包括320个数据样本(持续时间约6.66ms)。此外，每一帧与前一帧重叠50％。

图6(c)示出了所接收的音频信号的另一组帧型式。因此，如图6(c)中所示出的，第一帧c1具有320个样本的长度，第二帧c2起始于第一帧开始之后的160个样本，第三帧c3起始于第二帧开始之后的160个样本(即，起始于第一帧的结束处)，对于第四帧c4、第五帧c5和第六帧c6等，依此类推。

此第三组帧型式中的第一帧c1的起点位于帧起始位置Oc处，且此帧起始位置Oc从第二组帧型式的帧起始位置Ob偏移了另一20个样本周期，即，此帧起始位置Oc从第一组帧型式的帧起始位置Oa偏移了40个样本周期。

在此实施例中，例示了所接收的信号的三个组帧型式。应理解，在连续帧的起始位置之间具有160个样本周期的间隔，且不同的组帧型式之间具有20个样本周期的偏移，可以形成八个组帧型式。

在其他实施例中，不同的组帧型式之间的偏移可以是任何期望的值。例如，在不同的组帧型式之间具有两个样本周期的偏移的情况下，可以形成80个组帧型式；在不同的组帧型式之间具有四个样本周期的偏移的情况下，可以形成40个组帧型式；在不同的组帧型式之间具有五个样本周期的偏移的情况下，可以形成32个组帧型式；在不同的组帧型式之间具有八个样本周期的偏移的情况下，可以形成20个组帧型式；或者，在不同的组帧型式之间具有10个样本周期的偏移的情况下，可以形成16个组帧型式。

在其他实施例中，不同的组帧型式的每一相邻对之间的偏移不必完全相同。例如，在一些偏移是26个样本周期且另一些偏移是27个样本周期的情况下，可以形成六个组帧型式。

对于每一所接收的音频信号，所形成的型式的数目应当相同。

然后，所接收的音频信号以不同的组帧型式被传送至帧选择块64。

组帧块62的输出还被传送至语音活动检测(VAD)块66。

VAD 66尝试在所接收的信号的不同的组帧型式中的每一组帧型式中检测所接收的信号的每一帧中话语的存在，且将控制信号发送至帧选择块64，从而仅进一步考虑那些包含话语的帧。如果需要，可以将传送至帧选择块64的数据传送通过缓冲器，从而包含话语的起点的帧将被识别为包含话语。

如图5的方法的步骤84中所示出的，选择所接收的音频信号的多个组帧型式中的一个组帧型式。

如步骤86处所示出的，所接收的音频信号的多个组帧型式中的选定的一个组帧型式后续被用于后续过程中，例如，生物测定过程，诸如通用背景模型(UBM)生成过程、注册过程或验证过程，如先前所描述的。

在此所例示的实施例中，图5的方法的步骤84中所阐述的选择多个组帧型式中的一个组帧型式的步骤包括将多个组帧型式中的每一组帧型式中包含话语的帧传送至特征提取块68。然后，所提取的特征被传送至型式选择块70。

由于在每一型式中的帧之间存在重叠，且在一个组帧型式中的帧与每一另外组帧型式中的帧之间还存在进一步的重叠，所以可以适当地缓存构成这些帧的数据，从而可以以最小的延迟对相关组帧型式的每一帧执行下面所描述的计算。

更具体地，在所例示的实施方案中，选择多个组帧型式中的一个组帧型式的步骤包括将所接收的音频信号的多个组帧型式中的一个组帧型式标识为最典型的型式或最具有代表性的型式，然后选择该最典型的型式或最具有代表性的型式。

此具有增大系统的鲁棒性的效果。例如，如果在注册过程期间使用此方法，且用户的话语中具有高度代表性的组帧型式被选择且被用于生成说话人模型，则存在验证期间所使用的话语的型式会被正确地识别为该模型的匹配项的提高的概率。

相反，如果不使用此方法，则存在的可能性是，用户的话语的高度不具有代表性的组帧型式将被用于形成说话人模型，从而导致验证期间所接收的该用户的话语不会被正确地识别为该模型的匹配项的风险。

类似地，如果在验证期间使用此方法，则用户的话语的高度具有代表性的组帧型式被用于与说话人模型进行比较，则存在验证期间所使用的话语的型式会被正确地识别为该模型的匹配项的提高的概率。

相反，如果不使用此方法，则存在的可能性是，用户的话语的高度不具有代表性的组帧型式将与说话人模型进行比较，从而导致话语的该型式不会被识别为该模型的匹配项。

通过确定重新组帧的集合彼此之间的差异来找到最典型的组帧型式或最具有代表性的组帧型式。

在一些实施方案中，将所接收的音频信号的多个组帧型式中的一个组帧型式标识为最典型的型式或最具有代表性的型式包括：选择所接收的音频信号的多个组帧型式中的一个组帧型式作为参考型式；以及，将所接收的音频信号的另外的组帧型式与所述参考型式进行比较。参考型式的选择可以是任意的。

然后，将所接收的音频信号的多个组帧型式中的一个组帧型式标识为最典型的型式或最具有代表性的型式可以包括计算所接收的音频信号的另外的组帧型式中的每一组帧型式与所述参考型式之间的相应的误差值。然后，将另外的组帧型式中具有误差平均值(an average value of the error)的一个组帧型式标识为最具有代表性的型式。

在另外的实施例中，可以选择两个组帧型式作为参考型式，且可以通过将来自两个参考型式的每一参考型式的误差纳入考虑计算另外的组帧型式中的每一组帧型式的误差值来找到最典型的型式或最具有代表性的型式。

在另外的实施例中，可以将组帧型式中的每一组帧型式与每一另外的组帧型式进行比较，其中基于不同的组帧型式之间的误差，将所述组帧型式中的一个组帧型式选择为最具有代表性的。

在这些实施例中的每一实施例中，可以通过在图4中所示出的特征提取块68中，从所接收的音频信号的组帧型式中的每一组帧型式提取特征来计算相应的误差值。

特征提取块68将帧中的信息压缩为F值，该F值可以例如是梅尔频率倒谱系数(MFCC)或话语处理系统中所使用的其他特征(其中F可以例如是每帧20个值的区域中的数字)。在音频信号具有的长度为L个帧的情况下(其中L可以例如在10个帧的区域内)，特征提取块68获得每个所接收的音频信号的F*L个特征的阵列。

针对所接收的音频信号的组帧型式中的每一组帧型式，获得一个这样的F*L个特征的阵列。

然后，在将所述型式中的一个型式选择作为参考型式的情况下，可以针对另外的型式中的每一型式计算误差值。具体地，可以通过计算所接收的音频信号的相应的另外的组帧型式的特征与参考型式的特征之间的误差来形成此误差值。

可以以不同的方式来确定特征之间的误差，诸如均方根(RMS)误差、绝对误差之和、或差之和，但是在一个实施例中，所使用的误差的量度为相应的组帧型式的特征与参考组帧型式的特征之间的均方误差(MSE)。

可以使用的另一误差度量是由VAD所传送的包含话语的帧的数目。也就是说，由于对音频进行了更好的组帧以用于VAD，所以随着帧起始点移位，一些移位将标识出更多包含话语的帧。

然后，图4中的型式选择块70选择所接收的信号的另外的组帧型式中的一个组帧型式。

选择所接收的信号的另外的组帧型式中的一个组帧型式的过程可以例如通过以下步骤来执行：获得针对另外的组帧型式中的每一组帧型式的误差量度(例如，MSE)；以及，选择具有误差中值(a median value of the error)的组帧型式作为所标识的最具有代表性的型式。

替代地，可以通过选择具有误差众数值(a mode value of the error)的组帧型式作为所识别的最具有代表性的型式来执行该处理。

作为该过程的操作的一个实施例，参考图7(a)和7(b)。

图7(a)和7(b)例示了针对一系列经移位的帧型式所计算的MSE值的曲线图，针对任意参考帧所计算的MSE，其中在X轴上绘制组帧型式被移位的量(以相对于参考帧减少的样本数目或移位的样本数目的形式)。虽然图7(a)和7(b)示出了针对100个不同型式的参考帧执行的计算，但是将理解的是，可以执行不同数目或配置的帧移位。

图7(a)例示了来自人类说话人的话语的MSE随着帧移位的变化，其中话语对组帧具有相对低的灵敏度。在此情况下，可以看出，MSE不会基于组帧而显著变化，其中大多数帧位置产生与选定的参考帧处于约0.05-0.11之间的相对低的MSE。因此，该过程将选择MSE值落在此范围内某个位置的组帧型式，因为这样的组帧型式将是该说话人的话语的典型的型式或高度具有代表性的型式。

相反，图7(b)例示了来自人类说话人的话语的MSE随着帧移位的变化，其中话语对组帧具有相对高的灵敏度。在此情况下，可以看到MSE基于帧位置而相对显著地变化。对于这样的话语，该过程将选择具有MSE众数值或MSE中值(在此情况下，此值可能是在0.3-0.5范围内的某个位置)的移位位置的帧型式。至少当与更“极端”或“非典型”的话语的经移位型式进行比较时，这种帧型式的选择应导致针对所接收的话语的选定的组帧是说话人的话语的总体更具有代表性的型式。(对于图7(b)中所示出的型式，这种“非典型”的型式可以是MSE大于0.5或小于0.3的那些型式。)

做出选择之后，此选定的组帧型式被用在后续的过程中，如图5方法的步骤86中所指示的。例如，此组帧型式可能被用在注册过程中或说话人验证过程中。

本领域技术人员将认识到，上文所描述的装置和方法的一些方面可以具体化为例如位于非易失性载体介质(诸如，磁盘、CD-ROM或DVD-ROM、程序化存储器诸如只读存储器(固件))上或位于数据载体(诸如，光学信号载体或电信号载体)上的处理器控制代码。对于许多应用，本发明的实施方案将被实施在DSP(数字信号处理器)、ASIC(专用集成电路)或FPGA(现场可编程门阵列)上。因此，代码可以包括常规程序代码或微代码或例如用于设置或控制ASIC或FPGA的代码。代码还可以包括用于动态地配置可重新配置的装置(诸如，可重新编程逻辑门阵列)的代码。类似地，代码可以包括用于硬件描述语言(诸如Verilog TM或VHDL(超高速集成电路硬件描述语言))的代码。如本领域技术人员将理解，代码可以被分布在彼此通信的多个经耦合的部件之间。在适当的情况下，还可以使用在现场可(重新)编程模拟阵列或类似的设备上运行以配置模拟硬件的代码来实施所述实施方案。

注意，如本文中所使用的，术语模块应被用来指代可以至少部分地由专用硬件部件(诸如，自定义电路系统)实施的功能单元或功能块，和/或至少部分地由一个或多个软件处理器或在合适的通用处理器等上运行的适当的代码实施的功能单元或功能块。模块本身可以包括其他模块或功能单元。模块可以由不需要被协同定位且可以被设置在不同的集成电路上和/或在不同的处理器上运行的多个部件或子模块来提供。

实施方案可以在主机设备中实施，尤其是便携式主机设备和/或电池供电主机设备，诸如移动计算设备(例如，膝上型计算机或平板计算机)、游戏控制台、远程控制设备、家庭自动化控制器或家用电器(包括家用温度或照明控制系统)、玩具、机器(诸如，机器人)、音频播放器、视频播放器或移动电话(例如，智能电话)。

应注意，上文所提及的实施方案例示而非限制本发明，且在不偏离随附权利要求的范围的情况下，本领域技术人员将能够设计许多替代实施方案。词语“包括”不排除除了在权利要求中所列出的那些元件或步骤之外的元件或步骤的存在，“一”或“一个”不排除多个，且单个特征或其他单元可以实现权利要求中所记载的若干单元的功能。权利要求中的任何参考数字或参考标注不应被解释为对所述权利要求范围的限制。

Claims

1.一种音频处理的方法，包括：

接收音频信号；

2.根据权利要求1所述的方法，包括：

将所接收的音频信号的多个组帧型式中的一个组帧型式标识为最具有代表性的型式；以及

选择所标识的最具有代表性的型式作为所接收的音频信号的多个组帧型式中的所述选定的一个组帧型式。

3.根据权利要求2所述的方法，其中将所接收的音频信号的多个组帧型式中的一个组帧型式标识为最具有代表性的型式包括：

选择所接收的音频信号的多个组帧型式中的一个组帧型式作为参考型式；以及

将所接收的音频信号的另外的组帧型式与所述参考型式进行比较。

4.根据权利要求3所述的方法，还包括：

计算所接收的音频信号的所述另外的组帧型式中的每一组帧型式与所述参考型式之间的相应的误差值；以及

选择所述另外的组帧型式中具有误差平均值的一个组帧型式作为所标识的最具有代表性的型式。

5.根据权利要求4所述的方法，其中计算所接收的音频信号的所述另外的组帧型式中的每一组帧型式与所述参考型式之间的相应的误差值包括：

从所接收的音频信号的所述另外的组帧型式中的每一组帧型式中提取特征，且从所述参考型式中提取特征；以及

通过计算所接收的音频信号的相应的另外的组帧型式的特征与所述参考型式的特征之间的误差来计算相应的误差值。

6.根据权利要求4或5所述的方法，其中所述相应的误差值包括均方误差值。

7.根据权利要求4、5或6所述的方法，包括选择所述另外的组帧型式中具有误差中值的一个组帧型式作为所标识的最具有代表性的型式。

8.根据权利要求4、5或6所述的方法，包括选择所述另外的组帧型式中具有误差众数值的一个组帧型式作为所标识的最具有代表性的型式。

9.根据任一项前述权利要求所述的方法，包括从话语活动检测器接收所述音频信号。

10.根据权利要求1至9中的任一项所述的方法，其中所述后续过程是生物测定过程。

11.根据权利要求10所述的方法，其中所述生物测定过程是说话人注册过程。

12.根据权利要求10所述的方法，其中所述生物测定过程是说话人验证过程。

13.根据权利要求10所述的方法，其中所述生物测定过程是通用背景模型(UBM)生成过程。

14.一种用于音频处理的系统，该系统包括：用于接收音频信号的输入；以及，处理器；且该系统被配置用于：

接收所述音频信号；

15.一种包括根据权利要求14所述的系统的设备。

16.根据权利要求15所述的设备，其中所述设备包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。

17.一种计算机程序产品，包括计算机可读有形介质，以及用于执行根据权利要求1至13中的任一项所述的方法的指令。

18.一种非暂时性计算机可读存储介质，在所述非暂时性计算机可读存储介质上存储有计算机可执行指令，当由处理器电路系统执行所述计算机可执行指令时，所述计算机可执行指令使所述处理器电路系统执行根据权利要求1至13中的任一项所述的方法。

19.一种包括如权利要求18所述的非暂时性计算机可读存储介质的设备。

20.根据权利要求19所述的设备，其中所述设备包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。