CN103069480B

CN103069480B - 用于语音识别的语音模型和噪声模型

Info

Publication number: CN103069480B
Application number: CN201180026390.4A
Authority: CN
Inventors: M·I·洛伊德; T·克里斯特詹森
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2010-06-14
Filing date: 2011-06-13
Publication date: 2014-12-24
Anticipated expiration: 2031-06-13
Also published as: AU2011267982B2; CN103069480A; US20120259631A1; WO2011159628A1; EP2580751B1; US20110307253A1; US20120022860A1; US8666740B2; US8234111B2; US8249868B2; AU2011267982A1; EP2580751A1

Abstract

接收由设备基于来自用户的音频输入生成的音频信号。该音频信号可以至少包括对应于由设备记录的一个或多个用户话语的用户音频部分。可以访问与用户相关联的用户语音模型，并且可以进行音频信号中的背景音频在定义阈值以下的确定。响应于确定音频信号中的背景音频在定义阈值以下，可以基于音频信号适配访问的用户语音模型以生成对用户的语音特性建模的适配用户语音模型。可以使用适配用户语音模型对接收的音频信号执行噪声补偿以生成与所述接收的音频信号相比具有减少的背景音频的滤波音频信号。

Description

用于语音识别的语音模型和噪声模型

相关申请的交叉引用

本申请要求于2010年6月14日递交的、标题为“SPEECH ANDNOISE MODELS FOR SPEECH RECOGNITION”的美国申请序列号12/814,665的优先权，其公开内容通过引用并入于此。

技术领域

本说明书涉及语音识别。

背景技术

语音识别可以用于话音搜索查询。通常，搜索查询包括当用户请求搜索引擎执行搜索时用户向搜索引擎提交的一个或者多个查询项。在其他方式中，用户可以通过在键盘上键入或者在话音查询的情况下通过向例如移动设备的麦克风中口述查询项来录入搜索查询的查询项。

当通过例如移动设备提交话音查询时，移动设备的麦克风除了用户的口述话语之外还可能记录环境噪声或者声音，在其他方面被称作“环境音频”或“背景音频”。例如，环境音频可以包括位于用户周围的其他人的背景聊天或者谈话或者由自然(例如，狗吠)或者人造物体(例如，办公室、机场或者公路噪声或者建筑活动)生成的噪声。环境音频可能部分地遮蔽用户的话音，从而使得自动化语音识别(“ASR”)引擎难以准确识别口述话语。

发明内容

在一个方面，一种系统包括一个或多个处理设备以及存储有指令的一个或多个存储设备，当指令被一个或多个处理设备执行时，使得一个或多个处理设备接收由设备基于来自用户的音频输入生成的音频信号，音频信号至少包括对应于由设备记录的一个或多个用户话语的用户音频部分；访问与用户相关联的用户语音模型；确定音频信号中的背景音频在定义阈值以下；响应于确定音频信号中的背景音频在定义的阈值以下，基于音频信号适配访问的用户语音模型以生成对用户语音特性建模的适配用户语音模型；以及使用适配用户语音模型对接收的音频信号执行噪声补偿以生成与接收的音频信号相比具有减少的背景音频的滤波音频信号。

实现方式可以包括一个或多个以下特征。例如，音频信号可以包括仅对应于围绕用户的背景音频的环境音频部分以确定音频信号中的背景音频在定义阈值之下，指令可以包括如下指令，当被执行时，使得一个或多个处理设备确定环境音频部分中的能量的量；以及确定环境音频部分中能量的量在阈值能量之下。为了确定音频信号中的背景音频在定义阈值之下，指令包括如下指令，当被执行时，使得所述一个或多个处理设备确定音频信号的信噪比；以及确定该信噪比在阈值信噪比之下。音频信号可以包括仅对应于围绕用户的背景音频的环境音频部分以确定音频信号的信噪比，指令包括如下指令，当被执行时，使得一个或多个处理设备确定音频信号的用户音频部分中的能量的量；确定音频信号的环境音频部分中的能量的量；以及通过确定用户音频部分与环境音频部分中的能量的量之间的比率来确定信噪比。

访问的用户语音模型可以包括尚未适配为对用户的语音特性建模的替代用户语音模型。指令可以包括如下指令，当被一个或多个处理设备执行时，使得一个或多个处理设备选择替代用户语音模型；以及将替代语音模型与用户相关联。为了选择替代用户语音模型，指令可以包括如下指令，当被一个或多个处理设备执行时，使得一个或多个处理设备确定用户的性别；以及基于用户的性别从多个替代用户语音模型之中选择替代用户语音模型。为了选择替代用户语音模型，指令可以包括如下指令，当被一个或多个处理设备执行时，使得一个或多个处理设备确定在记录一个或多个话语时用户的位置；以及基于在记录一个或多个话语时用户的位置从多个替代用户语音模型之中选择替代用户语音模型。为了选择替代用户语音模型，指令可以包括如下指令，当被一个或多个处理设备执行时，使得一个或多个处理设备确定用户的语言或口音；以及基于语言或口音从多个替代用户语音模型之中选择替代用户语音模型。为了选择替代用户语音模型，指令可以包括如下指令，当被一个或多个处理设备执行时，使得一个或多个处理设备接收至少包括对应于由设备记录的一个或多个用户话语的最初用户音频部分的最初音频信号；确定多个替代用户语音模型与基于所述最初音频信号确定的用户的期望用户语音模型之间的相似性度量；以及基于相似性度量从多个替代用户语音模型之中选择替代用户语音模型。

指令可以包括如下指令，当被执行时，使得一个或多个处理设备访问与用户相关联的噪声模型；以及其中为了执行噪声补偿，指令可以进一步包括如下指令，其使得一个或多个处理设备使用适配用户语音模型和访问噪声模型对接收的音频信号执行噪声补偿。为了执行噪声补偿，指令可以进一步包括如下指令，其使得一个或多个处理设备基于接收的音频信号适配访问噪声模型以生成对围绕用户的背景音频的特性建模的适配噪声模型；以及使用适配用户语音模型和适配噪声模型来对接收的音频信号执行噪声补偿。指令可以包括如下指令，当被执行时，使得一个或多个处理设备接收至少包括对应于由设备记录的一个或多个用户话语的第二用户音频部分的第二音频信号；确定第二音频信号中的背景音频在定义阈值之上；以及响应于确定第二音频信号中的背景音频在定义阈值之上，基于第二音频信号适配与用户相关联的噪声模型以生成对围绕用户的背景音频的特性建模的适配噪声模型。访问噪声模型可以包括尚未适配为对围绕用户的背景音频的特性建模的替代噪声模型。

指令可以包括如下指令，当被一个或多个处理设备执行时，使得一个或多个处理设备选择替代噪声模型；以及将替代噪声模型与用户相关联。为了选择替代噪声模型，指令可以包括如下指令，当被一个或多个处理设备执行时，使得一个或多个处理设备接收至少包括对应于由设备记录的一个或多个用户话语的最初用户音频部分的最初音频信号；确定在记录对应于最初用户音频部分的一个或多个话语时用户的位置；以及基于在记录对应于最初用户音频部分的一个或多个话语时用户的位置从多个替代噪声模型之中选择替代噪声模型。

为了选择替代噪声模型，指令可以包括如下指令，当被一个或多个处理设备执行时，使得一个或多个处理设备接收至少包括对应于由设备记录的一个或多个用户话语的最初用户音频部分的最初音频信号；确定多个替代噪声模型与基于最初音频信号确定的用户的期望噪声模型之间的相似性度量；以及基于相似性度量从多个替代噪声模型之中选择替代噪声模型。多个替代噪声模型中的每一个可以对特定位置中的背景音频的特性建模。多个替代噪声模型中的每一个可以对特定种类的环境条件中的背景音频的特性建模。

为了访问噪声模型，指令可以包括如下指令，当被一个或多个处理设备执行时，使得一个或多个处理设备确定在记录一个或多个话语时用户的位置；以及基于用户的位置从多个噪声模型之中选择噪声模型。

音频信号可以对应于话音搜索查询，并且指令可以包括如下指令，当被一个或多个处理设备执行时，使得一个或多个处理设备执行对滤波音频信号的语音识别以生成一个或多个用户话语的一个或多个候选转录；使用一个或多个候选转录执行搜索查询以生成搜索结果；以及向设备发送搜索结果。

在另一方面，系统包括客户端设备和自动化语音识别系统。客户端设备被配置为向自动化语音识别系统发送至少包括对应于由设备记录的一个或多个用户话语的用户音频部分的音频信号。自动化语音识别系统被配置为从客户端设备接收音频信号；访问与用户相关联的用户语音模型；确定音频信号中的背景音频在定义阈值之下；响应于确定音频信号中的背景音频在定义阈值之下，基于音频信号适配访问的用户语音模型以生成对用户的语音特性建模的适配用户语音模型；以及使用适配用户语音模型对接收的音频信号执行噪声补偿以生成与接收的音频信号相比具有减少的背景音频的滤波音频信号。

实现方式可以包括以下特征。例如，自动化语音识别系统可以被配置为对滤波音频信号执行语音识别以生成一个或多个用户话语的一个或多个候选转录。系统可以包括搜索引擎系统，其被配置为使用一个或多个候选转录来执行搜索查询以生成搜索结果；以及向客户端设备发送搜索结果。

在另一方面，方法包括接收由设备基于来自用户的音频输入生成的音频信号，音频信号至少包括对应于由设备记录的一个或多个用户话语的用户音频部分；访问与用户相关联的用户语音模型；确定音频信号中的背景音频在定义阈值以下；响应于确定音频信号中的背景音频在限定阈值以下，基于音频信号适配访问的用户语音模型以生成对用户的语音特性建模的适配用户语音模型；以及使用适配用户语音模型对接收的音频信号执行噪声补偿以生成与接收的音频信号相比具有减少的背景音频的滤波音频信号。

所描述的技术的实现方式可以包括硬件、方法或过程、或者计算机可访问介质上的计算机软件。

在附图和下文描述中阐述一个或者多个实现方式的细节。其他特征将从描述、附图和从权利要求中变得显然。

在附图和下文描述中阐述一个或者多个实现方式的细节。其他潜在特征、方面和优点将从描述、附图和权利要求中变得显然。

附图说明

图1是支持话音搜索查询的示例系统的示意图。

图2是示出过程的示例的流程图。

图3是示出过程的另一示例的流程图。

图4是示出过程的示例的泳道(swim lane)图。

具体实施方式

图1是示出了支持话音搜索查询的系统100的示例的示意图。系统100包括搜索引擎106和自动语音识别(ASR)引擎108，其通过一个或多个网络110与一组移动设备102a-102c和移动设备104连接，诸如在某些实施方式中，所述一个或多个网络110为无线蜂窝网络、无线局域网(WLAN)或者Wi-Fi网络、第三代(3G)移动电信网络、专用网络如内联网、公用网络如因特网或者其任何适当组合。

通常，设备(诸如移动设备104)的用户可以向移动设备104的麦克风口述搜索查询。在移动设备104上运行的应用将用户的口述搜索查询记录为音频信号，并且向ASR引擎108发送该音频信号作为话音搜索查询的一部分。在接收对应于话音搜索查询的音频信号之后，ASR引擎108可以将音频信号中的用户话语转译或转录成一个或多个文本候选转录，并且可以将这些候选转录作为查询项提供给搜索引擎106，从而支持移动设备104的音频搜索功能。查询项可以包括一个或多个完整或部分单词、字符或字符串。

搜索引擎106可以使用搜索查询项来向移动设备104提供搜索结果(例如，网页的统一资源标识符(URI)、图像、文档、多媒体文件等)。例如，搜索结果可以包括引用如下资源的统一资源标识符(URI)，搜索引擎确定该资源响应于搜索查询。附加地或备选地，搜索结果可以包括诸如标题、预览图像、用户评级、地图或者方向、对应资源的描述或者已经从对应资源自动或者手动提取或者以其它方式与对应资源相关联的文本的摘录之类的其他项。搜索引擎106在某些示例中可以包括用来在因特网内找到参考的web搜索引擎、用来找到企业或者个人的电话簿型搜索引擎或者另一专门化搜索引擎(例如，诸如餐馆和电影院信息、医疗和药品信息等娱乐清单)。

作为系统100的操作的示例，音频信号138被包括在通过网络110从移动设备104向ASR引擎108发送的话音搜索查询中。音频信号138包含话语140“Gym New York”。ASR引擎108接收包括音频信号138的话音搜索查询。ASR引擎108处理音频信号138以生成与在音频信号138内检测到的话语匹配的一个或多个文本候选转录或经排名的一组文本候选转录146。例如，音频信号138中的话语可以产生“Gym New York”和“Jim Newark”作为候选转录146。

由语音识别系统118生成的一个或多个候选转录146被作为搜索查询项从ASR引擎108传递到搜索引擎106。搜索引擎106向搜索算法提供搜索查询项146以生成一个或多个搜索结果。搜索引擎106向移动设备104提供一组搜索结果152(例如，网页的统一资源标识符(URI)、图像、文档、多媒体文件等)。

移动设备104在显示区域中显示搜索结果152。如屏幕截图158中所示，话语“Gym New York”140生成三个搜索结果160“JimNewark”160a、“New York Fitness”160b和“Manhattan BodyBuilding”160c。第一搜索结果160a对应于候选转录Jim Newark，并且例如可以向用户提供电话号码，或者当被选择时可以使用移动设备104自动拨打Jim Newark。最后两个搜索结果160b和160c对应于候选转录“Gym New York”并且包括网页URI。候选转录和/或搜索结果可以基于由ASR 108产生的置信测量来进行排名，该置信测量指示给定候选转录准确对应于音频信号中的话语的置信级别。

为了将音频信号中的用户话语转译或转录成一个或多个文本候选转录，ASR引擎108包括噪声补偿系统116、语音识别系统118和存储噪声模型112以及用户语音模型114的数据库111。语音识别系统118对音频信号执行语音识别以识别音频信号中的用户话语并且将这些话语转译成一个或多个文本候选转录。在某些实现方式中，语音识别系统118可以针对给定话语生成多个候选转录。例如，语音识别系统118可以将话语转录成多个项并且可以指派与话语的每个转录相关联的置信级别。

在某些实现方式中，语音识别系统118的特定变化可以基于与音频信号有关的附加上下文信息针对给定音频信号进行选择，并且选择的改变可以用于转录音频信号中的话语。例如，在某些实现方式中，连同包含用户话语的音频信号，话音搜索查询可以包括用于选择语音识别系统118的变化的区域或语言信息。在特定示例中，在其中注册移动设备104的区域或移动设备104的语言设置语言可以被提供给ASR引擎108并且供ASR引擎108用于确定移动设备104的用户可能的语言或口音。语音识别系统118的变化可以基于移动设备104的用户的预期语言或口音进行选择和使用。

ASR引擎108可以在执行语音识别之前将噪声补偿系统116应用于例如从移动设备104接收的音频信号。噪声补偿系统116可以移除或减少音频信号中的背景或环境音频以产生滤波音频信号。由于移动设备104的麦克风除了用户的话语还可以捕获环境音频，因此音频信号可能包含用户话语以及环境音频的混合。音频信号因此可以包括仅包括环境音频的一个或多个环境音频信号，以及包括用户的话语(以及潜在的环境音频)的用户音频信号。通常，环境音频可以包括发生(自然或者其他)在用户周围的任何环境声音。环境音频通常排除移动设备的用户的话音、话语或声音。语音识别系统118可以对由噪声补偿系统116产生的滤波音频信号执行语音识别以转录用户话语。在某些实例中，对滤波音频信号执行语音识别可以产生比直接对接收的音频信号执行语音识别更准确的转录。

针对给定音频信号，噪声补偿系统116使用数据库111中存储的噪声模型112之一和用户语音模型之一来移除或减少音频信号中的背景或环境音频。噪声模型112包括替代噪声模型120和适配噪声模型120b。类似地，用户语音模型包括替代用户语音模型126a和适配用户语音模型126b。通常，适配噪声模型120b和适配用户语音模型126b专用于特定用户并且已经基于通过先前话音搜索查询从该用户接收的音频信号被适配于该用户。当针对提交当前话音搜索查询的特定用户没有适配噪声模型或适配用户语音模型时，分别使用替代噪声模型120a和替代用户语音模型126a。

在某些实例中，噪声补偿系统116的性能可以通过使用适配用户语音模型进行改进，该适配用户语音模型已经被训练过或者以其它方式适配于提交话音搜索查询的特定用户的具体语音特性。然而，为了使语音模型适配于特定用户，可能需要该用户的语音的采样。在诸如系统100的环境中，那些采样最初可能并不容易地可用。因此，在一个实现方式中，当用户最初发送话音搜索查询时或者如果出于某些其他原因没有针对用户的适配用户语音模型时，ASR 108从一个或多个替代用户语音模型126a选择替代用户语音模型。所选择的替代用户语音模型可以是被确定为用户的语音特性的合理近似的用户语音模型。所选择的替代用户语音模型用于对最初音频信号执行噪声补偿。随着用户提交随后的话音搜索查询，与所述那些随后查询一起发送的某些或所有音频信号用于将所选择的替代用户语音模型训练或适配于专用于该用户的适配用户语音模型(即，对用户的语音特性建模)，其用于那些随后的音频信号的噪声补偿。

例如，在一个实现方式中，当接收到随后的音频信号时，ASR 108确定环境或背景音频是否处于特定阈值之下。如果在特定阈值之下，则该音频信号用于将替代用户语音模型适配于或者进一步将适配用户语音模型适配于特定用户。如果背景音频在阈值之上，则音频信号不用于适配用户语音模型(但可以用于适配噪声模型，如下文所述)。

用户语音模型(无论是替代用户语音模型126a还是适配用户语音模型126b)例如可以被实现为隐马尔可夫模型(HMM)或高斯混合模型(GMM)。可以使用期望最大化算法训练或以其它方式适配用户语音模型。

在某些实现方式中，用户可以被明确地标识。例如，某些实现方式可以在接受搜索查询之前向用户提示标识。其他实现方式可以使用其他可用信息隐式标识用户，诸如键入用户的模式或者用户的移动模式(例如，当加速器形成设备的一部分时)。当用户可以被具体标识时，适配用户语音模型可以通过对应于标识用户的用户标识符进行索引。

在其他实现方式中，用户可能不能够被具体标识。在此情况下，用于录入话音搜索查询的设备(诸如移动设备104)可以被用作具体用户的标识符，并且可以基于与用于提交话音搜索查询的设备对应的设备标识符索引适配用户语音模型。在其中通常只存在单个或主要设备用户的环境中，例如当移动电话被用作输入设备时，以设备为基础开发适配用户语音模型可以提供可接受的语音模型以达到噪声补偿系统116(具体地)或者ASR 108(更通用的)上强加的性能约束。

通过适配用户语音模型可以改进噪声补偿系统116的性能的相同方法，噪声补偿系统116的性能还可以通过使用已经被训练或以其它方式适配于通常围绕用户的环境音频的噪声模型而被改进。正如语音采样那样，在诸如系统100的环境中，通常围绕用户的环境音频的采样最初可能并不容易地可用。因此，在一个实现方式中，当用户最初发送话音搜索查询时或者如果出于某些其他原因没有针对用户的适配用户语音模型时，ASR 108从一个或多个替代噪声模型126b选择替代噪声模型。所选择的替代噪声模型可以是基于已知或确定的信息被确定为在用户周围的期望环境音频的合理近似的噪声模型。所选择的替代噪声模型用于对最初音频信号执行噪声补偿。随着用户提交随后的话音搜索查询，与那些查询一起发送的某些或所有音频信号用于将所选择的替代噪声模型适配于专用于该用户的适配噪声模型(即，当提交搜索查询时对围绕用户的典型环境声音的特性建模)，其用于那些随后的音频信号的噪声补偿。

例如，在一个实现方式中，当接收到随后的音频信号时，ASR 108确定环境或背景音频是否处于特定阈值之下。如果没有在特定阈值之下，则该音频信号用于将替代噪声模型适配于或者进一步将适配噪声模型适配于特定用户。在某些实现方式中，无论背景音频是否在特定阈值之上，接收的音频信号都可以用于适配替代噪声模型或适配噪声模型。

在某些实现方式中，为了确保获得不具有用户话语的环境音频的采样并且该采样可以用于适配噪声模型，移动设备104上的话音搜索查询应用可以在用户说出搜索查询之前开始记录和/或可以在用户完成说出搜索查询之后继续记录。例如，话音搜索查询应用可以捕获在用户说出搜索查询之前和/或之后两秒的音频以确保获得环境音频的采样。

在某些实现方式中，单个替代噪声模型可以被选择并适配于跨用户使用话音搜索应用的不同环境的针对该用户的单个适配噪声模型。然而，在其他实现中，当使用话音搜索应用时，适配噪声模型可以针对用户常去的各种位置进行开发。例如，可以针对不同位置开发不同噪声模型并且存储为替代噪声模型120a。当提交话音搜索查询时用户的位置可以由移动设备104发送到ASR 108，或者当提交话音搜索查询时用户的位置可以通过其他方式确定。当接收到针对给定位置的最初音频信号时，继而可以选择针对该位置的替代噪声模型，并且当从该位置接收到另外的话音搜索查询时，相关联的音频信号可以用于适配该特定噪声模型。这可以针对当执行话音搜索查询时用户所处的不同位置中的每个位置发生，由此产生针对用户的多个适配噪声模型，其中每个模型专用于某个位置。在定义的非使用时间段之后(例如，用户在特定时间里没有在该位置执行话音搜索)，可以删除位置特定噪声模型。

当提交话音搜索查询时用户的位置、与给定噪声模型相关联的位置和与给定语音模型相关联的位置均可以通过各种粒度级别进行定义，最具体地是经纬导航坐标或者由导航坐标密切界定(例如，四分之一英里或更小)的区域。备选地，位置可以使用区域标识符提供，诸如州名或标识符、城市名、惯用名(例如，“Central Park”)、国家名或任意定义区域的标识符(例如，“cell/region ABC 123”)。在某些实现方式中，位置可以表示位置的类型，诸如在某些示例中的海滩、大都会、游乐园、移动交通工具内、船上、建筑物内、户外、乡下、地下位置(例如，地铁、停车场等)、街面位置、高楼(摩天大楼)内部或者森林中，而不是地理指定位置。粒度级别与在提交话音搜索查询时的用户位置、与给定噪声模型相关联的位置和与给定语音模型相关联的位置之间可以是相同的或不同的。

噪声模型(无论是替代120a还是适配120b)例如可以被实现为隐马尔可夫模型(HMM)或高斯混合模型(GMM)。用户语音模型可以使用期望最大化算法训练或者以其它方式适配。

如上文所述，在某些实现方式中，用户可以被具体标识而在其他实现方式中设备可以被用作用户的替代。因此，类似于对语音模型的索引，适配噪声模型可以由对应于当用户可以被具体标识时标识的用户的用户标识符进行索引，或者可以被基于对应于当用户无法被具体标识时用于提交话音搜索查询的设备的设备标识符索引。

图2是示出了可以在从用户或设备接收最初话音搜索查询时执行的过程200的示例的流程图，而图3是示出了可以在从用户或设备接收随后的话音搜索查询时执行的过程300的示例的流程图。下文将系统100的组件描述为执行过程200和过程300，但系统100或另一系统的其他组件也可以执行过程200或过程300。

参考图2，ASR 108从设备(诸如移动设备104)接收最初话音搜索查询(202)。最初话音搜索查询可以是最初的，因为该话音搜索查询是针对具体用户或设备接收的第一个话音搜索查询；因为该话音搜索查询是从提交该话音搜索查询的特定位置接收的第一个；或者因为适配用户语音模型或适配噪声模型(或两者)出于某些其他原因(例如，因为该模型在特定时间段内没有使用而被删除)而针对用户或设备不存在。

话音搜索查询包括音频信号，该音频信号包括用户音频信号和环境音频信号。用户音频信号包含由用户口述至移动设备104的麦克风的一个或多个话语以及潜在的环境音频。环境音频信号仅包含环境音频。如下文所述，话音搜索查询还可以包括上下文信息。

当被采用时，ASR 108访问关于话音搜索查询的上下文信息(204)。该上下文信息例如可以提供关于话音搜索查询中的音频信号的条件的指示。该上下文信息可以包括时间信息、日期信息、引用在记录期间由特定移动设备测量的速度或移动量的数据、其他设备传感器数据、设备状态数据(例如，蓝牙头戴耳机、扬声器电话或传统输入方法)、如果用户选择提供时的用户标识符或者标识移动设备类型或型号的信息。

该上下文信息还可以包括在其提交话音搜索查询的位置。该位置例如可以通过用户的日程表确定、从用户偏好(例如，存储在ASR引擎108或搜索引擎106的用户账号中)或默认位置导出、基于过去位置(例如，由用于提交查询的设备(例如，移动设备104)的全球定位系统(GPS)模块计算的最近位置)、在提交话音查询时由用户显式提供、从话语确定、基于发射塔三角测量计算、由移动设备104中的GPS模块提供(例如，话音搜索应用可以访问GPS设备以确定位置并且随话音搜索查询一起发送该位置)、或者使用航位推测法估计。如果由设备发送，则位置信息可以包括指示该位置信息的精确程度的精确度信息。

ASR 108可以使用此类上下文信息来帮助语音识别，例如通过使用上下文信息来选择语音识别系统的特定变型或者选择适当的替代用户语音模型或替代噪声模型。ASR 108可以将此类上下文信息传递到搜索引擎106以改进搜索结果。某些或所有上下文信息可以与话音搜索查询一起接收。

如果针对用户的适配用户语音模型不存在，则ASR 108选择最初或替代用户语音模型并且将该最初用户语音模型与用户或设备相关联(例如，取决于用户是否可以被具体标识)(206)。例如，如上文所述，ASR 108可以选择若干可用替代用户语音模型中的一个。

选定的替代用户语音模型可以是基于已知或确定信息被确定为用户的语音特性的合理近似的用户语音模型，尽管该选定的替代用户语音模型尚未被用用户的语音的任意采样所适配。例如，在一个实现方式中，可以存在两个替代用户语音模型：一个用于男性话音而一个用于女性话音。用户的性别可以被确定并且适当的替代用户语音模型(男性或女性)可以基于用户的可能的性别进行选择。用户的性别例如可以通过分析与最初话音搜索查询一起接收的音频信号或者基于例如由用户自愿提交的并且包括在用户的简档中的信息中的信息进行确定。

附加地或备选地，针对其他用户(诸如移动设备102a-102c的用户)的适配用户语音模型可以被用作替代用户语音模型。当接收到最初话音搜索查询时，表示针对提交最初搜索查询的用户的期望模型与已经存储在数据库111中的适配用户语音模型(对应于其他用户)之间的相似度的相似度度量可以基于与最初搜索查询一起包括的最初音频信号进行确定。例如，如果模型基于约束最大似然线性回归技术，则相似度度量可以是模型之间的差异的L2范数(针对每个系数的平方差的总和)。在其中使用GMM技术的情况下，相似度度量可以是两个概率密度函数之间的Kullback-Leibler熵，或者如果一个模型是GMM而来自单个话语的期望模型只是空间点，则可能是GMM的概率密度位于该空间点。在使用GMM的其他实现方式中，相似度度量例如可以是每个GMM的平均之间的距离，或者是由协方差矩阵的某些范数规范化的平均之间的距离。

最接近用户的期望模型(如由相似度度量所示)的适配用户语音模型可以被选择作为针对提交最初话音搜索查询的用户的替代用户语音模型。例如，当设备104的用户提交最初话音搜索查询时，ASR 108可以确定表示针对设备104的用户的期望用户语音模型与针对设备102a的用户的适配用户语音模型之间的相似度的相似度度量。类似地，ASR 108可以确定表示针对设备104的用户的期望用户语音模型与针对设备102b的用户的适配用户语音模型之间的相似度的相似度度量。如果相似度度量指示针对设备104的用户的期望模型比针对设备102b的用户的模型更类似于针对设备102a的用户的模型，则针对设备102a的用户的模型可以被用作针对设备104的用户的替代用户语音模型。

作为采用GMM的实现方式的特定示例，话音搜索查询可以包括包含语音和环境信号的话语。该查询可以被分段成例如25ms的分段，其中每个分段是语音或者纯环境。针对每个分段，计算特征向量x_t，其中对应于语音的向量被指定为x_s。针对在数据库中具有的每个潜在替代模型M_i，计算每个向量的似然度：

p (x_{t}, i) = p (x_{t} | i) p (i) = \underset{j}{Σ} π_{j} N (x_{t}; μ_{i, j}, Σ_{i, j}) p (i)

这是GMM的似然度计算并且p(i)是该替代模型的先验。假设观察的独立性，语音向量x_s的集合的概率可以表示为：

p (x_{s}, i) = \underset{s}{Π} \underset{j}{Σ} π_{j} N (x_{s}; μ_{i, j}, Σ_{i, j}) p (i)]

其中x_s是语音向量的集合。

给定观察x_s的类i的条件概率为：

p(i|x_s)＝p(x_s，i)/p(x_s)

其中

p (x_{s}) = \underset{i}{Σ} p (x_{s}, i)

该条件概率可以被用作当前话语与特定替代语音模型M_i之间的相似度度量。

具有最高条件概率的替代模型可以被选择：

model_index＝ArgMax(p(i|x_s))i

上下文信息(诸如用户的口音或期望的语言)可以被独自使用或者与上文所述其他技术组合使用以选择替代用户语音模型。例如，多个替代用户语音模型可以针对不同语言和/或口音进行存储。当提交话音搜索查询时用户的位置可以供ASR 108用于确定期望的语言或口音，并且对应于期望语言和/或口音的替代用户语音模型可以被选择。类似地，针对用户的语言和/或位置信息可以被存储在例如用户的简档中，并且用于选择对应于用户的语言和/或口音的替代用户语音模型。

如果适配用户语音模型已经存成(例如，由于话音搜索查询是针对特定位置的最初位置但不是针对用户或设备)，则动作206可以被跳过，或者可以被用适配用户语音模型的其他适配所替代。例如，通过最初话音搜索查询接收的音频信号可以被评估以确定背景音频是否在特定阈值之下，并且如果在特定阈值之下，则该音频信号可以被用于进一步训练或通过其他方式适配该适配用户语音模型。

ASR 108选择最初或替代噪声模型并且将该最初噪声模型与用户或设备相关联(例如，取决于用户是否可以被具体标识)(208)。选定替代噪声模型可以是基于已知或确定信息被确定为围绕用户的期望环境音频的合理近似的噪声模型。例如，替代噪声模型可以针对不同标准种类的环境条件(诸如，在汽车中、在机场、在家或在酒吧/餐厅)进行开发。来自系统中其他用户的数据可以被用于开发替代噪声模型。例如，如果低噪声数据的某些持续时间(例如，10分钟)已经被从用户收集，则该数据可以被用于生成替代模型。当接收最初音频信号时，表示期望噪声模型与标准替代噪声模型之间的相似度的相似度度量可以基于最初音频信号进行确定，并且该标准替代噪声模型之一可以基于该相似度度量进行选择(例如，使用类似于上文关于选择替代用户模型所述的技术)。例如，期望噪声模型可以基于环境音频信号进行确定。超出特定不相似阈值(例如，基于KL距离确定)的替代噪声模型(例如，100个)的集合可以被保持为标准替代模型，并且所使用的替代模型可以使用如所述的相似度度量从该集合中进行选择。当选择替代噪声模型时，这可以最小化计算。

附加地或备选地，不同噪声模型可以针对不同位置进行开发并且存储为替代噪声模型120a。例如，针对位置A 132a和位置B 132b的噪声模型可以被开发并且存储为替代噪声模型120a。针对具体位置的噪声模型可以基于由那些位置中的其他用户发起的先前话音搜索查询进行开发。针对位置B 132b的噪声模型例如可以基于在位置B 132b时由ASR 108接收作为来自设备102b的用户的话音搜索查询的一部分的音频信号130b和在位置B 132b时由ASR 108接收作为来自设备102c的用户的话音搜索查询的一部分的音频信号130c进行开发。针对位置A 132a的噪声模型例如可以基于在位置A由ASR

108接收作为来自设备102a的用户的话音搜索查询的一部分的音频信号130a进行开发。

当接收最初音频信号时，替代噪声模型可以基于用户的位置被选择。例如，当移动设备104的用户从位置B 132b提交最初话音搜索时，ASR 108可以选择针对位置B的替代噪声模型。在某些实现方式中，移动设备104上的话音搜索应用可以访问该移动设备上的GPS以确定用户的位置并且与话音搜索查询一起向ASR 108发送位置信息。位置信息继而可以供ASR 108使用以基于该位置确定适当的替代噪声模型。在其他实现方式中，当接收最初音频信号时，表示期望噪声模型与数据库111中已经存储的位置特有的替代噪声模型之间相似度的相似度度量可以基于该最初音频信号进行确定，并且该位置特有的替代噪声模型之一可以基于该相似度度量进行选择。

使用最初(或适配)用户语音模型和最初噪声模型，ASR 108的噪声补偿系统116对与话音搜索查询一起接收的音频信号执行噪声补偿以移除或减少音频信号中的背景音频，由此产生滤波音频信号(210)。例如，在例如ALGONQUIN：Iterating Laplace′s Methodto Remove Multiple Types of Acoustic Distortion for Robust SpeechRecognition，Eurospeech 2001-Scandinavia中描述的诸如Algonquin算法之类的算法可以用于使用最初用户语音模型和最初噪声模型来执行噪声补偿。

语音识别系统对滤波音频信号执行语音识别以将音频信号中的话语转录成一个或多个候选转录(210)。搜索查询可以使用一个或多个候选转录执行。在某些实现方式中，ASR 108可以使用上下文信息来选择用于执行语音识别的语音识别系统的特定变型。例如，用户的口音和/或期望或已知语言可以用于选择适当的语音识别系统。当提交话音搜索查询时用户的位置可以用于确定用户的期望语言，或者用户的语言可以包括在该用户的简档中。

参考图3，ASR 108从设备(诸如移动设备104)接收随后的话音搜索查询(302)。该随后的话音搜索查询可以是随后的，这是因为该话音搜索查询在针对具体用户或设备的先前话音搜索查询之后接收，或者因为存在针对用户或设备的替代或适配用户语音模型或噪声模型。

随后的话音搜索查询包括音频信号，该音频信号包括用户音频信号和环境音频信号。用户音频信号包含由用户口述至移动设备104的麦克风中的一个或多个话语以及潜在的环境音频。环境音频信号仅包含环境音频。如下文所述，话音搜索查询还可以包括上下文信息。

当被采用时，ASR 108访问关于话音搜索查询的上下文信息(304)。ASR 108可以使用此类上下文信息来帮助语音识别，例如，通过使用该上下文信息来选择语音识别系统的特定变型。附加地或备选地，上下文信息可以用于帮助替代或适配用户语音模型和/或适配或替代噪声模型的选择和/或适配。ASR 108可以向搜索引擎106传递此类上下文信息以改进搜索结果。某些或所有上下文信息可以与话音搜索查询一起接收。

ASR 108确定与话音搜索查询一起接收的音频信号中环境音频是否在定义阈值之下(306)。例如，话音活动检测器可以用于确定接收的音频信号中的用户音频信号和环境音频信号。ASR 108继而可以确定环境音频信号中的能量并且将该确定的能量与阈值能量进行比较。如果该能量在所述阈值能量之下，则环境音频被认为在定义阈值之下。在另一示例中，ASR 108可以确定用户音频信号中的能量，确定环境音频信号中的能量，并且继而确定用户音频信号中的能量与环境音频信号中的能量的比率。该比率可以表示音频信号的信噪比(SNR)。音频信号的SNR继而可以与阈值SNR相比较，并且当音频信号的SNR在阈值SNR之上时，环境音频被认为在定义阈值之下。

如果与话音搜索查询一起接收的音频信号中的环境音频不在定义阈值之下，则使用该音频信号适配替代(或适配)噪声模型以生成适配噪声模型(312)。在某些实现方式中，待适配的特定噪声模型基于用户的位置进行选择。例如，当不同噪声模型用于用户从其频繁提交话音搜索查询的不同位置时，ASR 108可以使用用户或设备的位置以选择针对该位置的替代或适配噪声模型。

噪声模型可以在整个音频信号上适配，或者环境音频信号可以被提取并用于适配噪声模型，取决于噪声模型的特定实现方式以及语音增强或语音分离算法。诸如隐马尔可夫模型或高斯混合模型之类的技术可以用于实现用户语音模型，并且诸如期望最大化之类的技术可以用于适配用户语音模型。

如果与话音搜索查询一起接收的音频信号中的环境音频在定义阈值之下，则该音频信号用于适配先前选择的替代用户语音模型(如果该替代先前尚未适配于适配用户语音模型)或者适配用户语音模型(308)。用户语音模型可以在整个音频信号上适配，或者用户音频信号可以被提取并用于适配用户语音模型，取决于用户语音模型的特定实现方式。类似于噪声模型，诸如隐马尔可夫模型或高斯混合模型之类的技术可以用于实现用户语音模型，并且诸如期望最大化或最大后验(MAP)适配之类的技术可以用于适配用户语音模型。

在某些实现方式中，ASR 108还基于其中背景音频在阈值之下的音频信号训练或以其他方式适配替代噪声模型或适配噪声模型(310)。虽然在某些实现方式中，用户语音模型仅使用其中背景音频在定义阈值之下的音频信号训练或适配，但在某些实例中，噪声模型可以基于此类音频信号以及其中背景音频在阈值之上的音频信号训练或适配，这取决于用于实现噪声模型的特定技术。例如，某些噪声模型可以包括反映其中背景音频在阈值之下的环境的方面的参数，并且因此此类模型可以从适配其中背景音频在阈值之下的音频信号中受益。

使用替代或适配用户语音模型(取决于替代语音模型是否被适配)和替代或适配噪声模型(取决于替代噪声模型是否被适配)，ASR 108的噪声补偿系统116以如上文所述相同的方式对与话音搜索查询一起接收的音频信号执行噪声补偿以移除或减少音频信号中的背景音频，从而产生滤波音频信号(314)。语音识别系统以如上文所述相同的方式对滤波音频信号执行语音识别以将音频信号中的话音转录成一个或多个候选转录(316)。

虽然过程300图示了在用于噪声补偿之前适配噪声模型和/或用户语音模型，但是适配可以在执行噪声补偿之后发生，并且噪声补偿可以基于噪声和/或用户语音模型被进一步适配之前的噪声和/或用户语音模型。这可以是以下情况，例如，当适配是计算密集型时。在此情况下，对话音搜索查询的期望响应时间可以通过使用针对噪声补偿的当前噪声和用户语音模型以及基于之后新的音频信号对其更新来实现。

图4示出了由移动设备104、ASR 108和用于处理话音搜索查询的搜索引擎106执行的过程400的示例的泳道图。移动设备104向ASR 108发送话音搜索查询(402)。如上文所述，话音搜索查询包括包含环境音频信号和用户音频信号的音频信号，环境音频信号包括不具有用户话语的环境音频，并且用户音频信号包括用户话语(以及潜在地环境音频)。话音搜索查询还可以包括上下文信息，诸如上文所述的上下文信息。

ASR 108接收话音搜索查询(402)并且选择噪声模型以及用户语音模型两者(404)。ASR 108例如可以基于与话音搜索查询一起包括或通过其他方式对ASR 108可访问的用户标识符或设备标识符来选择存储的适配用户语音模型。类似地，ASR 108例如可以基于与话音搜索查询一起包括或通过其他方式对ASR 108可访问的用户标识符或设备标识符来选择存储的适配噪声模型。在使用针对具体位置的不同噪声模型的实现方式中，ASR 108可以基于用户或设备标识符以及对应于在提交话音搜索查询时用户的位置的位置标识符来从多个位置特有适配噪声模型中选择存储的适配噪声模型。ASR108可以从在话音搜索查询中发送的或者通过其他方式对ASR 108可用的上下文信息中查明位置信息。

在针对用户或设备不存在适配用户语音模型的事件中，ASR 108例如使用上文所述技术来选择替代用户语音模型(404)。类似地，如果针对用户或设备不存在适配噪声模型，或者至少没有针对在提交话音搜索查询时用户的特定位置，则ASR 108例如使用上文所述技术来选择替代噪声模型。

ASR 108继而使用与话音搜索查询一起接收的音频信号来适配所选择的用户音频模型(406)和/或所选择的噪声模型(408)以生成适配用户语音模型或适配噪声模型，这取决于音频信号中的背景音频。如上文所述，在背景音频在定义阈值之下时，音频信号用于适配所选择的用户语音模型，并且在某些实现方式中用于适配所选择的噪声模型。在背景音频在定义阈值之上时，继而至少在某些实现方式中，噪声信号用于仅适配所选择的噪声模型。

ASR 108使用适配用户语音模型和适配噪声模型对音频信号执行噪声补偿(410)以生成与接收的音频信号相比已经减少或移除背景音频的滤波音频信号。

ASR引擎404对滤波音频信号执行语音识别416以将音频信号中的一个或多个话语转录成文本候选转录(412)。ASR引擎404向搜索引擎406转发418生成的转录(414)。如果ASR引擎404生成多个转录，则可以可选地以置信度为序对转录排序。ASR引擎404可以可选地向搜索引擎406提供上下文数据，诸如地理位置，搜索引擎406可以使用该上下文数据对搜索结果进行过滤或者排序。

搜索引擎406使用转录来执行搜索操作(416)。搜索引擎406可以对与转录项有关的一个或者多个URI定位。

搜索引擎406向移动设备402提供搜索查询结果(418)。例如，搜索引擎406可以转发如下HTML代码，该代码生成定位的URI的可视清单。

已经描述了多个实现方式。然而，将理解，可以进行各种修改而不脱离公开内容的精神实质和范围。例如，以上技术已经关于对话音搜索查询中的音频信号执行语音识别进行了描述，该技术可以用于其他系统，诸如在移动或其他设备上实现的计算机化话音听写系统或对话系统。此外，可以在重新排序、添加或者去除步骤时使用上文所示流程的各种形式。因而，其他实现方式在所附权利要求的范围内。

可以在数字电子电路中或者在包括在本说明书中公开的结构及其结构等效物的计算机软件、固件或者硬件中或者在它们中的一项或者多项的组合中实现本说明书中描述的实施方式和所有功能操作。实施方式可以被实现为一个或者多个计算机程序产品、即在计算机可读介质上编码的用于由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或者多个模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、实现机器可读传播信号的物质组成或者它们中的一项或者多项的组合。术语“数据处理装置”涵盖了用于处理数据的所有装置、设备和机器，例如包括一个可编程处理器、一个计算机或者多个处理器或者计算机。装置除了包括硬件之外还可以包括为讨论的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一项或者多项的组合的代码。传播信号是人为生成的信号，例如，由机器生成的电、光学或者电磁信号，该信号被生成以用于对信息进行编码以用于向适当接收器装置发送。

可以用包括编译或者解释语言的任何形式的编程语言编写计算机程序(也称为程序、软件、软件应用、脚本或者代码)，并且可以用任何形式部署它，包括作为独立程序或者作为适合用于在计算环境中使用的模块、部件、子例程或者其它单元。计算机程序不一定对应于文件系统中的文件。程序可以存储于保持其它程序或者数据的文件的部分中(例如，存储于标记语言文档中的一个或者多个脚本)、在专用于讨论的程序的单个文件中或者在多个协同文件(例如，存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署成在一个计算机上或者在位于一个地点或者分布于多个地点并且由通信网络互连的多个计算机上执行。

在本说明书中描述的过程和逻辑流程可以由一个或者多个可编程处理器执行，该处理器执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)执行，并且装置也可以实现为该专用逻辑电路。

适合于执行计算机程序的处理器例如包括通用和专用微处理器和任何种类的数字计算机的任何一个或者多个处理器。一般而言，处理器将从只读存储器或者随机存取存储器或者这二者接收指令和数据。计算机的基本单元是用于执行指令的处理器以及用于存储指令和数据的一个或者多个存储器设备。一般而言，计算机也将包括用于存储数据的一个或者多个海量存储设备(例如，磁盘、光磁盘或者光盘)或者操作地耦合成从该海量存储设备接收数据或者向该海量存储设备传送数据或者这二者。然而，计算机无需具有这样的设备。另外，计算机可以嵌入于另一设备中，仅举数例，该另一设备例如是平板计算机、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备、例如包括半导体存储器设备(例如，EPROM、EEPROM和闪存设备)；磁盘(例如，内部硬盘或者可拆卸盘)；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者并入于专用逻辑电路中。

为了提供与用户的交互，实施方式可以实限于计算机上，该计算机具有用于向用户显示信息的显示器设备(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户可以用来向计算机提供输入的键盘和指点设备(例如，鼠标或者跟踪球)。其它种类的设备也可以用来提供与用户的交互；例如，向用户提供的反馈可以是任何形式的感官反馈(例如，视觉反馈、听觉反馈或者触觉反馈)；并且可以用包括声音、语音或者触觉输入的任何形式接收来自用户的输入。

实施方式可以实现于计算系统中，该计算系统包括后端部件(例如，作为数据服务器)或者包括中间件部件(例如，应用服务器)或者包括前端部件(例如，具有用户可以用来与实现方式进行交互的图形用户界面或者Web浏览器的客户端计算机)或者这样的后端、中间件或者前端部件中的一个或者多个部件的任何组合。系统的部件可以由任何数字数据通信形式或者介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如，因特网。

计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助计算机程序来发生，这些计算机程序在相应计算机上运行并且相互具有客户端-服务器关系。

尽管本说明书包含许多细节，但是这些不应解释为对公开内容的范围或者可以要求保护的内容的范围的限制，而应当作为对特定实现实现特有的特征的描述。也可以在单个实施方式组合实施本说明书中在单独实施方式的上下文中描述的某些特征。反之，也可以在多个实施方式中单独或者在任何适当子组合中实施在单个实施方式的上下文中描述的各种特征。另外，虽然上文可以将特征描述为在某些实施方式中作用并且甚至起初这样要求保护，但是在一些情况下可以从要求保护的组合中去除来自该组合的一个或者多个特征，并且要求保护的组合可以涉及子组合或者子组合的变体。

类似地，尽管在附图中以特定顺序描绘操作，但是这不应理解为要求以所示特定顺序或者以序列顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中，多任务和并行处理可以是有利的。另外，在上文描述的实施方式中分离各种系统部件不应理解为在所有实施方式中要求这样的分离，并且应当理解，描述的程序部件和系统一般可以一起集成于单个软件产品中或者封装到多个软件产品中。

在其中提到HTML文件的每个实例中，可以替换为其它文件类型或者格式。例如，HTML文件可以替换为XML、JSON、明文或者其它类型的文件。另外，当提到表或者散列表时，可以使用其它数据结构(比如电子数据表、关系数据库或者结构化文件)。

因此，已经描述了特定实施方式。其它实施方式在所附权利要求的范围内。例如，在权利要求中记载的动作可以按不同顺序来执行并且仍然获得希望的结果。

Claims

1.一种用于语音识别的系统，包括：

用于接收由设备基于来自用户的音频输入生成的音频信号的装置，所述音频信号至少包括对应于由所述设备记录的一个或多个用户话语的用户音频部分；

用于访问与所述用户相关联的用户语音模型的装置；

用于确定所述音频信号中的背景音频在定义阈值以下的装置；

用于响应于确定所述音频信号中的所述背景音频在所述定义阈值以下，基于所述音频信号适配访问的用户语音模型以生成对所述用户的语音特性建模的适配用户语音模型的装置；以及

语音使用所述适配用户语音模型对接收的音频信号执行噪声补偿以生成与所述接收的音频信号相比具有减少的背景音频的滤波音频信号的装置。

2.根据权利要求1所述的系统，其中所述音频信号包括仅对应于围绕所述用户的背景音频的环境音频部分，并且为了确定所述音频信号中的所述背景音频在定义阈值之下，所述系统包括：

用于确定所述环境音频部分中的能量的量的装置；以及

用于确定所述环境音频部分中的所述能量的量在阈值能量之下的装置。

3.根据权利要求2所述的系统，为了确定所述音频信号中的所述背景音频在定义阈值之下，所述系统包括：

用于确定所述音频信号的信噪比的装置；以及

用于确定所述信噪比在阈值信噪比之下的装置。

4.根据权利要求3所述的系统，其中所述音频信号包括仅对应于围绕所述用户的背景音频的环境音频部分，并且为了确定所述音频信号的所述信噪比，所述系统包括：

用于确定所述音频信号的所述用户音频部分中的能量的量的装置；

用于确定所述音频信号的所述环境音频部分中的能量的量的装置；以及

用于通过确定所述用户音频部分与所述环境音频部分中的能量的量之间的比率来确定所述信噪比的装置。

5.根据权利要求1所述的系统，其中访问的用户语音模型包括没有被适配为对所述用户的所述语音特性建模的替代用户语音模型。

6.根据权利要求5所述的系统，其中所述系统包括：

用于选择所述替代用户语音模型的装置；以及

用于将所述替代语音模型与所述用户进行关联的装置。

7.根据权利要求6所述的系统，其中为了选择所述替代用户语音模型，所述系统包括：

用于确定所述用户的性别的装置；以及

用于基于所述用户的所述性别从多个替代用户语音模型之中选择所述替代用户语音模型的装置。

8.根据权利要求6所述的系统，其中为了选择所述替代用户语音模型，所述系统包括：

用于确定在记录所述一个或多个话语时所述用户的位置的装置；以及

用于基于在记录所述一个或多个话语时所述用户的所述位置从多个替代用户语音模型之中选择所述替代用户语音模型的装置。

9.根据权利要求6所述的系统，为了选择所述替代用户语音模型，所述系统包括：

用于确定所述用户的语言或口音的装置；以及

用于基于所述语言或口音从多个替代用户语音模型之中选择所述替代用户语音模型的装置。

10.根据权利要求6所述的系统，其中为了选择所述替代用户语音模型，所述系统包括：

用于接收至少包括对应于由所述设备记录的一个或多个用户话语的最初用户音频部分的最初音频信号的装置；

用于确定多个替代用户语音模型与基于所述最初音频信号确定的所述用户的期望用户语音模型之间的相似性度量的装置；以及

用于基于所述相似性度量从所述多个替代用户语音模型之中选择所述替代用户语音模型的装置。

11.根据权利要求1所述的系统，其中所述系统包括：

用于访问与所述用户相关联的噪声模型的装置；以及

其中为了执行噪声补偿，所述系统进一步包括用于使用所述适配用户语音模型和访问噪声模型对接收的音频信号执行噪声补偿的装置。

12.根据权利要求11所述的系统，其中为了执行噪声补偿，所述系统进一步包括：

用于基于接收的音频信号适配访问噪声模型以生成对围绕所述用户的背景音频的特性建模的适配噪声模型的装置；以及

用于使用所述适配用户语音模型和所述适配噪声模型来对接收的音频信号执行噪声补偿的装置。

13.根据权利要求11所述的系统，其中所述系统包括：

用于接收至少包括对应于由所述设备记录的一个或多个用户话语的第二用户音频部分的第二音频信号的装置；

用于确定所述第二音频信号中的背景音频在定义阈值之上的装置；以及

用于响应于确定所述第二音频信号中的所述背景音频在所述定义阈值之上，基于所述第二音频信号适配与所述用户相关联的所述噪声模型以生成对围绕所述用户的背景音频的特性建模的适配噪声模型的装置。

14.根据权利要求ll所述的系统，其中所述访问噪声模型包括尚未被适配为对围绕所述用户的背景音频的特性建模的替代噪声模型。

15.根据权利要求14所述的系统，其中所述系统包括：

用于选择所述替代噪声模型的装置；以及

用于将所述替代噪声模型与所述用户进行关联的装置。

16.根据权利要求15所述的系统，其中为了选择所述替代噪声模型，所述系统包括：

用于确定在记录对应于所述最初用户音频部分的所述一个或多个话语时所述用户的位置的装置；以及

用于基于在记录对应于所述最初用户音频部分的所述一个或多个话语时所述用户的所述位置从多个替代噪声模型之中选择所述替代噪声模型的装置。

17.根据权利要求15所述的系统，其中为了选择所述替代噪声模型，所述系统包括：

用于确定多个替代噪声模型与基于所述最初音频信号确定的所述用户的期望噪声模型之间的相似性度量的装置；以及

用于基于所述相似性度量从所述多个替代噪声模型之中选择所述替代噪声模型的装置。

18.根据权利要求17所述的系统，其中所述多个替代噪声模型中的每个替代噪声模型对特定位置中的背景音频的特性建模。

19.根据权利要求17所述的系统，其中所述多个替代噪声模型中的每个替代噪声模型对特定种类的环境条件中的背景音频的特性建模。

20.根据权利要求11所述的系统，其中为了访问所述噪声模型，所述系统包括：

用于基于所述用户的所述位置从多个噪声模型之中选择所述噪声模型的装置。

21.根据权利要求1所述的系统，其中所述音频信号对应于话音搜索查询，并且所述系统包括：

用于对所述滤波音频信号执行语音识别以生成所述一个或多个用户话语的一个或多个候选转录的装置；

用于使用所述一个或多个候选转录执行搜索查询以生成搜索结果的装置；以及

用于向所述设备发送所述搜索结果的装置。

22.一种用于语音识别的系统，包括：

用于向自动化语音识别系统发送至少包括对应于记录的一个或多个用户话语的用户音频部分的音频信号的装置；

用于接收所述音频信号的装置；

用于访问与所述用户相关联的用户语音模型的装置；

用于确定所述音频信号中的背景音频在定义阈值之下的装置；

用于响应于确定所述音频信号中的所述背景音频在所述定义阈值之下，基于所述音频信号适配访问的用户语音模型以生成对所述用户的语音特性建模的适配用户语音模型的装置；以及

用于使用所述适配用户语音模型对接收的音频信号执行噪声补偿以生成与所述接收的音频信号相比具有减少的背景音频的滤波音频信号的装置。

23.根据权利要求22所述的系统，其中所述系统进一步包括用于对所述滤波音频信号执行语音识别以生成所述一个或多个用户话语的一个或多个候选转录的装置，所述系统进一步包括：

用于发送所述搜索结果的装置。

24.一种用于语音识别的方法，包括：

接收由设备基于来自用户的音频输入生成的音频信号，所述音频信号至少包括对应于由所述设备记录的一个或多个用户话语的用户音频部分；

访问与所述用户相关联的用户语音模型；

确定所述音频信号中的背景音频在定义阈值以下；

响应于确定所述音频信号中的所述背景音频在定义阈值以下，基于所述音频信号适配访问的用户语音模型以生成对所述用户的语音特性建模的适配用户语音模型；以及

使用所述适配用户语音模型对所述接收的音频信号执行噪声补偿以生成与接收的音频信号相比具有减少的背景音频的滤波音频信号。