CN110556097B

CN110556097B - 定制声学模型

Info

Publication number: CN110556097B
Application number: CN201910400081.7A
Authority: CN
Inventors: 裴沐湖; 莫轲文
Original assignee: SoundHound Inc
Current assignee: SoundHound Inc
Priority date: 2018-06-01
Filing date: 2019-05-14
Publication date: 2023-10-13
Anticipated expiration: 2039-05-14
Also published as: US20220130390A1; US20240038233A1; US11367448B2; US11830472B2; JP6874037B2; US20190371311A1; CN117198270A; JP2019211752A; CN110556097A; US20210241769A1; US11011162B2

Abstract

本公开涉及定制声学模型。所公开的技术涉及针对多个不同设备、或处于多个状况下的设备执行语音识别。这包括：存储与不同设备或设备状况相关联的多个声学模型；接收包括自然语言表达的语音音频；接收指示设备类型或设备状况的元数据；根据接收到的元数据从多个声学模型中选择声学模型；以及采用选择的声学模型来从包括在接收到的语音音频中的自然语言表达中识别语音。语音识别和声学模型的存储中的每一个可以由设备在本地执行、或在网络连接的服务器上执行。还提供了平台和界面，以供设备开发者用来选择、配置、和/或训练针对特定设备和/或状况的声学模型。

Description

定制声学模型

技术领域

所公开的技术涉及自动语音识别(ASR)。具体地，所公开的技术涉及智能语音识别系统中的定制声学模型的创建、标识、选择和实现。

背景技术

语音识别系统在当今社会中变得更加普遍。越来越多的日常设备(例如，电器、车辆、移动设备等)正在配备有语音识别功能。问题是这些日常设备无法基于从用户接收到的语音音频来提供有意义的响应。该问题的根本原因之一是日常设备和/或与其连接的本地或远程服务无法将接收到的语音音频准确地转换为适当的转录(transcription)。通常，使用声学模型将接收到的语音音频转换为音素(phoneme)。然而，这些日常设备和/或与其连接的本地或远程服务使用未针对其(i)环境、(ii)预期使用状况、和/或(iii)预期用例结果而进行定做的声学模型。因此，这些具有语音识别功能的日常设备无法将接收到的语音音频准确地识别为可靠的转录(其中，根据可靠的转录，可以将有用的结果传送回用户，并且根据该结果，用户或用户的设备可以适当地进行响应)。

以下提供该问题的示例。假设咖啡店决定将他们的浓缩咖啡机升级为声音激活的全新高科技机器(即，包含语音识别系统)。由浓缩咖啡机实现的声学模型是通用的，并且尚未根据其使用的环境进行定制。这家特别的咖啡店拥有简约的工业装饰，使得声响的回声和混响远远超过其他环境中的典型回声和混响。此外，浓缩咖啡机被定位，使得用于接收顾客订单的区域位于浓缩咖啡机的一侧，水槽位于浓缩咖啡机的前面，而磨豆机位于浓缩咖啡机的另一侧。不用说，浓缩咖啡机的语音识别系统接收到很多背景噪声。此外，咖啡店的温度倾向于偏暖，并且由于持续使用，浓缩咖啡机的组件变得非常热。这些温度使得一个或多个麦克风和相关电子组件的特性表现超出正常范围。所有这些因素与通用声学模型相结合使得浓缩咖啡机具有非常不准确的转录和响应，以至于使用浓缩咖啡机的语音识别特征是不切实际的。

这些问题提供了开发能够实现声学模型技术的机会，该声学模型可以针对特定设备进行定做，并且可以基于各种环境和操作状况(例如，上面提到的那些环境和操作状况)来进行定做。所公开的技术解决了这些问题，并且能够提供更准确的语音识别系统和有意义的结果。

发明内容

通常，所公开的技术涉及用于分析表达的自动语音识别(ASR)。具体地，所公开的技术涉及标识、选择和实现语音识别系统中的声学模型，使得可以向终端用户提供有意义的结果。所公开的技术能够确定，在接收到语音音频以及指示设备的类型和/或设备的一个或多个状况(例如，终端用户设备，诸如浓缩咖啡机、或洗衣机、或车辆)的其他数据(即，元数据)时，应实现哪个声学模型。所公开的技术还提供了一种语音识别系统，该语音识别系统具有允许产品制造商或开发者选择应实现或应最有可能实现哪种类型的声学模型以能够提供有意义的结果的界面。

所公开的技术的特定方面在权利要求书、说明书和附图中进行描述。

附图说明

图1是示出由语音识别和自然语言理解系统实现的通用框架的框图。

图2是示出用于自然语言理解(NLU)的声学模型和语言模型之间的交互的示例实施例的框图。

图3示出了其中可以实现各种声学模型的示例环境的图。

图4示出了其中可以实现各种声学模型的图3的环境的示例实现方式。

图5示出了其中可以实现各种声学模型的图3的环境的示例实现方式。

图6示出了其中可以实现各种声学模型的图3的环境的示例实现方式。

图7示出了其中可以实现各种声学模型的图3的环境的示例实现方式。

图8示出了其中可以训练定制声学模型的图3的环境的示例实现方式。

图9是可以实现图3的环境的各种组件的示例计算机系统的框图。

具体实施方式

参考附图进行以下详细描述。描述示例实现方式是为了说明所公开的技术，而不是限制其范围，范围由权利要求限定。本领域普通技术人员将认识到下面的描述的各种等同变化。

图1是示出由语音识别和自然语言理解系统(例如，自然语言理解平台/服务器)实现的通用框架的框图。在语音识别和自然语言理解系统的现有技术实现方式中，通常首先应用语音识别以产生单词序列、或单词序列假设的集合。有时，这种类型的系统被称为声学识别和语言，或语言学，识别的组合。语音识别输出被发送到NLU系统以提取含义。

参考图1，通用框架100包括接收包括自然语言表达的语音音频。语音音频的示例可以是人讲述短语“冰淇淋甜筒”的录音。语音音频可以从任意来源(例如，移动电话、洗衣机、车辆等)接收。

然后，声学前端102使用声学模型103分析语音音频，以从语音音频中提取音素。这通常被称为声学识别。该操作的示例可以是基于接收到的语音音频生成音素“AY S<sil>KR IY M<sil>K OW N”(由卡内基梅隆大学(CMU)音素集表示)。

接下来，语言模型104接收由声学前端102生成的音素，该语言模型104可以被实现为将检测到的音素(例如，“AY S<sil>K R IY M<sil>K OW N”转录为实际的句子，例如，“冰淇淋甜筒”。将音素转录为转录并不是简单的过程，各种因素都会起作用。

一旦确定了一个或多个转录，NLU系统就执行自然语言理解106以从转录“冰淇淋甜筒”中提取含义。通常含义与基于域或上下文(vertical)、或基于周围环境的转录相关联。例如，如果上下文与搜索食物(或更具体地，搜索提供食物的地方)有关，则应用于转录“冰淇淋甜筒”的含义可以实现搜索提供冰淇淋立即消费的本地(最近的)位置。相反，如果上下文与销售食物以供稍后消费的地方(例如，杂货店)相关联，则含义将产生搜索销售冰淇淋甜筒的杂货店或市场。

所公开的技术集中于创建、选择和实现最佳声学模型以从接收到的语音创建音素。先前在确定最佳转录和最佳含义方面付出了很多努力，但是先前在确定在任意给定时间处要实现的最佳或最适当的声学模型方面没有做太多努力。

图2是示出用于自然语言理解的声学模型和语言模型之间的交互的示例实施例的框图。图2仅是图1的更详细的版本，并且示出了从用户接收语音音频到确定针对用户的有意义响应的示例过程或流程。虽然所公开的技术集中于定制声学模型的创建、选择和实现，但是图2提供了执行自然语言理解(NLU)所需的各种步骤和处理的良好示例框架。参考图2描述的所有操作不都是实现所公开的技术所必需的。所公开的技术能够以许多不同方式执行定制声学模型的创建、选择和实现，其中一些方式与图2的描述一致，并且其中一些方式与图2的描述不一致。

示例实施例200包括自动语音识别(ASR)系统203，该自动语音识别(ASR)系统203包括声学前端204、声学模型206、单词序列识别器208、和语言模型210。示例实施例200还包括自然语言理解212。当人说话时，包括自然语言表达的语音音频202被输入到声学前端204。声学前端204使用一个或多个声学模型206来处理语音音频202的声学特征。ASR系统203还可以接收选择标准(例如，元数据)，该选择标准用于辅助例如声学前端204从一个或多个声学模型206中选择声学模型。此外，声学前端生成一个或多个音素序列。

单词序列识别器208从声学前端204接收一个或多个音素序列，并且从语言模型210实现一个或多个语言模型以转录音素。ASR系统203可以实现各种类型的评分系统以确定最佳音素和/或转录。例如，每个可能的音素序列可以与指示该序列是最可能的预期序列的概率的分数相关联。例如，讲述者可以说“我读了一本好书”。(下面的)表1示出了具有可能由声学前端204生成的分数的示例性替代音素序列。音素序列可以使用音素集(例如，卡内基梅隆大学(CMU)音素集)或任意其他音标(phonetic)表示来进行表示。

音素序列	分数
		AY+R EH D+AH+G EH D+B UH K	0.000073034
AY+R EH D+AH+G UH D+B UH K	0.000083907
		AH+R EH D+AH+G UH D+B UH K	0.000088087

表1由语音引擎前端生成的音素序列

如表1所示，某些音素被加粗以引起对这三个非常相似的音标序列之间的差异的注意。虽然这是不正确的转录，但是第三替代音素序列具有最高的声学分数。这种类型的错误在各种语音识别系统的噪声、口音或缺陷的情况下会发生。这是为什么实现适当的声学模型是有益的示例。

接下来，对转录执行自然语言理解(NLU)212以最终获得语音音频202的有意义的表示(或数据结构)。

所公开的技术涉及选择要由例如声学前端204实现的定制声学模型(例如，声学模型206)。选择的定制声学模型可以在例如示例实施例200的环境中实现，或在对于本领域技术人员显而易见的任意其他框架中实现。

图3示出了其中可以实现各种声学模型的示例环境300的图。环境300包括至少一个用户设备302、304、306。用户设备302可以是运行应用303的移动电话、平板电脑、工作站、台式计算机、膝上型电脑、或任意其他类型的用户设备。用户设备304可以是汽车，并且用户设备306可以是洗衣机，它们各自运行应用303。下面更详细地讨论这些用户设备的各种示例实现方式。用户设备302、304、306被连接到一个或多个通信网络308，该一个或多个通信网络308允许环境300的各种组件之间的通信。在一个实现方式中，通信网络308包括互联网。通信网络308还可以利用不一定是互联网的一部分的专用或私有通信链路。在一个实现方式中，通信网络308使用标准通信技术、协议、和/或进程间通信技术。

环境300还包括可以预先安装在用户设备302、304、306上的、或通过通信网络308在用户设备302、304、306上更新/安装的应用程序310。环境300还包括语音识别平台/服务器311，该语音识别平台/服务器311是语音识别系统的一部分。语音识别平台/服务器311可以是单个计算设备(例如，服务器)、云计算设备，或其可以是能够彼此进行通信以执行(执行有意义的语音识别所需的)各种任务的计算设备、云计算设备等的任意组合。语音识别平台/服务器311包括短语解释器312，该短语解释器312执行例如上面参考图1所讨论的通用框架100的功能。因为语音识别平台/服务器311可以分布在多个服务器和/或云计算设备上，所以短语解释器312的操作也可以分布在多个服务器和/或云计算设备上。应用310可以由短语解释器312使用和/或与短语解释器312结合使用以理解语音输入。为了安全性和效率，环境300的各种组件可以使用定制应用程序接口(API)彼此进行通信(交换数据)。

用户设备302、304、306和短语解释器312各自包括用于存储数据和软件应用的存储器、用于在执行应用时访问的数据的处理器、以及促进通过网络308进行通信的组件。用户设备302、304、306执行应用303(例如，web浏览器(例如，在用户设备302上执行的web浏览器应用303))以允许开发者准备和提交应用310，并且允许用户提交包括自然语言表达的语音音频以用于由短语解释器312进行解释。短语解释器312基本上执行上面参考图1所讨论的通用框架100的功能。

环境300还包括声学模型选择界面320，该声学模型选择界面320允许开发者和/或用户从声学模型322的储存库中选择一个或多个适当的声学模型。声学模型322的储存库不一定被存储相同的位置中，并且可以是来自各种源的声学模型的集合，并且声学模型可以由开发者和/或终端用户定制，这取决于特定实现方式。声学模型选择界面320可以是允许选择声学模型以由短语解释器312实现的任意类型的界面，例如，浏览器或命令行界面。此外，可以选择多个声学模型以由短语解释器312实现，并且短语解释器312可以智能地选择要在任意给定点处实现的最佳声学模型。下面参考其他附图提供关于声学模型的选择和实现的进一步细节。

短语解释器312实现一个或多个声学模型314、语言模型316和自然语言域318。声学模型314(如上面参考图1所讨论的)可以输出音素和/或声响令牌。短语解释器312的语言模型316用于创建接收到的语音音频的转录。语言模型316可以是单级模型或多级模型，其添加单独的语言学分析的应用。例如，声学模型314可以处理接收到的语音音频以产生音素。这些音素可以被传递给语言模型316，语言模型316对音素序列进行考虑和评分。语言模型316有时可以使用双音素或三音素分析来识别可能的音素序列。语言模型316可以使用统计语言模型来识别统计上可能的单词序列。

由短语解释器312实现的自然语言域318用于向接收到的语音音频的转录添加真实含义。如上面参考图1描述的，自然语言域318能够将环境和含义放置于转录中。作为在本文后面进一步阐述的简要示例，假设洗衣机306发送讲述“请洗涤今天比赛的足球运动衫”的语音音频。一旦短语解释器312正确地生成音素和转录，自然语言域318就能够通过向洗衣机提供使用冷水进行超长浸泡和漂洗循环的指令来将含义应用于经转录的短语。替代地，自然语言域318可以仅向洗衣机306发送“洗涤足球运动衫”的指令，并且然后洗衣机306可以智能地决定实现哪些洗涤设置。

短语解释器312使用至少一个硬件组件来实现，并且还可以包括固件、或在硬件上运行的软件。与硬件组合以执行短语解释器312的动作的软件可以被存储在计算机可读介质上，例如，旋转或非旋转存储器。非旋转存储器可以是易失性的或非易失性的。在该应用中，计算机可读介质不包括未存储在存储器中的暂态电磁信号；计算机可读介质存储用于执行的程序指令。短语解释器312以及声学模型选择界面320、应用310、和声学模型322的储存库可以在云中或由通过通信网络308连接的其他实体全部或部分地托管和/或执行。

图4示出了其中可以实现各种声学模型的图3的环境的示例实现方式。具体地，图4示出了图3的环境300，并且还示出了其中洗衣机306用作用于语音识别的客户端设备的示例实现方式。虽然图4提供了洗衣机306作为用户设备的示例实现方式，但是任意其他用户设备可以替换洗衣机306。换句话说，该示例实现方式不限于仅洗衣机306作为用户设备。

具体地，图4示出了用户402使用麦克风/扬声器接口(未示出)直接与洗衣机306进行通信，并且用户402可以使用另一电子设备(例如，移动电话404)与洗衣机306进行通信。作为示例，用户402可以向洗衣机306传送语音音频“请洗涤今天比赛的足球运动衫”。同样，该语音音频可以被直接传送到洗衣机306，或可以通过移动电话404被传送到洗衣机306。然后，洗衣机306通过通信网络308将记录的语音音频提供给执行语音识别和自然语言理解的语音识别平台/服务器311。替代地，移动电话404也可以通过通信网络308将记录的语音音频传送到语音识别平台/服务器311。语音识别平台/服务器311然后实现短语解释器312。与语音音频一起，洗衣机306还发送元数据。注意，元数据可以从洗衣机306发送到通信网络308，和/或可以从洗衣机306发送到移动电话404，并且然后从移动电话404发送到通信网络308。为了将语音音频和元数据传送到语音识别平台/服务器311，洗衣机306、移动电话404和通信网络308之间的通信的其他组合对于本领域技术人员来说将是显而易见的。

然后，短语解释器312使用元数据来选择适当的声学模型314。元数据可以包括将有助于选择适当的声学模型314的任何有意义的信息。例如，元数据可以包括设备类型和特定设备状况中的任一者或两者。具体地，元数据可以包括(i)洗衣机306的唯一标识(例如，设备类型、型号、序列号等)，(ii)使用状况(例如，洗衣房中的温度和/或环境状况)，(iii)其他环境状况(例如，室外天气)，(iv)可能影响周围声学的信息，(v)与可能干扰声学模型的准确性的其他类型噪声有关的信息、(vi)洗衣机306的当前操作状况以及位于附近的其他设备(例如，烘干机或洗衣池)的操作状况，以及(vii)与洗衣机306的一个或多个硬件和软件组件、或涉及接收语音音频和/或向用户提供音频反馈的其他组件有关的信息。通常，通过具有更多关于表达的元数据信息，改善了系统优化对声学模型的选择或调适的能力。

一旦短语解释器312接收到语音音频和元数据，短语解释器312(或执行语音识别的整个系统或平台的一些其他组件)就可以决定哪个声学模型最适用于提取音素。一些实施例仅使用洗衣机306的型号或设备类型，并且短语解释器312能够选择针对该特定设备类型已被创建或调整(tune)的声学模型。如上所述，元数据的其他可能性也是如此。此外，如果可以识别洗衣机406的用户，则可以实现针对该特定用户的声音被调整的声学模型。注意，可以组合不同声学模型的不同特征。例如，针对特定用户的声音调整声学模型的特征可以与针对烘干机噪声调整声学模型的特征进行组合。这是根据元数据中包括的许多信息以及语音识别平台/服务器311可处置的各种不同声学模型来智能地创建和实现的混合匹配类型的声学模型。

语音识别服务的开发者或订户具有预先选择针对某些设备能够实现哪些声学模型的能力。短语解释器312能够存储那些预先选择的声学模型，和/或能够从声学模型322的储存库获得那些预先选择的声学模型。短语解释器312还可以获得可能有助于选择最佳声学模型314的其他状况406。一旦短语解释器312接收到必要的信息，其就能够针对作业选择最佳声学模型314，并且然后继续使用选择的声学模型314来生成音素，然后实现语言模型316以转录音素，并且然后应用自然语言域318以能够提供有意义的指令。

元数据还可以包括将辅助自然语言域318的信息。例如，如果元数据包括指示特定类型的天气(例如，下雨)的信息，则短语解释器312可以智能地确定足球运动衫由于天气状况将容易变得很泥泞。由短语解释器312提供的有意义的指令可以是洗衣机306分配某种类型的肥皂、运行额外的洗涤和漂洗循环、使用某些温度的水等的指令。替代地，由短语解释器312提供的有意义的指令可以简单地是“脏运动制服”，并且然后洗衣机306必须智能地确定要实现哪些洗涤循环和选项。无论哪种方式，能够提供有意义的指令的最有效和准确的方法是能够选择适当的声学模型。如果声学模型没有针对其中接收语音音频的状况被“调整”或“训练”，则语言模型316和自然语言域318成功的可能性大大降低。

返回到洗衣机306和/或用户402的有意义的信息可以是进一步澄清的请求等。然后，用户402和/或洗衣机306可以将进一步的信息提供回短语解释器312。此外，其他状况406可以是能够由洗衣机306在元数据中提供的并且能够从其他来源获知的信息(例如，天气、用户的日历信息等)。例如，如果短语解释器312能够知道足球比赛的大致日期/时间和位置，则可以更准确地知道天气、污渍已经存在多久、以及足球场上可能有什么类型的地面(例如，人造草坪、红土等)。

图5示出了其中可以实现各种声学模型的图3的环境的示例实现方式。具体地，图5示出了图3的环境300，并且还示出了其中车辆304用作用于自然语言识别的客户端设备的示例实现方式。虽然图5提供了车辆304作为用户设备的示例实现方式，但是任意其他用户设备可以替换车辆304。换句话说，该示例实现方式不限于仅车辆304作为用户设备。

具体地，图5示出了车辆304是用户设备，并且车辆304将语音音频和元数据发送到执行自然语言理解的语音识别平台/服务器311。类似于上面关于图4的讨论，可以使用通信设备的组合(例如，车辆304自身以及一个或多个移动设备)来发送/接收语音音频和元数据。车辆304的该示例遵循与上面针对洗衣机306描述的相同的过程，除了状况和有意义的指令将是完全不同的。车辆304可以具有多个麦克风和扬声器以及驾驶员和乘客的不同配置，使得标识正在讲话的一个或多个乘客的位置是有益的。此外，车辆304可能根据其位置和操作类型而遇到许多不同类型的噪声环境。在纽约市中心可能会出现交通堵塞，可能会有冰雹风暴，可能会有哭泣的婴儿，车辆可能会打开窗户，收音机可能会打开，车辆可能会以每分钟高转速(RPMs)或低RPM运行，或车辆304可以位于隧道中。车辆304可以持续监视所有这些情况，并且存储当用户调用语音识别时可以使用的适当元数据。此外，可以从用户的移动设备收集元数据，然后可以由车辆304存储和/或发送元数据。

作为示例，位于车辆304的后座上的乘客可以说“给奶奶摩西打电话”。除了上面针对洗衣机306讨论的元数据之外，元数据可以包括以下信息，例如，哪个和/或哪些麦克风被用来记录乘客的声音、车辆304的窗户是打开还是关闭、车辆304的采暖通风和空调(HVAC)是否在全速运转、以及可能收集的能够影响最佳声学模型的选择的任意其他信息。

图6示出了其中可以实现各种声学模型的图3的环境的示例实现方式。具体地，图6示出了图3的环境300，并且还示出了其中车辆304用作用于自然语言识别的客户端设备的示例实现方式。虽然图6提供了车辆304作为用户设备的示例实现方式，但是任意其他用户设备可以替换车辆304。换句话说，该示例实现方式不限于仅车辆304作为用户设备。

图6非常类似于图5，除了示出了不同的实施例。

实施例之一涉及车辆304从本地存储的声学模型322的集合中选择适当的声学模型，并且然后提出有意义的指令。该实施例卸载来自语音识别平台/服务器311的对声学模型的选择，并且允许车辆304选择最佳声学模型。开发者和/或用户可以利用针对该车辆304定制的声学模型来预先配置车辆304，并且然后车辆可以自己选择声学模型。如图6所示，车辆304可以存储声学模型406用于实现。车辆304可以自己实现声学模型，或其可以通过通信网络308发送声学模型。

在另一实施例中，车辆304可以(i)自己选择并且实现声学模型以获得有意义的指令，以及(ii)将语音音频、元数据和有意义的指令发送到语音识别平台/服务器311。然后，短语解释器312可以考虑语音音频和元数据以使其自己选择声学模型314以产生有意义的结果。然后，短语解释器312可以将其自己的有意义的指令与从车辆304接收到的有意义的指令进行比较，以确定最有意义的指令，并且然后将最有意义的指令发送到车辆304。这种实现方式在语音识别平台/服务器311可能已经用更准确的声学模型更新的情况下是有益的，反之亦然。

关于图4-6的讨论仅仅是示例，因为实现语音识别的用户设备可以大大不同并且用户设备池不断增加。

图7示出了其中可以实现各种声学模型的图3的环境的示例实现方式。具体地，图7示出了图3的环境300，并且还示出了界面702，开发者可以使用该界面702来选择用于实现和/或训练的定制声学模型等。

具体地，图7示出了声学模型选择界面320向开发者提供界面702。界面702可以是通过定制的应用或程序提供的图形用户界面，或其可以通过网络浏览器进行查看。本领域技术人员将认识到界面702所包含的各种类型的界面。例如，界面702可以是响应文本指令的命令行界面。此外，界面702可以允许开发者选择不同的模型以针对不同类型的状况、设备类型等进行实现。在该示例中，开发者能够针对第一状况选择应该实现声学模型A还是声学模型B。第一状况是用户设备(例如，浓缩咖啡机)是否正在家庭环境或商务/商业环境中使用。用户设备还可以针对第二状况选择声学模型C或声学模型D，这可能与附近是否有设备产生噪声有关。例如，在已知或预期附近存在磨豆机时，开发者可以选择声学模型C。在该示例中，假设开发人员已经选择了声学模型B(家庭使用)和声学模型C(附近存在磨豆机)。

因此，声学模型B和C可以与设备ID、或本文档中讨论的任意其他类型的标识相关地存储。在其中短语解释器312选择最佳声学模型的实现方式中，声学模型B和C可以由短语解释器312发送和/或存储，或可以使短语解释器312知道声学模型B和C的位置并且知道声学模型B和C是针对浓缩咖啡机(该特定标识符(ID))的选项。现在，短语解释器312可以基于与语音音频一起接收到的元数据来选择声学模型B或声学模型C。此外，如上所述，声学模型可以被混合和匹配(例如，部分组合)以提供最佳结果。

替代地，可以将声学模型B和声学模型C发送到用户设备302(例如，浓缩咖啡机)，使得用户设备302可以选择适当的声学模型。在用户设备302、304、306上运行的应用的开发者可以从界面702中选择声学模型。

声学模型选择界面320还能够将语音音频以及元数据一起提供给语音识别平台/服务器311，而不是语音音频和元数据从用户设备302、304、306到语音识别平台/服务器311。

例如，开发者可以通过在计算机系统上运行的界面702来选择适用于特定类型的用户设备(例如，洗衣机306)的至少两个声学模型的集合(或仅单个声学模型)。然后，在稍后时间处，语音音频以及由声学模型选择界面320接收的元数据可以经由运行声学模型选择界面320的计算机系统和/或从用户设备被发送到语音识别平台/服务器311。然后，语音识别平台/服务器311(使用短语解释器312)根据从集合中选择一个声学模型来向运行声学模型选择界面320的计算机系统提供有意义的指令。短语解释器312能够基于元数据智能地从集合中选择一个模型，并且然后继续确定有意义的指令。

替代地，运行声学模型选择界面320的计算机系统可以根据元数据或其他信息来从声学模型的集合中选择一个声学模型，并且然后指示短语解释器312来实现选择的声学模型。

此外，可以预先选择在界面702上呈现给开发者的声学模型，使得它们是适用于特定类型的用户设备的声学模型。可以根据在与用户设备的活跃会话中从特定类型的用户设备接收或与特定类型的用户设备相关的元数据，来预先选择适用于特定类型的用户设备的这些声学模型。换句话说，可以分析从用户设备接收到的元数据，并且可以根据接收到的元数据来预先选择适当的声学模型，并且然后将适当的声学模型呈现给开发者。这种实现方式的目的是，不用不相关的声学模型来压垮开发者，或防止开发者选择弊大于利的声学模型。而且，在与用户设备的活跃会话之外，开发者仍然可以选择适用于不同类型的用户设备的声学模型。以与上述讨论类似的方式，运行声学模型选择界面320的计算系统可以预先选择适用于开发者正在配置的各种类型的用户设备的声学模型。

此外，用户设备302、304、306的开发者和/或制造商可能开发了专门针对用户设备302、304、306的类型、和/或其中可以或能够实现用户设备302、304、306的环境或状况而进行定做的定制声学模型或经训练的定制声学模型。这些定制模型可以通过界面702呈现给开发者以供选择。下面参考图8讨论用于训练声学模型的环境。

图8示出了其中可以训练定制声学模型的图3的环境的示例实现方式。具体地，图8示出了图3的环境300，并且还示出了在实现声学模型322之前如何训练声学模型322。

具体地，图8示出了可以通过将训练数据(例如，干净的语音802和噪声804)输入声学模型来执行模型训练808。经训练的声学模型可以由开发者或制造商提供，或它们可以是经过训练以用于在特定类型的设备和/或环境中实现的通用模型。干净的语音802可以是通用的，或可以基于预期由用户设备302、304、306接收的短语来具体选择。例如，不同的语言需要不同的训练语音。类似地，噪声804可以是通用的，或可以基于预期存在于用户设备302、304、306的操作环境中的噪声类型来选择。噪声804可以由开发者和/或制造商提供。开发者和/或制造商可以以定制噪声数据、或甚至相应地生成噪声的定制噪声模型的形式，来提供噪声804。开发者和/或制造商还可以提供定制声学模型以用于立即实现作为声学模型322的一部分，并且开发者和/或制造商可以提供定制声学模型以用于进一步的模型训练808。此外，干净的语音802和/或噪声804可以被提供给开发者和/或制造商，使得开发者和/或制造商可以自己训练声学模型，并且然后最终提供定制和经训练的声学模型以用于从声学模型322进行实现。声学模型322的储存库可以被解析或分离以防止一个开发人员和/或制造商的模型由另一开发人员和/或制造商实现的安全性问题。

开发者和/或制造商还可以使用类似于声学模型选择界面320的界面来训练声学模型。一旦声学模型被训练，就可以使用上面参考图7描述的界面702来选择它们。

一些实施例是可以在不同软件状况下(例如，通过运行不同的应用)运行的设备或服务设备(例如，移动电话)。其中哪个或哪些应用正在运行的状态是对选择适当的声学模型有用的一种类型的状况。例如，电子邮件应用最常在相对低噪声环境中使用。导航应用可以指示可能存在车辆道路或街道噪声。输出音频的应用(例如，音乐播放器、视频播放器、或游戏)将偏好(favor)对背景音乐声音有弹性的声学模型。

一些实施例是在不同物理或硬件状况下运行的设备或服务设备。例如，移动和便携式设备的地理定位或运动类型对指导声学模型的选择是有用的。例如，体育场中的设备将偏好针对背景声音进行训练的声学模型，并且高速运动的设备将偏好针对道路噪声进行训练的声学模型。

基本上，在移动电话中发现的任意类型的传感器(例如，光级(light level)传感器、加速度计、麦克风、相机、卫星导航(例如，GPS)接收器、以及蓝牙接收器)以及在汽车中发现的任意类型的传感器(例如，相机、激光雷达、地理定位、光级、牵引水平、和发动机状况)可以提供对声学模型选择有用的信息。

一些实施例收集通常可检测的设备状况数据，并且使用有监督或无监督的机器学习算法将设备状况数据应用于在线或离线的语音记录，以训练用于在给定设备状况下选择或调整声学模型以获得最佳准确度的模型。

一些实施例根据(例如，由与语音音频相关联的元数据编码的)设备类型来选择声学模型。一些这样的实施例具有用于多种类型的设备中的各个类型的设备的通用编码，例如，区分洗衣机、咖啡机和汽车的那些通用编码。一些实施例将型号编码为元数据，这对区分家用咖啡机和商用咖啡机、或区分运动型车辆和豪华型车辆是有用的。一些实施例对唯一地标识设备的每个制造实例的序列号进行编码。这对个性化选择用于设备的实际典型使用的声学模型是有用的。例如，某些型号的咖啡机可用于家庭和办公室，它们具有不同的噪声环境。一些设备是由具有不同口音的消费者购买的。如果选择的声学模型偏好具有消费者特定口音的人，则基于设备序列号选择声学模型可以提高语音识别准确度。

一些实施例(例如，车辆和可穿戴设备)有时或总是在不通过网络访问语音识别服务器的情况下进行操作。这些实施例使用多个本地存储的声学模型322中的一个或多个声学模型来本地执行语音识别。设备类型不是特别有用的元数据类型，但是设备状况对基于表达选择最佳声学模型以用于语音识别是有用的。

使用由元数据引导的声学模型的选择来执行本地语音识别的一些实施例包括存储元数据的存储元件。例如，汽车存储指示窗口的位置、通风扇的状态、和其声音系统的音量的元数据，所有这些元数据在各种实施例中对选择适当的声学模型是有用的。使用元数据(元数据针对选择声学模型的方法被存储在实施例中)应该被解释为为了执行方法而接收元数据。

一些网络连接的基于服务器的系统在设备内本地存储适当的声学模型，并且针对每个表达或针对每个检测到的状况变化来选择最佳声学模型。在通过网络向语音识别服务器发送表达时，系统将声学模型与语音音频一起发送。

一些实施例(例如，用于听写、小词汇量命令识别、关键词搜索、或短语检出(spotting)的实施例)在没有自然语言理解的情况下执行语音识别，并且在一些实施例中，不使用语言模型。

一些实施例是或包括定制语音识别平台，例如，SoundHound Houndify。这些实施例提供基于服务器的语音识别，并且在一些实施例中，还提供自然语言处理和虚拟辅助功能。根据一些实施例的平台向开发者提供针对他们的特定设备来定制语音识别的界面。一些这样的平台仅提供对语音识别应该使用近场声学模型还是应该使用远场声学模型的选择。一些平台提供许多其他配置参数，例如，对词汇大小、麦克风的数量、应用类型、噪声配置文件、和设备价位的选择。

一些实施例包括使用这样的平台配置界面来为一种类型的设备配置语音识别的方法。一些开发支持语音的系统的公司使用这样的平台来为其客户端设备配置基于服务器的识别的操作。一些公司使用平台来配置语音识别软件以在设备上本地运行。在任一种情况下，一些平台提供并且一些开发人员使用识别测试语音音频的能力。一些这样的平台和用户提供测试语音音频以及测试元数据，以观察和改变其开发中的设备和系统的声学模型选择的预期性能。

一些实施例包括一个或多个计算机可读介质，例如，硬盘驱动器、固态驱动器、或闪存RAM芯片。被设计用于与服务器系统一起工作的一些设备包括这样的计算机可读介质，其存储软件以控制设备从而使得设备执行元数据的检测，该元数据对选择声学模型有用。这可以是，例如，通过从设备本地传感器进行读取，或通过从存储介质读取存储的设备状态值。这类软件还控制设备接收语音音频，将语音音频和元数据发送到服务器，并且从服务器接收请求的信息。例如，语音音频可以是对天气报告的请求，并且接收到的信息可以是对天气报告的描述。又例如，语音音频可以是发送文本消息的请求，并且接收到的信息可以是控制设备执行文本消息创建功能的数据结构。

出于本发明的目的，在存储介质中具有数据的被动行为应当被解释为存储的行为，无论是谁将数据写入存储介质以及何时或如何发生写入。

图9是可以实现图3的环境300的各种组件的示例计算机系统的框图。计算机系统910通常包括至少一个处理器914，该至少一个处理器914通过总线子系统912与多个外围设备进行通信。这些外围设备可以包括存储子系统924(包括例如存储器设备和文件存储子系统)、用户界面输入设备922、用户界面输出设备920、和网络接口子系统916。输入和输出设备允许用户与计算机系统910进行交互。网络接口子系统916提供到外部网络的接口(包括到通信网络308的接口)，并且经由通信网络308耦合到其他计算机系统中的相应接口设备。

用户界面输入设备922可以包括键盘、指点设备(例如，鼠标、轨迹球、触摸板、或图形输入板)、扫描仪、结合到显示器中的触摸屏、音频输入设备(例如，语音识别系统)、麦克风、和其他类型的输入设备。通常，术语“输入设备”的使用旨在包括将信息输入至计算机系统910或通信网络308的所有可能类型的设备和方式。

用户界面输出设备920可以包括显示子系统、打印机、传真机、或非可视显示器(例如，音频输出设备)。显示子系统可以包括阴极射线管(CRT)、平板设备(例如，液晶显示器(LCD))、投影设备、或用于产生可见图像的一些其他机制。显示子系统还可以提供非可视显示，例如通过音频输出设备。通常，术语“输出设备”的使用旨在包括将信息从计算机系统910输出至用户或另一机器或计算机系统的所有可能类型的设备和方式。

存储子系统924存储提供本文描述的一些或所有模块的功能的程序和数据结构。这些软件模块通常由处理器914单独执行或与其他处理器组合执行。

存储子系统中使用的存储器926可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)930和存储固定指令的只读存储器(ROM)932。文件存储子系统928可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器、或可移动介质盒。实现特定实施例的功能的模块可以由文件存储子系统928存储在存储子系统924中，或存储在处理器可访问的其他机器中。

总线子系统912提供用于使计算机系统910的各种组件和子系统按预期彼此进行通信的机制。虽然总线子系统912被示意性地示出为单个总线，但是总线子系统的替代实施例可以使用多个总线。

计算机系统910可以是各种类型的，包括工作站、服务器、计算集群、刀片服务器、服务器群、或任意其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图9中描绘的计算机系统910的描述仅旨在作为用于说明各种实施例的具体示例。计算机系统910的许多其他配置可以具有比图9中描绘的计算机系统更多或更少的组件。

一些特定实现方式

我们描述了用于执行语音识别的各种实现方式。

所公开的技术可以实施为系统、方法、或制品(存储代码的非暂态计算机可读介质)。实现方式的一个或多个特征可以与基础实现方式进行组合。不相互排斥的实现方式被教导为可组合的。实现方式的一个或多个特征可以与其他实现方式进行组合。本公开定期提醒用户这些选项。一些实现方式中重复这些选项的记述的省略不应当被视为限制前面几节中教导的组合，这些记述通过引用结合到以下每个实现方式中。

所公开的技术的系统实现方式包括耦合到存储器得一个或多个处理器。存储器加载有执行各种操作的计算机指令。所公开的技术的CRM实现方式包括存储有代码非暂态计算机可读介质，该代码在由一个或多个计算机执行，将使得一个或多个计算机执行各种操作。系统实现方式和CRM实现方式能够执行下面描述的任意方法实现方式。

在一个实现方式中，提供了一种针对多个不同设备执行语音识别的方法。该方法包括：存储与不同设备状况相关联的多个声学模型；接收包括自然语言表达的语音音频；接收指示设备状况的元数据；从多个声学模型中选择声学模型，该声学模型是根据指示设备状况的接收到的元数据而选择的；并且使用选择的声学模型来从包括在接收到的语音音频中的自然语言表达中识别语音。

在另一实现方式中，提供了一种针对多个不同设备执行语音识别的方法。该方法包括：存储与不同设备类型相关联的多个声学模型；接收包括自然语言表达的语音音频；接收指示设备类型的元数据；从多个声学模型中选择声学模型，该声学模型是根据指示设备类型的接收到的元数据而选择的；并且采用选择的声学模型从包括在接收到的语音音频中的自然语言表达中识别语音。

此外，在不同实现方式中，提供了一种提供平台以用于配置特定于设备的语音识别的方法。该方法包括：向开发者提供用户界面以选择适用于特定类型的设备的至少两个声学模型的集合；从开发者接收对至少两个声学模型的集合的选择；以及配置语音识别系统以执行特定于设备的语音识别。

在另一实现方式中，提供了一种配置语音识别系统以执行特定于设备的语音识别的方法。该方法包括：从特定设备类型的设备接收包括自然语言表达的语音音频和与接收到的语音音频相关联的元数据；根据接收到的元数据来选择至少两个声学模型中的一个声学模型；并且使用选择的声学模型来从包括在接收到的语音音频中的自然语言表达中识别语音。

在又一实现方式中，提供了一种使用平台以用于配置特定于设备的语音识别的方法。该方法包括：通过由计算机系统提供的用户界面来选择适用于特定类型的设备的至少两个声学模型的集合；将语音音频以及元数据提供给与平台相关联的语音识别系统；以及从计算机语音识别系统接收有意义的指令，其中，有意义的指令是由语音识别系统根据从集合中选择一个声学模型来创建的。

在另一实现方式中，提供了一种存储有代码的非暂态计算机可读介质。该代码在由一个或多个计算机执行，将使得一个或多个计算机：检测对选择声学模型有用和指示设备状况的信息；接收语音音频；发送检测到的信息和接收到的语音音频；并且接收由语音音频中的语音请求的信息，其中，检测到的信息能够被用来从与不同设备状况相关联的多个声学模型中选择声学模型，并且其中，选择的声学模型被用来从发送的语音音频中识别语音。

针对每个法定类别的基本特征集合，不重复适用于系统、方法和制品的特征。读者将理解本节中标识的特征如何能够与其他法定类别中的基本特征相结合。

Claims

1.一种提供平台以用于配置特定于设备的语音识别的方法，所述方法包括：

接收定制噪声数据；

使用所述定制噪声数据和干净语音数据来训练定制声学模型；

向开发者提供用户界面以供从包括所述定制声学模型的至少两个声学模型的集合进行选择；

从开发者接收对来自所述至少两个声学模型的集合的所述定制声学模型的选择；以及

配置语音识别系统以通过实现所选择的声学模型来执行特定于设备的语音识别。

2.根据权利要求1所述的方法，还包括：通过以下操作来执行所述特定于设备的语音识别：

从特定类型的设备接收包括自然语言表达的语音音频和与所接收到的语音音频相关联的元数据；

根据所接收到的元数据来选择所述至少两个声学模型的集合中的所实现的声学模型；以及

使用根据所接收到的元数据而选择的声学模型来从包括在所接收到的语音音频中的所述自然语言表达中识别语音。

3.根据权利要求2所述的方法，其中，所述元数据根据所述设备的特定类型来标识所实现的声学模型。

4.根据权利要求2所述的方法，其中，所述元数据标识所述设备的特定设备状况，并且所述语音识别系统根据所述特定设备状况来选择所实现的声学模型。

5. 根据权利要求1所述的方法，还包括：

接收适用于特定类型的设备的定制声学模型；以及

在所述用户界面内提供所述定制声学模型以被选择作为所实现的声学模型。

6.根据权利要求1所述的方法，还包括：

从所述开发者接收适用于特定类型的设备的训练数据；

使用所接收到的训练数据来训练声学模型；以及

在所述用户界面内提供所训练的声学模型以作为所实现的声学模型。

7.一种开发者使用平台用于配置特定于设备的语音识别的方法，所述方法包括：

通过由计算机系统提供的开发者界面来提供定制噪声数据；

接收用于通过所述开发者界面进行选择的经训练的定制声学模型，所述经训练的定制声学模型已经使用（i）由所述开发者提供的定制噪声数据和（ii）干净语音数据进行了训练；

通过所述开发者界面并且从包括所述经训练的定制声学模型的至少两个声学模型的集合，来选择适用于特定类型的设备的所述经训练的定制声学模型以进行实现；以及

将语音音频以及指示所实现的声学模型的元数据提供给与所述平台相关联的语音识别系统。

8.根据权利要求7所述的方法，还包括：

向所述开发者界面提供适用于所述特定类型的设备的定制声学模型，

其中，所述至少两个声学模型的集合包括所提供的定制声学模型。

9. 根据权利要求7所述的方法，还包括：

提供训练数据用于训练适用于所述特定类型的设备的声学模型；以及

通过所述开发者界面来选择基于所提供的训练数据而进行训练的声学模型以进行实现。

10.根据权利要求7所述的方法，其中，所述元数据根据所述设备的特定类型来标识所实现的声学模型。

11.根据权利要求7所述的方法，其中，所述元数据标识特定设备状况，并且所述计算机系统根据所述特定设备状况来选择所实现的声学模型。