CN109791761A

CN109791761A - 使用校正的术语的声学模型训练

Info

Publication number: CN109791761A
Application number: CN201780047138.9A
Authority: CN
Inventors: O.卡普拉洛瓦; E.A.切雷帕诺夫; D.奥斯马科夫; M.鲍姆尔; G.斯科贝尔特森
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-07-29
Filing date: 2017-06-20
Publication date: 2019-05-21
Anticipated expiration: 2037-06-20
Also published as: CN116543762A; EP3491641A1; JP2019528470A; JP6726354B2; WO2018022220A1; EP3739575B1; US11682381B2; KR20190032498A; KR102256705B1; US20180033426A1; EP3739575A1; US20220093080A1; EP4425488A2; EP3491641B1; US20200243070A1; US10643603B2; US20230274729A1; US11200887B2; US10019986B2; CN109791761B

Abstract

用于语音识别的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。一种方法包括接收对应于话语的第一音频数据；获得第一音频数据的第一转录；接收指示(i)对第一转录的一个或多个术语的选择和(ii)替换术语中的一个或多个的数据；确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正；响应于确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正，获得对应于第一转录的一个或多个术语的第一音频数据的第一部分；以及使用与第一转录的一个或多个术语相关联的第一音频数据的第一部分来训练声学模型用于识别替换术语中的一个或多个。在示例实现方式中，提供了改进的语音识别系统，其能够从一个或多个术语的各种发音产生一个或多个术语的改进的转录。

Description

使用校正的术语的声学模型训练

技术领域

本说明书涉及语音识别。

背景技术

设备可以包括用于响应设备的用户的话语的软件。一些话语可以包括给设备指令以呼叫电话号码、发送电话号码、操作应用或在移动设备或因特网上搜索信息。设备可以采用语音到文本或自动语音识别(ASR)处理来识别来自用户的话音(voice)输入。

发明内容

在示例实现方式中，提供了一种改进的语音识别系统，其可以从一个或多个术语的各种发音产生一个或多个术语的改进的转录。根据一个示例实现方式，语音识别系统从用户接收一个或多个术语的话语。作为响应，语音识别系统向用户设备提供话语的转录。当提供的转录不正确时，语音识别系统可以接收用户输入以校正转录的一个或多个特定术语。语音识别系统使用用户输入训练声学模型以校正一个或多个特定术语以及对应于的一个或多个特定术语的音频数据。

通常，本说明书中描述的主题的一个创新方面可以体现在包括如下动作的方法中：接收对应于话语的第一音频数据；获得第一音频数据的第一转录；接收指示(i)对第一转录的一个或多个术语的选择和(ii)替换术语中的一个或多个的数据；确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正；响应于确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正，获得对应于第一转录的一个或多个术语的第一音频数据的第一部分；以及使用与第一转录的一个或多个术语相关联的第一音频数据的第一部分来训练声学模型用于识别替换术语中的一个或多个。该方面的其他实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序，每个被配置为执行所述方法的动作。对于要被配置为执行特定操作或动作的一个或多个计算机系统，意味着系统已经在其上安装了软件、固件、硬件或它们的组合，其在操作中使得所述系统执行操作或动作。对于要被配置为执行特定操作或动作的一个或多个计算机程序，意味着一个或多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。

前述和其他实施例可以各自可选地包括一个或多个以下特征，单独地或组合地。具体地，一个实施例包括组合的所有以下特征。该方法还包括接收对应于话语的第二音频数据，所述第二音频数据包括对应于第一音频数据的第一部分的第二部分；获得第二音频数据的第二转录；从第二音频数据中辨别第二部分；使用训练的声学模型获得第二部分的校正的转录；以及获得将第二转录和校正的转录合并的转录。该方法还包括获得响应于将第二转录和校正的转录合并的转录的搜索结果；以及提供搜索结果中的一个或多个。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个与替换术语中的一个或多个之间的语音(phonetic)相似性。确定语音相似性包括计算选择的术语中的一个或多个中的每一个与替换术语中的一个或多个中的每一个之间的语音距离。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个当中的连接。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个是连续的。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个中的每一个包括阈值数量的字符。

本说明书中描述的主题可以在特定实施例中实现，以便实现以下优点中的一个或多个。训练声学模型以从特定术语的各种发音中识别特定术语。使用训练的声学模型的语音识别系统可以从特定术语的各种发音提供特定术语的正确转录，而无需接收用户的校正输入。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1A是示出用于执行话音搜索的示例方法的图。

图1B是示出用于执行话音搜索的另一示例方法的图。

图2是示出示例话音搜索系统的图。

图3是示出用于训练声学模型的示例方法的流程图。

图4是示出用于使用训练的声学模型提供搜索结果的示例方法的流程图。

各附图中相同的附图标记和名称表示相同的元件。

具体实施方式

图1A示出用于执行话音搜索的示例方法，包括在示例用户界面中接收校正输入。搜索系统提供用户界面102a，用于在用户设备106a，例如，移动电话、平板电脑或配置成接收语音输入的其他用户设备上显示。用户界面102a包括用于接收对应于查询的键入输入的搜索框104和用于发起语音识别会话以接收来自用户10的第一话音查询而不是键入输入的麦克风图标108。用户10例如通过选择用户界面102a中的麦克风图标108来输入第一话音输入101。在一些实现方式中，用户界面包括键盘布局，该键盘布局可以被呈现用于至搜索框的键入输入。

在用户会话中，搜索系统接收来自用户10的话语101。例如，话语101可以是话音输入。具体地，用户10向用户设备106a提供“前往La Jolla的方向”(Directions to LaJolla)的话音输入。例如，用户10可以将“Jolla”发音为[zō-la]。响应于第一话音输入101，呈现用户界面102a，其包括搜索框104中的从第一话音输入101生成的第一转录112的显示。第一转录112是“前往La Zola的方向”。例如，可以对第一话音查询执行语音到文本处理以生成声称的转录作为对应的第一转录112。搜索系统可以将转录作为第一转录112提供给用户设备106a用于在用户界面102a中显示。

此外，第一转录112可以用作对搜索系统的查询。搜索系统提供响应于查询“前往La Zola的方向”的搜索结果110用于在用户界面102b中显示。例如，搜索结果110可以包括到由搜索系统确定的响应于查询的特定资源的链接。然而，在此示例中，识别的查询被识别为术语“Zola”而不是术语“Jolla”。

如在用户界面102b中所示，响应于识别，用户10可以与用户界面102b交互以选择对应于识别的术语“Zola”的第一转录112的部分114。例如，在触摸界面中，用户10可以用手指或触笔触摸识别的术语114。在非触摸界面中，用户可以将光标导航到识别的术语并选择识别的术语，例如，用鼠标输入。

参考用户界面102c，用户10向用户设备106a提供第一输入111。提供第一输入111以替换第一转录112的选择的部分114。例如，第一输入111可以是键入输入。用户10可以逐字母地键入术语“j-o-l-l-a”的拼写以替换选择的部分114。用户10可以使用由用户界面提供的键盘布局来键入术语的拼写。

如用户界面102d中所示，在搜索框104中显示校正的转录“前往La Jolla的方向”。此外，响应于校正的转录116，搜索系统提供响应于校正的查询“前往La Jolla的方向”的搜索结果120用于在用户界面102d中呈现。例如，搜索结果120可以包括到由搜索系统确定的响应于校正的查询的特定资源的链接。在一些实现方式中，搜索系统将查询识别为特定类型的请求(例如，方向)，并提供地图界面作为搜索结果120的部分或代替搜索结果120。

图1B示出用于执行话音搜索的另一示例方法。在该示例中，用户10可以向用户设备106a提供校正输入，而无需键入术语的拼写来替换选择的部分114。参考用户界面102b，用户10选择第一转录112的部分114为替换术语“Zola”。当用户10选择第一转录112的部分114时，向用户设备106a提供一个或多个建议的转录。例如，如用户界面102c中所示，可以在下拉框115中显示建议的转录117“前往La Jolla的方向”。用户10可以选择建议的转录117来替换第一转录112。例如，在触摸界面中，用户10可以用手指或触笔触摸用户界面102c的部分119。在非触摸界面中，用户10可以将光标导航到部分119以选择建议的转录117并且选择部分119，例如用鼠标输入。

当用户10选择建议的转录117时，如用户界面102d中所示，在搜索框104中显示校正的转录“前往La Jolla的方向”。此外，响应于校正的转录116，搜索系统提供响应于校正的查询“前往La Jolla的方向”的搜索结果120用于在用户界面102d中呈现。例如，搜索结果120可以包括到由搜索系统确定的响应于校正的查询的特定资源的链接。在一些实现方式中，搜索系统将查询识别为特定类型的请求(例如，方向)，并提供地图界面作为搜索结果120的部分或代替搜索结果120。

从参考图1A和图1B描述的用户会话，系统接收训练数据以训练声学模型。具体地，系统接收(i)对应于第一话音输入101的至少部分的音频数据和(ii)校正的转录116中的一个或多个术语作为训练数据。在一些实现方式中，系统接收对应于“前往La Jolla[zō-la]的方向”的音频数据和校正的转录116中的替换术语“Jolla”作为训练数据。系统辨别对应于选择的术语“Zola”的音频数据的部分。系统将对应于“Zola[zō-la]”的音频数据的部分与音频数据隔离。使用音频数据的隔离部分和替换术语“Jolla”，系统训练声学模型。例如，系统可以训练声学模型以响应于“Zola[zō-la]”的话音输入来识别术语“Jolla”。

在一些实施方式中，系统接收对应于第一话音输入的音频数据和整个校正的转录作为训练数据。例如，系统接收对应于“前往La Jolla[zō-la]的方向”的音频数据和整个校正的转录“前往La Jolla的方向”。使用音频数据和整个转录，系统训练声学模型。

呈现用户界面102e，其包括使用训练的声学模型获得的第二转录118的显示。在该用户会话中，系统接收来自用户20的第二话音输入121。具体地，用户20向用户设备106b提供“前往La Jolla[zō-la]的方向”的话音输入。响应于第二话音输入121，系统使用训练的声学模型提供第二转录118作为“前往La Jolla的方向”而不是“前往La Zola的方向”。

此外，响应于第二转录118，搜索系统提供响应于校正的查询“前往La Jolla的方向”的搜索结果120用于在用户界面102e中呈现。例如，搜索结果120可以包括到由搜索系统确定的响应于校正的查询的特定资源的链接。在一些实现方式中，搜索系统将查询识别为特定类型的请求(例如，方向)，并提供地图界面作为搜索结果120的部分或代替搜索结果120。

图2示出使用训练的声学模型的示例话音搜索系统200。系统200提供与提交的查询相关的搜索结果，这可以在因特网、内联网或另一客户端和服务器环境中实现。系统200是信息检索系统的示例，其中可以实现下面描述的系统、组件和技术。

用户202可以通过客户端设备204与搜索系统214交互。例如，客户端204可以是通过局域网(LAN)或广域网(WAN)，例如，因特网耦合到搜索系统214的计算机。在一些实现方式中，搜索系统214和客户端设备204可以是一台机器。例如，用户可以在客户端设备204上安装桌面搜索应用。客户端设备204通常将包括随机存取存储器(RAM)206和处理器208。

用户202可以向搜索系统214内的搜索引擎230提交话音查询210。当用户202提交话音查询210时，话音查询210通过网络发送到搜索系统214。搜索系统214可以被实现为例如在通过网络彼此耦合的、一个或多个位置中的一个或多个计算机上运行的计算机程序。

搜索系统214包括语音识别引擎254。语音识别引擎254接收话音查询210并将话音查询转录到识别的查询，例如，使用声学和语言模型。在一些实现方式中，将识别的查询返回到客户端设备204用于呈现给用户202。另外，将识别的查询提供给搜索引擎230。

搜索系统214还包括索引数据库222和搜索引擎230。搜索系统214通过生成搜索结果228来响应输入查询，搜索结果228通过网络以能够被呈现给用户202的形式发送到客户端设备204(例如，作为要在客户端设备204上运行的web浏览器中显示的搜索结果网页)。

当搜索引擎230接收到从话音查询210确定的识别的查询时，搜索引擎230辨别与查询210匹配或响应于查询210的资源。搜索引擎230通常将包括索引在语料库(例如，内容的集合或存储库)中找到的资源(例如，因特网上的网页、图像或新闻文章)的索引引擎220，存储索引信息的索引数据库222，以及对与查询210匹配的资源进行排序的排序引擎252(或其他软件)。可以使用传统技术来执行资源的索引和排序。搜索引擎130可以通过网络将搜索结果228发送到客户端设备204用于呈现给用户202。

另外，话音识别引擎254使用声学模型校正识别的查询的一个或多个术语。可以使用上面参考图1A和图1B描述的技术来训练声学模型。具体地，话音识别引擎254辨别话音查询210的某个部分，并使用声学模型确定与话音查询210的该部分对应的一个或多个校正的术语。话音识别引擎254将对应于话音查询210的该部分的识别的查询的一个或多个术语替换为一个或多个校正的术语。话音识别引擎254获得校正的查询并将校正的查询呈现给用户设备204。搜索引擎230可以辨别响应于校正的转录的资源并提供一个或多个搜索结果。

图3示出用于训练声学模型的示例方法300。为方便起见，方法300将被描述为由位于一个或多个位置并根据本说明书适当地编程的一个或多个计算机的系统执行。

系统接收对应于话语的第一音频数据(310)。例如，话语可以是话音输入。用户可以选择与特定用户界面相关联的、指示可以提供话音输入的话音输入指示符，例如麦克风指示符。例如，用户设备的用户界面可以包括麦克风指示符。当用户发起话音输入时，用户设备的麦克风捕获来自用户的话音输入。然后，话音输入由用户设备发送到系统。例如，话音输入可以是“前往La Jolla[zō-la]的方向”。

系统获得第一音频数据的第一转录(320)。第一转录是接收的第一音频数据的转录。例如，语言模型可用于提供第一音频数据的转录并将其转换为识别的文本输出。语音到文本技术可以包括使用从音频信号辨别音素或其他语言单元的声学模型和将概率分配给特定词语或词语序列的语言模型。在一些实现方式中，语音到文本技术可以例如基于拼写和/或语法规则来校正或补偿话音输入中的错误。

第一转录被提供给用户设备，例如，用于在特定用户界面中显示。例如，可以显示第一转录以指示系统对第一音频数据的识别。然后，用户可以检查呈现的第一转录以确定系统是否正确地识别了第一音频数据。例如，第一音频数据可以是话音查询“前往La Jolla[zō-la]的方向”，其可以在第一转录中被识别为查询“前往La Zola的方向”。这里，词语“Jolla”被识别为“Zola”。

另外，系统可以响应于第一转录执行动作。例如，系统可以使用第一转录作为搜索查询来获得搜索结果。响应于搜索查询的一个或多个搜索结果可以被提供到用户设备用于在搜索界面中显示。在一些实现方式中，动作是特定任务的部分，例如，创建日历条目。在一些其他实现方式中，第一转录对应于动作，例如，在文本编辑器或电子邮件中输入文本。

系统接收指示(i)对第一转录的一个或多个术语的选择和(ii)一个或多个替换术语的数据(330)。可以通过直接输入(例如，使用手指在触摸屏上)或使用特定输入设备(例如，鼠标光标或触笔)来接收对第一转录的一个或多个术语的选择。例如，用户可以触摸第一转录的一个或多个特定术语。作为响应，选择的一个或多个术语可以由用户设备突出显示，指示选择的一个或多个术语。因此，对于第一转录“前往La Zola的方向”，用户可以选择术语“Zola”。

在一些实现方式中，可以通过键入输入来接收一个或多个替换术语。用户界面包括键盘布局，该键盘布局可以被呈现用于接收来自用户的键入输入。具体地，用户可以使用键盘布局键入一个或多个特定术语以替换一个或多个选择的术语。例如，在选择术语“Zola”之后，用户可以键入单独字母“j-o-l-l-a”。键入输入不限于单个术语。例如，选择术语“La Zola”，用户可以键入字母“l-a-j-o-l-l-a”。

在一些实现方式中，可以通过对用户界面中呈现的建议转录的用户选择来接收一个或多个替换术语。例如，用户界面可以包括当选择第一转录的一个或多个特定术语时提供的下拉框。系统在下拉框中呈现一个或多个建议的转录。一个或多个建议的转录中的每一个包括一个或多个替换术语以替换一个或多个特定术语。例如，当选择第一转录的术语“Zola”时，系统提供下拉框，其中呈现一个或多个建议的转录。建议的转录之一可以是“前往La Jolla的方向”。这里，术语“Jolla”是替换选择的术语“Zola”的替换术语。用户可以在下拉框中选择建议的转录“前往La Jolla的方向”并且系统接收术语“Zola”作为替换术语。

系统确定一个或多个替换术语是否被分类为一个或多个选择的术语的校正(340)。可以基于某些标准进行确定。在一些实现方式中，该确定可以基于每个选择的术语与每个替换术语之间的语音相似性。具体地，语音相似性测量选择的术语的声音(sound)与替换术语的相似程度。可以使用距离测量来确定选择的术语与替换术语之间的语音相似性。在一些实施方式中，语音距离可以基于选择的术语与替换术语之间的最小编辑距离。如果替换术语与选择的术语之间的最小编辑距离等于或大于阈值(例如，2)，则系统可以确定替换术语是选择的术语的校正。例如，用户可以从第一转录中选择术语“Zola”并将术语“Zola”替换为术语“Jolla”。系统可以确定最小编辑距离为2，因为“Z”被替换为“J”并且添加了“l”。作为响应，系统可以确定替换术语“Jolla”是选择的术语“Zola”的校正。

对于系统提供第一转录作为“前往La Jolla的方向”的另一示例，用户可以从第一转录中选择“方向(复数)”并将术语“方向(复数)”替换为术语“方向(单数)”。系统可以确定最小编辑距离为1，因为删除了“s”。作为响应，系统可以确定替换术语“方向(单数)”不是选择的术语“方向(复数)”的校正。因此，系统可以过滤掉将不用于训练声学模型的诸如校正冠词错误或打字错误的替换。在一些实现方式中，最小编辑距离测量选择的术语与替换术语之间的许多个不同声音。在一些实现方式中，使用语音字典计算最小编辑距离。在一些实现方式中，使用声学模型(例如，声学隐马尔可夫模型(acoustic Hidden-Markov-Model))来计算最小编辑距离。

在一些实现方式中，该确定可以基于选择的术语当中的连接。具体地，连接测量一个选择的术语与其他选择的术语的接近程度。可以使用连接距离测量来确定连接。在一些实现方式中，可以基于一个选择的术语与其他选择的术语之间的单词的数量来确定连接距离。如果单词的数量等于或大于阈值，例如2，则系统可以确定替换术语不是选择的术语的校正。例如，用户可以从第一转录中选择两个术语“方向”和“Zola”，并将术语“Zola”替换为术语“Jolla”。系统可以确定两个术语之间的连接距离是2，因为在选择的术语“方向”和“Zola”之间有两个术语“往(to)”和“La”。作为响应，系统可以确定替换术语不是选择的术语的校正。因此，选择的术语“方向”和“Zola”不用于训练声学模型，因为术语“方向”可能已经被用户的错误，诸如触摸错误选择。

对于另一示例，用户可以从第一转录中选择两个术语“La”和“Zola”，并将术语“Zola”替换为“Jolla”。两个术语之间的连接距离为0，因为在两个术语“La”和“Zola”之间没有术语。系统可以确定替换术语是选择的术语的校正。

在一些实现方式中，确定可以基于选择的术语的连续性。例如，用户可以从第一转录中选择术语“方向”和术语“Zola”。系统可以确定选择的术语不是连续的。作为响应，系统可以确定一个或多个替换术语不是一个或多个选择的术语的校正。因此，选择的术语可能不用于训练声学模型，因为术语“方向”可能已经被用户的错误，诸如触摸错误选择。

对于另一示例，用户可以从第一转录中选择术语“La”和“Zola”，并将术语“Zola”替换为“Jolla”。系统可以确定选择的术语“La”和“Zola”是连续的。作为响应，系统可以确定替换术语是选择的术语的校正。

在一些实现方式中，确定可以基于一个或多个选择的术语中的每一个中的字符数。例如，用户可以从第一次转录中选择术语“至(to)”并将术语“至”替换为“从(from)”。系统可以计算选择的术语“至(to)”中的字符数，即两个字符。作为响应，系统可以确定替换术语不是选择的术语的校正。因此，该系统可以过滤掉将不用于训练声学模型的诸如校正介词的替换。

对于另一示例，用户可以从第一转录中选择“Zola”。系统可以确定选择的术语“Zola”中的字符数是4。作为响应，系统可以确定替换术语是选择的术语的校正。

响应于确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正，系统获得对应于第一转录的一个或多个术语的第一音频数据的第一部分(350)。在一些实现方式中，第一音频数据的第一部分可以是整个第一音频数据。例如，系统可以获得第一部分，该第一部分是对应于用户的话语“前往La Jolla[zō-la]的方向”的第一音频数据。

在一些实现方式中，第一音频数据的第一部分可以与第一音频数据隔离。第一部分对应于由用户选择的第一转录中的一个或多个特定术语。例如，用户可以选择术语“Zola”。系统将对应于术语“Zola”的第一部分与第一音频数据隔离。在该示例中，第一部分的声音可以是[zō-la]。

在一些实现方式中，系统可使用第一转录的每个术语开始和结束的定时将第一部分与第一音频数据隔离。例如，在系统获得第一转录“前往La Zola的方向”的情况下，系统可以基于诸如音频的幅度和频率的音频特征来确定第一转录的每个术语开始和结束的定时。在该示例中，系统可以确定第一转录的四个术语开始和结束的八个不同定时。在第一音频数据的第一部分对应于术语“Zola”的情况下，系统可以识别术语“Zola”开始和结束的定时。因此，系统可以确定该两个定时之间的第一音频数据的部分是音频数据的第一部分。

系统使用与第一转录的一个或多个术语相关联的第一音频数据的第一部分来训练声学模型用于识别替换术语中的一个或多个(360)。在一些实现方式中，系统使用整个第一音频数据和整个第一转录来训练声学模型。在一些实现方式中，系统使用与第一转录的一个或多个术语相关联的隔离的第一部分来训练声学模型。例如，在从第一音频数据隔离第一部分[zō-la]之后，系统可以使用第一部分[zō-la]来训练声学模型用于识别替换术语“Jolla”。

图4示出使用训练的声学模型提供搜索结果的示例方法400。为方便起见，方法400将被描述为由位于一个或多个位置并根据本说明书适当地编程的一个或多个计算机的系统执行。

系统接收对应于话语的第二音频数据(410)。例如，话语可以是话音输入。用户可以选择与特定用户界面相关联的指示可以提供话音输入的话音输入指示符，例如麦克风指示符。例如，用户设备的用户界面可以包括麦克风指示符。当用户发起话音输入时，用户设备的麦克风捕获来自用户的话音输入。然后，话音输入由用户设备发送到系统。例如，话音输入可以是“前往La Jolla[zō-la]的方向”。

系统获得第二音频数据的第二转录(420)。第二转录是接收的第二音频数据的转录。例如，声学和语言模型可用于提供第二音频数据的第二转录并将其转换为识别的文本输出。例如，第二音频数据可以是话音输入“前往La Jolla[zō-la]的方向”，其可以在第二次转录中被识别为“前往La Zola的方向”。

系统辨别第二音频数据的第二部分(430)。具体地，第二音频数据的第二部分对应于参考图3描述的第一音频数据的第一部分。例如，系统可以辨别第二音频数据的第二部分[zō-la]，其对应于第一音频数据的第一部分[zō-la]。

系统使用训练的声学模型获得第二部分的校正的转录(440)。具体地，训练的声学模型可以是使用上述技术训练的声学模型。例如，参考关于图3描述的示例，训练声学模型以使用第一音频数据的第一部分[zō-la]识别替换术语“Jolla”。响应于辨别的对应于第一部分[zō-la]的第二部分[zō-la]，系统可以获得用于第二音频数据的第二部分的校正的转录“Jolla”。

系统获得将第二转录和校正的转录合并的转录(450)。该系统将对应于第二部分的第二转录的一个或多个特定术语替换为校正的转录，并获得将第二转录与校正的转录合并的新转录。例如，系统将第二转录的术语“Zola”替换为校正的转录“Jolla”，并获得合并的转录“前往La Jolla的方向”。

系统获得响应于将第二转录和校正的转录合并的转录的搜索结果(460)。例如，系统获得响应于转录“前往La Jolla的方向”的搜索结果。搜索结果可以包括到由搜索系统确定的响应于校正的查询的特定资源的链接。在一些实现方式中，搜索系统将查询识别为特定类型的请求(例如，方向)，并提供地图界面作为搜索结果的部分或代替搜索结果。

系统提供搜索结果中的一个或多个(470)。系统将获得的搜索结果提供给用户设备。例如，系统可以提供要在用户设备的用户界面中显示的搜索结果。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路、有形体现的计算机软件或固件、计算机硬件中实现，包括本说明书中公开的结构及其结构等同物，或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即，在有形非暂时性存储介质上编码的计算机程序指令的一个或多个模块，用于由数据处理装置施行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备，或它们中的一个或多个的组合。可替代地或另外地，程序指令可以被编码在人工生成的传播信号上，例如，机器生成的电、光或电磁信号，其被生成以编码信息用于传输到合适的接收器装置以供数据处理装置施行。

术语“数据处理装置”指的是数据处理硬件并且涵盖用于处理数据的所有种类的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置还可以或者进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置可以可选地包括为计算机程序创建施行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统，或者它们中的一个或多个的组合的代码。

计算机程序也可以被称为或描述为程序、软件、软件应用、模块、软件模块、脚本或代码，可以用任何形式的编程语言编写，包括编译或解释性语言，或声明性或程序性语言；它可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序或适用于计算环境的其他单元。程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的部分中，例如，存储在标记语言文档中的一个或多个脚本，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件中，例如，存储一个或多个模块、子程序或代码部分的文件。可以部署计算机程序以在一个计算机上或在位于一个站点上或分布在多个站点上并通过数据通信网络互连的多个计算机上施行。

本说明书中描述的处理和逻辑流程可以由施行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。处理和逻辑流程也可以由专用逻辑电路(例如，FPGA或ASIC)或专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于施行计算机程序的计算机可以基于通用或专用微处理器或两者，或任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或施行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括或可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传递到一个或多个大容量存储设备或两者，所述大容量存储设备用于存储数据，例如为磁盘、磁光盘或光盘。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备，例如，通用串行总线(USB)闪存驱动器，仅举几例。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM磁盘。

对本说明书中描述的各种系统或其部分的控制可以在计算机程序产品中实现，该计算机程序产品包括存储在一个或多个非暂时性机器可读存储介质上并且可在一个或多个处理设备上施行的指令。本说明书中描述的系统或其部分可以各自实现为可以包括一个或多个处理设备和存储器的装置、方法或电子系统，以存储可施行指令以执行本说明书中描述的操作。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实现，所述计算机具有显示设备和键盘以及指示设备，所述显示设备为例如CRT(阴极射线管)或LCD(液晶显示器)监视器，用于向用户显示信息，所述指示设备为例如，鼠标或轨迹球，用户可通过其向计算机提供输入。其他种类的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学、话音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收的请求将网页发送到用户设备上的web浏览器。

本说明书中描述的主题的实施例可以在计算系统中实现，所述计算系统包括例如作为数据服务器的后端组件，或者包括例如应用服务器的中间件组件，或者包括前端组件，例如具有用户可通过其与本说明书中描述的主题的实现方式进行交互的图形用户界面或web浏览器的客户端计算机，或者一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信互连，例如通信网络。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如因特网。

计算系统可包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系由于在各自的计算机上运行的计算机程序并且彼此具有客户端-服务器关系而产生。在一些实施例中，服务器将数据(例如，HTML页面)发送到用户设备，例如，用于向与用户设备交互的用户显示数据和从该用户接收用户输入，用户设备充当客户端。可以从服务器处的用户设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体实现方式细节，但是这些不应被解释为对任何发明的范围或可能要求保护的范围的限制，而是作为可以特定于特定发明的特定实施例的特征的描述。在单独实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合来实现。此外，尽管上面的特征可以描述为以某些组合起作用并且甚至最初如此声明，但是在一些情况下可以从组合中切除来自所要求保护的组合的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中以特定次序描绘了操作，但是这不应该被理解为要求以所示的特定次序或按顺序次序执行这样的操作，或者执行所有示出的操作，以实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以集成在单个软件产品中或打包成多个软件产品。

已经描述了主题的特定实施例。其他实施例在以下权利要求的范围内。例如，权利要求中记载的动作可以以不同的次序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定次序或顺序次序来实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种计算机实现的方法，包括：

接收对应于话语的第一音频数据；

获得第一音频数据的第一转录；

接收指示(i)对第一转录的一个或多个术语的选择和(ii)替换术语中的一个或多个的数据；

确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正；

响应于确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正，获得对应于第一转录的一个或多个术语的第一音频数据的第一部分；以及

使用与第一转录的一个或多个术语相关联的第一音频数据的第一部分来训练声学模型用于识别替换术语中的一个或多个。

2.如权利要求1所述的方法，还包括：

接收对应于话语的第二音频数据，所述第二音频数据包括对应于第一音频数据的第一部分的第二部分；

获得第二音频数据的第二转录；

从第二音频数据中辨别第二部分；

使用训练的声学模型获得第二部分的校正的转录；以及

获得将第二转录和校正的转录合并的转录。

3.如权利要求1或2所述的方法，还包括：

获得响应于将第二转录和校正的转录合并的转录的搜索结果；以及

提供搜索结果中的一个或多个。

4.如前述权利要求中任一项所述的方法，其中，确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个与替换术语中的一个或多个之间的语音相似性。

5.如权利要求4所述的方法，其中，确定所述语音相似性包括计算选择的术语中的一个或多个中的每一个与替换术语中的一个或多个中的每一个之间的语音距离。

6.如前述权利要求中任一项所述的方法，其中，确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个当中的连接。

7.如前述权利要求中任一项所述的方法，其中，确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个是连续的。

8.如前述权利要求中任一项所述的方法，其中，确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个中的每一个包括阈值数量的字符。

9.一种系统，包括：

处理器，被配置为施行计算机程序指令；以及

用所述计算机程序指令编码的计算机存储介质，当由所述处理器施行所述计算机程序指令时，使所述系统执行操作，所述操作包括：

接收对应于话语的第一音频数据；

获得第一音频数据的第一转录；

10.如权利要求9所述的系统，其中所述操作包括：

获得第二音频数据的第二转录；

从第二音频数据中辨别第二部分；

使用训练的声学模型获得第二部分的校正的转录；以及

获得将第二转录和校正的转录合并的转录。

11.如权利要求9或10所述的系统，其中所述操作包括：

提供搜索结果中的一个或多个。

12.如权利要求9至11中任一项所述的系统，其中，确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个与替换术语中的一个或多个之间的语音相似性。

13.如权利要求12所述的系统，其中，确定语音相似性包括计算选择的术语中的一个或多个中的每一个与替换术语中的一个或多个中的每一个之间的语音距离。

14.如权利要求9至13中任一项所述的系统，其中，确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个当中的连接。

15.如权利要求9至14中任一项所述的系统，其中，确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个是连续的。

16.如权利要求9至15中任一项所述的系统，其中，确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个中的每一个包括阈值数量的字符。

17.一种编码有计算机程序的计算机可读存储设备，所述计算机程序包括指令，所述指令在由一个或多个计算机施行时使所述一个或多个计算机执行操作，所述操作包括：

接收对应于话语的第一音频数据；

获得第一音频数据的第一转录；

18.如权利要求17所述的计算机可读存储设备，其中，确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个与替换术语中的一个或多个之间的语音相似性。

19.如权利要求17或18所述的计算机可读存储设备，其中，确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个当中的连接。

20.如权利要求17至19中任一项所述的计算机可读存储设备，其中，确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个是连续的。