CN105340004A

CN105340004A - 用于发音学习的计算机实现的方法、计算机可读介质和系统

Info

Publication number: CN105340004A
Application number: CN201480030812.9A
Authority: CN
Inventors: 彭福春; 弗朗索瓦丝·博费; 布莱恩·帕特里克·斯特罗普; 雷欣; 佩德罗·J·莫雷诺·门吉巴尔; 特雷弗·D·施特勒曼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2013-06-28
Filing date: 2014-03-26
Publication date: 2016-02-17
Anticipated expiration: 2034-03-26
Also published as: WO2014209449A1; US9741339B2; US20150006178A1; CN105340004B; EP3014608A1; EP3014608B1

Abstract

用于确定用于特定词语的发音的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。该方法、系统和装置包括获取与特定词语相对应的语音的音频样本和获取用于特定词语的候选发音的操作。进一步的操作包括：针对用于特定词语的每个候选发音和与特定词语相对应的语音的音频样本，生成反映该候选发音与音频样本之间的相似水平的评分。附加操作包括累积每个候选发音的评分，并且基于候选发音的累积评分，将用于特定词语的一个或多个候选发音添加到发音词典中。

Description

用于发音学习的计算机实现的方法、计算机可读介质和系统

技术领域

本公开总体涉及语音识别。

背景技术

自动语音识别系统试图匹配语音输入与词语的已知发音。当一个匹配被识别时，自动语音识别系统会输出其已知发音与语音输入匹配的特定词语，作为语音输入的转录。

发明内容

通常，本说明书中描述的主题的一个方面包含用于确定特定词语的发音的过程。发音可以为与说出该特定词语相对应的声音的描述。例如，系统可以包括用于词语“COLONEL”的“KER-NEL”的发音。系统将发音存储在发音词典中。发音词典可以被用作识别话语中的词语。例如，自动语音识别系统可以确定，来自用户的话语中的声音“KER-NEL”与存储在发音词典中的用于词语“COLONEL”的发音描述的声音匹配，并且因此将声音转录为“COLONEL”。

然而，系统可能缺乏用于一个或多个词语的合适发音。例如，用于特定词语的发音可能丢失，例如，用于这个特定词语的发音没有被包括进发音词典；或系统可以包括用于很少被使用的特定词语的发音，例如用于发音词典中的该特定词语的发音是不正确的。因此，系统可以识别缺少合适发音的特定词语，并可以确定用于特定词语的一个或多个发音。

一旦系统识别出特定词语以确定该特定词语的发音，则系统可以获取与该特定词语相对应的语音的音频样本，并且生成用于该特定词语的候选发音。候选发音可以描述特定词语的不同发音的不同声音。系统可以基于对特定词语中的字母发音的一个或多个规则来生成候选发音。

然后系统可以给对于特定词语生成的候选发音与该特定词语的音频样本之间的相似水平评分。对于特定候选发音与特定音频样本对的评分表示由该特定候选发音描述的声音与音频样本中的声音的匹配程度。

系统可以累积每个候选发音的评分。例如，对于特定候选发音，系统可以对所有音频样本的评分进行平均。而后系统可以基于候选发音的累积评分将一个或多个候选发音添加到发音词典中。例如，系统可以仅添加具有指示最接近的相似水平的累积评分的候选发音，或者连同它们的累积评分一起添加所有候选发音。可替代地，该系统可以确定没有具有合适的累积评分的候选发音，并且生成另外的候选发音来评分。

在某些方面，本说明书中所描述的主题可以体现在方法中，这些方法可以包括获取与特定词语相对应的语音的音频样本的操作和获取用于特定词语的多个候选发音的操作。进一步的操作包括，针对用于特定词语的每个候选发音和与特定词语相对应的语音的音频样本，生成反映该候选发音与音频样本之间的相似水平的评分。另外的操作可以包括累积每个候选发音的评分，并且基于所述多个候选发音的累积评分，将用于特定词语的一个或多个候选发音添加到发音词典中。

其它版本包括对应的系统、装置和计算机程序，所述计算机程序被编码在计算机存储设备中，被配置来执行方法中的操作。

这些和其它版本各自可以可选地包括下面的特征中的一个或多个。例如，在一些实现方式中，添加用于特定词语的一个或多个候选发音可以包括识别多个候选发音中的一个候选发音，其中该候选发音具有指示该候选发音与音频样本之间的相似水平比其它候选发音与音频样本之间的相似水平更接近的累积评分，并且将识别出的候选表达添加到发音词典中。

在另外的方面，添加用于特定词语的一个或多个候选发音可以包括将所有候选发音和所述多个候选发音的累积评分添加到发音词典中。

在一些实现方式中，获取用于特定词语的候选发音包括基于特定词语中的字母和发音的一个或多个规则，生成用于特定词语的候选发音。

在某些方面，获取用于特定词语的候选发音可以包括获取用于特定词语的候选发音的先前集合，并且针对先前集合中的特定词语的每个候选发音和与该特定词语相对应的语音的音频样本，生成反映先前集合中的该候选发音与音频样本之间的相似水平的评分。获取用于特定词语的候选发音可以进一步包括累积先前集合的每个候选发音的评分，确定没有先前集合的候选发音的累积评分反映比其它候选发音之间的相似水平更接近达预定量的候选发音与所述音频样本之间的相似水平，并且基于具有指示比其它候选发音与音频样本之间的相似水平更接近的候选发音与音频样本之间的相似水平的累积评分的候选发音，获取候选发音。

在另外的方面，获取音频样本可以包括访问查询转录日志，识别查询转录日志中的特定词语，并且识别出与查询转录日志中已经识别出的特定词语相对应的查询音频日志的一个或多个部分，作为音频样本。

在一些实现方式中，获取音频样本可以包括接收响应于说出特定词语的提示说出该特定词语的多个不同人的音频样本。

在某些方面，操作进一步包括确定发音词典没有包括用于特定词语的准确发音，其中获取与特定词语相对应的语音的音频样本响应于确定发音词典没有包括用于该特定词语的准确发音。

本说明中所描述的主题的一个或多个实现方式的细节在附图和下面的描述中阐述。主题的其它潜在的特征、方面和优点通过描述、附图和权利要求会变得显而易见。

附图说明

图1是用于确定用于特定词语的发音的示例系统的框图。

图2A和2B是示出用于特定词语的候选发音的评分的示例系统的框图。

图3是用于确定用于特定词语的发音的示例过程的流程图。

图4是示例性计算设备的图。

相同的附图标记在不同的图中指示相同的元素

具体实施方式

自动语音识别(ASR)系统可以使用包括用于特定词语的发音的发音词典来识别语音。发音可以将声音与特定词语相关联。然而，如果特定词语从发音词典中消失或发音词典包括了用于特定词语的不准确发音，自动语音识别系统可能不能准确识别与特定词语相对应的语音。

因此，系统可以被用于确定用于特定词语的发音。该系统可以初始地识别发音词典中没有包含其正确发音的特定词语。例如，该系统可以识别没有被包括进发音词典的单词，或者分析ASR的日志来识别没有被自动语音识别系统正确转录的单词，例如，识别用户纠正其初始转录的词语。

不管用于确定发音的特定词语如何被识别，该系统可以从不同的人那里获取与特定词语相对应的语音的音频样本。例如，该系统可以提示不同的用户说出特定词语，并且使用说出该特定词语的用户的记录作为该特定词语的音频样本。另外地或可替代地，该系统可以分析来自不同用户的话音查询日志的转录来识别何时特定词语在话音查询中被使用，并且使用话音记录的录音中对应的部分作为音频样本。

该系统还可以获取特定词语的候选发音。该系统可以分析特定词语中的字母、字素或其它单元，并应用发音字母的一个或多个规则来生成候选发音，该候选发音表示特定词语可以发出怎样的替代潜在发音。

该系统可以生成反映候选发音与音频样本之间的相似水平的评分，并累积每个候选发音的评分。相似也可以被称为符合或声学相似。例如，对于特定候选发音，该系统可以对其所有音频样本的评分进行平均。

然后该系统可以基于候选发音的累积评分将一个或多个候选发音添加到发音词典中。例如，该系统可以仅将具有指示候选发音与音频样本之间的最接近的相似水平的累积评分的候选发音添加到发音词典中，或者连同它们的累积评分一起添加所有候选发音。可替代的，该系统可以确定没有具有合适的累积评分的候选发音，并且生成另外的候选发音来评分，而且有可能添加到发音词典中。

图1是用于确定用于特定词语的发音的示例系统100的框图。系统100可以包括音频样本数据库130。数据库130可以包括不同人说出相同特定词语的音频样本。系统100可以提示不同的用户110说出特定词语，并且将说出该特定词语的用户110的记录作为该特定词语的音频样本存储在数据库130中。例如，系统100可以显示提示给用户110“请说‘QUVENZHANE’”，并将说出“QUVENZHANE”的用户110的记录作为音频样本来存储。

另外地或可替代地，系统100可以从音频和转录日志120中获取音频样本。系统100可以访问来自不同用户的话音查询日志的转录来识别何时特定词语在话音查询中被使用，并使用该话音查询的记录的对应的部分作为音频样本。例如，系统100可以识别具有包括特定词语“QUVENZHANE”的查询“HOWOLDISQUVENZHANEWALLIS”的转录日志，并且使用查询的记录的对应的部分作为音频样本。音频和转录日志120可以通过挖掘语音识别日志来获取，在语音识别日志中，用户手动纠正了语音识别结果。

系统100可以包括候选发音生成器140。系统100可以从生成器140获取特定词语的候选发音。生成器140可以分析特定词语中的字母、字素或其它单元，并应用发音字母的一个或多个规则来生成候选发音，该候选发音表示特定词语发出怎样的替代潜在发音。例如，生成器140可以确定特定词语“QUVENZHANE”包括字素“NE”，并且应用“NE”可以像“NAY”或“NE”一样发音的规则。因此，生成器140可以生成“QUVENZHANE”的第一候选发音为“QUE-VEN-ZHA-NE”，并且“QUVENZHANE”的第二候选发音为“QUE-VEN-ZHA-NAY”。

候选发音生成器140可以生成最大预定数目的候选发音。当候选发音生成器140生成最大预定数目的候选发音时，候选发音生成器140可以基于最有可能被应用的应用发音规则来生成发音。例如，候选发音生成器140可以仅应用被指示为对于特定字素最常是正确的规则。该规则可以表示电话序列中的字母或电话序列中的字素。基于向词语列表和包括列表中词语的发音的发音语料库的学习，候选发音生成器140可以学习到最有可能应用的序列。候选发音生成器140可以可替代地或另外地发现最弱的音素(phone)和提出替换弱音素的替代，例如，如下面关于图2B所描述的那样。在提出弱音素的替代的过程中，候选发音生成器140可以确定最有可能被应用的规则，这些规则还没有被应用到与弱音素相对应的字素或字母，并且将那些规则应用到所述字素或字母以生成替代的候选发音。

系统100可以包括候选发音评分器150。评分器150可以生成反映候选发音与音频样本之间的相似水平的评分。例如，第一候选发音“QUE-VEN-ZHA-NE可以对具有声音“KWAH-VEN-JA-NAY”的音频样本进行评分。评分器150可以基于第一候选发音与音频样本在声音上的差异确定相似性差并且分配“0.4”分，其中“0”分意味着没有相似性，例如声音完全不同，并且“1.0”分意味着完美相似性，即声音是相同的。评分器150还可以对部分评分，例如，如下面关于图2A和图2B进一步描述的候选发音的音素。

评分器150可以累积每个候选发音的评分。例如，对于特定候选发音，候选发音评分器150可以对所有音频样本的评分进行平均。可替代地，评分器150可以应用一些其它算法来计算累积评分，例如，计算中值或众数。

该系统可以包括候选发音选择器160。选择器160可以基于候选发音的累积评分选择一个或多个候选发音添加到发音词典170中。例如，选择器160可以选择具有指示候选发音与音频样本之间的最接近的相似水平的累积评分的候选发音，或者连同它们的累积评分一起添加所有候选发音。当将所有候选发音添加到发音词典170中时，存储在词典170中的累积评分可以在发音被用于识别语音时作为权重使用。例如，ASR可以使用存储在特定发音的发音词典170中的、指示很差的相似水平的累积评分作为对于使用此发音的权重。可替代地，选择器160可以确定没有具有合适的累积评分的候选发音，并且生成另外的候选发音来评分，如下面关于图2A和图2B进一步示出和说明的一样。

可以使用系统100的不同的配置，其中，音频样本数据库130、候选发音生成器140、候选发音评分器150、候选发音选择器160和发音词典170的功能可以结合，进一步地可以分布或互换。系统100可以在单个设备中实现，或分布在多个设备中实现。

图2A和图2B是示出用于特定词语的候选发音的评分的示例系统200和250的框图。在图2A中，系统200的候选发音生成器140生成用于特定词语的候选发音220。例如，生成器140可以生成用于词语“QUVENZHANE”的候选发音220，“QUE-VEN-ZHA-NE”、“QUE-VEN-ZHA-NAY”和“KWAH-VAN-ZHA-NE”。

候选发音评分器150可以获取已生成的候选发音220和音频样本210。音频样本210可以按照上面所述从数据库中获取。评分器150可以对候选发音分配评分230。评分器150可以为每个候选发音分配总评分。例如，评分器150可以对候选发音“QUE-VEN-ZHA-NE”分配总评分“0.2”。另外地或可替代地，评分器150可以为候选发音中的单独音素分配评分。例如，评分器150可以为候选发音“QUE-VEN-ZHA-NE”中的音素“QUE”、“VEN”、“ZHA”、“NE”分别分配“0.2”、“0.9”、“0.4”和“0.2”的评分。候选发音的总评分可以基于候选发音中音素的单独评分。例如，候选发音“QUE-VEN-ZHA-NE”的总评分“0.2”可以基于音素“QUE”、“VEN”、“ZHA”、“NE”的单独评分“0.2”、“0.9”、“0.4”和“0.2”。

评分器150可以为用于特定词语的每个候选发音和与该特定词语相对应的语音的音频样本计算评分。例如，如果有三个候选发音和四个音频样本，则评分器150可以计算全部十二个候选发音，三个候选发音中的每个四个评分。评分器150可以累积每个候选发音的评分。例如，对每个候选发音，评分器150可以对来自该候选发音的不同音频样本的评分取平均。评分器150还可以累积对每个候选发音的每个音素的评分。例如，评分器150可以通过累积来自所有四个音频样本的音素“NE”的评分，来计算候选表达“QUE-VEN-ZHA-NE”中的音素“NE”的评分“0.2”。

候选发音选择器160可以获取候选发音和评分，并且基于候选发音的累积评分将一个或多个候选发音添加到发音词典中。候选发音选择器160可以选择添加具有指示该候选发音与音频样本之间的最接近的相似水平的累积评分的候选发音，例如最高累积评分的候选发音。例如，选择器160可以确定候选发音“QUE-VEN-ZHA-NAY”具有最高的累积评分，并且将候选发音“QUE-VEN-ZHA-NAY”作为用于词语“QUEVENZHANE”的发音添加到发音词典中。可替代地，选择器160可以将多个候选发音连同它们的累积评分一起添加到发音词典中。例如，选择器160可以将所有候选发音连同它们的累积评分一起添加到发音词典中，作为用于特定词语的可能发音。

在一些实现方式中，选择器160可以确定候选发音连同音频样本的累积评分是否反映出候选发音与音频样本之间的相似水平比其它候选发音与音频样本之间的相似水平更接近达预定量。预定量可以是评分之间的减性差，例如，累积评分至少高出“0.1”；或者是乘性差，例如，累积评分至少高出10％。例如，选择器160可以确定候选发音“QUE-VEN-ZHA-NAY”的最高累积评分“0.4”比下一个最高累积评分“0.3”至少高出预定量“0.1”。基于这个确定，选择器160可以将候选发音“QUE-VEN-ZHA-NAY”添加到发音词典中，作为用于词语“QUEVENZHANE”的发音。

在一些实现方式中，选择器160可以确定是否累积评分自身大于预定阈值评分。例如，选择器160可以确定最高评分大于预定阈值评分“0.8”。基于这个确定，选择器160可以将候选发音“QUE-VEN-ZHA-NAY”添加到发音词典中。可替代地，选择器160可以连同具有高于预定阈值评分的累积评分的所有候选发音的其累积评分一起添加所有候选发音。

如果选择器160基于累积评分确定没有候选发音要被添加到发音词典中，例如，没有先前集合的候选发音的累积评分反映比其它候选发音与音频样本之间的相似水平更接近达预定量的候选发音与音频样本之间的相似水平，则选择器160可以基于候选发音的累积评分获取另外的候选发音。

图2B图示出了用于特定词语的另外的候选发音的评分的示例系统250的框图。在图2B中，候选发音生成器140可以基于如图2A所示的候选发音230的累积评分来生成另外的候选发音。生成器140可以接收可以与音频样本210具有高相似水平的候选发音的音素的指示。例如，生成器140可以接收累积评分，其中音素“VEN”的累积评分是“0.9”，音素“NAY”的累积评分是“0.9”，并且音素“KWAH”的累积评分是“0.8”，这就可以指示所有音素都与音频样本具有高相似水平。

生成器140可以生成包括被指示为与音频样本具有高相似水平的音素的另外的候选发音260。例如，生成器140可以生成包括音素“VEN”、“NAY”和“KWAH”的候选发音。例如，生成器140可以生成候选发音“KWAH-VEN-ZHA-NAY”、“KWAH-VEN-JA-NAY”和“KWAH-VEN-ZA-NAY”。

与上述类似，评分器150然后可以对另外生成的候选发音进行评分，并将累积评分连同另外生成的候选发音一起提供给候选发音选择器160。与上述类似，选择器160然后可以从另外生成的候选发音中选择候选发音添加到发音词典中。例如，选择器160可以选择候选发音“KWAH-VEN-JA-NAY”添加到发音词典中。

图3是用于确定用于特定词语的发音的示例过程的流程图。下面将过程300描述为由参考图1描述的系统100的组件执行。然而，过程300可以由其它系统或系统配置来执行。

过程300可以包括获取音频样本(302)。音频样本数据库130可以从响应于提示说出特定词语的用户110，或从音频和转录日志120中获取音频样本，并且候选发音评分器150可以从数据库130获取音频样本。例如，数据库130可以获取“QUVENZHANE”的音频样本，并且评分器150可以从数据库130获取“QUVENZHANE”的音频样本。

过程300可以包括获取候选发音(304)。例如，参考图2A，生成器140可以获取特定词语“QUVENZHANE”，并且对“QUVENZHANE”中的字母应用发音的一个或多个规则来生成候选发音“QUE-VEN-ZHA-NE”、“QUE-VEN-ZHA-NAY”和“KWAH-VEN-ZHA-NE”。评分器150可以获取由生成器140生成的候选发音。

过程300可以包括生成反映候选发音与音频样本之间的相似水平的评分(306)。例如，评分器150可以对每个候选发音与音频样本对生成反映该对中的候选发音与该对中的音频样本之间的相似水平的评分。

过程300可以包括累积每个候选发音的评分(308)。例如，对每个候选发音，评分器150可以累积具有不同音频样本的特定候选发音的评分。

过程300可以包括将特定词语的候选发音添加到发音词典中(310)。例如，候选发音选择器160可以确定候选发音“QUE-VEN-ZHA-NAY”具有累积评分“0.4”，它比所有其它的候选发音的累积评分至少高“0.1”，并且可以将候选发音“QUE-VEN-ZHA-NAY”添加到发音词典中，作为用于词语“QUVENZHANE”的发音。

图4示出了可用于实现在此描述的技术的计算设备400和移动计算设备450的示例。计算设备400意在表示各种形式的数字计算机，诸如笔记本、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其它适合的计算机。移动计算设备450意在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能手机以及其它类似的计算设备。这里示出的组件，它们的连接和关系，以及它们的功能，仅是示例，并不意味就仅限于此。

计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404的高速接口408和多个高速扩展端口410，以及连接到低速扩展端口414与存储设备406的低速接口412。处理器402、存储器404、存储设备406、高速接口408、高速扩展端口410以及低速接口412中的每个都使用各种总线互连，并且可以被安装在共同主板上，或是采用其它适合的方式安装。处理器402能处理在计算设备400内部执行的指令，包括存储在存储器404中或者存储在存储设备406上的指令用来在外部输入/输出设备(诸如，耦接到高速接口408的显示器416)上显示GUI的图形信息。在其它的实现方式中，多个处理器和/或多个总线以适合的方式连同多个存储器和多个类型的存储器一起被使用。还有，多个计算设备可以被连接，其中每个设备提供必要操作的部分(例如，作为服务器阵列、刀片服务器群组或多处理器系统)。

存储器404在计算设备400内存储信息。在一些实现方式中，存储器404是易失性存储器单元。在一些实现方式中，存储器404是非易失性存储器单元。存储器404也可以是另外一种形式的计算机可读介质，诸如磁盘或光盘。

存储设备406能够为计算设备400提供大容量存储。在一些实现方式中，存储设备406可以是或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备或磁带设备，闪存或其它类似的固态存储设备，或设备阵列，包括存储区域网络中的设备或其它配置。指令能被存储在信息载体中。所述指令当被一个或多个处理设备(例如，处理器402)执行时，执行一种或多种方法，诸如上述那些方法。指令也可以由诸如计算机或机器可读介质(例如，存储器404、存储设备406、或处理器402上的存储器)的一个或多个存储设备存储。

高速接口408管理计算设备400的带宽密集操作，而低速接口412管理较低的带宽密集操作。这样的功能分配仅是一个示例。在一些实现方式中，高速接口408被耦接到存储器404、显示器416(例如，通过图形处理器或加速度计)和高速扩展端口410，该高速扩展端口410可以接受各种扩展卡(未示出)。在该实现方式中，低速接口412被耦接到存储设备406和低速扩展端口414。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口414可以被耦接到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪，或者例如通过网络适配器被耦接到网络设备，诸如交换机或路由器。

如图所示，计算设备400可以以许多不同的形式实现。例如，它可以实现为标准服务器420，或是这样服务器群组的倍数。另外，它可以被实现为诸如笔记本电脑422的个人电脑。它还可以被实现为机架式服务器系统424的一部分。可替代地，可以将来自计算设备400的组件与诸如移动计算设备450的移动设备(未示出)中的其它组件进行组合。每个这样的设备可以包含计算设备400和移动计算设备450中的一个或多个，并且整个系统可以由彼此通信的多个计算设备构成。

移动计算设备450包括处理器452、存储器464、诸如显示器454的输入/输出设备、通信接口466和收发机468等等。移动计算设备450还可以被提供有存储设备，诸如微驱动设备或其它设备，用来提供额外的存储。处理器452、存储器464、显示器454、通信接口466和收发机468中的每个都使用各种总线互连，而且多个组件可以被安装在共同主板上，或是以其它适合的方式安装。

处理器452能执行移动计算设备450内的指令，包括存储在存储器464中的指令。处理器452可以被实现为芯片的芯片集，其包括单独的和多个模拟和数字处理器。处理器452可以提供，例如，对移动计算设备450中其他组件的协调，诸如用户接口的控制、由移动计算设备450运行的应用和通过移动计算设备450进行的无线通信。

处理器452可以通过控制接口458和耦接到显示器454的显示接口456与用户进行通信。显示器454可以是，例如，TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器，或其它适合的显示技术。显示接口456可以包括适合的电路来驱动显示器454以向用户呈现图形与其它信息。控制接口458可以从用户接收命令，并转换命令，用于向处理器452提交。另外，外部接口462可以提供与处理器452的通信，以便使得移动计算设备450能够与其它设备进行近区域通信。例如，在一些实现方式中，外部接口462可以提供有线通信，或在其它实现方式中，外部接口462可以提供无线通信，并且可以使用多个接口。

存储器464在移动计算设备450内存储信息。存储器464能被实现为计算机可读介质或媒介、易失性存储器单元或非易失性存储器单元中的一个或多个。还可以提供扩展存储器474，并且扩展存储器474通过扩展接口472与移动计算设备450连接，该扩展接口472可以包括，例如，SIMM(单列直插存储器模块)卡接口。扩展存储器474可以为移动计算设备450提供额外的存储空间，或者也可以为移动计算设备450存储应用或其它信息。特别地，扩展存储器474可以包含用于执行的指令或补充以上所述过程的指令，并且还可以包含安全信息。这样，例如，扩展存储器474可以作为移动计算设备450的安全模块被提供，并且可以用允许安全使用移动计算设备450的指令来编程。另外，可以经由SIMM卡连同额外的信息一起提供安全应用，诸如用以无法被黑客破坏的方式将识别信息放置在SIMM卡上。

如下所述，存储器可以包括，例如，闪存和/或NVRAM(非易失性随机存取存储器)。在一些实现方式中，指令被存储在信息载体中。所述指令当被一个或多个处理设备(例如，处理器452)执行时，执行一种或多种方法，诸如上述那些方法。指令还能被一个或多个存储设备存储，诸如一个或多个计算机或机器可读介质(例如，存储器464、扩展存储器474或处理器452上的存储器)。在一些实现方式中，指令能在传播信号中被接收，例如，通过收发机468或外部接口462。

移动计算设备450可以通过通信接口466进行无线通信，该通信接口466可以在必要位置包括数字信号处理电路。通信接口466可以在各种模式或协议下提供通信，诸如GSM语音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强消息服务)或MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或GPRS(通用分组无线电服务)等。例如，这样的通信可以通过收发机468使用射频而发生。另外，短距离通信可以使用诸如蓝牙、WiFi或其它这样的收发机(未示出)而发生。此外，GPS(全球定位系统)接收机模块470可以向移动计算设备450提供额外的导航和与定位相关的无线数据，这可以以其它适合的方式被运行在移动计算设备450上的应用使用。

移动计算设备450还可以使用音频编解码器460进行可听地通信，音频编解码器460可以从用户接收说出的信息，并将它转换为可用的数字信息。音频编解码器460同样也可以生成用户的可听声音，诸如通过例如移动计算设备450的听筒上的扬声器。这样的声音可以包括来自语音电话呼叫的声音，可以包括所记录的声音(例如，语音消息、音乐文件等)，并且也可以包括由运行在移动计算设备450上的应用生成的声音。

如图所示，移动计算设备450可以以多种不同的形式实现。例如，它可以实现为蜂窝电话480。它也可以实现为智能手机482、个人数字助理或其它类似移动设备的一部分。

说明书中所述的主题、功能操作和过程的实施例能被实现在数字电子电路中、有形体现的计算机软件或固件中、计算机硬件中，包括本说明书中公开的结构及其结构等同物，或是其一个或多个的组合。本说明书中所述的主题的实施例能被实现为一个或多个计算机程序，即，编码在有形非易失性程序载体上的用来被数据处理装置执行，或控制数据处理装置的操作的计算机程序指令的一个或多个模块。可替代地或另外地，程序指令能被编码在人工生成的传播信号上，例如机器生成的电、光、或电磁信号，该信号被生成以对信息进行编码，以便传输给合适的接收装置，以用于由数据处理装置来执行。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行存取存储器设备，或其一个或多个的组合。

词语“数据处理装置”包含用于处理数据的所有种类的装置、设备和机器，例如，包括可编程处理器、计算机、或多处理器或计算机。装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件之外，装置还可以包括，在所讨论的计算机程序中创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统，或其一种或多种的组合的代码。

计算机程序(也可以被称为或描述为程序、软件、软件应用、模块、软件模块、脚本、或代码)能以任何形式的编程语言编写，包括汇编或解释语言，或声明或程序语言，而且它可以以任何形式被部署，包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。计算机程序能被存储在存有其它程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)，所讨论的程序专用的单个文件中，或多个协同文件中(例如，存储一个或多个模块、子程序或部分代码的文件)。计算机程序能被部署以在一个计算机上执行，或在位于同一个地点或是分布在多个地点并通过通信网络互连的多个计算机上执行。

本说明书中所描述的过程和逻辑流程能由执行一个或多个计算机程序的一个或多个可编程计算机来执行，以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流程也能由专用逻辑电路执行，并且装置也能被实现为专用逻辑电路，所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合执行计算机程序的计算机包括，举例来说，可以基于通用或专用微处理器或者两者，或任何其它种类的中央处理单元。通常，中央处理单元接收来自只读存储器或随机存取存储器的指令和数据或两者。计算机的基本元件是用于运行或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。一般地，计算机也包括一个或多个大容量存储设备，或可操作地耦接到一个或多个大容量存储设备以从其接收数据或向其传送数据或两者，所述一个或多个大容量存储设备例如，磁盘、磁光盘或光盘。然而，计算机不必要具有这样的设备。此外，计算机可以嵌入另一台设备，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收机或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)，等等。

适合于存储计算机程序指令和数据的计算机可读媒介包括所有形式的非易失性存储器、媒介和存储器设备，包括例如半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动盘；磁光盘；和CD-ROM和DVD-ROM盘。处理器和存储器可以被专用逻辑电路补充，或被包含进专用逻辑电路中。

为提供与用户的交互，本说明中所述的主题的实施例能够在具有显示设备和键盘以及定点设备的计算机上实现，所述显示设备，例如CRT(阴极射线管)或LCD(液晶显示器)监视器，用来向用户显示信息；所述键盘和定点设备，例如鼠标或轨迹球，通过它们，用户能够向计算机提供输入。其它种类的设备也能用来提供与用户的交互；例如，提供给用户的反馈可以是任意形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入能以任一形式被接收，包括声学、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从用户的客户端设备上的web浏览器接收到的请求而向该web浏览器发送web页面。

本说明中所描述的主题的实施例能在包括后端组件的计算系统中实现，例如作为数据服务器；或包括中间件组件的计算系统中实现，例如应用服务器；或包括前端组件的计算系统中实现，例如具有图形用户界面或Web浏览器的客户端计算机，通过所述图形用户界面或Web浏览器，用户能与本说明书中所描述的主题的实现方式交互；或一个或多个这样的后端、中间件或前端组件的任一组合。系统的组件能通过任一形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如互联网。

计算系统可以包括客户端和服务器。客户端与服务器通常互相距离较远，并且典型的方式是通过通信网络交互。凭借运行在相应的计算机上并且互相具有客户端-服务器关系的计算机程序，客户端与服务器的关系得以产生。

虽然本说明包含许多特定的实现方式细节，但是这些不应该被理解为对所要求保护的内容的范围的限制，而应该作为对具体实施例所特定的特征的描述。在单独的实施例的背景下本说明书中所描述的某些特性也能以组合的形式在单个实施例中实现。反过来，在单个实施例背景下所描述的各种特征也能单独在多个实施例中或任一合适的子组合中实现。并且，虽然以上将特征描述为在某些组合中起作用并且甚至最初要求如此，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以被从该组合中排除，并且所要求保护的组合可以指其子组合或其子组合的变体。

类似地，虽然在附图中操作被用一种特定的顺序来描绘，但是这不应被理解成为了取得渴望的结果，这些操作需要以所示的特定顺序或连续顺序来执行，或所有图示的操作都要被执行。在某些情况下，多任务和并行处理可能是有利的。并且，上述实施例中的各种系统组件的分离不应被理解成在所有实施例中都需要这样的分离，而应该被理解成所述的程序组件和系统通常能在单个软件产品中被集成在一起或被封装进多个软件产品。

已描述了主题的特定的实施例。其它的实施例在所附权利要求的范围内。例如，权利要求中记载的操作能够以不同的顺序执行，并且仍然可以取得渴望的结果。作为一个示例，为了取得渴望的结果，附图中描绘的过程没有必要要求所示的特定顺序或连续顺序。在某些实现方式中，多任务和并行处理可能是有利的。可以提供其它步骤，或从描述的过程中删去一些步骤。因此，其它的实现方式也在所附权利要求的范围内。

Claims

1.一种计算机实现的方法，包括：

获取与特定词语相对应的语音的音频样本；

获取用于所述特定词语的多个候选发音；

针对用于所述特定词语的每个候选发音和与所述特定词语相对应的语音的音频样本，生成反映该候选发音与所述音频样本之间的相似水平的评分；

累积每个候选发音的评分；并且

基于所述多个候选发音的累积评分，将用于所述特定词语的一个或多个候选发音添加到发音词典中。

2.根据权利要求1所述的方法，其中，添加用于所述特定词语的一个或多个候选发音包括：

识别所述多个候选发音中的一个候选发音，该候选发音具有指示该候选发音与所述音频样本之间的相似水平比其它候选发音与所述音频样本之间的相似水平更接近的累积评分；并且

将所识别出的候选表达添加到所述发音词典中。

3.根据权利要求1所述的方法，其中，添加用于所述特定词语的一个或多个候选发音包括：

将所有的候选发音和所述多个候选发音的累积评分添加到所述发音词典中。

4.根据权利要求1所述的方法，其中，获取用于所述特定词语的多个候选发音包括：

基于所述特定词语中的字母、字素或其它单元、以及发音的一个或多个规则，生成用于所述特定词语的多个候选发音。

5.根据权利要求1所述的方法，其中，获取用于所述特定词语的多个候选发音包括：

获取用于所述特定词语的候选发音的先前集合；

针对所述先前集合中的所述特定词语的每个候选发音和与所述特定词语相对应的语音的音频样本，生成反映所述先前集合的所述候选发音与所述音频样本之间的相似水平的评分；

累积所述先前集合的每个候选发音的评分；

确定没有所述先前集合的候选发音的累积评分反映比其它候选发音与所述音频样本之间的相似水平更接近达预定量的所述候选发音与所述音频样本之间的相似水平；并且

基于具有指示所述音频样本与其它候选发音之间的相似水平更接近的累积评分的所述候选发音，获取所述多个候选发音。

6.根据权利要求1所述的方法，其中，获取音频样本包括：

访问查询转录日志；

识别所述查询转录日志中的所述特定词语；并且

识别出与所述查询转录日志中已经识别出的特定词语相对应的查询音频日志的一个或多个部分，作为所述音频样本。

7.根据权利要求1所述的方法，其中，获取音频样本包括：

接收响应于说出所述特定词语的提示说出所述特定词语的多个不同人的音频样本。

8.根据权利要求1所述的方法，进一步包括：

确定所述发音词典没有包括用于所述特定词语的准确发音，

其中，获取与特定词语相对应的语音的音频样本响应于确定所述发音词典没有包括用于所述特定词语的准确发音。

9.一种存储包括指令的软件的计算机可读介质，所述指令可被一个或多个计算机执行，在这样的执行中，使得一个或多个计算机执行操作，包括：

获取与特定词语相对应的语音的音频样本；

获取用于所述特定词语的多个候选发音；

针对用于所述特定词语的每个候选发音和与所述特定词语相对应的语音的音频样本，生成反映该候选发音与所述音频样本之间的相似水平的评分；并且

10.根据权利要求9所述的介质，其中，添加用于所述特定词语的一个或多个候选发音包括：

将所识别出的候选表达添加到所述发音词典中。

11.根据权利要求9所述的介质，其中，添加用于所述特定词语的一个或多个候选发音包括：

将所有候选发音和所述多个候选发音的累积评分添加到所述发音词典中。

12.根据权利要求9所述的介质，其中，获取用于所述特定词语的多个候选发音包括：

获取用于所述特定词语的候选发音的先前集合；

累积所述先前集合的每个候选发音的评分；

13.根据权利要求9所述的介质，其中，获取音频样本包括：

访问查询转录日志；

识别所述查询转录日志中的所述特定词语；并且

14.根据权利要求9所述的介质，其中，获取音频样本包括：

15.一种系统，包括：

一个或多个计算机和一个或多个存储可操作的指令的存储设备，所述指令当被所述一个或多个计算机执行时，使得所述一个或多个计算机执行操作，包括：

获取与特定词语相对应的语音的音频样本；

获取用于所述特定词语的多个候选发音；

针对用于所述特定词语的每个候选发音和与所述特定词语相对应的语音音频样本，生成反映该候选发音与所述音频样本之间的相似水平的评分；

累积每个候选发音的评分；并且

16.根据权利要求15所述的系统，其中，添加用于所述特定词语的一个或多个候选发音包括：

将所识别出的候选表达添加到所述发音词典中。

17.根据权利要求15所述的系统，其中，添加用于所述特定词语的一个或多个候选发音包括：

18.根据权利要求15所述的系统，其中，获取用于所述特定词语的多个候选发音包括：

获取用于所述特定词语的候选发音的先前集合；

累积所述先前集合的每个候选发音的评分；

19.根据权利要求15所述的系统，其中，获取所述音频样本包括：

访问查询转录日志；

识别所述查询转录日志中的所述特定词语；并且

20.根据权利要求15所述的系统，其中，获取音频样本包括：