CN107045871B

CN107045871B - 利用外部数据源重新识别语音

Info

Publication number: CN107045871B
Application number: CN201611243688.1A
Authority: CN
Inventors: 特雷弗·D·施特勒曼; 约翰·沙尔克维克; 格列布·斯科别利岑
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-02-05
Filing date: 2016-12-29
Publication date: 2020-09-15
Anticipated expiration: 2036-12-29
Also published as: KR102115541B1; JP2019507362A; DE202016008230U1; WO2017136016A1; KR20180066216A; EP3360129B1; DE102016125954A1; RU2688277C1; EP3360129A1; US20170301352A1; CN107045871A; JP6507316B2; US20170229124A1

Abstract

提供了利用外部数据源重新识别语音。基于外部数据源改进语音识别的方法，包括在计算机存储介质上编码的计算机程序。在一个方面，方法包括：使用自动语音识别获得讲话的初始候选转录，并且基于该自动语音识别器在生成该初始候选转录时未使用的语言模型识别与出现在该初始候选转录中的一个或多个词语发音相似的一个或多个词语。附加的动作包括基于所识别的一个或多个词语生成一个或多个附加候选转录，并且从该候选转录中选择一个转录。所描述的特征可以使得来自外部数据源的数据能够在生成更为准确的转录时被使用而无需修改现有的自动语音识别器，或者可以避免自动语音识别器的重新编译。

Description

利用外部数据源重新识别语音

技术领域

本说明书涉及到自动语音识别。

背景技术

语音识别是指使用自动语音识别器(ASR)将所讲出的词转录为文本。在传统的ASR系统中，所接收的音频被转换为计算机可读的声音，其随后可以与关联于给定语言的词词典进行比较。

发明内容

总体上，该说明书中所描述主题的一个创新方面能够以使用外部数据源改善语音识别的方法来体现。例如，一种自动语音识别器可以接收对讲话进行编码的音频数据并且使用第一语言模型提供该讲话的初始候选转录。该系统随后可以对该初始候选转录应用不同的第二语言模型以生成可替换候选转录，其(i)发音类似于初始候选转录，并且(ii)可能以给定语言所显现。该系统随后可以基于(i)该音频数据和候选转录之间的发音相似性以及(ii)该候选转录以给定语言出现的可能性而从候选转录中选择一个转录。

实施方式可以包括以下一个或多个特征。例如，在一些实施方式中，一种方法包括使用自动语音识别器获得讲话的初始候选转录，基于该自动语音识别器在生成该初始候选转录时未使用的语言模型识别与出现在该初始候选转录中的一个或多个词语发音相似的一个或多个词语，基于所识别的一个或多个词语生成一个或多个附加的候选转录，并且从该候选转录中选择一个转录。

其它多种版本包括相对应的被配置为执行在计算机存储设备上所编码的方法的动作的系统、计算机程序，以及被配置为使得计算装置执行该方法的动作的计算机程序。

一个或多个实施方式可以包括以下可选特征。例如，在一些实施方式中，该自动语音识别器在生成该初始候选转录时未使用的语言模型包括未处于该自动语音识别器在生成该初始候选转录时所使用的语言模型中的一个或多个词语。在一些方面，该自动语音识别器在生成该初始候选转录时未使用的语言模型以及该自动语音识别器在生成该初始候选转录时所使用的语言模型都包括一个或多个词语的序列，但是将该序列指示为具有不同的出现可能性。

在某些方面，该自动语音识别器在生成该初始候选转录时未使用的语言模型指示词或词序列出现的可能性。在一些实施方式中，动作包括针对每种候选转录确定反映该候选转录预期被说出的频繁程度的可能性分值，并且针对每个候选转录确定反映该候选转录与讲话之间的发音相似度的声音匹配分值，其中从候选转录中选择该转录是基于该声音匹配分值和可能性分值。在一些方面，确定反映该候选转录与讲话之间的发音相似度的声音匹配分值包括：从自动语音识别器获得子词声音匹配分值，识别与候选转录相对应的子词声音匹配分值的子集，并且基于与候选转录相对应的子词声音匹配分值的子集而生成该声音匹配分值。

在某些方面，确定反映该候选转录预期被说出的频繁程度的可能性分值包括基于该自动语音识别器在生成该初始候选转录时未使用的语言模型确定该可能性分值。在一些实施方式中，基于所识别的一个或多个词语生成一个或多个附加候选转录包括利用出现在初始候选转录中的一个或多个词语替代所识别的与出现在该初始候选转录中的一个或多个词语发音相似的一个或多个词语。

技术优势可以包括使得来自外部数据源的数据能够在生成更为准确的转录时得以被使用而并不修改现有的自动语音识别器。例如，将自动语音识别器的输出应用于经更新的语言模型可以避免为了使用经更新的语言模型而进行计算上昂贵的自动语音识别器的重新编译。其它优势可以在于，系统可以识别出用来生成初始转录的自动语音识别器所能够识别的词语以外的附加词语。再一个优势可以在于，通常可能不适用于实时语音识别解码器的不同语言模型架构可以被整合。例如，包括用户经常听的每首歌的列表的文本文件可能难以有效地被实时整合到语音识别器中。然而，在该系统中，在语音识别器输出初始候选转录之后，来自该文本文件的信息能够被整合从而确定最终转录。

确定词语发音是否相似能够涉及到确定相似度的量度并且将该量度与阈值进行比较，或者确定该相似度的量度是否大于与其它词语配对相关的相似度的量度。

一个或多个实施方式的细节在附图和以下描述中给出。其它可能的特征和优势将从描述、附图和权利要求而变得显而易见。

这些方面的其它实施方式包括被配置为执行该方法的动作的系统、装置以及在计算机存储设备上编码的计算机程序。

附图说明

图1图示了可以被用来使用外部数据源改进语音识别的示例性系统。

图2图示了使用外部数据源改进语音识别的示例性过程。

图3是这里所描述的过程或者过程的多个部分可以在其上实施的计算设备的框图。

在图中，同样的附图标记始终表示相对应的部分。

具体实施方式

图1图示了可以被用来使用外部数据源改进语音识别的示例性系统100。简言之，系统100可以包括自动语音识别器(ASR)110，后者包括声音模型112和语言模型114、第二语言模型120、发音扩展器130和重新评分器140。

更为详细地，ASR 110可以接收对讲话进行编码的声音数据。例如，ASR 110可以接收对应于讲话“CityZen Reservation”的声音数据。该声音数据例如可以包括原始波形数据、mel似然倒谱系数，或者音频的任意其它声音或发音表示形式。

ASR 110的声音模型112可以接收声音数据并且针对对应于该声音数据的词或子词—例如，音位—生成声音分值。该声音分值可以反映出词或子词与声音数据之间的发音相似度。例如，声音模型可以接收“CityZen Reservation”的声音数据并且生成声音分值“SE-0.9/0/0/…,…EE-0/0/0.9/…I-0/0.7/0/…”。该示例声音分值可以指示音位“SE”针对讲话中的第一子词具有90％的声音匹配，针对讲话中的第二子词具有0％的声音匹配，并且针对讲话中的第三子词具有0％的声音匹配；对于音位“EE”而言，针对讲话中的第一子词具有0％的声音匹配，针对讲话中的第二子词具有0％的声音匹配，并且针对讲话中的第三子词具有90％的声音匹配；并且对于音位“I”而言，针对讲话中的第一子词具有0％的声音匹配，针对讲话中的第二子词具有0％的声音匹配，并且针对讲话中的第三子词具有70％的声音匹配。在以上示例中，声音模型112可以针对讲话中的子词的音位和位置的每种组合输出声音分值。

声音模型112可以基于将声音数据所指示的波形与被指示为对应于特定子词的波形进行比较而生成声音分值。例如，声音模型112可以接收“CityZen Reservation”的讲话并且识别出该声音数据的开头表示与针对音位“SE”所存储的波形具有90％匹配的波形，并且作为响应，针对该讲话中的第一音位是音位“SE”生成声音分值0.9。

ASR 110的语言模型可以接收该声音分值并且基于该声音分值生成初始候选转录。例如，ASR 110的语言模型114接收声音分值“SE-0.9/0/0/…,…EE-0/0/0.9/…I-0/0.7/0/…”，并且作为响应而生成初始候选转录“Citizen Reservation”。

语言模型114可以基于词序列出现的可能性以及声音分值而生成该初始候选转录。例如，语言模型114可以基于词“CityZen Reservation”出现的可能性为0％—例如，因为词“CityZen”并不包括在语言模型114中；词“Citizen Reservation”出现的可能性为70％；针对“CityZen Reservation”的指示讲话的声音听上去更类似于“City”后跟“Zen”而不是“Citizen”的声音分值而生成“Citizen Reservation”的候选转录。

在一些实施方式中，语言模型114可以将词序列的可能性指示为可能性分值，并且在生成初始候选转录时，语言模型114可以将声音匹配分值与可能性分值进行相乘。例如，针对音位“SE-ET-EE-ZE”，语言模型114可以将声音匹配分值0.9、0.9、0.9、0.7与“City”后跟“Zen”的可能性分值0.0相乘从而产生分值0；而针对音位“SE-ET-I-ZE”，语言模型114可以将声音匹配分值0.9、0.9、0.7、0.9与“Citizen”的可能性分值0.9相乘从而产生分值0.45，并且因此选择词“Citizen”，原因在于其分值0.45高于“City”后跟“Zen”的分值0。

ASR 110可以输出语言模型114所生成的初始转录。例如，ASR 110可以响应于接收到基于讲话“CityZen Reservation”的声音数据的声音分值而输出声音模型114所生成的初始转录“Citizen Reservation”。

第二语言模型120可以接收该初始转录并且生成附加候选转录。例如，第二语言模型120可以接收初始转录“Citizen Reservation”，并且作为响应而生成附加转录“CityZenReservation”和“Sooty bin reservation”。

第二语言模型120可以基于识别发音与出现在初始候选转录中的一个或多个词语相似的一个或多个词语并且将该出现在该初始候选转录中的一个或多个词语替换为所识别的发音相似的一个或多个词语来生成该附加候选转录。例如，第二语言模型120可以接收初始候选转录“Citizen Reservation”，识别出都与词语“Citizen”发音相似的词语“CityZen”和“Sooty bin”，并且作为响应，通过将“Citizen”分别替换为“CityZen”和“Sooty bin”而生成附加转录“CityZen Reservation”和“Sooty bin reservation”。

在一些实施方式中，第二语言模型120可以基于存储词的发音表示形式并且基于所存储的发音表示识别发音相似的词语来识别发音相似的词语。例如，第二语言模型可以存储指示“Citizen”可以由音位“SE-ET-I-ZE-EN”所表示并且“City”和“Zen”可以由音位“SE-ET-EE-ZE-EN”所表示的信息，接收初始转录中的词语“Citizen”，确定该词语对应于音位“SE-ET-I-ZE-EN”，确定音位“SE-ET-I-ZE-EN”类似于与“City”和“Zen”相关联的音位“SE-ET-EE-ZE-EN”，并且作为响应而确定识别出词语“Citizen”在发音上类似于词语“CityZen”。

在一些实施方式中，第二语言模型120可以基于音位的声音表示形式而确定音位听上去有多么相似。例如，第二语言模型120可以基于确定音位“EE”的声音表示形式与音位“ZA”的声音表示形式相比更相似于音位“I”的声音表示形式，而确定与音位“EE”和音位“ZA”相比，音位“EE”和音位“I”彼此更为相似。在一些实施方式中，除此之外或可替换地，第二语言模型可以基于听上去相似的词的明确指示来识别发音相似的词语。例如，第二语言模型120可以包括明确指示“Floor”和“Flour”听上去发音相似的信息。

第二语言模型120可以基于词序列出现在候选转录中的可能性而生成附加候选转录。例如，第二语言模型可以确定词序列“CityZen Reservation”具有高的出现可能性，并且作为响应而确定输出“CityZen Reservation”作为附加候选。在另一个示例中，第二语言模型120可以确定词序列“Sooty zen reservation”具有低的出现可能性，并且作为响应而确定不输出“Sooty zen reservation”作为附加候选。

在一些实施方式中，第二语言模型120可以基于与初始候选转录的发音相似度和候选转录出现的可能性二者的组合来生成候选转录。例如，第二语言模型120可以确定不输出“Sooty zen reservation”而输出“Sooty bin reservation”，这是因为虽然“Sooty zenreservation”在发音上与“Citizen Reservation”更为相似，但是“Sooty zenreservation”根据第二语言模型120具有非常低的出现可能性，而“Sooty binreservation”虽然与“Citizen Reservation”的相似度稍低但是却具有适度的出现可能性。

第二语言模型120可以随候选转录一起输出相关联的可能性分值。例如，响应于接收到“Citizen Reservation”，第二语言模型120可以输出与适度可能性分值0.6相关联的“Citizen Reservation”，输出与高可能性分值0.9相关联的“CityZen Reservation”，并且输出具有适度可能性分值0.4的“Sooty bin reservation”。该可能性分值可以反映出候选转录中的一个或多个词的序列在给定语言中出现的可能性。

在一些实施方式中，第二语言模型120可以基于存储一个或多个词的序列的可能性分值，识别处于候选转录中的一个或多个词的序列，并且基于被识别为处于候选转录中的一个或多个词的序列的可能性分值为候选转录生成可能性分值而针对候选转录确定可能性分值。在一个示例中，第二语言模型120可以确定序列“Sooty bin”和“reservation”处于候选转录“Sooty bin reservation”中并且预先分别与可能性分值0.8和0.5相关联，并且通过将可能性分值0.8和0.5相乘得到0.4而生成候选转录“Sooty bin reservation”的可能性分值。在另一个示例中，第二语言模型120可以确定序列“CityZen Reservation”预先与可能性分值0.9相关联且与候选转录“CityZen Reservation”完全匹配，并且作为响应而确定候选转录“CityZen Reservation”的可能性分值为0.9。

发音扩展器130可以从第二语言模型120接收候选转录并且将该候选转录扩展为子词。例如，发音扩展器130可以接收“Citizen Reservation”并且生成发音扩展“SE-ET-I-ZE…”，接收“CityZen Reservation”并且生成发音扩展“SE-ET-EE-ZE…”，接收“Sooty binreservation”并且生成发音扩展“SO-OT-EE-BI…”。在一些实施方式中，发音扩展器130可以基于预先确定的扩展规则而将候选转录扩展为子词。例如，规则可以定义“SOO”被扩展为音位“SO”。在另一个示例中，规则可以定义词“Sooty”被扩展为音位“SO-OT-EE”。

重新评分器140可以从发音扩展器接收每个候选转录的发音扩展，从第二语言模型120接收每个候选转录的相关联可能性分值，从声音模型112接收声音分值，基于该可能性分值与来自声音模型112的声音分值的组合为候选转录生成整体分值，并且基于该整体分值从候选转录中选择一个转录。例如，重新评分器可以接收与适度可能性分值0.6和发音扩展“SE-ET-I-ZE…”相关联的候选转录“Citizen Reservation”，与高可能性分值0.9和发音扩展“SE-ET-EE-ZE…”相关联的候选转录“CityZen Reservation”，以及与适度可能性分值0.4和发音扩展“SO-OT-EE-BI…”相关联的候选转录“Sooty bin reservation”，接收到声音分值SE-0.9/0/0/…,…EE-0/0/0.9/…I-0/0/0.7/…”，生成“CityZen Reservation”的整体分值0.8，“Citizen Reservation”的整体分值0.6，以及“Sooty bin reservation”的整体分值0.3，并且由于其具有最高的整体分值而选择“CityZen Reservation”。

在一些实施方式中，在重新评分器140中可以基于候选讲话的可能性分值和声音匹配分值的组合而生成整体分值。例如，重新评分器140可以基于将候选转录的可能性分值0.9与该候选转录的声音匹配分值0.8相乘而生成该候选转录的整体分值0.7。

在一些实施方式中，重新评分器140可以基于来自声音模型112的声音分值以及来自发音扩展器130的发音扩展而生成候选讲话的声音匹配分值。特别地，重新评分器140可以接收包括多个子词的发音扩展，识别对应于多个子词中的每一个的声音分值，并且基于候选讲话的发音扩展中所包括的多个子词的声音分值而生成每个候选讲话的声音匹配分值。例如，重新评分器140可以接收“CityZen Reservation”的发音扩展“SE-ET-EE-ZE…”，识别针对每个音位“SE-ET-EE-ZE…”从声音模型112所接收的声音分值，并且乘以所识别的声音分值从而生成“CityZen Reservation”的声音匹配分值。

在一些实施方式中，重新评分器140可以不从声音模型112接收所有的声音分值。相反，重新评分器140可以从发音扩展器130接收发音扩展并且向声音模型112提供仅针对对应于从发音扩展器130所接收的发音扩展中的子词的声音分值的请求。例如，重新评分器140可以请求声音模型112提供音位“SE”、“ET”、“I”、“ZE”以及发音扩展中所出现的其它音位的声音分值，而不提供音位“BA”、“FU”、“KA”以及未在发音扩展中出现的其它音位的声音分值。

在一些实施方式中，重新评分器140在从候选转录中选择一个转录时可以考虑其它因素。例如，重新评分器140可以识别用户的当前位置并且针对识别出与用户的当前位置具有更为紧密的关联的候选转录而对选择进行加权。在另一个示例中，重新评分器140可以识别一天中的当前时间并且针对识别出与一天中的时间具有更为紧密的关联的候选转录而对选择进行加权。在又一个示例中，重新评分器140可以识别出提供讲话的用户的存在并且针对识别出与该用户的存在具有更为紧密的关联的候选转录而对选择进行加权。

可以使用系统100的不同配置形式，其中声音模型112、语言模型114、自动语音识别器110、第二语言模型120、发音扩展器130和重新评分器140的功能可以进行组合、进一步划分、分布或互换。系统100可以在单个设备中实施或者跨多个设备进行分布。

图2是基于外部数据源改进语音识别的示例过程200的流程图。以下将过程200描述为由参考图1所描述的系统100的组件来实施。然而，过程200可以由其它系统或系统配置所实施。

过程200可以包括使用自动语音识别器获得讲话的初始候选转录(210)。例如，自动语音识别器210可以接收讲话“Zaytinya reservation”的声音数据并且输出初始候选转录“Say tin ya reservation”。

过程200可以包括基于该自动语音识别器在生成该初始候选转录时未使用的语言模型识别与该初始候选转录发音相似的一个或多个附加词语(220)。例如，第二语言模型120可以识别出类似于“Say tin ya”的词语“Zaytinya”和“Say ten ya”。

过程200可以包括基于一个或多个附加词语而生成一个或多个附加候选转录(230)。例如，第二语言模型120可以基于将候选讲话“Say tin ya reservation”中的“Saytin ya”替换为“Zaytinya”和“Say ten ya”而生成附加候选转录“Zaytinya reservation”和“Say ten ya reservation”。

过程200可以包括从候选转录中选择一个转录(240)。例如，重新评分器140可以从候选转录“Say tin ya reservation”、“Zaytinya reservation”和“Say ten yareservation”中选择出转录“Zaytinya reservation”。该选择可以基于每种候选转录的可能性分值和声音匹配分值。例如，该选择可以基于识别具有指示该候选讲话出现在给定语言中的高度可能性的可能性分值以及指示该候选讲话与声音数据具有相近的声音相似度的声音匹配分值的候选转录。

图3是可以被用来作为客户端或单个或者多个服务器来实施本文所描述的系统和方法的计算设备300、350的框图。计算设备300意在表示各种形式的数字计算机，诸如膝上电脑、台式电脑、工作站、个人数字助理、服务器、刀片服务器、大型电脑或其它合适计算机。计算设备350意在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话和其它类似计算设备。此外，计算设备300或350可以包括通用串行总线(USB)闪存驱动器。USB闪存驱动器可以存储操作系统和其它应用。USB闪存驱动器能够包括输入/输出组件，诸如无线发射器或USB连接器，其能够被插入另一个计算设备的USB端口之中。这里所示的组件、其连接和关系以及其功能仅意在是示例性的，而并不意味着对本文中所描述和/或要求保护的发明的实施方式进行限制。

计算设备300包括处理器302、存储器304、存储设备306、连接到存储器304和高速扩展端口310的高速接口308，以及连接到低速总线314和存储设备306的低速接口312。部件302、304、306、308、310和312中的每一个都使用各种总线进行互连，并且可以安装在共用主板上或者以其它适当方式进行安装。处理器302能够对用于在计算设备300内执行的指令进行处理，包括存储在存储器304中或存储设备306上的指令，以显示用于外部输入/输出设备上的GUI的图形信息，所述外部输入/输出设备诸如耦合到高速接口308的显示器316。在其它实施方式中，如果合适，可以使用多个处理器和/或多个总线，连同多个存储器以及多种类型的存储器。而且，可以连接多个计算设备300，每个设备提供部分必需的操作，例如作为服务器组、刀片服务器群或者多处理器系统。

存储器304存储计算设备300内的信息。在一个实施方式中，存储器304是一个或多个易失性存储单元。在另一实施方式中，存储器304是一个或多个非易失性存储单元。存储器304还可以是另一形式的计算机可读介质，诸如磁盘或光盘。

存储设备306能够为计算设备300提供大型存储。在一个实施方式中，存储设备306可以是计算机可读介质或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似的固态存储设备，或者设备阵列，包括存储域网络或其它配置中的设备。计算机程序产品能够有形地在信息载体中进行体现。计算机程序产品还可以包括指令，该指令在被执行时实施诸如以上所描述的那些的一种或多种方法。该信息载体是计算机或机器可读介质，诸如存储器304、存储设备306或者处理器302上的存储器。

高速控制器308对计算设备300的带宽密集操作进行管理，而低速控制器312对较低带宽密集的操作进行管理。这样的功能分配仅是示例性的。在一个实施方式中，高速控制器308例如通过图形处理器或加速器耦合到存储器304、显示器316，并且耦合到可以接受各种扩展卡(未示出)的高速扩展端口310。在所述实施方式中，低速控制器312耦合到存储设备306和低速扩展端口314。可包括例如USB、蓝牙、以太网、无线以太网的各种通信端口的低速扩展端口例如可通过网络适配器耦合到一个或多个输入/输出设备，诸如键盘、指示设备、麦克风/扬声器对、扫描仪或者诸如交换机或路由器之类的网络设备。如图所示，可以以多种不同形式来实施计算设备300。例如，其可以实施为标准服务器320，或者这种服务器的群组中的多倍服务器。其还可以实施为机架式服务器系统324的一部分。此外，其可以在诸如膝上计算机322的个人计算机中实施。可替换地，来自计算设备300的组件可以与诸如设备350的移动设备(未示出)中的其它组件进行组合。这些设备中的每一个可包含一个或多个计算设备300、350，并且整个系统可由彼此通信的多个计算设备300、350所构成。

如图所示，可以以多种不同形式来实施计算设备300。例如，其可以实施为标准服务器320，或者这种服务器的群组中的多倍服务器。其还可以实施为机架式服务器系统324的一部分。此外，其可以在诸如膝上计算机322的个人计算机中实施。可替换地，来自计算设备300的组件可以与诸如移动计算设备350的移动设备(未示出)中的其它组件进行组合。这些设备中的每一个可包含一个或多个计算设备300、350，并且整个系统可由彼此通信的多个计算设备300、350所构成。

除其它组件之外，设备350包括处理器352、存储器364、诸如显示器354之类的输入/输出设备、通信接口366和收发器368。设备350还可被提供以存储设备，诸如微驱动器或其它设备，以提供附加存储。组件350、352、364、354、366和368中的每一个使用各种总线进行互连，并且若干组件可安装在共用主板上或者以其它适当方式进行安装。

处理器352能够执行计算设备350内的指令，包括存储在存储器364中的指令。处理器可实施为包括单独的多个模拟和数字处理器的芯片的芯片组。另外，处理器可以使用多种架构中的任何一种来实现。例如，处理器310可以是CISC(复杂指令集计算机)处理器，RISC(精简指令集计算机)处理器或MISC(最小指令集计算机)处理器。例如，处理器352可以提供设备350的其它组件的协调，诸如用户接口的控制、移动计算设备350所运行的应用程序以及移动计算设备350所进行的无线通信。

处理器352可以通过控制接口358和耦合到显示器354的显示接口356与用户进行通信。显示器354例如可以是TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器，或者其它合适的显示技术。显示接口356可包括用于驱动显示器354以向用户呈现图形和其它信息的合适电路。控制接口358可接收来自用户的命令并且将其转换以便向处理器352进行提交。此外，可提供与处理器352进行通信的外部接口362，以便使得设备350能够与其它设备进行近域通信。例如，可提供以太接口363，在一些实施方式中用于有线通信，或者在其它实施方式中用于无线通信，并且还可以使用多个接口。

存储器364存储计算设备350内的信息。存储器364可以实施为一个或多个计算机可读介质或媒体、一个或多个易失性存储单元或者一个或多个非易失性存储单元。也可以提供扩展存储器374并通过扩展接口372连接至设备350，所述扩展接口可包括例如SIMM(单列直插内存模块)卡接口。这样的扩展存储器174可为设备350提供额外的存储空间，或者还可以存储应用程序和用于设备350的其它信息。具体地，扩展存储器374可包括指令以执行或补充以上所描述的过程，并且还可包括安全信息。因此，扩展存储器374例如可以被提供为设备350的安全模块，并且可以利用允许对设备350进行安全使用的指令进行编程。此外，可以经由SIMM卡连同附加信息一起提供安全应用程序，诸如以无法被攻击的方式在SIMM卡设置识别信息。

如以下所讨论的，存储器例如可包括闪存和/或NVRAM存储器。在一个实施方式中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含当被执行时执行一个或多个方法(例如上述方法)的指令。信息载体是计算机或机器可读介质，例如存储器364，扩展存储器374或处理器352上的存储器，该指令可以例如通过收发器368或外部接口362接收。

设备350可通过通信接口366进行无线通信，所述通信接口366可包括所必需的数字信号处理电路。通信接口366可在各种模式或协议下提供通信，除其它之外，诸如GSM语音呼叫、SMS、EMS或MMS消息发送、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS。例如，这样的通信可使用射频而通过收发器368进行。此外，诸如可使用蓝牙、WiFi或其它这样的收发器(未示出)进行短距离通信。此外，GPS(全球定位系统)接收器模块370可以为设备350提供附加的导航和位置相关的无线数据，所述无线数据可适当由在设备350上运行的应用程序所使用。

设备350还可以使用音频编解码器360进行可听通信，所述音频编解码器360可接收来自用户的语音信息并将其转换为可用的数字信息。音频编解码器360同样可诸如通过例如设备350的听筒中的扬声器为用户生成可听的声音。这样的声音可包括来自语音电话呼叫的声音，可包括所录制的声音，例如语音消息、音乐文件等，并且可包括在设备350上运行的应用程序所生成的声音。

如图所示，可以以多种不同形式来实施计算设备350。例如，其可实施为蜂窝电话380。其还可实施为智能电话382、个人数字助理或其它类似移动设备的一部分。

这里所描述的系统和技术的各种实施方式可以以数字电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些各种实施方式可包括一个或多个计算机程序中的实施方式，所述计算机程序可在包括至少一个可编程处理器、至少一个输入设备和至少一个输出设备的可编程系统上执行和/或解释，所述可编程处理器是专用或通用的，其耦合以从存储系统接收数据和指令并且向所述存储系统传送数据和指令。

这些计算机程序(还称作程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令，并且可以以高级程序和/或面向对象编程语言和/或汇编/机器语言来实现。如这里所使用的，术语“机器可读介质”、“计算机可读介质”是指被用来向可编程处理器提供机器指令和/或数据的任意计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用来向可编程处理器提供机器指令和/或数据的任意信号。

为了提供与用户的交互，这里所描述的系统和技术可在具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可通过其向计算机提供输入的键盘和指示设备—例如，鼠标或轨迹球—的计算机上实施。还可使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以为任意形式的感观反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任意形式来接收来自用户的输入，包括声音、语音或触觉输入。

这里所描述的系统和技术可以以计算系统来实现，所述计算系统包括后端组件—例如，作为数据服务器，或者包括中间组件—例如，应用服务器，或者包括前端组件—例如，具有用户可通过其与这里所描述的系统和技术的实施方式进行交互的图形用户界面或web浏览器的客户端计算机，或者这样的后端、终端或前段组件的组合。所述系统的组件可通过任意形式或介质的数字数据通信—例如，通信网络—进行互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系通过在各自计算机上运行的计算机程序所建立并且彼此具有客户端－服务器关系。

已经描述了多个实施例。然而，将要理解的是，可以进行各种修改而并不背离本发明的精神和范围。此外，在图中所描绘的逻辑流程并不要求所示出的特定顺序或连续顺序来实现所期望的结果。此外，可以提供其它步骤，或者可以从所描述的流程中消除步骤，并且可以向所描述的系统增加组件或者从中去除组件。因此，其它实施例处于以下权利要求的范围之内。

Claims

1.一种计算机实施的方法，包括：

基于由自动语音识别器的声音模型生成的声音分值，从所述自动语音识别器的语言模型为与由所述自动语音识别器接收的声音数据相对应的子词获得讲话的初始候选转录，所述声音数据对所述讲话进行编码；

基于所述自动语音识别器在生成所述初始候选转录时未使用的语言模型来识别与出现在所述初始候选转录中的一个或多个词语发音相似的一个或多个词语；

基于所识别的一个或多个词语来生成一个或多个附加的候选转录；

针对每个候选转录，确定反映所述候选转录预期被说出的频繁程度的可能性分值；

针对每个候选转录，将所述候选转录扩展成子词，从所述声音模型识别与所述候选转录的每个子词相对应的声音分值，以及根据从所述声音模型为所述候选转录的子词识别的声音分值确定声音匹配分值，所述声音匹配分值反映所述候选转录与所述讲话之间的发音相似度；以及

根据基于所述声音匹配分值和所述可能性分值的组合生成的相应总分值从所述候选转录中选择一个转录。

2.根据权利要求1所述的方法，其中，所述自动语音识别器在生成所述初始候选转录时未使用的语言模型包括未处于所述自动语音识别器在生成所述初始候选转录时所使用的语言模型中的一个或多个词语。

3.根据权利要求1所述的方法，其中，所述自动语音识别器在生成所述初始候选转录时未使用的语言模型以及所述自动语音识别器在生成所述初始候选转录时所使用的语言模型都包括一个或多个词语的序列，但是将所述序列指示为具有不同的出现可能性。

4.根据权利要求1所述的方法，其中，所述自动语音识别器在生成所述初始候选转录时未使用的语言模型指示词或词序列出现的可能性。

5.根据权利要求1所述的方法，其中，确定反映所述候选转录与所述讲话之间的发音相似度的声音匹配分值包括：

从所述自动语音识别器获得子词声音匹配分值；

识别与所述候选转录相对应的所述子词声音匹配分值的子集；以及

基于与所述候选转录相对应的所述子词声音匹配分值的子集来生成所述声音匹配分值。

6.根据权利要求1所述的方法，其中，确定反映所述候选转录预期被说出的频繁程度的可能性分值包括：

基于所述自动语音识别器在生成所述初始候选转录时未使用的语言模型来确定所述可能性分值。

7.根据权利要求1所述的方法，其中，基于所识别的一个或多个词语来生成一个或多个附加的候选转录包括：

利用出现在所述初始候选转录中的一个或多个词语替代所识别的与出现在所述初始候选转录中的一个或多个词语发音相似的一个或多个词语。

8.一种系统，包括：

一个或多个计算机以及存储能够进行操作的指令的一个或多个存储设备，所述指令在被所述一个或多个计算机执行时使得所述一个或多个计算机执行操作，包括：

9.根据权利要求8所述的系统，其中，所述自动语音识别器在生成所述初始候选转录时未使用的语言模型包括未处于所述自动语音识别器在生成所述初始候选转录时所使用的语言模型中的一个或多个词语。

10.根据权利要求8所述的系统，其中，所述自动语音识别器在生成所述初始候选转录时未使用的语言模型以及所述自动语音识别器在生成所述初始候选转录时所使用的语言模型都包括一个或多个词语的序列，但是将所述序列指示为具有不同的出现可能性。

11.根据权利要求8所述的系统，其中，所述自动语音识别器在生成所述初始候选转录时未使用的语言模型指示词或词序列出现的可能性。

12.根据权利要求8所述的系统，其中，确定反映所述候选转录与所述讲话之间的发音相似度的声音匹配分值包括：

从所述自动语音识别器获得子词声音匹配分值；

13.根据权利要求8所述的系统，其中，确定反映所述候选转录预期被说出的频繁程度的可能性分值包括：

14.根据权利要求8所述的系统，其中，基于所识别的一个或多个词语来生成一个或多个附加的候选转录包括：

15.一种存储包括能够由一个或多个计算机执行的指令的软件的非瞬态计算机可读介质，所述指令在这样的执行时使得所述一个或多个计算机执行操作，所述操作包括：

16.根据权利要求15所述的介质，其中，所述自动语音识别器在生成所述初始候选转录时未使用的语言模型包括未处于所述自动语音识别器在生成所述初始候选转录时所使用的语言模型中的一个或多个词语。

17.根据权利要求15所述的介质，其中，所述自动语音识别器在生成所述初始候选转录时未使用的语言模型以及所述自动语音识别器在生成所述初始候选转录时所使用的语言模型都包括一个或多个词语的序列，但是将所述序列指示为具有不同的出现可能性。

18.根据权利要求15所述的介质，其中，所述自动语音识别器在生成所述初始候选转录时未使用的语言模型指示词或词序列出现的可能性。