CN106463113A

CN106463113A - 在语音辨识中预测发音

Info

Publication number: CN106463113A
Application number: CN201580011488.0A
Authority: CN
Inventors: 杰弗里·彭罗德·亚当斯; 阿罗克·阿尔哈斯·帕力卡尔; 杰弗里·保罗·利利; 艾利亚·拉斯特罗
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2014-03-04
Filing date: 2015-02-27
Publication date: 2017-02-22
Anticipated expiration: 2035-02-27
Also published as: US10339920B2; EP3114679B1; EP3114679A4; JP2017513047A; JP6550068B2; US20150255069A1; WO2015134309A1; CN106463113B; EP3114679A1

Abstract

一种自动语音辨识(ASR)装置可被配置来基于预测文本标识符(例如，歌曲名称等)的一个或多个源语言来预测所述文本标识符的发音。可基于所述文本标识符来确定所述一个或多个源语言。所述发音可包括混合发音，其包括用一个语言的发音、用第二语言的发音以及组合多个语言的混合发音。可将所述发音添加到词典并且匹配到内容项(例如，歌曲)和/或文本标识符。所述ASR装置可从请求所述ASR装置访问所述内容项的用户接收所说话语。所述ASR装置确定所述所说话语是否匹配所述词典中的所述内容项的所述发音中的一个。所述ASR装置接着在所述所说话语匹配所述可能的文本标识符发音中的一个时访问所述内容。

Description

在语音辨识中预测发音

相关申请数据的交叉引用

本申请要求2014年3月4日提交的美国专利申请号14/196,055的优先权，所述申请以全文引用方式并入本文中。

背景

人机交互已经发展到这样的程度：人类可以控制计算装置，并且通过说话向这些装置提供输入。计算装置采用技术来基于所接收音频输入的各种质量来识别人类用户说出的词语。此类技术被称为语音辨识或者自动语音辨识(ASR)。语音辨识与语言处理技术相结合可允许用户控制计算装置来基于用户说出的命令执行任务。语音辨识还可以将用户的语音转换成文本数据，所述文本数据接着可被提供给各种基于文本的程序和应用。

计算机、手持式装置、电话计算机系统、信息亭以及用来改善人机交互的多种其他装置可以使用语音辨识。

附图简述

为了更透彻地理解本公开，现参考以下结合附图进行的描述。

图1示出根据本公开的一个方面的用于基于词语的源语言来预测外源词语的预期发音的语音辨识技术。

图2示出根据本公开的一个方面的用于与分布式语音辨识一起使用的计算机网络。

图3是概念性地示出根据本公开的一个方面的用于语音辨识的装置的框图。

图4示出根据本公开的一个方面加以处理的音频波形。

图5示出根据本公开的一个方面的语音辨识点阵。

图6示出根据本公开的一个方面的用于基于词语的源语言来预测外源词语的预期发音的语音辨识方法。

图7示出根据本公开的一个方面的用于处理包括文本标识符的所说话语的语音辨识方法。

详述

在与能够执行自动语音辨识(ASR)的装置交互时，用户可说出命令来访问内容项。那些内容项可由装置在本地存储，或者可远程存储但是可由装置访问。例如，用户可向计算装置说出命令来“播放”特定的音乐项。所说命令可以被称为话语。音乐项可由文本标识符识别。文本标识符可以是识别内容项(诸如歌曲、视频等)的文本。示例性文本标识符包括艺术家的姓名、乐队名称、唱片标题、歌曲标题或识别将要播放的歌曲的某种其他标签。

ASR系统可具有所存储文本标识符(即，艺术家姓名、乐队名称、唱片标题和歌曲标题)的词典，所述文本标识符与它们对应的预期发音相匹配，其中预期发音基于文本标识符。所述词典可在本地存储或远程存储。当ASR系统接收话语时，它可将所述话语的声音匹配到所存储的预期发音以便将所述话语与一个或多个内容项相匹配以便检索。例如，如果用户说“通过AC/DC播放一些歌曲”，系统可将与“AC/DC”对应的音频匹配到相应的预期发音并且接着匹配到乐队名称。一旦识别了乐队，装置可接着回放与乐队相关联的歌曲。

典型的ASR系统各自独立地与特定语言相关联。例如，英语ASR系统可被配置来理解英语词语，德语ASR系统可被配置来理解德语词语等。一些文本标识符可起源于外语，所述外语不是ASR系统的主要语言。如果用户试图使用外语文本标识符的语言学特质来发音所述文本标识符，这可能会导致混乱。例如，使用德语歌曲标题或德语乐队名称的德语发音来说出请求音乐的用户可能使基于英语的ASR系统混乱。类似地，使用德语歌曲标题的英语发音的用户也可能使ASR系统混乱，这是由于ASR系统基于歌曲标题的文本可能预期不同的发音。

提供了用于基于预测文本标识符的源语言确定文本标识符的预期发音的方法。可基于文本标识符来确定源语言。在本公开的一些方面中，文本标识符的预期发音也可以基于特定用户或用户类别的发音历史。预期发音可包括基于源语言的预期发音的组合，例如，具有被预期为好像具有一种源语言的文本标识符的特定音素以及被预期为好像具有不同源语言的文本标识符的其他音素的预期发音。此外，可针对每一个文本标识符确定多个预期发音，其中每一个预期发音可以与发生的可能性相关联。可能性可以基于文本标识符、用户的行为、其他用户的行为或其他因素。

文本标识符的不同预期发音可以被添加到词典并且适应来自不同用户的不同发音。预期发音可以链接到内容项，诸如存储在音乐目录中的歌曲。当计算装置接收包括文本标识符的所说话语时，所述计算装置通过将所述话语匹配到预期发音的修改后词典来确定所说话语是否包括文本标识符。当所说话语匹配预期发音时，计算装置按所述话语的命令部分中所指示，例如通过播放所请求歌曲，来作用于内容。

图1示出根据本公开的一个方面的用于基于文本标识符的源语言预测文本标识符的预期发音的语音辨识技术。图1包括带有预期发音预测模块128和ASR模块314的ASR装置100，以及定位成接近ASR装置100的用户120。预期发音预测模块128可被配置来访问文本标识符(诸如歌曲标题)，如在框102中所示，并且确定文本标识符的源语言，如在框104中所示。预测模块128可接着基于源语言确定文本标识符的一个或多个预期发音，如在框106中所示。可接着将预期发音匹配到内容项(例如，歌曲)，以便由系统检索。预测模块128可提前执行这些动作，即，在接收话语之前配置或训练ASR系统的操作时执行这些动作。

在装置接收所说话语(在框108中示出)后，所述话语被传递到ASR模块314。ASR模块可接着将所述话语匹配到预期发音，如在框110中所示。可接着将所述预期发音匹配到在所述话语中涉及的内容项(诸如歌曲)，如在框112中所示。装置可接着访问所述内容项(例如，播放所述歌曲)，如在框114中所示。

尽管图1示出由特定模块执行特定任务，但是可以由具体ASR系统所配置的各种模块执行任务。

此外，这里描述的技术可以在诸如ASR装置100的本地装置、网络装置或者不同装置的某种组合上执行。例如，本地装置和远程装置可将本地装置的文本标识符与远程装置交换以便实际上执行对源语言和预期发音的确定。此外，尽管本地装置可接收包括所说话语的音频数据，但是本地装置可将音频数据发送到远程装置以便进行处理。远程装置接着可对音频执行ASR处理。可接着将ASR结果发送到本地装置以便将话语匹配到内容项并且访问内容项，或者那些任务可由远程装置执行并且结果(例如，流式传输歌曲)被发送到本地装置以便向用户回放。或者，本地装置和远程装置可能以其他方式一起工作。

这些多个ASR装置可以通过网络连接起来。如在图2中所示，多个装置可以通过网络202连接起来。网络202可以包括本地或者专用网络或者可以包括诸如互联网的广域网络。可通过有线或无线连接将装置连接到网络202。例如，可通过无线服务提供商将无线装置204连接到网络202。可通过有线连接将诸如计算机212的其他装置连接到网络202。可通过有线或者无线连接将诸如冰箱218的其他装置(例如，其定位在家里或者购物机构中)连接到网络202。其他装置(诸如膝上型计算机208或者平板计算机210)可能能够使用各种连接方法(包括通过无线服务提供商、通过WiFi连接等等)连接到网络202。联网的装置可以通过多个音频输入装置(包括通过耳机206或214)输入说出的音频。可以通过有线或者无线连接将音频输入装置连接到联网的装置。联网的装置还可以包括嵌入式音频输入装置，诸如膝上型计算机208、无线装置204或者平板计算机210中的内置麦克风(未图示)。

在特定ASR系统配置中，一个装置可以捕获音频信号并且另一装置可以执行ASR处理。例如，对于耳机214的音频输入可以由计算机212捕获并且通过网络202发送到计算机220或者服务器216以便进行处理。或者，计算机212可以在通过网络202发送音频信号之前部分地处理所述音频信号。因为ASR处理可以在存储以及处理能力方面涉及大量计算资源，所以在捕获音频的装置具有比远程装置低的处理能力并且需要更高质量的ASR结果的情况下，可以采用这样的拆分配置。音频捕获可以在用户附近发生并且所捕获的音频信号被发送到另一装置以便进行处理。例如，一个或多个麦克风阵列可以定位在与ASR装置不同的位置中，并且所捕获的音频可以从所述阵列发送到ASR装置(或者多个装置)以便进行处理。

图3示出用于执行语音辨识的自动语音辨识(ASR)装置302。本公开的方面包括可驻留在ASR装置302上的计算机可读以及计算机可执行指令。图3示出可被包括在ASR装置302中的多个部件，然而也可包括其他未示出的部件。此外，所示出部件中的一些可能不存在于能够采用本公开的方面的每一个装置中。此外，在ASR装置302中被示出为单个部件的一些部件也可以在单个装置中多次出现。例如，ASR装置302可以包括多个输入装置306、输出装置307或者多个控制器和/或处理器308。

可以在单个语音辨识系统中采用多个ASR装置。在这样的多装置系统中，ASR装置可以包括用于执行语音辨识过程的不同方面的不同部件。多个装置可以包括重叠的部件。如图3中所示的ASR装置是示例性的，并且可以是独立装置或者可整体或者部分地被包括为更大的装置或者系统的部件。

本公开的教义可在多个不同的装置和计算机系统内应用，所述装置和计算机系统包括例如通用计算系统、服务器-客户端计算系统、大型计算系统、电话计算系统、膝上型计算机、蜂窝电话、个人数字助理(PDA)、平板计算机、其他移动装置等。ASR装置302还可以是可提供语音辨别功能的其他装置或系统的部件，所述其他装置或系统诸如像自动柜员机(ATM)、信息亭、家用器具(诸如冰箱、烤箱等)、车辆(诸如汽车、公共汽车、摩托车等)和/或训练装置。

如在图3中所示，ASR装置302可以包括用于捕获所说话语以便进行处理的音频捕获装置304。音频捕获装置304可以包括麦克风或者用于捕获声音的其他合适部件。音频捕获装置304可以集成到ASR装置302中或者可以与ASR装置302分离。ASR装置302还可以包括用于在ASR装置302的部件当中传输数据的地址/数据总线324。除了(或者替代)通过总线324连接到其他部件，ASR装置302内的每一个部件还可以直接连接到其他部件。尽管某些部件在图3中被示出为直接连接，但是这些连接仅仅是说明性的并且其他部件可以彼此直接连接(诸如ASR模块314连接到控制器/处理器308)。

ASR装置302可以包括可以是中央处理单元(CPU)的用于处理数据和计算机可读指令的控制器/处理器308，以及用于存储数据和指令的存储器310。存储器310可以包括易失性随机存取存储器(RAM)、非易失性只读存储器(ROM)和/或其他类型的存储器。ASR装置302还可以包括用于存储数据和指令的数据存储部件312。数据存储部件312可包括一个或多个存储类型，诸如磁性存储装置、光学存储装置、固态存储装置等。ASR装置302还可通过输入装置306或输出装置307连接到可移动或外部存储器和/或存储装置(诸如可移动存储卡、闪存盘驱动器、联网的存储装置等)。用于由控制器/处理器308处理以便操作ASR装置302以及其各种部件的计算机指令可以由控制器/处理器308执行，并且存储在存储器310、存储装置312、外部装置中，或者存储在下文讨论的ASR模块314中所包括的存储器/存储装置中。或者，除了软件或者替代软件，可执行指令中的一些或全部可以嵌入硬件或者固件中。本公开的教义可以在例如软件、固件和/或硬件的各种组合中实现。

ASR装置302包括输入装置306和输出装置307。所述装置中可以包括各种输入/输出装置。示例性输入装置306包括音频捕获装置304，诸如麦克风(图示为单独的部件)、触摸式输入装置、键盘、鼠标、触针或者其他输入装置。示例性输出装置307包括视觉显示器、触觉显示器、音频扬声器、耳机、打印机或者其他输出装置。输入装置306和/或输出装置307还可以包括用于外部外围装置连接(诸如通用串行总线(USB)、FireWire、Thunderbolt或者其他连接协议)的接口。输入装置306和/或输出装置307还可包括网络连接，诸如以太网端口、调制解调器等。输入装置306和/或输出装置307还可包括无线通信装置，诸如射频(RF)、红外、蓝牙、无线局域网(WLAN)(诸如WiFi)；或者无线网络无线电装置，诸如能够与无线通信网络通信的无线电装置，所述无线通信网络诸如长期演进(LTE)网络、WiMAX网络、3G网络等。通过输入装置306和/或输出装置307，ASR装置302可连接到诸如互联网或专用网络的网络，所述网络可包括分布式计算环境。

装置还可以包括用于将说出的音频数据处理成文本的ASR模块314。ASR模块314将音频数据转录成表示音频数据中所包含语音的词语的文本数据。文本数据接着可由其他部件用于各种目的，诸如执行系统命令、输入数据等。包括所说话语的音频数据可被实时处理或者可被保存并且在随后时间处理。音频数据中的所说话语被输入到ASR模块314，所述ASR模块314接着基于话语与ASR模块314已知的模型之间的相似性来解释所述话语。例如，ASR模块314可以将输入音频数据与用于声音(例如，语音单元或者音素)和声音序列的模型相比较，以便识别匹配在音频数据的话语中所说的声音序列的词语。可以解释所说话语的不同方式可以各自被分配概率或者辨识得分，所述概率或者辨识得分表示特定的一组词语匹配在话语中所说的那些词语的可能性。辨识得分可以基于多个因素，所述因素包括例如话语中的声音与用于语言声音的模型(例如，声学模型)的相似性，以及匹配所述声音的特定词语将被包括在句子中特定位置处的可能性(例如，使用语言模型或者语法)。基于所考虑的因素以及所分配的辨识得分，ASR模块314可以输出最有可能在音频数据中辨识的词语。ASR模块314还可能以点阵或者N最佳列表(在下文更详细地描述)的形式输出多个替代性所辨识词语。

尽管辨识得分可以表示音频数据的一部分对应于特定音素或者词语的概率，但是辨识得分还可以包含其他信息，所述其他信息指示被打分音频数据相对于其他音频数据的ASR处理的ASR处理质量。辨识得分可以被表示为从1至100的尺度上的数字、从0至1的概率、对数概率或者其他指示符。辨识得分可以指示音频数据的一部分对应于特定音素、词语等的相对置信度。

ASR模块314可以连接到总线324、输入装置306和/或输出装置307、音频捕获装置304、编码器/解码器322、控制器/处理器308和/或ASR装置302的其他部件。发送到ASR模块314的音频数据可以来自音频捕获装置304或者可以由输入装置306接收，诸如由远程实体捕获并且通过网络发送到ASR装置302的音频数据。音频数据可以呈所说话语的音频波形的数字化表示的形式。模数转换过程的采样率、过滤以及其他方面可以影响音频数据的总体质量。音频捕获装置304和输入装置306的各种设置可以被配置来基于质量与数据大小的传统权衡或者其他考虑因素调整音频数据。

ASR模块314包括声学前端(AFE)316、语音辨识引擎318以及语音存储装置320。AFE316将音频数据转换成用于由语音辨识引擎318处理的数据。语音辨识引擎318将语音辨识数据与存储在语音存储装置320中的声学、语言以及其他数据模型和信息相比较，以便辨识原始音频数据中所包含的语音。AFE 316和语音辨识引擎318可以包括它们自己的控制器/处理器和存储器，或者它们可以使用例如ASR装置302的控制器/处理器308和存储器310。类似地，用于操作AFE 316和语音辨识引擎318的指令可以定位在ASR模块314内、ASR装置302的存储器310和/或存储装置312内、或者外部装置内。

可以将所接收的音频数据发送到AFE 316以便进行处理。AFE316可以减少音频数据中的噪声，识别音频数据的包含用于处理的语音的部分，并且分段并处理所识别的语音组分。AFE 316可以将数字化音频数据分成帧或者音频片段，其中每一个帧表示例如10毫秒(ms)的时间间隔。在所述帧期间，AFE 316确定被称为特征矢量的一组值，这组值表示帧内的话语部分的特征/质量。特征矢量可以包含不同数量的值，例如40个。特征矢量可以表示帧内的音频数据的不同质量。图4示出在第一词语404被处理时带有第一词语404的多个点406的数字化音频数据波形402。这些点的音频质量可以被存储到特征矢量中。特征矢量可以被流式传输或者组合到矩阵中，所述矩阵表示所说话语的时间周期。这些特征矢量矩阵接着可以被传递到语音辨识引擎318以便进行处理。AFE 316可以使用多种方法来处理音频数据。此类方法可以包括使用mel频率倒谱系数(MFCC)、感知线性预测(PLP)技术、神经网络特征矢量技术、线性判别分析、半绑定的协方差矩阵、或者本领域技术人员已知的其他方法。

处理过的特征矢量可以从ASR模块314输出并且发送到输出装置307以便传输到另一装置以便进行进一步处理。特征矢量可在传输之前由编码器/解码器322编码和/或压缩。编码器/解码器322可被定制用于编码并且解码ASR数据，诸如数字化音频数据、特征矢量等。编码器/解码器322还可例如使用通用编码方案(诸如.zip等)来编码ASR装置302的非ASR数据。编码器/解码器322的功能可定位在单独的部件中，如图3中所示出，或者可由例如控制器/处理器308、ASR模块314或其他部件执行。

语音辨识引擎318可以参考存储在语音存储装置320中的信息来处理来自AFE 316的输出。或者，可以由ASR模块314从除了内部AFE 316之外的另一来源接收前端处理后的数据(诸如特征矢量)。例如，另一实体可以将音频数据处理成特征矢量并且将所述信息通过输入装置306传输到ASR装置302。被编码的特征矢量可以到达ASR装置302，在这种情况下，它们可在由语音辨识引擎318处理之前被解码(例如由编码器/解码器322解码)。

语音存储装置320包括用于语音辨识的各种信息，诸如将音素的发音与特定词语相匹配的数据。此数据可以被称为声学模型。语音存储装置还可以包括词语的字典或者词典。语音存储装置还可包括将文本标识符匹配到所述标识符的预期发音的词典。文本标识符可识别数字内容(诸如目录中的音乐)、通讯簿中的内容和/或存储在ASR装置处(或其他地方)的其他内容。文本标识符还可识别非数字项，诸如食物项(即，原料、菜肴等)、餐馆、事件或可具在可能不同于ASR系统和/或用户的默认语言的语言中起源的名称的其他项。语音存储装置还可以包括描述有可能在特定情境中一起使用的词语的数据。此数据可以被称为语言或者语法模型。语音存储装置320还可以包括训练语料库，所述训练语料库可以包括所记录的语音和/或对应的转录，所述训练语料库可以用来训练并且改善由ASR模块314在语音辨识中使用的模型。训练语料库可以用来预先训练语音辨识模型，所述语音辨识模型包括声学模型和语言模型。接着可在ASR处理期间使用所述模型。

训练语料库可以包括带有相关联的特征矢量以及相关联的正确文本的多个样本话语，所述样本话语可以用来创建例如声学模型和语言模型。样本话语可以用来创建数学模型，所述数学模型对应于用于特定语音单元的预期音频。所述语音单元可包括音素、音节、音节的部分、词语等。语音单元还可包括连贯的音素，诸如三音子、五音子等。在语音中常用的连贯的音素可以与它们自身的模型相关联。不那么常见的连贯的音素可以聚集在一起以便具有群组模型。通过以这种方式聚集音素群组，训练语料库中可以包括更少的模型，从而利于ASR处理。训练语料库可以包括来自不同说话者的相同话语的多个版本以便为ASR模块314提供不同话语比较。训练语料库还可以包括正确辨识的话语以及未正确辨识的话语。这些未正确辨识的话语可以包括例如语法错误、假性辨识错误、噪声或者给ASR模块314提供错误类型的实例的其他错误以及对应的修正。训练语料库可包括外源的词语以便训练ASR系统来辨识此类词语。训练语料库还可以适于包含特定用户的倾向以便改善系统性能(如下文所描述)。

其他信息也可以存储在语音存储装置320中以便在语音辨识中使用。语音存储装置320的内容可以为通用ASR使用做好准备，或者可以被定制来包括可能在特定应用中使用的声音和词语。例如，对于在ATM(自动柜员机)处的ASR处理来说，语音存储装置320可以包括特定于银行交易的定制数据。在某些情况下，语音存储装置320可以针对单个用户(基于他的/她的个性化语音输入)加以定制。为了改善性能，ASR模块314可以基于ASR处理的结果的反馈来校正/更新语音存储装置320的内容，从而允许ASR模块314改善语音辨识来超过在训练语料库中提供的能力。

语音辨识引擎318试图将所接收的特征矢量与在语音存储装置320中已知的词语或者子词语单元相匹配。子词语单元可以是音素、连贯的音素、音节、音节的部分、连贯的音节或者词语的任意其他此种部分。语音辨识引擎318基于声学信息和语言信息来计算特征矢量的辨识得分。声学信息被用来计算声学得分，所述声学得分表示由一组特征矢量所表示的预期声音匹配子词语单元的可能性。语言信息被用来通过考虑什么声音和/或词语彼此连贯地使用来调整声学得分，从而改善ASR模块输出在语法上合理的语音结果的可能性。

语音辨识引擎318可以使用多种技术来将特征矢量与音素或者其他语音单元(诸如双音子、三音子等)相匹配。一种常见技术使用隐马尔可夫模型(HMM)。HMM被用来确定特征矢量可以匹配音素的概率。使用HMM，呈现多种状态，其中所述状态一起表示可能的音素(或者其他语音单元，诸如三音子)并且每一个状态与一个模型(诸如高斯混合模型)相关联。状态之间的转变也可以具有相关联的概率，其表示可以从先前状态到达现在状态的可能性。所接收的声音可以被表示为HMM的状态之间的路径，并且多个路径可以表示相同声音的多个可能的文本匹配。每一个音素可以由多个可能的状态表示，所述状态对应于所述音素以及它们的部分(诸如说出的语言声音的开始、中间以及结束)的不同已知发音。可能的音素的概率的最初确定可以与一个状态相关联。在语音辨识引擎318处理新的特征矢量时，基于新的特征矢量的处理，状态可以改变或者保持不变。Viterbi算法可以用来基于处理过的特征矢量找到最有可能的状态序列。

可以使用多种技术来计算概率和状态。例如，可以使用高斯模型、高斯混合模型或者基于特征矢量和语音存储装置320的内容的其他技术来计算每一个状态的概率。诸如最大似然估计(MLE)的技术可以用来估计音素状态的概率。

除了计算一个音素的可能状态来作为特征矢量的可能匹配之外，语音辨识引擎318还可以计算其他音素的可能状态来作为特征矢量的可能匹配。以这种方式，可以计算多个状态和状态转变概率。

由语音辨识引擎318计算出的可能的状态和可能的状态转变可被形成为路径。每一个路径表示可能匹配由特征矢量表示的音频数据的音素的级数。取决于针对每一个音素计算出的辨识得分，一个路径可以与一个或多个其他路径重叠。某些概率与从状态到状态的每一个转变相关联。也可以针对每一个路径计算累积路径得分。当作为ASR处理的一部分对得分进行组合时，可以将得分相乘(或者以其他方式组合)以便得到所期望的组合得分，或者可以将概率转换到对数域并且进行相加来协助处理。

语音辨识引擎318可以将可能的路径组合成表示语音辨识结果的点阵。在图5中示出样本点阵。点阵502示出语音辨识结果的多个可能路径。大节点之间的路径表示可能的词语(例如“hello”、“yellow”等)，并且较小节点之间的路径表示可能的音素(例如“H”、“E”、“L”、“O”和“Y”、“E”、“L”、“O”)。出于说明目的，仅针对点阵的前两个词语示出了单个音素。节点504与节点506之间的两个路径表示两个可能的词语选择：“hello how”或者“yellownow”。节点之间的每一个路径点(诸如可能的词语)与辨识得分相关联。跨点阵的每一个路径也可以被分配辨识得分。语音辨识引擎318可以将最高辨识得分路径(其中辨识得分是声学模型得分、语言模型得分和/或其他因素的组合)返回，来作为相关联的特征矢量的ASR结果。

在ASR处理之后，ASR模块314可以将ASR结果发送到ASR装置302的另一部件，诸如控制器/处理器308，以便进行进一步处理(诸如执行所解释的文本中所包括的命令)，或者发送到输出装置307，以便发送到外部装置。

语音辨识引擎318还可以基于语言模型或者语法计算路径的分支的得分。语言建模涉及确定有可能一起用来形成连贯的词语和句子的词语的得分。语言模型的应用可以改善ASR模型314正确地解释音频数据中所包含语音的可能性。例如，返回“H E L O”、“H A LO”以及“Y E L O”的可能音素路径的声学模型处理可以由语言模型来调整，以便基于所说话语内的每一个词语的语言情境来调整“H E L O”(解释为词语“hello”)、“H A L O”(解释为词语“halo”)以及“Y E L O”(解释为词语“yellow”)的辨识得分。语言建模可以根据存储在语音存储装置320中的训练语料库加以确定，并且可以针对特定的应用加以定制。可以使用诸如N-gram模型的技术来执行语言模型，其中看到特定的下一个词语的可能性取决于前面n-1个词语的情境历史。N-gram模型还可以被结构化为双连词(其中n＝2)和三连词(其中n＝3)模型，其中看见下一个词语的可能性取决于前面的词语(在双连词模型的情况下)或者前面两个词语(在三连词模型的情况下)。声学模型也可以采用N-gram技术。

作为语言建模的一部分(或者在ASR处理的其他阶段中)，为了节省计算资源，语音辨识引擎318可以删除和放弃低辨识得分状态或者路径，所述低辨识得分状态或者路径对应于所说话语的可能性极小，这是由于依据语言模型的低辨识得分或者其他原因。此外，在ASR处理期间，语音辨识引擎318可以对先前处理过的话语部分迭代地执行附加的处理遍次。后面的遍次可以包含前面的遍次的结果以便改进并改善结果。当语音辨识引擎318确定来自输入音频的可能的词语时，因为许多可能的声音和词语被认为是对于输入音频的可能匹配，点阵可能变得非常大。可能的匹配可以被示出为词语结果网络。语音辨识结果网络是弧和节点的连接网络，所述弧和节点表示可以被辨识的语音单元的可能序列以及每一个序列的可能性。词语结果网络是词语级别上的语音辨识结果网络。其他级别的语音辨识网络也是可能的。结果网络可以由任意类型的语音辨识解码器(或者引擎)生成。例如，结果网络可以由基于有限状态转换机(FST)的解码器生成。结果网络可以用来创建一组最终的语音辨识结果，诸如最高评分结果的点阵或者N最佳列表。神经网络也可用来执行ASR处理。

语音辨识引擎318可以返回路径的N最佳列表连同它们的各自辨识得分，所述辨识得分对应于由语音辨识引擎318确定的前N个路径。接收N最佳列表的应用(诸如在ASR装置302内部或者外部的程序或者部件)接着可以根据所述列表以及相关联的辨识得分对所述列表执行进一步的操作或者分析。例如，N最佳列表可以用于修正错误以及训练ASR模块314的各种选项和处理状况。语音辨识引擎318可以将实际正确的话语与N最佳列表上的最佳结果相比较并且与其他结果相比较，以便确定为什么不正确的辨识接收到特定辨识得分。语音辨识引擎318可以修正它的方法(或者可以更新在语音存储装置320中的信息)以便在未来的处理尝试中降低不正确方法的辨识得分。

ASR装置可用来处理与内容项有关的语音命令。内容项自身可在本地存储在ASR装置(诸如移动电话上的音乐收藏)上或远程地存储(诸如可从远程服务器流式传输的电影)。所述内容项可包括例如音乐、电子书籍(电子书)、电影、联系信息、文件、短消息服务通信、电子邮件和/或其他音频、视频或文本信息。ASR装置的用户可出于各种目的请求访问此类内容项，包括回放、编辑、转发等。例如，用户可请求移动电话可以响应于来自用户的所说请求而播放音乐。为了执行来自用户的请求，可以将内容项的目录链接到词语的字典或词典。所述词典可包括文本标识符，所述文本标识符可以是链接到单独内容项的文本标识符。例如，文本标识符可包括艺术家的姓名、唱片标题、歌曲/电影/电子书标题等等。每一个文本标识符可对应于目录中的一个或多个内容项(诸如链接到多个歌曲的乐队名称)并且每一个内容项可链接到一个或多个文本标识符(诸如链接到歌曲标题、乐队名称、唱片名称等的歌曲)。文本标识符还可以指除数字内容以外的项目。

如所述，词典还可包括每一个文本标识符的一个或多个预期发音，这允许用户通过语音命令访问相关联的内容项。例如，用户可试图通过说出艺术家的姓名、唱片或歌曲标题来播放存储在音乐目录中的歌曲。可基于词语的拼写来确定预期发音。基于拼写来确定词语的预期发音的过程被定义为字素到音素(G2P)转换或发音猜测(通常被称为发音猜测)。在一些情况下，文本标识符可包括外源词语。出于说明目的，在本申请中引用的外源词语(或外语词语)被视为具有相对于ASR系统的默认语言的外源。出于本目的，ASR系统默认语言被示出为英语，但是本文论述的技术可应用到基于不同语言的ASR系统。

为了协助包含不同语言的词语或语言特征的文本标识符的ASR处理，本公开提供一种系统，其中ASR系统被配置来基于文本标识符的源语言预期所述文本标识符的一个或多个发音。在本公开的一个方面中，ASR系统基于文本标识符确定所述文本标识符的源语言。ASR系统接着基于文本和所识别源语言确定所述文本标识符的预期发音。ASR系统可确定特定文本标识符的多个预期发音，每一个预期发音具有相关联的可能性。还可基于用户或一组用户的发音倾向来调整预期发音(和/或它们相关联的可能性)。可以将预期发音添加到词典并且链接到它们各自的内容项，以便由ASR系统最终检索。

为了确定源语言，ASR系统可采用基于拼写/文本标识符来预测源语言的分类器。分类器可以是统计模型，诸如基于字符的统计模型。由于文本标识符(例如，乐队名称)可以相对于长形式文本(诸如文献、段落等)较短，用于预测源语言的分类器可集中注意力于短文本的基本语言单元，而不是基于串接一个段落的多个文本的检测，所述检测可由预测系统的其他语言使用。例如，分类器可被训练来识别一个或多个语言(例如，语言A、B或C)中的字母序列的可能性。在一些方面中，可以分别学习每一个语言的可能性。分类器还可针对来自不同语言的词语实现基于n-gram的字符模型。根据ASR系统的不同配置，n-gram可以基于项目的序列，所述项目诸如音素、音节、字母、词语或基对。

可以分配表示词语的拼写匹配特定语言的可能性的得分。例如，可以将得分分配给两个或更多个语言，文本标识符(或其部分)可能来源所述语言。在一些方面中，所述得分可以是分配给不同语言中的每一个以便改善对源语言的识别的概率性权重。带有针对外语词语的最高得分的一个或多个语言可被识别为源语言。如果文本是“Gotye”，例如，70％的概率性权重可被分配给法语并且30％的概率性权重被分配给德语。基于此确定，可以将所述词语针对法语和德语的预期发音和对应的概率性权重添加到词典。这种实现方式允许选择文本的最有可能的源语言。在一个方面中，文本标识符的各部分可具有不同的源语言得分。例如，名称“Ludwig van Beethoven”的第一个词语可具有强烈的德语得分，而中间的词语可具有强烈的荷兰语得分，等等。词语的各部分还可具有彼此不同的语言得分。此类不同得分可用来创建不同的预期发音，如下文所描述。

在一些方面中，可基于机器学习分类器来实现分类器，其中在所述机器学习分类器处开发语言的特征。特征可包括文本标识符词语串的开始、中间或结尾中的特定字母组合。基于这些特征，可以将得分分配给很可能包含所述特征的不同语言。例如，分类器识别特征，例如，在词语串的中间存在V-A-N可暗示源语言是荷兰语。分类器基于起源于所述语言中的每一个的文本标识符的可能性将分数或权重分配给可能的源语言中的每一个。其他分类器模型包括支持矢量机器/模型或者最大熵模型、字符级别语言模型和条件随机域模型。这些模型可组合用于不同语言的特征和得分以便对最有可能的源语言进行评分。

在本公开的一些方面中，可基于与内容项相关联的其他文本标识符的源语言确定外语词语的源语言。例如，如果特定艺术家的一个或多个歌曲的名称或歌曲的歌词是德语，那么可以增加艺术家的姓名是德语源的可能性。在这种情况下，歌曲标题可用作证据来确定艺术家的姓名的源语言。此外，其他文本标识符可包括与将要识别的内容相关联的元数据。例如，数字内容项可以与元数据相关联，所述元数据识别或可用来识别文本标识符的源语言。可以研究文本标识符之间的其他关系来调整源语言的确定。

一旦一个或多个源语言与文本标识符(或其部分)相关联，系统可基于文本标识符的源语言和文本确定所述文本标识符的预期发音。

在本公开的一些方面中，可以针对每一个可能的源语言开发转换模型(诸如字素到音素(G2P)转换或发音猜测模型)。转换模型从外语文本的拼写得到外语文本的发音。每一个语言包括不同的语言单元，诸如音素。可以采用跨语言映射技术来确定外语词语的预期发音。可以将第一语言(例如，德语)的音素映射到第二语言(例如，英语)的音素，所述第二语言的音素最类似于所述第一语言的音素。然而，德语中的一些发音/音素可能不类似于或对应于任何标准英语音素。例如，Kraftwerk中的第一个字母‘r’的德语发音不对应于英语音素。字母‘r’的德语发音实际上是‘uvular/r/’，这是字母‘h’的发音与字母‘r’的发音之间的交叉。在此类情况下，可以将德语发音映射到最接近的英语音素。

在本公开的一个方面中，使用语言学技术来确定外语词语的最接近发音。例如，可以实现语言学发音特征(诸如‘后舌音(backness)’、‘圆唇音(roundness)’、发音部位等)来确定外语词语的最接近发音。发音部位可以是口腔中的部位，其中发音器官(例如，舌头、牙齿、软腭等)在发声期间对空气流进行限制、塑形或封闭。实例包括双唇音(嘴唇之间)、唇齿音(嘴唇与牙齿之间)、齿槽音(紧接在牙齿后面)和小舌音(靠近小舌)。‘后舌音’可被定义为声音(通常为元音)朝向喉咙被发音的程度。后元音可包括‘caught’的‘au’、‘rote’的‘o’和‘lute’的‘u’。‘圆唇音’或‘圆唇读音’可被定义为声音(通常为元音，但不总是元音)利用圆形嘴唇被发音的程度。圆唇元音包括‘rote’的‘o’、‘lute’的‘u’。可以应用语言学技术来使用第一语言辨识器(例如，英语音素辨识器)辨识带有目标音素的外语词语的一些实例。辨识器接着确定外语词语的可能发音。

可以使用一些语言学技术(例如，预期最大化算法、统计模型、隐马尔可夫模型(HMM))来分析多个词语和它们对应的发音的关联以便确定新的词语的预期发音。例如，可以分析包括德语词语和对应的德语发音的词典来确定字母序列、音素序列和每一个词语的声音之间的关联。例如，预期最大化算法可学习到英语中的字母P-H可被发音为F，除非有一些例外。预期最大化算法还可学习到E什么时候被发音为“eh”与“ee”等等。可基于预期最大化算法的分析来开发模型并且使用所述模型来预测新的音素序列并且随后预测新的词语的预期发音。语言学技术可与其他技术结合使用来确定外语词语的预期发音。

语言学技术还允许基于源语言来预测文本标识符的多个替代发音。例如，每一个文本标识符的多个发音可由图来表示。图的不同部分可表示文本标识符的不同部分的可能发音。图的一些部分，例如图的边缘，可被分配得分或权重来指示图上的路径的可能性。可以开发不同的图来表示不同的语言(例如，英语和德语)。例如，可以针对英语和德语发音开发单独的图。在一些方面中，然而，单独的图可组合在一起以便预测外语词语的混合发音。随着文本标识符的发音的发展，组合的图允许两种语言之间的交换，这在用户可对文本标识符的偏爱一种语言的部分以及文本标识符的偏爱另一种语言的其他部分进行发音的情况下是令人满意的。

例如，德国乐队“Kraftwerk”可以用德语发音(例如，K HH AA F T V EH R K)。然而，一些用户可能不熟悉德语发音并且可能将乐队名称“Kraftwerk”发音为就好像它是英语词语(例如，K R AE F T W UR K)。此外，一些用户可能并不坚持他们对于乐队名称的发音的选择。因此，可以将文本标识符(诸如乐队名称“Kraftwerk”)匹配到多个预期发音，其中每一个预期发音自身可基于多个不同的语言，这些语言包括文本标识符的源语言。

一些用户可具有第一源语言但是住在用户用不同的语言交流的国家(或操作ASR装置)。这些用户可使用来自多个语言(包括用户的源语言)的发音的组合来对外语词语进行发音。用户可以用第一语言对外语语言的一部分进行发音并且用一个或多个不同语言对其他部分进行发音。例如，用户可以用英语对乐队名称Kraftwerk的第一部分进行发音(例如，K R AE F T)并且用德语对第二部分进行发音(例如，V EH R K。)

英语发音(K R AE F T W UR K)、德语发音(K HH AAF T V EH R K)和组合发音(KR AE F T V EH R K)中的每一个在被添加到词典时可匹配到乐队名称。多个预期发音和乐队名称可链接到存储在ASR装置中或其他地方的乐队演唱的歌曲。

外语词语的预期发音也可以基于特定用户的发音历史。例如，ASR系统可被训练来辨识特定用户的发音方式或个人喜好。如果词语基于所述词语的拼写在法语上权重为80％并且在英语上权重为20％，分类器或语音辨识模型可基于特定用户的个人喜好调整分配给语言的权重。发音方式还可基于特定用户所偏爱的语言的等级。例如，可基于用户所偏爱的语言来调整分配给语言的权重。例如，名称Ludwig van Beethoven可具有不同的发音版本，这是由于它的德语和荷兰语起源。在这种情况下，可以将权重分配给德语(例如，60％)和荷兰语(例如，40％)。可基于特定用户在发音诸如名称Ludwig van Beethoven的外源词语时是否偏爱英语、德语或荷兰语来调整所分配权重。所得的发音可以是德语、荷兰语和英语的混合或组合。

可基于用户对相同或不同词语的历史发音来确定用户的发音方式。基于发音方式或历史，ASR装置可预期用户对相同或不同词语的未来发音。ASR装置还可基于用户的发音方式学习到用户是否熟悉一个或多个语言的发音。例如，基于乐队名称Kraftwerk的用户发音历史，ASR装置可预期其他德语词语(诸如“Einstürzende Neubauten”或“GustavMahler”)的用户发音。ASR装置还可针对特定用户基于用户的发音方式将权重分配给各种语言。例如，ASR装置可将更多权重分配给用户在发音外源词语时所偏爱的发音(例如，用一种语言或语言的组合)。类似地，特定用户的所偏爱语言或所偏爱路径在图上的表示可被分配更高的得分或权重。更高得分的分配允许图的这些路径变得更有可能表示用户对外语词语的预期发音。因此，预期发音可以与预期发音的图、预期发音的N最佳列表或预期发音的一些其他组织相关联。

此外，出于加权或确定预期发音的目的，可以将带有类似行为的多个用户可聚集在一起。基于所聚集用户的行为来选择用于所聚集用户的自动语音辨识技术的特征。例如，用户的群集可具有类似的音乐品味(例如，带有印度来源的音乐)并且可以因此具有以印度音乐为主导的音乐目录。因此，来自所述群集中所包括的新用户的发音可类似于群集中的其他用户被处理，或者可遵循沿着所述图(表示外语词语的可能发音)的类似途径。可以将权重分配给与用户群集相关联的语音辨识技术(例如，发音、优选语言等)的对应特征。因此，可基于用户的行为方式或带有类似的行为方式的用户群集来修整所述图(表示外语词语的可能发音)。

图6示出根据本公开的一个方面的用于在语音辨识中基于源语言来预测外语文本的预期发音的方法的流程图。所述方法可以在预期发音预测模块128、ASR装置100和/或远程语音处理装置(例如，ASR装置302)中实现。在框602处，可以将将要使用户可获得的内容并入到可供ASR装置100获得的目录中。在框604处，可以将一个或多个文本标识符链接到内容项，如在框604中所示。在框606处，ASR系统可基于文本标识符确定一个或多个源语言。源语言可各自与文本标识符的得分和/或特定部分相关联。在框608处，ASR系统可至少部分地基于所确定的源语言来确定文本标识符的一个或多个预期发音。基于源语言的预期发音可各自与文本标识符的得分和/或特定部分相关联。在框610处，ASR系统可至少部分地基于用户信息和/或用户历史确定文本标识符的一个或多个预期发音。用户历史可包括用户的母语或常用语言。用户历史还可包括用户以前如何发音类似的词语。用户信息还可包括装置或用户的环境的语言。环境的语言可包括在装置的位置处使用的语言，这可以通过使位置数据与地理区域的已知语言相关、通过确定在由装置检测到的其他语音中所识别的语言或通过其他手段来确定。环境的语言还可包括ASR系统的默认语言。基于用户的语言的预期发音可各自与文本标识符的得分和/或特定部分相关联。

在框612处，ASR系统可组合预期发音并且至少部分地基于文本标识符的源语言与用户的所确定语言的组合来确定文本标识符的一个或多个预期发音。基于用户的语言组合的预期发音可各自与文本标识符的得分和/或特定部分相关联。在框614处，可基于用户历史(诸如用户的典型发音或用户类别)来调整每一个预期发音和/或其权重或优先权。在框616处，可以将预期发音与词典中的文本识别符和/或内容项相关联。

预期发音的上述确定可在ASR系统的训练或配置期间发生，或者可在新的内容变得可供ASR装置获得(通过添加到本地存储装置，或通过变得可供ASR装置获得但是远程地存储)时被执行。预期发音的确定可由本地ASR装置、远程ASR装置或其组合来执行。

在接收所说话语后，ASR系统可处理所述话语，如在图7中所示。在框702处，接收包括所说文本标识符的话语。在框704处，ASR系统可将所说文本标识符与所述文本标识符的一个或多个预期发音相匹配。所述匹配可包括返回可能的匹配的N最佳列表或直接返回最高评分匹配。在框706处，确定与最高评分匹配文本标识符相关联的内容项。在框708处，访问内容项并且与话语相关联的任意命令(诸如播放音乐)可由ASR系统或由另一装置执行。

本公开的上述方面意图是说明性的。它们被选择来解释本公开的原理和应用，并且不意图是详尽无遗的或者限制本公开。本公开的方面的许多修改和变形可以对本领域技术人员显而易见。例如，基于存储在语音存储装置中的语言信息，可以将本文描述的ASR技术应用到许多不同的语言。

本公开的方面可以被实现为计算机实现的方法、系统，或者实现为诸如存储器装置或者非暂时性计算机可读存储介质的制品。计算机可读存储介质可由计算机读取并且可以包括用于促使计算机或者其他装置执行本公开中描述的过程的指令。计算机可读存储介质可以通过易失性计算机存储器、非易失性计算机存储器、硬盘驱动器、固态存储器、闪存驱动器、可移动磁盘和/或其他介质来实现。

本公开的方面可能以软件、固件和/或硬件的不同形式来执行。此外，本公开的教义可以通过例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他部件来执行。

本公开的方面可以在单个装置上执行或者可以在多个装置上执行。例如，包括本文中描述的一个或多个部件的程序模块可以定位在不同的装置中并且可以各自执行本公开的一个或多个方面。如在本公开中所使用，术语“一个(a)”或者“一个(one)”可以包括一个或多个项目，除非另外特别说明。此外，短语“基于”意图指“至少部分地基于”,除非另外特别说明。

条款

1.一种用于处理所说话语的计算机实现的方法，所述方法包括：：

至少部分地基于歌曲标题的拼写确定所述歌曲标题的至少一个源语言；

至少部分地基于所述至少一个源语言和用户所说的语言确定所述歌曲标题的多个可能发音，其中所述多个可能发音中的每一个与得分相关联；

存储所述多个可能发音中的每一个与所述歌曲标题之间的关联；

接收包括对播放歌曲的请求的所说话语；

至少部分地基于所述多个可能发音中的一个的得分将所述所说话语的一部分与所述多个可能发音中的所述一个相匹配；

至少部分地基于所述多个可能发音中的所述一个识别所述歌曲；以及

促使所述歌曲在计算装置上播放。

2.如条款1所述的方法，其中确定所述多个可能发音还至少部分地基于词语的用户发音历史，所述词语具有与所述歌曲标题一样的至少一个源语言。

3.如条款1所述的方法，其还包括通过将第一源语言与所述歌曲标题的一部分相关联并且将第二源语言与所述歌曲标题的第二部分相关联来确定至少一个可能发音。

4.如条款1所述的方法，其中确定所述歌曲标题的所述至少一个源语言至少部分地基于能够被所述计算装置播放的其他歌曲的源语言。

5.一种计算系统，其包括：

至少一个处理器；

存储器装置，其包括可操作来由所述至少一个处理器执行以便执行一组动作的指令，所述指令配置所述至少一个处理器：

来确定文本标识符的可能源语言，其中所述可能源语言至少部分地基于文本标识符；

来确定所述文本标识符的可能发音，其中所述可能发音至少部分地基于所述可能源语言和可能的所说语言；并且

来存储所述可能发音与所述文本标识符之间的关联。

6.如条款5所述的计算系统，其中所述指令还配置所述至少一个处理器：

来确定所述文本标识符的第二可能源语言，其中所述第二可能源语言至少部分地基于所述文本标识符；

来确定所述文本标识符的第二可能发音，其中所述第二可能发音至少部分地基于所述第二可能源语言；并且

来存储所述第二可能发音与所述文本标识符之间的关联。

7.如条款6所述的计算系统，其中所述可能源语言、第二可能源语言、可能发音和第二可能发音每一个均与各自得分相关联。

8.如条款5所述的计算系统，其中所述至少一个处理器还被配置来确定所述文本标识符的第二可能源语言，并且其中：

所述可能源语言与所述文本标识符的第一部分相关联，

所述第二可能源语言与所述文本标识符的第二部分相关联，并且

所述可能发音还至少部分地基于所述第二可能源语言。

9.如条款5所述的计算系统，其中所述至少一个处理器还被配置来还至少部分地基于用户的发音历史确定所述可能发音。

10.如条款9所述的计算系统，其中用户的所述发音历史包括所述用户所说的语言。

11.如条款5所述的计算系统，其中所述至少一个处理器还被配置来还至少部分地基于与所述文本标识符相关联的第二文本标识符的源语言确定所述可能源语言。

12.如条款5所述的计算系统，其中所述指令还配置所述至少一个处理器：

来接收包括话语的音频数据；

来识别所述话语中的所述可能发音；

来基于所述所存储关联识别所述文本标识符；并且

来检索与所述文本标识符相关联的内容项的至少一部分。

13.如条款5所述的计算系统，其中所述文本标识符包括将由所述计算装置访问的艺术家、唱片、乐队、电影、书籍、歌曲和/或食物项的名称。

14.如条款5所述的计算系统，其中所述可能的所说语言包括与所述系统的装置的位置相关联的语言。

15.如条款5所述的计算系统，其中所述至少一个处理器还被配置来使用有限状态转换机(FST)模型、最大熵模型、字符级别语言模型和/或条件随机场模型中的至少一个确定所述文本标识符的所述可能发音。

16.一种存储用于控制计算装置的处理器可执行指令的非暂时性计算机可读存储介质，其包括：

用来确定文本标识符的可能源语言的程序代码，其中所述可能源语言至少部分地基于文本标识符；

用来确定所述文本标识符的可能发音的程序代码，其中所述可能发音至少部分地基于所述可能源语言和可能的所说语言；以及

用来存储所述可能发音与所述文本标识符之间的关联的程序代码。

17.如条款16所述的非暂时性计算机可读存储介质，其还包括：：

用来确定所述文本标识符的第二可能源语言的程序代码，其中所述第二可能源语言至少部分地基于所述文本标识符；

用来确定所述文本标识符的第二可能发音的程序代码，其中所述第二可能发音至少部分地基于所述第二可能源语言；以及

用来存储所述第二可能发音与所述文本标识符之间的关联的程序代码。

18.如条款17所述的非暂时性计算机可读存储介质，其中所述可能源语言、第二可能源语言、可能发音和第二可能发音每一个均与各自得分相关联。

19.如条款16所述的非暂时性计算机可读存储介质，其还包括用来确定所述文本标识符的第二可能源语言的程序代码，并且其中：

所述可能源语言与所述文本标识符的第一部分相关联，

所述可能发音还至少部分地基于所述第二可能源语言。

20.如条款16所述的非暂时性计算机可读存储介质，其还包括用来还至少部分地基于用户的发音历史确定所述可能发音的程序代码。

21.如条款20所述的非暂时性计算机可读存储介质，其中用户的所述发音历史包括所述用户所说的语言。

22.如条款16所述的非暂时性计算机可读存储介质，其还包括用来还至少部分地基于与所述文本标识符相关联的第二文本标识符的源语言确定所述可能源语言的程序代码。

23.如条款16所述的非暂时性计算机可读存储介质，其还包括：：

用来接收包括话语的音频数据的程序代码；

用来识别所述话语中的所述可能发音的程序代码；

用来基于所述所存储关联识别所述文本标识符的程序代码；以及

用来检索与所述文本标识符相关联的内容项的至少一部分的程序代码。

24.如条款16所述的非暂时性计算机可读存储介质，其中所述文本标识符包括将由所述计算装置访问的艺术家、唱片、乐队、电影、书籍、歌曲和/或食物项的名称。

25.如条款16所述的非暂时性计算机可读存储介质，其中所述可能的所说语言与所述系统的装置的位置相关联。

26.如条款16所述的非暂时性计算机可读存储介质，其中用来确定所述文本标识符的所述可能发音的所述程序代码至少部分地基于有限状态转换机(FST)模型、最大熵模型、字符级别语言模型和/或条件随机场模型。

Claims

接收包括对播放歌曲的请求的所说话语；

促使所述歌曲在计算装置上播放。

2.如权利要求1所述的方法，其中确定所述多个可能发音还至少部分地基于词语的用户发音历史，所述词语具有与所述歌曲标题一样的至少一个源语言。

3.如权利要求1所述的方法，其还包括通过将第一源语言与所述歌曲标题的一部分相关联并且将第二源语言与所述歌曲标题的第二部分相关联来确定至少一个可能发音。

4.如权利要求1所述的方法，其中确定所述歌曲标题的所述至少一个源语言至少部分地基于能够被所述计算装置播放的其他歌曲的源语言。

5.一种计算系统，其包括：

至少一个处理器；

来确定所述文本标识符的可能发音，其中所述可能发音至少部分地基于所述可能源语言和可能的所说语言；以及

来存储所述可能发音与所述文本标识符之间的关联。

6.如权利要求5所述的计算系统，其中所述指令还配置所述至少一个处理器：

来存储所述第二可能发音与所述文本标识符之间的关联。

7.如权利要求6所述的计算系统，其中所述可能源语言、第二可能源语言、可能发音和第二可能发音每一个均与各自得分相关联。

8.如权利要求5所述的计算系统，其中所述至少一个处理器还被配置来确定所述文本标识符的第二可能源语言，并且其中：

所述可能源语言与所述文本标识符的第一部分相关联，

所述可能发音还至少部分地基于所述第二可能源语言。

9.如权利要求5所述的计算系统，其中所述至少一个处理器还被配置来还至少部分地基于用户的发音历史确定所述可能发音。

10.如权利要求9所述的计算系统，其中用户的所述发音历史包括所述用户所说的语言。

11.如权利要求5所述的计算系统，其中所述至少一个处理器还被配置来还至少部分地基于与所述文本标识符相关联的第二文本标识符的源语言确定所述可能源语言。

12.如权利要求5所述的计算系统，其中所述指令还配置所述至少一个处理器：

来接收包括话语的音频数据；

来识别所述话语中的所述可能发音；

来基于所述所存储关联识别所述文本标识符；并且

来检索与所述文本标识符相关联的内容项的至少一部分。

13.如权利要求5所述的计算系统，其中所述文本标识符包括将由所述计算装置访问的艺术家、唱片、乐队、电影、书籍、歌曲和/或食物项的名称。

14.如权利要求5所述的计算系统，其中所述可能的所说语言包括与所述系统的装置的位置相关联的语言。

15.如权利要求5所述的计算系统，其中所述至少一个处理器还被配置来使用有限状态转换机(FST)模型、最大熵模型、字符级别语言模型和/或条件随机场模型中的至少一个确定所述文本标识符的所述可能发音。