CN101164102A

CN101164102A - 自动扩展移动通信设备的话音词汇的方法和装置

Info

Publication number: CN101164102A
Application number: CNA2006800080989A
Authority: CN
Inventors: 丹尼尔·L·罗森; 乔丹·科恩; 艾里亚斯·P.·贝拉基斯
Original assignee: Voice Signal Technologies Inc
Current assignee: Nuance Communications Inc
Priority date: 2005-02-03
Filing date: 2006-02-03
Publication date: 2008-04-16
Anticipated expiration: 2026-02-03
Also published as: WO2006084144A2; US20060173683A1; EP1844464B1; JP2008529101A; EP1844464A2; CN101164102B; US8160884B2; WO2006084144A3; KR101221172B1; JP2013047809A; KR20070100837A

Abstract

一种用于提高语音识别器性能的方法，所述方法包括：为语音识别器提供词典；监测用户与网络的交互作用；访问多个与所监测的交互作用关联的词语；以及将所述多个词语包括在词典中。

Description

自动扩展移动通信设备的话音词汇的方法和装置

技术领域

本发明涉及具有语音识别能力的移动通信设备。

背景技术

现代移动通信设备(MCD)比传统单用途的移动语音电话提供更多的功能。这些设备可以包括地址簿、日历、Web浏览器、数字音乐播放器、电子邮件器、文本消息器、词语处理器、照相机，以及其它应用。用户特定的对文本数据的选择通常是和这些应用的每一个相关联的。例如，地址簿通常包含所述用户的联系方式的合适的人名，而数字音乐播放器包括用户音乐采集(collection)的音乐描述符，例如艺术家和歌名。随着驻留在移动通信设备上的应用的数量增长，这些文本数据的采集可能呈现为用户个人信息的日益增长的巨大主体。

语音识别能力通常包含在这些设备中，用于命令和控制所述设备，并作为用于一种或多种应用的输入形式。近来，一些移动设备已经包括了大词汇量(大约30,000词语)的独立于说话者的语音识别器，以使得用户能够执行语音到文本的消息传递。然而，这些语音识别器的词汇是预定的，而且没有利用可驻留在移动设备上的用户的个人信息的采集。

发明内容

通常，在一个方面中，本发明表征了一种提高语音识别器性能的方法。该方法包括：为语音识别器提供词典；监测用户与网络的交互作用；访问多个与监测的交互作用关联的词语；以及基于多个词语中的一个修改所述词典以提高所述语音识别器的性能。

其它实施例包括一个或多个下述特征。所述语音识别器在移动设备上运行，而且对词语的访问包括从服务器将所述词语下载到移动设备。所述语音识别器位于与网络连接的设备上。所述网络是数据网络，例如互联网或电话网络。当所述网络是互联网时，监测用户与网络的交互作用的步骤包括：监测用户与web浏览器的交互作用，以及访问与用户与Web浏览器的交互作用相关联的词语。从查询、搜索结果和作为所述用户与Web浏览器交互作用的结果所访问的Web页面其中的至少一个中获得所访问的词语。当用户与电话网络交互作用时，所述设备监测所述用户经由电话网络与一个或多个其他方的话音通信，访问与所述用户经由电话网络与一个或多个其他方的话音通信相关联的词语。当从用户收到的输入时，以周期性间隔，或者当发生事件时，动态地访问所述词语。所述设备以基于所访问词语在所监测的交互作用中的出现频率的方式来偏置(bias)语音识别器。所述监测的步骤还包括：记录每个词语的分类，以及以基于所述多个词语中的每一个的分类的方式来偏置语音识别器。所述监测的步骤进一步包括：记录所述多个词语中的每一个的使用上下文，以及以基于与所述多个词语中的每一个相关联的使用上下文的方式来偏置语音识别器。

一般地，在另一方面，本发明表征了一种实现在移动设备上的方法。所述方法包括：为语音识别器提供词典；监测用户与网络的交互作用；捕获多个与监测的交互作用相关联的词语；以及将捕获的多个词语添加到词典中。

其它实施例包括一个或多个下述特征。监测用户与网络的交互作用的步骤包括：监测用户与Web浏览器的交互作用，以及捕获与用户与Web浏览器的交互作用相关联的词语。

通常，在另一方面中，本发明表征了一种在具有语音识别器的移动设备上扩展语音词汇的方法。该方法包括：在移动设备上为语音识别器储存词典；在移动设备上储存多个词语，所述多个词语和移动用户与驻留在移动设备上的Web浏览器的交互作用相关联；以及将多个词语导入到词典中。在另一实施例，所述词语包括由移动用户输入到浏览器的搜索项和由使用搜索项进行的搜索所返回的结果中包含的词语。

通常，在另一方面中，本发明表征了一种在具有语音识别器的移动设备上扩展语音词汇的方法，该方法包括：在移动设备上为语音识别器储存词典；所述词典包括第一多个词语；在移动设备上储存第二多个词语，以及为所述第二多个词语中的每一个储存与所述词语关联的使用上下文，所述第二多个词语与除了语音识别器之外的应用相关联；以及将所述第二多个词语及其相关使用上下文导入到词典中。

其它实施例包括一个或多个下述特征。所述第二多个词语中的至少一个与适当名称的使用上下文关联。所述语音识别器被偏置为从所述词典中选择如下候选词语，所述候选词语具有如下使用上下文，所述使用上下文对应于将由所述语音识别器所识别的词语的使用上下文。

通常，在另一方面中，本发明表征了一种在具有语音识别器的移动设备上扩展语音词汇的方法，该方法包括：在移动设备上为语音识别器储存词典，所述词典包括多个词语；在移动设备上储存第二多个词语，所述文本词语的第二集合与除了语音识别器之外的应用相关联；为所述第二多个词语中的每一个记录所述词语的使用频率；以及将所述第二多个词语及其相关使用频率从储存的文本词语集合导入到词典中。在另一实施例中，所述语音识别器至少部分基于候选词语的使用频率从词典中选择候选词语。

附图说明

图1是具有语音识别能力的移动通信设备的框图。

图2是示出当扩展语音词汇时的信息流程的移动通信设备的框图。

图3是示出语音识别词汇扩展过程的步骤的流程图。

图4是示出当扩展语音词汇时的信息流的多用户移动通信设备的框图。

图5是连接到网络的通信设备的框图。

图6是示出用于具有语音识别能力的移动通信设备的硬件平台的高层的框图。

具体实施方式

具有语音识别能力的多功能MCD110的所选择的组件如图1所示。所述设备包括应用102和104，每个应用使所述设备能够执行具体的功能，例如，文本消息传送，在电话簿中查找联系方式。文本103和105的采集和每一个应用关联。以适合于与文本采集相关的应用进行访问的形式(例如在文本文件中，或在数据库中)存储所述文本采集。当特定应用正在运行时，它将利用关联的文本采集中的词语或短语。典型地，所述文本采集包括属于所述MCD拥有者个人的文本。例如，与地址簿关联的文本采集包括用户的联系名称和其他联系信息。以下给出其它示例。

MCD100还包括语音识别器106。语音识别器106接收语音输入，并且通过将它们和存储在语音到文本的词典108中的条目进行匹配来尝试识别所说的词语。所述词典包括词语集合，每一个词语具有文本表示和对应的发音。当识别出所说的词语时，所述语音识别器将所说的词语传递到请求该输入的应用。所述词语可以表示对于所述应用的命令或所述应用中的信息输入。

MCD100包括用于扩大语音到文本的词典108的内容的机制，通过分别从与应用102和104关联的文本采集103和105中导入词语来运行所述机制。一旦被合并到词典中，这些词语就扩展了语音识别器106的词汇。所述添加的词汇可能是对用户的具体值，因为它包括用户为与其它应用结合使用而选择的词语，并且因此它形成用户的个人语言空间的一部分。受益于词汇的扩展，当用户使用与所述词语关联的原始应用或MCD中的任意其它应用时，所述语音识别器可以识别初始与所述应用中的任意一个关联的词语。此外，用户获得词汇的扩展，而不需要手动将词语输入或下载词语到词典。

图2示出在词汇扩展期间在MCD110中的信息流程。所述MCD将文本采集103、105导入到语音到文本的词典108，如箭头203、205所示。在图3中进一步示出该过程。MCD100标识其驻留的文本采集(步骤302)。MCD100已经获知制造商提供的应用，并使用由定位文本采集的每一个应用所提供的指针。此外，MCD100获知所述设备装配后所下载的应用。如制造商所提供的应用，下载的每一个应用具有指向关联文本采集的指针。在步骤304，MCD100确定哪个文本采集将用于将文本导入到语音到文本的词典。所述单元具有两种模式：自动和手动。在自动模式中，用户将设备设置为仅参照指定的文本采集。用户还指定所述单元执行扩展操作的频率。例如，用户将所述设备设定为只参照采集103，以及仅当用户将一个或多个词语添加到采集中时才进行参照。可选地，用户可以设定具体的时间间隔(例如每天或每周)以执行扩展。在手动模式中，用户请求每个词汇扩展操作，并选择使用哪些文本采集。在步骤306，所述系统从在步骤304中选择的文本采集中的每一个中选择导入哪些文本。对于步骤304，所述设备具有自动和手动模式。在自动模式中，用户指定用于选择导入词语的规则。例如，用户指定系统只导入合适的名称。在手动模式中，所述设备提示用户选择或拒绝作为添加到词典的候选的每个词语。在自动模式和手动两种模式中，所述单元使用嵌入式查找功能检查每一个选择的词语，以确定它是否已经出现在词典中。如果所述单元找到所述词语，则它将忽略所述词语。如果所述单元找不到所述词语，则它将所述词语添加到正导入的词语的列表中。所述系统保持本地数据结构，以跟踪已经在词典中的词语，或者那些由于某些原因已经对于扩展过程所拒绝的词语。这使得所述系统在后续词汇扩展操作期间跳过不需要的词语，因此使文本选择更高效。

当已经选择用于导入到词典的一个或多个词语时，所述设备为每个词语生成发音，并且将它们储存为语音表示(步骤308)。从文本词语生成发音为本领域公知。所述设备将选择的文本词语连同其发音添加到词典(步骤310)。在某些语言中，在直接的规则管理发音的情况下，所述语音识别器包含用于从文本生成发音的算法，所述词典不储存发音的完整列表；此外，所述系统根据需要随时生成发音。

所述识别器通过将输入的语言和在词典中词语声学表示进行匹配来尝试识别语音。因此，在所述单元可以识别语音之前，所述语音识别器需要词典中词语的声学表示。通过将发音转换为声学表示的声学模型，所述识别器获取所需的声学表示。

除了将文本和发音添加到词典，所述系统可以执行其它行为以提高语音识别器的速度和/或精确性(步骤312)。例如，如果语音树用于剪除语音识别器的搜索，则所述系统将新导入的发音添加到树中。如果语义信息对词语可用，并且所述语音识别器能够使用语义信息，则所述系统将所述信息添加到识别器中以提高语音识别器的速度和精确性。

例如，在类语言模型中，所述识别器使用上下文来预测语言输入的词语属于什么类，并且以有利于所述类的成员的方式来偏置词典搜索。例如，当输入电子邮件应用的地址字段时，电子邮件地址比名称更有可能，然而，在文档中的昵称会期望跟在词语“亲爱的”后面。在概率模型中，识别器基于在短语或句子中直接在一个词语前面的一个或多个词语的类来储存所述短语和句子中的所述词语属于特定类的概率。其后，所述识别器基于之前词语的类将优先级给予其对属于的所期望类的词语的搜索。因此，如果类语言模型用于语音识别器，则将所导入的词语的类被导入到识别器中。类的示例为合适的名称、昵称和电子邮件地址。导入的文本词语的来源可以指示它的类。例如，从所述设备的地址簿的“姓”字段导入的词语很可能属于合适的名称的类，而在电子邮件器中来自“电子邮件地址”的词语很可能属于电子邮件地址类。

此外，所述算法可以扩展词典词汇，以包括由MCD上的一个或多个应用所识别的命令。如同文本采集，所述算法通过每个应用中的指针来定位这些命令。这些命令典型地储存在数据结构中，例如文本文件。在一些示例中，所述系统通过在应用代码中搜索未加密的文本字符串标识命令。所述命令有时候包括表示由移动网络提供商提供的特定功能的对运营商特定的附加物。所述系统以与其定位标准命令同样的方式来定位这些命令。

在一些设备中，语言到文本词典支持大词汇量识别器，所述词典具有30,000的词量。所述词典的初始词汇由设备制造商选择，且通常不包括对于特定用户特定的词汇。即使这样的系统有很好的机会来识别标准说话词汇，所述词典也不会包括所述用户的文本采集103、105的部分或全部。因此，甚至在配备大词汇量的语音识别器中，上面描述的词汇扩展也用于定制和增强语音识别能力。

虽然图1示出两种应用，但在假设提供足够的存储器和计算能力的情况下，MCD中可以存在任意数量的应用，每一个都有自己的文本采集。典型地，这些文本采集包括当使用MCD应用时用户输入的个人信息。此外，它们包括与应用结合的由用户下载的词语列表。用户通过使用标准的蜂窝电话接口的空中方式、通过web、通过短距离无线系统(例如蓝牙或Wi-Fi)或以对外部计算设备的电缆连接来将它们导入设备中。这些数据可以是在文本输入期间可以用于拼写检查、词语的自动完成以及其它目的的特定主题词语的采集。所述主题可以涉及专业或个人的兴趣。例如，医生可以下载医学短语集合。运动爱好者可以具有关于喜欢的球队的词语集合。

MCD可以具有多于一个的用户，每个用户具有他们自己的文本采集。每个用户独立地执行词汇扩展过程。图4示出适合于两个用户A和B的系统400。词典402细分为普通组件404，以及对用户特定的扩展406和408。用户A具有分别和应用102和104关联的文本采集410和412。用户A通过将词语从用户A的文本采集导入到与用户A关联的对用户特定的词典扩展406来扩展词汇，如箭头414和416所示。类似地，用户B通过从用户B的文本采集418和420向用户B词典扩展408进行导入来扩展词典，如箭头422和424所示。在后续语音识别期间，当用户A使用所述设备时，语音识别器106以扩展406来扩展普通词典404，以及当用户B为所述用户时，以扩展408来扩展普通词典404。这样的布置使用户A和用户B都得益于各自的词汇扩展。虽然上面描述了两个用户的系统，但在设备的处理和储存能力限制内，设备也可以支持具有各自文本采集及其相关词汇扩展的任意数量的用户。

具有相关文本采集的应用的示例包括以下项：地址簿，具有其关联的合适名称、昵称、工作区、地址、电子邮件地址以及其它联系信息；日历，具有其关联的人名、地方和其它日历项信息；Web浏览器，具有其喜欢的web地址的关联列表、标准web站点、用户访问的站点、用户已输入的搜索项以及web搜索结果；数字音乐播放器，具有其关联的音乐流派、歌曲标题、艺术家姓名、专辑名称以及其它与音乐相关的信息；电子邮件器，具有其关联的电子邮件地址、接收、发送及撰写的电子邮件文档以及电子邮件附件；文本传讯器，具有其关联的发送和接收的文本消息文档；即时传讯器，具有关联的发送和接收的文本以及屏幕名称；词语处理器，具有由词语处理器创建或编辑的其关联的文档；相机，具有图像捕获；视频片段播放器，具有关联标题和内容；以及地理定位应用，具有包含地理名称的其关联的地图(例如镇、街道、山川、河流和湖泊的名称)。此外，文本采集包括根据对从移动设备发送或由移动设备接收的语音通信的监测而获得的信息和词语。如果MCD具有与话音拨号盘关联的另一较简单的语音识别器或另一特定应用，则可以将较简单的识别器的词典中的词语导入到大词汇量的词典中。

上述技术应用于通过无线或有线连接而连接到网络的移动设备和非移动设备，如图5所示。该图示出通信设备500经由有线或无线网络连接504连接到网络502。网络502可以是电话网络，或者是数据网络，例如互联网。通信设备500包括软件模块506，软件模块506包含与移动通信设备100关联的上述词典108和语音识别器106。

当尚未在移动设备中储存将要添加到到词典的词语，但是从用户与网络的交互作用中已捕获所述词语时，也可以使用上述技术。在此情况下，软件模块506包括用于监测用户与网络交互作用的指令。当网络502是互联网时，模块506监测用户发送或接收的文本。在通常情况下，用户使用Web浏览器与互联网交互作用，模块506监测用户的搜索项、搜索结果以及作为搜索结果所访问的Web页面。

网络502可以是承载话音的网络(例如传统电话网络)、数字语音网络或者2G/3G无线接入网络。在这种情况下，将要添加到词典中的词语被包含在通过电话网络承载到所述设备和来自所述设备的语音话语中。典型地，所述语音话语在位于移动设备或连接到网络的另一设备中的存储器上被缓冲。在设备上本地执行的或在连接到网络的另一设备上执行的语音识别器监测储存的语音并识别特定词语。模块506自动地或在用户对无法识别的词语进行屏幕筛选后将识别的词语添加到词典。

软件模块506从所监测的网络交互作用访问和捕获词语，并将全部或部分词语添加到词典108。该过程动态发生，从而软件模块506在用户与网络交互作用期间连续更新。在其它应用中，软件模块506以周期间隔、或当从用户收到指令时访问所述词语。在其它应用中，当发生事件(例如用户网络交互作用的中止或通信设备断电)时访问词语。

上述词汇扩展过程可以以多种方式改变。例如，所述设备可以省略图3中所示的一个或多个步骤，或以不同的顺序执行步骤。在一种改变中，参照上文，对于使用规则从文本容易地得到发音的语言，所述系统省略步骤308，并且不生成发音。

在图6中作为高层框图600示出可以实现移动通信设备的典型平台。所述设备在其核心处包括：基带数字信号处理器(DSP)602，用于处理蜂窝通信功能，例如包括语音频带和信道编码功能：以及应用处理器604，例如Intel StrongArm SA-1110，在其上运行操作系统，例如Microsoft PocketPC。所述电话支持：GSM语音呼叫，SMS(短消息服务)文本消息传送，即时消息传送，无线电子邮件，桌面型Web浏览，以及传统PDA特征(例如地址簿、日历以及闹钟)。所述处理器还可以运行附加的应用，例如数字音乐播放器、词语处理器、数字相机以及地理定位应用，例如GPS。

通过RF合成器606和RF无线收发器608完成发送和接收功能，RF无线收发器608后面有功率放大模块610，功率放大模块610通过天线612处理最后级的RF发送任务。接口ASIC614和音频编码译码器616为扬声器、麦克风以及在电话中提供的其它输入/输出设备(例如用于输入命令和信息的数字或字母数字键盘(未示出))提供接口。DSP602使用闪速储存器618以存储代码。锂离子电池620给电话供电，耦合到DSP602的电源管理模块622在所述设备内管理电源的消耗。所述设备具有附加的硬件组件(未示出)，以支持特定功能。例如，图像处理器和CCD传感器支持数字相机，而GPS接收器支持地理定位应用。

分别以SDRAM624和闪速储存器626的形式提供用于应用处理器614的易失性存储器和非易失性存储器。存储器的这种布置可以用于保持用于操作系统的代码，即，所有用于操作所述设备和支持它的各种功能的相关代码，包括用于上述语音识别系统的代码和用于被包括在所述设备中任何的应用软件的代码。它也存储词典，以及与应用关联的文本采集。

用于所述设备的可视化显示设备包括LCD驱动芯片628，其驱动LCD显示器630。还存在时钟模块632，为电话中的其它设备提供时钟信号和提供实时指示符。上述所有组件被封装在合适设计的壳体634中。

由于上述设备是表示许多不同商业可用设备的一般内部结构的，并且由于这些设备的内部电路设计通常对本领域普通技术人员是公知的，因此未提供关于图6中示出的组件的进一步细节及其操作，并且其对于理解本发明并非是必需的。

考虑到可以应用本发明的原理的实施例的广泛种类，应理解，示出的实施例仅仅是示例性的，而不应认为是限定本发明的范围的。例如，可以与所描述的流程图的顺序不同的顺序来执行流程图的步骤，可以在示图中使用更多或更少的元件。虽然已经将这些实施例的各种元件描述为以软件来实现，但可以替换地使用硬件或固件实现中的其它实施例，反之亦然。

其它的实施例在所附权利要求的范围之内。

Claims

1.一种用于提高语音识别器性能的方法，所述方法包括：

为语音识别器提供词典；

监测用户与网络的交互作用；

访问多个与所监测的交互作用相关联的词语；以及

基于所述多个词语中的至少一个来修改词典，以提高语音识别器的性能。

2.如权利要求1所述的方法，其中，所述语音识别器位于移动设备上。

3.如权利要求2所述的方法，其中，访问的步骤包括：将所述多个词语从服务器下载到移动设备。

4.如权利要求1所述的方法，其中，所述语音识别器位于连接到网络的设备上。

5.如权利要求4所述的方法，其中，所述网络为互联网。

6.如权利要求4所述的方法，其中，所述网络为电话网络。

7.如权利要求1所述的方法，其中，监测用户与网络的交互作用的步骤包括：监测用户与Web浏览器的交互作用，并且其中，所访问的多个词语和用户与Web浏览器的交互作用相关联。

8.如权利要求7所述的方法，其中，从查询、搜索结果以及作为用户与Web浏览器交互作用的结果所访问的Web页面里的至少一个中获得所述多个词语。

9.如权利要求1所述的方法，其中，监测用户与网络的交互作用的步骤包括：监测所述用户经由电话网络与一个或多个其它方的话音通信，并且其中，所访问的多个词语与所述用户经由电话网络与一个或多个其它方的话音通信相关联。

10.如权利要求1所述的方法，其中，访问的步骤包括：动态访问所述多个词语。

11.如权利要求1所述的方法，其中，访问的步骤包括：以周期性间隔访问所述多个词语。

12.如权利要求1所述的方法，其中，访问的步骤包括：当从用户接收到输入时访问所述多个词语。

13.如权利要求1所述的方法，其中，访问的步骤包括：当发生事件时访问所述多个词语。

14.如权利要求1所述的方法，其中，以基于所述多个词语中的词语在所监测的交互作用中的出现频率的方式来偏置所述语音识别器。

15.如权利要求1所述的方法，其中，监测的步骤进一步包括：记录所述多个词语中的每一个的分类，并且其中，以基于所述多个词语中的每一个的分类的方式来偏置所述语音识别器。

16.如权利要求1所述的方法，其中，监测的步骤进一步包括：记录所述多个词语中的每一个的使用上下文，并且其中，以基于与所述多个词语中的每一个相关联的使用上下文的方式来偏置所述语音识别器。

17.一种在移动设备上实现的方法，所述方法包括：

为语音识别器提供词典；

监测用户与网络的交互作用；

捕获与所监测的交互作用相关联的多个词语；以及

将捕获的多个词语添加到词典中。

18.如权利要求17所述的方法，其中，监测用户与网络的交互作用的步骤包括：监测用户与Web浏览器的交互作用，并且其中，所捕获的多个词语和用户与Web浏览器交互作用相关联。

19.一种用于在具有语音识别器的移动设备上扩展语音词汇的方法，该方法包括：

在移动设备上为语音识别器储存词典；

在移动设备上储存多个词语，所述多个词语和移动用户与驻留在移动设备上的Web浏览器的交互作用相关联；以及

将所述多个词语导入到词典。

20.如权利要求19所述的方法，其中，所述多个词语包括由移动用户输入到浏览器的搜索项和通过使用搜索项进行的搜索所返回的结果中包含的词语。

21.一种用于在具有语音识别器的移动设备上扩展语音词汇的方法，该方法包括：

在移动设备上为语音识别器储存词典，所述词典包括第一多个词语；

在移动设备上储存第二多个词语，以及为所述第二多个词语中的每一个词语储存与所述词语关联的使用上下文，所述第二多个词语与除了语音识别器之外的应用相关联；以及

将所述第二多个词语及其相关使用上下文导入到词典中。

22.如权利要求21所述的方法，其中，所述第二多个词语中的至少一个与适当名称的使用上下文相关联。

23.如权利要求21所述的方法，其中，所述语音识别器被偏置为从所述词典中选择如下候选词语，所述候选词语具有如下使用上下文，所述使用上下文对应于将由所述语音识别器所识别的词语的使用上下文。

24.一种用于在具有语音识别器的移动设备上扩展语音词汇的方法，该方法包括：

在移动设备上为语音识别器储存词典，所述词典包括多个词语；

在移动设备上储存第二多个词语，该文本词语的第二集合与除了语音识别器的应用相关联；

为所述第二多个词语中的每一个词语记录所述词语的使用频率；以及

将所述第二多个词语及其相关使用频率从所储存的文本词语集合导入到所述词典中。

25.如权利要求24所述的方法，其中，所述语音识别器至少部分基于候选词语的使用频率从词典中选择候选词语。