CN100407291C

CN100407291C - 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型

Info

Publication number: CN100407291C
Application number: CN038127636A
Authority: CN
Inventors: S·马扎
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2002-04-05
Filing date: 2003-03-26
Publication date: 2008-07-30
Anticipated expiration: 2023-03-26
Also published as: US20030191639A1; WO2003088211A1; TW200305140A; EP1497825A1; TWI346322B; AU2003218398A1; CN1659624A

Abstract

根据用于语音识别的呼叫语境为词汇和声学模型的动态的和适应性的选择提供的一种安排。当接收到来自与顾客相关联的呼叫者的呼叫时，发送与呼叫相关联的相关呼叫信息并将其用为检测呼叫语境。根据该呼叫语境选择至少一个词汇集(230)。根据呼叫语境识别与各选择的词汇相关的声学模型(270)。然后将词汇和声学模型用于(150，170)识别来自呼叫者的呼叫的讲话内容。

Description

根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型

保留版权

背景

本发明的一些方面涉及自动语音处理。本发明的其它方面涉及自适应的自动语音识别。

在越来越面向服务的社会中，产品的选择经常是根据与产品同时提供的附加服务决定的。公司为了吸引顾客在提供这些服务中投入了大量资金。例如：为向制造商购买计算机的顾客提供免费电话号码，使顾客能通过电话请求任何技术支持或提出服务问题。为了促进提供的顾客服务，制造商可以建立个配备了呼叫选择路由能力(例如：将呼叫路由至可用的代理人)、管理相关信息(例如：顾客简介)的后置数据库系统和可以处理不同类型的问题工作人员的呼叫中心。除了呼叫中心之外还可以配置其它可能的系统配置来促进顾客服务。

维持呼叫中心的成本很高。为了在市场中有效地竞争，必须保持顾客服务的低成本。开发了各种节省成本的策略。一种策略是引入自动呼叫路由能力，这样就不必雇佣将呼叫转接到合适代理人的接线员了。该自动呼叫路由帮助自动翻译与呼叫顾客有关的需求(例如：顾客会有付款问题)，然后将顾客的呼叫自动路由至专攻特定领域的代理人(例如：负责处理与付款有关的问题的代理人)。

主要有两种技术用来实现自动呼叫路由。一个是提醒呼叫顾客输入编码的选择。例如：呼叫中心会提醒顾客“订货输入1；付款问题输入2；支持输入3”。有了这一实施，顾客可以用诸如电话之类带按键的设备来输入与希望的服务相应的代码。因为此类解决方案需要呼叫用户的努力，所以它可能会使一些顾客感到麻烦，特别是当选择的数量大到顾客在听完提醒之后难以记住每条服务选择的代码时。

另一种技术是通过声音自动呼叫路由。在此情况下，呼叫中心可提醒呼叫顾客说出请求的服务的种类。因为在此情况下顾客不需要记住每个选择的代码，常常会更方便。为了实现这种解决方案，呼叫中心常常配置从呼叫顾客的语音识别出所语单词的自动语音识别系统。然后将识别出的口语单词用于路由呼叫。由于呼叫中心常常处理可能来自许多不同顾客的呼叫，它常常配置不依赖于说话人的自动语音识别系统(与依赖于说话人的系统相反)。不依赖于说话人的自动语音识别系统虽然比依赖于说话人的语音识别更灵活，但准确度较低。

为了让使用不依赖于说话人的系统的识别失误率最小化，可以使用少于标准的词汇。用这种技术，如果呼叫中心在呼叫的特定阶段提醒呼叫顾客指示三种给出的服务选择中的一个，以识别该顾客将会说什么，可以选择仅三个词的一个词汇集用于识别。例如：如果将“信息”、“接线员”和“付款”提供给顾客选择，可以选择仅仅由这三个词组成的词汇集用于识别用户的选择(与含成千上万单词的自然语词汇集成对照)。使用较少的词汇可以缩小识别的范围，从而提高识别的准确度。用此技术在不同呼叫阶段，可以根据基本应用的要求选择不同的词汇集。

在许多真实系统中，即使在呼叫的不同阶段灵活地选择词汇集，识别的准确度常常不够好。特别是在基本词汇集不够少的时候。不依赖于说话人进行自动语音识别是很困难的。即使是较少的词汇，不同的顾客会用非常不同的语音特征说出同一选择。例如：美国本地人和日本人对“接线员”一词的发音就非常不同。

附图的简要说明

以下将参照附图，根据实施例对本发明进行描述。这些实施例都是非限定性实施例，其中同样的标号在整个附图中的几幅图中代表类似的部分，其中：

图1示出根据本发明的一实施例的使用根据呼叫语境自适应地选择的词汇集和声学模型识别呼叫者的语音的架构；

图2示出根据本发明的一实施例的能使其词汇和声学模型适用于呼叫语境的语音识别机制的内部高等级功能块的框图；

图3示出根据本发明的一实施例的可影响词汇和相关声学模型的适应性选择的呼叫语境的示例性相关信息；

图4示出根据本发明的一实施例的词汇和声学模型之间的示例关系；

图5示出根据本发明的一实施例的使用根据呼叫语境自适应地选择的词汇和声学模型识别呼叫者的语音的过程的流程图；

图6为根据本发明的一实施例的词汇自适应机构在呼叫语境的基础上动态地选择合适词汇的过程的示例流程图；

图7为根据本发明的一实施例的声学模型自适应机构在呼叫语境的基础上相对于一词汇集动态地选择合适的声学模型的过程的示例流程图；

图8为根据本发明的一实施例按照语音识别性能自适应地调节语音识别的声学模型的过程的示例流程图。

详细说明

下述过程由合适地编程的通用计算机单独执行或与专用计算机一起执行。可由单个平台或由分布式处理平台实施此过程。另外，可以以专用硬件的形式或以由通用计算机运行的软件的形式实施此过程和功能性。任何在该过程中处理的或因该过程建立的数据都可以存储在任何已有技术中的传统存储器中。作为示例，可以将该数据存储到临时存储器中，例如：给定计算机系统或子系统的RAM中。另外，另选地，可以将该数据存储到较长期的存储设备中，例如：磁盘、可重写的光盘等等。为了这里本发明的目的，计算机可读媒体可包括任何形式的数据存储机构，包括：已有各种存储器技术以及代表这些数据的这些结构的硬件或电路。

在图1所示的架构100示出根据本发明的一实施例的使用根据呼叫语境自适应地选择的词汇和声学模型来识别呼叫者的语音的架构。架构100包括多个呼叫者(呼叫者1 110a、呼叫者2 110b、...、呼叫者n 110c)、话频响应系统130和语音识别机构140。呼叫者通过网络120与话频响应系统130通信。在通过网络120接收到来自呼叫者的呼叫时，话频响应系统130识别与呼叫相关的信息并将其发送至语音识别机构140。语音识别机构140根据该信息自适应地选择一个或多个对呼叫信息和呼叫者合适的词汇和声学模型，然后将它们用于识别呼叫者在呼叫期间说出的口语单词。

呼叫者可以通过有线或无线设备(可以是电话、蜂窝电话或任何诸如个人数字助理(PDA)或个人电脑之类能传送语音(声音)数据或传送从语音数据转换的特征的通信设备)发出呼叫。网络120代表普通网络，该网络可以对应于，但不限于，局域网(LAN)、广域网(WAN)、因特网、无线网络、或专用网。网络120不仅能传送数据还能将与传送相关的有用信息与传送的数据一起中继至话频响应系统130。例如：网络120可包括开关、路由器和能提取与呼叫者相关的信息并将这些信息附在传送的数据上的PBX。

话频响应系统130代表一声音激活系统，它通过根据呼叫者在呼叫期间说的话采取合适的动作来响应来自呼叫者的话。例如：话频响应系统130可以响应设在呼叫中心的交互式话频响应(IVR)系统。当呼叫者向呼叫中心发出呼叫时，该IVR系统可以根据呼叫者说的话自动将呼叫转向在呼叫中心的合适代理人。例如：如果呼叫者询问付款问题，IVR系统应将呼叫接到经过培训的回答付款问题的代理人。如果呼叫者请求查号辅助，IVR系统就将呼叫接至负责帮助呼叫者找到的所要求的电话号码的代理人。

为了按呼叫者的声音请求作出合适的动作，话频响应系统130依靠语音识别机构140识别呼叫者的讲话中正在说什么。为了提高识别准确度，话频响应系统130会主动提醒呼叫者回答某些问题。例如：当接听一个呼叫时，话频响应系统130会要求呼叫者说出给出的几种帮助类型中他/她要寻求的一种(例如：“预订”、“查号辅助”和“付款”)。

来自呼叫者的回答不仅可以用于指导话频响应系统130作出反应还可以用于为语音识别选择合适的词汇。例如：得知呼叫者请求付款服务，话频响应系统130可以进一步提醒呼叫者提供帐号。得到此语境，语音识别机构140会利用数字词汇(仅由数字组成的词汇，如果已知帐号仅由数字组成)来识别呼叫者的回答中将会说什么。可以根据基本应用来选择特定的词汇。例如：如果已知帐户由数字和字母组成，语音识别机构140会利用数字词汇和字母词汇(仅由字母组成)来形成组合的词汇。词汇的选择还会依赖于语言。例如：如果呼叫者只说西班牙语，则必须使用西班牙语词汇。

可以将语音识别中的特定词汇的使用缩小至需要识别的范围，这样既提高了效率又增加了语音识别机构140的准确度。影响语音识别器的性能的另一个方面包括是否知道呼叫者语音的特征。例如，法国人说英语可能带法法语口音。在此情况下，即使选择了合适的词汇，例如：用英语数字词汇识别法国人说的英语数字会导致识别准确度差。在语音识别中，声音模式捕捉在语境中与口语单词相应的音素的声学实现。不同语言中的词汇可对应于非常不同的声学模型。同样，用不同的口音说出特定语言中的词汇(例如：用法国口音说英语数字)也会产生截然不同的声学模型。

语音识别机构140自适应地选择词汇和相关联的声学模型用于识别。它包括词汇自适应机构150、声学模型自适应机构170和自动语音识别器160。词汇自适应机构150根据与特定呼叫及基本应用相关的信息确定合适的词汇。例如：可以根据已知说话人是说英语的(例如：根据有关顾客的已知信息或自动识别结果)以及呼叫者请求与付款问题有关的服务来选择英语数字词汇。在此情况下，选择英语数字词汇用于识别呼叫者回答问题时将说什么，例如：有关他/她的帐号。因此，可以根据应用需要(例如：回答付款问题需要帐号)和有关特定呼叫者的信息(说带有法语口音的英语)来选择合适的词汇。

声学模型自适应机构170根据选择的词汇(由词汇自适应机构150选择的)和与基本呼叫相关的信息自适应地选择声学模型。例如：假设呼入的电话询问与付款有关的问题且已知呼叫者(例如：与呼叫者ID相关联的顾客简介会揭示)是带法语口音的讲英语的人。在此情况下，词汇自适应机构150选择英语数字词汇。根据词汇选择和已知呼叫语境(例如：有关呼叫者的信息)，声学模型自适应机构170可以选择描述用法语口音说出的英语数字的语音特性的特征的声学模型。

如果预先不知道呼叫者的语音特征(例如：口音)，声学模型适应机构170可以在传输过程中确定适于特定呼叫者的最佳声学模型。例如：声学模型自适应机构170可以在语音识别期间根据自动语音识别器160的识别性能动态地与合适的声学模型相适应。它可以连续地监控语音识别性能并相应地调节要采用的声学模型。然后存储更新的信息并将其与呼叫信息相关联备用。

当合适地选择了词汇和相应的声学模型后，自动语音识别器160用选择的词汇和声学模型对输入的语音(来自呼叫者)进行语音识别。然后将识别结果发送至话频响应系统130，使其能合适地对呼叫者的声音请求作出反应。例如：如果识别出呼叫者的帐号，话频响应系统130可以停止帐户信息并提示呼叫者指示呼叫者请求的付款信息类型。

话频响应系统130的反应会进一步使语音识别机构140适于选择不同词汇和声学模型以备识别。例如：为了帮助自动语音识别器160识别有关付款问题(来自呼叫者)的类型的将来的答案，词汇自适应机构150可以选择由三个与三类付款问题(例如：“余额”、“银行存款”和“最后付款”)相对应的单词组成的词汇。然后声学模型机构170可以相应地选择三单词词汇中与，例如：法语口音，相对应的声学模型。因此，词汇自适应机构150和声学自适应机构170都适于改变呼叫的语境并在给出呼叫语境的情况下，动态地选择最合适的词汇集声学模型。

图2示出根据本发明的一实施例的语音识别机构140的内部高等级功能方框图。词汇自适应机构150包括应用控制器210、呼叫语境检测机构240、词汇选择机构220和多个可用的词汇230。词汇选择机构220根据由呼叫语境检测机构240检测到的呼叫语境和由应用控制器210确定的应用要求选择合适的词汇。

应用控制器210可根据应用的要求指示词汇类型的选择。例如：如果在一特定应用中的帐号仅由数字组成(由应用控制器210确定)，则需要数字词汇来识别说出的帐号。如果在一不同应用中的帐号由数字和字母组成，则需要数字词汇和字母词汇来识别说出的帐号。

与呼叫相关联的呼叫语境(与可与呼叫过程中不同的时间点相关联)可根据语言要求指示词汇的选择。例如：如果应用需要数字词汇，则可以选择需要哪种特定语言的数字词汇。这可以根据呼叫语境来确定。例如：如果呼叫者是说法语的人，则需要法语数字词汇。

呼叫语境检测机构240接收从话频响应系统130发送的或从与呼叫者相关联的顾客简介或网络检索到的信息。例如：话频响应系统130可以发送诸如呼叫者标识码(呼叫者ID)或代表呼叫发出区域的区域代码之类的与呼叫相关的信息。呼叫者ID可以用于检索可提供诸如呼叫者的语言偏好之类的进一步信息的相应的顾客简介。呼叫语境检测机构240用这些信息构造出可与合适的词汇或声学模型选择相关的基本呼叫语境。

图3示出根据本发明的一实施例在呼叫语境中可影响词汇和相关声学模型的选择的示例性相关类型的信息。从话频响应系统130发送的信息可对应于包括，例如，区域代码320、交换码330、或呼叫者ID340在内的地理信息310。可以将这些信息与发出呼叫的物理位置相关联，该位置可从区域代码320、交换码330、或可能最准确地从呼叫者ID 340中识别。当发出呼叫，然后通过网络120将呼叫路由至话频响应系统130时最初可以在本地载波上收集地理信息。

从顾客简介检索到的顾客信息可包括：例如，一个或多个相应的呼叫者ID340、帐号360、...、和语言偏好370。用接收到的呼叫者ID(来自话频响应机构130)可以检索到包含在相关联的顾客简介中的信息。例如：有了呼叫者ID，可以从相关的顾客简介中检索语言偏好370。可以通过不同的方式指示语言偏好370。例如：它可以在建立基本帐户时输入或在与顾客打交道的过程中建立。

不同的呼叫者可以使用同一呼叫者ID。顾客简介可以记录各个可能的呼叫者及他们的语言偏好(图3中未示出)。另选地，顾客简介可以区分女性呼叫者380和男性呼叫者390(例如：在一家庭中)及他们相应的语言偏好，因为女性和男性通常呈现出实质上不同的语音特征，从而可以用截然不同的声学模型来识别他们的讲话。

可以将与呼叫相关的地理信息用于获取更多与词汇和声学模型的选择相关的信息。例如：可以将从话频响应系统130发出的呼叫者ID用于检索提供诸如语言偏好之类的进一步的相关信息的相应的顾客简介。可以用检索到的语言偏好370(与根据应用需要所要求的词汇类型相结合)确定合适的词汇(例如：英语数字词汇)和声学模型(法语口音的英语数字的声学模型)。

当没有呼叫者ID时，不可能直接访问顾客简介。因此，不会知道偏好的语言。在这种情况下，可以用区域代码320或交换码330来推断语言偏好。例如：如果区域代码320对应于德克萨斯州的某一地理区域，则可以推断出与德克萨斯人相应的声学模型可能是合适的。如另一例子，在如果交换码330对应的区域(例如：纽约市的唐人街)中大部分人说带特定口音的英语(即，住在纽约市的唐人街的中国人说带中文口音的英语)，则可以认为与推断口音相对应的特定声学模型是适合的。

如上所述，声学模型的选择不仅取决于呼叫者的语音特征还取决于词汇的选择。图4示出根据本发明的一实施例的词汇和声学模型之间的示例关系。词汇集230包括多个词汇集(词汇集1 410、词汇集2 420、...、词汇集n 430)。各词汇在不同的语言中实现。例如：数字词汇集420可包括西班牙语数字词汇集440、英语数字词汇集450、...、和日文数字词汇集460。另外，对于给定语言中的各词汇集，可使用多个与不同口音相对应的声学模型。例如：对于英语数字词汇集450，可以将对应于西班口音(470)、英语口音480和法语口音49的声学模型选择成与呼叫者的语音特征相一致。

为了选择合适的声学模型，声学模型自适应机构170可以根据诸如词汇集的选择(由词汇自适应机构150做出的)和包含在呼叫语境中的信息之类的给定信息、或在传输过程中收集到的信息(例如：从呼叫者的语音中检测到的语音特征)作出选择。参见图2，声学模型自适应机构170包括声学模型选择机构260、自适应机构280和一组可用声学模型270。声音选择机构260从呼叫语境检测机构240接收呼叫语境。可以将包含在呼叫语境中的信息用于确定选择合适的声学模型(见图3)。

当接收到的呼叫语境不提供作出选择所需的信息时，自适应机构280会在呼叫过程中从呼叫者的语音中检测可能与选择相关的语音特征(例如：呼叫者是女性还是男性说话人)。还可以将检测到的语音特征用于与可用于选择的顾客简介相关联的信息。例如：如果检测到女性的声音，话频模式选择机构260可使用该信息来看在顾客简介(用例如呼叫语境中的呼叫者ID访问)中是否有与女性说话人相关联的语言偏好。在这种情况下，选择是根据呼叫者的语音特征在传输过程中动态地确定的。

当没有可用于帮助选择声学模型的信息时，达到在传输过程中自适应的不同的示例性另选的例子是首先根据一些标准选择一组声学模型，然后根据语音识别的在线性能精选。例如：给出了英语数字词汇集，声学模型选择机构260可首先根据英语口音、西班牙口音和法语口音选择声学模型。然后将所有初选的声学模型馈送至自动语音识别器160用于语音识别(例如：对不同口音作平行语音识别)。在识别期间产生性能测量值(例如：识别的得分)并将其发送至自适应机构280以估计初选声学模型的适合度。不再考虑导致较差识别性能的声学模型用于此呼叫的语境中的进一步识别。这种在线适应可以持续到识别出最合适的声学模型为止。

可以将最终的在线适应结果(选择调整达到最佳语音识别性能的声学模型)用于更新基本顾客简介。例如：可以用在线适应结果以及相关联的语音特征来更新原来的没有指示任何语言偏好和口音的基本顾客简介。例如：家庭(对应于呼叫者ID)中的女性说话人(语音特征)具有法语口音。可以在将来将这些顾客简介中的更新过的信息用作与特定类型的说话人相对的默认选择。

图5示出根据本发明的一实施例的使用根据呼叫语境自适应地选择的词汇集和声学模型识别呼叫者的语音的过程的流程图。首先在动作510接收呼叫。然后在动作520将与呼叫相关的信息从话频响应系统130发送至语音识别机构140。在动作530检测呼叫语境并将其用于在动作540选择合适的词汇。根据选择的词汇和检测到的呼叫语境，在动作550识别合适的声学模型。在动作560，自动语音识别器160用这些选择的词汇的声学模型对呼叫者的语音进行语音识别。

图6为词汇自适应机构160根据本发明的一实施例在呼叫语境的基础上动态地选择合适词汇的过程的示例流程图。在动作610接收与呼叫相关的信息。根据呼叫信息，可以在动作620检索顾客简介。在动作630从呼叫信息和顾客简介中检测到呼叫语境并相应地在动作640选择合适的词汇。然后在步骤650将选择的词汇与呼叫语境一起发送至声学模型自适应机构170。

图7为根据本发明的实施例声学模型自适应机构在呼叫语境的基础上相对于一词汇集动态地选择合适的声学模型的过程的示例流程图。首先在动作710接收呼叫语境和选择的词汇。在动作720使用呼叫语境分析相关的顾客信息。必要时，在动作730确定呼叫者的语音特征。在步骤740选择适于给定词汇和呼叫语境(包括在传输过程中检测到的语音特征)的声学模型。

图8为根据本发明的一实施例按照语音识别性能在传输过程中自适应地调节词汇集和语音识别的声学模型的过程的示例流程图。首先在步骤810检索自适应地选择的词汇集和声学模型，然后在动作820将其用于识别来自呼叫者的语音。在识别过程中生成性能测量值，并在步骤830将其用于评估识别性能。如果评估指示在动作840确定的识别期间达到高置信度，则继续将当前的词汇集和声学模型用于正在进行的讲话。否则，在动作850重新选择可提高识别性能的词汇和声学模型。将与重新选择相关的信息(例如：新选择的词汇和声学模型)用于更新基本的顾客简介。该模型自适应过程可以持续到通话结束。

当参照某些所示实施例描述本发明时，所用的词语是描述的词语而非限定的词语。在此方面不偏离本发明的范围和精神的情况下，可以在所附权利要求的范围内作出修改。虽然本发明是参照特定结构、动作和材料进行描述的，本发明不限于所揭示的细节，而是可以以各种形式得以体现，其中一些可与揭示的实施例中的那些非常不同，并扩展到所附权利要求范围内的所有等同的结构、动作和材料。

Claims

1.一种方法，其特征在于，包括：

从与顾客相关联的呼叫者接收呼叫；

发送与该呼叫相关联的呼叫信息；

根据所述呼叫信息检测与呼叫相关联的呼叫语境；

根据所述呼叫语境选择至少一个词汇集，所述至少一个词汇集包括特定语言的多个单词；

相对于基于呼叫语境的特定词汇集识别至少一个表示特定口音的声学模型；及

用至少一个词汇集和至少一个声学模型识别呼叫的语音内容。

2.如权利要求1所述的方法，其特征在于，所述呼叫语境至少包括下列中的一些：

与呼叫相关联的地理信息，包括：

表示呼叫发出的地理区域的区域代码，

表示呼叫发出的地理区域的交换码，或

表示呼叫者发出呼叫的电话的呼叫者标识码；

与顾客相关联的顾客信息，包括：

表示顾客发出呼叫所用帐户的帐号，

与该帐户相关联的呼叫者标识码；

顾客特征；或

用于评估声音特征的在传输过程中的声音采样。

3.如权利要求2所述的方法，其特征在于，所述与顾客相关联的顾客特征至少包括下列中的一些：

至少一个与顾客相关联的呼叫者的性别；

至少一个呼叫者偏好的零种或多种通信语言；或

相对于至少一个呼叫者的偏好语言的讲话口音。

4.如权利要求3所述的方法，其特征在于，所述检测呼叫语境至少包括下列中的一些：

从与呼叫相关联的相关呼叫信息中提取呼叫的地理信息；

从与顾客发出呼叫所用的帐号相对应的顾客简介中标识顾客信息；或

根据顾客的语音识别顾客的特征。

5.如权利要求1所述的方法，其特征在于，还包括：

评估所述识别的性能；

根据所述评估重新选择与所述识别的较佳性能相应的词汇集和声学模型中的至少一些。

6.一种用于自适应地调节词汇集和声学模型选择的方法，其特征在于，包括：

用根据与呼叫者的呼叫相关的呼叫语境选择的至少一个词汇集和至少一个相关联的声学模型对呼叫者的语音进行语音识别；

对至少一个词汇集及与其相关联的每一个声学模型的语音识别的性能进行评估；和

根据评估的语音识别性能重新选择更新的词汇集或更新的声学模型，以使用更新的词汇集和更新的声学模型进行语音识别。

7.如权利要求6所述的方法，其特征在于，还包括：

根据更新的声学模型更新与呼叫者相关联的顾客简介。