CN103714813A

CN103714813A - 短语辨认系统和方法

Info

Publication number: CN103714813A
Application number: CN201310462805.3A
Authority: CN
Inventors: S·沙弗尔; K·庞廷; V·C·马图拉
Original assignee: Avaya Technology LLC
Current assignee: Avaya Technology LLC
Priority date: 2012-10-05
Filing date: 2013-10-08
Publication date: 2014-04-09
Anticipated expiration: 2033-10-08
Also published as: CN103714813B; EP2717258A1; US20140100848A1; IN2013MU03163A; PH12013000294A1; EP2717258B1; US10229676B2

Abstract

本发明涉及一种短语辨认系统和方法。本发明提供用于在音频流之内识别指定短语的方法和系统。更指定地，指定短语。然后针对短语监控音频流。响应于确定音频流包含短语，从用户请求短语实际被包括在音频流中的验证。如果这样的验证被接收到，则记录音频流的包括短语的部分。记录的短语然后可以应用于在监控的音频流中识别短语的未来实例。

Description

短语辨认系统和方法

技术领域

提供用于短语辨认（spotting）方法和系统。

背景技术

在各种应用中，期望检测什么时候已经说出特定的短语。然而，目前的短语辨认产品可能遭受不准确的短语辨认。此外，此类产品常常不为说话者提供引导系统并改善它的性能的手段。具体地，说话者的独特口音可能不利地影响辨认具体短语的准确度。

为了改善短语辨认系统的准确度，可以使用训练模式。在训练期间，要求用户响应于提示提供语音样本。虽然此类训练可能在对各个用户的文本到语音系统的准确度的提高方面是有效的，但是此类训练是费时的。另外，当试图辨认由未知或随机说话者说出的具体短语时，可以证明如上所述的传统训练是不实际的。为了提供用于诸如进入联系中心的呼叫者之类的较大用户群的改善的准确度，各个用户可以被分配到简档类别。例如，具有澳大利亚口音的用户可以与用来准确地辨认带有那种口音说出的短语的简档相关联。

在特定背景中，诸如在联系中心中，可以期望监控包括用于特定关键字或短语的语音的音频信号。例如，企业可以对监控联系中心代理和客户之间的会话以寻找特定词感兴趣。作为特定示例，联系中心服务器可以实时监控呼叫以寻找词“监督器”。如果检测到那个词，则它可以被用作到监督器的触发器以在呼叫中干涉，或监控正在进行的呼叫。如另一个示例，金融机构可以例行地记录客户呼叫，以使得可以维护客户指示的准确记录。如果稍后出现关于客户的较早指示的内容的问题，则可以期望通过搜索由客户和联系中心代理之间的较早会话构成的记录以定位并重放较早的指示。然而，在此情况中，基本没有或没有机会来训练系统准确地识别被监控的语音。因此，用于训练系统的先前技术在这些其它背景中已经无效。

发明内容

提供改善的与词或短语辨认有关的短语辨认准确度的系统和方法。更具体地，为一个或多个词或短语实时监控语音。当系统确定已经发出某一词或短语时，可以显示要求由系统识别的短语被实际说出的确认的消息。响应于具体短语已被说出的确认，短语的副本可以被存储在短语库中并且用于提高相对于各个说话者、另一个用户、或具有某些共性的一群用户的语音识别的准确度。

根据本公开的至少某些实施例，例如，由监控应用监控例如但是不限于电话会话的音频流。监控应用侦听音频流以寻找一个或多个具体短语。如这里使用的，短语可以包括短语、词、音素，或语音的其它部分。响应于由监控应用确定已经识别指定短语，可以创建隐含马尔可夫模型。另外，从用户请求短语被包括在音频流中的验证。可以向提供语音的用户做出此验证请求。此外，验证请求可以被作为询问指定短语是否由用户实际说出的显示的消息呈现。如果用户作肯定回答，则可以存储包括指定短语的音频流的部分。然后可以由监控应用使用存储的短语以识别那些短语的未来发声。被要求验证已经说出指定短语的用户不必须是其语音流被监控的相同的人员。

实现本公开的实施例的系统可以提供运行监控应用的通信服务器。可以由管理员或监督器提供监控应用以监控一个或多个音频流以寻找指定短语。监控应用然后操作以“侦听”语音通信以寻找一个或多个指定短语。响应于确定指定短语已被发出，监控应用请求来自人类听众或可以是代理或监督器用户的参与者的指定短语已被实际发出的确认。请求也可以包括向联系中心客户用户呈现文本来声明短语已被监控应用识别，并且进一步请求来自于客户用户的确认。在另外的实施例中，用户可以是一个或多个用户并可以具有以上使用的关系的不同关系。响应于输入的指定短语在音频流中出现的确认，监控应用可以存储包括指定短语的音频流的部分。存储的短语然后可以用于识别那些短语的后续发声。通过如此提供指定短语的客户用户的发声的实际示例，那些短语可以在未来的来自于客户用户或来自于具有相似口音或语音模式的其它客户用户的语音通信中利用更高的准确度被识别。可替换地，如果代理或客户用户指示没有发出指定短语，则监控应用可以继续使用通常应用于用户的标准文本文件。另外，被错误地识别为包含指定短语的语音片段可以被存储以作将来参考并且用于减少未来指定短语的错误检测。根据本公开的进一步的实施例，可以为各个用户或具有相似口音或语音模式的用户类别发展指定短语库。此外，可以将库解析到可以用于识别包括在或包括除了那些其样本已经获得的词或短语之外的词或短语的指定短语的音素库中。类似地，系统为用户提供每当用户确定已经发出指定短语并且系统没有辨认它时就提醒系统的能力。当这出现时，系统可以以类似于如上所述的一个方式存储有关的语音流片段以作将来参考。

本发明的实施例的附加特征和优点将从下列说明书中变得更清晰，特别是结合附图时。

附图说明

图1是描述根据本公开的实施例的系统的组件的方框图；

图2是根据本公开的实施例的通信服务器的方框图；

图3描述根据本公开的实施例的用户界面；以及

图4描述根据本公开的实施例的方法的方面的流程图。

具体实施方式

图1是描述根据本发明的实施例的通信系统100的组件的方框图。在此示例中，通信系统100包括联系中心104。通常，联系中心104可以经由一个或多个通信网络112与一个或多个通信端点或设备108通信。通信端点108的示例包括但是不局限于智能电话、蜂窝电话、台式电话、台式计算机、膝上型计算机、薄客户端设备、平板计算机、或任何其它能够支持用户110（例如，客户）与人类用户或与联系中心104相关联的自动化代理用户122之间的通信（包括但是不限于语音通信）的设备。根据进一步的实施例，通信端点108可以在客户用户110和联系中心104或其它组件或端点之间交换非语音数据。因此，通信端点108可以包括各种用户输出和用户输入设备或设施，包括但是不限于扬声器、麦克风、文本显示器、显示屏幕、视频照相机、键区、键盘、端口设备、以及触摸屏显示器。通信网络112可以包括互联网、局域网（LAN）、广域网（WAN）、公用交换电话网（PSTN）、无线网络、蜂窝电话网络、卫星电话网络、虚拟或云网络、远程或建筑物外网络、或以任何组合的多个网络。

联系中心104一般地包括通信服务器116。通信服务器116可以包括（或附接于）自动化联系（或呼叫）分配系统（ACD）服务器。通信服务器116是说明性地从Avaya公司中获得的基于通信管理器TM企业通信的ACD系统。通信服务器116被互连到多个代理工作站或端点120。例如，代理工作站120可以由企业网或网络128被连接到ACD服务器116。如示例，代理工作站120可以包括通用计算机、电话、薄客户端设备、或其它设备，可操作以将关联的代理120放置在与通信端点108的客户用户110的语音通信中。如进一步示例，代理工作站120可以包括自动化资源，诸如交互式话音响应（IVR）系统或服务器。根据另一个示例实施例，代理工作站120可以包括自动化资源，诸如虚拟助理（也称为虚拟代理或自动化聊天代理）。

通信服务器116一般地用于通过通信网络112将代理工作站120连接到通信设备或端点108，以允许代理用户122到服务客户110的联系。根据本公开的实施例，联系包括语音通信。例如，联系可以以语音电话通信的形式。在由本领域技术人员考虑本公开之后可以理解，通信服务器116可以维护用于组织和维护或保持等待由联系中心代理用户122处理的联系的一个或多个队列。例如，可以提供单个队列或多个队列以根据各种参数将联系分类。代理用户122、自动化话务员、或其它与代理工作站120相关联的或由其提供的资源被分配以向已基于可用性和/或加权因子被放置在一个或多个队列之内的联系提供服务。除了支持语音通信之外，工作站120可以包括以显示器形式的用户输出和以键区、键盘、触摸屏输入、指示设备、视频照相机等形式的用户输入。

此外，如这里描述的系统100的实施例可以包括一个或多个监督器或管理员设备124。监督器设备124一般地经由通信网络112和/或企业网128与通信服务器116通信。例如，如果监督器设备124在联系中心104的处所上，则与通信服务器116的通信可以在包括有线或无线网络的企业网128的一部分上。如另一个示例，监督器设备124可以通过通信网络112与通信服务器116通信，例如经由蜂窝电话数据网络、在企业网128外的有线或无线连接等。一般，监督器设备124包括允许监督器用户126监控通信设备108和联系中心104之间的通信、加入进行中的通信、发起通信、以及控制联系中心104的操作方面的功能。因此，监督器设备124可以包括任何设备，包括能够向监督器用户126呈现信息的移动设备。监督器设备124的示例包括但是不局限于电话、平板计算机、智能电话、膝上型计算机、桌上型计算机、上网本等。监督器可以使用一个或多个监督器设备124监控通信。

图2是描述根据本公开的实施例的通信服务器116的组件的方框图。通信服务器116包括能够运行程序指令的处理器204。处理器204可以包括任何通用的可编程处理器或用于运行应用程序的控制器。可替换地，处理器204可以包括专门配置的特定用途集成电路（ASIC）。处理器204一般作用以运行实现由通信服务器116执行的各种功能的编程代码。例如，处理器204可以实现包括但是不限于通过这里描述的监控应用132的运行监控进行中的或记录的音频流以寻找指定短语的功能。

通信服务器116另外包括存储器208。存储器208可被用于与通信服务器116的处理器204的编程的运行连接，并且用于数据和/或程序指令的临时或长期储存。根据本公开的实施例，监控应用132可以被存储在通信服务器116的存储器上208并与通信服务器116的存储器208连接运行。如进一步示例，存储器208可以存储用户简档数据220，以及记录的语音通信224。如还有其它示例，通信服务器116可以包括呼叫自动化分配（ACD）应用228、呼叫队列数据232、以及诸如聊天、共同浏览等等之类的一个或多个通信应用236。通信服务器116的存储器208可以包括本质上固有的、可移除的和/或远程的固态存储器，诸如DRAM和SDRAM。此外，存储器208可以包括不同类型的多个分立元件和/或多个逻辑分区。存储器208还可以包括或关联与通信服务器116结合或分离但是互连到通信服务器116的数据库或存储系统。根据还有其它实施例，存储器208包括非暂时计算机可读存储媒体。此类媒体可以使用许多形式，包括而不局限于非易失性媒体、易失性媒体、和传输媒体。非易失性媒体包括例如NVRAM、或磁盘或光盘。易失性媒体包括动态存储器，诸如主存储器。计算机可读媒体的普通形成包括例如软盘、软磁盘、硬盘、磁带、或任何其它磁性媒体、磁光盘媒体、CD-ROM、任何其它光学媒体、穿孔卡片、纸带、任何具有孔模式的其它物理媒体、RAM、PROM、以及EPROM、FLASH-EPROM、像存储卡一样的固态媒体、任何其它存储器芯片或盒式磁带、或任何计算机可以读取的其他媒体。

另外，可以提供用户输入设备212和用户输出设备216。相对于通信服务器116，此类设备212和216可被与联系中心104的监控与控制以及监督器用户126和/或代理用户122的关联通信结合使用。然而，监督器用户126或代理用户122典型地通过监督器设备124或代理工作站120与通信服务器116接口连接，其中监督器设备124或代理工作站120每个与一个或多个用户输入和一个或多个用户输出相关联。用户输入设备212的示例包括键盘、数词小键盘、触摸屏、麦克风、鼠标、摄像机、扫描器、和与屏幕或其它位置编码器相结合的定点设备。用户输出设备216的示例包括显示器、触摸屏显示器、扬声器、和打印机。通信服务器116一般地也包括通信接口240以将通信服务器116互连到网络112和/或128。

图3描述根据本公开的实施例的用户界面304。用户界面304可以由通信端点108、代理工作站120、和/或监督器设备124的用户输出设备（例如，显示器）提供或与其相关联。用户界面304可以通过或结合运行在通信服务器116上的监控器应用132的操作来生成，和/或结合作为通信端点108、代理工作站120、或监督器设备124的一部分提供的、诸如特别提供的应用和/或浏览器应用之类的的伴随应用来生成。因此，用户界面304一般地被呈现给客户用户110、代理用户122、和/或监督器用户126。而且，用户界面304可以是交互式的，因为它可以提供字段、按钮、菜单、或其它特征以使用户界面304能够从客户用户110、代理用户122、或监督器用户126接收输入，以及通过声频信号、或通过任何其它合适的方法向客户用户110、代理用户122、或监督器用户126图形地呈现信息。

用户界面304可以操作以向客户用户110、代理用户122、或监督器用户126在语音确认区域308中呈现关于是否已经发出指定短语的查询。在图中显示的示例查询中，在查询区域308中呈现问题312“你说了‘我可以怎样帮你’?”。这是可以响应于监控应用132监控到指定短语“我可以怎样帮你”向代理用户122呈现的查询312的示例。查询区域308另外可以包括输入按钮，包括是按钮316和否按钮320。因此，代理用户122可以通过点击是按钮确认指定短语被实际316发出。替换地，代理用户122可以通过点击否按钮320指示指定短语没有被发出。根据其它实施例，类似的查询312可以向客户用户110和/或监督器用户126呈现，如这里在别处更详细描述的。继续向代理用户122呈现的用户界面304的示例，还可以呈现激活的联系信息。此类激活的联系信息324可以包括客户用户110的姓名，以及其他对联系中心104可用的关于客户用户110的信息。另外，用户界面304可以呈现其它控制，例如典型地提供为软电话应用的一部分的控制、和允许访问其他诸如而不局限于电子邮件、文本消息、瞬时消息等等之类的通信应用236的控制。因此，用户界面304允许监控应用132收集来自通信的参加者或观察者的反馈，关于指定词或短语是否已被发出。一般，不管用户、代理人、监督器等等任何参加者可以被要求确认指定短语由其它参加者发出。

现在参考图4，描述用于监控音频流以寻找指定短语的方法的方面。一般地，在步骤404中，方法从提供监控应用132的步骤开始。这包括指定监控应用将侦听的一个或多个说出的短语。给定的短语可以由系统管理员或监督器用户126指定为文本串。如此处使用过的，短语可以包括单个词或多个词。在实际使用中，系统100被配置为对充当用于事件的触发器或否则是重要的指定短语进行监控。另外，音频流的监控常常期望与联系中心104的操作结合，尽管实施例可以在不同背景下适用。如示例，在音频流内指定短语的检测可用于识别监督器用户126何时干涉通信会话是所希望的，以保证代理用户122满足客户服务指南，或识别从客户用户110接收到的指令。

在步骤408处，监控音频流。如此处使用过的，音频流可以由运行监控模块的通信服务器116或作为客户用户110和与通信服务器116相关联的资源（诸如人代理用户122，或自动化代理）之间的语音电话会话的一部分的应用132接收。因此，音频流可以包括实时语音通信会话。根据其它实施例，音频流可以包括记录的音频流。

然后在步骤412中可以做出关于是否已经在监控的音频流内识别指定短语的确定。根据特定示例实施方式，至少在初始实例中，通过将表示从监控应用132的正文到语音设施中生成的指定短语的声音简档的文件与监控的音频流的声音简档相比较，来确定指定短语的发生。而且，概率地确定短语的识别。例如，如果监控应用132在一些最小程度的确定性的情况下推断短语被实际发出，则监控应用132可以确定短语被包括在监控的音频流中。直到指定短语已被识别，监控应用132可以继续监控音频流。

监控应用可以基于子字（sub-word）的隐含马尔可夫模型（HMM），其是一种平均多个短语以获得健壮模式来匹配的完善的方法。当已经识别指定短语时，可以在步骤416中构建新模型。稍后在利用关联的训练集合的方法中可以为每个词或短语建立另外的HMM（在步骤432中）。在步骤416中，响应于已经识别指定短语的确定，生成对确认指定短语实际包括在音频流中的请求。例如，监控应用可以操作以使得用户界面304显示对作为文本呈现给诸如包括客户或其它第三方的客户用户110、代理用户122、或监督器用户126之类的用户的验证的请求。通常，对验证的请求被发给提供其中监控应用132识别短语的音频流部分的用户。然而，在其它实施例中，除了提供其中识别短语的音频流部分的用户之外的人听众可以被询问以用于验证。

在步骤420处，做出关于音频流包括短语的确认是否已经从用户中接收到的确定。例如，当关于指定短语的发生的查询通过用户界面304被呈现给用户时，用户可以通过点击“是”按钮316确认短语的发声。如果没有接收到用户确认，则处理可以返回到步骤408，并且可以继续监控音频流。如果已经接收用户确认，则在步骤424中，可以存储包括短语的音频部分。

HMM可以与任何级别的语音表示对应：音素、词、短语，等等，并且可以被链接以构建较高级别的模型。可以构造动态算法以确定并记录从短语到对应HMM的框架的最优校准。可以利用各种方法训练HMM。例如，在步骤428中，规范的方法使用“最大似然率”来训练HMM，并且“区分性训练”在训练期间考虑闭合失配。在步骤432中，响应于接收到在监控的音频流中发出指定短语的确认，可以创建或更新用于提供短语的用户的简档。创建或更新用户简档可以包括存储包含短语的音频流的部分作为用户简档数据220。本领域技术人员在考虑本公开之后可以理解，音频流的部分可以被存储为可听信号的表示。例如，音频流部分可以被存储为.wav文件、mp3文件、或其它格式。此外，存储音频流部分可以包括解析以便将不同的短语、词、和/或音素相互分离。此外，作为创建或更新用户简档的一部分，音频文件可以被过滤或被处理。附加的HMM可以被创建并存储在库中。

在优选实施例中，包含短语的媒体流的片段或从媒体流的片段中提取的语音参数被存储并使用以辨认相同说话者的媒体流中或可替换地来源于其它说话者的媒体流中的短语。在这方面，媒体流的片段或关联的语音参数与指定系统试图辨认的短语的文本相结合。随着媒体流片段库或它的对应的参数增加，系统可以中断识别期望的短语的文本的使用并切换到利用特定媒体流片段或它的关联的参数。可以随时间由来源于多个用户的短语构建与每个短语相关联的库，其可以为可以带着不同口音说话的多种用户提供改善的短语辨认。

在步骤436处，可以做出关于是否应当继续监控应用132的操作的确定。如果操作不被继续，则处理可以结束。如果操作将要继续，则在步骤440中，可以应用创建或更新的用户简档数据220和/或更新的短语库/简档。处理然后可以返回到步骤408，并且音频流可以继续被监控，以改善短语识别准确度，因为继续的监控使用创建或更新的用户简档数据220和/或更新的短语库/简档。本领域技术人员在考虑本公开之后可以理解，可以在导致用于特定用户的用户简档数据220和/或更新的短语库/简档的创建或更新的通信会话的继续期间，应用用于特定用户的用户简档数据220和/或更新的短语库/简档。可替换地或此外，结合较早通信会话和/或更新的短语库/简档生成的用户简档数据220可以结合与相同用户或其它用户的较迟通信会话来应用。还根据其它实施例，结合更迟通信会话生成的用户简档数据220可以应用于较早、记录的通信会话。例如，当较迟通信会话参考对于其记录224是可用的较早通信会话时，在较迟通信会话期间从客户用户110中获得的短语的样本可以用于更准确地识别记录的通信会话、和/或其中发出短语的记录的通信会话的部分。

本公开的实施例提供系统和方法以改善词或短语辨认系统的准确度。虽然已经讨论了涉及结合联系中心的使用的各种示例，但是其它应用是可能的。例如，这里公开的系统和方法可以用于训练用于识别任何实时或记录的语音中的短语的任何系统。

为说明简单，存储（和利用）表示指定短语的媒体串片段的概念可以与存储与媒体流片段相关联的语音参数的概念互换地使用。

为了例示和描述已经呈现本发明的上述讨论。此外，描述不意指将本发明限定于这里公开的形式。因此，在相关领域的技术或认识之内，与上述教导相称的变化和修改在本发明的范围之内。进一步预期在上文描述的实施例说明实践本发明的目前已知的最佳方式并且使擅长本领域的其他技术人员能够在这样或在其它实施例中在由特定应用或本发明的利用所需的各种修改的情况下使用本发明。预期构建附加的权利要求书以在现有技术许可的范围内包括可替换实施例。

Claims

1.一种用于识别语音的方法，包括：

指定第一短语；

接收第一音频流，其中第一音频流由第一用户提供；

以至少第一概率确定第一短语包括在接收的第一音频流中；

从用户请求第一短语包括在接收的第一音频流中的验证；

响应于从用户接收到第一短语包括在第一音频流中的验证，存储第一音频流的包括第一短语的部分。

2.如权利要求1所述的方法，还包括：

接收第二音频流，其中第一和第二音频流由第一用户提供；

应用第一音频流的存储的部分以确定第一短语是否包括在接收的第二音频流中。

3.如权利要求2所述的方法，还包括：

指定第二短语；

以至少第一概率确定第二短语包括在第一和第二音频流中的一个中；

从第一用户请求第二短语包括在第一和第二音频流中的一个中的验证。

4.如权利要求3所述的方法，其中第一音频流是第一通信会话的一部分，其中第二音频流是第二通信会话的一部分，以及其中第一音频流是实时音频流或记录的音频流中的一个。

5.如权利要求1所述的方法，还包括：

指定第二短语；

接收第二音频流，其中第二音频流由第一用户提供；

应用第一音频流的存储的部分以确定第二短语是否包括在第二音频流中，其中第一短语是第一短语和第一词中的至少一个，其中第二短语是第二短语和第二词中的至少一个，以及其中应用包括在第一音频流的存储的部分中的至少第一音素以确定第二短语是否包括在第二音频流中。

6.如权利要求5所述的方法，还包括：

从第一用户请求第二短语包括在第二音频流中的验证；

响应于从用户接收到第一短语包括在第一音频流中的验证，存储第二音频流的包括第二短语的部分。

7.如权利要求1所述的方法，还包括：

从接收的音频流确定第一用户具有第一确定的语音特征；

将用于第一用户的第一语音识别库应用到从第一用户接收到的语音。

8.一种用于检测选择的语音的系统，该系统包括：

用于接收和存储指定第一短语的第一文本串的装置；

用于针对第一短语监控第一音频流的装置；

用于确定第一短语是否包括在第一音频流中的装置；

用于响应于确定第一短语包括在第一音频流中，从第一用户请求第一短语包括在第一音频流中的验证的装置；

用于响应于接收到第一短语包括在第一音频流中的验证，存储第一音频流的包括第一短语的部分的装置。

9.如权利要求8所述的系统，其中第一音频流从第一用户接收到，并且其中所述系统还包括：

用于接收并存储指定第二短语的第二文本串的装置；

用于针对第二短语监控第二音频流的装置；

用于确定第二短语是否包括在第二音频流中的装置，其中用于确定第二短语是否包括在第二音频流中的装置包括：用于将第一音频流的存储的部分应用到第二音频流的装置，其中第一音频流和第二音频流包括由第一用户提供的语音。

10.如权利要求9所述的系统，其中用于确定第一短语是否包括在第一音频流中的装置包括：用于将文本到语音设施应用到指定第一短语的文本串以获得用于第一短语的音频简档的装置，其中用于第一短语的音频简档与第一音频流相比较以确定第一短语是否包括在第一音频流中，其中第一音频流的存储的部分与第二音频流相比较以确定第二短语是否包括在第二音频流中。