CN105027196B

CN105027196B - 自动语音识别系统中的快速词汇表外搜索

Info

Publication number: CN105027196B
Application number: CN201380074067.3A
Authority: CN
Inventors: A·列夫-托夫; A·法伊扎科夫; Y·康尼格
Original assignee: Green Yi Deng Usa Holding Co Ltd
Current assignee: Green Yi Deng Usa Holding Co Ltd
Priority date: 2012-12-29
Filing date: 2013-12-24
Publication date: 2019-01-11
Anticipated expiration: 2033-12-24
Also published as: EP2939234A1; WO2014105912A1; US20170186422A1; EP2939234B1; CN105027196A; US20140188475A1; EP2939234A4; US9542936B2; US10290301B2

Abstract

本发明公开了一种自动语音识别系统中的快速词汇表外搜索的方法，包括以下步骤：在计算机系统上接收文本搜索查询，该查询包括一个或多个查询字；在计算机系统上为查询中的每一个查询字生成语音识别处理后的音频文件中的一个或多个锚字段，所述一个或多个锚字段识别包含查询字的可能位置；在计算机系统上后处理一个或多个锚字段，该后处理步骤包括：扩展所述一个或多个锚字段；将所述一个或多个锚字段分类；和合并所述一个或多个锚字段中重叠的总代吗；和使用约束语法对所述一个或多个查询字中的至少一个的实例在计算机系统上搜索后处理的一个或多个锚字段。

Description

自动语音识别系统中的快速词汇表外搜索

技术领域

本发明的多个方面涉及到语音处理、索引和搜索。更具体地，本发明的多个方面涉及在自动语音识别(ASR)系统(例如，大词汇量连续语音识别(LVCSR)系统或者类似的适当系统)中搜索包含至少一个词汇表外(OOV)字的短语。

背景技术

在很多情况下，大集合录制音频(音频信息)的用户很重视在音频中快速搜索字或短语的能力。例如，在企业联络中心(例如，呼叫中心)中，可以搜索并分析客户与客户服务代表(或代理)之间的记录谈话以识别客户满意度或客户问题的倾向、监督各种支持代理的性能以及定位与特定问题相关的呼叫。作为另一个示例，可搜索的讲课记录允许学生搜索并重放特定兴趣话题的讨论。可搜索的语音信箱消息也允许用户快速找到包含特定字的语音消息。另一个示例中，可搜索的复杂医疗程序(例如，外科手术)的记录可以用于定位涉及特定装置的使用、手术中方法的选择以及多种并发症的过程的记录。

通常，自动语音识别(ASR)系统，特别是大词汇量连续语音识别(LVCSR)转录引擎包括三个部分：一组语言模块(LM)、一组声学模块(AM)和解码器。LM和AM通常通过向学习模块提供音频文件及其录音文本(例如，已知的、准确的录音文本)进行训练。通常，LM为统计LM(SLM)。训练过程使用字典(或“词汇表”)，该字典将识别的书面语映射到子词序列(例如，因素或音节)。在语音识别过程中，解码器分析音频片段(例如，音频文件)并且输出识别的字序列。

可以通过使用LVCSR引擎处理每个音频文件来搜索音频文件集(例如，呼叫中心的呼叫或者课堂上的一系列演讲)以生成文本抄本文件，在该文本抄本文件中抄本中的每个写成的字(基本上)对应于音频文件中口述的字。该生成的文本接着可以被传统的基于文本的搜索引擎(例如，Apache Lucene^TM)编入索引。然后，用户可以查询该生成的索引(例如，搜索索引数据库)以搜索抄本。

通常，LVCSR引擎输出中的识别字是从ASR系统的字典(或“词汇表”)中包含的字中选择的(例如，压缩成所述字)。不在该词汇表中(“词汇表外”或“OOV”字)的字可能被识别为(例如，具有低可信度的)该词汇表中的字。例如，如果字“Amarillo”不在词汇表中，“LVCSR”引擎可能会在输出中将该字转录为“ambassador”。因此，当使用这种ASR系统时，终端用户都不可能从该索引中搜索到不在该词汇表中的任何情况的字。

解决该问题的一个方案是将OOV字添加到该词典(即，将该字添加到词汇表)，并且生成新LM(可以是SLM或者约束语法)，然后重新处理音频文件。然而，因为需要重新处理音频语料库，所以这种方法将会增加生成搜索结果的延迟。

在其它的ASR系统中，输出数据为子字水平识别数据，例如音频的语音抄本，而不是LVCSR输出或者基于近似字的抄本。这种ASR系统通常不包括字词汇表。相反，这些引擎提供了一种搜索任何字符序列的方法。这种情况下，通过将搜索短语映射到语音序列并且在语音抄本索引中搜索给定的语音序列执行搜索。通常认为这些引擎的准确性低于基于LVCSR的引擎，这是因为字的概念并不是识别过程所固有的，而使用字(例如，字的含义)通常有助于提高语音识别的准确性。

通常，自动语音识别的组合字和音素水平不能解决已知的基于语音的方法的准确度问题，对于包括至少一个OOV字的查询，单纯基于语音的方法的准确度限制仍然会持续。

发明内容

本发明实施例的多个方面涉及搜索口语语音内容给出的LVCSR输出的系统和方法，其中搜索查询包括至少一个OOV字。

本发明的一个实施例涉及在语音文件语料库中快速处理词汇表外(OOV)查询的语音文件检索的系统和方法，所述音频文件语料库由LVCSR(大词汇量连续语音识别)或类似系统进行分析。“OOV查询”是由用户提供一个或多个字的搜索短语，所述一个或多个字中的至少一个是OOV，其中这里所提到的词汇表(字典)是该系统已经在其上做过训练的独特的字的列表。给定查询和LVCSR索引结果，系统从查询中区分OOV和IV(词汇表内)字，为每个字生成锚(即，在搜索查询中，音频中查询字的位置)的列表。这些锚的位置在修改后的识别阶段中被重新处理以生成新的搜索事件。因为锚跨越整个语音文件的相对较小的部分(并且，因此，跨越语音语料库中的相对较小的部分)，因此该搜索相对于重新处理整个语音文件语料库的传统方法快很多。

在本发明的一个实施例中，语音文件检索系统被用在联络中心(例如，呼叫中心)的情形中。在这种情况中，客户向公司的联络中心发出呼叫，该联络中心对该呼叫进行记录。基于LVCSR的ASR系统处理该呼叫以生成输出抄本，并且为这些抄本编制索引。然后，诸如客户支持代理和监督者的用户可以在索引的抄本中检索特定的关键字，例如所遇到的问题的类型、地名、产品名、错误消息、错误代码等。

然而，本发明的实施例并不限于人与人之间的对话，而是可以应用于来自任何资源的任何语音语料库，例如医嘱、电视节目、播客、学术演讲、记录显示等等。

根据本发明的一个实施例，一种方法包括以下步骤：在计算机系统上接收文本搜索查询，该查询包括一个或多个查询字；在计算机系统上在多个语音查询处理的语音文件中为查询中的每个查询字生成一个或多个锚字段，该一个或多个锚字段识别包含所述查询字的可能位置；在该计算机系统上后处理一个或多个锚字段，该后处理包括：扩展所述一个或多个锚字段；对所述一个或多个锚字段分类；和合并所述一个或多个锚字段中的重叠字段；和在计算机系统上使用约束语法为上述一个或多个查询字中的至少一个的实例对一个或多个后处理的锚字段执行语音识别。

音频文件可以由语音识别引擎处理，并且上述为查询中的每一个查询字生成处理后的音频文件的一个或多个锚字段的步骤可以包括：判定该查询字是否在语音识别引擎的学习模型的词汇表中；当该查询字在该词汇表中时，识别与该查询字相对应的一个或多个高置信度锚字段；和当该查询字不在词汇表中时，生成该查询字的一个或多个子字的搜索列表并且识别包含所述一个或多个子字中的至少一个的一个或多个锚字段。

生成一个或多个锚字段的步骤可以进一步包括：收集语音文件中的低置信度字，该低置信度字具有低于阀值的字置信度，识别与每个子字相对应的一个或多个锚字段的步骤可以包括：当查询字不在词汇表中时，仅为该查询字的子字搜索低置信度字。

约束语法可以包括查询中的一个或多个词汇表外的查询字，其中词汇表外的查询字中的每一个都不在查询表中。

该搜索可以包括计算一个或多个事件置信级别，事件置信级别中的每一个对应于一个或多个锚字段中的锚字段包含所述查询的一个或多个查询字中的特定查询字的置信度。

该方法可以进一步包括从计算机系统中输出搜索结果，其中该结果包括音频文件中的按照事件置信级别分类的一个或多个查询字的实例。

该方法可以进一步包括：在计算机系统上，将效用函数应用到一个或多个锚字段中的每一个，以计算一个或多个相应的锚效用值；和在该计算机系统上根据一个或多个锚效用值给所述一个或多个锚字段分类。

搜索一个或多个后处理的锚字段的步骤可以仅搜索具有所述一个或多个锚效用值中的最佳锚效用值的一个或多个后处理锚字段。

扩展一个或多个锚字段的步骤可以包括：对于查询中的每个查询字：计算查询中查询字前面的第一字符数和查询字后面的第二字符数；将第一字符数乘以平均字符宽度以得到第一扩展数；和将第二字符数乘以平均字符宽度以得到第二扩展数；和对于每个锚字段进行下述处理，其中每个锚字段由锚字、开始时间和结束时间识别：开始时间减去第一扩展数和第一常量扩展宽度；和将结束时间加上第二扩展数和第二常量扩展宽度。

根据本发明的另一个实施例，一种系统包括计算机系统，所述计算机系统包括处理器、存储器和储存装置，该系统被配置为：接收文本搜索查询，该查询包括一个或多个查询字；为该查询中的每个查询字生成多个语音识别处理的音频文件中的一个或多个锚字段，该一个或多个锚字段识别包含查询字的可能位置；后处理该一个或多个锚字段，该后处理过程包括：扩展该一个或多个锚字段；对一个或多个锚字段分类；和合并该一个或多个锚字段中的重叠字段；和，使用约束语法为上述一个或多个查询字中的至少一个的实例对一个或多个后处理锚字段执行语音识别。

该系统还可以进一步被配置为使用语音识别引擎处理音频文件，其中该系统可以进一步被配置成为该查询中的每个查询字生成被处理的音频文件的一个或多个锚字段，该生成过程通过以下处理来实现：判定该查询字是否在语音识别引擎的学习模型的词汇表中；若该查询字在词汇表中，识别对应于该查询字的一个或多个高置信度锚字段；和，当该查询字不在词汇表中，生成查询字的一个或多个子字的搜索列表并且识别对应于一个或多个子字中的每一个的一个或多个锚字段。

该系统可以进一步被配置为收集音频文件中的低置信度字，该低置信度字具有低于阀值的字置信度，并且其中识别对应于每个子字的一个或多个锚字段的步骤可以包括当查询字不在词汇表内时仅为该查询字的子字搜索低置信度字。

约束语法可以包括查询的一个或多个词汇表外查询字，其中该词汇表外查询字中的每一个都不在词汇表中。

该系统可以进一步被配置为通过计算一个或多个事件置信等级来搜索一个或多个后处理锚字段，事件置信等级中的每一个对应于一个或多个锚字段的锚字段包含所述查询中的一个或多个查询字中的特定查询字的置信度。

该系统可以进一步被配置为搜索结果，其中该结果包括音频文件中的按照事件置信等级分类的查询字的实例。

该系统可以进一步被配置为：将效用函数应用于一个或多个锚字段中的每一个，以计算一个或多个相应的锚效用值；和根据该一个或多个效用值对该一个或多个锚字段分类。

该系统可以被配置为仅通过搜索具有一个或多个锚效用值中的最佳锚效用值的一个或多个锚字段来搜索一个或多个后处理锚字段。

该系统可以进一步被配置为扩展所述一个或多个锚字段，所述扩展通过以下处理实现：对于该查询中的每个查询字：计算查询中查询字前面的第一字符数和查询字后面的第二字符数；将该第一字符数乘以平均字符宽度以得到第一扩展数；和将第二字符数乘以平均字符宽度以得到第二扩展数；和，对于每个锚字段进行以下处理，其中每个锚字段由锚字、开始时间和结束时间识别：从开始时间中减去第一扩展数和第一常量扩展宽度；和将第二扩展数和第二常量扩展宽度加到结束时间。

根据本发明的另一个实施例，一种系统包括：用于接收文本搜索查询的装置，该查询包括一个或多个查询字；用于为查询中的每个查询字生成在多个语音识别处理的音频文件中识别可能位置的一个或多个锚字段的装置，该识别可能位置的一个或多个锚字段包含查询字；用于后处理一个或多个锚字段的装置，包括：用于扩展一个或多个锚字段的装置；用于为一个或多个锚字段分类的装置；和用于将一个或多个锚字段中的重叠字段合并的装置；和，用于使用约束语法为一个或多个查询字中的至少一个的实例搜索后处理的一个或多个锚字段的装置。

附图说明

附图与说明书一起说明了本发明的示例性实施例，并且结合上述描述说明本发明的原理。在附图中：

图1是根据本发明一个示例性实施例的支持被配置为向客户服务代理提供可搜索抄本的访问的联络中心的系统的示意框图；

图2是根据本发明一个实施例的用于搜索音频文件集的用户界面的屏幕截图；

图3是根据本发明另一个实施例的用于搜索音频文件集的用户界面的屏幕截图；

图4是根据本发明实施例的请求准许执行词汇表外搜索的用户界面的屏幕截图；

图5是根据本发明的一个实施例的用于搜索音频文件集和显示结果集的用户界面的屏幕截图；

图6是显示根据本发明一个实施例的用于集成语音分析服务器与联络中心呼叫处理系统的逻辑连接的示意框图；

图7是显示根据本发明一个实施例的用于集成语音分析服务器与联络中心呼叫处理系统的逻辑连接的更详细的示意框图；

图8是显示根据本发明一个实施例的用于集成语音分析服务器与联络中心呼叫处理系统的逻辑连接的更详细的示意框图；

图9是显示根据本发明一个实施例的用于集成语音分析服务器与联络中心呼叫处理系统的逻辑连接的更详细的示意框图；

图10是显示根据本发明一个实施例的处理搜索查询的方法的流程图；

图11是显示根据本发明一个实施例的为搜索查询中的字生成锚字段的方法的流程图；

图12是显示根据本发明一个实施例的扩展锚字段的边界的方法的示意图；以及

图13是显示根据本发明一个实施例的扩展锚字段的边界的方法的流程图。

具体实施方式

在下面的详细描述中，通过说明仅示出并描述了本发明的特定示例性实施例。正如本领域技术人员所能理解的，本发明可以呈现为多种不同的形式而不应该限于这里所呈现的实施例。整个说明书中，相同的附图标记表示相同的元件。

如本文所述，本发明的多种应用和方面可以以软件、固件、硬件及其组合实现。当实现为软件时，该软件可以在通用计算装置上运行，例如服务器、台式计算机、平板电脑、智能手机或者个人数字助理。这种通用计算机包括通用处理器和存储器。

本发明的一些实施例将以联络中心为背景进行说明。然而，本发明的实施例并不限于此而是还可以在其它涉及搜索记录的音频的条件下使用，例如基于计算机的教育系统、语音消息系统、医疗转录或者从任意资源获得的任意语音语料库。

图1是根据本发明一个示例性实施例的支持被配置为向客户服务代理提供客户可用性信息的联络中心102的系统的示意性框图。联络中心102可以是公司或企业内部设施，以执行与该企业的可用产品和服务相关的销售和服务的功能的方式服务于该企业。另一方面，联络中心102可以是第三方服务供应商。联络中心102可以被托管在专用于该企业或者第三方服务供应商的设备中，和/或托管在远程计算环境中，例如具有用于支持多个企业的多个联络中心的基础设施的私人或公共云环境。

根据一个示例性实施例，联络中心102包括通过电话或其它通信机构能够传送服务的资源(例如，人员、计算机和通信设备)。这种服务可以根据联络中心的类型变化，而且可以是客户服务帮助台、紧急响应、电话营销、订单接受以及类似服务。

希望从联络中心102接收服务的客户、潜在客户或者其他终端用户(统称为客户)可以通过他们的终端用户装置10a-10c(统称为10)向联络中心102发起入站呼叫。每个终端用户装置10都可以是本领域传统的通信装置，例如电话、无线电话、智能电话、个人计算机、电子平板和/或类似装置。操作终端用户装置10的用户可以发起、管理并响应电话呼叫、电子邮件、聊天、文本消息、网页浏览会话和其它多媒体业务。

根据正在使用的装置类型，终端用户装置10发出和接收的入站和出站呼叫可以遍历电话、蜂窝系统和/或数据通信网络14。例如，通信网络14可以包括私人或公共交换电话网络(PATN)、局域网(LAN)、专用广域网(WAN)和/或公共广域网，例如因特网。通信网络14还可以包括包含码分多址(CDMA)网络的无线载波网、全球移动通信系统(GSM)网和/或本领域常规的任何3G或4G网络。

根据一个示例性实施例，联络中心102包括连接到通信网络14的交换/媒体网关12，用于接收并传送终端用户与联络中心102之间的呼叫。交换/媒体网关12可以包括配置为用作中心内代理级别路由的中心交换机的电话交换机。就此而言，交换机12可以包括自动呼叫分配器、专用交换分机(PBX)、基于IP的软件交换机和/或配置为接收来源于因特网的呼叫和/或来源于电话网络的呼叫的任意其它交换机。根据本发明的一个示例性实施例，该交换机连接到呼叫服务器18，该呼叫服务器18可以例如作为所述交换机与联络中心102的路由、监测和其它呼叫控制系统的其余部分之间的适配器或接口。

联络中心102还可以包括多媒体/社交媒体服务器，用于执行与终端用户装置10和/或网络服务器32的除语音交互之外的媒体交互。该媒体交互可以与例如电子邮件、语音邮件(通过电子邮件发送的语音邮件)、聊天、视频、文本消息、网页、社交媒体、屏幕共享及类似交互相关。网络服务器32可以包括例如用于多种已知社交网站的社交网站主机，终端用户通过社交网站主机可以订阅例如脸书、微博及类似社交网站。网站服务器还可以向联络中心102支持的企业提供网页。终端用户可以浏览该网页并获得与该企业的产品和服务相关的信息。该网页还可以提供通过例如网页聊天、语音呼叫、电子邮件、网络实时通信(WebRTC)及类似方式与联络中心102联系的机制。

根据本发明的一个示例性实施例，交换机连接到交互式语音应答(IVR)服务器34。IVR服务器34例如被配置有用于根据客户的需求询问客户的IVR脚本。例如，如果呼叫者希望知道账户余额，银行联络中心可以通过IVR脚本告诉呼叫者“按1”。如果是这种情况，通过与IVR持续的交互，客户可以完成该服务而不需要与代理对话。

如果该呼叫被路由至代理，则该呼叫被传送至呼叫服务器18，呼叫服务器18与路由服务器20交互以找到合适的代理来处理该呼叫。呼叫服务器18可以配置为处理PSTN呼叫、VoIP呼叫及类似呼叫。例如，呼叫服务器18可以包括用于处理SIP呼叫的会话发起协议(SIP)服务器。

在一个示例中，从代理正在被定位直到该代理变得可用时，呼叫服务器可以将该呼叫放置在例如呼叫队列中。该呼叫队列可以通过本领域常规的任意数据结构(例如，链表、阵列和/或类似数据结构)实现。该数据结构可以保持在例如呼叫服务器18提供的缓冲存储器中。

一旦合适的代理可以用来处理呼叫，该呼叫被从呼叫队列中移除并转发至相应的代理装置38a-38c(统称为38)。收集的关于呼叫者的信息和/或呼叫者的历史信息也可以提供到该代理装置，以辅助代理更好地服务该呼叫。就此而言，每个代理装置38可以包括适用于普通电话呼叫、VoIP呼叫和类似呼叫的电话。代理装置38还可以包括计算机，所述计算机用于与联络中心102的一个或多个服务器通信并执行与联络中心操作相关联的数据处理，并且用于通过多种通信机制，例如聊天、即时消息传递、语音呼叫和类似机制与客户相连接。

选择路由入站呼叫的适当代理可以根据例如路由服务器20使用的路由策略，进一步地可以根据与代理能力、技能及其它由例如统计服务器22提供的路由参数相关的信息。

多媒体/社交媒体服务器24还可以被配置为向终端用户提供用于下载到终端用户装置10上的移动应用程序。该移动应用程序可以向用户提供可配置的设置，所述设置指示例如用户是可用、不可用还是可用性未知，以便于联络中心代理联系。多媒体/社交媒体服务器24可以监测状态设置，并且每当状态信息变化时发送更新到聚合模块。

联络中心102还可以包括报告服务器28，报告服务器28被配置为从统计服务器22聚合的数据生成报告。这些报告可以包括近实时报告或者有关资源状况的历史报告，例如平均等待时间、放弃率、代理占用及类似信息。该报告可以自动生成或者响应于来自请求者(例如，代理/管理员、联络中心应用程序和/或类似请求者)的特定请求生成。

根据本发明的一个示例性实施例，路由服务器20被增强以用于管理分配到代理的后台/离线活动的功能。这些活动可以包括例如回复电子邮件、回复信件、参加培训研讨会或者任何其它不需要与客户实时通信的活动。一旦分配给代理，活动可以被推送到该代理或者可以作为要由该代理完成的任务显示在该代理的工作框26a-26c(统称为26)中。代理的工作框可以用本领域常用的任何数据结构实现，例如链表、阵列和/或类似数据结构。工作框可以保持在例如每个代理装置38的缓冲存储器中。

根据本发明的一个示例性实施例，联络中心102还包括一个或多个大容量存储装置30，所述大容量存储装置用于存储与代理数据(例如，代理配置文件、日程安排等)、客户数据(例如，客户配置文件)、交互数据(例如，每个客户交互的细节，包括交互原因、配置数据、保持时间、处理时间，等等)及类似数据相关的不同的数据库。根据一个实施例，一些数据(例如，客户配置文件数据)可以由第三方数据库提供，例如第三方客户关系管理(CRM)数据库。该大容量存储装置可以采用本领域常用的硬盘或者磁盘阵列的形式。

根据本发明的一个实施例，联络中心102还包括用于记录通过联络中心102管理的呼叫的音频的呼叫记录服务器40、用于存储所记录的音频的呼叫记录存储服务器42、配置为处理并分析从联络中心102收集的音频的语音分析服务器44以及用于提供所分析的音频的索引的语音索引数据库46。

图1的多种服务器中的每一个可以包括一个或多个处理器，所述处理器执行计算机程序指令并且与其他系统部件进行交互以执行在此所描述的各种功能。该计算机程序指令存储在存储器中，该存储器使用标准存储装置实现，例如随机存取存储器(RAM)。该计算机程序指令还可以存储在其它非易失性计算机可读介质中，例如CD-ROM、闪存驱动器或类似介质。另外，尽管每个服务器的功能被描述为由特定的服务器提供，但是本领域技术人员应当理解，在不背离本发明实施例的保护范围的条件下，各种服务器的功能可以结合或集成到单个服务器中，或者特定服务器的功能可以分配给一个或多个其它服务器。

参照图2，搜索窗格110包括用于提供一个或多个关键字以便搜索的搜索查询输入框112和用于发动搜索的“搜索”按钮114。该搜索窗格110还可以包括其它参数以根据元数据，例如数据范围、类型、主题和其它针对用户界面所操作的特定环境的元数据，进行进一步的精确搜索。例如，在搜索记录在呼叫中心内的呼叫记录的情况中，该搜索窗格还可以允许根据代理标识符和呼叫特性(例如，呼叫长度、一天中的时间、呼叫部门、呼叫者位置，等等)进行搜索。输入一组参数后，用户可以点击“搜索”按钮114以将请求发送到语音分析服务器44，语音分析服务器44通过搜索语音索引数据库46来处理该请求。

图2中所示的用户界面还包括结果窗格120，所述结果窗格显示符合搜索窗格110中的搜索标准的音频记录122的列表。该结果窗格可以包括“文本”列124，所述“文本”列显示符合在搜索窗格110的搜索查询输入框112中输入的文本搜索查询的音频的部分抄本的一部分。

参照图3，根据一个实施例，还可以设置快速搜索输入框130以搜索语音索引数据库46。

图4是根据一个实施例的对话框的屏幕截图，其中因为查询包括一个或多个词汇表外项目，因此该对话框提示用户选择是否执行词汇表外搜索。

图5是根据一个实施例的搜索界面的屏幕截图，其中该搜索界面显示了符合搜索短语的多个音频记录。

图6是显示根据本发明一个实施例的用于集成语音分析服务器与联络中心呼叫处理系统的逻辑连接的示意框图。还参照图1，通过呼叫服务器(例如，SIP服务器)16处理的呼叫被呼叫记录服务器40所记录，呼叫记录服务器40将该呼叫存储在呼叫记录存储服务器42中。在本发明的多个实施例中，呼叫记录存储服务器42可以是本地磁盘、专用文件服务器或者基于云的数据存储服务器(例如，S3)。使用呼叫记录服务器记录的呼叫还可以由语音分析服务器44处理。呼叫记录服务器40可以为可以根据例如IETF RFC 6341中所述的系统、或者由例如SIP服务器提供的系统来操作的会话发起协议(SIP)记录服务器。

参照图7，根据一个实施例，所记录的呼叫信息是由媒体服务器24直接提供到语音分析服务器44。为了提供更高质量的分析，在语音分析服务器44中实现的语音分析引擎通常从呼叫中接收音频而未做进一步编码(例如，未做进一步压缩)。在本实施例中，媒体服务器24创建音频数据的两个副本：1)第一个副本被存储在呼叫记录存储服务器42中以用于重放和存档的目的。音频数据的该副本应当进行压缩以节约存储空间，从而可以在多种不同环境中读取。例如，音频可以以MPEG-音频层3(MP3)格式存储，使得任何HTML 5浏览器都可以重放该音频而不需要其它插件。2)音频的第二个副本(非压缩或无损压缩)可以被发送到语音分析服务器44，不执行任何转码，例如，如果需要文件存储位置则以诸如WAV音频文件格式的脉冲编码调制(PCM)格式存储。第二个副本可以安全地发送到语音分析服务器44而不需要对源文件进行加密，然而，存储在磁盘的第一个副本可能需要依照公共秘钥基础设施(PKI)加密以符合支付卡行业数据安全标准(PCI-DSS)的要求。媒体服务器24也可以向语音分析服务器44提供与呼叫相关的额外元数据。

在本发明的其它实施例中，媒体服务器24仅将所记录的音频存储到呼叫记录存储服务器42中而不将第二副本直接发送到语音分析服务器。

当语音分析服务器44接收到该音频数据时，所述语音分析服务器将对音频数据执行语音分析(例如，生成抄本和/或LVCSR输出)并为该结果生成索引。语音分析服务器将与呼叫记录相关的元数据和索引存储在语音索引数据库46中，并且用户可以使用搜索用户界面(例如，参见图2)在语音索引数据库46中搜索和/或查询音频。当请求重放特定的记录时，(例如，通过呼叫记录API)从呼叫记录存储服务器42中检索被请求的音频。

参照图8，根据本发明的另一个实施例，除了呼叫记录存储服务器42以外，呼叫记录部件可以设计为可由上述部署携带。例如，呼叫记录存储服务器42可以直接将记录的呼叫存储在云(例如，S3)中，或者使用本地基于文件的呼叫记录托管之前的呼叫记录。

在具有上述部署用于呼叫记录的一些实施例中，用于访问呼叫记录的用户界面为例如如图2所示的搜索用户界面。在其它实施例中，用于处理呼叫记录和分析的用户界面被集成为整体呼叫管理用户界面的一部分。

参照图9，根据本发明的另一个实施例，语音分析集成的云部署类似于具有严格呼叫记录控制的前述部署。当语音分析服务器44接收到用于执行语音分析的呼叫记录时，由语音分析服务器44写入的音频文件被加密，同时仅有语音分析服务器44知道私钥。

当音频分析服务器44接收到新的音频片段时，语音分析服务器执行音频数据的标准LVCSR分析。该数据的LVCSR分析产生LVCSR文本输出，该LVCSR文本输出同时包括音频的抄本和文本输出中每个字的置信级。为简单起见，LVCSR输出通常被表示为一组4元组：字、开始时间、结束时间和字置信度：LVCSR＝{(w_j,s_j,e_j,c_j}。LVCSR系统的词汇表中的字通常被识别为具有高置信度，对应于OOV字的说出的字被错误地识别为与词汇表中与其最接近的匹配字，并且通常具有低的字置信度。

LVCSR引擎的词汇表是出现在抄本文件中的用于训练与其相关联的语言模型的一组独特的字。该词汇表是最大的理论字组，所述理论字组可以由LVCSR引擎使用它的相关语言模型识别。该词汇表可以在这里表示为V_LM。在实践中，不是所有V_LM中的字都会在LVCSR输出中出现，这是因为在其它原因中，它们中的大部分具有较低的先验概率，因为真正的口语词汇不像LM的词汇那么大，或者因为识别质量不高。

在一个实施例中，使用LVCSR输出词汇V_LVCSR，而不在其中的字被作为OOV处理。那么，

LVCSR输出被存储在语音索引数据库46中，语音索引数据库46中的字的索引也随着LVCSR输出而更新。字的索引包括到音频文件的参考(例如，URI)，所述音频文件包含具有指示音频文件中字开始的时间的时间戳的被识别的字(例如，该索引可以从字w_j映射到一个或多个音频文件{(音频_URI_k，时间戳_k)})。

在使用LVCSR引擎索引的音频文件集合中搜索字w通常意味着要找到以字w为第一个元素的所有4元组。然而，OOV字不能由LVCSR引擎正确地识别，而且因为这些字不在索引中所以也不会在搜索中找到。

根据本发明实施例的多个方面，由具有相关联的开始时间、结束时间和字置信度的一组字构成的LVCSR文本输出用于在要再处理的音频中找到OOV字的可能位置，以确定这些位置是否包含所搜索的OOV字。换句话说，本发明的实施例中生成一组锚字段用于在其中进行搜索。

图10是显示根据本发明一个实施例的处理搜索查询的方法的流程图。在步骤210中，系统从用户(例如，参见图2)接收查询Q作为搜索短语。该查询Q可以包括词汇表中的一些字(IV字)和不在词汇表中的字(OOV字)。

在步骤220中，为查询Q中的字生成成组的锚字段(A)，其中每个锚字段识别出音频文件集合中的与该查询中的字相对应的位置。根据本发明一个实施例的生成锚字段的方法将在下文中参照图11做更详细的描述。

参照图11，给定接收到的查询Q和LVCSR文本输出(之前当音频被开始处理时生成的)，该系统为查询Q中的每一个字生成锚字段(A)。该组锚在步骤222中被初始化为空集然后，在步骤224中，对查询Q中的每个字w_i，在步骤226中，在LVCSR词汇表(或词典)V_LVCSR中查询字w_i以确定w_i是OOV字还是IV字。在步骤228中，如果w_i是IV字，则搜索LVCSR文本输出找到足够确定的匹配项，例如，高于给定字置信度阀值。该字的位置依照开始和结束时间被保存为锚A_IV，其中A_IV是一组锚{a_j}，每个锚a_j为包括字w_i、开始时间s_j和结束时间e_j的3元组(a_j＝(w_i,s_j,e_j)，所以A_IV＝{(w_i,s_j,e_j)})。

如果w_i为OOV字，在步骤230中生成字w_i的子字单元列表。该子字单元可以是例如语素、音节、音素或者音素的序列。步骤234中，在LVCSR输出文本中搜索w_i的每一个子字以生成一组词汇表外锚A_OOV。在一些实施例中，在步骤232中，对LVCSR输出文本的搜索仅限于具有低置信度(例如，字置信度低于给定阀值或者在两个给定阀值之间)的字。

在一个实施例中，搜索LVCSR文本输出是在预处理索引上执行的，例如空闲文本索引。IV字可以在字级别索引上搜索，OOV字可以在子字级别索引上搜索。不失一般性地，在一个实施例中，子字索引是LVCSR文本输出的音素抄本的索引。在另一个实施例中，如果子字为单字字符(例如，而不是音素)，则OOV字可以在相同的字级别自由文本索引中搜索。

例如，如果要搜索的OOV字是“Honda”并且子字索引是LVCSR文本输出的音素抄本索引，那么将在音素抄本中搜索“Honda”的音素(/h/Q/n/，/Q/n/d/，/n/d/@)。

另一方面，如果子字索引是字级别自由文本索引，那么可以在该自由文本索引中搜索字符串“hon”、“ond”和“nda”。

在步骤236中，所有找到的位置(A_OOV或者A_IV)都被添加到锚A的列表中(A←A∪A_OOV∪A_IV)。

然后在步骤238中检查查询Q以确定是否存在更多的查询字w_i待处理。如果有，该过程返回到步骤224以使用下一个字w_i重复该过程。如果所有的字都已经处理过，则锚A的累积集合在步骤239中返回。

锚字段的后处理

再次参照图10，生成一组锚字段A后，锚字段在步骤240中进行后处理以扩展锚字段，在步骤260中对锚字段进行分类，并且在步骤270中合并重叠的锚字段。步骤240中对锚字段的扩展步骤将参照图12和13做更详细的描述。该列表中的每个锚代表音频中的一个小字段。因为锚字段通常为单个字或子字的长度，所以所述小字段通常非常小以至于难以包含整个短语(例如，搜索查询的整个搜索短语)。因此，在音频字段上运行音频识别之前扩展每个音频字段。

因此，每个锚字段的左边和右边(开始和结束)的边界a_j＝(w_j,s_j,e_j)被扩展，以便提高锚字段包含完整待搜索短语的可能性。为了计算左边(开始时间)的扩展，将查询中在该锚的字之前的字符数L_i乘以语言的平均口语字符宽度μ(例如，字典中字的平均字符宽度)。在特定实施例中，计算呼叫者的平均字符宽度，或者另一个最佳的已知值可以被计算或者从存储器中查询。然后将常量const_l添加到动态计算的扩展值。

同样地，右边的扩展的计算是通过将到锚的右侧的字符数R_i乘以μ并且添加常量const_r。在一些实施例中，const_l＝const_r。

简单来说，对于每个锚字段a_j＝(w_j,s_j,e_j)，s_j与e_j的值被扩展，使得扩展字段为(w_j,s_j-(L_i×μ)-c_l,e_j+(char_r,i×μ)+c_r),其中c_r和c_l分别为右边和左边的常量。

参照图13，步骤242中，对查询Q中的每个字w_i,在步骤244中计算w_i的左侧和右侧的字符数(L_i和R_i)。步骤246中，字符数L_i和R_i中的每一个乘以平均字符宽度μ(例如根据所有音频数据的分析或基于当前发音者的数据样本进行计算)以得到扩展数量exp_l,i和exp_r,i，在步骤248中，该扩展数量进一步通过常量值const_l和const_r扩展。在步骤250中，检查查询Q以判定是否还有其它的字w_i要处理。如果判定为有，则对剩余字重复步骤244、246和248的过程。如果判定为没有，则该过程进行到步骤252。

步骤252中，对于锚A的每个锚a_j(其中，a_j＝(w_j,s_j,e_j))，开始时间s_j在步骤254中通过相对于w_j的左侧扩展数exp_l,j变换(减少)，结束时间e_j在步骤256中通过相对于w_j的右侧扩展数exp_r,j变换(增加)，使得扩展后的锚a_j的形式为(w_j,s_j-exp_l,j,e_j+exp_r,j)。步骤258中，检查一组锚A以判定是否还有更多的锚a_j等待进行后处理。如果判定为有，则对剩余的锚重复步骤254和256的过程。如果判定为没有，则扩展后的锚被返回到步骤259。

再次参照图10，扩展后的锚A存储为步骤260中的新的开始时间，并且在步骤270中合并重叠的锚(即，具有新的开始时间的锚开始于前一个锚的新的结束时间)。

音频的再处理

在步骤280中，对于上述一组扩展后的锚A中的每个锚字段a_j，在锚字段上音频识别以产生搜索事件。该识别处理可以使用例如美国专利7,487,094“System and method ofcall classification with context modeling based on composite words”中描述的识别技术。可选地，该处理可以由可以判定一个或多个查询字是否在音频中的锚的位置被提到的其它合适的短语识别技术完成。上述方法可以扩展为通过在音频中单独或同时(例如，同步)搜索每个项而完成对多个项执行识别功能。

该识别过程使用字或短语(例如，查询Q中的搜索项)与音频字段(例如，锚字段)，返回表示所提供的音频字段包含所提供的字或短语的置信度的事件置信等级。这样，搜索扩展后的锚A中的每个锚字段以判定这些字段是否包含查询Q中的字或短语。同样地，因为例如在音频集的缩减部分中搜索包括查询字的缩减组的字(称为“约束语法”)(例如，仅搜索先前锚字段)，因此搜索时间能够缩短。参看美国第7,487,094号专利“System andmethod of call classification with context modeling based on compositewords”，了解有关约束语法的其它详细信息。

然后为每个事件(例如，每个可能的匹配项)计算事件置信度，具有高于特定阀值的事件置信度的事件被认为是命中点(即，包含所搜索的查询项的音频中的位置)，这些搜索结果在步骤290中返回。显示搜索结果时，搜索结果可以按照它们的事件置信度进行分类，具有最高相似度的匹配项首先显示。

图10、11、12和13中的上述过程可以说明如下：

1.A←φ

2.对于查询中的每一个字w

A.如果w∈V_LVCSR,则从LVCSR中收集具有高字置信度(字置信度高于预定阀值)的字，生成一组锚A_IV＝{(w_i,s_i,e_i)}

B.如果则从LVCSR中收集具有低字置信度(字置信度在两个预定阀值之间)的字：

·通过采用w的子字创建搜索列表

·从LVCSR索引中的列表中搜索每个项，生成一组锚A_OOV

C.A_w←A_IV∪A_OOV

D.A←A∪A_w

3.对每个锚，a_i＝(w_i,s_i,e_i),扩展其两侧的边界：

A.在查询Q中找到字w_i的相对位置，从该字的每一侧计算字符数。将它们分别记为L_i和R_i。

B.s_i←s_i-(L_i*μ+const_l),e_i←e_i+(R_i×μ+const_r),其中μ是平均字符宽度。

4.根据开始时间对所述锚进行分类并且合并重叠的锚。

5.对于所述锚中的每一个锚字段

A.使用约束语法搜索所述字段。

多次移动搜索窗直到超出搜索范围。

B.为所述事件计算事件置信度并与阀值进行比较。

在本发明的一个实施例中，该系统可以接受仅包含词汇表内(IV)字的短语作为搜索查询。在这种情况下，该搜索的最终识别精度相对于典型的基于LVCSR索引的搜索将可以得到改善。

在本发明的另一个实施例中，所得到的锚组按照效用函数分类，以便从效用更高的锚开始搜索。通过仅搜索分类表的前k个锚，该搜索可以用于为搜索提供时间约束。

本发明的实施例可以实现为方法或系统。计算机装置或系统包括例如微处理器、存储器、网络通信装置和可用于以自动或半自动方式执行上述过程的大容量存储装置。换言之，上述过程可以编码为可由计算机执行的代码并且由该计算机装置或系统处理。

还应当从上述说明中了解到，本文中所描述的各种结构和功能可以被结合到多种设备中。在一些实施例中，诸如处理器、控制器和/或逻辑的硬件部件可以用于实现所述的部件或电路。在一些实施例中，在一个或多个处理装置上执行的诸如软件或固件的代码可以用于实现一个或多个所述的操作或部件。

尽管结合多个示例性实施例对本发明进行了描述，但是应当理解本发明并不限于上述公开的实施例，相反，本发明意在覆盖多种修改和包括在所附权利要求的精神和范围内的等效结构以及等效形式。

Claims

1.一种用于语音处理的方法，包括以下步骤：

在计算机系统上接收文本搜索查询，所述查询包括一个或多个查询字；

在通过语音识别引擎经由语音识别处理的多个音频文件中为所述查询中的每一个查询字在所述计算机系统上生成一个或多个锚字段，所述一个或多个锚字段在所述音频文件中识别包含所述查询字的可能位置；

在所述计算机系统上对所述一个或多个锚字段进行后处理，所述后处理步骤包括：

扩展所述一个或多个锚字段；

对扩展的所述一个或多个锚字段进行分类；和

合并分类并扩展的所述一个或多个锚字段中的重叠字段；

从所述一个或多个查询字构建约束语法，所述约束语法包括不包含在所述语音识别引擎的词汇中的至少一个字；

使用所述约束语法在所述计算机系统上在后处理的所述一个或多个锚字段上执行语音识别以搜索所述一个或多个查询字中的至少一个；和

返回包括具有所述一个或多个查询字的多个锚字段的多个搜索结果。

2.根据权利要求1所述的方法，其中，所述音频文件由语音识别引擎处理，并且

其中，为所述查询中的每一个查询字生成所述处理后的音频文件的所述一个或多个锚字段的步骤包括：

判定所述查询字是否在所述语音识别引擎的词汇表中；

当所述查询字在所述词汇表中时，识别与所述查询字相对应的一个或多个高置信度锚字段；和

当所述查询字不在所述词汇表中时，生成所述查询字的一个或多个子字的搜索列表，并且识别包含所述一个或多个子字中的至少一个的一个或多个锚字段。

3.根据权利要求2所述的方法，其中，所述生成所述一个或多个锚字段的步骤进一步包括：收集所述音频文件中的低置信度字，所述低置信度字具有低于阀值的字置信度，和

其中，所述识别与所述子字中的每一个相对应的所述一个或多个锚字段的步骤包括：当所述查询字不在所述词汇表中时，仅为所述查询字的所述子字搜索所述低置信度字。

4.根据权利要求2所述的方法，其中，所述约束语法包括所述查询的一个或多个词汇表外的查询字，其中，所述词汇表外的查询字中的每一个均不在所述词汇表内。

5.根据权利要求1所述的方法，其中，所述搜索步骤包括计算一个或多个事件置信等级，所述事件置信等级中的每一个对应于所述一个或多个锚字段中的锚字段包含所述查询的所述一个或多个查询字中的特定查询字的置信度。

6.根据权利要求5所述的方法，进一步包括：

从所述计算机系统输出所述搜索的结果，其中所述结果包括所述音频文件中的按照事件置信等级分类的所述一个或多个查询字的实例。

7.根据权利要求1所述的方法，进一步包括：

在所述计算机系统上对所述一个或多个锚字段中的每一个应用效用函数以计算一个或多个对应的锚效用值；和

在所述计算机系统上根据所述一个或多个锚效用值对所述一个或多个锚字段进行分类。

8.根据权利要求7所述的方法，其中，所述搜索所述一个或多个后处理锚字段的步骤仅搜索具有所述一个或多个锚效用值中的最佳锚效用值的一个或多个锚字段。

9.根据权利要求1所述的方法，其中，所述扩展所述一个或多个锚字段的步骤包括：

对所述查询中的每一个查询字：

计算所述查询中所述查询字前面的第一字符数和所述查询字后面的第二字符数；

将所述第一字符数乘以平均字符宽度以得到第一扩展数；和

将所述第二字符数乘以所述平均字符宽度以得到第二扩展数；和

对每个锚字段进行下述处理，其中每个锚字段通过锚字、开始时间和结束时间来识别：

从所述开始时间中减去所述第一扩展数和第一常量扩展宽度；和

将所述第二扩展数和第二常量扩展宽度加到所述结束时间。

10.一种包括计算机系统的系统，所述计算机系统包括处理器、存储器和储存装置，所述系统被配置为：

接收文本搜索查询，所述查询包括一个或多个查询字；

在通过语音识别引擎经由语音识别处理多个音频文件中为所述查询中的每一个查询字生成一个或多个锚字段，所述一个或多个锚字段在所述音频文件中识别包含所述查询字的可能位置；

后处理所述一个或多个锚字段，所述后处理步骤包括：

扩展所述一个或多个锚字段；

将扩展的所述一个或多个锚字段分类；和

合并分类并扩展的所述一个或多个锚字段中的重叠字段；

使用所述约束语法在后处理的所述一个或多个锚字段执行语音识别以搜索所述一个或多个查询字中的至少一个；和

11.根据权利要求10所述的系统，其中，所述系统被配置为使用语音识别引擎处理所述音频文件，并且

其中，所述系统进一步被配置成为所述查询中的每一个查询字生成所述处理后的音频文件的所述一个或多个锚字段，所述生成过程通过以下处理来实现：

判定所述查询字是否在所述语音识别引擎的学习模型的词汇表中；

当所述查询字不在所述词汇表中时，生成所述查询字的一个或多个子字的搜索列表并识别与所述一个或多个子字中的每一个相对应的一个或多个锚字段。

12.根据权利要求11所述的系统，其中，所述系统进一步被配置为收集所述音频文件中的低置信度字，所述低置信度字具有低于阀值的字置信度，并且

其中，所述识别与所述子字中每一个相对应的所述一个或多个锚字段的步骤包括：当所述查询字不在所述词汇表中时，仅为所述查询字的子字搜索所述低置信度字。

13.根据权利要求11所述的系统，其中，所述约束语法包括所述查询的一个或多个词汇表外的查询字，其中，所述词汇表外的查询字中的每一个均不在所述词汇表内。

14.根据权利要求10所述的系统，其中，所述系统进一步被配置为通过计算一个或多个事件置信度等级搜索所述一个或多个后处理的锚字段，所述事件置信等级中的每一个对应于所述一个或多个锚字段的锚字段包含所述查询中的所述一个或多个查询字中的特定查询字的置信度。

15.根据权利要求14所述的系统，其中，所述系统进一步被配置为输出所述搜索的结果，其中所述结果包括所述音频文件中的按照事件置信等级分类的所述查询字的实例。

16.根据权利要求10所述的系统，其中，所述系统进一步被配置为：

对所述一个或多个锚字段应用效用函数以计算一个或多个对应的锚效用值；和

根据所述一个或多个锚效用值对所述一个或多个锚字段分类。

17.根据权利要求16所述的系统，其中，所述系统被配置为通过仅搜索具有所述一个或多个锚效用值中的最佳锚效用值的一个或多个锚字段来搜索所述一个或多个后处理的锚字段。

18.根据权利要求10所述的系统，其中，所述系统进一步被配置为扩展所述一个或多个锚字段，所述扩展通过以下处理来实现：

对所述查询中的每一个查询字：

计算所述查询中所述查询字前的第一字符数和所述查询字后的第二字符数；

将所述第一字符数乘以平均字符宽度以得到第一扩展数；和

从所述开始时间内减去所述第一扩展数和第一常量扩展宽度；和

将所述第二扩展数和第二常量扩展宽度加到所述结束时间。

19.一种用于语音处理的系统，包括：

用于接收文本搜索查询的装置，所述查询包括一个或多个查询字；

用于为所述查询中的每一个查询字生成识别通过语音识别引擎经由语音识别处理的多个音频文件中的可能位置的一个或多个锚字段的装置，所述一个或多个锚字段在所述音频文件中识别包含所述查询字的可能位置；

用于后处理所述一个或多个锚字段的装置，包括：

用于扩展所述一个或多个锚字段的装置；

用于对扩展的所述一个或多个锚字段进行分类的装置；和

用于合并分类并扩展的所述一个或多个锚字段中的重叠字段的装置；

用于从所述一个或多个查询字构建约束语法的装置，所述约束语法包括不包含在所述语音识别引擎中的词汇的至少一个字；

用于使用所述约束语法为所述一个或多个查询字中的至少一个搜索后处理的所述一个或多个锚字段的装置；和

用于返回包括具有所述一个或多个查询字的多个锚字段的多个搜索结果的装置。