CN102067208A

CN102067208A - 听写系统语音到文本转换用户性能的测量方法和系统

Info

Publication number: CN102067208A
Application number: CN200980123891.7A
Authority: CN
Inventors: 布赖恩·马奎特; 查尔斯·科菲尔德; 托德·埃斯皮
Original assignee: nVoq Inc
Current assignee: nVoq Inc
Priority date: 2008-04-23
Filing date: 2009-04-23
Publication date: 2011-05-18
Also published as: EP2279508A4; US8639512B2; US20090271192A1; WO2009132194A3; EP2279508B1; CA2722390A1; EP2279508A2; WO2009132194A2

Abstract

一种计算机实现的系统和方法，用于评估使用听写系统的用户的性能。该系统和方法包括接收由用户音频生成的文本或转录文件。基于该转录文件生成例如每分钟字数或错误数的性能量度。该性能量度被提供给管理员，使得该管理员能够评估使用该听写系统的用户的性能。

Description

听写系统语音到文本转换用户性能的测量方法和系统

根据35 U.S.C.§119的优先权声明

本申请要求于2008年4月23日提交的，标题为“Method and systems for measuring user performance with speech-to-text conversion for dictation systems”的美国第61/047,264号的临时申请的优先权，在此结合其公开内容作为参考。

根据35 U.S.C.§120的优先权声明

无。

对共同待审的专利申请的参考

无。

技术领域

本申请的技术一般涉及听写系统的语音到文本转换，尤其涉及提供用于测量用户性能(performance)的基线(base line)和量度(metric)的方法和系统。

背景技术

许多公司为客户提供了使用呼叫中心联系本公司的能力，以便当场回复客户的呼叫、纠正客户的问题，或为客户指派合理的资源来解决引起呼叫的问题。常规地，呼叫中心通过将呼叫从客户指引到可用的代理或代表进行操作。除电话呼叫装置以外，代理或代表通常还具有公司已授权或专门设计的便于帮助客户的客户关系管理屏。

现在参考图1，示出了在呼叫中心100内的系统的概念性表示。呼叫中心100包括语音技术设备和基于IP的技术设备，其中语音技术设备位于信令和音频路径中，并终止于代理的电话(或头戴式耳麦)，基于IP的技术设备支持CRM(也称为客户关系管理)应用程序，CRM应用程序的图形用户界面(GUI)在代理的诸如个人计算机或类似装置这样的处理器上运行。为支持这点，呼叫中心100包括自动呼叫分配(ACD)102，其具有与代理的电话106的音频连接104。ACD102还具有与交互语音应答(IVR)110的音频连接108。音频连接104和108可重叠、完全分离或合并到一起。IVR110具有与计算机电话界面(CTI)的数据连接112。CTI114典型地为ACD102提供呼叫控制116，和向代理的计算机120提供数据和应用程序控制118。因此，当客户使用电话122或者类似的装置通过诸如所示的公共交换电话网(PSTN)之类的常规网络124呼叫该呼叫中心时，向代理提供用来帮助呼叫者所必要的音频、数据和应用程序。

尽管图1标识出如图所示的通过常规的PSTN进行的客户呼叫，但来自客户的呼叫可从计算机或基于电缆的VoIP网络发起。例如当客户使用常规的陆上通信线或蜂窝电话时，该网络124可以是如图所示的常规PSTN网络。或者，网络124可以是计算网络，例如LAN、WAN、WLAN、WWAN、WiFi、因特网、以太网或其它私有区域网络。当网络124是计算网络时，来自客户的呼叫可从例如计算机电话的能够实现IP语音技术(VoIP)的设备发起。注意，可使用常规技术将VoIP电话转接到常规PSTN网络，此外例如，常规陆上通信线可被连接到使用软电话(soft phone)或媒体网关的计算机网络。

一旦与客户服务代表间的呼叫建立起来，并且CRM应用程序在代表的用户界面上运行，客户服务代表将请求客户的输入。这种输入可包括诸如客户名、地址、问题性质以及类似内容的信息。传统地，代表通过将信息键入各自的输入信息区来输入这种信息。在通话结束时，经常是客户服务代表填写CRM应用程序中的通常熟知为注释或通话结束的注释的信息区。这种信息区通常由代表来键入确认信息，例如对客户投诉或类似事件的处理。

虽然CRM应用程序和信息生成是有用的工具，但许多客户服务代表并非是高效率的打字员。而且，即使对于高效率打字员，已经被公认的是大多数人说话速度也大大快于他们的打字速度。因此，近来使用例如Nuance通信公司的Dragon Naturally Speaking听写系统进行听写，来代替将信息键入各种信息区已经成为一种趋势。

然而，使用听写系统作为工具来向CRM应用程序中的信息区添加信息，到目前为止是麻烦而不方便的。此外，很难提供量度，来衡量与基于打字的系统相对比基于听写的系统的性能。因此依据这种背景，需要提供一种听写系统的语音到文本转换的用户性能的测量方法和系统。

发明内容

一种测量使用转录机的用户性能的计算机实现的方法被提供。该方法包括接收转录文件，该转录文件包含由被评估的用户生成的音频文件的转录文本。该系统基于转录文件确定例如每分钟字数、每分钟错误数、每字错误、每分钟有效字数，或类似量度的至少一个性能量度。该性能量度可指示用户性能。该性能量度被发送给能够评估用户性能的管理员。

依照在此描述的一般原理，任意上述实施例的特征可彼此相结合地来使用。在结合附图和权利要求书阅读了下面的详细描述后，能更完整地理解这些以及其它的实施例、特征和优点。

在某些配置中，该方法和系统可被提供以相当的(comparative)性能量度。例如，可提供或生成相当的打字性能量度，以便与更多常规领域的打字系统相对比地来评估使用听写和转录系统的用户的性能。

还提供了被配置成获得关于听写系统的使用的性能信息的计算机系统。该系统包括处理器和与该处理器电子通信的存储器。该处理器被配置为接收由用户的音频文件生成的转录文件，并基于该转录文件确定至少一个听写性能量度，该至少一个听写性能量度指示了用户性能。该处理器被配置成将该至少一个听写性能量度发送给管理员，由此该管理员可评估用户的性能。

还提供了用于评估使用听写系统的用户的性能的计算机程序产品，该计算机程序产品包括其上具有指令的计算机可读媒介。该计算机编程产品由介质携带，并可加载到处理器。介质上的代码被编程为接收用户的由转录机从该用户的音频文件产生的转录文件。而且，介质上的代码被编程为从转录文件确定至少一个听写性能量度，该至少一个听写性能量度指示用户性能。介质上的代码被编程为将被确定的至少一个听写性能量度发送给管理员。由此该管理员可评估用户的性能。

附图说明

图1是呼叫中心系统的功能框图；

图2是与本申请的技术的示范性实施例一致的评估系统的功能性框图；

图3是与本申请的技术实施例相关联的示范性方法的示范性操作流程图；

图4是与本申请的技术的示范性实施例相关联的评估屏幕的示范性显示；

图5是与本申请的技术的示范性实施例相关联的评估屏幕的示范性显示；

图6是与本申请的技术的评估相关联的表格；

图7是与本申请的技术的实施例相关联的选项的示范性表格；

图8是与本申请的技术相关联的示范性数据表格。

具体实施方式

将参考客户呼叫中心应用程序来解释本申请的技术。该技术大体上被描述为将音频从用户引导向将音频转换为文本并返回转录(transcription)文本的远程服务器。本领域的普通技术人员在阅读了本公开内容后将能够认识到本申请的技术在其它环境中也是有用的。例如，代替由远程服务器提供转录，转录可被直接加载到用户处理器。此外，本申请的技术可用在不同于呼叫中心的环境中，以提供与听写系统有关的基线和公制计量(metric measurement)。而且，本申请的技术将参考示范性实施例来描述。在此使用措辞“示范性”来表示“用作示例、举例或说明”。此处描述为“示范性”的任意实施例不必被理解为优选或优于其它实施例。此外，除非明确指出，否则此处描述的所有实施例都应被认为是示范性的。

如上面所解释的，基于听写的语音到文本转换软件已经存在了一段时间。该听写可在本地处理器执行，以便为用户提供实时的或接近实时的口述转录(transcription)。或者，可将口述批量加载到中央处理器或服务器，而在稍后返回转录文本。听写系统可采用自由形式、语法语音识别机或模式匹配语音识别。在其它实施例中，语音到文本的转换可在实时或接近实时地工作的分布式听写系统中提供。一种这样的分布式听写系统在提交于2008年12月19日，标题为“distributed dictation/transcription system”的第12/339,336号美国待审专利申请中描述，在此结合该专利全部内容作为参考。

首先参考图2，提供了采用本申请的技术的评估系统200的功能框图。评估系统200包括例如微处理器、中央处理单元、台式机、服务器、笔记本电脑、掌上电脑或类似装置的处理器202。处理器202控制评估系统200的主要功能，该评估系统200包括在下文中描述的功能性操作。处理器202还处理操作评估系统200所需的各种输入和/或数据。存储器204与处理器202互连。存储器204可置于远处，或与处理器202协同定位。如同本文将要描述的，该存储器204还可存储对于评估系统200必需的或适宜的数据。如将要说明的，存储器204可包括生成基线和评估量度信息、关于任意特定文本或评估的结果、时间信息或将被解释的类似项目。评估系统200还包括可从例如客户服务代表的用户接收音频信息的音频接收接口206或端口。评估系统200还包括从用户接收数据或向用户发送数据的数据接口208或端口。

与处理器202互连的是语音到文本机210，其将从用户接收的音频信号转换成文本文件，该文本文件可被返回给用户，或作为评估部分进一步处理。语音到文本机210通常在本领域中是可理解的，在此不作进一步解释。语音到文本机210可从远程提供，可与处理器202集成或协同定位。

评估系统200还包括输出装置212，例如显示器、打印机、电子邮件生成器或类似的本领域中常规设备，用来输出评估系统200的结果。

现今许多企业和公司，在认识到听写提供的快捷和简单的同时，需要某些测量由听写的使用所带来的生产率的提高的实际器件(real means)。此外，一旦被安装，听写系统的有效性必须被测量出来，以除提供其他信息以外，还提供系统未充分执行时的指示。现在参考图3，提供了示范性流程图300，其示出了生成与基于听写的系统的使用有关的量度的示范性操作步骤。一种类型的性能量度与可生成信息的速度有关。如上所述，使用听写的一个优点是可增加每次登记的速度。然而，理解效率的提高将是有用的。因此，如图300所示，用户将发起一个测试，步骤302。接下来为该用户提供样本文本，步骤304。视情况可提供单个样本或多个可选样本。而且，在设计者的选择方面，可以允许最终用户提供自生成的或定制的样本。提供样本文本可包括从多个样本文本中选择一个的步骤。一旦被选中，该样本文本被显示给用户，步骤306。该显示可在用户界面、显示器或纸印本上提供。例如，参考图4，提供了样本显示窗口400。显示窗口400在样本区域404内示出了样本文本402。另一个区域406为空白。如将联系图3的剩余部分所描述的，当“开始”按钮408被激活或以类似的方式被激活时，区域406被启用来允许用户将文本键入该区域。

本技术可视情况包括打字部分。但是，另一方面，关于每分钟键入的字数、每分钟出现的错误或类似方面的信息可通过其他应用程序得到。因此，尽管描述了获得打字相关信息的处理时，在此，可从其它程序或应用程序输入打字信息，例如来自Mavis Beacon的应用程序可提供对比打字统计数据。但是，为了完备性，在此提供样本打字评估。当准备开始测试打字部分时，用户点击开始按钮来启用文本区域406，步骤308，并且开始键入样本文本，步骤310。点击开始基本同时初始化跟踪时间的计数器或时钟，步骤312。一旦完成键入样本文本，用户将点击结束按钮410，步骤314，或者类似按钮(可替换地，再次点击开始按钮)。这使得向区域406键入的能力被禁止并且停止了计数器或时钟，步骤316。确定从开始打字到结束打字的时间，步骤318，并且保存该时间，步骤320。注意，视情况，区域406的激活可简单地通过在该区域打字来完成，并且区域406的禁用可通过用户敲击例如返回、回车或类似键来完成。可选择地，处理器202可对照着样本文本检查在区域406中键入的文本以判定差错，步骤322。可替换地，步骤308到322可通过分离的应用程序获得，将结果输出应用程序或从应用程序输入结果。

用户开始语音测试。在这种情况下，如图5所示，事先选出的同样的样本文本可在区域402中被显示。但是，听写文本和打字文本不需要是相同的，但当打字和听写样本相同时可以进行更好的比较。准备好开始时，用户选择按下对话按钮508，步骤324，并且读出样本文本，步骤326。选择按下对话按钮508基本上同时启动了计数器或时钟，步骤330。一旦该段被读完，用户可按下断连按钮510，步骤332，听写完成。该听写系统可被设计成接受宏(macro)来增加每分钟的有效字数。例如，听写短句“we are unable to make the necessary over the air programming corrections until your phone is back on the AT&T network”可能是一个常用短句。系统可允许将宏编程为使得“phone out of network”的听写导致在听写中返回以上子句。因此，代替21个单词的听写，用户可以听写4个单词，这样将平均占用较少的时间来听写，有效地增加了听写的每分钟字数。具有宏或者不具有宏的音频文件，将被发送给处理器并转化成文本文件，步骤334，该文本文件被返回填入区域506，步骤336。用文本占用区域506将停止计数器或时钟，并且处理器202将判定从该段被读出到返回话语内容(speech)的时间，步骤338。而且，可选地，处理器202可通过将话语内容与样本文本进行比较来判断转录文本中的错误，步骤340。类似于打字信息，该处理器将听写统计数字与打字统计数字相比较可以从其它应用程序输入听写统计数字。

一旦打字和读出部分都被完成，和/或从分离的应用程序输入(即使所示的是键入和读出，该步骤顺序可颠倒)，处理器202将评估和提供许多的性能量度。一种样本的性能量度在图6中通过表格500示出。表格500标识测试运行的数量、测试平均长度、每分钟听写字数和每分钟打字字数。如所提到的，如果错误率是期望的，可针对错误调整每分钟的字数，或者错误可被提供为示出每字平均错误、每分钟错误或类似的独立量度。听写的每分钟字数或错误数以及打字的每分钟字数或错误可以是判定出的每分钟实际的或有效的字数或错误。此外，也可以期望或求出其它量度。

同时测试初始化(initiative)是有用的，如本领域公知的那样，许多听写系统可能需要对用户进行培训以便适当地与系统相交互。因此，允许管理员观看关于性能和培训的信息是有帮助的。例如，管理员可访问如图7所示的指示管理回顾处理，例如培训报告602、时间测试604、性能606和统计数字608的页面。管理员可具有附加功能，例如，更新样本或测试文本及类似文件的能力。如果管理员选择了培训报告602，如同所示出的，将为该管理员呈现备选的用户列表。这允许该管理员选出将调查的用户。或者，可在单个显示器上提供所有信息。该管理员将能够识别该用户是否已经执行了所要求的培训的全部、部分、未执行培训或执行了培训的某种组合。此外，培训文本和音频可存储下来，使得管理员能够对用户读出的在培训练习中呈现的文本进行快速的判定。

接下来，例如管理员可选择时间测试功能，用户列表或全部信息将再次呈现。管理员将能够识别，例如，完成了哪个时间测试，(协同对培训特征的检查)时间测试是在具有还是不具有适当的培训和性能的情况下执行的。各个结果(类似于以上那些结果)可由管理员相对于每个用户来监控。被监控的结果可包括如所期望地那样保存样本文本、打字文本、转录文本和音频，以便管理员能够通过音频、视频或通过音频、视频的某种组合来回顾各用户的性能。为了迅速做出如显示器700的表702所示的总结，可提供给管理员例如用户名、所执行样本测试、每分钟字数和每分钟听写的一般信息。表702的一般信息可配备到如显示器700的表704所示文本的特定结果的链接。表704的细节包括样本文本706、打字文本708、听写文本710以及到管理员在回顾时可听到的音频文件712的链接。

代替个体的用户，管理员可为所有用户提供以上的和其它的性能指示，或者为用户组选择性能组。

如同能够理解的，以上方法和系统提供了通过将针对个体或一组个体将基于打字的输入和口述输入进行对比来基于时间和每分钟字数测量性能的系统。该系统进一步通过跟踪个体用户输入和将该个体用户输入保存在系统中，建立了基线测量和性能评估量度。在所提供的例子中，用户最初使用键盘、鼠标、触摸屏、光笔或类似设备的传统输入法将信息输入系统。此外，用户使用语音到文本转录将信息输入。对技术设想的当前实现使用了基于web的用户界面，允许各个用户采用两种方法执行样本文本的定时输入。

此外，该系统可跟踪关于性能的其它量度。例如，该系统可跟踪例如音频转录平均持续时间、转录服务器平均等待时间、转录音频的平均时间、听写数量、取消数量、错误数量或类似的统计数据。

频繁地影响听写性能的一个特征是音频输出212的质量。在许多不良的执行情况下，可能是音频质量太响而导致了系统饱和或削波(clipping)，和/或音频质量太轻而导致话音被当作例如噪音而被抛弃。因此，本申请可提供一种添加到音频文件或链接到系统的音频质量指示器，使得管理员或用户可识别音频质量问题。该音频质量可以是在用户讲话时提供给用户的视频指示器，或是在用户可能说话太响或太轻时做出补偿的某些其它类型指示器。

本领域技术人员将能够理解，信息和信号可使用任意多种不同的技术和方法来表示。例如，在以上描述中所涉及的数据、指令、命令、信息、信号、比特、符号和码片均可通过电压、电流、电磁波、磁场或粒子、光学场或粒子或者其任意组合来表示。

本领域的普通技术人员还应当理解：与在此公开的实施方式有关的各种说明性的逻辑功能块、模块、电路和算法程序可以作为电子硬件、计算机软件或者其组合来实现。为了清楚地举例说明硬件和软件的这种互换性，通常根据其功能来描述各种说明性的组件、功能块、模块、电路和步骤。这种功能是以硬件还是软件来实现取决于对整个系统的特殊应用和设计约束。熟练技术人员可为每个特殊应用以变化的方式来实现所描述的功能，但是这种实现不应被解释成造成对本发明的范围的偏离。

与在此公开的实施方式有关的各种说明性的逻辑功能块、模块和电路可以利用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、离散的硬件组件、或者被设计成执行在此描述的各功能的任何组合来实现或者执行。通用处理器可以是微处理器，但是作为替换，处理器可以是任何传统的处理器、控制器、微型控制器或者状态机。处理器还可以作为计算装置的组合来实现，例如DSP和微处理器、多个微处理器、一个或多个微处理器同DSP核心、或者任何其他这种结构的组合。

与在此公开的实施方式有关的方法、程序或算法的步骤可以直接在硬件中、在由处理器执行的软件模块中，或者在这二者的组合中实现。软件模块可以存在于随机存取存储器(RAM)、闪速存储器、只读存储器(ROM)、电气可编程ROM(EPROM)、电气可擦除的可编程ROM(EEPROM)、寄存器、硬盘、移动磁盘、CD-ROM或者任何其他形式本领域所公知的存储介质中。示例性存储介质用这样的方式同处理器相耦合，使得处理器可以从存储介质中读取信息，也可以将信息写入到存储介质中。在替换方式中，存储介质可以被集成到处理器中。处理器和存储介质可以存在于ASIC中。在替换方式中，处理器和存储介质可以作为用户终端中的独立元件。

以上对所公开的实施方式的描述被提供来使本领域任何技术人员能够制造或使用本发明。对本领域的技术人员来说，对这些实施方式的各种修改是显而易见的，并且在不脱离本发明的精神或者范围的情况下可以将在此定义的原理应用于其他实施方式。因此，本发明并不受到在此显示的实施方式的限制，而是应当与符合在此公开的原理和新颖性特征的最宽范围相一致。

Claims

1.一种计算机实现的方法，用于测量使用转录机的用户性能，其包括：

接收由转录机从用户的音频文件生成的所述用户的转录文件；

从所述转录文件确定至少一个听写性能量度，所述至少一个听写性能量度指示所述用户的性能；并且

将确定出的至少一个听写性能量度发送给管理员，由此该管理员能够评估所述用户的性能。

2.如权利要求1所述的方法，其中所述听写性能量度包括确定每分钟被转录的字数。

3.如权利要求1所述的方法，其中所述每分钟被转录的字数包括每分钟的有效字数。

4.如权利要求2所述的方法，其中所述听写性能量度包括判定听写错误。

5.如权利要求1所述的方法，进一步包括获得用户的至少一个打字性能量度，并且将所述打字性能量度与所述听写性能量度作比较。

6.如权利要求2所述的方法，进一步包括获得所述用户的每分钟打字字数的性能量度，并将所述每分钟打字字数的性能量度与所述每分钟被转录字数的性能量度作比较。

7.如权利要求6所述的方法，其中所述打字性能量度还包括打字错误，并且所述听写性能量度还包括听写错误。

8.如权利要求1所述的方法，其中所述用户包括一组个人。

9.一种计算机实现的方法，用于测量使用转录机的用户性能，其包括：

接收用户生成的音频文件；

将所述音频文件转录成包含与所述音频相对应的文本的转录文件；

将所述转录文件发送给用户；

基于所述用户生成所述音频文件和将所述转录文件发送给所述用户所需的时间以及所述转录文件中的字数，来确定每分钟听写字数的性能量度；

获得相应的每分钟打字字数的性能量度；和

将所述每分钟听写字数的性能量度和所述每分钟打字字数的性能量度发送给管理员，其中所述管理员可评估听写和打字之间的用户性能。

10.如权利要求9所述的方法，其中所述每分钟听写字数的性能量度或所述每分钟打字字数的性能量度中的至少一个包括每分钟有效字数。

11.如权利要求9所述的方法，进一步包括确定听写错误和打字错误的性能量度。

12.如权利要求9所述的方法，其中所述每分钟打字字数从远程应用程序输入。

13.一种计算机系统，被配置成得出关于听写系统的使用的性能信息，其包括：

处理器；

存储器，与所述处理器进行电子通信；

所述处理器被配置成：

接收由用户的音频文件生成的转录文件；

基于所述转录文件确定至少一个听写性能量度；所述至少一个听写性能量度指示所述用户的性能；并且

将所述至少一个听写性能量度发送给管理员，由此所述管理员可评估所述用户的性能。

14.如权利要求13所述的计算机系统，其中所述处理器被进一步配置成获得所述用户的与所述至少一个听写性能量度相对应的至少一个打字性能量度，并且将所述至少一个打字性能量度发送给所述管理员。

15.如权利要求13所述的计算机系统，其中所述至少一个听写性能量度选自于一组听写性能量度，该组听写性能量度是：每分钟有效字数、每分钟实际字数或错误数。

16.如权利要求15所述的计算机系统，其中所述处理器被进一步配置成获得所述用户的与所述至少一个听写性能量度相对应的至少一个打字性能量度，并且将所述至少一个打字性能量度发送给所述管理员。

17.如权利要求14所述的计算机系统，其中所述处理器通过生成与所述至少一个听写性能量度相对应的至少一个打字性能量度来获得所述至少一个打字性能量度。

18.一种计算机系统，被配置成得出关于听写系统的使用的性能信息，包括：

处理器；

存储器，与所述处理器进行电子通信；

所述处理器包括：

用于接收从用户的音频文件生成的转录文件的装置；

用于基于所述转录文件确定至少一个听写性能量度的装置；所述至少一个听写性能量度指示所述用户的性能；以及

用于将所述至少一个听写性能量度发送给管理员，由此所述管理员可以评估所述用户的性能。

19.如权利要求18所述的计算机系统，其中所述处理器还包括用于获得所述用户的与所述至少一个听写性能量度相对应的至少一个打字性能量度和将所述至少一个打字性能量度发送给所述管理员的装置。

20.一种计算机程序产品，用于评估使用听写系统的用户的性能，所述计算机程序产品包括其上具有指令的计算机可读介质，该指令包括：

被编程为接收由转录机从所述用户的音频文件生成的用户的转录文件的代码；

被编程为从所述转录文件确定至少一个听写性能量度的代码，所述至少一个听写性能量度指示用户性能；以及

被编程为将所确定的至少一个听写性能量度发送给管理员的代码，由此所述管理员能够评估所述用户的性能。