CN102067209B

CN102067209B - 简化听写式语音文本系统的转录的复制粘贴的方法和系统

Info

Publication number: CN102067209B
Application number: CN200980123892.1A
Authority: CN
Inventors: 布赖恩·马奎特; 查尔斯·科菲尔德; 托德·埃斯皮
Original assignee: nVoq Inc
Current assignee: nVoq Inc
Priority date: 2008-04-23
Filing date: 2009-04-23
Publication date: 2014-06-25
Anticipated expiration: 2029-04-23
Also published as: US9058817B1; EP2277170A4; WO2009132197A3; WO2009132197A2; CN102067209A; EP2277170A2; US8639505B2; US20090271191A1; CA2722318A1

Abstract

描述了一种计算机实现的方法，用于简化将转录文本从转录机粘贴到应用程序的操作。将音频文件发给转录机。从转录机接收音频文件的转录文本文件。将该转录文本文件自动下载到复制缓冲区中。将该转录文本文件从复制缓冲区中粘贴到应用程序。

Description

简化听写式语音文本系统的转录的复制粘贴的方法和系统

根据35U.S.C.§119的优先权声明

本申请根据35 U.S.C.119(e)要求于2008年4月23日提交的，标题为“METHOD AND SYSTEM FOR SIMPLIFYING COPYING AND PASTINGTRANSCRIPTIONS GENERATED FROM A DICTATION BASEDSPEECH-TO-TEXT SYSTEM”的美国第61/047,249号的临时申请的优先权。

根据35 U.S.C.§120的优先权声明

无。

对共同待审的专利申请的参考

无。

技术领域

本申请的技术大体上涉及听写系统的语音到文本转换，更具体而言，涉及简化基于听写的语音到文本系统生成的转换文本的复制和粘贴的方法和系统。

背景技术

许多公司为客户提供了使用呼叫中心联系本公司的能力，以便当场回复客户的呼叫、纠正客户的问题，或为客户指派合理的资源来解决引起呼叫的问题。常规地，呼叫中心通过将呼叫从客户指引到可用的代理或代表进行操作。除电话呼叫装置以外，代理或代表通常还具有公司已授权或专门设计的便于帮助客户的客户关系管理屏。

现在参考图1，示出了在呼叫中心100内的系统的概念性表示。呼叫中心100包括语音技术设备和基于IP的技术设备，其中语音技术设备位于信令和音频路径中，并终止于代理的电话(或头戴式耳麦)，基于IP的技术设备支持CRM(也称为客户关系管理)应用程序，CRM应用程序的图形用户界面(GUI)在代理的诸如个人计算机或类似装置这样的处理器上运行。为支持这点，呼叫中心100包括ACD(也称为自动呼叫分配)102，其具有与代理的电话106的音频连接104。ACD102还具有与IVR(也称为交互语音应答)110的音频连接108。音频连接104和108可重叠、完全分离或合并到一起。IVR110具有与CTI(也称为计算机电话界面)的数据连接112。CTI114典型地为ACD102提供呼叫控制116，和为代理的计算机120提供数据和应用程序控制118。因此，当客户使用电话122或者类似的装置通过诸如所示的PSTN(也称为公共交换电话网)之类的常规网络124呼叫该呼叫中心时，向代理提供用来帮助呼叫者所必要的音频、数据和应用程序。

尽管图1标识出如图所示的通过常规的PSTN进行的客户呼叫，但来自客户的呼叫可从计算机或基于电缆的VoIP(也称为IP语音技术)网络发起。例如当客户使用常规的陆上通信线或蜂窝电话时，该网络124可以是如图所示的常规PSTN网络。或者，网络124可以是计算网络，例如LAN、WAN、WLAN、WWAN、WiFi、因特网、以太网或其它私有区域网络。当网络124是计算网络时，来自客户的呼叫可从例如计算机电话的能够实现VoIP的设备发起。注意，可使用常规技术将VoIP电话转接到常规PSTN网络，此外例如，常规陆上通信线可被连接到使用软电话(soft phone)或媒体网关的计算机网络。

一旦与客户服务代表间的呼叫建立起来，并且CRM应用程序在代表的用户界面上运行，客户服务代表将请求客户的输入。这种输入可包括诸如客户名、地址、问题性质以及类似内容的信息。传统地，代表通过将信息键入各自的输入信息区来输入这种信息。在通话结束时，经常是客户服务代表填写CRM应用程序中的通常熟知为注释或通话结束的信息区。这种信息区通常由代表来键入确认信息，例如对客户投诉或类似事件的处理。

虽然CRM应用程序和信息生成是有用的工具，但许多客户服务代表并非是高效率的打字员。而且，即使对于高效率打字员，已经被公认的是大多数人说话速度也大大快于他们的打字速度。因此，近来使用例如Nuance通信公司的Dragon Naturally Speaking听写系统进行听写，来代替将信息键入各种信息区已经成为一种趋势。

然而，使用听写系统作为工具来向CRM应用程序中的信息区添加信息，到目前为止是麻烦而不方便的。因此依据这种背景，需提供一种用于复制和粘贴基于听写的语音到文本系统的转录文本的简化的方法和系统。

发明内容

描述了一种计算机实现的方法，用于简化将转录文本从转录机粘贴到应用程序的过程。将音频文件发送给转录机，从转录机接收音频文件的转录文本文件。该转录文本文件被自动载入复制缓冲器。将该转录文本文件从复制缓冲器粘贴到应用程序。

根据本文描述的通用原理，任意的上述实施例的特征可彼此相结合地来使用。在结合附图和权利要求书阅读了以下详细描述后，将能更充分地理解这些以及其它的实施例、特征和优点。

在一个实施例中，复制缓冲区可以是剪贴板复制缓冲区。转录机可以是基于听写的语音到文本系统。可以将转录文本文件从复制缓冲区粘贴到应用程序的特定数据区域。

在一个实施例中，可以无需从用户接收输入命令，就自动地将转录文本文件下载到复制缓冲区。当转录文本文件被自动下载到复制缓冲区时，可向用户提供通知。这个通知可以是视频指示。在一个实施例中，该通知可以是音频指示。

在一种配置中，可以无需用户访问包含转录文本文件的文档生成应用程序，就自动地将转录文本文件下载到复制缓冲区。在一个实施例中，上述方法可以通过在呼叫中心环境中运行的计算机系统实现。

还描述了被配置为简化将转录文本从转录机粘贴到应用程序的操作的计算机系统。该计算机系统包括处理器和与该处理器电子通信的存储器。该处理器可被配置为将音频文件发送给转录机，并从该转录机接收音频文件的转录文本文件。处理器还可以被配置成将转录文本文件自动下载到复制缓冲区，并且将转录文本文件从复制缓冲区粘贴到应用程序中。

还描述了用于简化将转录文本从转录机粘贴到应用程序的操作的计算机程序产品。该计算机程序产品可包括其上具有指令的计算机可读介质。该指令可包括被编程为发送音频文件到转录机的代码，以及编程为从转录机接收音频文件的转录文本文件的代码。该指令还可包括被编程为将转录文本文件自动下载到复制缓冲区的代码，以及被编程为将转录文本文件从复制缓冲区粘贴到应用程序的代码。

附图说明

图1是呼叫中心系统的功能框图；

图2是根据本申请的技术的示范性实施例构造的转录机的功能框图；

图3是根据本申请的技术的示范性实施例构造的用户站的功能框图；

图4是说明了与本申请的技术相关联的操作步骤的示范性流程图。

具体实施方式

现在将参考客户呼叫中心应用程序来描述本申请的技术。该技术大体上被描述为将音频从用户引导向将音频转换为文本并返回转录(transcription)文本的远程服务器。此外，本申请的技术使用了例如来自Microsoft公司的WINDOWS的常规操作系统来解释。本领域的普通技术人员在阅读了本公开内容后将能够认识到本申请的技术在其它环境和其他操作系统中也是有用的。其它操作系统包括，例如Linux、Mac OS X、Solaris，被提出但不限于这些常规的操作系统。而且，虽然描述了提供转录的远程服务器，该转录也可能被直接加载到用户处理器。此外，本申请的技术可用于与呼叫中心不同的环境中，来提供对转录结果的简化的复制和粘贴。而且，本申请的技术将参考示范性实施例来描述。在此使用措辞“示范性”来表示“用作示例、举例或说明”。此处描述为“示范性”的任意实施例不必被理解为优选或优于其它实施例。此外，除非明确指出，否则此处描述的所有实施例都应被认为是示范性的。

如上面所解释的，基于听写的语音到文本转换软件已经存在了一段时间。该听写可在本地处理器执行，以便为用户提供实时的或接近实时的口述转录(transcription)。或者，可将口述批量加载到中央处理器或服务器，在那里稍后返回转录文本。听写系统可采用自由形式、语法语音识别机或模式匹配语音识别。

首先参考图2，提供了适合本申请的技术的转录机200的功能性框图。转录机200包括了例如微处理器、中央处理单元、台式电脑、服务器、笔记本电脑、掌上电脑或者类似装置的处理器202。处理器202控制包括在本文以下描述的功能性操作的转录机200的主要功能。处理器202还处理对转录机200进行操作可能需要的各种输入和/或数据。存储器204与处理器202互连。存储器204可置于远处，或与处理器202协同定位。如同本文将要描述的，该存储器204还可存储对于转录机200的操作必需的或适宜的数据。转录机200还包括能够从用户，例如客户服务代表接收音频信息的音频接收接口206或端口。转录机200还包括从用户接收数据和向用户发送数据的数据接口208或端口。

与处理器202互连的是语音到文本机210，其将从用户接收的音频信号转换成文本文件，该文本文件可被返回给用户，或作为评估部分进一步处理。语音到文本机210通常在本领域中是可理解的，在此不作进一步解释。语音到文本机210可从远程提供，可与处理器202集成或协同定位。

转录机200还包括本领域中常规的输出装置212，例如显示器、打印机、电子邮件生成器或类似装置。

可以理解的是，来自用户的音频信号在转录机200的端口206处被接收。该音频信号可以信息流方式(streamed)或批量地下载到转录机。处理器202可从存储器204获得用户简档(user profile)以促进转录。用户简档在本领域通常被理解为包含关于特定用户的信息，以针对特定用户训练识别机。这种训练可解释用户的特定语音。语音识别机210使用例如用户简档来处理音频，将音频信号转换成文本。处理器202将导致转录机通过数据端口208将文本文件输出给用户。

现在参考图3，提供了用户站300。用户站300包括例如微处理器、中央处理单元、台式计算机、服务器、笔记本电脑、掌上电脑或类似的处理器302。处理器302控制包括以下所述功能性操作的用户站300的主要功能。处理器302还处理操作用户站300可能需要的各种输入和/或数据。存储器304与处理器302互连。存储器304可置于远处，或与处理器302协同定位。如同本文将要描述的，该存储器304还可存储对于用户站300的操作必需的或适宜的数据。用户站300可包括向转录机200发送音频文件的音频端口306，以及在转录机200和用户站300之间发送和接收数据的数据端口208。如同本领域公知的，用户站300可包括将用户关系管理数据库屏幕显示给客户服务代理的显示器310。

在操作中，用户站300将经由音频端口306使用常规方法记录并发送(批处理或信息流式地)由转录机200转录的音频文件。转录机200将经由数据端口208返回转录的文本文件。应用程序312接收文本文件，并将该文本文件直接输入到与用户站300的操作系统相关联的复制缓冲区314。例如，文本结果由应用程序312接收，并且应用程序312将文本直接输入到用于基于Windows的计算系统的“剪贴板”复制缓冲区。可以使用粘贴键或命令将返回的文本直接粘贴到显示器310的区域中，例如通话结束的注释区域，而不必首先复制返回的文本文件。在基于Windows的计算系统的例子中，用户简单地敲击ctrl+v来粘贴文本。可以通过显示器310中的例如突然出现的气球或者气泡的视频指示，或者通过例如单音(类似于例如有多少电子邮件或文本消息系统指示出现新消息)的音频指示，来通知用户该结果可以被用于复制。这通过消除了对切换到记事本或文档生成应用程序(例如Microsoft公司的Microsoft Word)的需要，消除了对手动地从记事本或文档将信息复制到剪贴板的需要；并消除了对切换回将转录粘贴到的应用程序的需要，从而减少了复制和粘贴从听写系统返回的常规文本的总时间。而是，用户不离开应用程序，只简单地选择粘贴命令，文本就被直接粘贴到该应用程序

图4提供了说明执行本申请的技术可能的操作步骤的示范性流程图400。首先，转录文本文件被从转录机200返回给用户站300，步骤402。接下来，文本文件被直接载入到与操作系统相关联的复制缓冲区，步骤404。例如，文本文件被直接载入到MS Windows机器的剪贴板。或者，文本文件可被正在运行的应用程序(例如应用程序312)接收，该应用程序将文本输入到复制缓冲区。向用户提供文本文件被载入到复制缓冲区的指示，步骤406。用户无需离开当前运行的应用程序，就将文本文件从复制缓冲区直接下载到正在运行的应用程序的可用区域，步骤408。该系统为下一次转录做好准备。不尝试将文本文件直接载入应用程序，而代之以将文本文件载入复制缓冲区，使得系统应用程序独立，而且本系统可实质上与能够在发生有限改变或没发生改变的操作系统平台上执行的任意应用程序交互，只要该应用程序接受来自复制缓冲区的信息。

本领域技术人员将能够理解，信息和信号可使用任意多种不同的技术和方法来表示。例如，在以上描述中所涉及的数据、指令、命令、信息、信号、比特、符号和码片均可通过电压、电流、电磁波、磁场或粒子、光学场或粒子或者其任意组合来表示。

本领域的技术人员还应当理解：与在此公开的实施方式有关的各种说明性的逻辑功能块、模块、电路和算法步骤可以作为电子硬件、计算机软件或者其组合来实现。为了清楚地举例说明硬件和软件的这种互换性，通常根据其功能来描述各种说明性的组件、功能块、模块、电路和步骤。这种功能是以硬件还是软件来实现取决于对整个系统的特殊应用和设计约束。熟练技术人员可为每个特殊应用以变化的方式来实现所描述的功能，但是这种实现不应被解释成造成对本发明的范围的偏离。

与在此公开的实施方式有关的各种说明性的逻辑功能块、模块和电路可以利用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、离散的硬件组件、或者被设计成执行在此描述的各功能的任何组合来实现或者执行。通用处理器可以是微处理器，但是作为替换，处理器可以是任何传统的处理器、控制器、微型控制器或者状态机。处理器还可以作为计算装置的组合来实现，例如DSP和微处理器、多个微处理器、一个或多个微处理器同DSP核心、或者任何其他这种结构的组合。

与在此公开的实施方式有关的方法或算法的步骤可以直接在硬件中、在由处理器执行的软件模块中，或者在这二者的组合中实现。软件模块可以存在于随机存取存储器(RAM)、闪速存储器、只读存储器(ROM)、电气可编程ROM(EPROM)、电气可擦除的可编程ROM(EEPROM)、寄存器、硬盘、移动磁盘、CD-ROM或者任何其他形式本领域所公知的存储介质中。示例性存储介质用这样的方式同处理器相耦合，使得处理器可以从存储介质中读取信息，也可以将信息写入到存储介质中。在替换方式中，存储介质可以被集成到处理器中。处理器和存储介质可以存在于ASIC中。在替换方式中，处理器和存储介质可以作为用户终端中的独立元件。

以上对所公开的实施方式的描述被提供来使本领域任何技术人员能够制造或使用本发明。对本领域的技术人员来说，对这些实施方式的各种修改是显而易见的，并且在不脱离本发明的精神或者范围的情况下可以将在此定义的原理应用于其他实施方式。因此，本发明并不受到在此显示的实施方式的限制，而是应当与符合在此公开的原理和新颖性特征的最宽范围相一致。

Claims

1.一种计算机实现的方法，用于简化将转录文本从转录机粘贴到应用程序的操作，其包括：

将音频文件发送给转录机；

从所述转录机接收所述音频文件的转录文本文件；

将所述转录文本文件自动并直接载入复制缓冲区而无需用户访问文档生成应用程序；和

将所述转录文本文件从所述复制缓冲区粘贴到应用程序。

2.如权利要求1所述的方法，其中所述复制缓冲区为剪贴板式复制缓冲区。

3.如权利要求1所述的方法，其中所述转录机为基于听写的语音到文本系统。

4.如权利要求1所述的方法，还包括将所述转录文本文件从所述复制缓冲区粘贴到所述应用程序的特定数据区域。

5.如权利要求1所述的方法，还包括无需从用户接收输入命令就自动地将所述转录文本文件载入所述复制缓冲区。

6.如权利要求5所述的方法，还包括当所述转录文本文件被自动载入所述复制缓冲区时，向所述用户提供通知。

7.如权利要求6所述的方法，其中所述通知为视频指示。

8.如权利要求6所述的方法，其中所述通知为音频指示。

9.如权利要求1所述的方法，其中无需用户访问包括所述转录文本文件的文档生成应用程序，所述转录文本文件就被自动载入所述复制缓冲区。

10.如权利要求1所述的方法，其中所述方法通过在呼叫中心环境中运行的计算机系统实现。

11.一种计算机实现的设备，用于简化将转录文本从转录机粘贴到应用程序的操作，其包括：

将音频文件发送给转录机的装置；

从所述转录机接收所述音频文件的转录文本文件的装置；

将所述转录文本文件自动并直接载入复制缓冲区而无需用户访问文档生成应用程序的装置；和

将所述转录文本文件从所述复制缓冲区粘贴到应用程序的装置。

12.如权利要求11所述的设备，其中所述复制缓冲区为剪贴板复制缓冲区。

13.如权利要求11所述的设备，其中所述转录机为基于听写的语音到文本系统。

14.如权利要求11所述的设备，进一步包括将所述转录文本文件从所述复制缓冲区粘贴到所述应用程序的特定数据区域的装置。

15.如权利要求11所述的设备，进一步包括无需接收来自用户输入的命令，就将所述转录文本文件自动载入所述复制缓冲区的装置。

16.如权利要求15所述的设备，进一步包括在所述转录文本文件已经被自动载入所述复制缓冲区时向用户提供通知。

17.如权利要求16所述的设备，其中所述通知为视频指示。

18.如权利要求11所述的设备，其中无需用户访问包括所述转录文本文件的文档生成应用程序，就将所述转录文本文件自动载入所述复制缓冲区。

19.如权利要求11所述的设备，其中所述设备在呼叫中心环境中运行。