CN101366075A

CN101366075A - 话音控制式无线通信装置系统的控制中心

Info

Publication number: CN101366075A
Application number: CNA2006800349872A
Authority: CN
Inventors: 斯蒂芬·S·伯恩斯; 米基·W·科维茨
Original assignee: Mobile Voice Control LLC
Current assignee: Mobile Voice Control LLC
Priority date: 2005-08-09
Filing date: 2006-08-09
Publication date: 2009-02-11
Anticipated expiration: 2026-08-09
Also published as: WO2007061466A2; US20070174058A1; EP1920432A4; US8682676B2; JP2009505140A; JP5394739B2; WO2007055766A2; CN101366074B; US7957975B2; WO2007055766A3; CN101366075B; EP1922719A2; WO2007092044A1; EP1922717A4; US8775189B2; US20130073294A1; CA2618547C; EP1922719A4; US20110010170A1; JP5320064B2

Abstract

本发明揭示一种可接受来自最终用户的所记录音频数据的无线通信装置。所述音频数据可呈请求用户动作的命令的形式。同样地，所述音频数据可为将被转换成文本文件的文本。将所述音频数据还原为呈装置硬件支持的格式的数字话音文件，例如，wav、mp3、vnf文件或类似文件。将所述数字话音文件通过受保护或不受保护的无线通信发送到一个或一个以上服务器计算机以供进一步处理。根据本发明的重要方面，所述系统评估语音识别过程的置信度。如果所述置信度较高，那么所述系统自动地构建应用程序命令或创建文本文件供传输到所述通信装置。另一选择为，如果所述语音识别的置信度较低，那么将所记录的音频数据文件路由到电信服务所雇用的人类抄录员，所述人类抄录员手动地审阅所述数字话音文件并构建应用程序命令或文本文件。一旦创建了所述应用程序命令，便将其传输到所述通信装置。作为本发明的结果，已显示通信装置背景中的语音识别在90％以上的时间内是准确的。

Description

话音控制式无线通信装置系统的控制中心

相关申请案交叉参照

本申请案主张2005年8月9日申请的美国临时专利申请案第60/706,806号的优先权和利益，所述申请案以引用的方式并入本文中。

技术领域

本发明涉及使用基于无线服务器的话音识别工具以通过话音命令控制各种无线通信装置。

背景技术

话音控制式系统已存在并使用了许多年。所述系统(通常并入有驻存在受控装置上的计算机硬件和软件的组合)允许最终用户通过叙述口头命令来控制装置。所述口头命令随后被转换成可控制电子装置的可执行命令。当今，可在分布在从计算机接口、汽车、蜂窝式电话到其它手持式装置范围内的各种类型的技术中找到驱动话音控制式装置的话音识别系统。

无线通信装置本身特别适合于话音控制。所述无线装置通常将蜂窝式电话、电子邮件、联系人列表、日历、互联网web浏览、多媒体播放器和许多其它类似的电子应用程序组合成单个电子包装，所述电子包装小得足以装入口袋或钱包中。与无线装置的互相作用通常是通过附接到所述无线装置的小键盘来进行。由于所述键盘比标准键盘小得多，因此经常发生可能是破坏性的错误。此外，所述装置(例如)通常是在驾驶时使用，因此监视所述装置并手动输入命令不切合实际。最后，所述问题阻碍了将装置用于其计划的用途。因此，需要能够使用话音控制而非键盘来控制无线装置。

现有无线通信装置相依于完全驻存在所述装置上的程序设计。所述系统的能力受到通常可用于移动话音控制式装置上的减小的存储器和计算功率的极大限制。然而，语音识别准确度的质量不良，这在很大程度上是因为面对移动用户的环境挑战，例如，背景噪声、用户口音和成本效率硬件，例如，不能提供高质量音频的麦克风。

美国专利第7,027,987(＂the＇987专利)揭示一种将话音介接到搜索引擎的方法。然而，如同所述＇987专利的发明人在其论文中报告的那样，在试验中仅有60％的时间能够达到对口语单词的正确识别。参见，Alex Franz和Brian Milch.Searching the Web byVoice，Proc.19th International Conference on Computational Linguistics，1213-1217(2002)，。

因此，需要一种可执行各种应用程序同时维持对口语单词的极高识别准确度的话音控制式无线通信装置。

发明内容

无线通信装置接受来自最终用户的所记录音频数据。所述音频数据可呈请求动作的命令的形式，所述动作通常在所述装置上手动地执行，例如，发送电子邮件、安排约会时间、起始电话呼叫、搜索互联网、播放多媒体文件(例如，MP3歌曲)或请求与新闻有关的信息(例如，体育比分或股票行情)。同样地，所述音频数据可为将被转换成文本文件且保存为附注、信件或其它文本数据的文本。所述音频数据还原为呈装置硬件支持的格式的数字话音文件，例如，wav、mp3、vnf文件或类似文件。所述数字话音文件通过受保护或不受保护的无线通信发送到一个或一个以上服务器计算机以供进一步处理。所述服务器计算机通常由为所述通信装置提供电话和电子邮件接入的相同电信服务来管理。一旦所述音频数据通过辨识，所述服务器便通过建造应用程序命令或文本文件来处理所述数据并将所得信息发送到所述无线装置供正确地执行。

将所述音频数据运送到服务器供语音识别允许由更强大的语音引擎来处理请求。然而，这样做并不能改善被解译数据的质量。如由许多研究和失败的系统所证明(http://www.cs.berkeley.edu/％7Emilch/papers/gvs.pdf)，如果音频的质量不良，那么最好的语音识别也不能产生准确的结果。这致使用户停止使用所述系统。

因此，本发明通过以下方式来克服单词识别准确度的问题：不仅利用所述服务器计算机的功率来执行语音识别，而且本发明还评估所述语音识别过程的置信度。如果所述置信度高，那么所述系统自动地建造应用程序命令或创建文本文件供传输到所述通信装置。另一选择为，如果所述语音识别的置信低，那么将所记录的音频数据文件路由到电信服务雇用的人类抄录员，所述抄录员手动地审阅数字话音文件且建造所述应用程序命令或文本文件。一旦创建了所述应用程序命令，其便被传输到所述通信装置。作为本发明的结果，已显示通信装置背景中的语音识别在90％以上的时间内是准确的。

附图说明

具体实施方式

图1中显示一种用于无线通信装置的话音控制式系统。所述系统包括与一个或一个以上服务器计算机20无线通信的手持式通信装置10。在最低程度上，通信装置10具有运行程序(也称为应用程序)的能力。通信装置10还具有音频记录能力，例如，麦克风，以便可记录来自用户呈话音命令形式的音频数据并将所述命令保存为记录的话音命令文件30。

通信装置10的用户存取驻存在装置10上的话音命令应用程序，并向装置的麦克风口述控制装置10的命令。装置10记录话音命令并创建记录的话音命令文件30。装置10可视情况将记录的话音命令文件30存储在内部以供将来使用。然后，通信装置10将记录的话音命令文件30以无线方式发送到服务器计算机20并等待服务器的响应。

在接收到记录的话音命令文件30后，服务器计算机20执行一系列编程模块以处理记录的话音命令文件30。最初，服务器计算机20对记录的话音命令文件30执行语音识别40，从而产生解译的话音命令50。在其中多个服务器正运行并行语音识别过程的情况下，所述系统将基于各种参数(包含但不限于个别服务器的活动)确定哪一服务器计算机20引导记录的话音命令文件30来进行语音识别。服务器计算机20可视情况将记录的话音命令文件30存储在内部以供将来使用。服务器计算机20评估语音识别过程60的置信度以确定所述语音识别的准确度。如果所述置信度处在预定水平或在所述预定水平以上，那么服务器20将调用机器可读命令70的自动创建以创建应用程序命令80。

另一方面，如果语音识别过程40的置信度低于预定水平，那么服务器20将记录的话音命令文件30路由到人类抄录员以供手动审阅并创建机器可读命令90。

一旦创建了机器可读命令80，服务器计算机20便将应用程序命令80传输到通信装置10。通信装置10将接收的应用程序命令80引导到合适的应用程序供执行。

通信装置10可为当今可得到的许多类似类型装置中的一者。典型的通信装置10将能够运行各种应用程序，包含但不限于无线电话通信、无线电子邮件、日历、联系人列表、无线互联网web浏览和多媒体呈现。所述应用程序是以本机装置硬件可支持的语言写入，例如C++、Symbian、Java、Linux和类似语言。另外，装置10还可能能够运行除装置厂家提供的应用程序以外的应用程序。

图2显示在通信装置上运行的话音命令应用程序。用户以各种方式，优选地通过按下装置上的按钮(其起始应用程序100)来启动应用程序。所述应用程序提示用户进行音频记录，例如，语言命令，其接收110并以装置支持的格式保存为记录的话音命令文件130，例如，wav、mp3或vnf文件。可优选地基于硬件使用其它文件格式。如果用户正记录话音命令，那么应用程序可视情况呈现可能命令105列表。

所述装置随后与服务器计算机建立无线数据连接并将记录的话音命令文件130传输到所述服务器。所述连接可基于用户以及系统管理员的偏好而为受保护或不受保护的通信。优选地，所述装置维持与服务器计算机的连接直到服务器响应140为止。偶尔地，所述响应可花费太长时间且所述数据连接在接收到所述响应之前便终止。在所述情况下，所述装置或服务器可在稍后重新建立通信以传输(或接收)呈应用程序命令180形式的服务器响应并终止所述连接。

所述通信装置接收应用程序命令文件180并询问应用程序命令以确定通信装置必须采取的动作150。基于应用程序命令文件180，将所述命令引导到适当的应用程序供执行160。

此外，基于话音命令，可将对应用程序的执行引导到特殊内容提供者。举例来说，对互联网内容的请求可来自互联网上的若干个源。运行所述系统的电信服务可与互联网内容提供者达成协定以将所有此类请求仅引导到所述互联网内容提供者。所述协定可在财务上有益于电信服务。同样地，用户可选择将使用哪一互联网内容提供者且可将所述提供者预定为此类请求的源。

当音频记录为话音命令时，所述话音命令优选地将具有为所有命令遵循的标准格式。话音命令的标准化格式允许更容易地执行额外的命令。所述话音命令应以关键字短语开始以识别命令的类型。关键字短语的实例包含但不限于“呼叫联系人”、“电子邮件”、“搜索web”、“寻找电影”或“播放歌曲”。所述关键字短语基于话音命令的类型而后跟额外的参数。举例来说，如果关键字短语为“呼叫联系人”，那么额外的参数应为所述联系人的姓名。更详尽的实例可包含电子邮件命令，所述电子邮件命令将包含多个额外的参数，例如，联系人姓名或电子邮件地址、主题和文本。某些参数可以参数短语(例如，电子邮件话音命令的“主题”)为开始或在没有参数短语的情况下简单地附加到关键字短语。如在关键字短语“呼叫联系人”之后的联系人姓名中那样。

一旦用户向通信装置叙述了话音命令，所述装置便以适当的数字文件格式保存记录的话音命令以供传输到服务器计算机。视情况，所述系统还可附加指示从其接收记录的话音命令的通信装置的唯一装置识别符。基于所述唯一装置识别符，所述系统可识别以下描述的额外有用信息。

如果通信装置上维持联系人列表，那么所述列表可与记录的视频文件一起周期性地传输且维持在服务器计算机上。所保存的联系人列表用于增加语音转译的准确度。语音识别过程使用所述列表来帮助需要来自联系人列表的输入的自动话音命令转译。另外，如果将话音命令发送到人类抄录员供审阅，那么所述抄录员可存取特殊用户的联系人列表，或可将所述联系人列表自动地呈现给所述人类抄录员。

当将所述联系人列表发送到服务器计算机时，便可视需要操纵所述列表。举例来说，所述服务器计算机可管理具有中间名字的首字母和不具有中间名字的首字母两者的联系人姓名，以使不具有中间名字的首字母的记录向后解析为具有中间名字的首字母的记录。举例来说，如果用户在其联系人列表中请求其所具有的针对Robert Smith的联系人，但在其数据库中所具有的唯一记录为Robert T.Smith，那么所述系统可找出Robert T.Smith并将结果返回到所述用户。

图3显示对从通信装置传输的所记录话音命令文件的服务器计算机处理。所述服务器计算机以及对话音命令的所有处理通常由为所述通信装置提供无线通信的电信服务来控制。所述通信装置建立与服务器计算机的无线数据连接并将记录的话音命令文件传输到服务器计算机200。所述服务器计算机对记录的话音命令文件230执行语音识别210。可使用可在市场上购得的语音识别程序，例如，可从Nuance，Inc.，公司购得的Dragon Naturally Speaking，或者可使用定制的语音识别程序。语音识别过程导致创建解译的话音命令文件250。所述语音识别软件还应能够提供测量软件对话音命令准确识别的确信程度的置信度。所述置信测量通常被并入识别过程中。

临界置信度(即，如果识别过程的置信不充足，那么必须执行的额外处理的置信度水平)可由系统管理员或者系统自身来调节。如果由语音识别产生的置信度处在临界置信度或在所述临界置信度以上，那么使用来自语音识别过程210的所解译话音命令250自动地创建240应用程序命令280。相反，如果由语音识别产生的置信度低于所述临界置信度，那么将记录的话音命令文件230路由到人类抄录员供手动创建机器可读命令文件280。

机器可读命令文件80应呈标准格式的形式，例如，Xml。标准格式允许容易地包含新的命令。举例来说，如果话音命令为“呼叫联系人Bob Jones”，那么所述系统便将“呼叫联系人”识别为关键字短语并针对电话呼叫类型建造Xml代码(例如，<commandtype>call)。在知道命令类型后，所述系统接下来分析出姓名并创建Xml代码(例如，<contact>Bob Jones)。因此，应用程序命令文件280将为<commandtype>call<contact>Bob Jones。其它格式已为所属技术领域的技术人员熟知且可容易地替代Xml格式。

一旦创建了应用程序命令文件280，不管用来创建所述应用程序命令文件的过程如何，所述服务器计算机都会通过建立的无线数据连接将文件280返回到通信装置。如上所述，如果数据连接已终止，那么所述服务器计算机可重新建立连接以将文件280传输到通信装置。

图4显示使用不同的并行语音识别过程而非单个语音识别过程的本发明的另一实施例。所述方法的优点是不同语音识别系统的差异，从而可获得最准确的语音识别。在完成所有语音识别过程310时，所述系统评估每一过程的置信度320。如果所述语音识别过程310的置信度中的至少一者处在临界置信度或在临界置信度以上，那么所述系统选择具有最高置信度的所解译话音命令文件340并基于解译的话音命令文件395自动地创建应用程序命令390。如果没有一个过程产生处在临界置信度或者在临界置信度以上的置信度，那么将记录的话音命令路由到人类抄录员供审阅并手动创建应用程序命令360。

视情况，可能需要额外的面向内容的语音识别过程335。面向内容的语音识别过程335是使用特殊词典(例如，法律词典)或特殊语言(例如，西班牙语词典)的过程。基于初始语音识别过程310的结果，且假定所述语音识别过程在临界置信度320以上，便可确定记录的话音命令需要由面向内容的语音识别过程335进行额外的处理。同样地，可基于用户已挑选额外的面向内容的语音识别过程而调用额外的面向内容的语音识别过程335。所述系统将能够确定特殊用户已基于经编码唯一识别符请求的额外的面向内容的语音识别过程。

在本发明的一个实施例中，如果将记录的话音命令文件路由到人类抄录员，那么所述系统将试图将所述记录的话音命令文件引导到最适当的抄录员。可基于用户界定准则的数目来选择适当的抄录员。举例来说，所述系统可存取任一特殊抄录员的工作负荷并将文件指派给最不忙碌的抄录员。另一选项是确定命令类型并将记录的话音命令文件指派给最适合于特殊命令类型的抄录员。这在所述命令可需要大量键入的情况下尤其有用，例如，通常将需要键入额外信息(例如，电子邮件的文本)的电子邮件命令。因此，将具有大量键入要求的命令引导到已被识别为最好打字员的抄录员。

还可将记录的话音命令文件引导到已经历过创建所述话音命令的用户的抄录员。由于唯一识别符是视情况附加到每一记录的话音命令文件，因此所述系统可确定哪一抄录员先前已审阅过来自记录所述话音命令的用户的话音命令。由于地区性方言和口音的原因，因此可能需要让同一抄录员审阅来自同一用户的话音命令。即，所述抄录员熟悉用户的口音且将来的抄录对于所述抄录员更容易一些。

还可基于命令的时间性优先化所述命令。举例来说，与通常不需要立即响应的命令(例如，用于发送电子邮件的命令)相比，需要立即响应的命令(例如，起始呼叫的命令)将具有较高的优先权，且因此被指派给较快的抄录员。

一旦已将记录的话音命令文件路由到人类抄录员，便可向所述抄录员呈现包含针对抄录员的视觉线索的自动屏幕，所述视觉线索包含用户的过去历史以及设计用以加速由人类抄录员所做处理的其它速度技术。在抄录员已手动创建应用程序命令文件之后，所述系统可提示抄录员更新用户的语音识别语法文件，这将在以下更详细描述的辨识话音命令中帮助语音识别过程。

图5中显示另一实施例。在所述实施例中，用户记录将保存为(举例来说)附注、信件、备忘录或提示项的文本信息，且将所得文本文件存储在通信装置410上。类似于先前实施例，所述音频数据存储在记录的音频文件430中并被传输到服务器计算机420。通过可创建文本文件450的语音识别服务器模块440处理记录的音频文件430。服务器计算机420评估语音识别过程460的置信度以确定所述语音识别的准确度。如果所述置信度处在预定水平或在所述预定水平以上，那么便将自动创建的文本文件450输送到服务器模块480供传输到通信装置410。相反，如果语音识别过程440的置信度低于预定水平，那么服务器420便将记录的音频文件430路由到人类抄录员470供手动审阅并创建文本文件455。

不管用于创建文本文件450或455的方法如何，所述文本文件均沿着已经建立的无线数据连接传输480。一旦返回到通信装置410，便可将所述文本文件保存在通信装置上，并使用适合于显示文本数据的应用程序来显示，例如，笔记本计算机或词处理器。

在另一实施例中，所述系统具有一个或一个以上应用程序接口，其可确定话音命令的类型并将应用程序命令的创建引导到另一组织。以此方式，一个组织可构造对在通信装置上运行的应用程序是唯一的其自己的话音命令集。这在一个组织具有可容易存取的信息但不想或不能使所述信息用于运行所述系统的电信服务的情况下是有利的。举例来说，销售组织可能想通过通信装置使其销售团队存取公司的机密信息，但又不想所述信息被电信服务存取。当所述系统确定话音命令是所述特定类型命令中的一者时，便将记录的话音命令文件输送到所述组织以创建应用程序命令文件。将优选地使用所属技术领域的技术人员已知的任一众所周知的加密方法来加密所得的应用程序命令文件。将经加密的应用程序命令文件输送回到电信服务供传输到所述通信装置。一旦在所述通信装置上接收到经加密的应用程序命令，便将其引导到由所述组织提供的通信装置上的唯一应用程序。

在又一实施例中，使用附加到记录的话音命令的通信装置的唯一识别符来识别叙述所述话音命令的用户。因此，当服务器计算机接收来自通信装置的所记录话音命令时，所述系统可确定用户是谁以及所述用户是否适合于由电信服务提供的话音命令服务。另外，所述语音识别过程可存取创建用于特殊用户的用户语法文件。所述语法文件含有用户的语音样式的实例且可用于帮助语音识别过程。特殊用户的语法文件在此项技术以及最易在市场上购得的语音识别系统的标准组件中众所周知。语法文件的构造可由用户来执行，或者人类抄录员可如上所述创建语法文件。

Claims

1.一种用于从无线通信装置接收话音控制命令的控制中心，其包括：

接收从无线通信装置传送的且响应于置信度从基于服务器的语音识别程序获得的一个或一个以上所记录的话音命令；将所述话音命令引导到一个或一个以上人类抄录员；及

所述人类抄录员审阅所述话音命令，并创建将要传送回所述通信装置的一个或一个以上应用程序命令。

2.如权利要求1所述的控制中心，其中所述话音命令基于人类抄录员准则被引导到特殊人类抄录员。

3.如权利要求1所述的控制中心，其中所述话音命令基于特定人类抄录员已接收到的呼叫的音量被引导到特殊人类抄录员。

4.如权利要求1所述的控制中心，其中所述话音命令基于创建所述话音命令的用户被引导到特殊人类抄录员。

5.如权利要求1所述的控制中心，其中所述话音命令基于命令的类型被引导到特殊人类抄录员。

6.如权利要求1所述的控制中心，其中所述人类抄录员使用所述装置用户对未被所述基于服务器的语音识别程序正确转译的单词的发音来更新所述语音识别程序。

7.一种用于从无线通信装置接收音频数据的控制中心，其包括：

接收来自无线通信装置且响应于置信度的经记录的音频数据，其从基于服务器的语音识别程序而获得，将所述音频数据引导到一个或一个以上人类抄录员；及

所述人类抄录员审阅所述音频数据，并创建所述音频数据的将要传送回所述通信装置的本文版本。