CN1322981A

CN1322981A - 向处理能力有限的设备提供的连续语音识别技术

Info

Publication number: CN1322981A
Application number: CN01117945A
Authority: CN
Inventors: J·L·基西; G·J·威尔莫特
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-05-04
Filing date: 2001-05-08
Publication date: 2001-11-21
Anticipated expiration: 2021-05-08
Also published as: EP1152326A2; EP1152326A3; CN100555175C; JP2002132284A; CA2343664A1; KR20010100883A; US8355912B1; JP3689346B2; KR100451260B1

Abstract

提供一种在设备上输入数据的技术。一开始,在设备上接收语音数据。将语音数据和设备标识符传送到计算机。在计算机上将语音数据翻译成文本。然后确定是否要过滤翻译文本。如果确定要过滤翻译文本,就对翻译文本应用一个过滤器。

Description

向处理能力有限的设备提供的连续语音识别技术

本发明一般地说涉及计算机实现的系统，更具体来说，涉及向诸如个人数字助理(PDA)的处理能力有限的设备提供作为替代输入设备的连续语音识别。

个人数字助理(PDA)是一种将计算与诸如电话和/或网络连接的其它特征功能综合在一起的手持式设备。许多PDA被用作个人记事本(organizer)，包含日程表、电子邮件系统和字处理器。向PDA的输入通常是通过手写笔(stylus)而不是通过键盘或鼠标进行的。手写笔是一种“像钢笔一样的”物体，用来在诸如数字书写板(digitaltablet)的屏幕上写数据。手写笔有用来触及数字书写板的电子头，数字书写板含有的电子电路使其能检测手写笔的移动并将这些移动转换成用于计算机的数字信号。

有些PDA合有使用户能用手写笔在屏幕上“手写”数据的手写识别功能。然而，一般的手写识别系统有时错误解释手写的数据而要求用户仔细检查和修正手写的数据。

PDA已经变得非常流行，正越来越多地被各种人广泛使用。遗憾的是，这些小设备只有有限的存储器容量，较小的显示器，和较慢的运行速度。此外，由于用手写笔来输入数据，使有些残疾人不能使用PDA。

因此，在该领域中需要有向具有有限资源的设备输入数据的改进技术。

为了克服以上所述的现有技术中的缺陷，克服在阅读和理解本说明书时将逐渐明了的其它缺陷，本发明公开一种用于向诸如个人数字助理(PDA)的处理能力有限的设备提供作为替代输入设备的连续语音识别的技术的方法、装置和产品。

按照本发明一个实施例，提供一项在设备上输入数据的技术。一开始，在设备上接收语音数据。将语音数据和设备标识符传送到计算机。在计算机上，将语音数据翻译成文本。然后确定是否要过滤翻译文本。如果确定翻译文本要过滤，就对翻译文本应用过滤器(filter)。

现在参看以下附图-其中相同的标注号自始至终代表相应的部件：

图1是表示本发明一个实施例的硬件环境的示意图；

图2是表示本发明一个实施例中的CSC系统212及其环境的示意图；

图3是表示由本发明一个实施例中的CSC系统212执行的过程的流程图。

在以下对本发明实施例的说明中，参照构成其一部分的附图，说明书是以能实现本发明的特定实施例的方式说明的。应当理解，可以采用其它实施例，因为在不偏离本发明范围的情况下可以进行结构上的修改。

图1是表示本发明一个实施例的硬件环境的示意图，更具体来说，该图表示一个典型的分布式计算机系统，它用网络100把语音数据输入设备102(客户机)与执行计算机程序的服务器计算机104连接，并把服务器系统104与数据源106连接。数据源106可以存储例如包括语音印迹(voice print)记录的用户个人简档(profile)。典型的资源组合可包括语音数据输入设备102-例如是个人电脑或工作站、电话或移动电话、或个人数字助理(PDA)。服务器计算机104例如可以是个人电脑、工作站、小型计算机或大型机。这些系统是由LAN、WAN、SNA网及因特网在内的各种网络连接的。有些语音数据输入设备102(例如个人电脑或个人数字助理)和服务器计算机104另外还包含一个操作系统和一个或多个计算机程序。

服务器软件包括一个连续语音识别(CSR)系统110，它包含一个或多个计算机程序用于将语音翻译成文本、过滤文本以及将文本转换成适当格式。服务器计算机104也用数据源接口和可能的其它计算机程序来连接到数据源106。语音数据输入设备102通过线路或无线系统与服务器计算机104双向连接。服务器计算机104进而与数据源106双向连接。

操作系统和计算机程序是由指令组成的，这些指令在被语音数据输入设备102和服务器计算机104读取并执行时，使设备和计算机执行实现和/或使用本发明所需的步骤。一般地说，操作系统和计算机程序被安装在和/或可读自诸如存储器的设备、载体或介质，其它数据存储设备和/或数据通信设备。在操作系统的控制下，可以将计算机程序从存储器、其它数据存储设备和/或数据通信设备装入计算机的存储器，供在实际运行期间使用。

所以，可以用生产软件、固件、硬件及其任意组合的标准程序设计和/或工程技术，把本发明实现为方法、装置或产品。本文中所使用的术语“产品”(或者“计算机程序产品”)的意思包括能从任何计算机可读设备、载体或介质获得的计算机程序。当然，本领域的技术人员知道，在不偏离本发明范围的条件下可以对这个结构作出许多修改。

本领域的技术人员将认识到，图1中所示的示意性环境并非是要限定本发明。实际上，本领域的技术人员将认识到，在不偏离本发明范围的条件下，可以采用其它替代性的硬件环境。

连续语音识别系统

在一个实施例中，本发明提供一个连续语音识别(CSR)系统。该CSR系统使具有有限处理能力的设备能进行连续语音识别。就是说，大多数手持式设备(例如PDA或移动电话)不具有进行连续语音识别的处理能力。这一点加上它们体积小，用户只好用手写笔在输入区上点触，这使得这些设备极其难以为残疾人所用。这也妨碍使用者快速记录笔记、更新日程表或发送电子邮件。

用CSR系统，向设备输入数据变得像说话一样简单。可以设想CSR系统能消除对点触输入设备的需要。CSR系统也便于将体积小得不能有输入板或屏幕的设备(如手腕佩戴设备)用作输入设备。

图2是表示本发明一个实施例中的CSC系统212及其环境的示意图。CSC系统212位于语音识别服务器210。CSC系统212在一个或多个客户设备(有限处理能力的设备)与一个或多个语音识别服务器之间建立一种共生的关系。为方便解释，图中描绘了一个客户设备200和一个语音识别服务器210。客户设备200能记录和/或中继语音。CSC系统212包含语音-文本翻译软件214和文本过滤和转换软件216。

一般地说，客户设备200捕获语音并将其发送到语音识别服务器210供翻译和转换。语音识别服务器210将转换过的信息发送回客户设备200，后者然后将其结合到目标应用程序(例如日程表、电子邮件或笔记本)中。

在使用CSC系统212之前，用户向语音识别服务器210提交信息。该信息包含一个在数据储存库中存储的用户个人简档218。用户个人简档包含一个与用户说话方式相关联的“语音印迹”，关于一个或多个要接收数据的目标应用程序的信息，一个或多个标识用户所用的特定设备的客户设备(单元)标识符(ID)，和包括电子邮件地址在内的用户联系信息。

一开始，用户录制在语音识别服务器上作为语音印迹存储的语音。例如，可以要求每个用户说出特定的文字，诸如一本书中的某段落。所说出的文字就是语音印迹。每个用户说话的方式都有些不同，在停顿和重音上都略有差异。所以，可以用语音印迹来标识用户。此外，语音印迹也被CSR系统212用来更好地将语音转换成文本。

用户个人简档被存储在语音识别服务器210后，用户就能通过向位于客户设备200的语音录音/中继机说话而向客户设备200输入语音数据。用户说关键词和其它语句。关键词向CSR系统212指出紧接着的信息的特定类型。关键词的例子包括-但不限于-下列：日程表项(CALENDAR ENTRY)、日期(DATE)、时间(TIME)、发送记事(SEND NOTE)、地址项(ADDRESS ENTRY)、记事本项(NOTEPAD ENTRY。要在日程表应用程序中安排会议时间，用户可以向客户设备200说出下列信息：日程表项日期(CALENDAR ENTRY DATE)2000年12月1日时间(TIME)上午10点主题(SUBJECT)关于项目的会议。

客户设备200用该语音数据生成一个语音包，语音包的组成是语音数据(例如短语)、适合目标应用程序(例如日程表应用程序)的数据和单元ID(客户设备标识符)。客户设备200通过任何能用的通信系统-如移动调制解调器连接和/或因特网连接，把语音包发送到语音识别服务器210。

语音识别服务器210接收语音包，从中析取单元ID，用它从数据储存库检索用户的语音印迹。语音-文本翻译软件214利用语音印迹把语音包中的语音数据翻译成文本。结果生成“翻译文本”。

下一步，文本过滤和转换软件216试图从翻译文本中析取一个或多个关键词。在一个实施例中，期望这一个或多个关键词位于翻译文本的开始。如果找不到关键词，CSR系统212就例如通过电子邮件将翻译文本返回到客户设备200。另一方面，如果析取出一个或多个关键词，CSR系统212就确定并提取一个转换过滤器220，它将被用来将翻译文本格式化成特定一个格式(例如特定于某特定应用程序和/或特定设备)。例如，如果一个或多个关键词表明语音数据是与日程表应用程序相关的，代表一个日程表项(CALENDAR ENTRY)，文本过滤和转换软件216就确定要被使用的转换过滤器，并从转换过滤器220中提取一个日程表过滤器，以便把要向客户设备200发送的数据格式化成日程表项。这种格式化不仅为特定一个应用程序(例如日程表应用程序)格式化翻译文本，也为特定一个客户设备200(例如特定品牌的PDA)格式化翻译文本。然后，CSR系统212用适当的通信通道(例如通过在移动调制解调器上和/或因特网上发送电子邮件)把过滤过的文本返回到客户设备200。客户设备200接收经过翻译和转换的语音包，将其传送到目标应用程序(例如日程表应用程序)去处理。

如果客户设备200是移动电话，用户能通过移动电话输入语音。该语音和单元ID被发送到语音识别服务器210。位于语音识别服务器210的CSR系统212将该语音数据转换成翻译文本，应用适当的过滤器来生成过滤文本，并按用户个人简档中的规定，通过电子邮件向用户的设备返回翻译文本或过滤文本。

所以，有了CSR系统212，要在日程表应用程序中安排会议时间，用户可以向客户设备200说出下列信息：日程表项日期(CALENDAR ENTRYDATE)2000年12月1日时间(TIME)上午10点主题(SUBJECT)关于项目的会议。然后，CSR系统212将该语音数据格式化位日程表项，准备好插入日程表中。而在一般的系统中，用户则要打开日程表应用程序，确定日期和时间，再键入或写入主题信息。在PDA上，这通常要求使用手写笔，这对许多人来说是难以使用的，对残疾人来说尤其如此。此外，用一般的系统也不可能仅以移动电话就能生成一个日程表项。

图3是表示由本发明一个实施例中的CSC系统212执行的过程的流程图。应当理解，在一个实施例中，CSR系统212既包含语音-文本翻译软件214也包含文本过滤和转换软件216。

在方框300中，CSR系统212接收一个包含语音印迹和单元ID在内的用户个人简档218，并在语音识别服务器210存储该用户个人简档218。在方框302中，客户设备200接收语音数据并将该语音数据和单元ID转发到语音识别服务器210。在方框304中，位于语音识别服务器210的CSR系统212根据单元ID提取用户的语音印迹。在方框306中，CSR系统212利用语音印迹将语音数据转换成文本，生成翻译文本。在方框308中，CSR系统212确定是否要应用一个过滤器。如果是，CSR系统212就继续到方框312，否则，CSR系统212就继续到方框310。在方框310中，CSR系统212将翻译文本返回到客户设备200。在方框312中，CSR系统212选择并提取一个转换过滤器220。在方框314中，CSR系统212将该转换过滤器应用到翻译文本，生成过滤文本。在方框316中，CSR系统212将过滤文本返回到客户设备200。在一个实施例中，CSR系统212将过滤文本返回到客户设备200上的一个应用程序。

至此说明了本发明的实施例。以下说明用于实现本发明的一些其它形式的实施例。例如，任何类型的计算机(如大型机、小型计算机或个人电脑)或计算机结构(如分时大型机、局域网或独立个人电脑)都可以用于本发明。

对本发明的实施例的以上说明是为方便解释和说明而陈述的。上述说明不是穷举的，也不是要把本发明完全限定于所陈述的形式。按照以上原理，有许多可能的修改和变体。本发明的范围不受该详细说明的限定，而是受后附的权利要求的限定。

Claims

1．一种在设备上进行数据输入的方法，包含：

在设备上接收语音数据；

将语音数据和设备标识符传送到计算机；

并在计算机上

将语音数据翻译成文本；

确定是否要过滤翻译文本；和

如果确定翻译文本要被过滤，就对翻译文本应用一个过滤器。

2．权利要求1的方法，进一步包含在与计算机相连的数据储存库中存储用户个人简档。

3．权利要求2的方法，其中，用户个人简档包含语音印迹。

4．权利要求3的方法，进一步包含用语音印迹将语音数据翻译成文本。

5．权利要求1的方法，其中的确定包含从翻译文本析取一个或多个关键词。

6．权利要求5的方法，其中，根据一个或多个被析取的关键词选择过滤器。

7．权利要求1的方法，其中，应用过滤器包含格式化翻译文本。

8．权利要求7的方法，其中，格式化包含为应用程序格式化翻译文本。

9．权利要求7的方法，其中，格式化包含为该设备格式化翻译文本。

10．权利要求1的方法，进一步包含将翻译文本返回到设备。

11．权利要求1的方法，进一步包含将过滤文本返回到设备。

12．权利要求11的方法，进一步包含通过电子邮件消息返回过滤文本。

13．权利要求1的方法，进一步包含将数据返回到接收语音数据的设备以外的设备。

14．一种装置，包含：

一个用于接收和传送数据的设备；

一个与该设备相连的、有与其相连的数据储存库的计算机，其中，数据储存库存储数据；和

由该计算机执行的一个或多个计算机程序，用于：

从该设备接收语音数据和设备标识符；

将语音数据翻译成文本；

确定是否要过滤翻译文本；和

15．权利要求14的装置，进一步包含在与计算机相连的数据储存库中存储用户个人简档。

16．权利要求15的装置，其中，用户个人简档包含语音印迹。

17．权利要求16的装置，进一步包含用语音印迹将语音数据翻译成文本。

18．权利要求14的装置，其中的确定包含从翻译文本析取一个或多个关键词。

19．权利要求18的装置，其中，根据一个或多个被析取的关键词选择过滤器。

20．权利要求14的装置，其中，应用过滤器包含格式化翻译文本。

21．权利要求20的装置，其中，格式化包含为应用程序格式化翻译文本。

22．权利要求20的装置，其中，格式化包含为该设备格式化翻译文本。

23．权利要求14的装置，进一步包含将翻译文本返回到设备。

24．权利要求14的装置，进一步包含将过滤文本返回到设备。

25．权利要求24的装置，进一步包含通过电子邮件消息返回过滤文本。

26．权利要求14的装置，进一步包含将数据返回到接收语音数据的设备以外的设备。

27．一种包含计算机可读的程序存储介质并实施可由计算机执行以处理在设备上输入的数据的一个或多个指令的产品，包含：

在设备上接收语音数据；

将语音数据和设备标识符传送到计算机；

在计算机上，

将语音数据翻译成文本；

确定是否要过滤翻译文本；和

28．权利要求27的产品，进一步包含在与计算机相连的数据储存库中存储用户个人简档。

29．权利要求28的产品，其中，用户个人简档包含语音印迹。

30．权利要求29的产品，进一步包含用语音印迹将语音数据翻译成文本。

31．权利要求27的产品，其中的确定包含从翻译文本析取一个或多个关键词。

32．权利要求31的产品，其中，根据一个或多个被析取的关键词选择过滤器。

33．权利要求27的产品，其中，应用过滤器包含格式化翻译文本。

34．权利要求33的产品，其中，格式化包含为应用程序格式化翻译文本。

35．权利要求33的产品，其中，格式化包含为该设备格式化翻译文本。

36．权利要求27的产品，进一步包含将翻译文本返回到设备。

37．权利要求37的产品，进一步包含将过滤文本返回到设备。

38．权利要求37的产品，进一步包含通过电子邮件消息返回过滤文本。

39．权利要求27的产品，进一步包含将数据返回到接收语音数据的设备以外的设备。