CN1184614C

CN1184614C - 借助语音命令注释进行自动数据路由选择的方法

Info

Publication number: CN1184614C
Application number: CN99118354.1A
Authority: CN
Inventors: M·L·鲁德; T·C·奥利弗
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1998-12-23
Filing date: 1999-08-23
Publication date: 2005-01-12
Anticipated expiration: 2019-08-23
Also published as: EP1014258A3; US20020013701A1; US6580838B2; EP1014258A2; JP2000194533A; US6295391B1; CN1258061A

Abstract

公开一种通过语音命令注释对由装置(100)，例如数字摄像机捕获的数据进行自动路由选择的系统。利用装置(100)捕获图象或文件后，通过用户对着语音传感元件讲话来产生语音处置命令，以控制对捕获的图象或文件的处置。语音输入存储在装置(100)的语音命令注释文件中并与图象或文档文件相联系。把图象或文档文件拷贝到主机系统(200)时，语音命令注释文件被自动地与它一起拷贝。主机系统处理语音命令注释文件并执行与包含在该文件中的命令相联系的指令。

Description

借助语音命令注释进行自动数据路由选择的方法

本申请是1998年2月19日登记的题为“用于便携式扫描应用的扫描图象的语音注释”的Thomas C.Oliver的系列号为09/026,082的申请的部分继续申请，该申请被包括在本文中作为参考。

技术领域

本发明涉及一种装置，例如数字摄像机、个人数字助理、膝上型计算机、手持文件扫描器以及任何用于存储数据和把数据上载或拷贝到个人计算机上的其它装置。更详细地说，本发明涉及对由这些装置中的一种捕获的数据进行语音命令注释，以便在上载或者拷贝到个人计算机上时进行自动数据路由选择。

背景技术

许多装置，例如数字摄像机、个人数字助理、膝上型计算机、手持文件扫描器，具有从各种各样的源收集不同的图象或文档的能力。在许多情况下，用户可能想利用所捕获的每一种图象或文档来完成不同的任务。可能把某些图象或文档电传或通过电子邮件发给同事或朋友。另一些图象或文档可能变成字处理文件的一部分。可能需要把另一些图象或文档存储在特定的地方。通常，定期地把这样的装置连接到个人计算机，而把所收集的图象数据文件或者文档数据文件分组地拷贝到个人计算机，或者单独地拷贝到个人计算机。在两种情况中任一种情况下，在拷贝之后，用户必须检查每一个特定的图象数据文件或文档数据文件，并且，必须着手处理图象或文档，或者把它们发送到正确的位置：把图象A以这种格式存储在这里；把文档B以那种格式存储在那里；把图象C附加在电子邮件上；把文档D电传给同事，等等。这会是非常费时的处理过程，如果已经捕获了大量的图象数据文件和文档数据文件，则尤其是这样。此外，如果这些图象和文档是在相当长的时间内，例如，在出差途中收集的，那么，在个人把图象和文档拷贝到个人计算机中以便处理和选择路由时，个人可能难于准确地记住对每一个图象和文档设计什么动作。在大多数情况下，个人确定所捕获的图象或文档的布置的最好时间是在捕获的时间。

发明内容

因此，本专业中显然需要一种改进的方法和装置，它将使用户能够利用用来处理和布置所述图象或文档的语音处置命令、在捕获时间对所捕获的图象或文档进行注释，当把所述图象数据文件或文档数据文件拷贝或上载到个人计算机中时，将按照存储在语音命令注释文件中的语音处置命令自动地处理和布置所述图象数据文件或文档数据文件。本发明满足本专业中的这些和其它要求。

本发明的一个方面是利用被结合在装置中的语音传感元件使得能够通过语音作出处置命令并且能够把该处置命令存储在关于所捕获的每一个图象或文档的语音命令注释文件中。

本发明的另一个方面是将图象数据文件或文档数据文件随同其相应的语音命令注释文件一起拷贝到主机中。

本发明的再一个方面是在将其相关的图象数据文件或文档数据文件拷贝到主机中之后自动地处理语音命令注释文件，并且执行对应于所述语音命令注释文件中语音处置命令的一组指令。

本发明的再一个方面是要把关于图象数据文件或文档数据文件的语音处置命令和语音命令注释文件与关于同一图象数据文件或文档数据文件的描述性的语音注释和语音注释文件区分开。

本发明的再一个方面是要利用该装置中的语音分析软件来处理所述语音处置命令。

本发明的另一个实施例中的再一个方面是要利用主机中的语音分析软件来处理所述语音处置命令。

本发明的再一个方面是要作出关于同一图象数据文件或文档数据文件的多个语音处置命令，并且，该语音处置命令存储在相关的语音命令注释文件中。

本发明的再一个方面是要处理与拷贝的图象数据文件或文档数据文件相关的语音命令注释文件，并且。执行与所述语音命令注释文件中语音处置命令相关的指令，其中，可以提示用户输入执行一组指令所需要的附加数据。

本发明的再一个方面是要区别语音处置命令和所捕获的、存储在将按照与该语音处置命令相关的指令行动的语音命令注释文件中的语音数据输入。

本发明的上述和其它方面是在以下的装置中实现的：该装置捕获图象或文档，并且把它们作为图象数据文件或文档数据文件存储在内部存储器中。在捕获图象或文档时，所述装置可以从用户那里接收语音处置命令，后者在把图象数据文件或文档数据文件拷贝或上载到主机之后将控制对它们的处理和处置。对于那些不可能具有足够的空间来设置任何其它类型的用户接口的小型装置来说，语音输入是理想的。

例如，在利用便携式手持文件扫描器扫描文件之后，用户可能通过对着语音传感元件、典型的是便携式扫描器中的传声器说话而发出诸如“电传”或“电子邮件”或“打印和存储”的语音处置命令。语音传感元件把捕获的音频输入信号转换成模拟信号。通过模数转换器把模拟信号转换成数字信号。控制器通过访问语音处理软件而将所述数字信号处理成识别模式。然后，把该识别模式与存储在内部存储器中的预定的一组识别模式进行比较。如果不存在匹配模式，则所述装置向用户输出语音处置命令无效的信息。这可能是由于以下原因而发生的：该用户说话太快、太慢、太微弱、离开语音传感元件102太远，或者带有使得最后的识别模式超出装在语音分析软件中的容限的口音。或者，该用户可能在命令中使用了尚未建立来被该装置识别的字。在任何一种情况下，用户随后都可以重新尝试，以便作出适当的语音处置命令。

有效识别模式被转换成命令号或者命令文本，并且，被以把语音命令注释文件与文档数据文件相联系的方式存储在便携式扫描器的存储器内语音命令注释文件中。在把所述文档数据文件拷贝到主机中时，语音命令注释文件被自动地与所述文档数据文件一起拷贝，并且通过在主机中运行的文件转移软件来检测。文件转移软件从语音命令注释文件读出所述命令号或命令文本，然后执行与该命令号或命令文本相联系的一条或几条指令。在本发明的另一个实施例中，语音处置命令被所述装置捕获，并且被以工业标准文件格式、例如WAV文件格式存储。该WAV文件和所述文档数据文件一起被拷贝到主机中。然后，该WAV文件被主机中的文件转移软件转换成识别模式，并且，被与保存在主机的存储器内的一组预定的识别模式进行比较。这个实施例减少了所述装置中的复杂性，但是，在用户给出语音命令时不能向用户提供关于所述语音命令的有效性的即时反馈。如果由于某种原因，从WAV文件产生的识别模式不能与保存在存储器中的任何预定的识别模式匹配，则用户可以听取WAV文件，并且确定所述命令的意图是什么，然后手动地执行所述命令。

在本发明的不同实施例中有各种不同程度的固有的改进。在一个实施例中，当所述文件转移软件处理诸如“电子邮件”的语音处置命令时，发送用于在主机图形显示器上输出的提示，要求用户键入他想把图象数据文件或文档数据文件发送到的电子邮件地址。当用户键入电子邮件地址并且击打输入键时，文件转移软件访问电子邮件实用程序，于是，与语音处置命令相关的文档数据文件被用电子邮件发往用户输入的地址。当执行了语音注释文件中的所有命令时，通常删除该语音命令注释文件。

在本发明的另一个实施例中，由文件转移软件和语音分析软件来处理诸如“电传Bill Jones”的语音处置命令，并且把它翻译成意味着把有关的图象数据文件或文档数据文件电传给Biil Jones。文件转移软件在主机的包含名字和电传号码的适当的数据库中查找BillJones，并且检索出Bill Jones的电传号码。然后，文件转移软件访问主机中的电传实用程序，并且，利用从数据库检索到的电传号码把与语音命令注释文件相关的图象数据文件或文档数据文件电传给BillJones。当执行了语音注释文件中的所有命令时，通常删除该语音命令注释文件。

在本发明的又一个实施例中，由主机中的文件转移软件和语音分析软件来处理诸如“电传418-7534”的语音处置命令，并且把它翻译成意味着把有关的文档数据文件电传给418-7534。然后，文件转移软件访问主机中的电传实用程序，并且，把与语音命令注释文件相关的文档数据文件电传给418-7534。当执行了语音注释文件中的所有命令时，通常删除该语音命令注释文件。

在本发明的再一个实施例中，通过语音分析软件来训练装置识别用户的口头命令。语音分析软件可以被设置在所述装置中，或者被设置在主机系统上，并且当连接到主机系统时可以被所述装置访问。在本发明的最佳实施例中，所述连接方式用来利用主机中可用的比较大的计算能力，以便减小所述装置的复杂性。

例如，在所述训练方式中利用语音分析软件时，用户可能访问可以由文件转移软件利用语音处置命令来执行的预定的功能表。例如，命令1可能代表用来执行图象数据文件或文档数据文件的打印功能的指令组。在选择命令1来进行训练和分析时，可能通过语音分析软件提示用户选择用户想用来调用命令1的打印功能的指令组的字。然后，可能提示用户多次重复所选择的字。合乎逻辑的选择将是选择字“打印”，但是，可以使用任何未曾被用户选择来用于一种功能的字。字“打印”的每一次重复都被所述装置拾取，并且被语音分析软件分析，以便产生包含用户在说关于打印命令的字“打印”时语音方面的变化和音调的识别模式。关于用户选择来调用各种功能的所有字的识别模式都被存储在主机存储器的功能识别表中。功能识别表中的识别模式具有命令号或者命令文本，后者与也存储在主机存储器中的用于各种功能的预定的指令组相联系。因此，当文件转移软件识别口头语音处置命令字时，与识别模式相联系的所述命令号或者命令文本用来访问由所述命令号或者命令文本代表的所述功能的指令组。本实施例使得可以把外语用作语音处置命令字，因为关于功能的指令组与所述命令号或者命令文本、用户的字选择以及随后的关于所述字选择的训练和语音分析相联系。

在本发明的另一个实施例中，不向用户提供用来进行训练和语音分析的字选择。功能识别表中的识别模式是预定的，并且与用户必须采用的特定的命令字相联系。例如，用户必须修改他或者她的关于命令字“打印”的发音，直至该装置识别用户说出的命令字而调用与该打印命令相联系的指令组。因此，在本实施例中，所述装置首先针对特定的语言，其中的命令字代表所产生的动作或者是所产生的动作的直觉。可以利用代表所产生的动作或者是所产生的动作的直觉的外语字来为用户制造外语类型的所述装置。

所述装置具有在控制器控制下的语音音频输入/输出系统。当接收到语音处置命令时，控制器把数字化的语音输入信号存入动态存储器中。然后，控制器处理所述命令，并且，把关于所述语音处置命令的识别模式与存储在保存于静态存储器中的功能识别表内的识别模式进行比较。当找到匹配项时，把关于所述识别模式的命令号或者命令文本存入静态存储器中语音命令注释文件内。在不存在发生在所述装置中的比较步骤时，控制器以音频文件格式、例如WAV文件格式存储语音处置命令的语音输入，并且，把WAV文件和其相关的图象数据文件或者文档数据文件一起拷贝到主机中。

语音注释是对确定捕获的数据的配置问题的部分解决办法。在捕获图象或者文档时，语音描述被以音频文件格式捕获并且以语音注释文件的形式存储以及与图象数据文件或文档数据文件相联系。用户指示所述文档或者图象是什么以及其需要的处置。但是，在拷贝到主机之后，必须对如此注释的每一个图象数据文件或文档数据文件进行处理，并且重放所附的语音注释文件、或者由用户或者由协助不能胜任的用户的其它人收听。

对于允许对所捕获的文档和图象进行语音注释的装置，本发明的装置把语音处置命令与语音注释区分开。在能够接收用来控制所述装置的操作的语音控制命令的装置中，一种语音控制命令用来使装置能够接收语音注释的语音输入，而不同的语音控制命令用来使所述装置能够接收语音处置命令的语音输入。在本发明的另一个实施例中，利用一种类似于磁带记录器上的记录键的应用范例。压下装置上的一个键并且把它保持在压下的状态，这意味着随后的语音输入是为语音处置命令目的的，而不是语音注释或者语音控制命令。压下装置上的另一个键意味着随后的语音输入是为语音注释目的的，而不是语音处置命令或者语音控制命令。一旦利用两个键中的任一个完成所述语音输入，用户松开所述键，而所捕获的语音输入由所述装置处理，并且，根据压下的是那一个键而作为语音注释文件或者语音命令注释文件而与当前的图象数据文件或文档数据文件相联系。

附图说明

通过阅读以下结合附图对本发明的更具体的描述，就可以更好地理解本发明的上述和其它方面、特征和优点，附图中：

图1表示本发明的装置的方框图；

图2表示与本发明的装置通信的主机系统的方框图；

图3表示本发明的装置的实施例的流程图，该实施例不在装置中对语音处置命令进行语音分析；

图4A和4B表示主机的流程图，该主机对包含在从图3的装置拷贝的语音命令注释文件中的语音处置命令进行语音分析；

图5A和5B表示本发明的装置的实施例的流程图，该实施例在装置中对语音处置命令进行语音分析；

图6表示主机的流程图，该主机接收已经由图5A和5B的装置进行了语音分析的语音命令注释文件；

图7表示训练本发明的装置识别用户的语音处置命令输入的流程图。

具体实施方式

以下描述针对目前能考虑到的实施本发明的最好方式。该描述不是要用于限制、而仅仅是为了描述本发明的基本原则。本发明的范围应当以后附的权利要求书为基准来确定。

图1表示本发明的装置的方框图。现在参考图1，通过按下电源接通键来接通装置100的电源，该电源接通键是装置100上的几个控制键120之一。装置100从内部电池(图1中未示出)接收其电力，或者通过连接到装置100并且接通电源(图1中也未示出)的电力电缆接收其电力。还可以通过语音命令来接通装置100的电源。

用户这样操作装置100，使得摄像元件112捕获图象或文档。对于便携式手持文件扫描器，用户可以这样移动该扫描器，使得摄像元件112接触待扫描文件的表面的一部分或全部。摄像元件112用光学方法从文件的表面读出采样点，并且产生每一个采样点的灰度值。控制器106接收各采样点的灰度值，并且把它们组合成图象阵列。可以把所述结果输出到与控制器106连接的显示器114，以便显示被扫描文件平面的直观表示。控制器106还可以把所述灰度值转换成二进制形式，以便显示或存储。或者灰度形式或者二进制形式的图象阵列被从控制器106传输到静态存储器116，并且以文档数据文件的形式存储在静态存储器116。本专业的技术人员会认识到，以上的描述还可以用于能够利用各采样点的红绿兰(RGB)值捕获彩色图象的装置。

对于便携式手持数字摄像机，用户可以使该数字摄像机对着所需要的对象或者风景，并且按下控制键120中的一个，以便捕获和记录当前从所述对象或风景反射回来的、照射在摄像元件112上的光线。控制器106把画面图象分成许多固定的象素，测试每个象素的光线强度，并且将所述强度转换成数字。在彩色数字摄像机中，产生表示每个象素中红、绿和兰的数量的三种数字。所述象素被组合成图象阵列，并且，可以用类似于扫描器的方式把结果输出到显示器114，显示所述对象或风景的直观表示。或者黑白或者彩色的图象阵列被从控制器106输送到静态存储器116并且存储在静态存储器116中。

采用让用户靠近语音传感元件102讲话的方法来提供或者关于文档数据文件或者关于图象数据文件的语音处置命令。语音传感元件102把用户的语音转换成模拟信号。连接到语音传感元件102的是模数转换器104，它把由语音传感元件102产生的模拟信号转换成数字信号。模数转换器104把数字信号输送到控制器106，后者把所述信号存入动态存储器118中。然后，在本发明的最佳实施例中，控制器106访问存储在静态存储器116中的语音分析软件124。语音分析软件124对存储在动态存储器118中的数字信号进行一系列频率域变换，以便产生频谱变换的识别模式。本专业的技术人员会认识到，任何用于识别语音模式的其它合适的方法都可以用于本发明，代替频谱变换。

把所述识别模式与存储在静态存储器116中功能识别表126内的识别模式(也是频谱变换)进行比较。在本发明的另一个实施例中，功能识别表126不是存储在装置100中，而是存储主机系统200中。

如果存在匹配项，则控制器106把在功能识别表126中找到的、与匹配的识别模式相联系的命令号或命令文本以语音命令注释文件的形式存储在动态存储器118中。如果不存在匹配项，则控制器106向用户表示所提供的语音处置命令无效。这可以通过把用于输出的信息送往显示器114来实现。或者，可以向用户输出包括高频笛音或字的听得到的信息。数模转换器108把来自控制器控制器106的数字信号转换成模拟信号，然后，扬声器110把模拟信号转换成音频信号。

在本发明的最佳实施例中，在利用装置100捕获文件之后，用户可以对着语音传感元件102讲话，以便产生语音处置命令、语音注释、或者发出语音控制命令。在本发明的一个实施例中，为了区别语音输入的三种不同的目的，用户在讲话之前压下控制键120中的一个，并且把它保持在压下的状态。控制键120中的一个用于产生语音处置命令，而控制键120中的另一个用于产生语音注释。在没有压下控制键120中的任何一个的情况下，将把语音输入作为语音控制命令输入来处理。在任何一种情况下，压下控制键120中的任何一个键就向控制器106发送压下键输入信号，表示随后的语音输入流不是语音处置命令就是语音注释，根据压下的是控制键120中的哪一个键而定，但是，不会是语音控制命令输入信号。在用户结束讲话之后，用户松开控制键120中他压下的那个键。这向控制器106发送松开键输入信号，该信号标记或者关于语音处置命令或者关于语音注释的语音输入的结束。已经捕获的语音输入流不是作为语音命令注释文件就是作为语音注释文件被存储，根据压下的是控制键120中的哪一个键而定，并且，把已经捕获的语音输入流与捕获的图象数据文件或文档数据文件相联系并存储在装置100的静态存储器116中。把图象数据文件或文档数据文件与相关的语音命令注释文件或语音注释文件相联系的一种方法是使所述文件具有相同的文件名，但具有不同的文件扩展部分。可以把用于一个图象数据文件或文档数据文件的多个语音处置命令存储在一个语音命令注释文件中。另外，可以把多个语音命令注释文件与一个图象数据文件或一个文档数据文件相联系。控制键120中可能还有这样一个键：用户可能压下它以便接收语音控制命令。

在本发明的另一个实施例中，存在用来产生语音处置命令的语音控制命令，以及用来产生语音注释的语音控制命令。在发出任何一种语音控制命令之后，随后的语音输入流不是作为语音命令注释文件就是作为语音注释文件被捕获和存储，并且与图象数据文件或文档数据文件相联系。当用户在长于预定的时间间隔、例如2至5秒之间的一段时间内停止说话时，所述装置把没有语音输入的这种预定的时间间隔理解为标记着语音输入流的结束。

当在语音传感元件102中接收到任何类型的语音输入时，所述语音输入被转换成模拟信号。模数转换器104把由语音传感元件102产生的模拟信号转换成数字信号，并且把该数字信号输送到控制器106。控制器106或者把所述数字信号作为语音控制命令输入信号处理，或者以语音命令注释文件或语音注释文件的形式处理所述数字信号并且把它们存储在静态存储器116中，把图象数据文件或文档数据文件与任一种注释文件相联系。

用户可以要求装置100重放语音命令注释文件或语音注释文件的内容。控制器106从静态存储器116检索所要求的任一种文件，把它输送到数模转换器108，数模转换器108把存储在文件中的数字信号转换成模拟信号。把该模拟信号输送到扬声器110，扬声器110产生音频输出信号。此外，关于一种命令的特定的指令组可以利用数模转换器108和扬声器110向用户发送听得到的输出信号，以便确认接收到所述命令，或者，通过使发光二极管(LED)(图1中未示出)发光来确认所述命令。

可以通过连接到控制器106的主连接122把图象数据文件、文档数据文件、语音注释文件和语音命令注释文件拷贝到另一个装置，例如主机系统200(图2)。

图2表示与本发明的装置通信的主机系统的方框图。现在参考图2，主机系统200包含处理单元202。处理单元202通过系统总线204与主机系统200的其他单元通信。键盘206让用户可以将信息输入到主机系统200，图形显示器210允许主机系统200将信息输出给用户。鼠标208也用来输入信息，存储装置212用来在主机系统200内存储数据和程序。也连接到系统总线204的通信接口214从装置100的主连接(图1)接收信息。连接到系统总线204的扬声器/声卡216将声频信息输出给用户。有些主机系统可能没有声卡，在这种情况下扬声器仅由软件驱动。也连接到系统总线204上的存储器218包含操作系统220、文件转移软件222、语音分析软件224、用户接口程序226、声频文件转换软件228以及功能识别表230。在本发明的另一个实施例中，功能识别表230不存储在主机系统200中，而存储在装置100中。

文件转移软件222借助通信接口214并且经由系统总线204，接收通过主连接122从装置100拷贝的图象数据文件、文档数据文件、语音命令注释文件和语音注释文件，并且把它们存入存储装置212。然后，文件转移软件222开始处理拷贝到存储装置212中的所有语音命令注释文件。

对于其中语音命令注释文件具有WAV格式的本发明的实施例，文件转移软件222首先处理语音命令注释文件，以便产生关于它所包含的每一个命令的识别模式。文件转移软件222把来自语音命令注释文件的识别模式与存储在功能识别表230中的识别模式进行比较。当找到匹配项时，文件转移软件222开始执行与在功能识别表230中找到的识别模式的命令号或命令文本相联系的指令组。对于其中装置100对语音处置命令输入信号进行语音分析的本发明的实施例，文件转移软件222访问来自拷贝的语音命令注释文件的命令号或命令文本，并且执行相应的指令组。

用户接口程序226使用户可以选择具有语音注释文件的图象数据文件或文档数据文件。声频文件转换软件228把该语音注释文件转换成可以被扬声器/声卡216识别的声频文件格式。扬声器/声卡216向用户输出声频信息。在听到该声频信息之后，用户可以选择看所述图象数据文件或文档数据文件。如果这样的话，暂停用户接口程序226，调用与图象数据文件或文档数据文件相关的应用程序，并且在图形显示器210上显示图象数据文件。

在本发明的最佳实施例中，语音分析软件224被用户用来训练装置100去识别任何语言的用户语音处置命令和语音控制命令。装置100首先连接主机系统200。然后，用户访问语音分析软件224并选择待训练的特定功能，该特定功能由用户选择的用来调用所述功能的字来代表。然后用户将用户所选择的用来调用所述功能的字重复几次。最可能被用户选中的字是等同或接近所选择的特定功能的字，不管用户说的是什么语言。用户对与所述功能有关的字的重复被语音传感元件102(图1)所捕获，在装置100内被处理成为数字信号，并通过主连接122转移到通信接口214。通信接口214通过系统总线204将每一种数字信号转移到存储器218，在此语音分析软件224分析每一种数字信号。语音分析软件224根据每一种采样信号的组合产生识别模式，以便包含用户在发出为调用所述功能而选择的字时语音里的变化和音调。对可以使用的每一种预定的功能重复该过程，以便利用装置100发出语音处置命令。然后，把为全部所选用于训练的字建立的识别模式存储在功能识别表230中，并且使它们与独有的命令号或命令文本相联系。根据本发明的实施例，可以把用于语音处置命令的功能识别表从主机系统200下载到装置100，并存储在静态存储器116中，或者保存在主机系统200中。

图3表示本发明装置实施例的流程图，该实施例不在所述装置中对语音处置命令进行语音分析。现在参考图3，在步骤300中，接通装置100(图1)的电源。在步骤302中，利用装置100捕获第一图象或文档，并且把它作为图象数据文件或文档数据文件存储在静态存储器116(图1)中。步骤304确定在控制器106中(图1)是否接收到以下指示：将要产生关于在步骤302中存储的图象数据文件或文档数据文件的语音处置命令。可以通过控制器106接收来自控制键120(图1)之一的关于语音处置命令的压下键输入信号来作出这种指示。或者，控制器106可以接收用来产生语音处置命令的语音控制命令输入信号。如果在步骤304中未接收到这种指示，则控制过程转到步骤314。

如果在步骤304中接收到产生语音处置命令的指示，则在步骤306中，语音传感元件102(图1)捕获语音处置命令输入信号。在步骤308中，语音传感元件102把语音处置命令输入信号以模拟信号的形式输出到模数转换器104。在步骤310，模数转换器104把模拟信号转换成数字信号，并且把数字信号输出到控制器106。在步骤312，控制器106把数字信号以音频文件格式、例如WAV文件格式存储在静态存储器116中。所述WAV文件和已经为它们产生了语音处置命令的图象数据文件或文档数据文件彼此联系在一起。做到这一点的一种方法是使两个文件具有相同的文件名，但是具有不同的文件扩展部分。由于同一个的图象数据文件或文档数据文件可以既具有语音注释文件又具有语音命令注释文件，所以，语音注释文件将具有与语音命令注释文件不同的文件扩展部分，但是，所有三种文件将具有相同的文件名。通过把诸如“？？？？？？？.WAV.ONE”的扩展部分加到所述文件扩展部分上，或者，把诸如“？？？？？？？.WAV1”的参数加到所述文件扩展部分上，可以使多个语音命令注释文件与一个图象数据文件或一个文档数据文件相联系。

步骤314确定在控制器106中是否接收到关于捕获另一个图象或文件的指示。如果接收到这种指示，则控制过程返回步骤302，在那里捕获和存储下一个图象或文件。如果在步骤314中控制器106内未接收到关于捕获另一个图象或文件的指示，则在步骤316中，经由利用主连接122(图1)和通信接口214(图2)建立的连接把图象数据文件、文档数据文件、语音注释文件和语音命令注释文件从装置100拷贝到主机系统200。这种连接可以是通过导线电缆或红外线的连接，或者是任何其它合适的连接。可以拷贝全部文件，或者，仅仅拷贝那些由用户个别选择的文件。每当图象数据文件或文档数据文件被拷贝，任何有关的语音注释文件或语音命令注释文件就将自动地与图象数据文件或文档数据文件一起被拷贝。本专业的技术人员会认识到，在步骤314和316之间可能经过相当长的时间，例如，当用户在旅行中捕获图象或文件，然后回家，然后开始把数据拷贝到主机系统200上。在把文件拷贝到主机系统200之后，断开装置100的电源，于是，装置100的操作结束。

图4A和4B表示主机的流程图，该主机对包含在从图3的装置拷贝的语音命令注释文件中的语音处置命令进行语音分析。现在参考图4，在步骤400中，把文件转移软件222和语音分析软件224装入主机系统200的存储器218中(图2)。在步骤402中，主机系统200把来自图3中步骤316的图象数据文件、文档数据文件、语音注释文件和语音命令注释文件接纳到存储器218中。然后，文件转移软件222开始处理在步骤402中接收到的第一语音命令注释文件。在步骤406中，调用语音分析软件224、对存储在第一语音命令注释文件中的第一数字信号进行一系列频率域变换，以便产生关于所述数字信号的识别模式。在步骤408中，文件转移软件222将在步骤406产生的识别模式与存储在存储器218中功能识别表230(图2)内的、代表一些功能的若干识别模式进行比较。步骤410确定在步骤406中产生的识别模式与存储在功能识别表230(图2)内的任何识别模式是否存在匹配项。对于有效的语音命令注释，没有找到匹配项的原因包括：该用户说话太快、太慢、太微弱、离开语音传感元件102太远，或者带有使得最后的识别模式超出装在语音分析软件中的容限的口音。如果在步骤410中未找到匹配项，则步骤412调用图4B，使用户有可能手控地进行该用户曾经希望其被自动地执行的那些步骤。

如果在步骤410中找到匹配项，则在步骤414中，存储在功能识别表230中的、与存储在功能识别表230的识别模式相关的命令号或命令文本被用于访问指令或指令组，以实现由所述命令号或命令文本代表的功能。指令组也存储在功能识别表230中。然后，文件转移软件222执行该指令组。

步骤416确定在第一语音命令注释文件中是否存在更多的需要比较的识别模式。如果回答是肯定的，则控制过程返回步骤408，在那里，把下一个识别模式与存储在功能识别表230中的识别模式进行比较。如果在步骤416中没有更多的待比较的识别模式，则步骤418确是否还有待处理的语音命令注释文件。如果还有待处理的语音命令注释文件，则控制步骤返回步骤404。如果在步骤418没有更多的待处理的语音命令注释文件则控制系统返回操作系统220。

从图4A中的步骤412调用图4B。在步骤420中，把未发现匹配项的指示输出给用户。所述指示可能是输出给图形显示器210的文本信息，或者是输出给扬声器/声卡216的音频信息(图2)。在步骤422中，向用户输出提示，在这种场合，用户可以选择收听未找到匹配项的音频文件。步骤424确定是否接收到表示用户要求重放所述音频文件的输入信号。如果未接收到，则控制过程返回图4A的步骤416。如果从用户那里接收到选择重放的输入信号，则在步骤426调用声频文件转换软件228，以便重放来自步骤404的语音命令注释文件的内容。

在收听到存储在语音命令注释文件中的语音命令注释之后，在步骤428中，向用户输出提示，在这种情况下用户可以选择手控地执行这样一些操作：如果在步骤406中产生的识别模式已经与存储在功能识别表中的任何识别模式匹配的话，则这些操作可能已经被自动地执行了。步骤430确定是否接收到表示用户要求手控地执行操作的输入信号。如果未接收到，则控制过程返回图4A的步骤416。如果从用户那里接收到选择手控地执行操作的输入信号，则在步骤432中用户手控地执行所需要的操作。在用户执行这些操作之后，控制过程返回图4A的步骤416。

例如，假定在步骤426中重放的时候用户听到音频输出“电传给Bill Jones”。如果用户响应步骤428的提示在步骤430中选择执行手控操作，则在步骤432，用户将手控地访问电传实用程序，输入BillJones的电传号码，于是，电传与所述语音命令注释文件相联系的图象数据文件或文档数据文件。

图5A和5B表示本发明装置实施例的流程图，该实施例在所述装置中对语音处置命令进行语音分析。现在参考图5A和5B，在步骤500中，接通装置100(图1)的电源。在步骤502中，利用装置100捕获第一图象或文件，并且把它作为图象数据文件或文档数据文件存储在静态存储器116(图1)中。步骤504确定在控制器106中(图1)是否接收到以下指示：将要产生关于在步骤502中存储的图象数据文件或文档数据文件的语音处置命令。可以通过控制器106接收来自控制键120(图1)之一的关于语音处置命令的压下键输入信号来作出这种指示。或者，控制器106可以接收用来产生语音处置命令的语音控制命令。

如果在步骤504中未接收到这种指示，则控制过程转到步骤526。如果在步骤504中接收到产生语音处置命令的指示，则在步骤506中，语音传感元件102(图1)捕获第一语音处置命令输入信号。在步骤508中，语音传感元件102把语音处置命令输入信号以模拟信号的形式输出到模数转换器104(图2)。在步骤510中，模数转换器104把模拟信号转换成数字信号，并且把数字信号输出到控制器106。

在步骤512中，控制器106调用静态存储器116(图1)中的语音分析软件124，对存储在第一语音命令注释文件中的第一数字信号进行一系列频率域变换，以便产生关于所述数字信号的识别模式。在步骤514中，把如此产生的识别模式与用于存储在静态存储器116中功能识别表126(图1)内的功能的识别模式进行比较。如果在步骤516中未找到匹配项，则在步骤518中向用户输出未找到匹配项的指示以及给予用户的提示，让用户重复所述语音注释命令输入信号或者将它取消。所述指示可以是输出给显示器114的文本信息，或者是输出给扬声器110的音频信息(图1)。然后，步骤520确定在控制器106中是否接收到重复或者取消的指示。如果在步骤520中接收到重复的指示，则控制过程转到步骤506，在此处，语音传感元件102捕获重复的语音处置命令输入信号。如果在步骤520中接收到取消的指示，则控制过程转到步骤526。

如果在步骤516中找到匹配项，则在步骤522中把存储在功能识别表126中的与存储在功能识别表126中的识别模式相联系的命令号或命令文本存储在语音命令注释文件中。该语音命令注释文件与图象数据文件或文档数据文件相联系。步骤524确定是否存在更多的关于图象数据文件或文档数据文件的语音处置命令输入信号。如果回答是肯定的，则控制过程返回步骤506，在此处语音传感元件102捕获下一个语音处置命令输入信号。如果在步骤524中回答是否定的，则控制过程转到步骤526。

步骤526确定是否存在关于装置100将捕获下一个图象或文件的指示。如果回答是肯定的，则控制过程返回步骤502，在此处，装置100捕获下一个图象或文件，并且将它存储在静态存储器116中。如果在步骤526中回答是否定的，则在步骤328中，经由利用主连接122和通信接口214建立的连接把图象数据文件、文档数据文件、语音注释文件和语音命令注释文件从装置100拷贝到主机系统200。本专业的技术人员会认识到，在步骤526和528之间可能经过相当长的时间，例如，当用户在旅行中捕获图象或文件，然后回家，然后开始把数据拷贝到主机系统200上。在拷贝文件之后，断开装置100的电源，于是，装置100的操作结束。

图6表示主机的流程图，该主机接收已经由图5A和5B的装置进行了语音分析的语音命令注释文件。现在参考图6，在步骤600中，把文件转移软件222装入主机系统200的存储器218中(图2)。在步骤602中，主机系统200把来自图5中步骤528的图象数据文件、文档数据文件、语音注释文件和语音命令注释文件接纳到存储器218中。然后，在步骤604中，文件转移软件222开始处理在步骤602中接收到的第一语音命令注释文件。在步骤606中，第一语音命令注释文件的第一命令号或命令文本用来访问存储在功能识别表230(图2)中的、与所述命令号或命令文本相联系的指令或指令组。

在步骤606中已经执行了一个或多个指令之后，步骤608确定在来自步骤604的第一语音命令注释文件是否存在更多的命令号或命令文本。如果存在更多的命令号或命令文本，则控制过程返回步骤606，以便访问和执行与下一个命令号或命令文本相联系的下一个指令组。如果在步骤608中不存在更多的命令号或命令文本，则步骤610确定是否还有待处理的语音命令注释文件。如果回答是肯定的，则控制过程返回步骤604，在此处，处理下一个语音命令注释文件。如果在步骤610中回答是否定的，则控制过程返回操作系统220。

图7表示训练本发明的装置识别用户的语音处置命令输入的流程图。现在参考图7，在步骤700中，把语音分析软件224装入主机系统200中存储器218内(图2)。在步骤702中接通装置100(图1)的电源。在步骤704中，把装置100连接到主机系统200。这可以是通过导线电缆或红外线的连接，或者是任何其它合适的连接。在步骤706中，把来自用户的输入接纳到语音分析软件224中，根据其命令号或命令文本选择用于训练和语音发分析的第一功能。然后，在步骤708中，语音分析软件224提示用户用听得到的方式向装置100的语音传感元件102多次重复该用户为产生所述第一功能而选择的命令字。在步骤710中，装置100把由语音传感元件102捕获的多次语音输入处理成数字信号，并且把它输送到主机系统200的语音分析软件224中。在步骤712中，语音分析软件224分析所述在步骤710中接收到的多个数字信号，并且产生所述命令字的识别模式。在步骤714中，把步骤712的识别模式存储在存储器218中。

步骤716确定用户是否已经选择用于训练和语音分析的下一个功能，或者，是否接收到关于用户已经完成对用于训练和语音分析的功能的选择的指示。如果在步骤716中已经选择下一个功能，则控制过程返回步骤706。如果接收到关于用户完成了对功能的选择的指示，则在步骤718中，语音分析软件224经由在步骤704中建立的连接，把在步骤712中确定并且在步骤714中存储的所有识别模式，以及与每一种功能相联系的命令号或命令文本转移到装置100。在步骤720中，把所述各识别模式及其相关的在步骤718中转移的命令号或命令文本存储到静态存储器116中功能识别表126(图1)。把每一种功能用的识别模式和命令号或命令文本与如下的指令组相联系：在接收到当处理成识别模式时与步骤712中确定的识别模式之一匹配的语音控制命令输入信号时，将执行该指令组。在步骤720之后，装置100的训练和语音分析结束。

在本发明的另一个实施例中，可以在不连接到主机的情况下实现为了识别用户语音处置命令输入信号而对本发明的装置进行的训练。这是通过以下的方法来实现的：把语音分析软件124存储在静态存储器116中，接着的是上述各步骤，除了与主机有关的步骤之外。

在如此描述过本发明的当前最佳实施例之后，本专业的技术人员应该了解，他们自己可以在不偏离权利要求书中限定的本发明的范围的情况下，提出结构与电路上的许多变化以及本发明的许多不同的实施例和应用。这里所公开的和所描述的意在说明，在任何意义上都不是对本发明的限制，本发明的范围由以下权利要求书限定。

Claims

1.用于装置(100)的语音命令注释方法，所述方法包括以下步骤：

(a)利用所述装置(100)中的语音传感元件(102)捕获(306，506)语音处置命令；

(b)利用所述装置(100)中的控制器(106)处理所述语音处置命令；

(c)把由所述控制器(106)处理过的语音处置命令存储在语音命令注释文件中；

(d)把所述语音命令注释文件与所述装置(100)中的数据文件相联系(312，522)；

(e)把所述数据文件和所述语音命令注释文件从所述装置(100)拷贝(316，528)到主机系统(200)；

(f)在主机系统(200)中处理所述语音命令注释文件，以便识别至少一种与所述语音处置命令相联系的功能；

(g)执行(414，606)与所述至少一种功能相联系的至少一条指令，其中，所述至少一条指令对所述数据文件起作用。

2.根据权利要求1的用于装置(100)的语音命令注释方法，其特征在于步骤(a)进一步包括步骤(a1)，步骤(b)进一步包括步骤(b1)，步骤(c)进一步包括步骤(c1)，步骤(f)进一步包括步骤(f1)，以及步骤(g)进一步包括步骤(g1)：

(a1)利用所述装置(100)中的所述语音传感元件(102)捕获(306，506)多个附加的语音处置命令；

(b1)利用所述装置(100)中的所述控制器(106)处理所述多个附加的语音处置命令；

(c1)把由所述控制器(106)处理过的多个语音处置命令存储在所述语音命令注释文件中；

(f1)在所述主机系统(200)中处理所述语音命令注释文件，以便识别多种附加功能，其中，所述多种附加功能中的每一种与所述多个附加语音处置命令中的每一个相联系；以及

(g1)执行(414，606)多条附加的至少一条指令，其中，每一组所述多条附加的至少一条指令中的一条指令与每一组所述多种附加功能中的一种功能相联系，并且其中，所述多条附加的至少一条指令中的每一条对所述数据文件起作用。

3.根据权利要求1的用于装置(100)的语音命令注释方法，其特征在于步骤(a)进一步包括步骤(a1)至步骤(a3)，步骤(c)进一步包括步骤(c1)，步骤(d)进一步包括步骤(d1)：

(a1)以模拟信号的形式把所述语音处置命令从所述语音传感元件(102)输出(308)到所述装置(100)中的模数转换器(104)；

(a2)在所述模数转换器(104)中把所述模拟信号转换(310)成数字信号；

(a3)把所述数字信号从所述模数转换器(104)输出到所述控制器(106)；

(c1)通过所述控制器(106)，把所述数字信号存储(312)到所述装置(100)的静态存储器(116)中所述语音命令注释文件内，其中，所述语音命令注释文件具有音频文件格式；以及

(d1)通过使所述数据文件和所述语音命令注释文件具有相同的文件名来把所述数据文件和所述语音命令注释文件联系(312)在一起，并且，使所述数据文件具有第一文件扩展名，而使所述语音命令注释文件具有第二文件扩展名。

4.根据权利要求3的用于装置(100)的语音命令注释方法，其特征在于步骤(e)进一步包括在步骤(e)之前执行的步骤(e0)和在步骤(e)之后执行的步骤(e1)，并且步骤(f)进一步包括步骤(f1)至步骤(f5)：

(e0)把文件转移软件(222)和语音分析软件(224)装入(400)所述主机系统(200)的存储器(218)中；

(e1)通过所述文件转移软件(222)把所述数据文件和所述语音命令注释文件接纳(402)到所述主机系统(200)的所述存储器(218)中；

(f1)通过所述语音分析软件(224)对所述语音命令注释文件中所述数据信号进行(406)多次频率域变换；

(f2)通过所述语音分析软件(224)、从所述多次频率域变换中产生(406)第一识别模式，其中，所述第一识别模式是所述数字信号的频谱变换；

(f3)通过所述文件转移软件(222)，把所述第一识别模式与所述至少一种功能的、存储在所述主机系统(200)的所述存储器(218)中功能识别表(230)内的至少一个识别模式进行比较(408)；

(f3a)当所述第一识别模式与存储在所述功能识别表(230)中的所述至少一种功能的所述至少一个识别模式不匹配时，在所述主机系统(200)中输出(420)表示未找到匹配项的第一信息，并且在所述主机系统(200)中输出(420)提示收听所述命令注释文件的输入信号的第二信息；

(f3b)当接收到(424)来自步骤(f3a)的所述收听输入信号时，调用(426)音频文件转换软件(228)以便处理用于音频输出的所述语音命令注释文件，并且，在所述主机系统中输出(428)提示用于手控操作的输入信号的第三信息；

(f3c)当接收到(430)来自步骤(f3b)的所述用于手控操作的输入信号时，挂起所述语音命令注释方法，直至完成手控操作；

(f4)当所述第一识别模式与存储在所述功能识别表(230)中的所述至少一种功能的所述至少一个识别模式匹配时，由所述文件转移软件(222)检索与所述至少一个识别模式相联系的命令号；以及

(f5)由所述文件转移软件(222)借助所述命令号访问所述至少一个指令，其中，所述至少一个指令连接到所述命令号。

5.根据权利要求1的用于装置(100)的语音命令注释方法，其特征在于步骤(a)进一步包括步骤(a1)至(a4)，步骤(b)进一步包括步骤(b1)至(b5)，步骤(c)进一步包括步骤(c1)，以及步骤(d)进一步包括步骤(d1)：

(a1)把所述语音处置命令以模拟信号的形式从所述语音传感元件(102)输出(508)到所述装置(100)中的模数转换器(104)；

(a2)在所述模数转换器(104)中把所述模拟信号转换(510)成数字信号；

(a4)通过所述控制器(106)，把所述数字信号存储到所述装置(100)的动态存储器(118)中；

(b1)通过所述控制器(106)，从所述装置(100)的静态存储器(116)中调用语音分析软件(124)；

(b2)通过所述语音分析软件(124)对所述动态存储器(118)中所述数据信号进行(512)多次频率域变换；

(b3)通过所述语音分析软件(124)、从所述多次频率域变换中产生(512)第一识别模式，其中，所述第一识别模式是所述数字信号的频谱变换；

(b4)把所述第一识别模式与关于存储在所述装置(100)的所述静态存储器(116)中功能识别表(126)内的所述至少一种功能的至少一个识别模式进行比较(514)；

(b4a)当所述第一识别模式与存储在所述功能识别表(126)中的所述至少一种功能的所述至少一个识别模式不匹配时，在所述装置(100)中输出(518)表示未找到匹配项的第一信息，并且在所述装置(100)中输出(518)提示重复或者取消所述语音处置命令的输入信号的第二信息；

(b5)当所述第一识别模式与存储在所述功能识别表(126)中的关于所述至少一种功能的所述至少一个识别模式匹配(518)时，通过所述控制器(106)检索存储在所述静态存储器(116)中的、与所述至少一个识别模式相联系的命令号；

(c1)通过所述控制器(106)，把所述命令号存储(522)到所述装置(100)的静态存储器(116)中所述语音命令注释文件内；以及

(d1)通过使所述数据文件和所述语音命令注释文件具有相同的文件名来把所述数据文件和所述语音命令注释文件联系在一起，并且，使所述数据文件具有第一文件扩展名，而使所述语音命令注释文件具有第二文件扩展名。

6.根据权利要求4或者权利要求5的用于装置(100)的语音命令注释方法，其特征在于所述命令号是命令文本。

7.根据权利要求5的用于装置(100)的语音命令注释方法，其特征在于步骤(e)进一步包括在步骤(e)之前执行的步骤(e0)和在步骤(e)之后执行的步骤(e1)，并且步骤(f)进一步包括步骤(f1)至步骤(f2)：

(e0)把文件转移软件(222)装入(600)所述主机系统(200)的存储器(218)中；

(e1)通过所述文件转移软件(222)把所述数据文件和所述语音命令注释文件接纳(602)到所述主机系统(200)的所述存储器(218)中；

(f1)利用所述文件转移软件(222)从所述语音命令注释文件中检索(606)所述命令号；以及

(f2)借助所述命令号，访问存储在所述存储器(218)中所述功能识别表(230)内的所述至少一个指令，其中，所述至少一个指令连接到所述命令号。

8.根据权利要求5的用于装置(100)的语音命令注释方法，其特征在于步骤(a)进一步包括在步骤(a)之前执行的步骤(a0a)至步骤(a0j)：

(a0a)把语音分析软件(224)装入(700)主机系统(200)的存储器(218)中；

(a0b)把所述装置(100)连接(704)到所述主机系统(200)；

(a0c)选择(706)一种预定的功能，利用所述语音分析软件(224)，对用来调用所述预定功能的至少一个字进行训练和分析；

(a0d)在所述装置(100)的所述语音传感元件(102)中捕获(710)所述至少一个字的多个语音输入；

(a0e)在所述装置(100)中把所述多个语音输入处理(710)成多个数字信号；

(a0f)把所述多个数字信号从所述装置(100)发送(710)到所述主机系统(200)；

(a0g)利用所述语音分析软件(224)分析(712)所述多个数字信号；

(a0h)利用所述语音分析软件(224)，从对所述多个数字信号的分析中产生(712)所述至少一个识别模式；

(a0i)把所述至少一个识别模式存储(714)在所述主机系统(200)的所述存储器(218)中所述功能识别表(230)内；

(a0j)转移(718)所述主机系统(200)的所述存储器(218)中所述功能识别表(230)内的所述至少一个识别模式，以便存储在所述装置(100)的所述存储器(116)中所述功能识别表(126)内，其中，使所述命令号与所述至少一个识别模式相联系；以及

(a0k)对于多个预定的功能，重复步骤(a0a)至步骤(a0j)，其中，从关于多个所述至少一个字的多个语音输入中产生多个识别模式，并且，其中，把所述多个识别模式存储(720)在所述装置(100)的所述存储器(116)中所述功能识别表(126)内，其中，所述多个识别模式中的每一个与存储在所述存储器(116)中所述功能识别表(126)内多个命令号中的一个相联系。

9.根据权利要求8的用于装置(100)的语音命令注释方法，其特征在于步骤(a0a)被新的步骤(a0a)代替，删除步骤(a0b)、(a0f)和(a0i)，并且步骤(a0j)被新的步骤(a0j)代替：

(a0a)在所述装置(100)中访问所述静态存储器(116)中的所述语音分析软件(124)；以及

(a0j)把所述至少一个识别模式存储在所述装置(100)的所述存储器(116)中所述功能识别表(126)内，其中，所述至少一个识别模式与存储在所述存储器(116)中所述功能识别表(126)内的命令号相联系。

10.根据权利要求1的用于装置(100)的语音命令注释方法，其特征在于步骤(a)进一步包括在步骤(a)之前执行的步骤(a0)，步骤(b)进一步包括步骤(b1)：

(a0)在所述控制器(106)中，接收来自所述装置(100)上注释控制键(120)的压下键输入信号，其中，使所述装置(100)能够利用所述语音传感元件(102)捕获所述语音处置命令；

(b1)在所述控制器(106)中，接收来自所述装置(100)上注释控制键(120)的松开键输入信号，其中，使所述装置(100)不能够利用所述语音传感元件(102)捕获所述语音处置命令。