CN1752897A

CN1752897A - 把图形数据输入图形输入区的系统和方法

Info

Publication number: CN1752897A
Application number: CNA2005101040774A
Authority: CN
Inventors: 查尔斯·W.·克罗斯; 戴维·加拉米洛; 马克·怀特
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2004-09-20
Filing date: 2005-09-15
Publication date: 2006-03-29
Anticipated expiration: 2025-09-15
Also published as: TW200630868A; US8296149B2; US20060074680A1; US20090199101A1; US7509260B2; CN100338558C

Abstract

把图形数据输入图形输入区的系统(20)包括把图形数据输入图形输入区的图形输入设备(22)，和对开始向图形输入设备提供图形数据起反应的处理器可执行的话音表单模块(28)。话音表单模块(28)确定是否已完成把图形数据输入图形输入区。把图形数据输入图形输入区的方法包括通过图形输入设备开始把图形数据输入图形输入区，并响应开始把图形数据输入图形输入区，启动话音表单模块。

Description

把图形数据输入图形输入区的系统和方法

技术领域

本发明涉及数据处理和通信系统，更具体地说，涉及把数据输入数据处理或通信系统。

背景技术

多数建立在数据描述可扩展置标语言(XML)上的最新发展已导致新的基于Web的应用，包括多模式界面或浏览器。多模式浏览器允许用户访问多模式内容，既可以是图形的又是可听的内容。按照惯例，用户利用来自键盘的图形输入或手动指引的屏幕指针输入访问Web内容。后来，用户能够利用语音输入。最近，用户已能够通过多模式界面访问Web内容，多模式界面既允许使用图形输入，又允许使用语音输入。

一种多模式浏览器由可扩展的超文本置标语言(XHTML)+语音(更简洁地表示成X+V置标语言)提供。X+V置标语言扩展传统的图形浏览器，以包括口头交互作用。X+V置标语言综合XHTML、XML事件和作为万维网联盟(W3C)语音接口架构开发的VoiceXML。该综合包括支持语音合成、语音对话、命令和控制应用、以及语音语法的话音模块。话音处理程序可被附加在XHTML部件上，应答可视浏览器的特定文档对象模型(DOM)事件。

通过实现相对于Web的基于话音的界面以及更多常规界面，X+V置标语言已帮助把因特网的范围扩展到除个人计算机之外的更多设备。一种扩展出现在工业手持式设备的领域中，所述手持式设备利用X+V置标语言组合语音识别和Web浏览器来提供可在无手工键盘输入数据项的情况下被操纵的输入和输出(I/O)装置。这些所谓的免持设备包括非传统的I/O能力，例如条形码扫描器提供的那些I/O能力。

但是，多模式界面向工业手持式设备的扩展受到缺少利用这种设备输入数据或编辑数据的有力且有效的方式的阻碍。这归因于就多数这种设备来说，难以确定何时数据已被输入，直到用户手工轻轻点击数据输入区为止。

发明内容

本发明提供一种自动检测何时已完成通过图形输入设备把图形数据输入图形输入区的系统和方法。所提供的系统和方法还确定输入图形输入区的图形数据是否有效。

根据本发明的系统可包括把图形数据输入图形输入区的图形输入设备，和对开始向图形输入设备提供图形数据起反应的处理器可执行的话音表单(form)模块。话音表单模块能够确定是否已完成把图形数据输入图形输入区。

一种把图形数据输入图形输入区的方法可包括开始通过图形输入设备把图形数据输入图形输入区，响应开始把图形数据输入图形输入区，启动话音表单模块，以便确定是否已完成把图形数据输入图形输入区。

此外，启动话音表单模块可包括启动用于捕获与图形输入区对应的初始值的第一话音表单功能。第一话音表单功能随后能够启动在预定时间轮询图形输入区的计时功能。每隔一段时间的轮询可被用于确定对应于图形输入区的至少一个后续值。启动话音表单模块还可包括根据对应于图形输入区的最终值，启动第二话音表单功能。第二话音表单功能能够确定对应于图形输入区的最终值是否包含在预定的一组有效值中。

附图说明

附图中表示了目前优选的实施例，但是本发明并不局限于附图中所示的精确结构和手段。

图1是根据本发明的把图形数据输入图形输入区的系统的示意图；

图2是图1的系统的操作特征的示意图；

图3是根据本发明的另一实施例的把图形数据输入图形输入区的方法的流程图；

图4是根据本发明的又一实施例的把图形数据输入图形输入区的系统的示意图；

图5是根据本发明的又一实施例的把图形数据输入图形输入区的方法的流程图。

具体实施方式

本发明提供一种把图形数据输入图形输入区，例如用诸如HTML之类置标语言编写的Web文档的输入区中的系统。该系统自动检测借助图形输入装置，例如扫描仪、键盘或包含手动指引的指针和图形用户界面(GUI)的组合设备，把图形数据输入图形输入区的过程的完成。另外，该系统根据预定标准，确定输入的数据是否是有效数据。如果在图形数据被输入图形输入区之后，最初提供的图形数据被确定为无效，那么该系统还能够提示用户重新向图形输入设备提供图形数据。

这里使用的短语“图形数据”表示计算机可读数据，包括文本，以及除文本之外的可视对象。因此，短语“图形数据”还包括图形，不被保存为ASCII字符的文本和利用二进制数字或字母数字字符表现的程序代码。该短语还包括例如可借助条形码扫描器读入数据处理系统中的条形码表示。从而，短语“图形数据”的使用意图包括和基于话音的数据不同的数据。

图1是根据本发明的一个实施例的系统20的示意图。系统20被例证具体体现成当用户执行下面更详细说明的某些任务时，能够被手持的手持式设备。系统20包括图形输入设备22。图形输入设备22是例如扫描或读入包含图形数据的文档23的扫描器。这样的图形数据可以是例如传送不同类型的信息的条形码。图形输入设备22还可接收电子编码信息，例如可通过射频识别(RFID)标签，智能芯片，包含信息的磁条等获得的信息。设备22接收的信息可被用于保持存货清单，监视销售额或购买额，跟踪关键组件，或者用于通过把数据读入电子数据库，能够有力并有效执行的许多其它功能中的任意之一。

扫描器可以是独立设备，或者它可以是除图示的手持设备之外的数据处理或通信系统的一个集成部分。图形输入设备22可以是例如键盘或者蜂窝电话机或个人数字助理(PDA)的数据输入键的类似阵列。图形输入设备22还可包括包含视像扫描器以及数据输入键阵列的组合。

系统20还包括与图形输入设备22连接的处理器24。本领域的普通技术人员易于理解，处理器24可接收来自图形输入设备22的电信号，并从该信号中得到对应的数据表示，例如各种长度代码字。处理器24可以是通用计算机或除图示的手持设备之外的专用设备。本领域的普通技术人员易于理解，处理器24可包括一个或多个逻辑门电路或其它数据处理电路。

处理器24从图形输入设备22产生的信号中得到的数据表示形成图形数据，该图形数据被输入保存的电子文档的图形输入区中。因此，系统20还包括用于保存包含图形输入区的电子文档的存储器26。如前所述，图形输入区可以是例如用诸如HTML之类置标语言编写的Web文档的输入区。

通过在系统20中包含一个话音表单模块28，实现图形数据到图形输入区的输入何时已被完成的确定。响应图形数据到图形输入区的初始输入，激活话音表单模块28。根据本发明的一个实施例，话音表单模块28通过评估图形输入区的值的变化，确定图形数据到图形输入区的输入是否完成。这是利用轮询技术来实现的，其中话音表单模块28间歇地询问图形输入区的值。当图形数据被输入图形输入区时，对应值发生变化。当输入完成时，图形输入区的值停止变化。通过间歇检测图形输入区的值，话音表单模块28能够检测该值何时已停止变化，从而确定输入何时已被完成。

图2是具有n个图形输入区的典型文档29的示意图，所述n个图形输入区的对应值是F_1i，F_2i，...，F_ni。第一个图形输入区的初始值在时间t₁是F₁₁。当图形数据被输入时，第一图形输入区的值在时间t₂改变成F₁₂。在时间tj，典型文档29的第一图形输入区的最终值为F_1j。该值在后续的时间间隔内不变。因此F_1j＝F_1j+1。系统20把这认为是图形数据到图形输入区的输入已完成的指示。因此，系统20移动到下一图形输入区，如果还有要填充的其它图形输入区的话。

根据一个实施例，话音表单模块28包括第一和第二话音表单功能30、32。操作上，第一话音表单功能由话音表单呼叫(未示出)激活。第一话音表单功能捕获在时间t₁，图形输入区的初始值F₁₁，并启动以预定的时间间隔轮询图形输入区的计时功能(未示出)。预定的时间间隔可被选为任意持续时间。例如，计时器功能可以500毫秒的时间间隔轮询输入区。当在过去500毫秒时间间隔之后，检测到对应于输入区的值的变化，那么认为变化值指示图形数据正在被输入。当在过去500毫秒之后没有检测到任何变化，那么认为图形数据的输入已完成。

可选的是，话音表单模块28包括由第一话音表单功能30激活的第二话音表单功能32。第二话音表单功能32确定对应于图形输入区的最终值是否包含在预定的一组有效值之内。如果所述最终值不在预定的一组有效值之内，那么第二话音表单功能32使对应的图形输入区被清除。随后系统20能够继续输入图形数据的过程，包括把数据输入到要用图形数据填充的任何剩余的图形输入区中。在一些情况下，当图形数据事实上并非无效时，图形数据可能被确定为无效。例如如果数据被不正确地输入，那么会发生这种情况。于是，可选的是，话音表单模块使系统20提示用户重新输入最初被确定为无效的图形数据。因此，可选的是，系统20包括与话音变换器34耦接，以便向用户传送所述提示的文语转移(text-to-speech)(TTS)处理器。

话音表单模块28被实现成一些可保存在存储器26中并由处理器24处理，以实现所述功能的一组软件指令。最好，利用脚本语言或脚本实现所述指令。脚本是一种可由理解编写脚本的语言的程序直接执行的计算机代码。脚本不需要被编译成要被执行的目标代码。许多Web站点(即使不是大多数Web站点)使用脚本来构成嵌入Web页数据中的相当小的自主式程序。众所周知的脚本语言包括例如Javascript、ECMAscript和VBscript。

下面是一组用于实现话音表单模块28的典型脚本指令。根据这些相同的指令配置系统20，尤其是话音表单模块28的话音表单功能30和32，以便读入条形码形式的图形数据。如前所述，指令实现的第一个话音表单功能30保存图形输入区的当前值，并启动计时功能。一旦确定输入区的值已发生变化，那么计时功能继续间歇轮询图形输入区，直到值停止变化为止。这有助于确保当图形数据正被扫描输入图形输入区时，利用条形码查寻表实现的可选的有效性检查不被启动。第一指令只输出指令用户扫描条形码的TTS提示：

<vxml：form id＝scannerform_focus>

<vxml：block>

Please scan in bar code.

<vxml：assign name＝″input2Started″＝expr＝″true″/>

<vxml：value expr＝″startInput2Timer()″/>

</vxml：block>

</vxml：form>

如同下面的脚本代码的剩余部分中反映的那样，有时可取的是使用隐藏的输入区而不是可视的文本输入项。这有助于确保用户不会无意中改变图形输入区的内容。从而，如同下面的典型脚本指令中说明的那样，一旦话音模块28确定用户已开始条形码形式的图形数据的输入，那么它就把焦点设置到隐藏的输入区“scanner_input_hidden”。如同下面的脚本指令所示，这再激活第二话音表单功能“scannerform_script_hidden_focus”，所述第二话音表单功能关于有效条形码询问输入区。如果找到一个有效条形码，那么第二话音表单功能正常退出。如果否，那么它设置指示该过程需要被重新开始的标记：

var initialInput2Value；

var lastInput2Value；

var timerID；

function startInput2Timer()

{

initalInput2Value ＝

document.getElementByID(′scanner_input_2′).value；

timerID＝set setInterval(′input2Timer()′，500)；

}

function input2Timer()

{

var curInput2Value ＝

document.getElementById(′scanner_input_2′).value：

if(curInput2Value！＝initialInput2Value)

{

if(curInput2Value＝＝initialInput2Value

{

clearInterval(timerID)；

document.getElementById(′scanner_input_hidden′).focus()；

}

lastInput2Value＝curInput2Value；

}

</script>

为了便于说明，这里使用的话音表单从模拟数据库查寻条形码。如果扫描的代码有效，那么话音表单正常退出。否则，如同举例说明的那样，提示用户通过再次扫描重新输入图形数据：

<vxml：form id＝″scanner_script_hidden_focus″>

<vxml：block>

<vxml：if cond＝″input2Started＝＝false″>

<vxml：return/>

<vxml：if

</vxml：block>

<vxml：block/>

<vxml：asssign name＝″input2Started″expr＝″false″/>

<vxml：vat name ＝

″barcodeTitle″expr＝″lookupBarcode(′scanner_input_2′)″/>

<vxml：if cond＝″barcodeTitle！＝″″>

Bar code scanned is<vxml：value expr＝″barcodeTitle″/>

<vxml：else/>

Bar code scanned is not recognized.Please try again.

<vxml：assign name＝″input2NeedsRestart″expr＝″true″/>

</vxml：if>

</vxml：block>

</vxml：form>

注意如果设置了“input2NeedsRestart”标记，则意味着初始表单应被重新开始。

<vxml：form id＝″scannerform_script_hidden_done″>

<vxml：block>

<vxml：if cond＝″input2NeedsRestart＝＝true>

<vxml：assign name＝″input2NeedsRestart″expr＝

″false″/>

<vxml：value>

</vxml：if>

<vxml：return/>

<vxml：block>

</vxml：form>

下述脚本指令重置文档装入标记。

done loading＝true；

</script>

<ev：listener ev：event＝″vxmldone″ev：handler＝

″#scannerform_javascritpt_hidden_done″

ev：observer＝″scanner_input_hidden″ev：propagate＝″stop″/>

</head>

<body>

<p>Click in the field and scan barcode，say done when

finished：</pr></br>

<input type＝″text″id＝″scanner_input_1″onfocus＝″this.select()″

ev：event＝″focus″

ev：handler＝#scannerform_voice″/>

注意在下面的脚本指令中，集中选择输入区的所有文本内容。这有助于确保每次扫描，图形输入区的整个内容被替换，而不只是被附加。

<p>click in the field and scan a barcode，we will detect when

finisted：</p></br>

<input type＝″text″id＝″scanner_input_2″onfocus＝

″this.select()″ev：event＝″focus″

ev：handler＝″#scannerform_script_focus″/>

input type＝″hidden″id＝″scanner_input_hidden″ev：event＝″focus″

ev：handler＝#scannerform_script_hidden_focus″/>

<body>

<html>.

图3是图解说明用上述脚本指令实现的系统20的话音表单模块28的操作特征的流程图。图形数据的输入始于步骤300，在步骤300，启动借助图形输入设备的图形数据的输入。这开始于将被输入图形数据的可视图形输入区的聚焦(focus)的实现。本领域的普通技术人员易于理解，聚焦表示借助其输入以事件启动对象为目标的机制。在当前上下文中，事件是通过图形输入设备22的图形数据的输入的开始，事件启动对象是将被输入图形数据的图形输入区。在步骤305，事件激活第一话音表单功能30。可选的是，在步骤310，系统20提示用户扫描条形码，并在步骤315开始设置输入(set input)操作。

在步骤320启动计时功能，在步骤325，捕获可视图形输入区的初始值。在步骤315，随着时间的过去，计时功能间歇比较图形输入区的值，确定该值是否发生变化。变化值指示正在进行图形数据的输入，它提示系统20在步骤330继续等待图形数据输入的完成。当该值停止变化时，指示输入完成，在步骤335激活隐藏图形输入区的聚焦。于是在步骤340，隐藏图形输入区实现聚焦。该事件在步骤345启动第二话音表单功能32。如果条形码有效，那么该过程结束。否则，在不正确地输入数据的情况下，在步骤350提示用户重新开始输入图形数据。如果存在要输入图形数据的其它图形输入区，那么在步骤350重新开始该过程。

系统20可被包含在多模式应用中，否则对于所述多模式应用来说，至少在不通过用户手动退出输入区来指示输入完成的情况下，难以确定何时已完成对输入区的数据输入。因此，系统20允许用户向输入设备22提供图形数据，并且在免持模式下，将逐个输入区地输入图形数据，在每个输入区被填写之后，用户不必通过手动指示输入完成来推动输入。从而，系统能够使用迄今为止一直难以包含到诸如手持式条形码扫描器，PDA之类设备中的I/O设备。

图4是根据本发明的一个备选实施例的系统400的示意图。如上所述，系统400包括把图形数据输入图形输入区的图形输入设备22。同样如上所述，系统还包括与图形输入设备22连接的处理器22，以及与处理器连接的存储器26。可选的是，系统400还包括文语转换(TTS)处理器和话音变换器52。但是，系统400包含与上述话音表单模块不同的备选话音表单模块48。

在该备选实施例中，话音表单模块48包括提示用户，以指示何时已完成图形数据的输入的用户提示模块50。话音表单模块48还包括识别至少一个预定用户发音的语音识别模块52，所述至少一个预定用户发音指示已完全把图形数据输入图形输入区。操作上，话音表单模块48根据话音识别模块识别的语音，确定已完全把图形数据输入图形输入区。

话音表单模块48包括用于提示用户扫入条形码，并且当条形码已被扫入时发出单词“完成”的下述脚本代码。

<vxml：form id＝″scannerform_voice″>

<vxml：field name＝″waitforscan″>

<vxml：prompt>Please scan a bar code and

say done when finished.</vxml>

<vxml：grammar>

<！[CDATA[

#JSGF V1.0；

grammar finished；

public<finished>＝done|finished；

]]>

</vxml：grammar>

<vxml：filled>

<vxml：var name ＝ ″barcodeTitle″

expr＝″lookupBarcode(′scanner_input_1′)″/>

<vxml：if cond＝″barcodeTitle！″″>

Bar code scanned is<vxml：value expr＝

″barcodeTitle″/>

<vxml：assign

name＝″document.getElementById(′scanner_input_1′).value″expr＝

″barcodeTitle″/>

<vxml：else/>

Bar code scanned is not recognized.Please try

again

<vxml：value

expr＝″document.getElementbyId(′scanner_input_1′).select()″/>

<vxml：clear/>

<vxml：if/>

</vxml：filled>

</vxml：field>

</vxml：form>

图5中的流程图图解说明了根据本发明的另一实施例的另一方法500。方法500包括在步骤510，开始通过图形输入设备把图形数据输入图形输入区。响应图形数据输入的开始，在步骤520提示用户扫入条形码数据。方法500还包括响应开始把图形数据输入图形输入区，在步骤530启动话音表单模块。话音表单确定是否已完成把图形数据输入图形输入区。响应在步骤540，用户利用指示输入完成的识别单词或短语，发出预先选择的语音，完成所述确定。该方法还包括在步骤550通过得到包含在预定的一组有效图形数据值中的一个值，确定输入的图形数据是否构成有效的图形数据。

虽然在这两个实施例中，话音表单模块被实现成一系列的计算机可读指令，不过本领域的普通技术人员易于理解另一方面也可用专用电路，或者计算机指令和专用电路的组合来实现所述功能。因此，可用硬件、软件或硬件和软件的组合来实现本发明。可在一个计算机系统中集中地实现本发明，或者可分布地实现本发明，不同的部件被散布在几个互连的计算机系统中。适于实现这里描述的方法的任意类型的计算机系统或其它设备都是适合的。硬件和软件的典型组合可以是具有计算机程序的通用计算机系统，所述计算机程序当被装入并被执行时，控制计算机系统实现这里所述的方法。

本发明还可被嵌入计算机程序产品中，所述计算机程序产品包括能够实现这里描述的方法的所有特征，当被装入计算机系统时，所述计算机程序产品能够实现这些方法。本上下文中的计算机程序意味着用任意语言、代码或符号编写的一组指令的任意表述，所述一组指令意图使系统具有直接地或者在下述任意之一或者下述两者之后执行特定功能的信息处理能力：a)转换成另一语言、代码或符号；b)用不同的材料形式再现。

在不脱离本发明的精神或本性的情况下，可用其它形式具体体现本发明。因此，本发明的范围应由下述权利要求限定，而不是由前面的说明书限定。

Claims

1、一种把图形数据输入图形输入区的方法，所述方法包括：

开始通过图形输入设备把图形数据输入图形输入区；和

响应开始把图形数据输入图形输入区，启动话音表单模块；

所述话音表单模块确定是否已完成把图形数据输入图形输入区。

2、按照权利要求1所述的方法，其中启动话音表单模块包括：

启动第一话音表单功能；

第一话音表单功能捕获与图形输入区对应的初始值，随后启动每隔预定的时间轮询图形输入区的计时功能，从而确定对应于图形输入区的至少一个后续值；和

根据对应于图形输入区的最终值，启动第二话音表单功能；

第二话音表单功能确定对应于图形输入区的最终值是否包含在预定的一组有效值中。

3、按照权利要求1所述的方法，其中如果图形数据的输入已完成，并且如果图形数据至少包括第一和第二图形数据元素，那么话音表单模块引起图形数据的后续输入。

4、按照权利要求1所述的方法，其中话音表单模块确定输入图形输入区中的图形数据是否是其值包含在预定的一组有效图形数据元素值中的图形数据元素。

5、按照权利要求4所述的方法，其中如果输入图形输入区的图形数据是其值未包含在预定的一组有效图形数据元素值中的图形数据元素，那么话音表单模块产生提示用户重新向图形输入设备提供图形数据的用户提示。

6、按照权利要求1所述的方法，其中启动话音表单功能产生通知用户的用户提示，以指示何时已完成把图形数据输入图形输入区。

7、按照权利要求1所述的方法，其中话音表单模块确定输入图形输入区的图形数据是否是其值包含在预定的一组有效图形数据元素值中的图形数据元素，如果输入图形输入区的图形数据是其值未包含在预定的一组有效图形数据元素值中的图形数据元素，那么提示用户重新向图形输入设备提供图形数据。

8、按照权利要求1所述的方法，其中图形输入区包括隐藏的输入区。

9、一种把图形数据输入图形输入区的系统，所述系统包括：

把图形数据输入图形输入区的图形输入设备；和

对开始向图形输入设备提供图形数据作出响应的处理器可执行的话音表单模块；

话音表单模块确定是否已完成把图形数据输入图形输入区。

10、按照权利要求9所述的系统，还包括接收话音输入，并响应图形数据的输入，提供基于话音的用户提示的话音输入/输出设备。

11、按照权利要求10所述的系统，还包括识别通过话音输入/输出设备接收的话音的语音识别组件。

12、按照权利要求9所述的系统，其中话音表单功能包括：

第一话音表单功能；

第一话音表单功能捕获与图形输入区对应的初始值，随后启动每隔预定时间轮询图形输入区的计时功能，从而确定对应于图形输入区的至少一个后续值；和

响应对应于图形输入区的最终值，启动的第二话音表单功能；

13、按照权利要求9所述的系统，其中如果图形数据的输入已完成，并且如果图形数据至少包括第一和第二图形数据元素，那么话音表单功能还引起图形数据的后续输入。

14、按照权利要求9所述的系统，其中话音表单功能确定输入图形输入区的图形数据是否是其值包含在预定的一组有效图形数据元素值中的图形数据元素。

15、按照权利要求14所述的系统，其中如果输入图形输入区的图形数据是其值未包含在预定的一组有效图形数据元素值中的图形数据元素，那么话音表单功能还提示用户重新向图形输入设备提供图形数据。

16、按照权利要求9所述的系统，其中启动话音表单功能产生通知用户的用户提示，以指示何时已完成把图形数据输入图形输入区。

17、一种包含计算机指令的计算机可读存储介质，所述计算机指令用于：

开始通过图形输入设备把图形数据输入图形输入区；和

响应开始把图形数据输入图形输入区，启动话音表单功能；

所述话音表单功能确定是否已完成把图形数据输入图形输入区。

18、按照权利要求17所述的计算机可读存储介质，其中启动话音表单功能的计算机指令包括用于实现下述操作的计算机指令：

启动第一话音表单功能；

根据对应于图形输入区的最终值，启动第二话音表单功能；

19、按照权利要求17所述的计算机可读存储介质，其中如果图形数据的输入已完成，和如果图形数据至少包括第一和第二图形数据元素，那么话音表单功能还导致图形数据的后续输入。

20、按照权利要求17所述的计算机可读存储介质，其中话音表单功能还确定输入图形输入区中的图形数据是否是其值包含在预定的一组有效图形数据元素值中的图形数据元素。

21、按照权利要求17所述的计算机可读存储介质，其中话音表单功能产生通知用户的用户提示，以指示何时已完成把图形数据输入图形输入区。