CN1752897A - 把图形数据输入图形输入区的系统和方法 - Google Patents
把图形数据输入图形输入区的系统和方法 Download PDFInfo
- Publication number
- CN1752897A CN1752897A CNA2005101040774A CN200510104077A CN1752897A CN 1752897 A CN1752897 A CN 1752897A CN A2005101040774 A CNA2005101040774 A CN A2005101040774A CN 200510104077 A CN200510104077 A CN 200510104077A CN 1752897 A CN1752897 A CN 1752897A
- Authority
- CN
- China
- Prior art keywords
- graph data
- input field
- speech list
- speech
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000004044 response Effects 0.000 claims abstract description 10
- 230000000977 initiatory effect Effects 0.000 abstract 2
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013479 data entry Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Input From Keyboards Or The Like (AREA)
Abstract
把图形数据输入图形输入区的系统(20)包括把图形数据输入图形输入区的图形输入设备(22),和对开始向图形输入设备提供图形数据起反应的处理器可执行的话音表单模块(28)。话音表单模块(28)确定是否已完成把图形数据输入图形输入区。把图形数据输入图形输入区的方法包括通过图形输入设备开始把图形数据输入图形输入区,并响应开始把图形数据输入图形输入区,启动话音表单模块。
Description
技术领域
本发明涉及数据处理和通信系统,更具体地说,涉及把数据输入数据处理或通信系统。
背景技术
多数建立在数据描述可扩展置标语言(XML)上的最新发展已导致新的基于Web的应用,包括多模式界面或浏览器。多模式浏览器允许用户访问多模式内容,既可以是图形的又是可听的内容。按照惯例,用户利用来自键盘的图形输入或手动指引的屏幕指针输入访问Web内容。后来,用户能够利用语音输入。最近,用户已能够通过多模式界面访问Web内容,多模式界面既允许使用图形输入,又允许使用语音输入。
一种多模式浏览器由可扩展的超文本置标语言(XHTML)+语音(更简洁地表示成X+V置标语言)提供。X+V置标语言扩展传统的图形浏览器,以包括口头交互作用。X+V置标语言综合XHTML、XML事件和作为万维网联盟(W3C)语音接口架构开发的VoiceXML。该综合包括支持语音合成、语音对话、命令和控制应用、以及语音语法的话音模块。话音处理程序可被附加在XHTML部件上,应答可视浏览器的特定文档对象模型(DOM)事件。
通过实现相对于Web的基于话音的界面以及更多常规界面,X+V置标语言已帮助把因特网的范围扩展到除个人计算机之外的更多设备。一种扩展出现在工业手持式设备的领域中,所述手持式设备利用X+V置标语言组合语音识别和Web浏览器来提供可在无手工键盘输入数据项的情况下被操纵的输入和输出(I/O)装置。这些所谓的免持设备包括非传统的I/O能力,例如条形码扫描器提供的那些I/O能力。
但是,多模式界面向工业手持式设备的扩展受到缺少利用这种设备输入数据或编辑数据的有力且有效的方式的阻碍。这归因于就多数这种设备来说,难以确定何时数据已被输入,直到用户手工轻轻点击数据输入区为止。
发明内容
本发明提供一种自动检测何时已完成通过图形输入设备把图形数据输入图形输入区的系统和方法。所提供的系统和方法还确定输入图形输入区的图形数据是否有效。
根据本发明的系统可包括把图形数据输入图形输入区的图形输入设备,和对开始向图形输入设备提供图形数据起反应的处理器可执行的话音表单(form)模块。话音表单模块能够确定是否已完成把图形数据输入图形输入区。
一种把图形数据输入图形输入区的方法可包括开始通过图形输入设备把图形数据输入图形输入区,响应开始把图形数据输入图形输入区,启动话音表单模块,以便确定是否已完成把图形数据输入图形输入区。
此外,启动话音表单模块可包括启动用于捕获与图形输入区对应的初始值的第一话音表单功能。第一话音表单功能随后能够启动在预定时间轮询图形输入区的计时功能。每隔一段时间的轮询可被用于确定对应于图形输入区的至少一个后续值。启动话音表单模块还可包括根据对应于图形输入区的最终值,启动第二话音表单功能。第二话音表单功能能够确定对应于图形输入区的最终值是否包含在预定的一组有效值中。
附图说明
附图中表示了目前优选的实施例,但是本发明并不局限于附图中所示的精确结构和手段。
图1是根据本发明的把图形数据输入图形输入区的系统的示意图;
图2是图1的系统的操作特征的示意图;
图3是根据本发明的另一实施例的把图形数据输入图形输入区的方法的流程图;
图4是根据本发明的又一实施例的把图形数据输入图形输入区的系统的示意图;
图5是根据本发明的又一实施例的把图形数据输入图形输入区的方法的流程图。
具体实施方式
本发明提供一种把图形数据输入图形输入区,例如用诸如HTML之类置标语言编写的Web文档的输入区中的系统。该系统自动检测借助图形输入装置,例如扫描仪、键盘或包含手动指引的指针和图形用户界面(GUI)的组合设备,把图形数据输入图形输入区的过程的完成。另外,该系统根据预定标准,确定输入的数据是否是有效数据。如果在图形数据被输入图形输入区之后,最初提供的图形数据被确定为无效,那么该系统还能够提示用户重新向图形输入设备提供图形数据。
这里使用的短语“图形数据”表示计算机可读数据,包括文本,以及除文本之外的可视对象。因此,短语“图形数据”还包括图形,不被保存为ASCII字符的文本和利用二进制数字或字母数字字符表现的程序代码。该短语还包括例如可借助条形码扫描器读入数据处理系统中的条形码表示。从而,短语“图形数据”的使用意图包括和基于话音的数据不同的数据。
图1是根据本发明的一个实施例的系统20的示意图。系统20被例证具体体现成当用户执行下面更详细说明的某些任务时,能够被手持的手持式设备。系统20包括图形输入设备22。图形输入设备22是例如扫描或读入包含图形数据的文档23的扫描器。这样的图形数据可以是例如传送不同类型的信息的条形码。图形输入设备22还可接收电子编码信息,例如可通过射频识别(RFID)标签,智能芯片,包含信息的磁条等获得的信息。设备22接收的信息可被用于保持存货清单,监视销售额或购买额,跟踪关键组件,或者用于通过把数据读入电子数据库,能够有力并有效执行的许多其它功能中的任意之一。
扫描器可以是独立设备,或者它可以是除图示的手持设备之外的数据处理或通信系统的一个集成部分。图形输入设备22可以是例如键盘或者蜂窝电话机或个人数字助理(PDA)的数据输入键的类似阵列。图形输入设备22还可包括包含视像扫描器以及数据输入键阵列的组合。
系统20还包括与图形输入设备22连接的处理器24。本领域的普通技术人员易于理解,处理器24可接收来自图形输入设备22的电信号,并从该信号中得到对应的数据表示,例如各种长度代码字。处理器24可以是通用计算机或除图示的手持设备之外的专用设备。本领域的普通技术人员易于理解,处理器24可包括一个或多个逻辑门电路或其它数据处理电路。
处理器24从图形输入设备22产生的信号中得到的数据表示形成图形数据,该图形数据被输入保存的电子文档的图形输入区中。因此,系统20还包括用于保存包含图形输入区的电子文档的存储器26。如前所述,图形输入区可以是例如用诸如HTML之类置标语言编写的Web文档的输入区。
通过在系统20中包含一个话音表单模块28,实现图形数据到图形输入区的输入何时已被完成的确定。响应图形数据到图形输入区的初始输入,激活话音表单模块28。根据本发明的一个实施例,话音表单模块28通过评估图形输入区的值的变化,确定图形数据到图形输入区的输入是否完成。这是利用轮询技术来实现的,其中话音表单模块28间歇地询问图形输入区的值。当图形数据被输入图形输入区时,对应值发生变化。当输入完成时,图形输入区的值停止变化。通过间歇检测图形输入区的值,话音表单模块28能够检测该值何时已停止变化,从而确定输入何时已被完成。
图2是具有n个图形输入区的典型文档29的示意图,所述n个图形输入区的对应值是F1i,F2i,...,Fni。第一个图形输入区的初始值在时间t1是F11。当图形数据被输入时,第一图形输入区的值在时间t2改变成F12。在时间tj,典型文档29的第一图形输入区的最终值为F1j。该值在后续的时间间隔内不变。因此F1j=F1j+1。系统20把这认为是图形数据到图形输入区的输入已完成的指示。因此,系统20移动到下一图形输入区,如果还有要填充的其它图形输入区的话。
根据一个实施例,话音表单模块28包括第一和第二话音表单功能30、32。操作上,第一话音表单功能由话音表单呼叫(未示出)激活。第一话音表单功能捕获在时间t1,图形输入区的初始值F11,并启动以预定的时间间隔轮询图形输入区的计时功能(未示出)。预定的时间间隔可被选为任意持续时间。例如,计时器功能可以500毫秒的时间间隔轮询输入区。当在过去500毫秒时间间隔之后,检测到对应于输入区的值的变化,那么认为变化值指示图形数据正在被输入。当在过去500毫秒之后没有检测到任何变化,那么认为图形数据的输入已完成。
可选的是,话音表单模块28包括由第一话音表单功能30激活的第二话音表单功能32。第二话音表单功能32确定对应于图形输入区的最终值是否包含在预定的一组有效值之内。如果所述最终值不在预定的一组有效值之内,那么第二话音表单功能32使对应的图形输入区被清除。随后系统20能够继续输入图形数据的过程,包括把数据输入到要用图形数据填充的任何剩余的图形输入区中。在一些情况下,当图形数据事实上并非无效时,图形数据可能被确定为无效。例如如果数据被不正确地输入,那么会发生这种情况。于是,可选的是,话音表单模块使系统20提示用户重新输入最初被确定为无效的图形数据。因此,可选的是,系统20包括与话音变换器34耦接,以便向用户传送所述提示的文语转移(text-to-speech)(TTS)处理器。
话音表单模块28被实现成一些可保存在存储器26中并由处理器24处理,以实现所述功能的一组软件指令。最好,利用脚本语言或脚本实现所述指令。脚本是一种可由理解编写脚本的语言的程序直接执行的计算机代码。脚本不需要被编译成要被执行的目标代码。许多Web站点(即使不是大多数Web站点)使用脚本来构成嵌入Web页数据中的相当小的自主式程序。众所周知的脚本语言包括例如Javascript、ECMAscript和VBscript。
下面是一组用于实现话音表单模块28的典型脚本指令。根据这些相同的指令配置系统20,尤其是话音表单模块28的话音表单功能30和32,以便读入条形码形式的图形数据。如前所述,指令实现的第一个话音表单功能30保存图形输入区的当前值,并启动计时功能。一旦确定输入区的值已发生变化,那么计时功能继续间歇轮询图形输入区,直到值停止变化为止。这有助于确保当图形数据正被扫描输入图形输入区时,利用条形码查寻表实现的可选的有效性检查不被启动。第一指令只输出指令用户扫描条形码的TTS提示:
<vxml:form id=scannerform_focus>
<vxml:block>
Please scan in bar code.
<vxml:assign name=″input2Started″=expr=″true″/>
<vxml:value expr=″startInput2Timer()″/>
</vxml:block>
</vxml:form>
如同下面的脚本代码的剩余部分中反映的那样,有时可取的是使用隐藏的输入区而不是可视的文本输入项。这有助于确保用户不会无意中改变图形输入区的内容。从而,如同下面的典型脚本指令中说明的那样,一旦话音模块28确定用户已开始条形码形式的图形数据的输入,那么它就把焦点设置到隐藏的输入区“scanner_input_hidden”。如同下面的脚本指令所示,这再激活第二话音表单功能“scannerform_script_hidden_focus”,所述第二话音表单功能关于有效条形码询问输入区。如果找到一个有效条形码,那么第二话音表单功能正常退出。如果否,那么它设置指示该过程需要被重新开始的标记:
<script type=″text/javascript″>
var initialInput2Value;
var lastInput2Value;
var timerID;
function startInput2Timer()
{
initalInput2Value =
document.getElementByID(′scanner_input_2′).value;
timerID=set setInterval(′input2Timer()′,500);
}
function input2Timer()
{
var curInput2Value =
document.getElementById(′scanner_input_2′).value:
if(curInput2Value!=initialInput2Value)
{
if(curInput2Value==initialInput2Value
{
clearInterval(timerID);
document.getElementById(′scanner_input_hidden′).focus();
}
lastInput2Value=curInput2Value;
}
}
</script>
为了便于说明,这里使用的话音表单从模拟数据库查寻条形码。如果扫描的代码有效,那么话音表单正常退出。否则,如同举例说明的那样,提示用户通过再次扫描重新输入图形数据:
<vxml:form id=″scanner_script_hidden_focus″>
<vxml:block>
<vxml:if cond=″input2Started==false″>
<vxml:return/>
<vxml:if
</vxml:block>
<vxml:block/>
<vxml:asssign name=″input2Started″expr=″false″/>
<vxml:vat name =
″barcodeTitle″expr=″lookupBarcode(′scanner_input_2′)″/>
<vxml:if cond=″barcodeTitle!=″″>
Bar code scanned is<vxml:value expr=″barcodeTitle″/>
<vxml:else/>
Bar code scanned is not recognized.Please try again.
<vxml:assign name=″input2NeedsRestart″expr=″true″/>
</vxml:if>
</vxml:block>
</vxml:form>
注意如果设置了“input2NeedsRestart”标记,则意味着初始表单应被重新开始。
<vxml:form id=″scannerform_script_hidden_done″>
<vxml:block>
<vxml:if cond=″input2NeedsRestart==true>
<vxml:assign name=″input2NeedsRestart″expr=
″false″/>
<vxml:value>
</vxml:if>
<vxml:return/>
<vxml:block>
</vxml:form>
下述脚本指令重置文档装入标记。
<script type=″text/javascript″>
done loading=true;
</script>
<ev:listener ev:event=″vxmldone″ev:handler=
″#scannerform_javascritpt_hidden_done″
ev:observer=″scanner_input_hidden″ev:propagate=″stop″/>
</head>
<body>
<p>Click in the field and scan barcode,say done when
finished:</pr></br>
<input type=″text″id=″scanner_input_1″onfocus=″this.select()″
ev:event=″focus″
ev:handler=#scannerform_voice″/>
注意在下面的脚本指令中,集中选择输入区的所有文本内容。这有助于确保每次扫描,图形输入区的整个内容被替换,而不只是被附加。
<p>click in the field and scan a barcode,we will detect when
finisted:</p></br>
<input type=″text″id=″scanner_input_2″onfocus=
″this.select()″ev:event=″focus″
ev:handler=″#scannerform_script_focus″/>
input type=″hidden″id=″scanner_input_hidden″ev:event=″focus″
ev:handler=#scannerform_script_hidden_focus″/>
<body>
<html>.
图3是图解说明用上述脚本指令实现的系统20的话音表单模块28的操作特征的流程图。图形数据的输入始于步骤300,在步骤300,启动借助图形输入设备的图形数据的输入。这开始于将被输入图形数据的可视图形输入区的聚焦(focus)的实现。本领域的普通技术人员易于理解,聚焦表示借助其输入以事件启动对象为目标的机制。在当前上下文中,事件是通过图形输入设备22的图形数据的输入的开始,事件启动对象是将被输入图形数据的图形输入区。在步骤305,事件激活第一话音表单功能30。可选的是,在步骤310,系统20提示用户扫描条形码,并在步骤315开始设置输入(set input)操作。
在步骤320启动计时功能,在步骤325,捕获可视图形输入区的初始值。在步骤315,随着时间的过去,计时功能间歇比较图形输入区的值,确定该值是否发生变化。变化值指示正在进行图形数据的输入,它提示系统20在步骤330继续等待图形数据输入的完成。当该值停止变化时,指示输入完成,在步骤335激活隐藏图形输入区的聚焦。于是在步骤340,隐藏图形输入区实现聚焦。该事件在步骤345启动第二话音表单功能32。如果条形码有效,那么该过程结束。否则,在不正确地输入数据的情况下,在步骤350提示用户重新开始输入图形数据。如果存在要输入图形数据的其它图形输入区,那么在步骤350重新开始该过程。
系统20可被包含在多模式应用中,否则对于所述多模式应用来说,至少在不通过用户手动退出输入区来指示输入完成的情况下,难以确定何时已完成对输入区的数据输入。因此,系统20允许用户向输入设备22提供图形数据,并且在免持模式下,将逐个输入区地输入图形数据,在每个输入区被填写之后,用户不必通过手动指示输入完成来推动输入。从而,系统能够使用迄今为止一直难以包含到诸如手持式条形码扫描器,PDA之类设备中的I/O设备。
图4是根据本发明的一个备选实施例的系统400的示意图。如上所述,系统400包括把图形数据输入图形输入区的图形输入设备22。同样如上所述,系统还包括与图形输入设备22连接的处理器22,以及与处理器连接的存储器26。可选的是,系统400还包括文语转换(TTS)处理器和话音变换器52。但是,系统400包含与上述话音表单模块不同的备选话音表单模块48。
在该备选实施例中,话音表单模块48包括提示用户,以指示何时已完成图形数据的输入的用户提示模块50。话音表单模块48还包括识别至少一个预定用户发音的语音识别模块52,所述至少一个预定用户发音指示已完全把图形数据输入图形输入区。操作上,话音表单模块48根据话音识别模块识别的语音,确定已完全把图形数据输入图形输入区。
话音表单模块48包括用于提示用户扫入条形码,并且当条形码已被扫入时发出单词“完成”的下述脚本代码。
<vxml:form id=″scannerform_voice″>
<vxml:field name=″waitforscan″>
<vxml:prompt>Please scan a bar code and
say done when finished.</vxml>
<vxml:grammar>
<![CDATA[
#JSGF V1.0;
grammar finished;
public<finished>=done|finished;
]]>
</vxml:grammar>
<vxml:filled>
<vxml:var name = ″barcodeTitle″
expr=″lookupBarcode(′scanner_input_1′)″/>
<vxml:if cond=″barcodeTitle!″″>
Bar code scanned is<vxml:value expr=
″barcodeTitle″/>
<vxml:assign
name=″document.getElementById(′scanner_input_1′).value″expr=
″barcodeTitle″/>
<vxml:else/>
Bar code scanned is not recognized.Please try
again
<vxml:value
expr=″document.getElementbyId(′scanner_input_1′).select()″/>
<vxml:clear/>
<vxml:if/>
</vxml:filled>
</vxml:field>
</vxml:form>
图5中的流程图图解说明了根据本发明的另一实施例的另一方法500。方法500包括在步骤510,开始通过图形输入设备把图形数据输入图形输入区。响应图形数据输入的开始,在步骤520提示用户扫入条形码数据。方法500还包括响应开始把图形数据输入图形输入区,在步骤530启动话音表单模块。话音表单确定是否已完成把图形数据输入图形输入区。响应在步骤540,用户利用指示输入完成的识别单词或短语,发出预先选择的语音,完成所述确定。该方法还包括在步骤550通过得到包含在预定的一组有效图形数据值中的一个值,确定输入的图形数据是否构成有效的图形数据。
虽然在这两个实施例中,话音表单模块被实现成一系列的计算机可读指令,不过本领域的普通技术人员易于理解另一方面也可用专用电路,或者计算机指令和专用电路的组合来实现所述功能。因此,可用硬件、软件或硬件和软件的组合来实现本发明。可在一个计算机系统中集中地实现本发明,或者可分布地实现本发明,不同的部件被散布在几个互连的计算机系统中。适于实现这里描述的方法的任意类型的计算机系统或其它设备都是适合的。硬件和软件的典型组合可以是具有计算机程序的通用计算机系统,所述计算机程序当被装入并被执行时,控制计算机系统实现这里所述的方法。
本发明还可被嵌入计算机程序产品中,所述计算机程序产品包括能够实现这里描述的方法的所有特征,当被装入计算机系统时,所述计算机程序产品能够实现这些方法。本上下文中的计算机程序意味着用任意语言、代码或符号编写的一组指令的任意表述,所述一组指令意图使系统具有直接地或者在下述任意之一或者下述两者之后执行特定功能的信息处理能力:a)转换成另一语言、代码或符号;b)用不同的材料形式再现。
在不脱离本发明的精神或本性的情况下,可用其它形式具体体现本发明。因此,本发明的范围应由下述权利要求限定,而不是由前面的说明书限定。
Claims (21)
1、一种把图形数据输入图形输入区的方法,所述方法包括:
开始通过图形输入设备把图形数据输入图形输入区;和
响应开始把图形数据输入图形输入区,启动话音表单模块;
所述话音表单模块确定是否已完成把图形数据输入图形输入区。
2、按照权利要求1所述的方法,其中启动话音表单模块包括:
启动第一话音表单功能;
第一话音表单功能捕获与图形输入区对应的初始值,随后启动每隔预定的时间轮询图形输入区的计时功能,从而确定对应于图形输入区的至少一个后续值;和
根据对应于图形输入区的最终值,启动第二话音表单功能;
第二话音表单功能确定对应于图形输入区的最终值是否包含在预定的一组有效值中。
3、按照权利要求1所述的方法,其中如果图形数据的输入已完成,并且如果图形数据至少包括第一和第二图形数据元素,那么话音表单模块引起图形数据的后续输入。
4、按照权利要求1所述的方法,其中话音表单模块确定输入图形输入区中的图形数据是否是其值包含在预定的一组有效图形数据元素值中的图形数据元素。
5、按照权利要求4所述的方法,其中如果输入图形输入区的图形数据是其值未包含在预定的一组有效图形数据元素值中的图形数据元素,那么话音表单模块产生提示用户重新向图形输入设备提供图形数据的用户提示。
6、按照权利要求1所述的方法,其中启动话音表单功能产生通知用户的用户提示,以指示何时已完成把图形数据输入图形输入区。
7、按照权利要求1所述的方法,其中话音表单模块确定输入图形输入区的图形数据是否是其值包含在预定的一组有效图形数据元素值中的图形数据元素,如果输入图形输入区的图形数据是其值未包含在预定的一组有效图形数据元素值中的图形数据元素,那么提示用户重新向图形输入设备提供图形数据。
8、按照权利要求1所述的方法,其中图形输入区包括隐藏的输入区。
9、一种把图形数据输入图形输入区的系统,所述系统包括:
把图形数据输入图形输入区的图形输入设备;和
对开始向图形输入设备提供图形数据作出响应的处理器可执行的话音表单模块;
话音表单模块确定是否已完成把图形数据输入图形输入区。
10、按照权利要求9所述的系统,还包括接收话音输入,并响应图形数据的输入,提供基于话音的用户提示的话音输入/输出设备。
11、按照权利要求10所述的系统,还包括识别通过话音输入/输出设备接收的话音的语音识别组件。
12、按照权利要求9所述的系统,其中话音表单功能包括:
第一话音表单功能;
第一话音表单功能捕获与图形输入区对应的初始值,随后启动每隔预定时间轮询图形输入区的计时功能,从而确定对应于图形输入区的至少一个后续值;和
响应对应于图形输入区的最终值,启动的第二话音表单功能;
第二话音表单功能确定对应于图形输入区的最终值是否包含在预定的一组有效值中。
13、按照权利要求9所述的系统,其中如果图形数据的输入已完成,并且如果图形数据至少包括第一和第二图形数据元素,那么话音表单功能还引起图形数据的后续输入。
14、按照权利要求9所述的系统,其中话音表单功能确定输入图形输入区的图形数据是否是其值包含在预定的一组有效图形数据元素值中的图形数据元素。
15、按照权利要求14所述的系统,其中如果输入图形输入区的图形数据是其值未包含在预定的一组有效图形数据元素值中的图形数据元素,那么话音表单功能还提示用户重新向图形输入设备提供图形数据。
16、按照权利要求9所述的系统,其中启动话音表单功能产生通知用户的用户提示,以指示何时已完成把图形数据输入图形输入区。
17、一种包含计算机指令的计算机可读存储介质,所述计算机指令用于:
开始通过图形输入设备把图形数据输入图形输入区;和
响应开始把图形数据输入图形输入区,启动话音表单功能;
所述话音表单功能确定是否已完成把图形数据输入图形输入区。
18、按照权利要求17所述的计算机可读存储介质,其中启动话音表单功能的计算机指令包括用于实现下述操作的计算机指令:
启动第一话音表单功能;
第一话音表单功能捕获与图形输入区对应的初始值,随后启动每隔预定的时间轮询图形输入区的计时功能,从而确定对应于图形输入区的至少一个后续值;和
根据对应于图形输入区的最终值,启动第二话音表单功能;
第二话音表单功能确定对应于图形输入区的最终值是否包含在预定的一组有效值中。
19、按照权利要求17所述的计算机可读存储介质,其中如果图形数据的输入已完成,和如果图形数据至少包括第一和第二图形数据元素,那么话音表单功能还导致图形数据的后续输入。
20、按照权利要求17所述的计算机可读存储介质,其中话音表单功能还确定输入图形输入区中的图形数据是否是其值包含在预定的一组有效图形数据元素值中的图形数据元素。
21、按照权利要求17所述的计算机可读存储介质,其中话音表单功能产生通知用户的用户提示,以指示何时已完成把图形数据输入图形输入区。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/945,119 US7509260B2 (en) | 2004-09-20 | 2004-09-20 | Systems and methods for inputting graphical data into a graphical input field |
US10/945,119 | 2004-09-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1752897A true CN1752897A (zh) | 2006-03-29 |
CN100338558C CN100338558C (zh) | 2007-09-19 |
Family
ID=36126680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005101040774A Expired - Fee Related CN100338558C (zh) | 2004-09-20 | 2005-09-15 | 把图形数据输入图形输入区的系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US7509260B2 (zh) |
CN (1) | CN100338558C (zh) |
TW (1) | TW200630868A (zh) |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7359979B2 (en) * | 2002-09-30 | 2008-04-15 | Avaya Technology Corp. | Packet prioritization and associated bandwidth and buffer management techniques for audio over IP |
US20040073690A1 (en) | 2002-09-30 | 2004-04-15 | Neil Hepworth | Voice over IP endpoint call admission |
US7978827B1 (en) | 2004-06-30 | 2011-07-12 | Avaya Inc. | Automatic configuration of call handling based on end-user needs and characteristics |
US7509260B2 (en) * | 2004-09-20 | 2009-03-24 | International Business Machines Corporation | Systems and methods for inputting graphical data into a graphical input field |
US9083798B2 (en) * | 2004-12-22 | 2015-07-14 | Nuance Communications, Inc. | Enabling voice selection of user preferences |
US20060150082A1 (en) * | 2004-12-30 | 2006-07-06 | Samir Raiyani | Multimodal markup language tags |
US8032825B2 (en) * | 2005-06-16 | 2011-10-04 | International Business Machines Corporation | Dynamically creating multimodal markup documents |
US20060288309A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Displaying available menu choices in a multimodal browser |
US20060287858A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers |
US7917365B2 (en) | 2005-06-16 | 2011-03-29 | Nuance Communications, Inc. | Synchronizing visual and speech events in a multimodal application |
US8090584B2 (en) | 2005-06-16 | 2012-01-03 | Nuance Communications, Inc. | Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency |
US20060287865A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Establishing a multimodal application voice |
US7747639B2 (en) * | 2005-08-24 | 2010-06-29 | Yahoo! Inc. | Alternative search query prediction |
US7844599B2 (en) * | 2005-08-24 | 2010-11-30 | Yahoo! Inc. | Biasing queries to determine suggested queries |
US7672932B2 (en) | 2005-08-24 | 2010-03-02 | Yahoo! Inc. | Speculative search result based on a not-yet-submitted search query |
US8073700B2 (en) * | 2005-09-12 | 2011-12-06 | Nuance Communications, Inc. | Retrieval and presentation of network service results for mobile device using a multimodal browser |
US8719034B2 (en) | 2005-09-13 | 2014-05-06 | Nuance Communications, Inc. | Displaying speech command input state information in a multimodal browser |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US20080046872A1 (en) * | 2006-05-03 | 2008-02-21 | Cooper Greg J | Compiler using interactive design markup language |
US20070274297A1 (en) * | 2006-05-10 | 2007-11-29 | Cross Charles W Jr | Streaming audio from a full-duplex network through a half-duplex device |
US7848314B2 (en) * | 2006-05-10 | 2010-12-07 | Nuance Communications, Inc. | VOIP barge-in support for half-duplex DSR client on a full-duplex network |
US9208785B2 (en) * | 2006-05-10 | 2015-12-08 | Nuance Communications, Inc. | Synchronizing distributed speech recognition |
US8332218B2 (en) * | 2006-06-13 | 2012-12-11 | Nuance Communications, Inc. | Context-based grammars for automated speech recognition |
US7676371B2 (en) * | 2006-06-13 | 2010-03-09 | Nuance Communications, Inc. | Oral modification of an ASR lexicon of an ASR engine |
US8374874B2 (en) | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
US7761805B2 (en) * | 2006-09-11 | 2010-07-20 | Yahoo! Inc. | Displaying items using a reduced presentation |
US8145493B2 (en) | 2006-09-11 | 2012-03-27 | Nuance Communications, Inc. | Establishing a preferred mode of interaction between a user and a multimodal application |
US8086463B2 (en) | 2006-09-12 | 2011-12-27 | Nuance Communications, Inc. | Dynamically generating a vocal help prompt in a multimodal application |
US7957976B2 (en) | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
US8073697B2 (en) * | 2006-09-12 | 2011-12-06 | International Business Machines Corporation | Establishing a multimodal personality for a multimodal application |
US7630970B2 (en) * | 2006-11-28 | 2009-12-08 | Yahoo! Inc. | Wait timer for partially formed query |
US7827033B2 (en) | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US8069047B2 (en) * | 2007-02-12 | 2011-11-29 | Nuance Communications, Inc. | Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application |
US8150698B2 (en) * | 2007-02-26 | 2012-04-03 | Nuance Communications, Inc. | Invoking tapered prompts in a multimodal application |
US7801728B2 (en) | 2007-02-26 | 2010-09-21 | Nuance Communications, Inc. | Document session replay for multimodal applications |
US20080208594A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Effecting Functions On A Multimodal Telephony Device |
US8713542B2 (en) * | 2007-02-27 | 2014-04-29 | Nuance Communications, Inc. | Pausing a VoiceXML dialog of a multimodal application |
US20080208586A1 (en) * | 2007-02-27 | 2008-08-28 | Soonthorn Ativanichayaphong | Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application |
US9208783B2 (en) * | 2007-02-27 | 2015-12-08 | Nuance Communications, Inc. | Altering behavior of a multimodal application based on location |
US7822608B2 (en) * | 2007-02-27 | 2010-10-26 | Nuance Communications, Inc. | Disambiguating a speech recognition grammar in a multimodal application |
US7809575B2 (en) * | 2007-02-27 | 2010-10-05 | Nuance Communications, Inc. | Enabling global grammars for a particular multimodal application |
US20080208589A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Presenting Supplemental Content For Digital Media Using A Multimodal Application |
US7840409B2 (en) * | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US8938392B2 (en) * | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US8843376B2 (en) * | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
US7945851B2 (en) * | 2007-03-14 | 2011-05-17 | Nuance Communications, Inc. | Enabling dynamic voiceXML in an X+V page of a multimodal application |
US8670987B2 (en) * | 2007-03-20 | 2014-03-11 | Nuance Communications, Inc. | Automatic speech recognition with dynamic grammar rules |
US8515757B2 (en) | 2007-03-20 | 2013-08-20 | Nuance Communications, Inc. | Indexing digitized speech with words represented in the digitized speech |
US20080235029A1 (en) * | 2007-03-23 | 2008-09-25 | Cross Charles W | Speech-Enabled Predictive Text Selection For A Multimodal Application |
US8909532B2 (en) * | 2007-03-23 | 2014-12-09 | Nuance Communications, Inc. | Supporting multi-lingual user interaction with a multimodal application |
US8788620B2 (en) * | 2007-04-04 | 2014-07-22 | International Business Machines Corporation | Web service support for a multimodal client processing a multimodal application |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8862475B2 (en) * | 2007-04-12 | 2014-10-14 | Nuance Communications, Inc. | Speech-enabled content navigation and control of a distributed multimodal browser |
US8725513B2 (en) * | 2007-04-12 | 2014-05-13 | Nuance Communications, Inc. | Providing expressive user interaction with a multimodal application |
US8060371B1 (en) | 2007-05-09 | 2011-11-15 | Nextel Communications Inc. | System and method for voice interaction with non-voice enabled web pages |
US8676577B2 (en) * | 2008-03-31 | 2014-03-18 | Canyon IP Holdings, LLC | Use of metadata to post process speech recognition output |
US8121837B2 (en) * | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US9349367B2 (en) * | 2008-04-24 | 2016-05-24 | Nuance Communications, Inc. | Records disambiguation in a multimodal application operating on a multimodal device |
US8082148B2 (en) * | 2008-04-24 | 2011-12-20 | Nuance Communications, Inc. | Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise |
US8229081B2 (en) * | 2008-04-24 | 2012-07-24 | International Business Machines Corporation | Dynamically publishing directory information for a plurality of interactive voice response systems |
US8214242B2 (en) * | 2008-04-24 | 2012-07-03 | International Business Machines Corporation | Signaling correspondence between a meeting agenda and a meeting discussion |
US8218751B2 (en) | 2008-09-29 | 2012-07-10 | Avaya Inc. | Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences |
US8380513B2 (en) * | 2009-05-19 | 2013-02-19 | International Business Machines Corporation | Improving speech capabilities of a multimodal application |
US8290780B2 (en) | 2009-06-24 | 2012-10-16 | International Business Machines Corporation | Dynamically extending the speech prompts of a multimodal application |
US8510117B2 (en) * | 2009-07-09 | 2013-08-13 | Nuance Communications, Inc. | Speech enabled media sharing in a multimodal application |
US8416714B2 (en) * | 2009-08-05 | 2013-04-09 | International Business Machines Corporation | Multimodal teleconferencing |
US10168893B2 (en) * | 2015-12-01 | 2019-01-01 | International Business Machines Corporation | Identifying input interruption |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04274510A (ja) | 1991-02-28 | 1992-09-30 | Casio Comput Co Ltd | データ入力処理装置 |
US6282511B1 (en) * | 1996-12-04 | 2001-08-28 | At&T | Voiced interface with hyperlinked information |
JPH11215126A (ja) * | 1998-01-28 | 1999-08-06 | Sharp Corp | 情報処理装置 |
US6393479B1 (en) * | 1999-06-04 | 2002-05-21 | Webside Story, Inc. | Internet website traffic flow analysis |
TR200100602T1 (tr) * | 1999-06-29 | 2001-07-23 | Koninklijke Philips Electronics N.V. | DVD kaydında veri tahsisi. |
EP1098244A3 (en) * | 1999-11-02 | 2001-06-13 | CANAL + Société Anonyme | Graphical user interface |
GB9930731D0 (en) * | 1999-12-22 | 2000-02-16 | Ibm | Voice processing apparatus |
US7120870B1 (en) * | 2000-01-06 | 2006-10-10 | International Business Machines Corporation | Method, system, and program for presenting data in a limited display area |
US6453450B1 (en) * | 2000-02-02 | 2002-09-17 | International Business Machines Corporation | Timing diagram compiler and runtime environment for interactive generation of executable test programs for logic verification |
US7293279B1 (en) * | 2000-03-09 | 2007-11-06 | Sedna Patent Services, Llc | Advanced set top terminal having a program pause feature with voice-to-text conversion |
US20020133517A1 (en) * | 2001-03-15 | 2002-09-19 | International Business Machines Corporation | Method and apparatus for processing of internet forms |
WO2002077790A2 (en) * | 2001-03-22 | 2002-10-03 | Canon Kabushiki Kaisha | Information processing apparatus and method, and program |
US7146577B2 (en) | 2001-03-27 | 2006-12-05 | Ncr Corporation | Signature capture terminal |
JP2003005897A (ja) * | 2001-06-20 | 2003-01-08 | Alpine Electronics Inc | 情報入力方法および装置 |
US7242752B2 (en) * | 2001-07-03 | 2007-07-10 | Apptera, Inc. | Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application |
JP2003330490A (ja) * | 2002-05-15 | 2003-11-19 | Fujitsu Ltd | 音声対話装置 |
US7050056B2 (en) * | 2002-12-20 | 2006-05-23 | Sap Aktiengesellschaft | Interactive and web-based Gantt Chart |
US7356472B2 (en) * | 2003-12-11 | 2008-04-08 | International Business Machines Corporation | Enabling speech within a multimodal program using markup |
US7509260B2 (en) * | 2004-09-20 | 2009-03-24 | International Business Machines Corporation | Systems and methods for inputting graphical data into a graphical input field |
US7920681B2 (en) * | 2004-11-05 | 2011-04-05 | International Business Machines Corporation | System, apparatus, and methods for creating alternate-mode applications |
-
2004
- 2004-09-20 US US10/945,119 patent/US7509260B2/en not_active Expired - Fee Related
-
2005
- 2005-09-09 TW TW094131173A patent/TW200630868A/zh unknown
- 2005-09-15 CN CNB2005101040774A patent/CN100338558C/zh not_active Expired - Fee Related
-
2009
- 2009-01-30 US US12/363,580 patent/US8296149B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
TW200630868A (en) | 2006-09-01 |
US8296149B2 (en) | 2012-10-23 |
US20060074680A1 (en) | 2006-04-06 |
US20090199101A1 (en) | 2009-08-06 |
US7509260B2 (en) | 2009-03-24 |
CN100338558C (zh) | 2007-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1752897A (zh) | 把图形数据输入图形输入区的系统和方法 | |
CN1296886C (zh) | 语音识别系统和方法 | |
CN1573928A (zh) | 用语音应用语言标记执行的语义对象同步理解 | |
CN1158645C (zh) | 到服务应用程序上的用户接口的声音控制 | |
CN1272698C (zh) | 信息处理装置、信息处理方法 | |
CN1291307C (zh) | 信息处理装置和方法 | |
CN105931643A (zh) | 语音识别方法及装置 | |
CN1752975A (zh) | 用于支持话音的自动填充的方法和系统 | |
CN101042867A (zh) | 语音识别设备和方法 | |
CN1573752A (zh) | Url检索系统、服务器及url检索方法 | |
JP2014126600A (ja) | 音声認識装置、音声認識方法、およびテレビ | |
CN1160613C (zh) | 接收了数字数据的自动识别语言的方法 | |
CN1882146A (zh) | 用于发送和接收语音呼叫内容的设备和方法 | |
CN1801139A (zh) | 句子显示方法和信息处理系统 | |
CN1279805A (zh) | 通过听觉表示html数据页的系统和方法 | |
CN1708784A (zh) | 用于在手持电子设备中编辑文本的方法和系统 | |
CN1680911A (zh) | 用于在便携式终端中显示菜单的设备和方法 | |
CN101075434A (zh) | 语音识别装置及存储语音识别程序的记录介质 | |
CN101067780A (zh) | 智能设备的文字输入系统及方法 | |
CN1711586A (zh) | 声音识别用辞典编制装置和声音识别装置 | |
CN1783130A (zh) | Html电子邮件创建系统和方法、通信装置和记录介质 | |
CN1969315A (zh) | 基于声音的选择装置以及选择方法 | |
CN109326284B (zh) | 语音搜索的方法、装置和存储介质 | |
CN1592881A (zh) | 图形用户接口组件焦点目的设置装置和焦点移动装置 | |
CN1828591A (zh) | 命令行数据类型发现和转换 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070919 Termination date: 20200915 |