CN100338558C - 把图形数据输入图形输入区的系统和方法 - Google Patents

把图形数据输入图形输入区的系统和方法 Download PDF

Info

Publication number
CN100338558C
CN100338558C CNB2005101040774A CN200510104077A CN100338558C CN 100338558 C CN100338558 C CN 100338558C CN B2005101040774 A CNB2005101040774 A CN B2005101040774A CN 200510104077 A CN200510104077 A CN 200510104077A CN 100338558 C CN100338558 C CN 100338558C
Authority
CN
China
Prior art keywords
graph data
input field
speech list
speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005101040774A
Other languages
English (en)
Other versions
CN1752897A (zh
Inventor
查尔斯·W.·克罗斯
戴维·加拉米洛
马克·怀特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1752897A publication Critical patent/CN1752897A/zh
Application granted granted Critical
Publication of CN100338558C publication Critical patent/CN100338558C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

把图形数据输入图形输入区的系统(20)包括把图形数据输入图形输入区的图形输入设备(22),和对开始向图形输入设备提供图形数据起反应的处理器可执行的话音表单模块(28)。话音表单模块(28)确定是否已完成把图形数据输入图形输入区。把图形数据输入图形输入区的方法包括通过图形输入设备开始把图形数据输入图形输入区,并响应开始把图形数据输入图形输入区,启动话音表单模块。

Description

把图形数据输入图形输入区的系统和方法
技术领域
本发明涉及数据处理和通信系统,更具体地说,涉及把数据输入数据处理或通信系统。
背景技术
多数建立在数据描述可扩展置标语言(XML)上的最新发展已导致新的基于Web的应用,包括多模式界面或浏览器。多模式浏览器允许用户访问多模式内容,既可以是图形的又是可听的内容。按照惯例,用户利用来自键盘的图形输入或手动指引的屏幕指针输入访问Web内容。后来,用户能够利用语音输入。最近,用户已能够通过多模式界面访问Web内容,多模式界面既允许使用图形输入,又允许使用语音输入。
一种多模式浏览器由可扩展的超文本置标语言(XHTML)+语音(更简洁地表示成X+V置标语言)提供。X+V置标语言扩展传统的图形浏览器,以包括口头交互作用。X+V置标语言综合XHTML、XML事件和作为万维网联盟(W3C)语音接口架构开发的VoiceXML。该综合包括支持语音合成、语音对话、命令和控制应用、以及语音语法的话音模块。话音处理程序可被附加在XHTML部件上,应答可视浏览器的特定文档对象模型(DOM)事件。
通过实现相对于Web的基于话音的界面以及更多常规界面,X+V置标语言已帮助把因特网的范围扩展到除个人计算机之外的更多设备。一种扩展出现在工业手持式设备的领域中,所述手持式设备利用X+V置标语言组合语音识别和Web浏览器来提供可在无手工键盘输入数据项的情况下被操纵的输入和输出(I/O)装置。这些所谓的免持设备包括非传统的I/O能力,例如条形码扫描器提供的那些I/O能力。
但是,多模式界面向工业手持式设备的扩展受到缺少利用这种设备输入数据或编辑数据的有力且有效的方式的阻碍。这归因于就多数这种设备来说,难以确定何时数据已被输入,直到用户手工轻轻点击数据输入区为止。
发明内容
根据本发明,提供一种把图形数据输入图形输入区的方法,所述方法包括:开始通过图形输入设备把图形数据输入图形输入区;和响应开始把图形数据输入图形输入区,启动话音表单模块;所述话音表单模块确定是否已完成把图形数据输入图形输入区;其中启动话音表单模块包括:启动第一话音表单功能;第一话音表单功能捕获与图形输入区对应的初始值,随后启动每隔预定的时间轮询图形输入区的计时功能,从而确定对应于图形输入区的至少一个后续值;和根据对应于图形输入区的最终值,启动第二话音表单功能;第二话音表单功能确定对应于图形输入区的最终值是否包含在预定的一组有效值中。
根据本发明,提供一种把图形数据输入图形输入区的系统,所述系统包括:把图形数据输入图形输入区的图形输入设备;和对开始向图形输入设备提供图形数据作出响应的处理器可执行的话音表单模块;话音表单模块确定是否已完成把图形数据输入图形输入区;其中话音表单功能包括:第一话音表单功能;第一话音表单功能捕获与图形输入区对应的初始值,随后启动每隔预定时间轮询图形输入区的计时功能,从而确定对应于图形输入区的至少一个后续值;和响应对应于图形输入区的最终值,启动的第二话音表单功能;第二话音表单功能确定对应于图形输入区的最终值是否包含在预定的一组有效值中。
本发明提供一种自动检测何时已完成通过图形输入设备把图形数据输入图形输入区的系统和方法。所提供的系统和方法还确定输入图形输入区的图形数据是否有效。
根据本发明的系统可包括把图形数据输入图形输入区的图形输入设备,和对开始向图形输入设备提供图形数据起反应的处理器可执行的话音表单(form)模块。话音表单模块能够确定是否已完成把图形数据输入图形输入区。
一种把图形数据输入图形输入区的方法可包括开始通过图形输入设备把图形数据输入图形输入区,响应开始把图形数据输入图形输入区,启动话音表单模块,以便确定是否已完成把图形数据输入图形输入区。
此外,启动话音表单模块可包括启动用于捕获与图形输入区对应的初始值的第一话音表单功能。第一话音表单功能随后能够启动在预定时间轮询图形输入区的计时功能。每隔一段时间的轮询可被用于确定对应于图形输入区的至少一个后续值。启动话音表单模块还可包括根据对应于图形输入区的最终值,启动第二话音表单功能。第二话音表单功能能够确定对应于图形输入区的最终值是否包含在预定的一组有效值中。
附图说明
附图中表示了目前优选的实施例,但是本发明并不局限于附图中所示的精确结构和手段。
图1是根据本发明的把图形数据输入图形输入区的系统的示意图;
图2是图1的系统的操作特征的示意图;
图3是根据本发明的另一实施例的把图形数据输入图形输入区的方法的流程图;
图4是根据本发明的又一实施例的把图形数据输入图形输入区的系统的示意图;
图5是根据本发明的又一实施例的把图形数据输入图形输入区的方法的流程图。
具体实施方式
本发明提供一种把图形数据输入图形输入区,例如用诸如HTML之类置标语言编写的Web文档的输入区中的系统。该系统自动检测借助图形输入装置,例如扫描仪、键盘或包含手动指引的指针和图形用户界面(GUI)的组合设备,把图形数据输入图形输入区的过程的完成。另外,该系统根据预定标准,确定输入的数据是否是有效数据。如果在图形数据被输入图形输入区之后,最初提供的图形数据被确定为无效,那么该系统还能够提示用户重新向图形输入设备提供图形数据。
这里使用的短语“图形数据”表示计算机可读数据,包括文本,以及除文本之外的可视对象。因此,短语“图形数据”还包括图形,不被保存为ASCII字符的文本和利用二进制数字或字母数字字符表现的程序代码。该短语还包括例如可借助条形码扫描器读入数据处理系统中的条形码表示。从而,短语“图形数据”的使用意图包括和基于话音的数据不同的数据。
图1是根据本发明的一个实施例的系统20的示意图。系统20被例证具体体现成当用户执行下面更详细说明的某些任务时,能够被手持的手持式设备。系统20包括图形输入设备22。图形输入设备22是例如扫描或读入包含图形数据的文档23的扫描器。这样的图形数据可以是例如传送不同类型的信息的条形码。图形输入设备22还可接收电子编码信息,例如可通过射频识别(RFID)标签,智能芯片,包含信息的磁条等获得的信息。设备22接收的信息可被用于保持存货清单,监视销售额或购买额,跟踪关键组件,或者用于通过把数据读入电子数据库,能够有力并有效执行的许多其它功能中的任意之一。
扫描器可以是独立设备,或者它可以是除图示的手持设备之外的数据处理或通信系统的一个集成部分。图形输入设备22可以是例如键盘或者蜂窝电话机或个人数字助理(PDA)的数据输入键的类似阵列。图形输入设备22还可包括包含视像扫描器以及数据输入键阵列的组合。
系统20还包括与图形输入设备22连接的处理器24。本领域的普通技术人员易于理解,处理器24可接收来自图形输入设备22的电信号,并从该信号中得到对应的数据表示,例如各种长度代码字。处理器24可以是通用计算机或除图示的手持设备之外的专用设备。本领域的普通技术人员易于理解,处理器24可包括一个或多个逻辑门电路或其它数据处理电路。
处理器24从图形输入设备22产生的信号中得到的数据表示形成图形数据,该图形数据被输入保存的电子文档的图形输入区中。因此,系统20还包括用于保存包含图形输入区的电子文档的存储器26。如前所述,图形输入区可以是例如用诸如HTML之类置标语言编写的Web文档的输入区。
通过在系统20中包含一个话音表单模块28,实现图形数据到图形输入区的输入何时已被完成的确定。响应图形数据到图形输入区的初始输入,激活话音表单模块28。根据本发明的一个实施例,话音表单模块28通过评估图形输入区的值的变化,确定图形数据到图形输入区的输入是否完成。这是利用轮询技术来实现的,其中话音表单模块28间歇地询问图形输入区的值。当图形数据被输入图形输入区时,对应值发生变化。当输入完成时,图形输入区的值停止变化。通过间歇检测图形输入区的值,话音表单模块28能够检测该值何时已停止变化,从而确定输入何时已被完成。
图2是具有n个图形输入区的典型文档29的示意图,所述n个图形输入区的对应值是F1i,F2i,...,Fni。第一个图形输入区的初始值在时间t1是F11。当图形数据被输入时,第一图形输入区的值在时间t2改变成F12。在时间tj,典型文档29的第一图形输入区的最终值为F1j。该值在后续的时间间隔内不变。因此F1j=F1j+1。系统20把这认为是图形数据到图形输入区的输入已完成的指示。因此,系统20移动到下一图形输入区,如果还有要填充的其它图形输入区的话。
根据一个实施例,话音表单模块28包括第一和第二话音表单功能30、32。操作上,第一话音表单功能由话音表单呼叫(未示出)激活。第一话音表单功能捕获在时间t1,图形输入区的初始值F11,并启动以预定的时间间隔轮询图形输入区的计时功能(未示出)。预定的时间间隔可被选为任意持续时间。例如,计时器功能可以500毫秒的时间间隔轮询输入区。当在过去500毫秒时间间隔之后,检测到对应于输入区的值的变化,那么认为变化值指示图形数据正在被输入。当在过去500毫秒之后没有检测到任何变化,那么认为图形数据的输入已完成。
可选的是,话音表单模块28包括由第一话音表单功能30激活的第二话音表单功能32。第二话音表单功能32确定对应于图形输入区的最终值是否包含在预定的一组有效值之内。如果所述最终值不在预定的一组有效值之内,那么第二话音表单功能32使对应的图形输入区被清除。随后系统20能够继续输入图形数据的过程,包括把数据输入到要用图形数据填充的任何剩余的图形输入区中。在一些情况下,当图形数据事实上并非无效时,图形数据可能被确定为无效。例如如果数据被不正确地输入,那么会发生这种情况。于是,可选的是,话音表单模块使系统20提示用户重新输入最初被确定为无效的图形数据。因此,可选的是,系统20包括与话音变换器34耦接,以便向用户传送所述提示的文语转移(text-to-speech)(TTS)处理器。
话音表单模块28被实现成一些可保存在存储器26中并由处理器24处理,以实现所述功能的一组软件指令。最好,利用脚本语言或脚本实现所述指令。脚本是一种可由理解编写脚本的语言的程序直接执行的计算机代码。脚本不需要被编译成要被执行的目标代码。许多Web站点(即使不是大多数Web站点)使用脚本来构成嵌入Web页数据中的相当小的自主式程序。众所周知的脚本语言包括例如Javascript、ECMAscript和VBscript。
下面是一组用于实现话音表单模块28的典型脚本指令。根据这些相同的指令配置系统20,尤其是话音表单模块28的话音表单功能30和32,以便读入条形码形式的图形数据。如前所述,指令实现的第一个话音表单功能30保存图形输入区的当前值,并启动计时功能。一旦确定输入区的值已发生变化,那么计时功能继续间歇轮询图形输入区,直到值停止变化为止。这有助于确保当图形数据正被扫描输入图形输入区时,利用条形码查寻表实现的可选的有效性检查不被启动。第一指令只输出指令用户扫描条形码的TTS提示:
<vxml:form id=scannerform_focus>
      <vxml:block>
            Please scan in bar code.
            <vxml:assign name="input2Started"=expr="true"/>
            <vxml:value expr="startInput2Timer()"/>
      </vxml:block>
</vxml:form>
如同下面的脚本代码的剩余部分中反映的那样,有时可取的是使用隐藏的输入区而不是可视的文本输入项。这有助于确保用户不会无意中改变图形输入区的内容。从而,如同下面的典型脚本指令中说明的那样,一旦话音模块28确定用户已开始条形码形式的图形数据的输入,那么它就把焦点设置到隐藏的输入区“scanner_input_hidden”。如同下面的脚本指令所示,这再激活第二话音表单功能“scannerform_script_hidden_focus”,所述第二话音表单功能关于有效条形码询问输入区。如果找到一个有效条形码,那么第二话音表单功能正常退出。如果否,那么它设置指示该过程需要被重新开始的标记:
      <script type="text/javascript">

              var initialInput2Value;

              var lastInput2Value;

              var timerID;

              function startInput2Timer()

              {

                     initalInput2Value                                  =

        document.getElementByID(′scanner_input_2′).value;

                     timerID=set setInterval('input2Timer()',500);

              }

              function input2Timer()

              {

                    var                     curInput2Value              =

       document.getElementById('scanner_input_2').value:

                    if(curInput2Value!=initialInput2Value)

                    {

                            if(curInput2Value==initialInput2Value

                            {

                                   clearInterval(timerID);

               document.getElementByld('scanner_input_hidden').focus();

                            }

                    lastInput2Value=curInput2Value;

                    }

              }

      </script>
为了便于说明,这里使用的话音表单从模拟数据库查寻条形码。如果扫描的代码有效,那么话音表单正常退出。否则,如同举例说明的那样,提示用户通过再次扫描重新输入图形数据:
      <vxml:form id="scanner_script_hidden_focus">

            <vxml:block>

                  <vxml:ifcond="input2Started==false">

                         <vxml:return/>

                  <vxml:if

            </vxml:block>

            <vxml:block/>

                  <vxml:assign name="input2Started"expr="false"/>

                  <vxml:var                      name                     =

     "brcodeTitle"expr="lookupBarcode('scanner_input_2')"/>

                  <vxml:if cond="barcodeTitle!="">

                        Bar code scanned is<vxml:value expr="barcodeTitle"/>

                  <vxml:else/>

                        Bar code scanned is not recognized.Please try again.

                        <vxml:assign name="input2NeedsRestart"expr="true"/>

                  </vxml:if>

            </vxml:block>

      </vxml:form>
注意如果设置了“input2NeedsRestart”标记,则意味着初始表单应被重新开始。
    <vxml:form id="scannerform_script_hidden_done">

          <vxml:block>

                <vxml:if cond="input2NeedsRestart==true>

                      <vxml:assign name="input2NeedsRestart"expr=

    "false"/>

                      <vxml:value>

                </vxml:if>

                <vxml:return/>

          <vxml:block>

    </vxml:form>
下述脚本指令重置文档装入标记。
    <script type="text/javascript">

            done loading=true;

    </script>

    <ev:listener       ev:event       =       "vxmldone"      ev:handler    =

    "#scannerform_javascritpt_hidden_done"

    ev:observer="scanner_input_hidden"ev:propagate="stop"/>

    </head>

    <body>

          <p>Click in the field and scan barcode,say done when

    finished:</pr></br>

          <input type="text"id="scanner_input_1"onfocus="this.select()"

    ev:event="focus"

    ev:handler=#scannerform_voice"/>
注意在下面的脚本指令中,集中选择输入区的所有文本内容。这有助于确保每次扫描,图形输入区的整个内容被替换,而不只是被附加。
       <p>click in the field and scan a barcode,we will detect when
  finisted:</p></br>
       <input type  =  "text" id  =  "scanner_inpu_2"  onfocus=
  "this.select()"ev:event="focus"
       ev:handler="#scannerform_script_focus"/>
       input type="hidden"id="scanner_input_hidden"ev:event="focus"
       ev:handler=#scannerform_script_hidden_focus"/>
  <body>
  <html>.
图3是图解说明用上述脚本指令实现的系统20的话音表单模块28的操作特征的流程图。图形数据的输入始于步骤300,在步骤300,启动借助图形输入设备的图形数据的输入。这开始于将被输入图形数据的可视图形输入区的聚焦(focus)的实现。本领域的普通技术人员易于理解,聚焦表示借助其输入以事件启动对象为目标的机制。在当前上下文中,事件是通过图形输入设备22的图形数据的输入的开始,事件启动对象是将被输入图形数据的图形输入区。在步骤305,事件激活第一话音表单功能30。可选的是,在步骤310,系统20提示用户扫描条形码,并在步骤315开始设置输入(set input)操作。
在步骤320启动计时功能,在步骤325,捕获可视图形输入区的初始值。在步骤315,随着时间的过去,计时功能间歇比较图形输入区的值,确定该值是否发生变化。变化值指示正在进行图形数据的输入,它提示系统20在步骤330继续等待图形数据输入的完成。当该值停止变化时,指示输入完成,在步骤335激活隐藏图形输入区的聚焦。于是在步骤340,隐藏图形输入区实现聚焦。该事件在步骤345启动第二话音表单功能32。如果条形码有效,那么该过程结束。否则,在不正确地输入数据的情况下,在步骤350提示用户重新开始输入图形数据。如果存在要输入图形数据的其它图形输入区,那么在步骤350重新开始该过程。
系统20可被包含在多模式应用中,否则对于所述多模式应用来说,至少在不通过用户手动退出输入区来指示输入完成的情况下,难以确定何时已完成对输入区的数据输入。因此,系统20允许用户向输入设备22提供图形数据,并且在免持模式下,将逐个输入区地输入图形数据,在每个输入区被填写之后,用户不必通过手动指示输入完成来推动输入。从而,系统能够使用迄今为止一直难以包含到诸如手持式条形码扫描器,PDA之类设备中的I/O设备。
图4是根据本发明的一个备选实施例的系统400的示意图。如上所述,系统400包括把图形数据输入图形输入区的图形输入设备22。同样如上所述,系统还包括与图形输入设备22连接的处理器22,以及与处理器连接的存储器26。可选的是,系统400还包括文语转换(TTS)处理器和话音变换器52。但是,系统400包含与上述话音表单模块不同的备选话音表单模块48。
在该备选实施例中,话音表单模块48包括提示用户,以指示何时已完成图形数据的输入的用户提示模块50。话音表单模块48还包括识别至少一个预定用户发音的语音识别模块52,所述至少一个预定用户发音指示已完全把图形数据输入图形输入区。操作上,话音表单模块48根据话音识别模块识别的语音,确定已完全把图形数据输入图形输入区。
话音表单模块48包括用于提示用户扫入条形码,并且当条形码已被扫入时发出单词“完成”的下述脚本代码。
    <vxml:form id="scannerform_voice">

          <vxml:field name="waitforscan">

                <vxml:prompt>Please scan a bar code and

          say done when finished.</vxml>

                <vxml:grammar>

                      <![CDATA[

                           #JSGF V1.0;

                           grammar finished;

                           public<finished>=done|finished;

                      ]]>

                </vxml:grammar>

                <vxml:filled>

          <vxml:var           name           =               "barcodeTitle"

   expr="lookupBarcode('scanner_input_1')"/>

                      <vxml:if cond="barcodeTitle!"">

                          Bar code scanned is<vxml:value expr  =

   "barcodeTitle"/>

                          <vxml:assign

   name    =    "document.getElementByld('scanner_input_1').value"expr    =

   "barcodeTitle"/>

                 <vxml:else/>

                            Bar code scanned is not recognized.Please try

   again

                            <vxml:value

   expr="document.getElementbyld('scanner_input_1').select()"/>

                            <vxml:clear/>

                     <vxml:if/>

        </vxml:filled>

        </vxml:field>

   </vxml:form>
图5中的流程图图解说明了根据本发明的另一实施例的另一方法500。方法500包括在步骤510,开始通过图形输入设备把图形数据输入图形输入区。响应图形数据输入的开始,在步骤520提示用户扫入条形码数据。方法500还包括响应开始把图形数据输入图形输入区,在步骤530启动话音表单模块。话音表单确定是否已完成把图形数据输入图形输入区。响应在步骤540,用户利用指示输入完成的识别单词或短语,发出预先选择的语音,完成所述确定。该方法还包括在步骤550通过得到包含在预定的一组有效图形数据值中的一个值,确定输入的图形数据是否构成有效的图形数据。
虽然在这两个实施例中,话音表单模块被实现成一系列的计算机可读指令,不过本领域的普通技术人员易于理解另一方面也可用专用电路,或者计算机指令和专用电路的组合来实现所述功能。因此,可用硬件、软件或硬件和软件的组合来实现本发明。可在一个计算机系统中集中地实现本发明,或者可分布地实现本发明,不同的部件被散布在几个互连的计算机系统中。适于实现这里描述的方法的任意类型的计算机系统或其它设备都是适合的。硬件和软件的典型组合可以是具有计算机程序的通用计算机系统,所述计算机程序当被装入并被执行时,控制计算机系统实现这里所述的方法。
本发明还可被嵌入计算机程序产品中,所述计算机程序产品包括能够实现这里描述的方法的所有特征,当被装入计算机系统时,所述计算机程序产品能够实现这些方法。本上下文中的计算机程序意味着用任意语言、代码或符号编写的一组指令的任意表述,所述一组指令意图使系统具有直接地或者在下述任意之一或者下述两者之后执行特定功能的信息处理能力:a)转换成另一语言、代码或符号;b)用不同的材料形式再现。
在不脱离本发明的精神或本性的情况下,可用其它形式具体体现本发明。因此,本发明的范围应由下述权利要求限定,而不是由前面的说明书限定。

Claims (14)

1、一种把图形数据输入图形输入区的方法,所述方法包括:
开始通过图形输入设备把图形数据输入图形输入区;和
响应开始把图形数据输入图形输入区,启动话音表单模块;
所述话音表单模块确定是否已完成把图形数据输入图形输入区;
其中启动话音表单模块包括:
启动第一话音表单功能;
第一话音表单功能捕获与图形输入区对应的初始值,随后启动每隔预定的时间轮询图形输入区的计时功能,从而确定对应于图形输入区的至少一个后续值;和
根据对应于图形输入区的最终值,启动第二话音表单功能;
第二话音表单功能确定对应于图形输入区的最终值是否包含在预定的一组有效值中。
2、按照权利要求1所述的方法,其中如果图形数据的输入已完成,并且如果图形数据至少包括第一和第二图形数据元素,那么话音表单模块引起图形数据的后续输入。
3、按照权利要求1所述的方法,其中话音表单模块确定输入图形输入区中的图形数据是否是其值包含在预定的一组有效图形数据元素值中的图形数据元素。
4、按照权利要求3所述的方法,其中如果输入图形输入区的图形数据是其值未包含在预定的一组有效图形数据元素值中的图形数据元素,那么话音表单模块产生提示用户重新向图形输入设备提供图形数据的用户提示。
5、按照权利要求1所述的方法,其中启动话音表单功能产生通知用户的用户提示,以指示何时已完成把图形数据输入图形输入区。
6、按照权利要求1所述的方法,其中话音表单模块确定输入图形输入区的图形数据是否是其值包含在预定的一组有效图形数据元素值中的图形数据元素,如果输入图形输入区的图形数据是其值未包含在预定的一组有效图形数据元素值中的图形数据元素,那么提示用户重新向图形输入设备提供图形数据。
7、按照权利要求1所述的方法,其中图形输入区包括隐藏的输入区。
8、一种把图形数据输入图形输入区的系统,所述系统包括:
把图形数据输入图形输入区的图形输入设备;和
对开始向图形输入设备提供图形数据作出响应的处理器可执行的话音表单模块;
话音表单模块确定是否已完成把图形数据输入图形输入区;
其中话音表单功能包括:
第一话音表单功能;
第一话音表单功能捕获与图形输入区对应的初始值,随后启动每隔预定时间轮询图形输入区的计时功能,从而确定对应于图形输入区的至少一个后续值;和
响应对应于图形输入区的最终值,启动的第二话音表单功能;
第二话音表单功能确定对应于图形输入区的最终值是否包含在预定的一组有效值中。
9、按照权利要求8所述的系统,还包括接收话音输入,并响应图形数据的输入,提供基于话音的用户提示的话音输入/输出设备。
10、按照权利要求9所述的系统,还包括识别通过话音输入/输出设备接收的话音的语音识别组件。
11、按照权利要求8所述的系统,其中如果图形数据的输入已完成,并且如果图形数据至少包括第一和第二图形数据元素,那么话音表单功能还引起图形数据的后续输入。
12、按照权利要求8所述的系统,其中话音表单功能确定输入图形输入区的图形数据是否是其值包含在预定的一组有效图形数据元素值中的图形数据元素。
13、按照权利要求12所述的系统,其中如果输入图形输入区的图形数据是其值未包含在预定的一组有效图形数据元素值中的图形数据元素,那么话音表单功能还提示用户重新向图形输入设备提供图形数据。
14、按照权利要求8所述的系统,其中启动话音表单功能产生通知用户的用户提示,以指示何时已完成把图形数据输入图形输入区。
CNB2005101040774A 2004-09-20 2005-09-15 把图形数据输入图形输入区的系统和方法 Expired - Fee Related CN100338558C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/945,119 US7509260B2 (en) 2004-09-20 2004-09-20 Systems and methods for inputting graphical data into a graphical input field
US10/945,119 2004-09-20

Publications (2)

Publication Number Publication Date
CN1752897A CN1752897A (zh) 2006-03-29
CN100338558C true CN100338558C (zh) 2007-09-19

Family

ID=36126680

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101040774A Expired - Fee Related CN100338558C (zh) 2004-09-20 2005-09-15 把图形数据输入图形输入区的系统和方法

Country Status (3)

Country Link
US (2) US7509260B2 (zh)
CN (1) CN100338558C (zh)
TW (1) TW200630868A (zh)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7359979B2 (en) * 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US20040073690A1 (en) 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
US7509260B2 (en) * 2004-09-20 2009-03-24 International Business Machines Corporation Systems and methods for inputting graphical data into a graphical input field
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US20060150082A1 (en) * 2004-12-30 2006-07-06 Samir Raiyani Multimodal markup language tags
US20060288309A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US8090584B2 (en) 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US8032825B2 (en) * 2005-06-16 2011-10-04 International Business Machines Corporation Dynamically creating multimodal markup documents
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US20060287858A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers
US7844599B2 (en) * 2005-08-24 2010-11-30 Yahoo! Inc. Biasing queries to determine suggested queries
US7672932B2 (en) * 2005-08-24 2010-03-02 Yahoo! Inc. Speculative search result based on a not-yet-submitted search query
US7747639B2 (en) * 2005-08-24 2010-06-29 Yahoo! Inc. Alternative search query prediction
US8073700B2 (en) * 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8719034B2 (en) 2005-09-13 2014-05-06 Nuance Communications, Inc. Displaying speech command input state information in a multimodal browser
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US20080046872A1 (en) * 2006-05-03 2008-02-21 Cooper Greg J Compiler using interactive design markup language
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US7848314B2 (en) * 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8145493B2 (en) * 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US7761805B2 (en) * 2006-09-11 2010-07-20 Yahoo! Inc. Displaying items using a reduced presentation
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US7630970B2 (en) * 2006-11-28 2009-12-08 Yahoo! Inc. Wait timer for partially formed query
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8069047B2 (en) * 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US8150698B2 (en) * 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US7809575B2 (en) * 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US8843376B2 (en) * 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8670987B2 (en) * 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8060371B1 (en) 2007-05-09 2011-11-15 Nextel Communications Inc. System and method for voice interaction with non-voice enabled web pages
US8676577B2 (en) * 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
US8229081B2 (en) * 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8082148B2 (en) 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8214242B2 (en) * 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8416714B2 (en) * 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
US10168893B2 (en) * 2015-12-01 2019-01-01 International Business Machines Corporation Identifying input interruption

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453450B1 (en) * 2000-02-02 2002-09-17 International Business Machines Corporation Timing diagram compiler and runtime environment for interactive generation of executable test programs for logic verification
WO2002077790A2 (en) * 2001-03-22 2002-10-03 Canon Kabushiki Kaisha Information processing apparatus and method, and program
CN1129849C (zh) * 1998-01-28 2003-12-03 夏普公司 信息处理装置
CN1522403A (zh) * 2001-03-15 2004-08-18 国际商业机器公司 处理因特网表单的方法和设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04274510A (ja) * 1991-02-28 1992-09-30 Casio Comput Co Ltd データ入力処理装置
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US6393479B1 (en) * 1999-06-04 2002-05-21 Webside Story, Inc. Internet website traffic flow analysis
TR200100602T1 (tr) * 1999-06-29 2001-07-23 Koninklijke Philips Electronics N.V. DVD kaydında veri tahsisi.
EP1098244A3 (en) * 1999-11-02 2001-06-13 CANAL + Société Anonyme Graphical user interface
GB9930731D0 (en) 1999-12-22 2000-02-16 Ibm Voice processing apparatus
US7120870B1 (en) * 2000-01-06 2006-10-10 International Business Machines Corporation Method, system, and program for presenting data in a limited display area
US7293279B1 (en) * 2000-03-09 2007-11-06 Sedna Patent Services, Llc Advanced set top terminal having a program pause feature with voice-to-text conversion
US7146577B2 (en) * 2001-03-27 2006-12-05 Ncr Corporation Signature capture terminal
JP2003005897A (ja) 2001-06-20 2003-01-08 Alpine Electronics Inc 情報入力方法および装置
US7242752B2 (en) 2001-07-03 2007-07-10 Apptera, Inc. Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application
JP2003330490A (ja) 2002-05-15 2003-11-19 Fujitsu Ltd 音声対話装置
US7050056B2 (en) * 2002-12-20 2006-05-23 Sap Aktiengesellschaft Interactive and web-based Gantt Chart
US7356472B2 (en) * 2003-12-11 2008-04-08 International Business Machines Corporation Enabling speech within a multimodal program using markup
US7509260B2 (en) * 2004-09-20 2009-03-24 International Business Machines Corporation Systems and methods for inputting graphical data into a graphical input field
US7920681B2 (en) * 2004-11-05 2011-04-05 International Business Machines Corporation System, apparatus, and methods for creating alternate-mode applications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1129849C (zh) * 1998-01-28 2003-12-03 夏普公司 信息处理装置
US6453450B1 (en) * 2000-02-02 2002-09-17 International Business Machines Corporation Timing diagram compiler and runtime environment for interactive generation of executable test programs for logic verification
CN1522403A (zh) * 2001-03-15 2004-08-18 国际商业机器公司 处理因特网表单的方法和设备
WO2002077790A2 (en) * 2001-03-22 2002-10-03 Canon Kabushiki Kaisha Information processing apparatus and method, and program

Also Published As

Publication number Publication date
US8296149B2 (en) 2012-10-23
TW200630868A (en) 2006-09-01
US7509260B2 (en) 2009-03-24
US20090199101A1 (en) 2009-08-06
US20060074680A1 (en) 2006-04-06
CN1752897A (zh) 2006-03-29

Similar Documents

Publication Publication Date Title
CN100338558C (zh) 把图形数据输入图形输入区的系统和方法
US10679615B2 (en) Adaptive interface in a voice-based networked system
US10679611B2 (en) Adaptive interface in a voice-based networked system
US7650284B2 (en) Enabling voice click in a multimodal page
RU2349969C2 (ru) Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения
RU2352979C2 (ru) Синхронное понимание семантических объектов для высокоинтерактивного интерфейса
CN1752975B (zh) 用于支持话音的自动填充的方法和系统
US6587822B2 (en) Web-based platform for interactive voice response (IVR)
CN1150452C (zh) 语音识别校正方法和装置
US7548858B2 (en) System and method for selective audible rendering of data to a user based on user input
US7729919B2 (en) Combining use of a stepwise markup language and an object oriented development tool
CN101536083A (zh) 来自不可转录数据的诊断识别问题
CN101536084A (zh) 对话分析
JP2003216574A (ja) ダイアログを目的とするアプリケーション抽象化のための記録媒体及び方法
KR20050063996A (ko) 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템
RU2011130550A (ru) Основанные на языке разметки выбор и использование распознавателей для обработки произнесения
CN103376990B (zh) 一种网页操作的语音控制方法和系统
CN109326284A (zh) 语音搜索的方法、装置和存储介质
WO2015188454A1 (zh) 一种快速进入ivr菜单的方法及装置
CN116013307A (zh) 一种标点预测方法、装置、设备以及计算机存储介质
CN113743102B (zh) 识别字符的方法、装置以及电子设备
US20050288933A1 (en) Information input method and apparatus
CN1991743A (zh) 一种语音输入法方法及其装置
CN110010131B (zh) 一种语音信息处理的方法和装置
US20170235827A1 (en) Vocalizing short responses to voice queries

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070919

Termination date: 20200915

CF01 Termination of patent right due to non-payment of annual fee