CN1881178A - 在多模式应用中同步视觉和语音事件的方法和系统 - Google Patents

在多模式应用中同步视觉和语音事件的方法和系统 Download PDF

Info

Publication number
CN1881178A
CN1881178A CNA200610004271XA CN200610004271A CN1881178A CN 1881178 A CN1881178 A CN 1881178A CN A200610004271X A CNA200610004271X A CN A200610004271XA CN 200610004271 A CN200610004271 A CN 200610004271A CN 1881178 A CN1881178 A CN 1881178A
Authority
CN
China
Prior art keywords
voice
computer program
speech
additional treatments
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200610004271XA
Other languages
English (en)
Other versions
CN100456234C (zh
Inventor
迈克尔·C.·霍林格
查尔斯·W.·克罗斯
丹尼尔·M.·史密斯
戴维·W.·温特穆特
希拉里·A.·派克
迈克尔·A.·扎特泽夫
本杰明·D.·刘易斯
伊哥·R.·贾布洛克夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1881178A publication Critical patent/CN1881178A/zh
Application granted granted Critical
Publication of CN100456234C publication Critical patent/CN100456234C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Abstract

本发明公开了多模式应用程序中同步视觉和语音事件的示例性方法、系统和产品,包括:接收用户语音;确定语音的语义解释;调用全局应用更新处理程序;根据语义解释由全局应用更新处理程序识别附加的处理功能;以及执行该附加功能。典型的实施例可以包括在执行附加功能之后更新视觉元素。典型的实施例可以包括在执行附加功能之后更新语音表单。典型的实施例还可以包括在更新语音表单之后更新状态表。典型的实施例也可以包括在执行附加功能之后重启语音表单。

Description

在多模式应用中同步视觉和语音事件的方法和系统
技术领域
本发明的技术领域涉及数据处理,或者更具体的说,涉及在多模式应用中同步视觉和语音事件的方法、系统和产品。
背景技术
随着小型设备变得越来越小,用户通过键盘或指示笔与运行在这些小型设备上的应用进行交互已经变得越来越受限和繁琐。特别的,像移动电话和PDA这样的小型手持设备可以提供许多功能,并且具有足够的处理能力来支持通过其它方式,比如多模式访问等的用户交互。支持多模式访问的设备在同一交互中结合了多种用户输入模式或通道,使得用户可以同时通过多种输入模式或通道与设备上的各种应用进行交互。输入方法包括语音识别、键盘、触摸屏、指示笔、鼠标、手写、以及其它方法等等。多模式输入常常使得用户可以更容易地使用小型设备。
多模式应用通常运行在提供用于在多模式浏览器中显示的多模式网页的服务器上。在本说明书中所使用的术语‘多模式浏览器’通常指能够接收多模式输入,并且以多模式输出与用户交互的网页浏览器。多模式浏览器典型地显示用XHTML+VOICE(X+V)书写的网页。X+V提供一种标记语言,使得用户能够在传统输入方式,如键盘敲击和鼠标点击动作之外,通过语音对话与通常运行在服务器上的多模式应用进行交互。X+V通过将XHTML(可扩展超文本标记语言)和由VoiceXML支持的语音识别词汇表整合到一起,来将语音交互添加到标准网页内容上。对于视觉标记,X+V包含了XHTML标准,对于语音标记,X+V包含了VoiceXML的子集。为了使VoiceXML元素与相应的视觉接口元素同步,X+V使用事件。XHTML包含支持语音合成、语音对话、命令和控制以及语言语法的语音模块。语音处理程序可以附加到XHTML元素上,并且响应特定事件。语音交互功能与XHTML整合到一起,从而可以在XHTML内容中直接使用。
最高层次的VoiceXML元素是<vxml>,它是对话容器。有两类对话:表单和菜单。语音表单定义了为一组表单项变量收集数值的交互。语音表单的每一个表单项变量可以指定一种语法,该语法定义该表单项的允许输入。如果提供了表单层次的语法,可以用它来从一句言辞中填充几个表单项。菜单向用户展示可选的选项,然后基于该选项转向另一个对话。
通过表单解释算法(FIA)来对表单进行解释。FIA典型地包括主循环,它重复性地选择表单项、收集用户输入并且响应于输入项,识别要作出的任何动作。解释语音表单项典型地包括选择并且播放一个或者多个语音提示,收集用户输入,或者作出响应填充一个或者多个输入项,或者发起某个事件(比如,帮助事件),以及解释任何与该新填充的输入项有关的动作。
为了同步语音信息的接收和视觉元素,X+V提供<sync>元素。<sync>元素用于同步通过各种多模式输入而进入的数据。即,<sync>元素用于同步在多模式浏览器中接收到的被接受的语音命令,和在多模式浏览器中显示的视觉元素。<Sync>以一对一的方式同步XHTML输入控制的数值属性和VoiceXML字段。<Sync>并不激活语音处理程序,因此不允许响应特定语音命令而识别和执行进一步的附加功能。因此有必要对在多模式应用中的同步视觉和语音事件进行改进以便允许响应语音表单或者语音菜单中接收的语音命令而执行多种应用功能。
发明内容
具体来说,本发明公开了在多模式应用中同步视觉和语音事件的示例方法、系统和产品,包括接收用户语音;确定语音的语义解释;调用全局应用更新处理程序;根据语义解释由全局应用更新处理程序识别附加处理功能;以及执行该附加功能。典型的实施例可以包括在执行附加功能之后更新视觉元素。典型的实施例可以包括在执行附加功能之后更新语音表单。典型的实施例也可以包括在更新语音表单之后更新状态表。典型的实施例还可以包括在执行附加功能之后重启语音表单。
在典型的实施例中,调用全局应用更新处理程序还包括退出语音表单。调用全局应用更新处理程序还包括退出语音菜单。
本发明的上述以及其它目的、特征和优点,将在下面配合附图对本发明的示例实施例进行的更详细的阐述中变得更清晰,附图中相似的附图标记通常代表本发明的示例实施例中相似的部分。
附图说明
图1示出了用于说明示例系统设备的网络图,其中每一个设备都能够支持多模式应用。
图2示出了包含有能够同步视觉和语音事件的示例服务器的自动计算机的方框图。
图3示出了包含用于同步视觉和语音事件的示例客户端的自动计算机的方框图。
图4示出了用于说明在多模式应用中同步视觉和语音事件的示例方法的流程图。
具体实施方式
介绍
在本说明书将以在多模式应用中同步视觉和语音事件的方法为例对本发明进行更广范围的说明。然而,本领域的普通技术人员将会发现任何包含了合适的编程装置的、用于根据所公开的方法运行的计算系统都落入本发明的范围内。合适的编程装置包含任何控制计算机系统执行本发明方法的步骤的装置,包括例如,包含处理单元和耦合到计算机存储器的数字逻辑电路的系统,其中系统具有在计算机存储器中进行存储的功能,并且计算机存储器包含配置成用于存储由处理单元执行的本发明方法的数据、程序指令和程控步骤的电子电路。
本发明还可以在例如软磁盘或者其它记录介质的计算机程序产品中实现,用于由任何合适的数据处理系统使用。计算机程序产品的实施例可以由用于机器可读信息的任何记录介质来实现,包括磁介质、光介质,或者其它合适的介质。本领域的普通技术人员将会发现任何具有合适的编程装置的计算系统都可以执行包括在程序产品中的本发明的方法的步骤。本领域的普通技术人员还会发现,虽然在本说明书中描述的大多数示例性实施例面向安装并运行在计算机硬件上的软件,然而,由固件或者硬件实现的其它实施例同样也在本发明的范围之内。
在多模式应用中同步视觉和语音事件
下面将参考附图,由图1开始,描述根据本发明实施例的在多模式应用中同步视觉和语音事件的示例方法、系统和产品。图1示出了用来说明示例性系统设备的网络图,其中每一个设备都能够支持多模式应用,例如能够显示根据本发明同步的视觉和语音事件的多模式浏览器。图1的系统包括在网络中为进行数据通信连接在一起的多台计算机。图1的系统中的每一台计算机可具有多模式应用,比如安装在其上的多模式浏览器。
图1的数据处理系统包括广域网(“WAN”)101和局域网(“LAN”)103。图1架构中的网络连接方面只是用于阐述,并不是限制。事实上,根据本发明实施例的具有多模式应用的系统可以连接成LAN、WAN、企业网、互联网、因特网、网络、万维网本身,或者其它本领域普通技术人员知道的连接。这样的网络是一种媒介,可以用于在整个数据处理系统中连接在一起的各种设备和计算机之间提供数据通信连接。
在图1的例子中,服务器106执行LAN 103和WAN 101之间的网关、路由器或者网桥的功能。服务器106可以是任何能够从客户设备接收对资源的请求,并且通过向请求者提供资源来作为响应的计算机。这种服务器的一个例子就是HTTP(‘超文本传输协议’)服务器或者‘网页服务器’。示例服务器106能够提供具有根据本发明的实施例进行同步的视觉和语音事件的多模式网页。图1的示例服务器106也能够支持多模式网络应用,该多模式网络应用能够通过从用户接收语音,确定语音的语义解释,调用全局应用更新处理程序,根据语义解释由全局应用更新处理程序识别附加处理功能,并且执行该附加功能,来同步视觉和语音事件。多模式应用通过使用这样的全局应用更新处理程序有利地提供了用于进行对从用户接收到的语音命令给出的语义解释的附加处理的方式。
示例客户设备108、112、104、110、126和102支持多模式浏览器,并且进行耦合以便与能够根据本发明实施例提供多模式网页的服务器106上的多模式网络应用进行数据通信。本说明书中使用的术语‘多模式浏览器’通常是指能够接收多模式输入并且以多模式输出与用户交互的网页浏览器。多模式浏览器典型地显示用XHTML+VOICE(X+V)书写的网页。
在图1的实例中,包括PDA 112、计算机工作站104、移动电话110以及个人电脑108的几个示例性的客户设备将连接到WAN 101上。网络移动电话110通过无线连接116连接到WAN 101上,并且PDA 112通过无线连接114连接到网络101上。在图1的例子中,个人电脑108通过电线连接120连接到WAN 101上,并且计算机工作站104通过电线连接122连接到WAN 101上。在图1的实例中,便携式计算机126通过无线连接118连接到LAN 103上,并且个人电脑102通过电线连接124连接到LAN 103上。在图1的系统中,示例客户设备108、112、104、110、126和102支持多模式应用,这样的多模式浏览器能够从用户接收语音输入,并且将语音输入或者以语音流的形式,或者以客户端上的语音识别引擎从语音转换而成的文本形式,提供给服务器106上的多模式网络应用。
如图1所示的示例性系统的服务器和其它设备的构成方案是用于阐述,而并不是限制。正如本领域普通技术人员应该知道的,根据本发明的各种实施例的数据处理系统可以包括没有在图1中示出的附加的服务器、路由器、其它设备以及对等架构。在这样的数据处理系统中的网络可以支持许多数据通信协议,包括,例如,TCP/IP、HTTP、WAP、HDTP和其它本领域普通技术人员知道的协议。本发明的各种实施例可以在图1所示的平台之外的硬件平台上实现。
根据本发明实施例的支持视觉和语音事件同步的多模式应用通常与计算机,即自动计算机一起实现。因此,为了进一步的阐述,图2示出了包含有能够通过从用户接收语音,确定语音的语义解释,调用全局应用更新处理程序,根据语义解释由全局应用更新处理程序来识别附加处理功能,并且执行附加功能,来同步视觉和语音事件的示例服务器151的自动计算机的方框图。
图2的服务器151包含至少一个计算处理器156或者‘CPU’,还包括通过系统总线160连接到处理器156和计算机其它部件的随机访问存储器168(“RAM”)。存储在RAM 168中的是操作系统154。根据本发明实施例的用于计算机中的操作系统包括UNIXTM,LinuxTM,Microsoft NTTM,AIXTM,IBM的i5/OS,以及许多其它本领域的普通技术人员知道的操作系统。
同样存储在RAM 168中还有多模式应用188。该多模式应用具有通常能够通过接收用户语音,确定语音的语义解释,调用全局应用更新处理程序,根据语义解释由全局应用更新处理程序来识别附加处理功能,并且执行附加功能,来同步视觉和语音事件的语音同步模块信息模块192。
语音可以或者以来自客户设备的语音流的形式,或者以从安装在支持语音识别引擎的客户端上的多模式浏览器接收到的文本形式被接收到多模式应用188中。示例性多模式应用包括用于接收语音以及用于根据语法通过分析所接收的语音来将语音转换成文本的语音识别器193。语法是执行该语法的语音识别器可以识别的预定义的一组单词或短语。典型地,展示给用户的由特定表单或菜单定义的每一个对话具有一个或者多个与定义该对话的表单或菜单相关联的语法。这种语法只有当该表单或菜单被激活时才有效。
图2的示例性多模式应用188也包括语义解释引擎191,能够确定通过语音识别器193识别的语音的语义解释。图2的语义解释引擎或者以文本,或者以其它的形式接收已被识别的语音,并且将语义含义指派给输入。比如,用户说的许多单词,如“是”、“肯定”、“当然”和“我同意”,可以赋予同样的语义含义“是”。
图2的示例性语音同步模块信息模块192通过调用以从用户接收到的语音作为参数的语义解释引擎来确定语音的语义解释,并且该语义解释引擎向语音同步模块返回语音的一个或多个语义解释。然后语音同步模块信息模块192调用全局应用更新处理程序,该处理依次为每个语义解释识别一个根据该语义解释的附加处理功能,并且执行该附加功能。
附加处理功能可以是能够执行其识别和执行依赖于语音的语义解释的任何动作的任何软件功能。考虑到从与多模式菜单对话的用户接收语音命令的例子。用户说‘继续’,语义解释引擎将语音解释为从用户发出的移至下一菜单的指令。本发明的同步模块信息模块192能够调用全局更新处理程序,该处理程序识别特定功能,该特定功能在更新下一菜单的视觉元素并且为用户启动下一菜单之前,识别并且向用户显示广告(advertisment)。这样的全局应用更新处理程序有利地在更新多模式应用的视觉元素和语音表单或菜单之前提供附加处理的方式。
图2的服务器151包括通过系统总线160耦合到处理器156和服务器151的其它部件的非易失性计算机存储器166。非易失性计算机存储器166可以实现为硬盘驱动器170、光盘驱动器172,电可擦除可编程只读存储器空间(所谓的‘EEPROM’或者‘闪速’存储器)174,RAM驱动器(未示出),或者是本领域的普通技术人员知道的任何其它种类的计算机存储器。
图2的示例服务器151包括一个或多个输入/输出接口适配器178。计算机中的输入/输出接口适配器通过例如用来控制到例如计算机显示屏的显示设备180的输出,以及控制从例如键盘和鼠标的用户输入设备181的输入的软件驱动器和计算机硬件实现面向用户的输入/输出。
图2的示例服务器151包括通信适配器167,用来实现与其它计算机182的数据通信184。这样的数据通信可以通过RS-232链接,经由例如USB的外部总线,通过例如IP网络的数据通信网络,以及其它本领域的普通技术人员知道的方法来实现。通信适配器实现数据通信的硬件层次,由此一台计算机可以直接地或者通过网络向另一台计算机发送数据通信。根据本发明实施例的用于多模式应用中的通信适配器的实例包括用于有线拨号通信的调制解调器,用于有线网络通信的以太网(IEEE 802.3)适配器,以及用于无线网络通信的802.11b适配器。
同步视觉和语音事件经常通过服务器上的多模式应用来实现,该服务器通过运行在为与服务器进行通信而耦合的客户设备上的多模式浏览器接收用户语音。因此,为了进一步的阐述,图3示出了包含根据本发明实施例的用于同步视觉和语音事件的示例性客户端152的自动计算机器的方框图。
图3的客户端152包含至少一个计算处理器156或者‘CPU’,还包括通过系统总线160连接到处理器156和计算机其它部件的随机访问存储器168(“RAM”)。存储在RAM 168中的是操作系统154。根据本发明实施例的用于计算机中的操作系统包括UNIXTM,LinuxTM,Microsoft NTTM,AIXTM,IBM的i5/OS,以及许多其它本领域的普通技术人员知道的操作系统。
同样存储在RAM 168中的还有能够显示根据本发明的实施例同步的视觉和语音事件的多模式浏览器195。图3的示例性多模式浏览器195还包括用户代理197,它能够从用户接收语音,并且根据语法分析接收到的语音来将语音转换成文本。语法是用户代理能够识别的一组单词或短语。典型地,由展示给用户的特定表单或菜单定义的每一个对话具有一个或者多个与该表单或菜单相关联的语法。这样的语法只有当用户在该对话中时才有效。
图3的客户端152包含通过系统总线160耦合到处理器156和客户端152的其它部件的非易失性计算机存储器166。非易失性计算机存储器166可以实现为硬盘驱动器170、光盘驱动器172、电可擦除可编程只读存储器空间(所谓的‘EEPROM’或者‘闪速’存储器)174、RAM驱动器(未示出)或者是本领域的普通技术人员知道的任何其它种类的计算机存储器。
图3的示例客户端包含一个或者多个输入/输出接口适配器178。计算机中的输入/输出接口适配器通过例如用来控制到例如计算机显示屏的显示设备180的输出,以及控制从例如键盘和鼠标的用户输入设备181的输入的软件驱动器和计算机硬件实现面向用户的输入/输出。
图3的示例客户端152包括通信适配器167,用来实现与其它计算机182的数据通信184。这样的数据通信可以通过RS-232链接,经由比如USB的外部总线,通过比如IP网络的数据通信网络,以及其它本领域的普通技术人员知道的方法来实现。通信适配器实现数据通信的硬件层次,由此一台计算机可以直接地或者通过网络向另一台计算机发送数据通信。根据本发明实施例的用于多模式浏览器中的通信适配器的实例包括用于有线拨号通信的调制解调器,用于有线网络通信的以太网(IEEE 802.3)适配器,以及用于无线网络通信的802.11b适配器。
为了进一步的阐述,图4示出了用来说明在多模式应用中同步视觉和语音事件的示例性方法的流程图。图4的方法包括接收(402)用户语音404。如上面所讨论的,接收(402)用户语音404可以由服务器上的多模式应用的语音识别器接收来自客户设备的语音流或者接收从安装在支持作为客户端语音识别引擎的用户代理的客户端上的多模式浏览器接收的文本来实现。接收(402)用户语音404典型地包括从用户接收一句言辞,并且根据有效语法来分析接收到的言辞,以识别作为语音的用户言辞。
图4的方法还包括确定(406)语音404的语义解释410。在图4的实例中,确定语音的语义解释通过语义解释引擎408来实现。如上面所讨论的,语义解释引擎典型地或者作为文本形式或者作为其它形式接收已识别的语音,并且将语义含义指派给输入。比如,用户说的许多单词,如“是”、“肯定”、“当然”和“我同意”,可以赋予同样的语义含义“是”。
图4的方法还包括调用(412)全局应用更新处理程序414。如上面所讨论的,全局应用更新处理程序是响应于接收到任何语音命令而调用的单个处理程序,它能够有利地根据语音的语义解释识别附加处理功能,并且执行附加处理功能。
调用(412)全局应用更新处理程序414可以通过绑定到具有激活全局应用更新处理程序的属性的XHTML<listener>元素的XML事件来实现。在图4的方法中,单个XML事件在从用户接收的语音的任何语义解释返回时被激活。
在图4的方法中,调用(412)全局应用更新处理程序414包括退出(413)语音表单428。如上面所讨论的,语音表单定义了为一组表单项变量收集数值的交互。退出语音表单可以通过向全局应用更新处理程序发出<vxml:return/>来实现,它能够退出语音表单,并且返回到多模式应用。退出语音表单有利地提供了在任何一个特定的语音表单之外识别和执行附加功能的方式。因此这样的附加功能能够在语音表单之间交叉识别和执行,而不是基于在表单中定义的语法给出的对语音的语义解释来识别附加功能。
在图4的实例中,调用(412)全局应用更新处理程序414包括退出(413)语音表单428。这仅仅作为一个例子,而并不是限制。另一种形式的对话包括菜单。菜单向用户展示可选的选项,然后根据该选项转到另一个对话。调用(412)全局应用更新处理程序414可以包括退出语音菜单。退出语音菜单有利的提供了在任何特定的语音菜单之外识别和执行附加功能的方式。因此这样的附加功能能够在语音菜单之间交叉识别和执行,而不是基于在表单中定义的语法给出的对语音的语义解释来识别附加的功能。
图4的方法也包括根据语义解释408由全局应用更新处理程序414识别(416)附加处理功能418,并且执行(420)该附加功能418。附加处理功能可以是能够执行其识别和执行依赖于语音的语义解释的任何动作的任何软件功能。附加处理功能经常在更新XHTML文档的视觉元素和X+V应用中的语音表单的语音元素之前执行。考虑到从与设计为接收旅行信息的多模式表单对话的用户接收语音命令的例子。用户说‘英格兰’,语义解释引擎将该语音解释成从用户接收到了去‘英国’旅行的命令。调用全局更新处理程序来识别特定的功能,该功能识别并且显示导引伦敦旅店的广告。这样的全局应用更新处理程序在更新视觉元素和多模式应用的语音表单或者菜单之前有利地提供了用于附加处理的方式。
在图4的实例中,只有一个附加处理功能418被识别并执行。这只是为了阐述,而并不是限制。事实上,根据本发明的实施例,同步视觉和语音事件可以接收用于接收到的语音的多个语义解释,并且根据一个或多个语义解释调用一个或多个附加功能。
图4的方法还包括在执行(420)附加功能418之后更新(422)视觉元素424。更新视觉元素可以通过将语义解释的结果返回给X+V应用的XHTML元素来实现。
图4的方法还包括在执行(420)附加功能418之后更新(426)语音表单428。更新(426)语音表单428可以通过将语义解释的结果返回给语音表单的表单项来实现。
图4的方法还包括在更新(426)语音表单428之后更新(430)状态表432。图4的状态表432典型的实现为数据结构,其中每一配对的视觉元素和语音字段都包含有数值,用于指示元素和语音字段的状态。比如,状态表可以包括用于每一配对的视觉元素和语音字段的唯一的数值,用于指示通过从用户接收指令并且响应于用户指令而更新字段,该当前字段已经被填充。
图4的方法也包括在执行附加功能之后重启(434)语音表单428。在执行附加功能之后重启(434)语音表单428典型的根据已更新的状态表来实现。根据状态表重启(434)语音表单428典型的控制多模式浏览器在语音表单中为用户提示下一个未被填充的语音字段。
从上述的描述中可以知道在不背离本发明真正的构思的条件下可以对本发明的各种实施例进行变化和修改。说明书中的描述只是为了说明目的而不能解释为对本发明的限制。本发明的范围仅由下面的权利要求书中的语言来限定。

Claims (15)

1、一种在多模式应用中同步视觉和语音事件的方法,该方法包括:
接收用户语音;
确定所述语音的语义解释;
调用全局应用更新处理程序;
根据所述语义解释由所述全局应用更新处理程序识别附加处理功能;以及
执行所述附加处理功能。
2、如权利要求1所述的方法,还包括在执行所述附加处理功能之后更新视觉元素。
3、如权利要求1所述的方法,还包括在执行所述附加处理功能之后更新语音表单。
4、如权利要求3所述的方法,还包括在更新所述语音表单之后更新状态表。
5、如权利要求1所述的方法,其中调用所述全局应用更新处理程序还包括退出语音表单。
6、如权利要求5所述的方法,还包括在执行所述附加处理功能之后重启语音表单。
7、如权利要求1所述的方法,其中调用所述全局应用更新处理程序还包括退出语音菜单。
8、一种在多模式应用中同步视觉和语音事件的系统,该系统包括至少一个计算机处理器,至少一个可操作地耦合到该计算机处理器上的计算机存储器,以及配置在该计算机存储器中的计算机程序指令,所述计算机程序指令用于:
接收用户语音;
确定所述语音的语义解释;
调用全局应用更新处理程序;
根据所述语义解释由所述全局应用更新处理程序识别附加处理功能;以及
执行所述附加处理功能。
9、如权利要求8所述的系统,还包括配置在计算机存储器中的用于在执行所述附加处理功能之后更新视觉元素的计算机程序指令。
10、如权利要求8所述的系统,还包括配置在计算机存储器中的用于在执行所述附加处理功能之后更新语音表单的计算机程序指令。
11、如权利要求10所述的系统,还包括配置在计算机存储器中的用于在更新所述语音表单之后更新状态表的计算机程序指令。
12、如权利要求8所述的系统,其中配置在计算机存储器中的计算机程序指令能够退出语音表单。
13、如权利要求12所述的系统,还包括配置在计算机存储器中的用于在执行所述附加处理功能之后重启所述语音表单的计算机程序指令。
14、如权利要求8所述的系统,其中配置在计算机存储器中的计算机程序指令能够退出语音菜单。
15、一种在多模式应用中同步视觉和语音事件的计算机程序产品,所述计算机程序产品由计算机可读记录介质实现,该计算机程序产品包括执行权利要求1-7中任何一个中的步骤的计算机程序指令。
CNB200610004271XA 2005-06-16 2006-02-13 在多模式应用中同步视觉和语音事件的方法和系统 Expired - Fee Related CN100456234C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/154,898 2005-06-16
US11/154,898 US7917365B2 (en) 2005-06-16 2005-06-16 Synchronizing visual and speech events in a multimodal application

Publications (2)

Publication Number Publication Date
CN1881178A true CN1881178A (zh) 2006-12-20
CN100456234C CN100456234C (zh) 2009-01-28

Family

ID=37519387

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200610004271XA Expired - Fee Related CN100456234C (zh) 2005-06-16 2006-02-13 在多模式应用中同步视觉和语音事件的方法和系统

Country Status (2)

Country Link
US (3) US7917365B2 (zh)
CN (1) CN100456234C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103456298A (zh) * 2012-06-04 2013-12-18 三星电子株式会社 提供语音识别服务的方法及其电子装置
CN103608808A (zh) * 2011-06-29 2014-02-26 惠普发展公司,有限责任合伙企业 使用统一通信内容来提供服务

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8238881B2 (en) 2001-08-07 2012-08-07 Waloomba Tech Ltd., L.L.C. System and method for providing multi-modal bookmarks
US8213917B2 (en) 2006-05-05 2012-07-03 Waloomba Tech Ltd., L.L.C. Reusable multimodal application
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US9083798B2 (en) 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US20060235694A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Integrating conversational speech into Web browsers
US20060288309A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US7917365B2 (en) 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US8090584B2 (en) * 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US7848314B2 (en) 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US9208785B2 (en) 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US7676371B2 (en) 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8332218B2 (en) 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US8145493B2 (en) 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8612230B2 (en) 2007-01-03 2013-12-17 Nuance Communications, Inc. Automatic speech recognition with a selection list
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8069047B2 (en) 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US8150698B2 (en) 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US7822608B2 (en) 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US8713542B2 (en) 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US9208783B2 (en) 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US7809575B2 (en) 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US7840409B2 (en) 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US8938392B2 (en) 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8670987B2 (en) 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8909532B2 (en) 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US8788620B2 (en) 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8862475B2 (en) 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8725513B2 (en) 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8676577B2 (en) * 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8082148B2 (en) 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8214242B2 (en) 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US9349367B2 (en) 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8229081B2 (en) 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
TWI413938B (zh) * 2009-12-02 2013-11-01 Phison Electronics Corp 情感引擎、情感引擎系統及電子裝置的控制方法
US20110307252A1 (en) * 2010-06-15 2011-12-15 Microsoft Corporation Using Utterance Classification in Telephony and Speech Recognition Applications
US9082403B2 (en) 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system
US9093072B2 (en) * 2012-07-20 2015-07-28 Microsoft Technology Licensing, Llc Speech and gesture recognition enhancement
US9711146B1 (en) 2014-06-05 2017-07-18 ProSports Technologies, LLC Wireless system for social media management
US9343066B1 (en) 2014-07-11 2016-05-17 ProSports Technologies, LLC Social network system
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
JP6832666B2 (ja) * 2016-09-30 2021-02-24 株式会社ディスコ 半導体パッケージの製造方法
US11556699B2 (en) * 2019-02-04 2023-01-17 Citrix Systems, Inc. Data migration across SaaS applications
US11461681B2 (en) * 2020-10-14 2022-10-04 Openstream Inc. System and method for multi-modality soft-agent for query population and information mining
CN114462364B (zh) * 2022-02-07 2023-01-31 北京百度网讯科技有限公司 录入信息的方法和装置

Family Cites Families (135)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5584052A (en) 1992-11-16 1996-12-10 Ford Motor Company Integrated microphone/pushbutton housing for voice activated cellular phone
US5809471A (en) 1996-03-07 1998-09-15 Ibm Corporation Retrieval of additional information not found in interactive TV or telephony signal by application using dynamically extracted vocabulary
JPH1091412A (ja) 1996-07-25 1998-04-10 Toshiba Corp 表示部品選択装置及び表示部品選択方法
US6243375B1 (en) 1996-11-08 2001-06-05 Gregory J. Speicher Internet-audiotext electronic communications system with multimedia based matching
US6856960B1 (en) 1997-04-14 2005-02-15 At & T Corp. System and method for providing remote automatic speech recognition and text-to-speech services via a packet network
US6301560B1 (en) 1998-01-05 2001-10-09 Microsoft Corporation Discrete speech recognition system with ballooning active grammar
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
US6208972B1 (en) 1998-12-23 2001-03-27 Richard Grant Method for integrating computer processes with an interface controlled by voice actuated grammars
US6606599B2 (en) 1998-12-23 2003-08-12 Interactive Speech Technologies, Llc Method for integrating computing processes with an interface controlled by voice actuated grammars
JP2000155529A (ja) 1998-11-20 2000-06-06 Kai:Kk 料理メニューの表示方法とこれを実施したプログラム
US6456699B1 (en) 1998-11-30 2002-09-24 At&T Corp. Web-based generation of telephony-based interactive voice response applications
JP3514372B2 (ja) 1999-06-04 2004-03-31 日本電気株式会社 マルチモーダル対話装置
US6275806B1 (en) 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US7376586B1 (en) 1999-10-22 2008-05-20 Microsoft Corporation Method and apparatus for electronic commerce using a telephone interface
US6807574B1 (en) 1999-10-22 2004-10-19 Tellme Networks, Inc. Method and apparatus for content personalization over a telephone interface
US20040193488A1 (en) * 2000-01-19 2004-09-30 Denis Khoo Method and system for advertising over a data network
US6920425B1 (en) 2000-05-16 2005-07-19 Nortel Networks Limited Visual interactive response system and method translated from interactive voice response for telephone utility
US7035805B1 (en) 2000-07-14 2006-04-25 Miller Stephen S Switching the modes of operation for voice-recognition applications
US20020092019A1 (en) 2000-09-08 2002-07-11 Dwight Marcus Method and apparatus for creation, distribution, assembly and verification of media
US6745163B1 (en) * 2000-09-27 2004-06-01 International Business Machines Corporation Method and system for synchronizing audio and visual presentation in a multi-modal content renderer
GB0029025D0 (en) 2000-11-29 2001-01-10 Hewlett Packard Co Enhancement of communication capabilities
WO2002044887A2 (en) 2000-12-01 2002-06-06 The Trustees Of Columbia University In The City Of New York A method and system for voice activating web pages
GB0029576D0 (en) 2000-12-02 2001-01-17 Hewlett Packard Co Voice site personality setting
ATE321422T1 (de) 2001-01-09 2006-04-15 Metabyte Networks Inc System, verfahren und software für die bereitstellung einer gezielten werbung durch benutzerprofildatenstruktur basierend auf benutzerpräferenzen
US7174534B2 (en) 2001-01-22 2007-02-06 Symbol Technologies, Inc. Efficient system and method for running and analyzing multi-channel, multi-modal applications
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US20020120554A1 (en) 2001-02-28 2002-08-29 Vega Lilly Mae Auction, imagery and retaining engine systems for services and service providers
US20020147593A1 (en) 2001-04-06 2002-10-10 International Business Machines Corporation Categorized speech-based interfaces
US20030046316A1 (en) 2001-04-18 2003-03-06 Jaroslav Gergic Systems and methods for providing conversational computing via javaserver pages and javabeans
WO2002087201A1 (en) 2001-04-19 2002-10-31 British Telecommunications Public Limited Company Voice response system
EP1380154A1 (en) 2001-04-19 2004-01-14 BRITISH TELECOMMUNICATIONS public limited company Voice response system
US7085722B2 (en) 2001-05-14 2006-08-01 Sony Computer Entertainment America Inc. System and method for menu-driven voice control of characters in a game environment
US6983307B2 (en) * 2001-07-11 2006-01-03 Kirusa, Inc. Synchronization among plural browsers
JP4437633B2 (ja) 2001-08-10 2010-03-24 富士通株式会社 携帯端末
US7752326B2 (en) 2001-08-20 2010-07-06 Masterobjects, Inc. System and method for utilizing asynchronous client server communication objects
JP2003140672A (ja) 2001-11-06 2003-05-16 Matsushita Electric Ind Co Ltd 音素ビジネスシステム
US7103542B2 (en) 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
WO2003061242A1 (en) 2002-01-15 2003-07-24 Avaya Technology Corp. Communication application server for converged communication services
WO2003063137A1 (en) * 2002-01-22 2003-07-31 V-Enable, Inc. Multi-modal information delivery system
AU2003219749A1 (en) 2002-02-11 2003-09-04 Unified Dispatch, Inc. Automated transportation call-taking system
US7210098B2 (en) * 2002-02-18 2007-04-24 Kirusa, Inc. Technique for synchronizing visual and voice browsers to enable multi-modal browsing
US7315613B2 (en) 2002-03-11 2008-01-01 International Business Machines Corporation Multi-modal messaging
US7327833B2 (en) 2002-03-20 2008-02-05 At&T Bls Intellectual Property, Inc. Voice communications menu
US6999930B1 (en) 2002-03-27 2006-02-14 Extended Systems, Inc. Voice dialog server method and system
CN1427394A (zh) * 2002-04-09 2003-07-02 北京无限商机通信技术有限公司 语音浏览网关
JP3967952B2 (ja) 2002-04-16 2007-08-29 富士通株式会社 文法更新システム及び方法
WO2003096669A2 (en) 2002-05-10 2003-11-20 Reisman Richard R Method and apparatus for browsing using multiple coordinated device
US8601096B2 (en) 2002-05-14 2013-12-03 Motorola Mobility Llc Method and system for multi-modal communication
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
EP1394692A1 (en) 2002-08-05 2004-03-03 Alcatel Method, terminal, browser application, and mark-up language for multimodal interaction between a user and a terminal
US20040216036A1 (en) 2002-09-13 2004-10-28 Yahoo! Inc. Browser user interface
US7668885B2 (en) 2002-09-25 2010-02-23 MindAgent, LLC System for timely delivery of personalized aggregations of, including currently-generated, knowledge
US7003457B2 (en) 2002-10-29 2006-02-21 Nokia Corporation Method and system for text editing in hand-held electronic device
US7003464B2 (en) * 2003-01-09 2006-02-21 Motorola, Inc. Dialog recognition and control in a voice browser
JP4107093B2 (ja) 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
EP1450350A1 (en) 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US20040179039A1 (en) 2003-03-03 2004-09-16 Blattner Patrick D. Using avatars to communicate
US7509569B2 (en) 2003-03-31 2009-03-24 Ricoh Co., Ltd. Action stickers for nested collections
US7966188B2 (en) 2003-05-20 2011-06-21 Nuance Communications, Inc. Method of enhancing voice interactions using visual messages
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US20050075884A1 (en) 2003-10-01 2005-04-07 Badt Sig Harold Multi-modal input form with dictionary and grammar
GB2407657B (en) 2003-10-30 2006-08-23 Vox Generation Ltd Automated grammar generator (AGG)
US7356472B2 (en) 2003-12-11 2008-04-08 International Business Machines Corporation Enabling speech within a multimodal program using markup
US7401337B2 (en) 2003-12-19 2008-07-15 International Business Machines Corporation Managing application interactions using distributed modality components
US7409690B2 (en) 2003-12-19 2008-08-05 International Business Machines Corporation Application module for managing interactions of distributed modality components
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US20050160461A1 (en) 2004-01-21 2005-07-21 United Video Properties, Inc. Interactive television program guide systems with digital video recording support
EP1719337A1 (en) 2004-02-17 2006-11-08 Voice Signal Technologies Inc. Methods and apparatus for replaceable customization of multimodal embedded interfaces
US20050188404A1 (en) 2004-02-19 2005-08-25 Sony Corporation System and method for providing content list in response to selected content provider-defined word
CN100424630C (zh) 2004-03-26 2008-10-08 宏碁股份有限公司 网页语音接口的操作方法
US20050222900A1 (en) * 2004-03-30 2005-10-06 Prashant Fuloria Selectively delivering advertisements based at least in part on trademark issues
US7925512B2 (en) 2004-05-19 2011-04-12 Nuance Communications, Inc. Method, system, and apparatus for a voice markup language interpreter and voice browser
US8549501B2 (en) 2004-06-07 2013-10-01 International Business Machines Corporation Framework for generating mixed-mode operations in loop-level simdization
US8768711B2 (en) 2004-06-17 2014-07-01 Nuance Communications, Inc. Method and apparatus for voice-enabling an application
US7487085B2 (en) 2004-08-24 2009-02-03 International Business Machines Corporation Method and system of building a grammar rule with baseforms generated dynamically from user utterances
US7590589B2 (en) * 2004-09-10 2009-09-15 Hoffberg Steven M Game theoretic prioritization scheme for mobile ad hoc networks permitting hierarchal deference
US20060069564A1 (en) 2004-09-10 2006-03-30 Rightnow Technologies, Inc. Method of weighting speech recognition grammar responses using knowledge base usage data
US7739117B2 (en) 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US7509260B2 (en) 2004-09-20 2009-03-24 International Business Machines Corporation Systems and methods for inputting graphical data into a graphical input field
US7509659B2 (en) 2004-11-18 2009-03-24 International Business Machines Corporation Programming portal applications
US7650284B2 (en) 2004-11-19 2010-01-19 Nuance Communications, Inc. Enabling voice click in a multimodal page
US20060123358A1 (en) 2004-12-03 2006-06-08 Lee Hang S Method and system for generating input grammars for multi-modal dialog systems
US8024194B2 (en) 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US9083798B2 (en) 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US7751431B2 (en) * 2004-12-30 2010-07-06 Motorola, Inc. Method and apparatus for distributed speech applications
US7548977B2 (en) 2005-02-11 2009-06-16 International Business Machines Corporation Client / server application task allocation based upon client resources
US8725514B2 (en) 2005-02-22 2014-05-13 Nuance Communications, Inc. Verifying a user using speaker verification and a multimodal web-based interface
US20060218039A1 (en) 2005-02-25 2006-09-28 Johnson Neldon P Enhanced fast food restaurant and method of operation
US20060229880A1 (en) 2005-03-30 2006-10-12 International Business Machines Corporation Remote control of an appliance using a multimodal browser
GB0507148D0 (en) 2005-04-08 2005-05-18 Ibm Method and apparatus for multimodal voice and web services
US20060235694A1 (en) 2005-04-14 2006-10-19 International Business Machines Corporation Integrating conversational speech into Web browsers
US20060288309A1 (en) 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US7917365B2 (en) 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US20060287865A1 (en) 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US8090584B2 (en) 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US9208785B2 (en) 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US20070274297A1 (en) 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US7848314B2 (en) 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US7676371B2 (en) 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8332218B2 (en) 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US8145493B2 (en) 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8612230B2 (en) 2007-01-03 2013-12-17 Nuance Communications, Inc. Automatic speech recognition with a selection list
US8069047B2 (en) 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US8150698B2 (en) 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US7809575B2 (en) 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US7840409B2 (en) 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US20080208586A1 (en) 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US8713542B2 (en) 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US20080208589A1 (en) 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US9208783B2 (en) 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US8938392B2 (en) 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US20080208594A1 (en) 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US7822608B2 (en) 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8670987B2 (en) 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8909532B2 (en) 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US20080235029A1 (en) 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8788620B2 (en) 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8862475B2 (en) 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8725513B2 (en) 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8214242B2 (en) 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US9349367B2 (en) 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8082148B2 (en) 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8229081B2 (en) 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103608808A (zh) * 2011-06-29 2014-02-26 惠普发展公司,有限责任合伙企业 使用统一通信内容来提供服务
CN103456298A (zh) * 2012-06-04 2013-12-18 三星电子株式会社 提供语音识别服务的方法及其电子装置
CN103456298B (zh) * 2012-06-04 2019-12-10 三星电子株式会社 提供语音识别服务的方法及其电子装置

Also Published As

Publication number Publication date
US7917365B2 (en) 2011-03-29
US20060287845A1 (en) 2006-12-21
US8571872B2 (en) 2013-10-29
US8055504B2 (en) 2011-11-08
US20120022875A1 (en) 2012-01-26
CN100456234C (zh) 2009-01-28
US20080177530A1 (en) 2008-07-24

Similar Documents

Publication Publication Date Title
CN100456234C (zh) 在多模式应用中同步视觉和语音事件的方法和系统
CN100444097C (zh) 在多模式浏览器中显示可用菜单选项的方法和系统
US9773498B2 (en) System and method for managing models for embedded speech and language processing
US7925512B2 (en) Method, system, and apparatus for a voice markup language interpreter and voice browser
CN1161747C (zh) 采用语音识别和自然语言处理的网络交互式用户界面
CN1666199A (zh) 一种与访问互联网内容有关的装置及方法
CN1750470A (zh) 数据共享系统、方法以及软件工具
CN1658188A (zh) 提供计算机生成文档中识别文本串上自动化的行动
CN1670732A (zh) 用于同步软件应用程序和web网站之间用户界面语言的方法和系统
CN1855041A (zh) 实现虚拟语音一键通功能的方法和多模式界面
CN1484789A (zh) 控制装置
US7613693B1 (en) Preferential ranking of code search results
US20170168843A1 (en) Thread-agile execution of dynamic programming language programs
CN105635284A (zh) 一种页面显示方法及终端
CN111385633A (zh) 一种基于语音的资源搜索方法、智能终端及存储介质
CN111679852B (zh) 一种冲突依赖库的检测方法及装置
CN112860251A (zh) 一种网站前端构建的方法与系统
CN115080114B (zh) 应用程序的移植处理方法、装置和介质
KR101154717B1 (ko) 데이터 언어로 다수 언어들을 관리하기 위한 방법 및 장치
KR100948472B1 (ko) 데이터 언어에서 변수들의 자동 업데이팅
CN1746885A (zh) 字词翻译查询系统以及方法
US10545729B2 (en) Computer program interface
CN111857752A (zh) 一种PostgreSQL数据库安装方法、装置及设备
CN103928024A (zh) 一种语音查询方法及电子设备
CN109976765B (zh) 一种应用群部署方法、装置、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090918

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090918

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090128

Termination date: 20210213