CN1700692A - 提供多模态对话的方法和服务器 - Google Patents
提供多模态对话的方法和服务器 Download PDFInfo
- Publication number
- CN1700692A CN1700692A CN200510068081.XA CN200510068081A CN1700692A CN 1700692 A CN1700692 A CN 1700692A CN 200510068081 A CN200510068081 A CN 200510068081A CN 1700692 A CN1700692 A CN 1700692A
- Authority
- CN
- China
- Prior art keywords
- modal
- client computer
- resource
- script
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/565—Conversion or adaptation of application format or content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种方法,该方法提供在多模态应用(5)和通过客户机(4)与该多模态应用(5)通信的用户(6)之间的多模态对话,所述客户机适于交换和呈现以标准或扩展的超文本标记语言编写的文档(7)。本发明还涉及用于执行所述方法的代理服务器(2)。通过所述代理服务器(2)建立所述多模态应用(5)和所述用户(6)之间的多模态对话,所述代理服务器(2)通过交换以标准或扩展的超文本标记语言编写的信息而与所述客户机(4)进行交互。所述代理服务器(2)检索至少一个所述多模态对话中所请求的附加模态资源。所述代理服务器(2)基于与所述客户机(6)的标准或扩展的超文本标记语言交互,并基于所述检索的附加资源(71、72、73、31、32、33),来编辑与所述用户(6)的多模态交互。
Description
技术领域
本发明涉及一种方法,该方法通过适于交换和呈现以标准或扩展超文本标记语言编写的文档的客户机,提供在多模态应用和与该多模态应用通信的用户之间的多模态对话。本发明还涉及在多模态应用和用户之间支持多模态对话的代理服务器。
背景技术
近年,提供给计算机许多不同类型的输入设备,例如键盘、鼠标、触摸屏、图像扫描仪、视频相机、笔和麦克风,以使能够以多种形式输入各种信息条目。同样提供了许多不同类型的输出设备,例如不同形式的显示器单元和扬声器,来以多种形式输出各种信息条目,例如不同的图形形式或口语。另外,给增强的通信终端配备以不同类型的、能够以各种形式输入和输出信息条目的输入和输出设备。
例如,日本专利101 07877 A描述了一种多模态电话装置,其同时使用了显示器和同步语音来与用户通信。
另外,多模态浏览器通过额外的模块扩展了最初的浏览器功能性,所述模块例如是多模态插件,例如SALT或X+V(SLAT=...)。但是所述多模态浏览器需要大量的计算和存储器资源,并且不能在具有有限资源的小型设备上运行,所述小型设备例如是移动设备或PDA(PDA=个人数字助理)。
发明内容
本发明的目的是建议一种改进的多模态系统,该多模态系统能够在多模态应用和用户之间进行多模态对话。
本发明的目的通过这样的方法被达到:其提供了在多模态应用和通过客户机与该多模态应用通信的用户之间的多模态对话,所述客户机适于交换和呈现以标准或扩展的超文本标记语言编写的文档,其中,所述方法包括下列步骤:通过代理服务器在多模态应用和用户之间建立多模态对话,所述代理服务器通过交换以标准或扩展的超文本标记语言编写的信息而与所述客户机进行交互;所述代理服务器检索至少一个在多模态对话中所请求的附加模态资源;以及所述代理服务器基于与所述客户机的标准或扩展的超文本标记语言交互并且基于所述检索的附加资源,来编辑与所述用户的多模态交互。本发明的目的还通过代理服务器被实现,所述代理服务器支持在多模态应用和通过各自的客户机与该多模态应用通信的用户之间的多模态对话,所述客户机适于交换和呈现以标准或扩展的超文本标记语言编写的文档,其中,所述代理服务器包括对话管理器和编辑器(composer)。所述对话管理器通过所述代理服务器在所述多模态应用和用户之间建立多模态对话,通过交换以标准或扩展的超文本标记语言编写的信息与所述客户机进行交互,并且检索至少一个在所述多模态对话中所请求的附加模态资源。所述编辑器基于与所述客户机的标准或扩展的超文本标记语言交互并且基于所述检索的附加资源,编辑与所述用户的多模态交互。
多模态代理基于标准浏览器技术建立了多模态交互,所述技术例如是基于浏览器的多层web应用。代理组件执行客户机侧的多模态对话控制和同步,这不必再由所述客户机的组件来执行。所述结构合并了具有降低的计算能力的高速性能和客户机侧的存储需求。这支持轻型客户机的使用。而且,由于为客户机配备标准浏览器元件以在多模态对话的情况下使用该客户机就足够,因而提升了多模态应用和特征的灵活性和应用性。
而且,所述轻型客户机结构改进了桌面的/以位置为中心的应用来集中处理、管理和支持环境。因此,本发明提升了多模态系统的可缩放性和可维护性。所述结构因商业需要改变而提供了缩放能力,以及提供了增加的用户、交易量和历史记录-并且没有降低性能。此外,其保证了与旧应用系统(legacy application)的共存。
通过附加权利要求所指出的本发明的实施例而达到了其它优点。
根据本发明的优选实施例,多模态系统包括具有没有例如特定插件的附件的标准因特网浏览器的客户机、负责多模态会话和对话管理的多模态代理服务器以及包括几个资源模块的多模态服务器,所述资源模块例如是语音识别、文本到语音和手写识别模块。所述代理服务器向所述多模态服务器发送消息或从该多模态服务器接收消息。此外,其传送HTTP请求(HTTP=超文本传输协议)至适当的应用和web服务器。所述代理服务器也产生JAVA脚本以将多模态事件处理嵌入到HTML/XHTML页面中(HTML=超文本标记语言;XHTML=扩展的超文本标记语言)。所述多模态服务器是到所述客户机的输入/输出设备的RTP连接(RTP=实时协议)的特征,所述客户机的输入/输出设备例如是客户机的麦克风和扬声器。利用JAVA脚本来编辑多模态对话。多模态交互能够应用于HTML元素,例如文本添加域、列表、按钮、链接等。
优选地,所述客户机是移动设备,例如根据GSM或UMTS标准(GSM=全球移动通信系统;UMTS=通用移动电信系统)的移动电话。本发明使所述移动设备能够被配备以标准因特网浏览器以支持多模态交互。这具有显著的优点:用户可以在任何时候选择优选的交互模态,并且不用受限于特定信道的呈现流(presentation flow)。因此,交互成为用户的一项个人的和优化的体验。
根据本发明的优选实施例,所述代理服务器将所述一个或多个所请求的资源编辑为以标准或扩展的超文本标记语言所呈现的文档,并且将所述文档传送到所述客户机。通过所述机制传送至所述客户机的资源支持部分多模态交互,标准的web浏览器功能性不支持所述多模态交互。以简单和有效的方式使附加模态资源变得可用。
优选地,所述代理服务器创建提供模态资源的脚本并且将所述脚本编辑为文档。例如,所述脚本初始化了特定语音通知的输出。但是,所述代理服务器也可以创建用于将多模态事件处理嵌入到文档的脚本,并且将所述脚本编辑为文档。优选地,所述代理服务器还创建为所述脚本提供代理侧接口的相应的资源处理器。根据标准或扩展的超文本标记语言,在位于客户机的脚本和位于所述代理服务器的资源处理器之间交换消息。所述消息被用来控制嵌入在所述脚本中的资源并且用于所述代理侧接口,为所述资源提供该代理侧接口以请求和接收附加信息。
根据本发明的其它实施例,所述代理服务器根据在所述多模态对话中所请求的模态来检索资源模块。优选地,多模态服务器提供一组资源模块,特别是语音识别模块、文本至语音模块和手写模块。
所述代理服务器初始化在客户机和所检索的资源模块之间的会话。此外,其基于初始化的会话来编辑多模态接口。优选地,所检索的资源模块通过一个或多个RTP连接(RTP=实时协议)与所述客户机的输入/输出资源通信。所述代理服务器创建用于所检索的资源模块的资源处理器,所述资源处理器通过TCP/IP(TCP=传输控制协议;IP=互联网协议)连接与所述资源模块通信。
根据本发明的优选实施例,所述代理服务器创建用于所述检索的资源模块的资源处理器。所述资源处理器为位于客户机的脚本提供代理侧接口,并使所述脚本与所述检索的资源模块交换信息。对位于所述客户机的脚本来说,有可能控制资源模块或接收由所述用户输入的和由所述资源模块处理的信息。所述资源处理器向位于所述客户机的脚本提供一种多模态应用接口,这能够将多模态事件处理嵌入到以HTML/XHTML编写的文档中。
附图说明
通过阅读下面结合附图的、目前优选的典型实施例的详细描述,本发明的所述及其它特征和优势将变得更加明显,其中:
图1是示出根据本发明的具有代理服务器的多模态系统的框图;
图2是根据本发明的具有代理服务器的多模态系统的功能视图。
具体实施方式
图1示出了通信网络11和12、客户机4、应用服务器5、代理服务器2和多模态服务器3。
所述客户机4是“轻型”客户机,也就是具有简化的处理和存储资源的客户机。优选地,所述客户机4是便携设备,例如PDA(=个人数字助理)或智能电话,例如具有多模态输入和输出能力的UMTS(UMTS=通用移动电信系统)电话。但所述客户机还可能是数据使能电话、便携式计算机或“常规的”个人计算机,所述数据使能电话例如是具有GPRS能力的GSM蜂窝电话(GSM=全球移动通信系统;GPRS=通用分组无线业务)。
所述客户机4提供两个或多个不同模态的集合以与所述用户6交互。
所述模态描述了信息从客户机4到用户6或从用户6到客户机4被呈现的方式。例如可以通过下列方式以语音消息、屏幕上的书写信息来提交信息:屏幕上的图标或图形显示、按压键盘上的特定键、输入手写命令、笔、鼠标板(mouse pad)、语音命令、输入命令字或触摸板上的图标。
作为例子,图1示出了所述客户机4和用户6之间四种不同的交互81到84,其中每一个指定不同的模态。
通信网络11将所述客户机4连接到代理服务器2和多模态服务器3上。而且,所述通信网络12将所述代理服务器2连接到所述应用服务器5。
优选地基于TCP/IP协议栈(TCP=传输控制协议;IP=互联网协议),所述通信网络11和12使上述组件之间的数据交换成为可能。
例如,所述代理服务器2、多模态服务器3和应用服务器5通过与移动通信网络相连的IP网络而被连接,所述移动通信网络担当所述客户机4的接入网络以接入所述IP网络。在这种情况下,所述通信网络11由例如GSM或UMTS网络的移动网络和固定数据网络(即上述IP网络)组成。所述IP网络可以由许多物理通信网络构成,例如ATM、MPLS或以太网(MPLS=多协议标记交换;ATM=异步传输模式),通过通常的3层IP协议连接所述物理通信网络。而且,所述客户机4和代理服务器2/多模态服务器3可以通过异步连接来交换数据(例如,通过GPRS服务或经由移动网络的同步连接)。
但是,所述客户机4也可能是固定终端,或通过WLAN接口与所述代理服务器2和多模态服务器3连接的终端。在这两种情况下,所述通信网络11和通信网络12由上述IP网络构成。
所述应用服务器5操作一个或多个多模态应用,例如具有多模态能力的应用。例如,所述应用以多模态标记语言编写,例如通过HTLM+、SALT或X+V。如果所述应用被用户接触,则其向各自的客户机用户提供多模态用户接口。
所述客户机4具有一个或几个执行软件程序的处理器和各种输入/输出设备,例如输入/输出设备42、43、44和45。由所述客户机4的处理器对所述软件程序的执行提供了标准WEB浏览器41的功能性,所述标准WEB浏览器适合交换和呈现以HTML或XHTML编写的文档(HTML=超文本标记语言;XHTML=扩展的超文本标记语言)。所述输入/输出设备42是显示器、键盘和鼠标板,所述输入/输出设备43是扬声器,所述输入/输出设备44是麦克风,并且所述输入/输出设备45是可以手写输入的笔。
所述代理服务器2是位于IP网络中的IP服务器。但是也可以在网络接入服务器中实现所述代理服务器2的功能性,所述网络接入服务器控制客户机4到上述IP网络的接入。
所述代理服务器2由一个或几个互联的计算机、软件平台和许多基于所述平台执行的应用程序而构成。所述代理服务器2的功能性是通过执行基于系统平台的所述软件程序来提供的。从功能的观点来说,所述代理服务器2提供一个或多个多模态代理,每个多模态代理具有数据库21、对话管理器22、编辑器23和一个或多个资源处理器24。
所述多模态服务器3是互联网服务器,其提供一个或多个支持在所述用户6和客户机4之间的多模态交互的资源模块。例如,所述多模态服务器3包括资源模块31、32和33。所述资源模块31是语音识别模块、所述资源模块32是文本到语音转换模块并且所述资源模块33是手写识别模块。许多位于不同代理服务器的多模态代理可以共享所述多模态服务器3的资源模块31到33。但是所述资源模块31到33也可以被嵌入到所述代理服务器2中,并且被一个或多个由所述代理服务器2提供的多模态代理单独使用。
所述对话管理器22执行多模态对话管理。当从请求接入多模态应用的客户机4接收到HTTP(HTTP=超文本传输协议)消息时,该对话管理器建立在所述多模态应用和客户机4的用户6之间的多模态对话。所述对话管理器以适当的形式将所述HTTP请求传送给适当的多模态应用服务器,例如传送给多模态应用服务器5。当从所述应用服务器5接收到响应时,所述对话管理器通过交换以标准或扩展的超文本标记语言编写的信息与所述客户机4进行交互,并且检索至少一个在多模态对话中所请求的附加模态资源。
例如,所述对话管理器22创建一个或多个脚本的集合,所述脚本通过所述数据库21,提供模态资源或嵌入多模态事件处理。所述对话管理器将脚本编辑为HTML或XHTML文档,该文档被发送给所述客户机4以供所述浏览器41执行。另外,所述对话管理器可以创建一个或多个为所述脚本提供代理侧接口的资源处理器。
另外,基于来自所述应用服务器5的一个或多个响应,所述对话管理器22检索一个或多个所述多模态服务器3的资源模块,并且初始化在所述客户机4的元件和所述检索的资源模块之间的会话。
例如,所述对话管理器22用一组脚本71、72和73来创建HTML文档7,并且将该文档作为HTTP响应92来传送给所述客户机4。所述脚本71执行特定语音通知的输出,并且将资源“特定语音通知”作为附加模态资源添加到所述浏览器41的能力集(capability set)。所述脚本73将多模态事件处理嵌入到所述HTML文档7中。例如,所述脚本将所述多模态事件处理与文档7的HTML元素连接起来,所述元素例如是添加文本(text-added)域、列表、按钮、链接等。优选地,所述脚本73通过通信连接93,与相应的位于所述代理服务器2的资源处理器交换HTML消息或XHTML消息,所述代理服务器2为所述脚本73提供代理侧应用接口。
另外,所述对话管理器22根据在所述多模态对话中请求的特定模态,检索所述多模态服务器3的资源模块,即储备资源模块并将其绑定在对话管理器22中。
所述编辑器23基于与所述客户机6的标准或扩展的超文本标记语言交互并且基于所述检索的附加资源,来编辑与所述用户6的多模态交互。例如,所述编辑器23编辑交互81到84之外的多模态对话情况下的多模态交互,其中,所述交互81是标准或扩展的超文本标记交互,所述交互82是所述脚本71所创建的语音通知,所述交互83是在所述编辑器23和脚本73控制下所述资源模块31所处理的语音输入,并且所述交互84是在所述编辑器23和脚本73控制下所述资源模块33所处理的手写输入。
所述编辑器23根据从接收自所述应用服务器5的信息和接收自所述用户6的事件,来编辑与所述用户6的多模态对话,其中,所述脚本73可以预处理所述事件。
例如,所述多模态应用通过语音通知来请求信息输出,或所述用户6选择信息输出应该通过语音通知来执行。所述系统如下实现了所述语音通知:通过创建所述脚本71并且由所述浏览器41执行该脚本71,或通过检索所述资源模块32、建立RTP连接并初始化在所述资源模块32和所述客户机4的组件43之间的会话,并且由所述资源处理器24触发所述资源模块32以创建所述语音通知并将其传送至组件43。
例如,所述脚本73检测到指示来自所述用户的关于执行语音输入的请求的事件。所述脚本73联系检索所述资源模块31的代理服务器2、初始化所述元件之间的会话并接收和处理所述资源模块31的处理结果。
图2示出了图1的多模态系统的一些详细的实施例。图2示出了客户机4、代理服务器2、应用服务器5和资源模块31到33。所述客户机4包括WEB浏览器41和元件43到45。
所述脚本71到73编写为JAVA脚本。所述浏览器41包括JAVA脚本73使用的激活的X-object 46,以调用相应的JAVA类(JAVA-class)提供的代理服务器2的servlet(小服务程序)。所述servlet处理信息并创建相应的响应信息,所述响应信息由所述激活的X-object 46处理,并且可以由所述脚本使用而不用重新加载所述HTTML文档41。
在所述情况下,所述文档41形成的web侧担当客户机的角色,并且具有所述servlet的代理服务器2担当了服务器的角色。所述客户机和服务器之间所交换的消息格式遵循XML标准。
所述JAVA脚本73具有通过XML消息“XML request(XML请求)”来询问servlet“control servlet(控制servlet)”的方法的函数(请求)。所述JAVA脚本函数(请求)将其串类型的输入参数“request XML-string(请求XML串)”传递给所述servlet“control servlet”。同时所述函数安装针对所述激活的X-object 46的事件“on ready state change(准备状态改变)”的event-handler(事件处理器)。如果所述JAVA脚本函数74成功接收来自所述servlet的响应,则所述event-handler询问函数“handle XML response(处理XML响应)”并移交所述响应的DOM文档。
名为“Handle XML response(处理XML响应)”的JAVA脚本函数75希望DOM文档作为输入,通过所述输入搜索以发现名为“mathResponse”的节点并且将所述值插入到文档7的文本域中。
优选地,所述浏览器41提供可以由JAVA脚本71到73使用的XMLHTTP对象。所述JAVA脚本运行在客户机浏览器41上,并通过使用所述对象发送XML消息给servlet。例如,在微软因特网浏览器5.0或其后面的版本中支持所述XMLHTTP对象。其它浏览器(例如Mozilla和Netscape 6)提供类似的接口。
通过来自服务器的HTTP可以异步发送信息(消息)给客户机而不用重新加载页面。所述客户机向决定其响应时间的服务器进行无阻塞请求。这效仿了服务器推送(server-push)。
XMLHTTP对象的消息摘要:
void | open(String method,String url,Boolean async)初始化请求并指定方法、URL以及调用是否同步。方法是“POST”和“GET” |
void | Send(String message)发送请求 |
void | SetRequestHeader(String parameter,String value)设置HTTP-Header中的参数 |
String | responseText()将响应作为String返回 |
XMLDOM | responseXml()将响应作为XMLDOM返回 |
EventHandler | onreadystatechange()当readyState改变时,调用enventhandler |
int | readyState()返回连接状态 |
在所述客户机侧,周期地调用名为“request()”的Java脚本函数。如果没有请求是激活的,所述函数通过调用所述XMLHTTP对象的POST命令并发送消息串给servlet,来打开新的HTTP请求。
在服务器上运行的servlet接收所发送的串,该servlet可以从输入流读取所述所发送的串并且该串与应用进行交互。在处理了所述输入流之后,基于所述应用的状态,servlet确定(formulate)其响应。
可以在所述XMLHTTP对象的POST命令中设置参数“async”为TRUE,以异步运行所述请求,这意味着在不阻塞HTML浏览器的情况下,发送和接收之间可能存在几秒或几分钟。因此所述servlet可以等待其响应,直到所述应用触发推动事件。发送所述新的信息给所述客户机。
当所述客户机已经接收了所述响应时,通过值4的“readyState”触发XMLHTTP对象的“onreadystatechange”事件。安装在所述事件上的event-handler因而可以处理所述响应。
由于所述机制,不再需要HTTP文档的重新加载,并且所述脚本71到73之间的信息交换和相应的资源处理器对于用户是不可见的。
所述资源处理器24提供MMAPI-HTTP(MMAPI=多模态应用程序接口)接口。所述接口包括一个或多个servlet的集合,例如与所述脚本71到73连接的servlet25和26,并且通过XML请求和XML响应来支持与所述脚本71到73的交互。另外,所述接口包括连接与所述资源模块31到33的通信的MMAPI bean的集合。例如,图2示出了MMAPI bean 27,其具有socket(套接字)274、请求缓存271、响应缓存272和观察器线程(observer thread)273。
所述socket 274通过TCP/IP通信连接,支持MMAPI bean 27和例如资源模块33的相应资源模块之间的通信。所述socket 274分析所述请求缓存271并通过所述通信连接传送合适的请求。服务器线程扫描通过所述TCP/IP连接所接收的信息,并如果所述服务器线程检测到合适的响应,则填充所述响应缓存。
所述servlet 25和26通过各自的填充请求和获得响应的函数,传递请求给请求缓存,并接收来自该响应缓存的响应。由此,所述系统执行所述servlet和MMAPI bean之间的同步数据传输。
所述资源31到33提供通过TCP/IP连接以及RTP连接与所述客户机4通信的功能性。例如,所述资源模块33包括支持TCP/IP接口的通信单元34,和支持RTP接口的通信单元35。所述资源模块31到33的每一个可以同时支持多个客户机。
例如,所述MMAPI bean 27发送会话初始请求给所述资源模块33,这例示了通过所述客户机4的专用组件的相应会话,并响应所述会话的结果。
Claims (10)
1.一种提供了在多模态应用和通过客户机与该多模态应用通信的用户之间的多模态对话的方法,所述客户机适于交换和呈现以标准或扩展的超文本标记语言编写的文档,所述方法包括下列步骤:
通过代理服务器建立所述多模态应用和所述用户之间的多模态对话,所述代理服务器通过交换以标准或扩展的超文本标记语言编写的信息而与所述客户机进行交互;
所述代理服务器检索至少一个在所述多模态对话中所请求的附加模态资源,以及;
所述代理服务器基于与所述客户机的标准或扩展的超文本标记语言交互并且基于所述检索的附加资源,来编辑与所述用户的多模态交互。
2.根据权利要求1的方法,
其中,所述方法还包括下列步骤:将一个或多个所请求的资源的集合编辑为文档,该文档是以标准或扩展的超文本标记语言来呈现的;并传送所述文档到所述客户机。
3.根据权利要求2的方法,
其中,所述代理服务器创建提供模态资源的脚本,并将该脚本编辑为文档。
4.根据权利要求2的方法,
其中,所述代理服务器创建用于将多模态事件处理嵌入到所述文档的脚本,并将该脚本编辑为文档。
5.根据权利要求4的方法,
其中,所述方法还包括下列步骤:创建为所述脚本提供代理侧的接口的资源处理器;并且根据标准或扩展的超文本标记语言,在位于所述客户机的脚本和位于所述代理服务器的资源处理器之间交换消息。
6.根据权利要求1的方法,
其中,所述代理服务器根据在所述多模态对话中所请求的模态,来检索特别是语音识别,文本至语音或手写识别模块的资源模块,初始化所述客户机和所述检索的资源模块之间的会话,并且基于所述初始化会话编辑多模态交互。
7.根据权利要求6的方法,
其中,所述方法还包括下列步骤:为所述检索的资源模块创建资源处理器,该资源处理器为位于所述客户机的脚本提供代理侧接口,所述资源处理器使所述脚本能与所述检索的资源模块交换信息,特别是检索的语音识别、文本至语音或手写识别模块。
8.根据权利要求6的方法,
其中,所述方法还包括这样的步骤:为所述检索的资源模块创建资源处理器,该资源处理器通过TCP/IP连接与所述资源模块通信。
9.根据权利要求6的方法,
其中,所述方法还包括这样的步骤:在所述客户机的元件和所述检索的资源模块之间建立RTP连接。
10.一种代理服务器,其用于支持在多模态应用和通过各自客户机与该多模态应用通信的用户之间的多模态对话,所述客户机适于交换和呈现以标准或扩展的超文本标记语言编写的文档,其中,所述代理服务器包括对话管理器和编辑器,所述对话管理器适于通过代理服务器建立多模态应用和用户之间的多模态对话,通过交换以标准或扩展的超文本标记语言编写的信息与所述客户机进行交互,以及检索至少一个在所述多模态对话中所请求的附加模态资源,所述编辑器基于与所述客户机的标准或扩展的超文本标记语言交互并且基于所述检索的附加资源,来编辑与所述用户的多模态交互。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04291272A EP1599007B1 (en) | 2004-05-18 | 2004-05-18 | Method and server for providing a multi-modal dialog |
EP04291272.5 | 2004-05-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1700692A true CN1700692A (zh) | 2005-11-23 |
CN100527729C CN100527729C (zh) | 2009-08-12 |
Family
ID=34931109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200510068081.XA Expired - Fee Related CN100527729C (zh) | 2004-05-18 | 2005-05-16 | 提供多模态对话的方法和服务器 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20050261909A1 (zh) |
EP (1) | EP1599007B1 (zh) |
CN (1) | CN100527729C (zh) |
AT (1) | ATE373380T1 (zh) |
DE (1) | DE602004008887T2 (zh) |
MX (1) | MXPA05013745A (zh) |
RU (1) | RU2390958C2 (zh) |
WO (1) | WO2005112386A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108140045A (zh) * | 2015-10-09 | 2018-06-08 | 微软技术许可有限责任公司 | 在增强和替代通信系统中支持感知和对话处理量 |
CN110399040A (zh) * | 2019-07-23 | 2019-11-01 | 芋头科技(杭州)有限公司 | 多模态交互方法、用户端设备、服务器及系统 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8799464B2 (en) * | 2001-12-28 | 2014-08-05 | Motorola Mobility Llc | Multi-modal communication using a session specific proxy server |
US8181112B2 (en) * | 2004-05-21 | 2012-05-15 | Oracle International Corporation | Independent portlet rendering |
CN100535900C (zh) * | 2005-12-06 | 2009-09-02 | 国际商业机器公司 | 用于提供异步门户页的方法和系统 |
US20070133773A1 (en) | 2005-12-08 | 2007-06-14 | International Business Machines Corporation | Composite services delivery |
US10332071B2 (en) * | 2005-12-08 | 2019-06-25 | International Business Machines Corporation | Solution for adding context to a text exchange modality during interactions with a composite services application |
US8259923B2 (en) * | 2007-02-28 | 2012-09-04 | International Business Machines Corporation | Implementing a contact center using open standards and non-proprietary components |
US11093898B2 (en) | 2005-12-08 | 2021-08-17 | International Business Machines Corporation | Solution for adding context to a text exchange modality during interactions with a composite services application |
JP2008129713A (ja) * | 2006-11-17 | 2008-06-05 | Fujitsu Ltd | 複数のモダリティを関連付けるための方法、そのプログラムおよび複数モダリティを関連付けるマルチモーダルシステム |
US8594305B2 (en) | 2006-12-22 | 2013-11-26 | International Business Machines Corporation | Enhancing contact centers with dialog contracts |
US9055150B2 (en) | 2007-02-28 | 2015-06-09 | International Business Machines Corporation | Skills based routing in a standards based contact center using a presence server and expertise specific watchers |
US20080205625A1 (en) * | 2007-02-28 | 2008-08-28 | International Business Machines Corporation | Extending a standardized presence document to include contact center specific elements |
US9247056B2 (en) | 2007-02-28 | 2016-01-26 | International Business Machines Corporation | Identifying contact center agents based upon biometric characteristics of an agent's speech |
US7865544B2 (en) | 2007-06-26 | 2011-01-04 | International Business Machines Corporation | Method and system for providing XML-based asynchronous and interactive feeds for web applications |
US8386260B2 (en) * | 2007-12-31 | 2013-02-26 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8370160B2 (en) * | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8881020B2 (en) | 2008-06-24 | 2014-11-04 | Microsoft Corporation | Multi-modal communication through modal-specific interfaces |
US8843849B2 (en) * | 2009-11-09 | 2014-09-23 | Blackberry Limited | Directional navigation of page content |
US20110119389A1 (en) * | 2009-11-19 | 2011-05-19 | Microsoft Corporation | Transferring multiple communication modalities during a conversation |
US8559606B2 (en) * | 2010-12-07 | 2013-10-15 | Microsoft Corporation | Multimodal telephone calls |
US9052796B2 (en) | 2012-01-08 | 2015-06-09 | Microsoft Technology Licensing Llc | Asynchronous handling of an input stream dedicated to multiple targets |
US9537899B2 (en) | 2012-02-29 | 2017-01-03 | Microsoft Technology Licensing, Llc | Dynamic selection of security protocol |
US11308259B2 (en) * | 2020-03-09 | 2022-04-19 | Servicenow, Inc. | Web element retargeting |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3733218B2 (ja) * | 1997-09-30 | 2006-01-11 | キヤノン株式会社 | 中継装置及びその制御方法及び記憶媒体 |
US6356533B1 (en) * | 1998-08-07 | 2002-03-12 | At&T Corp | Apparatus and method for selecting communication modes |
DE19910236A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
EP1102498B1 (en) * | 1999-11-09 | 2004-02-25 | Nortel Networks Corporation | Telephony services in a communications network |
US7415537B1 (en) * | 2000-04-07 | 2008-08-19 | International Business Machines Corporation | Conversational portal for providing conversational browsing and multimedia broadcast on demand |
US7072984B1 (en) * | 2000-04-26 | 2006-07-04 | Novarra, Inc. | System and method for accessing customized information over the internet using a browser for a plurality of electronic devices |
US7464381B1 (en) * | 2000-05-12 | 2008-12-09 | Oracle International Corporation | Content update proxy method |
FI20001918A (fi) * | 2000-08-30 | 2002-03-01 | Nokia Corp | Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä |
US6934756B2 (en) * | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US7028306B2 (en) * | 2000-12-04 | 2006-04-11 | International Business Machines Corporation | Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers |
GB0108044D0 (en) * | 2001-03-30 | 2001-05-23 | British Telecomm | Application synchronisation |
WO2002079896A2 (en) * | 2001-03-30 | 2002-10-10 | British Telecommunications Public Limited Company | Multi-modal interface |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8799464B2 (en) * | 2001-12-28 | 2014-08-05 | Motorola Mobility Llc | Multi-modal communication using a session specific proxy server |
US7136909B2 (en) * | 2001-12-28 | 2006-11-14 | Motorola, Inc. | Multimodal communication method and apparatus with multimodal profile |
US6804330B1 (en) * | 2002-01-04 | 2004-10-12 | Siebel Systems, Inc. | Method and system for accessing CRM data via voice |
AU2003225577A1 (en) * | 2002-02-18 | 2003-09-09 | Kirusa, Inc. | A technique for synchronizing visual and voice browsers to enable multi-modal browsing |
US6704396B2 (en) * | 2002-02-27 | 2004-03-09 | Sbc Technology Resources, Inc. | Multi-modal communications method |
US20030187944A1 (en) * | 2002-02-27 | 2003-10-02 | Greg Johnson | System and method for concurrent multimodal communication using concurrent multimodal tags |
US6807529B2 (en) * | 2002-02-27 | 2004-10-19 | Motorola, Inc. | System and method for concurrent multimodal communication |
US7315613B2 (en) * | 2002-03-11 | 2008-01-01 | International Business Machines Corporation | Multi-modal messaging |
US20030187658A1 (en) * | 2002-03-29 | 2003-10-02 | Jari Selin | Method for text-to-speech service utilizing a uniform resource identifier |
SE0202058D0 (sv) * | 2002-07-02 | 2002-07-02 | Ericsson Telefon Ab L M | Voice browsing architecture based on adaptive keyword spotting |
US20040128342A1 (en) * | 2002-12-31 | 2004-07-01 | International Business Machines Corporation | System and method for providing multi-modal interactive streaming media applications |
US7260535B2 (en) * | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US8311835B2 (en) * | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
KR100561228B1 (ko) * | 2003-12-23 | 2006-03-15 | 한국전자통신연구원 | 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템 |
US20060235694A1 (en) * | 2005-04-14 | 2006-10-19 | International Business Machines Corporation | Integrating conversational speech into Web browsers |
-
2004
- 2004-05-18 DE DE602004008887T patent/DE602004008887T2/de not_active Expired - Lifetime
- 2004-05-18 EP EP04291272A patent/EP1599007B1/en not_active Expired - Lifetime
- 2004-05-18 AT AT04291272T patent/ATE373380T1/de not_active IP Right Cessation
-
2005
- 2005-05-10 WO PCT/EP2005/052110 patent/WO2005112386A1/en active Application Filing
- 2005-05-10 RU RU2006102661/09A patent/RU2390958C2/ru not_active IP Right Cessation
- 2005-05-10 MX MXPA05013745A patent/MXPA05013745A/es unknown
- 2005-05-16 CN CN200510068081.XA patent/CN100527729C/zh not_active Expired - Fee Related
- 2005-05-17 US US11/130,203 patent/US20050261909A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108140045A (zh) * | 2015-10-09 | 2018-06-08 | 微软技术许可有限责任公司 | 在增强和替代通信系统中支持感知和对话处理量 |
CN108140045B (zh) * | 2015-10-09 | 2021-09-24 | 微软技术许可有限责任公司 | 在增强和替代通信系统中支持感知和对话处理量 |
CN110399040A (zh) * | 2019-07-23 | 2019-11-01 | 芋头科技(杭州)有限公司 | 多模态交互方法、用户端设备、服务器及系统 |
Also Published As
Publication number | Publication date |
---|---|
DE602004008887T2 (de) | 2008-01-17 |
CN100527729C (zh) | 2009-08-12 |
EP1599007B1 (en) | 2007-09-12 |
US20050261909A1 (en) | 2005-11-24 |
EP1599007A1 (en) | 2005-11-23 |
RU2390958C2 (ru) | 2010-05-27 |
ATE373380T1 (de) | 2007-09-15 |
MXPA05013745A (es) | 2006-03-13 |
DE602004008887D1 (de) | 2007-10-25 |
WO2005112386A1 (en) | 2005-11-24 |
RU2006102661A (ru) | 2007-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100527729C (zh) | 提供多模态对话的方法和服务器 | |
US7233982B2 (en) | Arrangement for accessing an IP-based messaging server by telephone for management of stored messages | |
US6507817B1 (en) | Voice IP approval system using voice-enabled web based application server | |
US6912691B1 (en) | Delivering voice portal services using an XML voice-enabled web server | |
US8839098B2 (en) | System and method for rapid document conversion | |
JP4495137B2 (ja) | 電気通信クライアントサービス要求をサポートするためのサービスブローカー統合層 | |
US7216351B1 (en) | Systems and methods for synchronizing multi-modal interactions | |
CA2440835A1 (en) | Application synchronisation | |
EP1501268A1 (en) | Combining use of a stepwise markup language and an object oriented development tool | |
CN1617559A (zh) | 顺序多模输入 | |
CN1259799C (zh) | 多信道协议上的多模式会话支持 | |
US11451591B1 (en) | Method and system for enabling a communication device to remotely execute an application | |
RU2382402C2 (ru) | Гибкое управление контекстом для сеансов перечисления с использованием обмена контекстом | |
CN1577277A (zh) | 管理程序应用 | |
CN1617500A (zh) | 用于处理对Web服务的请求的方法和系统 | |
CN101039320A (zh) | 用于提供客户应用和Web服务之间的接口的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090812 Termination date: 20180516 |
|
CF01 | Termination of patent right due to non-payment of annual fee |