CN1342290A - 会话浏览器和会话系统 - Google Patents

会话浏览器和会话系统 Download PDF

Info

Publication number
CN1342290A
CN1342290A CN99811607A CN99811607A CN1342290A CN 1342290 A CN1342290 A CN 1342290A CN 99811607 A CN99811607 A CN 99811607A CN 99811607 A CN99811607 A CN 99811607A CN 1342290 A CN1342290 A CN 1342290A
Authority
CN
China
Prior art keywords
session
cml
browser
conversational
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99811607A
Other languages
English (en)
Other versions
CN100472500C (zh
Inventor
庞纳尼·格帕尔克里施南
布鲁斯·D·卢卡斯
斯蒂芬尼·H·梅斯
戴维·纳哈莫
简·塞蒂维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1342290A publication Critical patent/CN1342290A/zh
Application granted granted Critical
Publication of CN100472500C publication Critical patent/CN100472500C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72445User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/355Interactive dialogue design tools, features or methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42204Arrangements at the exchange for service or number selection by voice
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/44Additional connecting arrangements for providing access to frequently-wanted subscribers, e.g. abbreviated dialling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Machine Translation (AREA)
  • Saccharide Compounds (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Navigation (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

一个会话浏览系统(10),该系统包括一个会话浏览器(11),该浏览器具有一个把语音命令或来自I/O资源(27)的多态输入转换成导航请求的命令和控制接口(12),一个分析并解释一个CML(会话标记语言)文件的处理器(14),而CML文件包括表示一个会话用户界面的元信息,该界面被提供给一个用户。系统(10)包括会话引擎(23),该引擎对输入命令进行解码以便被命令和控制接口解释,并且对CML处理器提供的元信息进行解码以便产生合成音频输出。浏览器(11)通过从一个系统平台(15)发出系统调用访问那引擎(23)。系统包含一个通信堆栈(19),通信堆栈(19)向一个内容服务器发送导航请求并且根据导航请求从内容服务器接收CML文件。一个会话代码转换器(13)把呈现资料从一种形态变换成一种会话形态。代码转换器(13)包含一个把GUI页面变换成CUI(会话用户界面)页面的功能代码转换器(13a)和一个把应用,交易或站点的业务逻辑变换成可接受的对话的逻辑代码转换器(13b)。会话代码转换可以把HTML文件转换成由会话浏览器(11)解释的CML文件。

Description

会话浏览器和会话系统
本申请基于1998年10月2日申请的美国临时专利申请60/102,957号和1999年1月27日申请的美国临时专利申请60/117,595号。
本发明涉及访问信息的系统和方法,更具体地,是涉及一个会话浏览器,该浏览器把对各种信息源的访问统一到一个标准网络协议(诸如HTTP)上从而允许在不需要修改当前网络基础设施的情况下单独(或联合)使用纯GUI(图形用户界面)形态和纯语音接口形态访问相同的交易库和信息服务。
当前,IVR(交互式语音响应)服务被普遍用来对信息和交易进行电话访问。一个IVR系统使用受口语控制的会话并且通常按下述方式工作。一个用户会拨入一个IVR系统并且接着倾听一个提供用于访问某些菜单和特定信息的选择的音频提示。在电话小键盘上为各个选择分配一个号码,或者把各个选择与用户说出的一个字(在允许语音的IVR中)关联起来,并且用户会通过按下适当的的按钮或说出适当的字来作出期望的选择。通常用厂商通过各种变形并且针对不同HW(硬件)平台提供的专用脚本语言来编写常规的IVR应用。这种IVR应用的开发和维护需要合格的职员。常规的IVR应用使用专用(和昂贵的)电话HW,并且各个IVR应用使用不同的SW(软件)层访问传统的数据库服务器。必须为各个应用专门设计这些层次。
此外,IVR系统不被用来处理GUI或其他不同于DTMF和语音的形态。虽然可以在一个常规的模拟连接上混合二进制数据和语音,但在把常规的IVR用作接收器时却不能如此。所以,IVR系统通常不允许合并数据/二进制输入和语音。当前,这样的服务会需要为处理二进制连接配置一个单独的系统(例如以调制解调器的形式)。近期,IP语音(VoIP)和无线电通信(例如GSM)会允许同时传输语音和数据。二进制数据和语音的同时交换需要不止一个同时呼叫(正如以后要解释的,这种方式对于充分处理专门的任务是有用的)或者会需要一个延迟呼叫或回叫来进行数据的异步传输。这种方式通常是不方便的。具体地,数据交换不仅可以发送和接收压缩语音和涉及建立一个语音UI的信息,数据交换也可以是向UI(例如GUI)增加形态所必需的信息。假定服务会使用多个线路提供比如一个语音输入/Web输出(或语音输入/Web和语音输出)形态,其中查询结果和呈现资料也被组织成GUI资料(例如在一个类似Netscape领航员的GUI浏览器上显示的HTML),而服务提供者现在必须为所有IT基础设施和后端增加适当的联网并且同步其后端,IVR和Web服务器。一个简单但非常困难的任务是在涉及GUI或HTML呈现部分的语音呈现资料的行为/演变之间进行协调。
随着移动和家庭计算的快速发展和因特网的流行,网络PC,NC,信息台和其它访问信息服务和交易的用户设备(与IVR电话服务相反)已经变得很普及。当然,因特网和企业内部网的蓬勃发展为访问所有事实上可以通过通常被称为GUI"Web浏览器"、通过代理,服务器和/或代码转换器进行数据转换和交易的浏览器访问的信息源,数据库或交易提供了有力支持。
通常,一个Web浏览器是一个允许用户在WWW(环球网或"Web")上查看并且交互信息的应用程序(或客户端程序)(即,一个使用HTTP(超文本传输协议)向因特网上的服务器发出HTTP请求的客户端程序)。因特网上的HTTP服务器包含用标准HTML(超文本标记语言)编写的"Web页面"。通过Web浏览器的解释,可以从一个分组交换网上的HTTP服务器访问一个因特网Web页面,并且以图形方式把Web页面提供给用户。提供给用户的文本信息包含指向新的信息源的高亮度超链接。接着用户可以通过用鼠标点击选择一个超链接以便下载一个由Web浏览器显示的新Web页面。若干诸如LiveWirc和JDBC(Java数据库连接)的已知标准允许通过因特网访问传统数据库。此外,Web页面可以包含诸如小应用程序(例如Java程序),可以从一个服务器下载并且在浏览器或系统的JVM(Java虚拟机)上执行的可执行代码,其中浏览器被安装在上述系统的顶端。在服务器上运行并且在连接的浏览器上产生变化的小服务程序(例如,Java程序)可以提供其他信息。小应用程序和小服务程序可以包含允许一个Web服务器和应用程序彼此通信的CGI(公共网关接口)功能。另外,其他信息访问方法包含脚本,脚本是在浏览器上解释和执行的预定程序语言。其中包含Java脚本和DHTML(动态HTML)语言。插件是在浏览器外部的程序,插件可以被浏览器下载,可以被浏览器自动识别从而在本地设备上运行,并且可以用浏览器后来提供(通过下载)的参数执行。CGI脚本是服务器端的脚本,该脚本实现业务逻辑并且把处理下一个呈现资料作为其输出。小应用程序和插件可以通过RMI(远程方法调用),套接字连接,RPC(远程过程调用)等等进行通信。另外,复合代码变换方案,XML(扩展标记语言)扩展和脚本语言被用于特定的信息或服务,或者被用于简化交互。
如上所述,因特网Web浏览器和IVR的目的是访问信息。下列例子结合金融应用描述了一个典型方案,该方案表明使用电话通过IVR并且使用PC和Web浏览器通过因特网访问信息的模式是类似的。例如,典型的银行ATM交易允许一个用户帐户在储蓄,支票和信用卡帐户之间进行汇款,并且使用IVR在电话上检查帐户结余。还可以使用一个进行因特网访问的PC和一个Web浏览器进行这些交易。通常,用户通过使用PC可以获得具有文本菜单形式的信息。在使用电话的情况下,通过音频菜单呈现信息。在PC应用程序上点击鼠标被转换成按下电话按钮或说出命令。更具体地说,一个典型的家庭银行IVR应用从一个欢迎消息开始。类似地,银行的因特网主页可以显示一个图画和欢迎文本并且允许用户在一列服务中进行选择,例如:
a.即时帐户信息;
b.汇兑和货币支付;
c.存款信息;
d.支票信息;
e.股票行情;和
f.帮助。
对于IVR应用,可以通过电话向用户播放上述菜单,其中在播放菜单消息后用户应当按下号码或按钮以选择期望的选项:
a."即时帐户信息,按一;"
b."汇兑和货币支付,按二;"
c."存款信息,按三;"
d."支票信息,按四;"
e."股票行情,按五;"
f."帮助,按七;"
IVR系统可以实现语音识别以代替或补充DTMF按键。假定用户希望得到有关信用卡的信息。为了通过基于因特网的应用获得这个信息,用户会点击一个菜单中的一个特定超文本链接以便显示下一页。在电话应用中,用户会按下适当的电话按键以便发送一个对应的DTMF信号。接着,下一个被播放的菜单可以是:
a."可用信用额,按一;"
b."待结款项,按二;"
c."如果您的帐户被连接到支票帐户,您可以支付您的信用卡余额,按三。"
用户再次可以通过按下适当的按键进行期望的选择。
接着,可以提示用户提供标识信息。为此,针对因特网应用可以显示一个菜单,该菜单具有一个用于用户帐号的空字段和另一个用于用户社会安全号的空字段。在填写该信息之后,信息被发送到服务器,被加以处理,其重现被加以格式化并且回送到该用户。通过电话的方案是相同的。IVR系统可以重放(通过电话)一个请求用户输入他/她的帐号(通过DTMF或语音)的音频提示,并且通过处理DTMF信令或识别语音从用户接收信息。接着可以提示用户输入他/她的社会安全号并且同理处理答复。当完成处理时,信息被发送到一个服务器,其中帐户信息被访问,被格式化成音频重放,并且通过电话被播放给用户。
如上所示,IVR使用与Web浏览器相同的信息访问模式并且完成相同的功能。当然,除了其接口和形态差异之外,IVR系统和Web浏览器当前被设计和开发成根本不同的系统。然而银行和大公司近期会把其可公开访问的信息源转移到因特网上,同时保留旧的IVR。不幸的是,这样会需要这些机构针对相同类型的信息和交易服务维护不同的系统。在因特网上使用现有基础设施通过IVR提供信息和服务会给银行和公司带来好处。因此,期望得到一个允许用户使用IVR和常规的浏览器在因特网上访问信息并且完成交易的通用系统和方法。
本发明的目的是提供一个不管访问模式如何均把对应用的访问统一到一个标准协议上的系统和方法。具体地,本发明提供了一个利用基于TCP/IP(诸如HTTP(超文本传输协议)或WAP(无线应用协议))的标准网络协议访问信息并执行交易的通用方法与系统,和通过因特网从一个HTTP服务器访问信息的体系结构,使得在不需要修改当前可用网络的当前基础设施的情况下一个纯GUI(图形用户界面)形态和纯语音接口形态可以被用来分别(或联合)访问相同的交易库和信息服务。
在本发明的一个实施例中,假定一个会话浏览器把电话上的命令转换到一个HTTP协议上。会话浏览器的引入允许我们统一因特网和电话(IVR),从而减少费用,扩大这种应用的覆盖范围和灵活性。具体地,针对IVR应用,会话浏览器或(电话浏览器)可以解释从一个用户发出的DTMF信令和/或说出的命令,产生从适当的HTTP服务器访问信息的HTTP请求,解释基于HTML的信息并且通过音频消息把该信息呈现给用户。会话浏览器还可以解码通过HTTP协议从HTTP服务器接收的压缩音频并且向用户播放重构的音频。反之,会话浏览器可以捕捉音频并且把它(压缩或无压缩)发送到服务器以便进行分布式识别和处理。当音频被本地捕捉并且被传送到服务器时,通过一个插件(本地实现)或一个使用音频和多媒体应用编程接口捕捉用户的输入的Java小应用程序或Java程序可以实现这个操作。
对于新建议的IVR体系结构和会话浏览器,内容页面位于通过诸如GUI浏览器的常规模式访问的相同HTTP服务器上,并且内容页面使用共享传统数据库访问SW层次等等的相同信息访问方法。换句话说,IVR现在是具有会话浏览器的HTTP服务器的一个特例。类似于常规GUI浏览器和PC,会话浏览器,将通过使用相同协议(HTTP)的交换分组网络发送信息和查询。
不管访问模式如何,不管是否通过电话或WWW浏览器,本发明将允许一个应用设计师使用一个框架建立应用。应用和客户端之间的所有交互被标准化成HTTP协议,其中根据情况通过html及其扩展呈现信息。WWW服务器上的应用得到正访问该应用的客户端的类型(电话,PC浏览器或其他联网用户设备)并且根据情况可以构造被呈现给客户端的信息。该应用仍然需要客户端访问唯一支持一个标准协议。另外,通过一个易于设计,维护和修改的统一框架呈现应用和内容。
在本发明的另一方面,会话浏览器解释遵守XML规范的会话标记语言(CML)。CML允许缺乏经验的应用开发者快速开发会话式对话。在另一方面,CML可以遵循其他声明语法或方法。为了进一步跟上HTML和全球网,CML和会话浏览器提供了一个简单并且系统的,围绕常规企业应用和常规数据库建立一个会话用户界面的方式。
可以使用标准网络协议从HTTP服务器访问CML文件/文档。CML页面描述了通过会话浏览器被呈现给用户的会话UI。最好通过基于XML应用的标签定义CML页面。基本元素是<页面>,<主体><菜单>和<表格>。页面组合成其他CML元素,并且充当一个CML文档的最高层元素(根据XML的要求)。主体指定浏览器说出的输出。菜单为用户呈现一列选项,每个选项对应一个URL,在用户选择一个选项的情况下URL标识一个要访问的CML元素。表格允许用户提供一或多个信息片段,其中通过一个语法描述各个信息片段的内容。表格元素还指定一个在用户完成表格时要访问的URL。
在另一方面,一个内容提供商可以把会话标记语言规则增加到一个HTML文件中(或被用于HTML的地方)以便完全利用会话浏览器。
在另一个方面,一个会话代码转换器将呈现资料从一种形态转换成一种会话形态(通常为纯语音和/或语音与GUI)。这涉及把一个GUI页面转换成一个CUI(会话用户界面)页面的功能变换和把一个应用,交易或站点的业务逻辑转换成一个可接受的对话的逻辑代码转换。会话代码转换可以把HTML文件转换成被会话浏览器解释的CML文件。代码转换器可以是服务器,浏览器或内容提供商的一个专有应用。
在另一方面,基于HTML/GUI的结构框架可用于捕捉一个GUI站点的对话逻辑或业务逻辑。这个信息可用于映射位置,逻辑或应用。在适当组织对话流程之后,各个元素可以被功能代码转换成一个纯语音内容或一个多态(同步GUI和语音接口)页面。
在另一方面,提供一个会话代理以便根据设备,浏览器和/或引擎的能力,用户或应用的优先顺序,服务器上的负载,网络上的传输量,会话参数(数据文件)的位置修改和/或准备应用,逻辑或站点的内容描述。例如,会话代理可以直接转换诸如公司软件的屏幕映射的专有格式。
通过下列对最优实施例的详细描述可以理解本发明的这些及其他方面,功能和优点,其中需要结合附图阅读该描述。
图1是基于本发明一个最优实施例的一个会话浏览系统的图例;
图2是一个实现基于本发明一个实施例的一个会话浏览系统,用于访问信息的系统的模块图;
图3是一个实现基于本发明另一个实施例的一个会话浏览系统,用于访问信息的系统的模块图;
图4a是图解一个实现基于本发明一个实施例的一个会话浏览系统,用于访问信息的分布式系统的模块图;
图4b是图解一个实现基于本发明另一个实施例的一个会话浏览系统,用于访问信息的分布式系统的模块图;
图5是一个使用基于本发明一个实施例的会话标记语言的会话信息访问系统的模块图;
图6是一个使用基于本发明一个实施例的会话标记语言的分布式会话系统的总体图示;
图7是一个使用基于本发明一个实施例的会话标记语言的示例性分布式会话系统的图例;
图8是另一个使用基于本发明另一个实施例的会话标记语言的示例性分布式会话系统的图例;
图9是另一个使用基于本发明一个实施例的会话标记语言的分布式会话信息访问系统的图例;并且
图10是另一个使用基于本发明一个实施例的会话标记语言的示例性分布式会话信息访问系统的图例。
本发明的目标是提供一个会话浏览系统和用于使用一组内部链接的CML页面建立一个会话浏览系统的CML(会话标记语言)。这个会话系统在概念上类似于通过一组使用HTML(超文本标记语言)编写的内部链接页面建立常规GUI浏览器应用。此外,正象HTML提供一组把GUI动作转换成诸如访问其它页面或与一个服务器通信的应用动作的机制那样,会话浏览器和CML被用于把口语输入转换成类似的应用动作。CML页面描述了通过会话浏览器被解释和呈现给用户的会话UI。最好使用基于当前XML(可扩展标记语言)应用(如下面要详细描述的)的标签来定义CML页面。
应当理解,可以通过各种形式的硬件,软件,固件,专用处理器或其组合来实现这里描述的会话系统和方法。具体地,会话浏览器最好被实现成一个包括程序指令的应用,其中程序指令被实际嵌入到一个程序存储设备(例如软磁盘,RAM,ROM,CD ROM和/或闪速存储器)中并且可以被任何包括诸如个人计算机的适当体系结构和诸如PDA和智能电话的普及运算设备的设备或机器执行。
还应当理解,由于最好通过软件实现会话浏览器的某些组成构件和附图中描述的系统构件,根据编程实现本发明的方式,这些构件之间的实际连接可以是不同的。根据这里的指导,本领域的普通技术人员将能够完成本发明的这些和类似的实现或配置。
会话浏览器体系结构
现在参照图1,一个模块图图解了基于本发明一个最优实施例的一个会话浏览器系统。通常,一个会话浏览系统10允许一个用户利用一个诸如HTTP的标准网络协议通过语音输入(唯一或结合诸如DTMF,键盘,鼠标等等的其他形态)访问传统信息服务和交易。另外,应当理解HTTP协议是本发明的最优实施例,但也可以使用其他类似的协议。例如,可以在任何诸如TCP/IP,WAP(无线应用协议),GSM,VoIP等等的协议或任何其他支持IP的协议顶端配置这个协议(因而提供TCP/IP或类似的功能)。更常见的是,如果TCP/IP不可用,我们可以实现另一个提供类似TCP/IP或至少能够完成网络和传送功能的特性的协议(本发明不依赖传输层和网络层)。
在图1中,一个基于本发明的一个实施例的会话浏览系统10包括一个在CVM(会话虚拟机)系统15顶端运行的会话浏览器11(会话式应用)。会话浏览器11包括一个代码转换器模块11,该模块通常根据预定的代码转换规则(如下所述)把诸如HTML或DB2的常规(传统)结构化文档格式转换成中间文档或CML(会话标记语言)文档。CML文档描述了被呈现给用户的传统信息格式的会话UI。更具体地说,CML文档包括元信息,而元信息被一个CML分析器/处理器14处理以便把基于HTML的信息当作合成音频消息呈现给用户。应当理解,可以用本发明实现CML文档的各种实施例。在一个下面详细描述的最优实施例中,通过基于XML(可扩展标记语言)的标签来定义CML文档。然而应当理解,可以使用任何用于实现CML的声明方法。由于其简单,有力和当前流行,XML是目前最优的。
会话浏览器11还包括一个命令/请求处理器12(一个命令和控制接口),该处理器把诸如语音命令,DTMF信号和键盘输入的用户命令(多态)转换成诸如HTTP请求的导航请求。应当理解,在一个纯语音会话浏览器中,语音是唯一的输入。然而,会话浏览器11可以配置成多态输入。
当需要某些会话功能或服务时,会话浏览器11会向CVM15发出请求这种服务的API调用(如下所述)。例如,当解释一个CML文档(通过CML分析器/处理器14)时,会话浏览器11可以挂到一个TTS(文本-语音合成)引擎26上(通过CVM15)以便向用户提供合成语音输出。另外,当输入语音命令或自然语言查询(例如,导航请求)时,会话浏览器11可以挂到一个语音识别引擎24和NLU(自然语言理解)引擎25上以处理这种输入命令,从而允许命令/请求处理器产生适当的HTTP请求。CVM系统15是一个可以在任何常规的OS(操作系统)或RTOS(实时操作系统)的顶端运行的命令解释程序。在IBM文档编号为YO999-111P,与本发明同时申请,标题为"通过会话虚拟机进行会话计算"的专利申请中提供了对CVM系统15的体系结构与操作的详细讨论,该专利申请与本发明有共同转让并且在此对其进行完全的参考引用。
概括地讲,如图1所示,CVM系统15包括一个会话API层16,会话浏览器11通过这个层次可以和一个CVM核心层次17"交谈"以便访问(通过系统调用)某些包含会话引擎23的会话业务和行为。CVM核心17负责根据其登记的会话能力和提供通用并且协调一致的CUI(会话用户界面)的要求分配诸如引擎和参数(本地和/或分布的)的会话资源并且管理和控制应用和设备(本地和/或分布的)上的会话和上下文。CVM系统15通过从一个会话引擎API层次18(诸如SAPI,SRAPI,JSAPI,SVAPI或这种引擎API的扩充)调用本地会话引擎23,例如一个语音识别引擎24,一个NLU(自然语言理解)引擎25,一个TTS(文本-语音)引擎26(和其他诸如NLG(自然语言生成)引擎,发声者识别引擎的引擎)来完成会话服务和功能。另外,可以向位于分布式拓扑上的远程语音引擎发出引擎调用。另外,通过一个传统的驱动程序/API层次22调用一个音频子系统33(提供音频捕捉,压缩,解压缩和重构)和任何其他多态I/O资源(诸如一个键盘28,鼠标29,触摸屏,扩音器/扬声器31和DTMF32)。
CVM系统15还包括一个通过诸如TCP/IP,HTTP,WAP等等的传统协议20提供网络通信的通信堆栈19。通信堆栈19还包括被用于分布式应用的会话协议21(或分布式会话协议)。如前面引用的IBM文档号YO999-111P所描述的,会话协议(或方法)21包含(1)发现"知道会话的"(即用会话协议谈话)的网络设备和应用的协议;(2)登记诸如网络设备之间的会话引擎和参数的会话能力(资源);(3)根据登记的会话能力协商网络配置(诸如主/从,对等);(4)交换诸如一个对话,会话参数,小应用程序,ActiveX构件,过程对象及其他可执行代码的状态,上下文和历史的信息以便协调网络连接设备之间的会话;和(5)发送与接收压缩语音(波形或特征)的语音编码协议。在IBM文档号为Y0999-113P,与本发明同时申请,标题为"提供网络协调会话服务的系统和方法"的专利申请中也公开了这些会话协议21及其在联网设备之间提供会话协调的作用,该专利申请与本发明有共同转让并且在此对其进行完全的参考引用。
应当理解,图1中图解的引擎23和I/O资源27,传统驱动程序/API22和音频子系统33是作为运行会话浏览器11和CVM系统15的基础设备,机器或平台的一部分的构件。还应当理解,会话浏览器11和CVM系统15可以被提供成单独的系统,换句话说,会话浏览器11可以被实现成一个携带其自己的CVM系统15的独立应用(在这样的情况下浏览器和CVM平台会是相同的,即不能区分的的实体)。另外,在没有前面明确描述的CVM系统15的情况下,应当理解会话浏览器11实现了类似于前面针对CVM系统15讨论的功能(例如会话浏览器会向本地和/或分布式的适当引擎发出API调用)。当然,作为浏览器提供的功能和服务的一部分,针对引擎和通信机构的API,服务,功能,行为,访问可以全部被建立到会话浏览器应用11中,并且构成其中的一部分(类似于通过到向Netscape浏览器提供JVM(java虚拟机)或使浏览器实现其自己的JVM的情况)。另外,会话浏览器可以利用并行运行浏览器的基础操作系统和/或应用所提供的类似现有服务。
应当理解,代码转换器13可以是如图1的会话浏览器11的一部分。推而广之并且如下所述,代码转换器13可以位于一个网络中并且可以在另一个机器,会话代理服务器,内容提供商的一个服务器(服务器端)上运行,或者可以分布在网络中的各种机器上。另外,代码转换器可以是代理服务器,浏览器或内容提供商的专有应用。代码转换器应当也能够直接转换类似公司软件屏幕映射的专有格式。代码转换器13包括一个把HTML文档(或其他格式的页面)转换成CML文档的功能性代码转换模块13a。下面将解释用于实现这种转换的各种规则。另外,代码转换器13包括一个访问并解释应用后的逻辑信息以建立一个有意义的对话的逻辑代码转换模块13b。这经常需要关于应用和/或业务逻辑的深度信息。可以传递额外的,能够定义某些这样的意图的XML或元信息。在IBM文档号为Y099-114,和本发明同时申请,标题为"通过通用分层对象进行有效的语音导航的结构框架"的专利申请中描述了另一个可以被用来进行逻辑代码转换的方法,该专利申请与本发明有共同转让并且在此对其进行完全的参考引用。这个申请描述了会话结构框架如何可以被用来编码和发送逻辑代码转换信息。
代码转换器35最好是一个能够把任何交易表格或HTML页面转换成CML页面的普通通用转换器。对于象ATM对话或IVR对话那样并且表格被填满的HTML对话页面(HTML或CGI)或ATM对话(及其他3270类型的屏幕对话)具有有限的信息或提供有限的用户选项的简明对话,可以根据CML页面方便地使代码转换公式化。在不需要代码转换器进行转换的情况下其他复合HTML文档可以被标记成服务器端上的第一个实例中的CML(如下所述)。当然,如下所述,在一个最优实施例中,与在运行时被浏览器或服务器端代码转换器代码转换的普通HTML页面相反,在不需要代码转换器或代码转换代理的情况下,所有被提供给会话浏览器的内容被直接写到CML中。否则,可以使用基本组成和设计规则以简化从HTML到CML的转换。例如,通过在按JSAPI方式用语调和TTS标记信息对其加标记之前用常规TTS滤波器对输入的正文进行滤波可以转换新闻和电子邮件/电子语音邮件。实际上,这些转换规则可以是服务提供商或标准对象的专有规则。这些规则可以包含下列内容:
1.如果HTML页面包括图像,代码转换器会丢弃图像并且产生必要的元信息以便在用于播放这种信息的图像标签中提供图像名称和增加注解(如果有)。
2.如果HTML页面包括没有可以播放的成份的脚本和/或小应用程序,则代码转换器可以产生传递特殊警告消息的元信息。警告用于几种目的。例如,警告消息可以通知用户HTML页面包含一个脚本或小应用程序。当然,在没有脚本或小应用程序提供的任何语音输出的情况下,用户从不会了解脚本或小应用程序(与立即可以看见一个小应用程序动画的GUI浏览器相反)。
另外,警告信息被用来通知用户他/她可能遗漏小应用程序中包含的,不能被代码转换成有意义的CUI(会话用户界面)功能的某些信息/内容(在用类似Java的常规GUI语言而不是作为CVM库(例如在前面引用的IBM文档号Y0999-111P中描述的)的一部分的会话基础类编写小应用程序的情况下仍然要引用一个CUI构件)。另外,元信息可用于同步多态浏览器的GUI(可视)端和语音端,例如在1999年4月7日申请,标题为"多态命令解释程序"的美国临时专利申请第60/128,081号中所描述的,其中该专利申请与本发明有共同转让并且在此对其进行完全的参考引用。根据该发明,根据设备/浏览器的能力甚至可以把过程构件(类似小应用程序和ActiveX构件)代码转换成纯GUI或纯语音(及其变种)。这样就自动解决了对被用来建立其过程的应用进行代码转换的问题,其中应用开发者或构件(基础类)作者本来已经对上述代码转换进行了编程。
3.对于包括框架的HTML页面,代码转换器可以产生通过其名称或一个索引号呈现框架的元信息。例如,音频重放可以是"在本页面上有4个框架:框架1表示..."。在下载全部页面时可以立即启动HTML和CML产生的所有框架连接和功能。这允许框架被用作菜单。可选地,可以提供一个规则使得只呈现主框架,同时剩余框架保持活跃但不被读取。
4.可以使用TTS滤波器对HTML页面进行滤波以产生JSAPI标记(或类似变形)。
5.一个HTML页面中的任何超链接可以被转换成基本形和FSG(有限状态语法)。更具体地说,用户(通过语音命令)可以跟随的超链接及其他命令和输入可以被加到浏览器的一个活跃命令列表中。这涉及在必要时增加词汇和这些字的发音规则(即基本形),以及适当修改语法或NLU框架/上下文以支持这些新命令。
6.可以用针对不同字体的不同语音合成文本。然而,会话浏览器可以选择不改变语音。
7.可以为超链接提供一个音频图标(声音,或不同的语音,或背景音乐)。
8.各个超链接也可以被表示成隐藏菜单,如果用比如一个<!--CML标记-->来指示,该菜单可以带出后续页面。
9.下拉菜单和强制菜单可以被自动转换成具有适当词汇和命令的对话。
10.空白字段可以激活NLU或听写能力。通常,针对普通目的的听写,所使用的语音识别引擎可以是会话浏览器的本地缺省引擎。可选地,对于分布式系统(如下所述),内容提供商在浏览器没有必要的能力或远程语音识别引擎被专门调整到NLU或听写应用的情况下可以提供语音识别引擎的一个建议URL。通过把NLU引擎的适当URL传递成HTML中的一个CML注解标签或者直接提供代替HTML页面的CML页面可以进行具有被装满的NLU表格的NLU对话(如下面进一步详细讨论的)。
11.如果各个菜单均是一个独立构件,基于多个表格并且基于屏幕的交易GUI对话可以被直接转换成连续对话菜单(例如象获得一个地址或订购一个物品那样执行一个完整任务)。
会话浏览器11也可以包含一个"切入"功能,该功能允许用户在给出新命令或输入之前说出一个引起注意的字词或中断TTS呈现的输出流(如下面详细描述的)。通过在一个人讲话时按下按钮可以实现这个功能,其中按下按钮进行交谈,或者按下开始并且/或者停止。
代码转换器产生的CML文档(或如下所述内容提供商直接提供的CML文档)最好包括下列示例性功能和指示以下内容的必要标签的任意组合:
1.对用户说出或隐藏的活跃链接;
2.针对会话参数(例如词汇,语法和基表的数据文件),可以被用来解码用户针对页面提供的可能输入的链接;
3.对于分布式系统,针对语音识别URL,发声者识别URL,TTSURL和/或NLU引擎URL等等,可以被用来解码用户输入并且/或者提供向其发送一个指定页面以便产生音频输出的位置的链接;一个本地主机可以被用来运行一个本地(缺省)引擎。所以,如果没有指定URL,使用浏览器缺省引擎。可以根据浏览器,设备用户偏好或服务提供商(ISP或ASP)偏好对此进行设置。这相当于使用浏览器或服务器上的任何相应元信息设置浏览器缺省位置;
4.针对播放给用户的音频文件(例如IVR提示)的URL;
5.使用户在进入一个指定链接之前确认某些输入的确认请求;
6.与一个指定链接相关的DTMF代码和用于组合键输入的DTMF语法;
7.描述应当如何向一个用户播放文本的TTS标记(按JSAPI方式);
8.运行引导其自己的对话的会话应用的脚本语言和过程代码(诸如Java,Java脚本,ActiveX等等)。当浏览器被建在CVM顶端时(如上所述)可以使用会话编程语言和基础类(即CVM库)。否则,可以由浏览器,基础操作系统或其他可以和浏览器并行使用的应用或服务提供代码和服务。
9.描述浏览器对资源(例如一个脚本,一个图像等等)的最低要求的会话能力标签。例如,不允许音频的脚本不应当被下载或运行在纯语音设备上,除非这种脚本执行一个有意义的任务。另外,在纯语音浏览器上不应当下载图像(虽然图像涉及多态和纯GUI浏览器)。当根据浏览器(即基础引擎)的能力转换呈现资料时,执行转换的实体是一个会话代理;
10.针对某些特定处理使用/下载的插件(例如一个用于发声者识别阶段的加密插件或用于一个特定引擎的压缩程序和前端)的URL;和/或
11.用于加书签和后续返回到页面的元信息标签(例如,具有其对应基本形,语法等等的关键字组),其中在被调用时,上述标签在可能链接目录中建议要进入的页面。这通常是一个涉及CVM提供的编目方法/元信息服务的功能(如前面引用的IBM文档号Y0999-111P中所讨论的)。
应当理解,一个特定的注解<!--CML代理URL=...-->标签可以被引入到一个HTML页面中以便指定一个常用的会话代理,或者指定代码转换以便执行期望的代码转换功能(会话代理,功能代码转换或逻辑代码转换)。可选地,可以由一个缺省代码转换器(该代码转换器是一个浏览器,服务器或分布式代理的一部分)执行转换。也可以由(代理)代码转换器根据会话浏览器的能力定制CML页面。可以通过不同于把URL标签用作代理的方式来执行这个功能(这意味着浏览器与一个代理服务器相连并且通过该代理发送其HTTP请求)。如果呈现一个CVM,则可以进行一次基础握手以便交换关于可用于浏览器的CVM的引擎的会话能力的元信息,并且接着可以根据该代理自动裁剪页面。另一个替代方案是在这种情况下把浏览器传递到一个适合于引擎能力的不同页面。
另外,<!--CML标签...-->可以把直接CML标签引入到一个HTML或XML页面中,其中会由会话浏览器或会话代理直接处理该标签。下面会更详细地讨论这些CML功能。
在CVM是多态时,对于特定的浏览器/客户端能力(例如只有一个IVR),只对有关的的功能加标签。在最优实施例中,浏览器通常忽略未知标签而不是强制和ML一致。此外,对于通用系统,浏览器应当通过在连接到内容提供商的第一个页面或服务器网关/门户时使用一个cookie机制或填充一个隐藏表格把其能力登记到代理或服务器。cookie可以传送必要的信息以便识别或鉴定一个用户。它还可以传送所有关于浏览器的当前对话状态的上下文信息。其中还可以包含本地上下文,历史和/或优先信息的其余部分,其中在连接到服务器时发送或与服务器共享上述信息。通过cookie或其他登记协议向一个服务器发送对话信息,上下文及其他元信息的能力允许服务器立即参与会话。可以实现不同于cookie机制的其他登记机制。
内容提供商可以把会话标记语言规则增加到一个HTML文件中或替换一个HTML文件以便完全利用会话浏览器。这个语言应当提供标签以指示在前面章节描述的功能(如下所述)。
使用会话浏览器的电话应用
现在参照图2,一个模块图图解了基于本发明一个实施例的,用于提供电话服务的一个会话系统。系统100包括一个可以被客户端设备102通过电话网104(例如PSTN(公用交换电话网))访问的IVR101(或呼叫中心)。IVR101通过网络104被连接到一或多个内容服务器105。在这个实施例中,假定IVR101运行在一个电话公司(telco)的场地内的一台机器上。IVR101可以和一个金融应用的服务提供商关联以便提供ATM电话服务。客户端设备10可以是一个常规电话,一个移动电话,或一个具有电话卡的PC以便通过电话网络103建立到IVR101的通信。网络104可以是因特网,一个企业内部网,一个LAN,专用网络等等。内容服务器105可以是包括与IVR 101 ATM服务相关的内容页面(HTML,CML等等)的HTTP服务器。
IVR101包括一个被图解成运行一个CVM 106a的独立应用的会话浏览器106。应当理解,图2的会话浏览器106和CVM 106a在体系结构和功能方面类似于前面参照图1描述的会话浏览器11和CVM15(因而CVM可以被包含在浏览器或一个基础操作系统内)。IVR系统100还包括一个提供诸如音频捕捉,声学前端(声学处理)和一个音频子系统(例如声卡)的音频功能的音频系统107。IVR101还包括一个DTMF处理器108和会话引擎109(例如语音,NLU,TTS引擎等等)。
当客户端102被连接到IVR101时,诸如语音命令和DTMF信号的输入命令被音频系统107的声学前端接收并且分别被发送到适当的会话引擎109(例如语音引擎)和DTMF处理器108。接着处理过的语音/DTMF命令被当做调用传递到会话浏览器106中的适当功能。会话浏览器106接着产生适当请求(例如HTTP请求)以便通过网络104从一个或多个内容服务器105获得期望信息。内容服务器105检索适当的信息(或完成指定动作)并且接着通过HTML(或其他类似的格式),CML,压缩音频或其组合(根据在内容服务器105上构造信息的方式)发送结果,消息和/或菜单选项(使用TCP/IP或上述的类似协议)。如上所述,对于HTML(及其他结构文档),会话浏览器会代码转换信息(通过一个上述代码转换器13)以产生一个用于处理(通过上述CML分析器/处理器14)的CML文档,因此来自服务器105的CML文档可以被直接处理(不经过代码转换)。会话浏览器106可以挂到必要的会话引擎上(通过CVM 106a)以便建立一个与用户的对话。如下所述,会话引擎可以分布在网络104上。
会话浏览器还可以解码使用一个标准网络协议(诸如HTTP)从内容服务器105发送的压缩音频,并且接着把音频当做电话音频播放给用户(从而允许通过会话浏览器106实现IP电话)。反之,可以通过音频系统107的音频捕捉部分捕捉音频输入并且以压缩或非压缩格式将其发送(通过会话浏览器106)到一个在网络104上的服务器以便进行分布式识别和处理(就象在前面引用的IBM文档号为Y0999-113P的专利申请中描述的那样)。如上所示,通过CVM 106a的通信堆栈进行压缩语音的传输(如Y0999-111P和Y0999-113P中所述)。在没有一个CVM时,其他通信引擎会完成握手,通信和编码/解码。应当理解,这种通信不仅限于HTTP或VoIP,也可以涉及任何TCP/IP和有关协议。例如,WAP,蓝牙,跳跃式通信协议可以被用于本发明。当音频被本地捕捉并且被传送到一个远程服务器时,通过一个插件(本地实现)或一个使用音频和多媒体API捕捉用户输入的Java小应用程序或Java程序可以实现这个操作。另外,通过使用套接字连接,RPC,RMI等等,会话式通信(编码)协议可以被用来发送压缩语音(如IBM文档号为Y0999-111P和Y0999-113P的专利申请中所描述的)。
应当理解,图2中描述的系统只是一个用于提供IVR服务的可能实施例。在另一个实施例中,IVR可以单独用作系统的"声卡",在某种意义上讲,IVR提供从一个用户捕捉输入语音的音频捕捉功能并且接着把捕捉的语音发送到一个具有会话浏览器(类似地,该浏览器从服务器接收音频输出并且发送到IVR以便播放给用户)的Web服务器。在这种情况下,IVR充当会话浏览器的一个声卡或音频子系统。可选地,IVR可以提供会话引擎(语音识别引擎,TTS引擎,发声者识别引擎等等)以及音频捕捉和所有的系统管理,调用平衡,负载均衡功能等等,并且只把会话浏览器用作一个对话驱动器。可选地,IVR也可以只完成音频捕捉和负载均衡/系统管理,同时使会话引擎运行在其他服务器上并且使会话浏览器也运行在其他服务器上。最终,存在通过一组小型网络工作站(通常是NT机器)实现IVR或呼叫中心的可能性,其中每个工作站拥有一个电话卡,而电话卡会拥有与一个或数量非常有限的活跃端口(即活跃调用)相关的音频捕捉,会话引擎和会话浏览器。
在图2所示的实施例中,假定所有的播放提示,合成语音,产生对话,理解DTMF输入或语音输入功能在IVR101的层次上执行。应当理解,在没有一个CVM 106a的情况下,系统集成商或IVR提供商的职责是提供系统的一个具体实现,其中该系统提供类似于CVM所提供的抽象层次(如上所述)。系统的实际实现会确定IVR101的实际体系结构,但这种体系结构会独立于会话浏览器106的功能与操作。
有利的是,会话浏览器106通过在本领域中被称作"空前"连接的方式把IVR101改变到服务端的一个分组交换网络上。另外,对于使用一个会话浏览器的通用IVR体系结构,应当理解,内容页面位于相同的HTTP服务器上并且使用相同的信息访问方法,从而把传统数据库访问SW层次等等共享成用于信息访问的Web服务器。换句话说,一个IVR现在可以被认为是具有会话浏览器的HTTP服务器的一个特例。根据设备,服务器和内容/服务提供商的能力,会话浏览器可以位于客户端,服务器上,也可以位于客户端和服务器之间或分布在网络上。
现在参照图3,一个模块图图解了基于本发明另一个示例性实施例的,用于提供电话服务的一个会话系统。在这个例子中,会话浏览器106整个位于客户端设备上。现在在客户端设备本地执行由IVR完成的所有处理(如参照图2所述的),并且通过内容服务器105上的HTTP获取HTML文档。内容服务器105可以具有在其上运行的,与IVR应用相关的应用的HTTP服务器。可选地,图3的系统可以简单地被用于浏览WWW。
例如,如图3所示,客户端设备可以是一个PC60(个人计算机),其中PC60具有一个会话浏览器106(和CVM 106a)和通过PC60提供电话服务的常规电话平台61(包括比如一个调制解调器,声板,扩音器和语音邮件系统)。PC60可用于通过调制解调器(通过会话浏览器106)在电话线路102上建立一个到电话公司或任何其他远程访问服务器(RAS)70(例如因特网服务提供商(ISP))的拨号连接以便访问网络40(例如因特网,企业内部网)上的内容服务器105。PC60还可以使用一个专线L并且通过借助IP连接的远程连接访问本地/专用资源或因特网。具有浏览器106的PC60可用于提供对比如WWW的会话浏览。如上所述,会话浏览器106执行语音命令识别并且对以压缩方式通过因特网来自HTTP服务器的语音消息进行转换。会话浏览器106可以访问在PC60或本地客户端上运行的任何允许语音的本地应用62(日历等等)。
客户端设备可以是一个具有本地运行会话浏览器106的适当体系结构和CPU能力的移动电话80(例如一个GSM终端)。移动电话80可以下载用于解释语音(因特网电话)网际协议(或其他诸如WAP的协议)的DSP代码(或任何其他类型的CPU编程语言),用于语音处理的压缩算法和通过Java的派生语言编写的任何其他应用或语音处理程序。应当理解,DSP代码可以是本地的并且可以被预加载到电话上(尤其是在CVM 106a的一个实例出现在设备上的情况下)。此外,更高档次的带屏幕移动电话可以具有更高级的,具有文本能力甚至显示能力的本地运行浏览器。另外,可以为新电话具备高采样率A/D转换器。这样就能够利用倒频谱系数压缩更有效地通过通信线路发送语音并且增加语音识别质量(对于如前面引用的IBM文档号为Y0999-113P所描述的分布式语音识别)。
应当理解,会话浏览器106的功能可以被部分地放在一个本地客户端设备和远程服务器上。例如,可以由客户端设备(例如图2的前端模块107)计算声学特征,对其进行压缩并且以低位速率发送到服务器以便进行处理。另外,可以在本地进行一部分浏览器处理,例如播放规则文本并且得到简单输入,并且可以在服务器端完成某些处理,例如获得街道地址,复杂输入或表格的ASCII输入。还应当理解,浏览器功能可以分布在一个客户端设备,一或多个服务器和一个资源网络上。例如,浏览器可以位于服务器和客户端上,也可以位于二者之间,而会话子系统(例如语音识别引擎,NLU引擎,TTS)位于网络的其他区域上。应当理解,甚至可以在联网设备(服务器,计算机,PDA等等)之间共享浏览功能。并且,CVM是一个通过类似于在引用的IBM文档号为Y0999-111P和Y0999-113P的专利申请中描述的协议的通信协议"管理"这种情况的关键元素。另外,针对特定于领域的应用,内容提供商可以直接提供其自己的TTS,NLU或语音识别引擎。
有利的是,本发明的广泛应用通过允许针对纯会话交互呈现具有HTML格式的信息页面可以保留提供上述信息页面的传统应用(除了用多态设备显示页面或部分页面之外)。现在会参照图4a和4b的说明性
实施例解释这些概念。
现在参照图4a,一个模块图图解了一个分布式系统,其中在一或多个网络中共享提供会话浏览和IVR服务的资源。应当理解,图4a中的虚线圆圈表示一个指定网络或个人网络(或子网)在一个企业内部网或因特网上的不同位置,每个网络包括通过标准网络协议(例如TCP/IP,HTTP)彼此交互的对应服务器,主机。具有一个GUI终端300和会话浏览器302a的一个PC302可用于提供GUI和会话浏览的组合(应当理解,设备302可以是诸如一个通过PSTN被连接到分布式网络的电话,通过蓝牙被连接到TCP/IP网络的蓝牙设备,通过ISDN,电缆或卫星链路被连接到分布式网络的机顶盒的任何客户端设备(不是PC))。可选地,PC302可以通过IP连接访问一个具有会话浏览器的远程服务器303。类似地,一个用户可以通过电话301(例如普通,蜂窝或智能电话)拨入一个IVR服务器/PC302,通过本地浏览器302a或远程服务器303与会话浏览器303a进行会话浏览或IVR。可选地,如上所述,根据其各自的体系结构和处理能力,电话301,PC/IVR服务器302和远程服务器303可以共享会话浏览器的功能。另外,可以在一或多个分布在一个指定网络或子网上的服务器304之间共享会话浏览器303a。可选地,各个远程服务器304可以支持浏览器304a的一或多个特定功能。根据各自的会话浏览器功能,PC/IVR服务器302或远程服务器303,304均可以通过TCP/IP,HTTP,API(对于使用上述通信协议的CVM实例)挂到(根据需要)分布在网络上的一或多个会话子系统309上。另外,任何需要的会话参数308可以被会话浏览器302a,303a和/或304a或网络上的会话子系统309访问使用。
示例性系统还包含一个具有代码转换器305a的会话代理服务器305,在由于运行浏览器的设备的处理能力不够导致会话浏览器302a,303a,304a不能把HTML文档及其他应用转换成CML的情况下可以通过网络访问该服务器以进行这种转换。另外,会话代理和代码转换器305a可以和一个内容服务提供商关联以便在会话浏览器302a,303a和/或304a缺乏关于执行这种转换的应用的特定专有信息(只有内容提供商知道)的情况下对HTML文档进行转换。如图4a所示,通过内容提供商的Web服务器应用产生HTML文档,其中上述应用使用一个通过SQL或专用API与数据库307交互的常规代码转换器把专有信息转换成HTML表格。应当理解,单元306和305/305a之间的通信可以导致传递XML或元信息以支持会话代码转换/代理任务。另外,可以使用如前面引用的专利申请Y0999-114所述的结构框架。
图4a图解了一个语音门户,该门户是一个CML服务器并且类似于今天的Web门户,在CML服务器中的事务处理允许搜寻HTML、CML页面或Web站点。语音门户可以检索期望的站点和页面。这些CML页面被直接提供给会话浏览器。通过另一个表示语言(例如HTML)检索的页面在被发送到浏览器之前被代码转换。语音和Web门户(即基于HTML或WML(无线标记语言))之间的主要区别是门户下载所请求的页面并且在把它们发送到浏览器之前对其进行适当的代码转换。对于具有代码转换器的客户端设备(或浏览器),可以通过另一个格式(HTML和/或基于HTML的结构框架)把页面发送到浏览器并且在运行时由浏览器把页面代码转换成作为一种中间内部语言的CML。语音门户服务可以通过无偿,由通信公司/无线提供商支付,由有关内容提供商支付(根据点击),基于完成的可盈利交易,基于有关商务的利润率,基于预约的方式把服务放到搜索引擎中,或者是搜索引擎产生的级别较高的服务,或者与自动方案相比,是针对高质量CML页面的服务(手工准备或检查)。
现在参照图4b,一个图例图解了本发明的一个提供结合传统公司软件应用的会话浏览或IVR服务的示例性实施例。图4b的系统类似于上述(图4a)系统,除此之外图4b具体图解了一个指定公司网络上的常规3级(分布式)公司应用的会话浏览。3级应用包含一个含有产生和呈现HTML文档的程序的前端终端/呈现服务器310(级别1),一个中间级业务逻辑服务器311或应用服务器(含有业务应用软件并且为LAN中的工作站的客户端请求服务),和一个包括传统数据库和事务管理(数据控制)应用的后端或第三级312,313。如图所示,通过GUI314,电话(IVR)315和3270类型屏幕对话(3270终端是通常由主机和CISC系统支持的终端,例如可以在ATM上发现的,主要是纯ASCII字符屏幕的常规浅绿色终端)完成常规呈现。由于这种事务处理的业务逻辑通常由简单对话驱动以便每次只向用户提供有限的信息量或选择,通过代理服务器305的代码转换器305a可以容易地把诸如填充表格(HTML或CGI)的简单HTML对话页面或ATM对话(及其他3270类型的屏幕对话)或其他哑终端(CT100,Palm引导屏幕等等)转换成CML。还可以通过如前面引用的IBM文档号Y0999-114P所述的框架传递选项或菜单。另外,代码转换可以容易地被扩展到其他专用API或屏幕映射(例如,通常由被称作屏幕刷的映射程序完成从3270屏幕或其他屏幕到HTML页面的映射)。具体地,由于把屏幕映射代码转换成HTML页面的现有程序和屏幕映射仅限于驱动业务逻辑的简单对话,有关结果HTML页面的转换只是会话代理的小任务。
有利的是,在不需要重新设计当前通过HTML和其它XML/HTTP协议提供的内容的情况下,每个上述示例性系统体系结构均允许使用相同的协议通过纯语音接口(会话浏览器),纯GUI和语音与GUI的组合统一访问相同交易库和信息服务。
使用CML的会话应用
下列对示例性实施例的讨论描述了基于网络的,利用基于本发明的CML(会话标记语言)的会话应用。这里使用的术语"会话应用"是指通过话音输入/输出与用户交互的应用。在这里术语"基于网络的会话应用"是指通过网络或在本地可以获得定义口语输出和输入的转换单元,即CML页面的应用。当然,正象利用一组通过HTML标记语言编写的内部链接页面可以建立GUI应用那样,利用一组通过会话标记语言编写的内部链接页面可以建立会话系统。此外,正象HTML提供一组把GUI动作转换成诸如访问其它页面或与一个服务器通信的应用作用的机制那样,同样可以实现CML以便提供把口语输入转换成应用动作的机制。应当以相同的广度理解这里的术语应用,其中一组相关的,包含文字,链接和表格,以及位于处理表格的服务器上的代码(例如小服务程序或CGI脚本)的HTML页面组成一个应用。另外,类似于通过Java或ActiveX构件加载过程(诸如会话基础类或其他对话构件)的方式,可以加载/下载会话小应用程序和基础类以便执行过程性的会话动作(是CVM的一个功能)。
现在参照图5,一个图例图解了示例性的,基于网络的会话系统,该系统包括各种由基于本发明的CML使能的会话应用。图解的系统包括一个客户端设备500,该设备具有一个会话浏览器501。客户端设备500可以是一个桌面PC,一个PDA,一个车载计算机,一个智能电话或一个"哑"电话(术语"哑"电话是指在长电缆的末端充当扩音器并且需要被连接到电话线另一端上的浏览器的设备)。客户端设备500也可以包含一或多个在客户端500上运行并且利用CML与会话浏览器501通信的语音本地应用502。例如,本地应用可以是一个汽车导航应用,其中一个"语音导航应用"与计算机地图软件和一个GPS(全球定位系统)设备交互以便提供会话式的驾驶方向。类似地,当没有基础CVM提供这种的服务时,基础常规OS或其他应用在本地提供的其他应用和服务可用于向浏览器提供服务(诸如歧义消除,上下文访问等等)和对话模块。
利用一个向客户端设备500发送CML页面的标准网络协议(例如,HTTP,TCP/IP),客户端设备500可以访问网络503(例如因特网)上多个服务器系统S1,S2和S3中的任何一个,其中会话浏览器501对CML页面进行处理以便向设备500的用户提供一个会话UI。例如,客户端设备500可以通过一个代码转换代理连接到服务器S1访问现有的HTML信息,如上所述,代码转换代理能够解释HTML,提取相关信息并且产生CML信息。另外,客户端设备500可以连接到一个专用Web服务器应用(S2),例如通过一个CGI应用访问Notes数据(例如Notes电子邮件)的Lotus Domino服务器。具体地,Domino服务器可以被用来生成CML并且利用HTTP发送CML。在另一个例子中,客户端设备500利用一个访问企业传统数据库的CGI应用或Java小服务程序可以连接到一个Web服务器应用(S3),其中Web应用产生并发送CML中的信息。
这导致另一个有趣的应用例子:一个基于CML的通用消息系统。具体地,语音门户或语音Web服务提供商以和ISP,ASP(应用服务提供商)与Web门户通过HTML提供常规和目前可用的邮件与消息系统的方式相同的方式可以使用CML提供电子邮件访问,处理和统一消息传输。统一消息传输意味着现在可以通过语音访问不同的消息服务并且通过语音对寻呼,电子邮件,语音邮件和呼叫处理进行编程。由于接口现在通过会话浏览器被内置到CML中,用户可以自动处理他/她的消息。类似地,呼叫转移和处理可以被看作一个通知呼叫者信息与呼叫主题并且提供一个选项菜单的CML接口的组合。用户可以选择动作(转移,存储,接受呼叫)。所有这样的动作均被当做过程调用传递到呼叫处理单元并且相应处理该调用(例如转发或转移到用户)。对于诸如图5的纯语音会话浏览器,语音和音频是提供给用户的唯一输出。当一个用户期望时,从服务提供商下载一个页面(通过CML)。CML被用来描述被呈现给用户的会话UI。通过使用TTS标记信息,会话浏览器会把页面读给用户并且倾听被语言识别器解码的用户命令(尽可能利用CML页面的语音识别部分提供的线索)以便进入链接,填充表格或对浏览器发出命令。对于非嵌入式应用,会话浏览器最好使用一个大词汇量连续语音识别系统(例如,IBM Via Voice)和一个使用JSAPI(Java语音)的"自由文本规则TTS-其中包括如以下参考文献所述的动态语法编译和NL处理:K.A.Kishore等人,标题为"使用表格的自由-流程会话管理",1999欧洲语音会议文集,布达佩斯,匈牙利,1999年9月和Davies等人,"用于金融应用的IBM会话式电话系统",1999欧洲语音会议文集,布达佩斯,匈牙利,1999年9月。
有利的是,上述诸如基于服务器的CGI脚本和Java小服务程序的能力和本地插件可以为专用代码提供参与会话应用的机制。应用代码和会话浏览器501之间的接口可以具有请求和标记数据流(HTML或CML)或n层属性值组的URL的形式。注意可以使用其它代替URL的寻址方案(例如套接字和端口)访问本地或分布式服务。
应当理解,通过应用代码可以任意建立上述各个IVR和会话浏览应用,其中应用通过API和远程调用进行通信(即不实现一个会话浏览器和CML)。具体地,这样的应用可以被直接写到一个诸如Java语音API(JSAPI)的语音API中。但对于分布式应用,尚未从网络角度出发设计当前可用的引擎API(SAPI,JSAPI)。因而,直接写在会话引擎API顶端的联网/分布语音应用总会需要重新实现分布式功能。但应当理解,对于写到CVM系统顶端的应用(IBM文档号Y0999-111P),实际上通过会话应用API消除了当前引擎API的这些限制,其中上述会话应用API通过通信堆栈进行通信,而通信堆栈通过CVM命令解释程序提供的服务和行为隐藏了引擎API的大部分复杂度。当然,通过过程性实现可以有效地执行复杂的对话任务。这种过程允许简单使用针对这种复杂任务提供的各种宏。另外,自然会期望过程比诸如XML的解释性声明语言更加有效。但根据使用的上下文(效率的重要性对编程,跨平台可移植性等等)可以使用上述选择(声明性和过程性)。
另一方面,CML和会话浏览器允许以利用已经使用HTML开发的传统应用的方式实现分布式会话系统。与当前可用的语音API不同,CML可以轻易支持联网会话应用。会话浏览器可以解释从多个位置发出的CML流,从而为用户提供了与桌面窗口系统或可视浏览器相同的无缝衔接体验。例如,当完成机票购买时,用户可以临时挂起交易并且与一个不同服务器上的银行应用交互以检查其帐户余额。这涉及上述使一个合适的应用保持并且通过浏览器和可能的服务器端处理发送/恢复一个对话的上下文的概念。并且,CML提供了一个简化会话应用构造的高层工具(类似于HTML简化可视应用构造的方式)。会话标记语言也减少了所需要的语音专业知识。另外,如上所述,使用一个当前可用的语音API在异构平台上建立分布式应用是困难的。通过WWW在异构平台上大规模推广分布式GUI应用显示出CML数据流方案的可行性。
参照图6,一个模块图图解了使用基于本发明的一个实施例的CML的一个通用分布式会话浏览系统。通常,一个分布式会话浏览系统包括一个信息服务器600,一个呈现服务器601,一个语音服务器602,语音模型603和一个会话浏览器604。信息服务器600代表企业数据库,新闻专线馈送和/或WWW服务器。信息服务器600提供具有"信息格式"的数据,其中这种格式以独立于设备的方式表示专用信息。这种数据格式的例子包含针对数据访问的API(例如Notes DB API,SQL)和专用数据流(新闻专线馈送,用XML内容标签标记的信息)。
呈现服务器601使用信息服务器600定义的一个API或协议从信息服务器600检索信息。呈现服务器601接着把接收的"信息格式"代码转换成"呈现格式"以便呈现给用户。"呈现格式"以特定于设备,独立于应用的方式表示被呈现给用户的信息,根据本发明,这种格式是CML(如下所述)。常规"呈现格式"包含诸如Windows GUI,API的API和诸如HTML,HDML(手持设备标记语言)和WAP(无线应用协议)的数据流。呈现服务器601可以是一个HTML服务器,CGI脚本和Java小服务程序,作为HTML服务器的Domino和Notes客户端,呈现服务器被用来把从信息服务器600接收的信息代码转换成CML。呈现服务器601产生的CML被用来描述通过一个会话浏览器604呈现给用户的会话UI并且提供把口语输入转换成应用动作的机制。
语音服务器602包括负责语音识别和分析的引擎和其它会话引擎。语音服务器602解决了语音特有的问题:语音识别处理可能需要不容易发送到客户端的大型专用数据集(即语音模型603)。这意味着在语言模型邻近呈现服务器601(从传输带宽的角度看)的情况下必须完成语音识别处理。一个诸如HTTP,XML,VoIP,WAP协议的标准网络协议和在前面引用的YO9990113P专利申请中描述的会话语音编码协议可以被用来从会话浏览器604向语音服务器602发送音频并返回分析结果,并且还被用来从语音服务器602向会话浏览器604发送诸如或合成语音的音频。
现在参照图7,一个图例图解了使用基于本发明一个实施例的CML的一个示例性分布式会话系统。更具体地讲,示例性实施例图解了一个纯语音客户端设备606,该设备具有一个会话浏览器604和扩音器/扬声器605。客户端设备606表示一个通过无线链路被连接到网络607(例如以太网)的纯语音PDA(个人数字助理)或PVA(个人车辆助理)客户端设备。信息服务器600,呈现服务器601和语音服务器602(具有语音模型603)共同为使用的客户端设备提供一个应用(例如气象信息)。呈现服务器601,语音服务器602和语音模型603周围的虚线指示这些单元被紧密耦合,即语音服务器602具有特定于应用的语音模型603。另外,呈现服务器向其它使用HTML的浏览器608提供一个GUI。应当理解,会话浏览器604可以访问网络607上的其它会话应用
现在参照图8,一个图例图解了另一个示例性分布式会话系统,其中客户端设备606是一个语音和GUI客户端。客户端设备606包括一个显示屏幕609,一个扩音器扬声器605和一个使用语音,GUI及其组合向用户提供信息的会话+GUI浏览器604a。在这个实施例中,呈现服务器601根据客户端606的请求可以提供HTML和CML文档。另外,通过嵌入能够被嵌到HTML标记中的CML标记并且扩展标准HTML浏览器(使用提供的浏览器扩展机制)使之在标准浏览器傍边运行会话浏览器以便在GUI接口傍边提供会话接口,可以实现这个系统。在1999年4月7日申请的,标题为"多态命令解释程序"的美国临时专利申请60/128,081号中描述了在GUI和语音UI之间进行集成和协调的系统和方法,该申请与本发明有共同转让并且在此对其加以引用。
现在参照图9,其中示出了另一个使用分布式电话技术的分布式会话系统。在这个示例性实施例中,一个用户可以拨入被连接到一个会话浏览器604的客户端606的电话平台610(例如一个PC),该平台使用户能够通过网络607(例如因特网)选择语音应用。
可选地,一个用户可以通过拨号连接到语音服务器,也可以通过另一个现有连接(LAN,蓝牙,DSL等等)直接连接到语音服务器。在这种情况下,前面提供的会话编码算法可以被用来向浏览器传送数据。注意,客户端"设备"这里基本上是一个被连接到电话平台610上运行的会话浏览器604的电话耳机。
接着,在图10的示例性实施例中,用户会拨入指定电话号码以访问一个应用。该系统是图9的分布式电话系统的简化版本,其中会话浏览器604和应用是相同的。然而,在这个实施例中,会话浏览器604不被连接到网络,但是可以只访问特定应用。这个实施例中的虚线611强调呈现服务器601,语音服务器602(和模型603),会话浏览器604和电话平台610全部参与一个集成服务。该应用在本质上是一个常规电话应用,其中会话浏览器604充当对话引擎。
会话标记语言:CML
下面描述了一个可以被用于上述会话浏览应用的最优实施例。在一个最优实施例中,CML是可扩展标记语言(XML)的一个应用。XML是由维护HTML标准的相同机构W3C针对HTML风格的标记语言定义的流行Web标准。XML实质上是对HTML的归纳总结,其中从HTML借鉴了许多设计思路。更概括地讲,XML是一个针对结构化文档和数据的声明性通用格式。有利的是,以XML作为CML的基础允许CML更容易地被嵌入到HTML中或与HTML相结合以产生多态应用(例如,语音和GUI)。也允许另一种XML应用,即JSML(Java合成标记语言)被嵌入到CML中并且被用作针对CML的语音合成标记语言。有利的是,XML的标准化和流行产生CML页面的制作工具和产生CML的服务器代码编程工具可能会成为标准,从而提供针对这里描述的会话浏览系统的开放式体系结构。
XML包括描述一个页面或文件的内容的标记符号。XML实体包括具有以下形式的标签对:
<标签属性1="值1"属性2="值2">任意文本</标签>。
XML的可扩展性的根源是XML应用(以及在这种情况下的CML)的标记符号是无限的和自定义的(即,程序员可以自由地定义他/她自己的标签名称,属性名称和数值设置)。
在本发明的一个实施例中,用JAVA编写CML并且一个会话浏览器使用一个"所听即所说"风格的语音输入进行本地语音识别和分析。在其他实施例中,针对NLU语音输入和分布式客户-服务器语音应用扩展CML,其中通过HTTP从客户端向语音服务器发送数字化话音并且使用CML返回分析结果(如上所述)。并且应当理解,除了使用HTTP或其他常规协议之外,可以通过如前面引用的IBM文档号为Y0999-111P和Y0999-113P的专利申请所述的会话通信协议向语音服务器发送语音。下面会详细地讨论这些实施例。
通常,CML最好被定义成一组标签,其中基本CML元素是<页面>,<主体>,<菜单>和<表格>。通常,一个"页面"元素组成其他CML元素,并且充当一个CML文档的最高层元素。一个<主体>元素指定会话浏览器说出的输出。一个<菜单>元素为用户呈现一列选项,每个选项对应一个诸如URL的目标,在用户选择一个选项的情况下URL标识一个要访问的CML元素。一个<表格>元素允许用户提供一或多个信息片段,其中通过一个语法可以描述各个信息片段的内容。<表格>元素还可以指定一个在用户完成表格填写时要访问的URL。短语"访问一个元素"(或"访问一个CML元素")是指一个通常由会话浏览器在响应一个说话用户的输入时采取的动作(虽然也可以响应其它类型的用户输入或其它类型的异步事件)。访问一个CML元素会导致会话浏览器根据所访问的CML元素的类型和内容产生一个口语输出。例如,读取一个<主体>元素,列出一个<菜单>元素的选项等等。根据下面章节内针对各个元素的描述,并且根据对话的章节中更完全的讨论,访问一个元素还可以影响口语响应集合,其中浏览器会从用户接受上述响应。
下列内容更详细地描述了包括基于一个最优实施例的一个CML文档或文件的标签(元素)和属性。
页面元素:一个<页面>元素是包括一或多个相关套接的CML页面或单元(一个单元是一个<主体>,<菜单>,或<表格>元素)的最高层CML文档元素,并且最好按以下方式构造:
<页面ttl="秒">(主体,菜单,和/或表格单元)或套接页面</页面>
属性ttl("存在时间")规定可以在一个高速缓冲存储器中存储CML页面的秒数,其中0值防止高速缓冲该页面。一个<页面>元素本来不会在会话浏览器应用和用户之间促成(没有口语输出或输入)会话,而是充当一个组合其他CML元素(例如主体,主体和表格单元)的容器。一个<页面>元素也可以包含套接页面。以后会解释<页面>元素作为一个(套接)容器的功能。访问一个<页面>元素等于访问该页面中的第一个单元。套接页面还可以包含会话对话对象或基础类。可以通过过程或某些等价CML页面实现这个要求。当重新加载一个页面时,提供一个cookie或适当的协议/服务/API以便重新加载前面的上下文。
菜单元素:一个<菜单>元素提供一个针对CML的功能,该功能类似于超文本链接的功能,并且由于为用户提供一组选项,所以菜单被当作HTML。通常,在用户选择该选项的情况下,一个<菜单>元素规定在访问该实体时要说出的一个介绍性消息和一个提示菜单,以及一个对应的可能响应集合,并且针对每个选项规定一个要访问的URL:
<菜单>
介绍性消息文本
<选项目标="URL1"提示文本1</选项>
<选项目标="URL2">提示文本2</选项>
</菜单>
当访问一个<菜单>元素时,说出其标题文本(介绍性文本),并且接着说出所包含的任何<选项>元素的提示文本。当加载<菜单>时可以激活一个匹配该<菜单>的标题文本的语法,并且在此之后激活其它部分。当用户说出一个匹配某个<菜单>元素的标题文本的字或短语时,则访问这个<菜单>元素。
在用户选择该选项的情况下每个<选项>具有一个被会话浏览器访问的目标URL:
<选项目标="目标">提示文本</选项>
一个目标可以是任何有效的URL(包含相对的URL和指定HTTP:,文件:,FTP:,和本地:协议(有关本地:协议的描述参见下文)的URL或一个URL加一个索引(使用标准的URL#索引语法)。)。可以使用任何其他的地址,方案,和协议。索引(即一个URL中在#之后的部分)是一个命名文档内的单元的字符串,该文档具有一个名称属性,该属性的值为上述索引字符串。一个没有索引的URL被认为是指向文档内部的第一个单元。针对包含文档的URL分解一个相对URL。
此外,一个"目标"可以是另一个诸如套接字地址的地址(IP地址和端口ID)。在这种情况下,可以实现其他的IP协议,例如在前面引用的IBM文档号为Y0999-111P和Y0999-113P的专利申请中描述的会话协议。在使用一个特定的非常规协议的情况下,一个附加参数可用于激活以下通信:
<选项目标="目标"协议="协议标识符"></选项>
这提供了一个传递上下文和元信息的机制。也提供了一个向CVM服务传递系统调用或者在没有CVM的情况下向被实现成基础OS顶端或浏览器平台内部的应用的等价服务传递调用的途径。如果浏览器支持该协议,则该标识符足够激活适当的通信。这种处理尤其适用于建立在CVM顶端的会话浏览器(如前面和IBM文档号Y0999-111P中所述的)。在其它情况下,规约标识符还可以指向一个用于下载的URL(插件或小应用程序)以便启动通信。还可以直接指向一个位于支持会话浏览器的客户端平台上的本地可执行程序。典型的例子是需要分布式识别的"选项"(例如,当在一个远程网络服务器上进行识别时)(如IBM文档号Y0999-113P所述)。其他例子包含下载实现对话的过程性功能(或本地功能)的选项。这些会话过程也被建立在CVM的顶端。应当理解,这些概念对于所有"目标"均是有效的,并且不仅仅对于"选项"而言。
当访问所包含的<菜单>时,说出一个<选项>元素的"提示文本"。当加载包含的<菜单>时激活匹配一个<选项>元素的提示文本的一个语法,并且在此之后激活其它部分。当用户说出一个匹配某个<选项>元素的提示文本的字或短语时,则访问指定目标。例如,通过说出一个引起注意的字或短语("计算机","到达"或"选择")并且后跟选项中一或多个重要的的字,用户可以选择其中的一个选项。下列例子会说明菜单元素:
<菜单>
请从主菜单中选择。
<选项目标="文件:电子邮件">电子邮件.</选项>
<选项目标="文件:新闻">新闻.</选项>
<选项目标="文件:导航">导航.</选项>
<选项目标="文件:填表">食物订购.</选项>
<选项目标="文件:气象">气象信息.</选项>
<选项目标="文件:讲座">讲座.</选项>
</菜单>
主菜单可以充当当用户开始与一个会话浏览器会话时首先听到的最高层菜单。更具体地说,当会话浏览器访问这个菜单时,该菜单产生口语输出"请从主菜单选择"并且后跟一列选项:"电子邮件.新闻.导航.食物订购.气象信息.讲座."一旦会话浏览器已经加载这个菜单,用户可以通过说出一个命令激活(选择)任何选项(在对话的剩余时间内)。允许的命令取决于使用的输入技术。在一个实现"所听如所说"方案的实施例中,允许的命令可以包括后跟提示文本的字词子序列的引人注意的短语,例如"到电子邮件"和"选择新闻"。
在用户说出一个选择之后,会话浏览器会访问由与指定选择相关的目标属性规定的目标地址(例如,URL,套接字地址)(例如,取出一个目标URL的内容并且解释成一个CML实体,而且该实体被访问)。注意,在上述例子菜单中,所有目标URL均相对于包含页面的URL,在这种情况下该URL是一个指向demo\main文件的文件:URL-例如,目标"文件:新闻"被解释成一个在与包含主菜单的文件相同的目录中的,被称作"新闻"的文件。
概括地讲,用户可以说出一个匹配某个<菜单>元素的标题文本的短语以便访问这个<菜单>元素。用户可以说出一个匹配某个<选项>元素的文本的短语以便访问该元素指定的目标。如果一个用户的短语包括一个引人注意的短语,其后面跟有文本中的一或多个字并且其顺序与在文本中的顺序相同(但不必连续),则该用户的上述短语与一个<菜单>或<选项>元素的文本匹配。一个引人注意的短语是诸如"到达"的,指示要执行的命令的短语。
主体元素:一个<主体>元素指定某些在实体被访问时被转换成说出的输出的文本:
<主体名称="名称"下一个="目标">文本</主体>:
当一个<主体>元素被访问时,其文本被说出,并且接着访问由下一个参数指定的目标。具有JSML标记的CML<主体>实体提供一个针对语音的功能,该功能类似于一个具有为GUI准备的面向呈现的标记(诸如标题,目录等等)的HTML主体实体的功能。对于信息检索应用(诸如电子邮件和新闻),一个<主体>元素通常会包含用户寻找的信息。最好使用Java合成标记语言(JSML)标记主体元素以便获得精确和有效的文本-语音合成:
<主体>使用<EMP>JSML标记的,被说出的文本</EMP></主体>
<主体>元素的"下一个"属性的值是一个目标地址(例如,在主体已经对用户说话之后要被访问的地址)。下列例子会描述<主体>元素的功能,操作和JSML标记与"下一个"属性的使用。
<主体下一个="#菜单1">
<JSML>
欢迎使用IBM ViaVoice<EMP>语音浏览器</EMP>>。这个讲座会教您掌握可以用来控制您的语音浏览器的口语命令。
</JSML><主体>
使用JSML对主体进行格式化以便把重音放在术语"语音浏览器"上。在这种情况下"下一个"属性是一个引导浏览器访问当前页面上具有名称"菜单1"的元素的相对URL(或目标地址)。
如上所述,在CML的一个实施例中,<主体>和<菜单>元素提供口语呈现并且使用口语菜单进行静态信息导航。就象HTML那样,这个功能级别足够用于可以被组织成一组内部链接CML页面的静态信息。但是如果用户可以为应用提供从大集合中得到的信息,例如搜索字,美元数量,日期,股票名称等等,可以有更丰富的应用群。这种可能输入集合对于菜单而言显得过大,因而需要有另一种在客户端上收集输入的机制。此外,一个机制可以被用来计算呈现服务器上的"运行时"应用响应而不是被存储成菜单和主体元素。通过在服务器上运行的CGI(公共网关接口)程序和小服务程序或任何其他后端逻辑可以实现这个操作。在一个复杂逻辑被隐藏在交易或服务器应用程序后面的情况下,这种服务器端运行时响应修改是继续处理的唯一方法(当然除非使用在前面引用的IBM文档号Y0999-114中描述的会话框架方法发送关于逻辑的信息,或者把信息发送到客户端:结构框架以消除对话的各个部分的歧义)。也可以使用一个<表格>元素在CML中收集这种用户输入。
表格元素:一个<表格>元素从用户收集一或多个信息片段或字段。一个<表格>元素通常被用来收集诸如名称,地址,电话号码,和实际不会被呈现为菜单中的一列选项的任何其他类型信息的信息,并且具有以下通用形式:
<表格动作="URL">
介绍性消息文本
<字段名称="名称1"规则="JSGF">提示文本1</字段>
<字段名称="名称2"规则="JSGF">提示文本2</字段>
</表格>
一个动作是一个在<表格>中使用的目标URL。与HTML中的方式相同,表格的<字段>的值被当做属性值对附加到动作上。一个表格集中一组足够保证能够回到呈现服务器(可以依次向一个信息服务器发送一个请求)的用户输入以便获得一个应用响应。当访问一个<表格>元素时,说出其标题文本(介绍性文本),并且接着逐个向用户提示包含的所有<字段>元素的值。当加载  <表格>时,激活一个匹配该<表格>元素的标题文本的语法,并且在此之后激活其它部分。<字段>标签具有以下通用形式:
<字段名称="名称2"规则="规则名称"数值="数值">提示文本</字段>。如果尚未提供一个数值(通过用户或<字段>标签的数值参数)并且提示文本非空,则通过说出指定提示文本向用户提示一个字段的值。填充一个字段的可接受的响应取决于所使用的输入技术。对于"所听即所说"方案,可接受的响应包含一个由提示文本的字构成并且后跟一个短语的子序列,其中上述短语与一个提供该字段的可能数值集合的指定语法(最好具有Java语音语法格式(JSGF))匹配。与语法匹配的响应部分变成字段的值。如下所述,这个方案可以被扩展到NLU输入。如果用户的响应填充了一个字段,则向用户接着提示下一个未填充字段,等等。
当已经指定所有字段值时,使用一个HTTP GET方法访问动作目标(即,结果被发送到呈现服务器),并且返回一个包含接着要访问的实体的CML页面。应当理解,在被提示时或者在仍可看见表格的任意位置上,通过说出一部分提示并且后跟字段的一个合法值(即,通过说出提示文本并且后跟一个匹配规则参数规定的规则名称的短语,其中"规则名称"是完全合格的JSGF规则名称),用户可以填充任意字段的值。
下列例子会图解一个表格元素的功能和操作。
<表格动作="HTTP://localhost:8080/servlet/mcservlet/">
请完成那订购表格。
<字段名称="三明治"规则="语法检查.三明治">三明治是?</字段>
<字段名称="饮料"规则="语法检查.饮料">饮料是?</字段>
<表格>
当访问上述表格时,会话浏览器输出介绍:
"请完成订购表格。"用户接着被提示"三明治是?"。用户接着可以根据以下操作回答"三明治是鸡肉三明治"或"三明治是汉堡包":在JSGF语法"语法检查"中发现指定JSGF规则"<语法检查.三明治>",其中读出
语法语法检查;
公共<三明治>=汉堡包鸡肉三明治;
公共<饮料>=百事可乐;
注意,用户也可以通过在被提示数值之前说出"三明治是三明治"或"饮料是饮料"之前来填充这个或任意字段,只要三明治表格仍然处于活跃状态。在这种情况下,浏览器选择一个字段值并且接着逐个向用户提示未填充的字段。这是一个被称为"混合主动"的对话功能。由于用户已经激活一个产生食物订购表格的菜单选择,这意味着用户可以通过说出"三明治是三明治"来取得主动,系统也可以通过向用户提示三明治来取得主动。
CML表格类似于HTML表格,并且在一个实施例中,CML使用一个类似于HTML的机制向服务器发送字段值:当用户完成表格并且指定各个字段的数值时,浏览器把各个字段的名称=数值对附加到指定表格动作URL上,并且通过HTTP从服务器请求结果URL。表格动作URL最好引用一个诸如CGI脚本或Java小服务程序的专用功能的名称,其中服务器会处理名称=数值对并且返回一个应答。
就象对完成的表格的应答会是一个通过显示器被呈现给用户的HTML页面的图形Web浏览器那样,对于会话浏览器,应答会是一个通过语音(通过访问指定主体,菜单或表格实体)被呈现给用户的CML页面。在两种情况下,新页面会影响对后续输入动作的解释。
对话要点:口语对话应用设计中的一个考虑是允许用户容易地确定他/她在"会话"中的任一点上可以说什么的能力。理想情况下,应用会从用户接受任何合理的口语输入(NLU),有时这是难以实现的。取而代之,一个应用可以把目标定成接受有限的输入集合。然而这种设计为用户带来必须学习和记住一个包括他/她的自然口语的任意子集的"语言"的繁重任务。
CML浏览器通过实现各种方案可以较好地缓和这个问题。一个方案是"所听即所说"方案,其中(如上所述)可接受的口语输入总是回应被提供给用户的口语提示。每当访问一个CML元素时,就改变浏览器会接受的用户输入集合。例如,在用户访问一个<菜单>或<表格>之后,浏览器会接受该菜单或表格的回声。按照"所听即所说"方案,接受的输入通常是菜单或表格提示的回声,或者是提示简读。
例如,如果用户听到:"从主菜单选择:电子邮件,股票行情",用户可以说:"到主菜单";"到股票行情";和/或"到电子邮件"。另外,如果用户听到"您有2个消息:来自Bill;Smith关于高尔夫球开球时间的新消息1;来自Jane Jones关于项目会议的消息2",用户可以说:"到新消息";"到新消息1";"到消息2";"到Bill的消息";"到关于开球时间的消息";和/或"到关于项目的消息"。此外,如果用户听到:"股票行情。股票代号是?",用户可以说:"到股票行情";"到行情";"股票代号是IBM";"代号是IBM"和/或"股票是IBM"。
如上所述,使用一个包含某些标题文本("从主菜单选择")的<菜单>元素和一些包含某些提示文本("电子邮件","股票行情")的<选项>元素可以通过CML实现上述前两个例子。使用一个包含某些标题文本("股票行情")的<表格>元素和一个包含某些提示文本("股票代号是?")的<字段>元素可以实现最后一个例子。因此,<菜单>或<表格>的标题文本和<选项>或<字段>的提示文本定义了用户可以说出的内容。
可以使用实现对话的其他选项。例如,可以把答案预载到某些表格上。即,通过基于答案或用户选择的过程或脚本可以对某些脚本元素预先编制程序(即,变量是提示的字段)。当然,这个脚本可以使用/指向一个由其他本地或分布式事件和过程分配的变量(例如日期,查询呈现服务器产生的结果等等)。这意味着要捕捉事件,增加逻辑操作,循环和重定向(例如到达)语句。对于使用多个表格的情况,需要捕捉事件的能力。这种CVM上下文中的事件可以捕捉同样来自小应用程序及其他会话过程或脚本的事件。以类似于Java脚本或ECMA脚本的方式可以实现脚本。脚本可以被嵌入到表格<脚本>...</脚本>内。这意味着表格,菜单等等也可以抛弃和捕捉事件。这允许有适当的编程能力。脚本可以被嵌入到一个CML页面内部的任何地方。通过<对象>...</对象>标签可以实现过程,对话构件,会话基础类及其他服务。
在另一方面,一个"说你所听"方案允许用户受会话(而不是如上所述的浏览器)的控制。更具体地说,在一个会话式对话期间,每个以前访问的<菜单>或已经听到的<表格>仍然处于活跃状态。举例来说,假定用户已经听到选择"电子邮件"和"新闻"的主菜单。对于"说你所听"方案,用户可以通过说出"选择电子邮件"立即选择电子邮件应用,也可以在听到主菜单之后的任何时候通过说出"到新闻"来选择新闻应用,并且不必返回到主菜单。如果用户忘记了在主菜单上作出的选择,则用户可以通过说出"到主菜单"回朔到主菜单。这个原则适用于用户听到的所有菜单和表格。
另一个方案是"说你要听",其中菜单和表格在被访问之前变成活跃的并且在整个浏览器对话期间保持活跃。更具体地说,一个菜单或表格在第一次被浏览器加载时就变成活跃的,加载可以发生在菜单或表格被访问之前,例如在一个包含若干菜单和表格的页面被加载的情况下。通常情况下,即使在该页面上只有一个菜单或表格被访问(根据URL的规定),该页面的所有菜单或表格仍然会变成活跃的。在下面例子中说明了这种情况:
<页面>
<主体文本="#新2菜单">
来自Steve的关于增加工资的新消息2。
Bruce,
我们已经决定今年给你增加250%工资。
不要全花在一个地方。
Steve
</主体>
<菜单名称="新2菜单">
从消息菜单中选择
<选项目标="#新3">下一个消息.</选项>
<选项目标="#新2向前">前一个消息.</选项>
</菜单>
</页面>
在上述例子中,假定用户请求听消息2。会话浏览器会访问URL以得到该页面(即会取出该页面并且访问该页面上的第一个单元),在这种情况下该页面是消息的主体。在完成消息之后,<主体>元素的"下一个"属性导致会话浏览器访问"新2菜单",该菜单会为用户提供几个消息处理选择。然而用户在选择一个选项之前不必等待听取菜单。取而代之,由于菜单在页面第一次被加载时就变成活跃的,用户可以在任何时候中断消息以便说出"到下一个消息"。有利的是,这个功能对经常使用的应用是有用的,其中用户学习预测还没有被呈现的菜单和表格。应当理解,当使用会话基础类在CVM上建立会话浏览器时,使用在前面引用的IBM文档号Y099-114中描述的框架可以实现"说你要听"方案。可选地,通过CML可以实现对话对象或对话构件。
应当理解,"说你所听"和"说你要听"机制促成了一个被称为"混合主动"的对话功能。这意味着在某些情况下-例如在浏览器向用户提示一组菜单项时-计算机在会话中采取主动,而某些时候-例如在用户忽略提示并且选择一个过去听过的菜单项,或者中断计算机并且选择一个仍未呈现的菜单项时-用户可以采取主动。因而,通过被浏览器访问和/或加载并且不仅仅包含最近被访问的元素的整个CML元素集合来定义浏览器可接受的的口语响应集合。然而,由于不再涉及到的菜单或表格是活跃的,这种处理有时会导致不期望的结果。因此,基于本发明的CML提供了一个限制菜单和表格的活跃范围的机制。
范围:范围是一个允许CML应用设计师控制与一个具体的<菜单>或<表格>相关的口语输入处于活跃状态的持续时间的特性。通过一个可以和一个<菜单>或<表格>元素相关的范围属性规定"范围"特性:
<菜单名称="名称"范围="范围">标题文本,选项</菜单>
<表格名称="名称"动作="目标"范围="范围">标题文本,字段</表格>
示例性"范围"属性值如下所示:
局部:只有在菜单或表格自身是浏览器最近访问的元素的情况下该菜单或表格才是活跃的。
页面:只有在浏览器最近访问的元素位于直接包含菜单或表格的页面上(或该页面的子页)的情况下该菜单或表格才是活跃的。
全局:这是一个缺省值,其中在从浏览器第一次加载菜单或表格开始的浏览器对话的全部持续时间内该菜单或表格均是活跃的(即使表格或菜单自身仍未被访问)。
特定于应用:是指所有页面均属于站点或应用(例如通过元信息标签)。
在许多情况下,如果一个菜单或表格在浏览器第一次看见菜单或表格时就立即变成活跃状态并且在其后保持活跃状态,则为用户提供了最大的灵活性。例如,如上所述,使主菜单或主题菜单在整个对话期间保持活跃以便一个用户在不必首先通过菜单"迷宫"回溯的情况下可以直接跳到菜单提供的选项,这种处理是有利的。然而在某些情况下,这种处理会降低语音识别精确度并且产生不期望的结果。考虑下列例子。
<页面名称="新2">
<主体下一个="#新2菜单">
来自Steve的关于增加工资的新消息2。
Bruce,
我们已经决定今年给你增加250%工资。
不要全花在一个地方。
Steve
</主体>
<菜单名称="新2菜单"范围="页面">
从消息菜单中选择。
<选项目标="#新3">下一个消息.</选项>
<选项目标="#新2向前">前一个消息.</选项>
</菜单>
与各个消息相关的菜单允许用户说"到下一个消息"。然而在用户放下电子邮件消息去干另一个事情之后这个选择可能没有什么意义,并且在因语音识别错误而激活时会非常令人惊奇。所以,在这个例子中,消息菜单被指定一个"页面"范围,这意味着只在浏览器最近访问的元素位于包含该消息菜单的页面之中时该消息菜单才是活跃的。在这种情况下,这意味着"到下一个消息"只在最近的浏览器动作造成访问电子邮件项目的主体时才是活跃的。
在嵌入的CML(如下所述)中提供了对范围的附加使用和使用范围的行为。另一个可以被用于CML的范围标签是"多个"。下面提供了有关多个表格(不在CML表格中)的使用的讨论:Kishore等人,标题为"使用表格的自由-流程会话管理",1999欧洲语音会议文集,布达佩斯,匈牙利,1999年9月和Davies等人,"用于金融应用的IBM会话式电话系统",1999欧洲语音会议文集,布达佩斯,匈牙利,1999年9月。注意,根据上述讨论,多个表格可以同时在一个页面上被激活,以此取代使多个页面活跃的方式。这些页面可以被明确嵌套在文档中,也可以被地址索引(被加载)。类似地,某些这样的表格可以被当作过程构件。
通常,如上所述,在一个NL形态下,通过激活多个表格来实现NL对话。表格被同时填充,直到一个表格的所有强制字段均被填充。当被填充时,执行对应的动作或查询。当多个表格被填充时,增加歧义消除对话(例如通过激活一个新的表格)。通常通过一个指示加载这些不同表格的页面加载多个范围表格:
<菜单名称=主nl范围=全局>
介绍性对话
<表格名称=表格1范围=多个>...</表格>
<表格名称=表格2范围=多个>...</表格>
<表格名称=表格3范围=多个>...</表格>
</菜单>
当有任何隐含一个动作的输入时,在完成该动作后会加载一个新页面:
<菜单名称=主nl范围=全局>(我们"更新"全局菜单)
<表格名称=表格1范围=多个上下文=保持>...</表格>
<表格名称=表格2范围=多个上下文=复位>...</表格>
<表格名称=表格3范围=无效上下文=复位></表格>
<表格名称=新表格范围=多个上下文=复位>...</表格>
</菜单>
可选地,可以通过以下方式加载所有这些表格:
<表格名称...范围...加载=目标></表格>
当提供一个加载参数时,从目标下载表格的内容并且将其放在<表格></表格>标签之间。相同概念可以被用于语言的任何其他元素。通常,更新菜单,增加新表格并且可以撤销某些表格(撤销范围)。
上述例子中的"上下文"标签指示如何处理以往的会话历史。在上述两个例子中,具有一个"保持"上下文的表格会保持通过前面的对话步骤填写到表格中的数值(用户以前的输入)。"复位"标签是指把数值重新设置成缺省值。还应注意可以通过一个持续时间标签定义范围:范围=5秒或范围=1分钟或范围=一个范围的名称。范围被定义成
<范围名称=范围1状态=活跃></范围>
当没有定义时,一个范围是非活跃的。当被定义时,范围可以是活跃或非活跃的。当范围被激活和撤销时,在该名称指定的范围内的元素被激活。
应当理解,通过一个过程性对象可以实现这里使用的表格:
<表格名称=表格3范围=多个上下文=复位加载=目标></表格>
其中目标页面包含小应用程序,过程,服务等等,例如:
<对话对象>
<小应用程序...>
</小应用程序>
</对话对象>
并且,一个对话对象可以是一个小应用程序(Java),一个脚本(由浏览器解释),一个会话对象(使用会话基础类被写到CVM顶端的会话对话),插件或小服务程序活动,或任何其他过程性实现或服务提供商。
在这种情况下,可以并行加载多个对象。这通常是在CVM顶端实现浏览器的情况,其中CVM能够登记这些不同对象及其上下文并且能够根据一个关于用户输入的函数确定活跃的对话。
最后这一项说明在CML和一个浏览器被加上适当的会话管理能力的情况下,CML可用于通过独立于基础NL技术的方式设计NL对话。这个方案完全支持基于表格,过程(决策网络)和语法的NL对话管理程序。
也可以具有重载标签(即修改与一个标签相关的动作)。通常,通过允许描述标签的新含义和重载定义的范围的XML或其他机制可以实现这个处理。
浏览器功能:迄今为止我们针对口语输出和口语输入并且根据标记语言讨论了CML并且描述了浏览器的行为。下列讨论是针对会话浏览器的功能,这些功能不是CML特有的,而是浏览器实现的特征。
最初,会话浏览器最好实现一些内部命令(从根本上类似于可视浏览器的菜单和工具条上表现的内部功能)。下面是这种命令的例子:
安静;不说话:这些命令会导致浏览器停止当前的口语输出并且等待用户的进一步指令。这个功能被称为"切入"并且适于所有的口语输入,使得一个用户可以在任何时候中断浏览器。所以,用户可以通过说出"请安静"来中断浏览器,而在这样的情况下浏览器停止当前输出并且等待进一步指令。为了使浏览器重复中断的输出,用户可以说"请重复"。用户也可以通过一个诸如菜单项选择的口语命令在任一点中断浏览器。
再说一遍;重复:这些命令会导致浏览器重复最近访问的元素(菜单,表格,或主体)。
返回:这个命令会导致浏览器返回到历史记录中一个以前访问的元素。
前进:这个命令会导致浏览器前进到历史记录中下一个访问的元素。(只在"返回"命令被执行某些次之后才有意义)。
到开始处([[[go]to]the]beginning):这个命令会导致浏览器到达第一个被访问的元素上述示例性命令中的方括号指示任选字。任何这样的命令可以位于"请"之前或之后。可以为浏览器定义其它的标准命令,也可以被用户添加。
在这些各种类型的口语输入之间不可避免地会出现歧义。通过维护一个最近使用(MRU)单元队列在单元(表格和菜单)级别上消除歧义。更具体地说,如果匹配到一个被单元允许的口语短语(后跟标题文本或选择提示的引人注意的短语,后跟有效字段值的字段提示),则确定一个口语输入与一个单元相对应。浏览器试图按顺序确定每个口语输入与MRU中各个单元的对应。在一个实施例中,可以通过下述操作维护MRU队列:
1.当一个口语输入被确定与队列中的一个单元对应时,该单元被移到队列头部。
2.接着,如果该口语输入导致一个目标被访问,则包含该目标的页面内的所有单元均被移到队列头部。
3.最终,对应于被访问目标的单元被移到队列头部。
应当理解,对于一个建立在CVM顶端的浏览器,如国际商业机器公司文档号Y0999-111P中讨论的,CVM会在怀疑有任何歧义的情况下进行适当的歧义判决并且与用户进行对话。在根本上,一旦产生一个CML规格,实际上就会规定处理对话的方式。如果需要改写规格,或者如果需要引入其他行为,可以通过针对基础CVM,OS或平台(如果可用)的快速调用来加以实现。
插件:本发明提供了一个机制,该机制提供了一个类似插件或小应用程序的能力。一个指定一个<选项>目标或一个<表格>动作的URL通过使用本地:协议并且按照下面几个示例性表格中的一个可以调用本地插件代码:
本地:服务/功能;或
本地:服务/功能?参数l=值l,参数2=值2,...
第一个表格被用于没有参数的<选项>目标和参数由浏览器根据所包含的<字段>的值来提供的<表格>动作。第二个表格被用于通过URL提供参数的<选项>目标。
在使用Java实现的浏览器的一个最优实施例中,通过以下方式实现一个本地:URL,即在一个本地列表中查找把将其映射成一个类名称的服务,在这个类没有实例时则初始化该类的一个对象,并且接着把功能解释成一个被调用的方法的名称。服务列表最好位于会话浏览器的文件服务中,其中文件自身包含一个对其格式的描述。这包含所有可用服务及其他对象(过程性或非过程性)的登记。
通过本地:URL调用的插件代码返回一个包含URL表示的CML文档的字符串。访问一个本地:URL导致以和访问任何其他URL相同的方式解释返回的文档。应当理解,也可以使用小应用程序(下载或本地),会话对象和小服务程序/CGI以及分布式应用(具有套接字连接和RPC协议)充当一个本地应用也可以实现这些功能。
通过使用浏览器提供的一个API启动一个线程并且使浏览器异步访问指定的URL(包含本地:URL),服务可以接着与浏览器进行异步交互(例如,异步通知用户重要事件)。浏览器API允许本地插件代码促成浏览器访问一个指定的URL,就好象用户已经说出导致浏览器访问该URL的某些话那样。这个功能可用于根据本地事件提供异步用户通知。本地插件会扩展类CML,服务,由此本地插件继承了一个访问上述CML,服务的方法,并且调用该方法会导致浏览器访问具有指定参数的指定URL:
公共类服务{public void visit(URL url,Dictionaryparameters)throws IOException;}。
针对嵌入会话浏览器应用的考虑
登记机制:在一个嵌入会话浏览器的功能可能因资源(存储器,CPU能力等等)不足而受到限制的情况下,可以使用一个cookie机制,该机制允许浏览器向一个服务器传送一个有关其能力的描述。例如:Speech_Reco=1;Speaker_Reco=0;TTS=1;Dialog_Manager=0,NLU=0;Speech_Reco.Vocabulary_Size=500;Speech Reco.FSG=1等等。在接收到cookie时,服务器端可以检查其内容并且接着相应修改CML页面。例如,如果cookie指示词汇大小为50,则可以用非常有限的词汇产生CML菜单(例如为每个项目选择一个号码以代替实际的链接)。
除了使用cookie之外,在另一个实施例中,可以使用如前面引用的国际商业机器公司文档号为YO999-111P和YO999-113P的专利申请所述的登记会话协议。在这样一个实施例中,交换描述引擎的特征和属性以及应用的要求的对象。握手会确定应用的会话职责。并且在这种情况下,初步握手可以使用HTTP或其他诸如RPC,RMI等等的协议。这点对于可以直接与服务器对话以检查其一个针对本地浏览器能力的可能修改行为的对话对象而言尤其重要。还应注意,象在常规浏览器中那样,这些cookies(或过程性协议)可以执行其他任务,例如根据用户偏好,这些偏好或整个对话历史的持续时间定制呈现或服务。换句话说,如果用户选择一个选项,则通过使cookies具有在连接时上载的一个站点的以往历史记录来保证上下文历史在设备上的延续。当通过一个CVM或过程性对象执行处理时,通过过程性协议发送信息。当被存储在服务器上时,ID cookies也被用来保证设备上的延续性。当从不同设备连接时,cookies(或过程性协议)可以被存储在服务器或呈现服务器上。使用诸如用户ID,主叫方ID,发声者识别或语音生物统计的传统方法也可以识别用户。必须传递(通过一个cookie或通过会话协议)任何其他的元信息(持续时间,用户偏爱,应用优先顺序和使用历史,上下文等等)。
所以,如果会话引擎不能产生基本形,标签可以提供一个基本形。可以使用各种方案:1)在确定浏览器能力后,向浏览器发送一个不同的CML页面;2)一个代码转换器根据登记的能力可以动态修改一个被发送到浏览器的CML页面;或3)可以修改一个CML页面以便发送语音并且在一个网络服务器(如IBM文档号YO999-113P中所述)上执行复杂功能。
动态释放:会话浏览器可以使用CML的动态活动。这是另一个允许修改针对嵌入式应用的会话浏览器的行为的解决方案。具体地,除了完全遵循"所听即所说"模式之外,会话浏览器可以只在本地激活标记,除非CML明确限制。此外,在到达支持活跃词汇的最大数量时,语音浏览器可以逐渐和分层次地释放:最旧的,但不是浏览器命令解释程序命令或全局命令的命令(由CML通过一个全局标签<全局></全局>或优先级标签定义;这等价于一个范围标签的概念)。一个顶级菜单保持活跃,直到一个菜单项下面的命令首先被释放等等。释放的命令被高速缓冲在串联的命令高速缓冲存储器中。当得到一个命令的可能性(或对识别输入的其他置信度测量)过低或命令被用户拒绝时,从最近使用的命令高速缓冲存储器中重新解码出语音,直接获得一个可接受的识别。最近,已经开始投入力量开发适用于识别语音的置信度测量。例如,在NIST和DARPA于1996年4月29日-5月1日在MITAGS,MD组织的"LVCSR Hub5工作会议"中,建议了为每个字附上置信级的不同方案。其中一个方法使用了通过字相关特性(发声训练量,最小和平均三音出现率,语言模拟中的事件,音素/辅音(lefemes)数量,持续时间,声学评分(更快匹配和更细匹配)语音非-语音),句相关特性(信噪比,发声速率估测:每秒内字、辅音或元音的数量,语言模型提供的句子相似度,语言模型中的三字母组出现率),上下文中的字特性(语言模型中的三字母组出现率)以及发话人特征分析特性(重音,方言,性别,年龄,发声速率,一致性,音频质量,信噪比,等等。)训练出的决策树。根据决策树的每个叶上的训练数据计算一个误差概率。在Breiman等人,"分级和回归树",Chapman&Hal,1993中描述了建立这种决策树的算法。在进行识别时,在识别期间测量所有或某些这样的特性并且针对每个字,决策树前进到一个提供某个置信级的叶子。在C.Neti,S.Roukos和E.Eide,标题为"作为语音识别中堆栈搜索参考的,基于字的置信度测量",ICASSP97,慕尼黑,德国,1997年4月这一参考文献中,描述了一个完全依赖一个IBM堆栈解码器返回的评分的方法(使用记录-相似度-实际平均增量记录-相信度,详细匹配,快速匹配)。在LVCSR会议录中,提供了另一个使用预测值通过线性回归估测置信级的方法。使用的预测值是:字延迟,语言模型评分,每个框架的平均声学评分(最优评分)和与顶端选择具有相同的字的NBEST列表分数。本实施例提供了这两个方案(通过决策树和线性预测值测量置信级)的组合以便系统地提取不仅限于语音识别的任何翻译过程中的置信级。
可以实现一个"回绕"或"重新加载"命令以便向用户回读在一个页面上遇到的所有命令。它遵循与动态释放相同的原则。更具体地说,浏览器提供一个完整的语音导航接口以便允许通过上述表格和菜单进行导航。也可以通过一个诸如IBM ViaVoice VoiceCenter的命令和控制接口(对窗口执行命令和控制)来加以实现。
基于能力的框架:与框架结构类似,CML开发者可以提供多个基于不同能力(HTML中的cfr<框架>和</框架>标签)水平的对话。
具有最低要求的表格:当然只有具有有限的可能输入集合(有限词汇和FSG,选定的菜单)的表格(或菜单或其他构件)才能被用于嵌入引擎。为了保持具有表格能力,浏览器提供至少两个其他形态:i)根据预定语法(在服务器上编辑)和词汇表进行表格填充:释放除<全局<命令之外的其它命令,ii)小应用程序捕捉音频,计算特征并且发送到由一个URL指示的服务器,iii)小应用程序向该服务器发送或从其接收原始音频。由服务器或浏览器选择表格填充方法。这要求每个加载的语法/词汇表必须包含一个有关引擎要求的描述(ii和iii需要如YO999-113P中描述的服务器/通信能力)。
会需要一个粗略确定一个指定FSG,代码转换方案以及多页面或框架方案的引擎最低要求的工具。
多态浏览器
对于多态浏览,可以在相同页面上提供HTML和CML,或者分别发送并且加以同步。标签区分将在可视浏览器(<GUI>)上展示的内容和将在多态浏览器(<M-M>)与语音浏览器(<语音>)上展示的内容。一个GUI浏览器显示每项内容,而一个多态浏览器可以有选择地显示某些项目。在下面例子中说明了这种情况:
<GUI>
</GUI>
<Speech+GUI+M-M>
</Speech+GUI+M-M>
<GUI+M-M>
<img=...>
</GUI+M-M>
<Speech>
<GUI>
</GUI><M-M>
</M-M>
<M-M+Speech>
</M-M+Speech>
换句话说,CML和HTML被保留。增加了某些动态HTML特性,功能和组合规则。
附加提供动态ML的标签(综合HTML和CML):例如当TTS读出文本时,该项目变色或一个局部背景变色。通过语音等等选择改变颜色的链接。通过语音选择识别的文本(可以选择和修改要改变的颜色)。
概括地讲,会话浏览器的引入允许统一因特网和电话(IVR),从而减少费用,扩大这种应用的覆盖范围和灵活性。体系结构使用相同的访问协议和信息结构(HTML,XML,CML和/或其他诸如WML的ML)。本发明可以被用于许多不同的业务解决方案。主要优点是易于实现,高度灵活,平台独立,使用现有基础设施,集中配置和管理,提供高安全性,低成本维护,和易于扩充/伸缩,所有这些优点均适用于任何因特网解决方案。有利的是,应用提供商只需要支持一个HW平台,因而便于维护。内容提供商可以管理相同WWW服务器的各种应用以便为大量的不同客户端(纯语音,纯GUI和语音/GUI的组合)提供服务,因而便于维护。此外,因特网技术允许自动更新网络上的所有服务器。也可以从可以通过因特网访问的任何地方集中管理访问权限。可以保持高度安全。当前体系结构可以被扩展到除普通电话之外的其他客户端,例如GSM终端。从维护一个诸如个人银行的服务所需的投资的角度看,这是非常吸引人的。
另外,当只使用HTTP协议时,浏览器(会话/GUI)和WWW服务器之间的网络传输被最小化,网络被用于成批发送完整的重放。例如,当输入帐号和社会安全号时,只有浏览器/会话浏览器活跃,而网络是空闲的。浏览器有足够的智能在查询服务器之前发现许多错误。通过CVM服务或下载的小应用程序可以进行纠错和本地歧义消除。在两种情况下使用相同的协议,即HTTP协议向WWW服务器发送信息。总是使用相同协议回送重放信息并且由浏览器负责通过正确的表格传送给用户。建议的体系结构允许这些应用的设计师使用小应用程序,小程序(Java或其他会话过程,尤其是在使用CVM编写浏览器的情况下),这些程序在浏览器中被用来预处理输入和输出信息。其中还进一步增加了应用的灵活性,此外还减少了网络的负载。对于会话浏览器,我们可以容易地设想到,会发送一个常规"文本到语音"小应用程序,因而所需带宽会相同或小于图形方式。具体地,可以合成另一种语言的提示并且识别其他语言的输入。
当然,本发明为当前电话应用,通常是IVR应用提供了这些优点。电话号码最好被用于计费。因特网的延迟不会为IVR带来任何问题。不管怎样,可以使用类似Qos(服务质量)和RSVP(资源保留协议)的服务减少延迟。通过因特网连接到其他服务器(IVR)的能力进一步扩充了能力。服务器可以位于一个计算机网络上的任何地方,其中可以在该网络上的任何地方访问所需的语音识别系统。具有TCP/IP协议的分组交换技术的资源利用率比普通电话连接更好。可以根据使用的信道的质量进行计费。交换分组网络比较便宜并且传递较小的数据,因而需要较低的带宽。这样会以更低的费用提供服务。这个概念为任何人提供了建立一个服务器并且把信息放在网上的机会。
虽然这里已经针对附图描述了说明性的实施例,但应当理解,本系统和方法不仅限于这些详细的实施例,并且本领域的技术人员在不偏离本发明的范围和宗旨的前提下可以进行各种其他的改变和修改。所有这样的改变和修改确立被指定包含在如所附权利要求书所定义的本发明的范围内。

Claims (22)

1.一个会话浏览系统,其中包括:
一个会话浏览器,其中包括:
一个把输入命令转换成导航请求的命令和控制接口,上述输入命令包括语音命令;和
一个分析并解释CML文件的CML(会话标记语言)处理器,CML文件包括表示一个被提供给用户的会话用户界面的元信息;
一个对输入命令进行解码以由命令和控制接口解释并且对CML处理器提供的元信息进行解码以产生合成音频输出的会话引擎;和
一个向内容服务器发送导航请求并且根据导航请求从内容服务器接收CML文件的通信堆栈。
2.如权利要求1所述的会话浏览系统,其中输入命令包括多态输入。
3.如权利要求1所述的会话浏览系统,其中还包括一个(CVM)会话虚拟机,其中会话浏览器在CVM的顶端运行并且通过CVM向会话引擎请求会话服务。
4.如权利要求3所述的会话浏览系统,其中会话浏览系统在一个客户端设备中运行,并且通信堆栈包括在内容服务器上登记客户端设备的会话能力的会话协议。
5.如权利要求3所述的会话浏览系统,其中会话浏览器,CVM和会话引擎中的一个被分布在一个网络上。
6.如权利要求1所述的会话浏览系统,其中通信堆栈实现标准网络协议以便发送导航请求和接收CML文件。
7.如权利要求6所述的会话浏览系统,其中标准网络协议包括TCP/IP(传输控制协议/网际协议),HTTP(超文本传输协议),WAP(无线应用协议),VoIP(互联网语音协议)及其组合中的一种。
8.如权利要求1所述的会话浏览系统,其中还包括一个把内容服务器的传统信息格式转换成CML文件的代码转换器。
9.如权利要求8所述的会话浏览系统,其中代码转换器访问并解释一个应用的逻辑信息以便通过会话浏览器产生一个与用户之间的对话。
10.如权利要求8所述的会话浏览系统,其中代码转换器运行在会话浏览器,会话代理服务器,内容服务器中的一个上,或者分布在它们中间。
11.如权利要求8所述的会话浏览系统,其中代码转换器根据运行会话浏览系统的机器的会话能力产生一个定制CML文件。
12.如权利要求1所述的会话浏览系统,其中CML文件包括以下单元中的一个:(1)一个组合其他CML单元的页面单元;(2)一个指定会话浏览器的口语输出的主体单元(3)一个包括被说给一个用户的介绍性文本和一列选项的菜单单元,其中各个选项具有提示文本并且与一个目标地址相关,在选择对应选项的情况下上述地址指定一个CML单元;(4)一个输入至少一个信息项和一个目标地址以便发送至少一个信息项的表格单元;和(5)上述单元的组合。
13.如权利要求12所述的会话浏览系统,其中一个目标地址包括一个URL(统一资源定位符)和一个套接字地址中的一个。
14.一个提供会话浏览的方法,其中包括的步骤有:
接收一个输入命令,该输入命令包括一个语音命令;
用多个会话引擎中的至少一个解码输入命令;
根据解码的输入命令产生一个检索CML(会话标记语言)的导航请求,CML文件包括表示一个被提供给用户的会话用户界面的元信息;
使用一个标准网络协议发送导航请求并且访问所请求CML文件;和
分析和解释包括CML文件的元信息以便提供CML文件的信息内容的一个音频呈现。
15.如权利要求14所述的方法,其中还包括的步骤有:
在一个从其访问到CML文件的实体上登记会话能力;和
根据登记的能力定制CML文件。
16.如权利要求14所述的方法,其中还包括的步骤有:
为访问一个包括传统信息格式的文件产生一个导航请求;和
把传统信息格式转换成一个CML文件。
17.如权利要求16所述的方法,其中由一个与内容服务器相关的代码转换代理执行转换步骤,上述文件是从该内容服务器访问到的。
18.如权利要求14所述的方法,其中还包括访问并解释一个与CML文件相关的应用的逻辑信息以便产生一个对话的步骤。
19.一个实际包含一个指令程序的机器可读程序存储设备,上述指令程序可以被机器用来执行提供会话浏览的方法步骤,该方法步骤包括:
接收一个输入命令,该输入命令包括一个语音命令;
用多个会话引擎中的至少一个解码输入命令;
根据解码的输入命令产生一个检索CML(会话标记语言)的导航请求,CML文件包括表示一个被提供给用户的会话用户界面的元信息;
使用一个标准网络协议发送导航请求并且访问所请求CML文件;和
分析和解释包括CML文件的元信息以便提供CML文件的信息内容的一个音频呈现。
20.如权利要求19所述的程序存储设备,其中还包括执行以下步骤的指令:
在一个从其访问到CML文件的实体上登记会话能力,使得该实体可以根据登记的能力定制CML文件。
21.如权利要求19所述的程序存储设备,其中还包括执行以下步骤的指令:
为访问一个包括传统信息格式的文件产生一个导航请求;和
把传统信息格式转换成一个CML文件。
22.如权利要求19所述的程序存储设备,其中还包括执行访问并解释一个与CML文件相关的应用的逻辑信息以便产生一个对话的步骤的指令。
CNB998116076A 1998-10-02 1999-10-01 会话浏览器和会话系统 Expired - Lifetime CN100472500C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US10295798P 1998-10-02 1998-10-02
US60/102,957 1998-10-02
US11759599P 1999-01-27 1999-01-27
US60/117,595 1999-01-27

Publications (2)

Publication Number Publication Date
CN1342290A true CN1342290A (zh) 2002-03-27
CN100472500C CN100472500C (zh) 2009-03-25

Family

ID=26799924

Family Applications (4)

Application Number Title Priority Date Filing Date
CNB998116181A Expired - Fee Related CN1171200C (zh) 1998-10-02 1999-10-01 通过会话虚拟机进行会话式计算的系统和方法
CNB998116173A Expired - Lifetime CN1151488C (zh) 1998-10-02 1999-10-01 通过一般分层对象进行有效语音导航的结构框架
CNB998116076A Expired - Lifetime CN100472500C (zh) 1998-10-02 1999-10-01 会话浏览器和会话系统
CNB998116165A Expired - Lifetime CN1160700C (zh) 1998-10-02 1999-10-01 提供网络协同会话服务的系统和方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CNB998116181A Expired - Fee Related CN1171200C (zh) 1998-10-02 1999-10-01 通过会话虚拟机进行会话式计算的系统和方法
CNB998116173A Expired - Lifetime CN1151488C (zh) 1998-10-02 1999-10-01 通过一般分层对象进行有效语音导航的结构框架

Family Applications After (1)

Application Number Title Priority Date Filing Date
CNB998116165A Expired - Lifetime CN1160700C (zh) 1998-10-02 1999-10-01 提供网络协同会话服务的系统和方法

Country Status (10)

Country Link
US (4) US7137126B1 (zh)
EP (4) EP1125277A4 (zh)
JP (4) JP3703082B2 (zh)
KR (4) KR100430953B1 (zh)
CN (4) CN1171200C (zh)
AT (1) ATE383640T1 (zh)
CA (4) CA2345660C (zh)
DE (1) DE69937962T2 (zh)
IL (5) IL142364A0 (zh)
WO (4) WO2000021232A2 (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100382083C (zh) * 2005-12-23 2008-04-16 威盛电子股份有限公司 网络会话管理方法及系统
CN101292282A (zh) * 2005-08-29 2008-10-22 沃伊斯博克斯科技公司 支持自然语言人机交互的移动系统和方法
CN101533409B (zh) * 2009-04-23 2011-03-02 何海群 一种网络浏览器系统和控制方法
CN102037710A (zh) * 2008-05-19 2011-04-27 思杰系统有限公司 用于远程处理多媒体插件调用的方法和系统
CN101621480B (zh) * 2008-06-30 2012-03-28 国际商业机器公司 呈现服务器和在其中使用的xsl文件处理方法
CN103020278A (zh) * 2012-12-28 2013-04-03 深圳创维数字技术股份有限公司 一种网页的控制方法及浏览器
CN103098023A (zh) * 2010-04-18 2013-05-08 Voxeo研究有限公司 用于通话控制和媒体控制的统一框架和方法
CN101689165B (zh) * 2007-06-27 2013-07-24 微软公司 在虚拟环境中运行附加组件
CN103279875A (zh) * 2004-12-15 2013-09-04 三星电子株式会社 对地区中的内容进行全球共享和交易的方法和系统
CN103326876A (zh) * 2012-03-22 2013-09-25 纬创资通股份有限公司 服务器系统及其管理方法
CN103534697A (zh) * 2011-05-13 2014-01-22 微软公司 使用web数据训练口述对话系统中的统计对话管理器
WO2014019467A1 (en) * 2012-07-30 2014-02-06 Tencent Technology (Shenzhen) Company Limited A web browser operation method and system
CN104487932A (zh) * 2012-05-07 2015-04-01 思杰系统有限公司 用于远程应用和桌面的语音识别支持
US9485330B2 (en) 2012-07-30 2016-11-01 Tencent Technology (Shenzhen) Company Limited Web browser operation method and system
CN103326876B (zh) * 2012-03-22 2016-11-30 纬创资通股份有限公司 服务器系统及其管理方法
US9558176B2 (en) 2013-12-06 2017-01-31 Microsoft Technology Licensing, Llc Discriminating between natural language and keyword language items
CN106844453A (zh) * 2016-12-20 2017-06-13 江苏瀚远科技股份有限公司 一种电子文件格式转换方法
CN107408115A (zh) * 2015-01-13 2017-11-28 微软技术许可有限责任公司 web站点访问控制
CN107767856A (zh) * 2017-11-07 2018-03-06 中国银行股份有限公司 一种语音处理方法、装置及服务器
CN107808672A (zh) * 2016-09-07 2018-03-16 三星电子株式会社 用于对外部设备进行控制的服务器和方法
CN103824177B (zh) * 2005-10-05 2018-03-20 邓白氏公司 用于多个产品的模块化的基于Web的ASP应用
CN107851217A (zh) * 2015-05-27 2018-03-27 奥瑞恩实验室 可穿戴个人通信节点的智能代理特征
CN108614773A (zh) * 2018-04-24 2018-10-02 广州链创信息科技有限公司 一种手机小程序用展示发布体验系统
CN110110317A (zh) * 2017-12-22 2019-08-09 声音猎手公司 适合于交互式体验的自然语言语法
CN110149806A (zh) * 2017-12-08 2019-08-20 谷歌有限责任公司 堆栈数据结构的数字助理处理
CN110263327A (zh) * 2013-06-21 2019-09-20 微软技术许可有限责任公司 构建会话理解系统
CN110569337A (zh) * 2018-06-06 2019-12-13 国际商业机器公司 支持对话中意图的组合
CN110647736A (zh) * 2019-08-13 2020-01-03 平安科技(深圳)有限公司 插件式坐席系统登录方法、装置、计算机设备及存储介质
CN112270925A (zh) * 2014-09-14 2021-01-26 谷歌有限责任公司 用于创建可定制对话系统引擎的平台
CN112527435A (zh) * 2020-12-08 2021-03-19 建信金融科技有限责任公司 浏览器操作方法及系统
CN116450383A (zh) * 2023-06-19 2023-07-18 合肥景云软件工程有限责任公司 一种通过网页调用操作系统的方法
CN116719649A (zh) * 2022-09-01 2023-09-08 荣耀终端有限公司 会话通知的提示方法、电子设备及可读存储介质
US11900928B2 (en) 2017-12-23 2024-02-13 Soundhound Ai Ip, Llc System and method for adapted interactive experiences

Families Citing this family (671)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
WO2000021232A2 (en) * 1998-10-02 2000-04-13 International Business Machines Corporation Conversational browser and conversational systems
US6163794A (en) * 1998-10-23 2000-12-19 General Magic Network system extensible by users
US6886047B2 (en) * 1998-11-13 2005-04-26 Jp Morgan Chase Bank System and method for managing information retrievals for integrated digital and analog archives on a global basis
FR2787902B1 (fr) * 1998-12-23 2004-07-30 France Telecom Modele et procede d'implementation d'un agent rationnel dialoguant, serveur et systeme multi-agent pour la mise en oeuvre
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US7330815B1 (en) * 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
EP1107522B1 (en) * 1999-12-06 2010-06-16 Telefonaktiebolaget LM Ericsson (publ) Intelligent piconet forming
JP2001188784A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
US20010043234A1 (en) * 2000-01-03 2001-11-22 Mallik Kotamarti Incorporating non-native user interface mechanisms into a user interface
CA2399720C (en) * 2000-02-11 2013-07-09 Convergent Networks, Inc. Service level executable environment for integrated pstn and ip networks and call processing language therefor
WO2003050799A1 (en) * 2001-12-12 2003-06-19 International Business Machines Corporation Method and system for non-intrusive speaker verification using behavior models
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
WO2001086896A1 (en) * 2000-05-05 2001-11-15 James Ewing A method and a system relating to protocol communications within a pre-existing www server framework
US6769010B1 (en) * 2000-05-11 2004-07-27 Howzone.Com Inc. Apparatus for distributing information over a network-based environment, method of distributing information to users, and method for associating content objects with a database wherein the content objects are accessible over a network communication medium by a user
FR2809204B1 (fr) * 2000-05-17 2003-09-19 Bull Sa Interface applicative multiprosseur, ne necessitant pas l'utilisation d'un systeme d'exploitation multiprocesseur
US7039951B1 (en) 2000-06-06 2006-05-02 International Business Machines Corporation System and method for confidence based incremental access authentication
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
US6604050B2 (en) * 2000-06-16 2003-08-05 Bayer Corporation System, method and biosensor apparatus for data communications with a personal data assistant
US6654722B1 (en) * 2000-06-19 2003-11-25 International Business Machines Corporation Voice over IP protocol based speech system
US6788667B1 (en) * 2000-06-20 2004-09-07 Nokia Corporation Wireless access to wired network audio services using mobile voice call
WO2002005153A2 (en) * 2000-07-07 2002-01-17 2020Me Holdings Ltd. System, method and medium for facilitating transactions over a network
US7139709B2 (en) 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
DE60125597T2 (de) * 2000-08-31 2007-05-03 Hitachi, Ltd. Vorrichtung für die Dienstleistungsvermittlung
US6785651B1 (en) 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
US20020059072A1 (en) * 2000-10-16 2002-05-16 Nasreen Quibria Method of and system for providing adaptive respondent training in a speech recognition application
US7594030B2 (en) 2000-11-22 2009-09-22 Microsoft Corporation Locator and tracking service for peer to peer resources
US7072982B2 (en) 2000-11-22 2006-07-04 Microsoft Corporation Universal naming scheme for peer to peer resources
EP1211588B1 (de) * 2000-12-04 2005-09-21 Siemens Aktiengesellschaft Verfahren zum Nutzen einer Datenverarbeitungsanlage abhängig von einer Berechtigung, zugehörige Datenverarbeitungsanlage und zugehöriges Programm
US7016847B1 (en) 2000-12-08 2006-03-21 Ben Franklin Patent Holdings L.L.C. Open architecture for a voice user interface
GB0030958D0 (en) * 2000-12-19 2001-01-31 Smart Card Solutions Ltd Compartmentalized micro-controller operating system architecture
DE10064661A1 (de) * 2000-12-22 2002-07-11 Siemens Ag Kommunikationsanordnung und Verfahren für Kommunikationssysteme mit interaktiver Sprachfunktion
JP3322262B2 (ja) 2000-12-22 2002-09-09 日本電気株式会社 無線携帯端末通信システム
FI20002860A (fi) * 2000-12-27 2002-06-28 Nokia Corp Laiteroolit ja pikoverkkoyhteydet
US6925645B2 (en) * 2000-12-29 2005-08-02 Webex Communications, Inc. Fault tolerant server architecture for collaborative computing
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7461148B1 (en) * 2001-02-16 2008-12-02 Swsoft Holdings, Ltd. Virtual private server with isolation of system components
EP1233590A1 (en) 2001-02-19 2002-08-21 Sun Microsystems, Inc. Content provider for a computer system
US7606909B1 (en) * 2001-02-20 2009-10-20 Michael Ely Method and apparatus for a business contact center
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
KR100549482B1 (ko) 2001-03-22 2006-02-08 캐논 가부시끼가이샤 정보 처리 장치, 정보처리 방법, 및 프로그램을 기억하는 컴퓨터 판독가능 기억 매체
US7174514B2 (en) * 2001-03-28 2007-02-06 Siebel Systems, Inc. Engine to present a user interface based on a logical structure, such as one for a customer relationship management system, across a web site
FR2822994B1 (fr) * 2001-03-30 2004-05-21 Bouygues Telecom Sa Assistance au conducteur d'un vehicule automobile
US6996531B2 (en) * 2001-03-30 2006-02-07 Comverse Ltd. Automated database assistance using a telephone for a speech based or text based multimedia communication mode
CA2344904A1 (en) * 2001-04-23 2002-10-23 Bruno Richard Preiss Interactive voice response system and method
US7698228B2 (en) 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7020841B2 (en) 2001-06-07 2006-03-28 International Business Machines Corporation System and method for generating and presenting multi-modal applications from intent-based markup scripts
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US7647597B2 (en) * 2001-06-28 2010-01-12 Microsoft Corporation Transparent and sub-classable proxies
US7606712B1 (en) * 2001-06-28 2009-10-20 At&T Intellectual Property Ii, L.P. Speech recognition interface for voice actuation of legacy systems
US6839896B2 (en) * 2001-06-29 2005-01-04 International Business Machines Corporation System and method for providing dialog management and arbitration in a multi-modal environment
JP3997459B2 (ja) 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US7233655B2 (en) 2001-10-03 2007-06-19 Accenture Global Services Gmbh Multi-modal callback
US7441016B2 (en) 2001-10-03 2008-10-21 Accenture Global Services Gmbh Service authorizer
DE60213663T2 (de) * 2001-10-03 2007-10-18 Accenture Global Services Gmbh Mehrfachmodales nachrichtenübertragungsrückrufsystem mit dienstauthorisierer und virtueller kundendatenbank
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
US7472091B2 (en) 2001-10-03 2008-12-30 Accenture Global Services Gmbh Virtual customer database
EP1708470B1 (en) * 2001-10-03 2012-05-16 Accenture Global Services Limited Multi-modal callback system
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7222073B2 (en) 2001-10-24 2007-05-22 Agiletv Corporation System and method for speech activated navigation
US7133830B1 (en) 2001-11-13 2006-11-07 Sr2, Inc. System and method for supporting platform independent speech applications
US8498871B2 (en) * 2001-11-27 2013-07-30 Advanced Voice Recognition Systems, Inc. Dynamic speech recognition and transcription among users having heterogeneous protocols
US20030101054A1 (en) * 2001-11-27 2003-05-29 Ncc, Llc Integrated system and method for electronic speech recognition and transcription
GB2388209C (en) 2001-12-20 2005-08-23 Canon Kk Control apparatus
US7302394B1 (en) * 2001-12-20 2007-11-27 Ianywhere Solutions, Inc. Front-end device independence for natural interaction platform
WO2003063137A1 (en) * 2002-01-22 2003-07-31 V-Enable, Inc. Multi-modal information delivery system
US6990639B2 (en) 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
US20030187944A1 (en) * 2002-02-27 2003-10-02 Greg Johnson System and method for concurrent multimodal communication using concurrent multimodal tags
US6807529B2 (en) * 2002-02-27 2004-10-19 Motorola, Inc. System and method for concurrent multimodal communication
US6704396B2 (en) 2002-02-27 2004-03-09 Sbc Technology Resources, Inc. Multi-modal communications method
GB0204768D0 (en) * 2002-02-28 2002-04-17 Mitel Knowledge Corp Bimodal feature access for web applications
FR2840484B1 (fr) * 2002-05-28 2004-09-03 France Telecom Protocole de communication entre un module d'application vocale et une plate-forme vocale dans un serveur vocal
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7822609B2 (en) 2002-06-14 2010-10-26 Nuance Communications, Inc. Voice browser with integrated TCAP and ISUP interfaces
KR20040002031A (ko) * 2002-06-29 2004-01-07 주식회사 케이티 다수의 응용프로그램들간의 음성인식엔진 공유 방법
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
AU2002345308A1 (en) * 2002-07-17 2004-02-02 Nokia Corporation Mobile device having voice user interface, and a methode for testing the compatibility of an application with the mobile device
US20040054757A1 (en) * 2002-09-14 2004-03-18 Akinobu Ueda System for remote control of computer resources from embedded handheld devices
US7519534B2 (en) 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
US8321427B2 (en) 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
US7987091B2 (en) * 2002-12-02 2011-07-26 Sony Corporation Dialog control device and method, and robot device
KR20040051285A (ko) * 2002-12-12 2004-06-18 삼성전자주식회사 애플릿이 링크된 마크업 문서의 디스플레이 방법 및 그시스템
US7822612B1 (en) * 2003-01-03 2010-10-26 Verizon Laboratories Inc. Methods of processing a voice command from a caller
US7673304B2 (en) 2003-02-18 2010-03-02 Microsoft Corporation Multithreaded kernel for graphics processing unit
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US7249025B2 (en) * 2003-05-09 2007-07-24 Matsushita Electric Industrial Co., Ltd. Portable device for enhanced security and accessibility
US9202467B2 (en) * 2003-06-06 2015-12-01 The Trustees Of Columbia University In The City Of New York System and method for voice activating web pages
CA2529395A1 (en) 2003-06-26 2005-01-13 Agiletv Corporation Zero-search, zero-memory vector quantization
US7313528B1 (en) * 2003-07-31 2007-12-25 Sprint Communications Company L.P. Distributed network based message processing system for text-to-speech streaming data
US7383302B2 (en) * 2003-09-15 2008-06-03 International Business Machines Corporation Method and system for providing a common collaboration framework accessible from within multiple applications
US7428273B2 (en) 2003-09-18 2008-09-23 Promptu Systems Corporation Method and apparatus for efficient preamble detection in digital data receivers
US7249348B2 (en) * 2003-10-21 2007-07-24 Hewlett-Packard Development Company, L.P. Non-interfering status inquiry for user threads
US7199802B2 (en) * 2003-10-24 2007-04-03 Microsoft Corporation Multiple-mode window presentation system and process
US7856632B2 (en) * 2004-01-29 2010-12-21 Klingman Edwin E iMEM ASCII architecture for executing system operators and processing data operators
US20050229185A1 (en) * 2004-02-20 2005-10-13 Stoops Daniel S Method and system for navigating applications
WO2005094098A1 (en) * 2004-02-25 2005-10-06 Sk Telecom Co., Ltd. Method and mobile terminal for implementing vector animation interactive service on mobile phone browser
US7925510B2 (en) * 2004-04-28 2011-04-12 Nuance Communications, Inc. Componentized voice server with selectable internal and external speech detectors
US7596788B1 (en) * 2004-05-11 2009-09-29 Platform Computing Corporation Support of non-trivial scheduling policies along with topological properties
US7730482B2 (en) * 2004-06-08 2010-06-01 Covia Labs, Inc. Method and system for customized programmatic dynamic creation of interoperability content
US7814502B2 (en) * 2004-06-14 2010-10-12 Nokia Corporation Shared landmark user interfaces
KR100627228B1 (ko) * 2004-07-01 2006-09-25 에스케이 텔레콤주식회사 기업용 무선 어플리케이션 서비스를 위한 전용 브라우저시스템 및 그 운영방법
US7398471B1 (en) * 2004-07-29 2008-07-08 Emc Corporation System and method for the administration of resource groups
FI20041075A0 (fi) 2004-08-12 2004-08-12 Nokia Corp Tiedon lähettäminen ryhmälle vastaanottolaitteita
US8744852B1 (en) * 2004-10-01 2014-06-03 Apple Inc. Spoken interfaces
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications
US8706501B2 (en) * 2004-12-09 2014-04-22 Nuance Communications, Inc. Method and system for sharing speech processing resources over a communication network
US7640162B2 (en) * 2004-12-14 2009-12-29 Microsoft Corporation Semantic canvas
US7987244B1 (en) * 2004-12-30 2011-07-26 At&T Intellectual Property Ii, L.P. Network repository for voice fonts
KR100725719B1 (ko) * 2005-02-04 2007-06-08 주식회사 유진로봇 음성과 태스크 오브젝트 기반의 대화시스템
US7490042B2 (en) * 2005-03-29 2009-02-10 International Business Machines Corporation Methods and apparatus for adapting output speech in accordance with context of communication
US9111253B2 (en) * 2005-04-22 2015-08-18 Sap Se Groupware time tracking
US20060271520A1 (en) * 2005-05-27 2006-11-30 Ragan Gene Z Content-based implicit search query
JP5140580B2 (ja) 2005-06-13 2013-02-06 インテリジェント メカトロニック システムズ インコーポレイテッド 車両没入型通信システム
JP4667138B2 (ja) 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
US8090084B2 (en) * 2005-06-30 2012-01-03 At&T Intellectual Property Ii, L.P. Automated call router for business directory using the world wide web
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US9009046B1 (en) * 2005-09-27 2015-04-14 At&T Intellectual Property Ii, L.P. System and method for disambiguating multiple intents in a natural language dialog system
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US8041800B2 (en) * 2005-11-08 2011-10-18 International Business Machines Corporation Automatic orchestration of dynamic multiple party, multiple media communications
US20070124142A1 (en) * 2005-11-25 2007-05-31 Mukherjee Santosh K Voice enabled knowledge system
US9215748B2 (en) 2005-11-28 2015-12-15 Canon Kabushiki Kaisha Communication apparatus, control method for communication apparatus, and communication system
JP4829600B2 (ja) * 2005-11-28 2011-12-07 キヤノン株式会社 通信装置及び通信装置の制御方法
JP2007164732A (ja) * 2005-12-16 2007-06-28 Crescent:Kk コンピュータ実行可能なプログラム、および情報処理装置
DE102005061365A1 (de) * 2005-12-21 2007-06-28 Siemens Ag Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem
US7840964B2 (en) * 2005-12-30 2010-11-23 Intel Corporation Mechanism to transition control between components in a virtual machine environment
KR101204408B1 (ko) * 2006-01-19 2012-11-27 삼성전자주식회사 유니폼 객체 모델을 이용한 유비쿼터스 서비스/디바이스테스트 방법 및 장치
US20070180365A1 (en) * 2006-01-27 2007-08-02 Ashok Mitter Khosla Automated process and system for converting a flowchart into a speech mark-up language
US8078990B2 (en) 2006-02-01 2011-12-13 Research In Motion Limited Secure device sharing
US20070225983A1 (en) * 2006-03-23 2007-09-27 Theodore Maringo Worldwide time device
KR101264318B1 (ko) * 2006-07-07 2013-05-22 삼성전자주식회사 네트워크 환경에서의 서비스 메뉴 및 서비스 제공방법 및그 서비스 제공장치
KR100807307B1 (ko) * 2006-07-10 2008-02-28 한국전자통신연구원 대화형 음성 인터페이스 시스템 및 그 응답 방법
US9976865B2 (en) 2006-07-28 2018-05-22 Ridetones, Inc. Vehicle communication system with navigation
US20100030557A1 (en) 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
US8589869B2 (en) * 2006-09-07 2013-11-19 Wolfram Alpha Llc Methods and systems for determining a formula
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
KR100832534B1 (ko) * 2006-09-28 2008-05-27 한국전자통신연구원 음성 인식을 통한 컨텐츠 정보 서비스 제공 장치 및 그방법
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8478250B2 (en) 2007-07-30 2013-07-02 Bindu Rama Rao Interactive media management server
US8700014B2 (en) 2006-11-22 2014-04-15 Bindu Rama Rao Audio guided system for providing guidance to user of mobile device on multi-step activities
US11256386B2 (en) 2006-11-22 2022-02-22 Qualtrics, Llc Media management system supporting a plurality of mobile devices
US10803474B2 (en) * 2006-11-22 2020-10-13 Qualtrics, Llc System for creating and distributing interactive advertisements to mobile devices
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US20080140390A1 (en) * 2006-12-11 2008-06-12 Motorola, Inc. Solution for sharing speech processing resources in a multitasking environment
CA2572116A1 (en) * 2006-12-27 2008-06-27 Ibm Canada Limited - Ibm Canada Limitee System and method for processing multi-modal communication within a workgroup
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8131549B2 (en) * 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
AU2012244080B2 (en) * 2007-05-24 2014-04-17 Microsoft Technology Licensing, Llc Personality-based Device
US9794348B2 (en) 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
US20090018818A1 (en) * 2007-07-10 2009-01-15 Aibelive Co., Ltd. Operating device for natural language input
US9264483B2 (en) 2007-07-18 2016-02-16 Hammond Development International, Inc. Method and system for enabling a communication device to remotely execute an application
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8472934B2 (en) * 2007-11-28 2013-06-25 Nokia Corporation Portable apparatus, method and user interface
JP2010020273A (ja) * 2007-12-07 2010-01-28 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9703784B2 (en) * 2007-12-24 2017-07-11 Sandisk Il Ltd. Mobile device and method for concurrently processing content according to multiple playlists
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8086455B2 (en) * 2008-01-09 2011-12-27 Microsoft Corporation Model development authoring, generation and execution based on data and processor dependencies
US20090198496A1 (en) * 2008-01-31 2009-08-06 Matthias Denecke Aspect oriented programmable dialogue manager and apparatus operated thereby
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
AU2009227944B2 (en) * 2008-03-25 2014-09-11 E-Lane Systems Inc. Multi-participant, mixed-initiative voice interaction system
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
WO2009149219A2 (en) * 2008-06-03 2009-12-10 Whirlpool Corporation Appliance development toolkit
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US8838075B2 (en) 2008-06-19 2014-09-16 Intelligent Mechatronic Systems Inc. Communication system with voice mail access and call by spelling functionality
US20090328062A1 (en) * 2008-06-25 2009-12-31 Microsoft Corporation Scalable and extensible communication framework
US9652023B2 (en) 2008-07-24 2017-05-16 Intelligent Mechatronic Systems Inc. Power management system
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8959053B2 (en) * 2008-08-13 2015-02-17 Alcatel Lucent Configuration file framework to support high availability schema based upon asynchronous checkpointing
JP5897240B2 (ja) * 2008-08-20 2016-03-30 株式会社ユニバーサルエンターテインメント 顧客対応システム、並びに会話サーバ
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8121842B2 (en) 2008-12-12 2012-02-21 Microsoft Corporation Audio output of a document from mobile device
US8914417B2 (en) 2009-01-07 2014-12-16 International Business Machines Corporation Apparatus, system, and method for maintaining a context stack
TW201027378A (en) * 2009-01-08 2010-07-16 Realtek Semiconductor Corp Virtual platform and related simulation method
US20100324895A1 (en) * 2009-01-15 2010-12-23 K-Nfb Reading Technology, Inc. Synchronization for document narration
WO2010084497A1 (en) * 2009-01-26 2010-07-29 Tomer London System and method for providing visual content and services to wireless terminal devices in response to a received voice call
US9529573B2 (en) * 2009-01-28 2016-12-27 Microsoft Technology Licensing, Llc Graphical user interface generation through use of a binary file
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US8601015B1 (en) 2009-05-15 2013-12-03 Wolfram Alpha Llc Dynamic example generation for queries
US8788524B1 (en) 2009-05-15 2014-07-22 Wolfram Alpha Llc Method and system for responding to queries in an imprecise syntax
WO2010135837A1 (en) * 2009-05-28 2010-12-02 Intelligent Mechatronic Systems Inc Communication system with personal information management and remote vehicle monitoring and control features
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9002713B2 (en) 2009-06-09 2015-04-07 At&T Intellectual Property I, L.P. System and method for speech personalization by need
US8442189B2 (en) * 2009-06-22 2013-05-14 Avaya Inc. Unified communications appliance
US9055151B2 (en) * 2009-06-22 2015-06-09 Avaya Inc. Method to set the flag as replied or forwarded to all replied or forwarded voice messages
WO2010148518A1 (en) 2009-06-27 2010-12-29 Intelligent Mechatronic Systems Vehicle internet radio interface
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110125733A1 (en) * 2009-11-25 2011-05-26 Fish Nathan J Quick access utility
US9978272B2 (en) 2009-11-25 2018-05-22 Ridetones, Inc Vehicle to vehicle chatting and communication system
US20110144976A1 (en) * 2009-12-10 2011-06-16 Arun Jain Application user interface system and method
US8868427B2 (en) * 2009-12-11 2014-10-21 General Motors Llc System and method for updating information in electronic calendars
GB0922608D0 (en) * 2009-12-23 2010-02-10 Vratskides Alexios Message optimization
EP3091535B1 (en) * 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
JP2011139303A (ja) * 2009-12-28 2011-07-14 Nec Corp 通信システム、制御装置、通信制御方法、およびプログラム
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US9665620B2 (en) * 2010-01-15 2017-05-30 Ab Initio Technology Llc Managing data queries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8645914B2 (en) * 2010-01-22 2014-02-04 AgentSheets, Inc. Conversational programming
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8433828B2 (en) 2010-02-26 2013-04-30 Apple Inc. Accessory protocol for touch screen device accessibility
US8554948B2 (en) * 2010-03-03 2013-10-08 At&T Intellectual Property I, L.P. Methods, systems and computer program products for identifying traffic on the internet using communities of interest
JP5560814B2 (ja) * 2010-03-24 2014-07-30 日本電気株式会社 負荷分散システム、負荷分散サーバおよび負荷分散方法
US8776091B2 (en) * 2010-04-30 2014-07-08 Microsoft Corporation Reducing feedback latency
US8484015B1 (en) 2010-05-14 2013-07-09 Wolfram Alpha Llc Entity pages
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8352908B2 (en) 2010-06-28 2013-01-08 International Business Machines Corporation Multi-modal conversion tool for form-type applications
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9246914B2 (en) * 2010-07-16 2016-01-26 Nokia Technologies Oy Method and apparatus for processing biometric information using distributed computation
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8812298B1 (en) 2010-07-28 2014-08-19 Wolfram Alpha Llc Macro replacement of natural language input
US8775618B2 (en) * 2010-08-02 2014-07-08 Ebay Inc. Application platform with flexible permissioning
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8688435B2 (en) * 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US20120173242A1 (en) * 2010-12-30 2012-07-05 Samsung Electronics Co., Ltd. System and method for exchange of scribble data between gsm devices along with voice
US9183843B2 (en) 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9953653B2 (en) 2011-01-07 2018-04-24 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9542657B2 (en) * 2011-02-23 2017-01-10 Avaya Inc. Method and system for optimizing contact center performance
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US8171137B1 (en) * 2011-05-09 2012-05-01 Google Inc. Transferring application state across devices
US20120317492A1 (en) * 2011-05-27 2012-12-13 Telefon Projekt LLC Providing Interactive and Personalized Multimedia Content from Remote Servers
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US9069814B2 (en) 2011-07-27 2015-06-30 Wolfram Alpha Llc Method and system for using natural language to generate widgets
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8645978B2 (en) * 2011-09-02 2014-02-04 Compuverde Ab Method for data maintenance
US9734252B2 (en) 2011-09-08 2017-08-15 Wolfram Alpha Llc Method and system for analyzing data using a query answering system
US8645532B2 (en) * 2011-09-13 2014-02-04 BlueStripe Software, Inc. Methods and computer program products for monitoring the contents of network traffic in a network device
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9851950B2 (en) 2011-11-15 2017-12-26 Wolfram Alpha Llc Programming in a precise syntax using natural language
US8595016B2 (en) * 2011-12-23 2013-11-26 Angle, Llc Accessing content using a source-specific content-adaptable dialogue
KR101962126B1 (ko) * 2012-02-24 2019-03-26 엘지전자 주식회사 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법
CN103295575B (zh) * 2012-02-27 2019-01-25 北京三星通信技术研究有限公司 一种语音识别方法和客户端
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20240046928A1 (en) * 2012-04-13 2024-02-08 View, Inc. Controlling optically-switchable devices
US20130304536A1 (en) * 2012-05-10 2013-11-14 Ebay, Inc. Harvest Customer Tracking Information
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10395270B2 (en) 2012-05-17 2019-08-27 Persado Intellectual Property Limited System and method for recommending a grammar for a message campaign used by a message optimization system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US9495129B2 (en) * 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140006318A1 (en) * 2012-06-29 2014-01-02 Poe XING Collecting, discovering, and/or sharing media objects
US8554559B1 (en) * 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9710475B1 (en) 2012-07-16 2017-07-18 Tintri Inc. Synchronization of data
KR102197248B1 (ko) * 2012-07-19 2020-12-31 글랜스 네트웍스, 인크 다른 형태의 정보 공유를 통한 코브라우징의 통합
US9424233B2 (en) * 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9378073B2 (en) * 2012-08-14 2016-06-28 International Business Machines Corporation Remote procedure call for a distributed system
US9384736B2 (en) * 2012-08-21 2016-07-05 Nuance Communications, Inc. Method to provide incremental UI response based on multiple asynchronous evidence about user input
US9405424B2 (en) 2012-08-29 2016-08-02 Wolfram Alpha, Llc Method and system for distributing and displaying graphical items
CN102831229A (zh) * 2012-08-30 2012-12-19 浙大网新科技股份有限公司 适合盲人使用的网页浏览方法
KR102150289B1 (ko) * 2012-08-30 2020-09-01 삼성전자주식회사 사용자 단말에서 사용자 인터페이스 장치 및 이를 지원하는 방법
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10276157B2 (en) * 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
WO2014055076A1 (en) 2012-10-04 2014-04-10 Nuance Communications, Inc. Improved hybrid controller for asr
US9035884B2 (en) * 2012-10-17 2015-05-19 Nuance Communications, Inc. Subscription updates in multiple device language models
WO2014073206A1 (ja) * 2012-11-07 2014-05-15 日本電気株式会社 情報処理装置、及び、情報処理方法
KR101980834B1 (ko) * 2012-11-28 2019-05-21 한국전자통신연구원 컨텍스트 정보 기반 응용프로그램 관리방법 및 그 장치
US9003039B2 (en) 2012-11-29 2015-04-07 Thales Canada Inc. Method and apparatus of resource allocation or resource release
KR101940719B1 (ko) * 2012-12-14 2019-01-23 한국전자통신연구원 태스크 그래프 기반 대화 처리 시스템의 태스크 그래프 구축 장치 및 방법
CN103117058B (zh) * 2012-12-20 2015-12-09 四川长虹电器股份有限公司 基于智能电视平台的多语音引擎切换系统及方法
US9430420B2 (en) 2013-01-07 2016-08-30 Telenav, Inc. Computing system with multimodal interaction mechanism and method of operation thereof
US9922639B1 (en) 2013-01-11 2018-03-20 Amazon Technologies, Inc. User feedback for speech interactions
CN103971687B (zh) * 2013-02-01 2016-06-29 腾讯科技(深圳)有限公司 一种语音识别系统中的负载均衡实现方法和装置
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9817835B2 (en) * 2013-03-12 2017-11-14 Tintri Inc. Efficient data synchronization for storage containers
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9218052B2 (en) 2013-03-14 2015-12-22 Samsung Electronics Co., Ltd. Framework for voice controlling applications
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9348555B2 (en) * 2013-03-15 2016-05-24 Volkswagen Ag In-vehicle access of mobile device functions
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
CN112230878B (zh) 2013-03-15 2024-09-27 苹果公司 对中断进行上下文相关处理
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9526120B2 (en) 2013-03-15 2016-12-20 Google Inc. Techniques for context-based application invocation for short-range wireless communication interactions
US9875494B2 (en) 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
WO2014183035A1 (en) 2013-05-10 2014-11-13 Veveo, Inc. Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system
US9431008B2 (en) 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014196984A1 (en) * 2013-06-07 2014-12-11 Nuance Communications, Inc. Speech-based search using descriptive features of surrounding objects
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
KR102053820B1 (ko) 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
US10776375B2 (en) * 2013-07-15 2020-09-15 Microsoft Technology Licensing, Llc Retrieval of attribute values based upon identified entities
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10109273B1 (en) 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
US9361289B1 (en) * 2013-08-30 2016-06-07 Amazon Technologies, Inc. Retrieval and management of spoken language understanding personalization data
US10628378B2 (en) 2013-09-03 2020-04-21 Tintri By Ddn, Inc. Replication of snapshots and clones
US9495965B2 (en) * 2013-09-20 2016-11-15 American Institutes For Research Synthesis and display of speech commands method and system
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
US10223457B2 (en) * 2013-10-02 2019-03-05 Empire Technology Development Llc Identification of distributed user interface (DUI) elements
CN104598257B (zh) 2013-10-30 2019-01-18 华为技术有限公司 远程应用程序运行的方法和装置
KR101740332B1 (ko) * 2013-11-05 2017-06-08 한국전자통신연구원 자동 번역 장치 및 방법
US9754591B1 (en) 2013-11-18 2017-09-05 Amazon Technologies, Inc. Dialog management context sharing
US9690854B2 (en) * 2013-11-27 2017-06-27 Nuance Communications, Inc. Voice-enabled dialog interaction with web pages
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
KR101489826B1 (ko) * 2013-12-30 2015-02-04 유승우 더미 터미널 및 본체
US10057355B2 (en) 2014-02-13 2018-08-21 Nec Corporation Communication system, communication device, communication method, and non-transitory computer readable medium storing program
US20150278820A1 (en) * 2014-03-25 2015-10-01 Mark Stephen Meadows Systems and methods for executing cryptographically secure transactions using voice and natural language processing
US20150278853A1 (en) * 2014-04-01 2015-10-01 DoubleVerify, Inc. System And Method For Identifying Hidden Content
JP2015207819A (ja) * 2014-04-17 2015-11-19 株式会社リコー 情報処理装置、情報処理システム、通信制御方法およびプログラム
US9514376B2 (en) * 2014-04-29 2016-12-06 Google Inc. Techniques for distributed optical character recognition and distributed machine language translation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9990433B2 (en) 2014-05-23 2018-06-05 Samsung Electronics Co., Ltd. Method for searching and device thereof
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US11314826B2 (en) 2014-05-23 2022-04-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
KR101984120B1 (ko) * 2014-09-19 2019-09-03 콘비다 와이어리스, 엘엘씨 서비스 레이어 세션 마이그레이션 및 공유
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
EP3207452A4 (en) * 2014-10-15 2018-06-20 Ayla Networks, Inc. Registration framework for connected consumer devices
US9800619B2 (en) * 2014-10-15 2017-10-24 Ayla Networks, Inc. Registration framework for connected consumer devices
US9648055B2 (en) * 2014-10-15 2017-05-09 Ayla Networks, Inc. Applications in a flexible registration framework
US9813505B2 (en) 2014-10-15 2017-11-07 Ayla Networks, Inc. Devices in a flexible registration framework
US10311869B2 (en) * 2014-10-21 2019-06-04 Robert Bosch Gmbh Method and system for automation of response selection and composition in dialog systems
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9965464B2 (en) * 2014-12-05 2018-05-08 Microsoft Technology Licensing, Llc Automatic process guidance
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US10180985B2 (en) * 2015-02-19 2019-01-15 At&T Intellectual Property I, L.P. Apparatus and method for automatically redirecting a search
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US20160321025A1 (en) * 2015-04-30 2016-11-03 Kabushiki Kaisha Toshiba Electronic apparatus and method
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
CN106302089B (zh) * 2015-05-21 2019-06-11 阿里巴巴集团控股有限公司 会话处理方法和系统
US9721569B2 (en) * 2015-05-27 2017-08-01 Intel Corporation Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10324979B2 (en) 2015-06-01 2019-06-18 AffectLayer, Inc. Automatic generation of playlists from conversations
US10181326B2 (en) 2015-06-01 2019-01-15 AffectLayer, Inc. Analyzing conversations to automatically identify action items
US10387573B2 (en) 2015-06-01 2019-08-20 AffectLayer, Inc. Analyzing conversations to automatically identify customer pain points
US10110743B2 (en) 2015-06-01 2018-10-23 AffectLayer, Inc. Automatic pattern recognition in conversations
US10133999B2 (en) 2015-06-01 2018-11-20 AffectLayer, Inc. Analyzing conversations to automatically identify deals at risk
US10367940B2 (en) 2015-06-01 2019-07-30 AffectLayer, Inc. Analyzing conversations to automatically identify product feature requests
US10360911B2 (en) 2015-06-01 2019-07-23 AffectLayer, Inc. Analyzing conversations to automatically identify product features that resonate with customers
US10679013B2 (en) 2015-06-01 2020-06-09 AffectLayer, Inc. IoT-based call assistant device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10504137B1 (en) 2015-10-08 2019-12-10 Persado Intellectual Property Limited System, method, and computer program product for monitoring and responding to the performance of an ad
US9688225B2 (en) * 2015-10-09 2017-06-27 Livio, Inc. Methods and systems for a mobile device to emulate a vehicle human-machine interface
KR20180082455A (ko) * 2015-10-15 2018-07-18 인터랙티브 인텔리전스 그룹, 인코포레이티드 다국어 통신 시퀀싱 시스템 및 방법
EP3341933A1 (en) * 2015-10-21 2018-07-04 Google LLC Parameter collection and automatic dialog generation in dialog systems
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US11018888B2 (en) * 2015-12-03 2021-05-25 Whirlpool Corporation Methods of remote control of appliances
US10832283B1 (en) 2015-12-09 2020-11-10 Persado Intellectual Property Limited System, method, and computer program for providing an instance of a promotional message to a user based on a predicted emotional response corresponding to user characteristics
CN105551488A (zh) * 2015-12-15 2016-05-04 深圳Tcl数字技术有限公司 语音控制方法及系统
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10732783B2 (en) 2015-12-28 2020-08-04 Microsoft Technology Licensing, Llc Identifying image comments from similar images
US10417346B2 (en) * 2016-01-23 2019-09-17 Microsoft Technology Licensing, Llc Tool for facilitating the development of new language understanding scenarios
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10224026B2 (en) * 2016-03-15 2019-03-05 Sony Corporation Electronic device, system, method and computer program
EP3241343B1 (en) * 2016-03-17 2018-11-28 Google LLC Multi-provider data provision with request batching
US9996531B1 (en) * 2016-03-29 2018-06-12 Facebook, Inc. Conversational understanding
US10319371B2 (en) * 2016-05-04 2019-06-11 GM Global Technology Operations LLC Disambiguation of vehicle speech commands
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
CN106095593B (zh) 2016-05-31 2019-04-16 Oppo广东移动通信有限公司 一种前、后景应用程序行为同步方法及装置
KR101995540B1 (ko) * 2016-06-03 2019-07-15 주식회사 허브케이 판독/입력 오류 단어 정정 장치 및 방법
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US11200891B2 (en) * 2016-06-21 2021-12-14 Hewlett-Packard Development Company, L.P. Communications utilizing multiple virtual assistant services
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
KR101827773B1 (ko) 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
CN106847272A (zh) * 2016-12-12 2017-06-13 北京光年无限科技有限公司 与运行应用关联的智能机器人的数据交互方法
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR102643501B1 (ko) * 2016-12-26 2024-03-06 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US20180247644A1 (en) * 2017-02-27 2018-08-30 Intel Corporation Queueing spoken dialogue output
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US10127227B1 (en) * 2017-05-15 2018-11-13 Google Llc Providing access to user-controlled resources by automated assistants
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11436417B2 (en) 2017-05-15 2022-09-06 Google Llc Providing access to user-controlled resources by automated assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US11048995B2 (en) 2017-05-16 2021-06-29 Google Llc Delayed responses by computational assistant
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN107319857A (zh) * 2017-06-30 2017-11-07 广东工业大学 一种交互镜子及具有该交互镜子的智能家电系统
JP6777887B2 (ja) * 2017-06-30 2020-10-28 京セラドキュメントソリューションズ株式会社 リモート通信制御システム、セッション管理システムおよびセッション管理プログラム
US10503467B2 (en) * 2017-07-13 2019-12-10 International Business Machines Corporation User interface sound emanation activity classification
US20190018545A1 (en) * 2017-07-13 2019-01-17 International Business Machines Corporation System and method for rapid financial app prototyping
KR102419374B1 (ko) * 2017-07-21 2022-07-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
TWI646529B (zh) * 2017-07-25 2019-01-01 雲拓科技有限公司 主動聊天裝置
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
CN109426530B (zh) * 2017-08-17 2022-04-05 阿里巴巴集团控股有限公司 页面确定方法、装置、服务器和存储介质
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10600419B1 (en) * 2017-09-22 2020-03-24 Amazon Technologies, Inc. System command processing
US10957313B1 (en) 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
CN107479906A (zh) * 2017-09-28 2017-12-15 电子科技大学 基于Cordova的跨平台在线教育移动终端
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10453454B2 (en) * 2017-10-26 2019-10-22 Hitachi, Ltd. Dialog system with self-learning natural language understanding
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
CN108008728B (zh) * 2017-12-12 2020-01-17 深圳市银星智能科技股份有限公司 清洁机器人以及基于清洁机器人的最短路径规划方法
US20190180753A1 (en) * 2017-12-12 2019-06-13 Ca, Inc. Analysis of collaborative dialog data structures from speech processing computer system
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
CN108256066B (zh) * 2018-01-16 2022-01-11 智言科技(深圳)有限公司 端到端层次解码任务型对话系统
CN108269205A (zh) * 2018-01-24 2018-07-10 成都安信思远信息技术有限公司 一种利用云平台的电子数据鉴定系统
CN108319912A (zh) * 2018-01-30 2018-07-24 歌尔科技有限公司 一种唇语识别方法、装置、系统和智能眼镜
US20190236137A1 (en) * 2018-01-31 2019-08-01 Microsoft Technology Licensing, Llc Generating conversational representations of web content
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
CN108520748B (zh) * 2018-02-01 2020-03-03 百度在线网络技术(北京)有限公司 一种智能设备功能引导方法及系统
US10891430B2 (en) * 2018-02-02 2021-01-12 Fuji Xerox Co., Ltd. Semi-automated methods for translating structured document content to chat-based interaction
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
KR102507249B1 (ko) * 2018-03-08 2023-03-07 삼성전자주식회사 성능 모드 제어 방법 및 이를 지원하는 전자 장치
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11056107B2 (en) * 2018-03-30 2021-07-06 International Business Machines Corporation Conversational framework
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN112136124B (zh) * 2018-04-19 2024-02-20 谷歌有限责任公司 用于与计算机实现的自动助理进行人机对话会话的依赖图谈话建模
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
EP3570189B1 (de) * 2018-05-14 2023-08-09 Siemens Aktiengesellschaft Computerimplementiertes verfahren zum bereitstellen eines adaptiven dialogsystems und ein adaptives dialogsystem
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10811009B2 (en) 2018-06-27 2020-10-20 International Business Machines Corporation Automatic skill routing in conversational computing frameworks
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
EP3682345B1 (en) 2018-08-07 2021-11-24 Google LLC Assembling and evaluating automated assistant responses for privacy concerns
US11436215B2 (en) 2018-08-20 2022-09-06 Samsung Electronics Co., Ltd. Server and control method thereof
EP4343534A3 (en) * 2018-08-23 2024-05-29 Google Llc Regulating assistant responsiveness according to characteristics of a multi-assistant environment
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10762893B2 (en) 2018-09-28 2020-09-01 Comcast Cable Communications, Llc Monitoring of one or more audio/video collection devices
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10594837B1 (en) 2018-11-02 2020-03-17 International Business Machines Corporation Predictive service scaling for conversational computing
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US10770072B2 (en) 2018-12-10 2020-09-08 International Business Machines Corporation Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN110021291B (zh) * 2018-12-26 2021-01-29 创新先进技术有限公司 一种语音合成文件的调用方法及装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
EP3703342B1 (en) * 2019-03-01 2023-07-26 ABB Schweiz AG Dynamic load balancing in network centric process control systems
WO2020185880A1 (en) * 2019-03-12 2020-09-17 Beguided, Inc. Conversational artificial intelligence for automated self-service account management
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111800537B (zh) * 2019-04-09 2021-07-20 Oppo广东移动通信有限公司 终端使用状态的评估方法、装置、存储介质及电子设备
CN111857219B (zh) * 2019-04-25 2023-06-30 益逻触控系统公司 具有三层系统架构的自助服务装置
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11640504B2 (en) 2019-05-17 2023-05-02 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11526780B2 (en) * 2019-08-05 2022-12-13 Microsoft Technology Licensing, Llc Converting nonnative skills for conversational computing interfaces
US10915227B1 (en) 2019-08-07 2021-02-09 Bank Of America Corporation System for adjustment of resource allocation based on multi-channel inputs
CN110400564A (zh) * 2019-08-21 2019-11-01 科大国创软件股份有限公司 一种基于栈的聊天机器人对话管理方法
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110647305B (zh) * 2019-09-29 2023-10-31 阿波罗智联(北京)科技有限公司 应用程序的语音交互方法、装置、设备和介质
US11062270B2 (en) * 2019-10-01 2021-07-13 Microsoft Technology Licensing, Llc Generating enriched action items
US12020696B2 (en) 2019-10-21 2024-06-25 Soundhound Ai Ip, Llc Automatic synchronization for an offline virtual assistant
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
JP7029434B2 (ja) * 2019-10-23 2022-03-03 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末
WO2021096382A2 (ru) * 2019-11-15 2021-05-20 Федеральное Государственное Автономное Образовательное Учреждение Высшего Образования "Московский Физико-Технический Институт" (Национальный Исследовательский Университет) (Мфти) Способ и система управления диалоговым агентом в канале взаимодействия с пользователем
CN111105289B (zh) * 2019-11-22 2023-05-05 北京云杉信息技术有限公司 一种基于aop方式的客户端订单取消判断方法及装置
US11664044B2 (en) 2019-11-25 2023-05-30 Qualcomm Incorporated Sound event detection learning
EP3836043A1 (en) 2019-12-11 2021-06-16 Carrier Corporation A method and an equipment for configuring a service
WO2021117251A1 (ja) * 2019-12-13 2021-06-17 株式会社日立産機システム 通信モジュール、通信システム及び通信方法
CN111223485A (zh) * 2019-12-19 2020-06-02 深圳壹账通智能科技有限公司 智能交互方法、装置、电子设备及存储介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN113035226B (zh) * 2019-12-24 2024-04-23 中兴通讯股份有限公司 语音通话方法、通信终端和计算机可读介质
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11209573B2 (en) 2020-01-07 2021-12-28 Northrop Grumman Systems Corporation Radio occultation aircraft navigation aid system
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11494166B2 (en) 2020-03-30 2022-11-08 Nuance Communications, Inc. Omni-channel conversational application development system and method
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN114095487B (zh) * 2020-07-30 2024-03-19 中移(苏州)软件技术有限公司 一种远程任务执行方法、装置及存储介质
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11514799B2 (en) 2020-11-11 2022-11-29 Northrop Grumman Systems Corporation Systems and methods for maneuvering an aerial vehicle during adverse weather conditions
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11410677B2 (en) 2020-11-24 2022-08-09 Qualcomm Incorporated Adaptive sound event classification
US11329933B1 (en) 2020-12-28 2022-05-10 Drift.com, Inc. Persisting an AI-supported conversation across multiple channels
US20220415311A1 (en) * 2021-06-24 2022-12-29 Amazon Technologies, Inc. Early invocation for contextual data processing
US12106755B2 (en) * 2021-12-17 2024-10-01 Google Llc Warm word arbitration between automated assistant devices
US12093293B2 (en) * 2022-02-28 2024-09-17 International Business Machines Corporation Synchronizing a sensor network and an ontology
CN115064168B (zh) * 2022-08-17 2022-12-13 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质

Family Cites Families (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4787031A (en) * 1985-01-04 1988-11-22 Digital Equipment Corporation Computer with virtual machine mode and multiple protection rings
JPH0673135B2 (ja) * 1988-03-01 1994-09-14 工業技術院長 自然言語対話処理装置
US5282265A (en) * 1988-10-04 1994-01-25 Canon Kabushiki Kaisha Knowledge information processing system
JPH0384652A (ja) * 1989-08-29 1991-04-10 Personal Joho Kankyo Kyokai ヒューマンインタフェースのアーキテクチャモデル
US5333237A (en) * 1989-10-10 1994-07-26 Hughes Aircraft Company Hypermedia structured knowledge base system
JP3235728B2 (ja) * 1990-02-09 2001-12-04 沖ソフトウェア株式会社 会話制御方式
JPH05304567A (ja) * 1990-04-05 1993-11-16 Texas Instr Inc <Ti> 遠隔通信システムならびにその遠隔通信サービスプレゼンテーションインターフェース及び遠隔通信ネットワーク
JPH0410153A (ja) * 1990-04-27 1992-01-14 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム
US5133004A (en) 1990-05-07 1992-07-21 Unisys Corporation Digital computer platform for supporting telephone network applications
US5255305A (en) * 1990-11-01 1993-10-19 Voiceplex Corporation Integrated voice processing system
US5274695A (en) * 1991-01-11 1993-12-28 U.S. Sprint Communications Company Limited Partnership System for verifying the identity of a caller in a telecommunications network
JPH0792801B2 (ja) * 1991-08-02 1995-10-09 工業技術院長 非単調推論方法
US5283888A (en) 1991-08-27 1994-02-01 International Business Machines Corporation Voice processing interface unit employing virtual screen communications for accessing a plurality of primed applications
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
JP3213056B2 (ja) * 1992-06-19 2001-09-25 株式会社日立製作所 マルチメディア処理装置
US5384890A (en) * 1992-09-30 1995-01-24 Apple Computer, Inc. Method and apparatus for providing multiple clients simultaneous access to a sound data stream
FR2696574B1 (fr) * 1992-10-06 1994-11-18 Sextant Avionique Procédé et dispositif d'analyse d'un message fourni par des moyens d'interaction à un système de dialogue homme-machine.
JPH06131437A (ja) * 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
JPH06149534A (ja) * 1992-11-13 1994-05-27 Toshiba Corp 音声画面操作装置
US6029188A (en) * 1993-01-18 2000-02-22 Institute For Personalized Information Environment Information processing system for an architecture model capable of interfacing with humans and capable of being modified
US5544228A (en) * 1993-09-27 1996-08-06 The Walt Disney Company Method and apparatus for transmission of full frequency digital audio
US5509060A (en) * 1993-11-19 1996-04-16 At&T Corp. Network-accessible intelligent telephone service
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5644686A (en) * 1994-04-29 1997-07-01 International Business Machines Corporation Expert system and method employing hierarchical knowledge base, and interactive multimedia/hypermedia applications
JP3408332B2 (ja) * 1994-09-12 2003-05-19 富士通株式会社 ハイパーテキスト読上装置
US5682539A (en) * 1994-09-29 1997-10-28 Conrad; Donovan Anticipated meaning natural language interface
US5594789A (en) * 1994-10-13 1997-01-14 Bell Atlantic Network Services, Inc. Transaction implementation in video dial tone network
JPH10508964A (ja) * 1994-11-08 1998-09-02 バーミア、テクノロジーズ、インコーポレーテッド 料金設定機能を有するオンラインサービス開発ツール
JPH08137697A (ja) * 1994-11-15 1996-05-31 Kobe Steel Ltd 自律分散型システム
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
JP2746218B2 (ja) * 1995-02-23 1998-05-06 富士ゼロックス株式会社 資源管理装置および資源管理方法
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5742845A (en) * 1995-06-22 1998-04-21 Datascape, Inc. System for extending present open network communication protocols to communicate with non-standard I/O devices directly coupled to an open network
JP3729918B2 (ja) * 1995-07-19 2005-12-21 株式会社東芝 マルチモーダル対話装置及び対話方法
US5794205A (en) * 1995-10-19 1998-08-11 Voice It Worldwide, Inc. Voice recognition interface apparatus and method for interacting with a programmable timekeeping device
JPH10124378A (ja) 1995-12-01 1998-05-15 Zakuson R & D:Kk インターネットおよびイントラネット上におけるホームページ上の文書録画支援装置および文書録画支援システム
US6240448B1 (en) * 1995-12-22 2001-05-29 Rutgers, The State University Of New Jersey Method and system for audio access to information in a wide area computer network
US6101528A (en) * 1996-03-27 2000-08-08 Intel Corporation Method and apparatus for discovering server applications by a client application in a network of computer systems
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
IL122647A (en) * 1996-04-22 2002-05-23 At & T Corp Method and device for retrieving information using an audio interface
US5956507A (en) * 1996-05-14 1999-09-21 Shearer, Jr.; Bennie L. Dynamic alteration of operating system kernel resource tables
JPH09319760A (ja) * 1996-05-30 1997-12-12 Nippon Telegr & Teleph Corp <Ntt> 情報検索運行システム
AU3218597A (en) * 1996-06-03 1998-01-05 Worldvoice Inc. Telephonic voice message store and forward method having network address and voice authentication
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
US5799063A (en) * 1996-08-15 1998-08-25 Talk Web Inc. Communication system and method of providing access to pre-recorded audio messages via the Internet
JPH10124293A (ja) * 1996-08-23 1998-05-15 Osaka Gas Co Ltd 音声指令可能なコンピュータとそれ用の媒体
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
EP0863466A4 (en) * 1996-09-26 2005-07-20 Mitsubishi Electric Corp INTERACTIVE PROCESSOR
US5721827A (en) * 1996-10-02 1998-02-24 James Logan System for electrically distributing personalized information
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5774857A (en) * 1996-11-15 1998-06-30 Motorola, Inc. Conversion of communicated speech to text for tranmission as RF modulated base band video
JP3826239B2 (ja) * 1996-11-22 2006-09-27 日本電信電話株式会社 ハイパーテキスト中継方法及び装置
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US5960399A (en) 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
JP2907174B2 (ja) * 1997-02-04 1999-06-21 日本電気株式会社 監視制御システムのユーザインタフェースシステム
JPH10222342A (ja) * 1997-02-06 1998-08-21 Nippon Telegr & Teleph Corp <Ntt> ハイパーテキスト音声制御方法及び装置
JPH10222525A (ja) 1997-02-07 1998-08-21 Hitachi Ltd ナビゲーション方法
JPH10243048A (ja) * 1997-02-27 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 情報伝送方法及びシステム
US5987102A (en) * 1997-03-14 1999-11-16 Efusion, Inc. Method and apparatus for bridging a voice call including selective provision of information in non-audio to the caller
US5884266A (en) 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
JP3646471B2 (ja) * 1997-05-14 2005-05-11 日本電信電話株式会社 情報提供方法及び個人適応情報提供サーバ及び情報提供プログラムを格納した記憶媒体
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
US6108711A (en) * 1998-09-11 2000-08-22 Genesys Telecommunications Laboratories, Inc. Operating system having external media layer, workflow layer, internal media layer, and knowledge base for routing media events between transactions
US6353824B1 (en) * 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6370508B2 (en) * 1998-09-11 2002-04-09 Genesys Telecommunications Laboratories, Inc. Interface engine for managing business processes within a multimedia communication-center
US6671745B1 (en) * 1998-03-23 2003-12-30 Microsoft Corporation Application program interfaces and structures in a resource limited operating system
US6859451B1 (en) * 1998-04-21 2005-02-22 Nortel Networks Limited Server for handling multimodal information
US6018711A (en) * 1998-04-21 2000-01-25 Nortel Networks Corporation Communication system user interface with animated representation of time remaining for input to recognizer
US6012030A (en) * 1998-04-21 2000-01-04 Nortel Networks Corporation Management of speech and audio prompts in multimodal interfaces
US6438523B1 (en) * 1998-05-20 2002-08-20 John A. Oberteuffer Processing handwritten and hand-drawn input and speech input
US6253326B1 (en) * 1998-05-29 2001-06-26 Palm, Inc. Method and system for secure communications
US6397259B1 (en) * 1998-05-29 2002-05-28 Palm, Inc. Method, system and apparatus for packet minimized communications
US6269366B1 (en) * 1998-06-24 2001-07-31 Eastman Kodak Company Method for randomly combining images with annotations
US6269336B1 (en) * 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
US6119147A (en) * 1998-07-28 2000-09-12 Fuji Xerox Co., Ltd. Method and system for computer-mediated, multi-modal, asynchronous meetings in a virtual space
EP1101160B1 (en) * 1998-08-05 2003-04-02 BRITISH TELECOMMUNICATIONS public limited company Multimodal user interface
US6195696B1 (en) * 1998-10-01 2001-02-27 International Business Machines Corporation Systems, methods and computer program products for assigning, generating and delivering content to intranet users
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
WO2000021232A2 (en) * 1998-10-02 2000-04-13 International Business Machines Corporation Conversational browser and conversational systems
US6493671B1 (en) 1998-10-02 2002-12-10 Motorola, Inc. Markup language for interactive services to notify a user of an event and methods thereof
US6615240B1 (en) * 1998-12-18 2003-09-02 Motive Communications, Inc. Technical support chain automation with guided self-help capability and option to escalate to live help
US6523061B1 (en) * 1999-01-05 2003-02-18 Sri International, Inc. System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system
US6851115B1 (en) * 1999-01-05 2005-02-01 Sri International Software-based architecture for communication and cooperation among distributed electronic agents
US7216351B1 (en) * 1999-04-07 2007-05-08 International Business Machines Corporation Systems and methods for synchronizing multi-modal interactions
US6519617B1 (en) * 1999-04-08 2003-02-11 International Business Machines Corporation Automated creation of an XML dialect and dynamic generation of a corresponding DTD
US6636831B1 (en) * 1999-04-09 2003-10-21 Inroad, Inc. System and process for voice-controlled information retrieval
US6529889B1 (en) * 1999-07-27 2003-03-04 Acappella Software, Inc. System and method of knowledge architecture
US7069220B2 (en) * 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
US6799169B1 (en) * 1999-08-13 2004-09-28 International Business Machines Corporation Method and system for modeless operation of a multi-modal user interface through implementation of independent decision networks
US6377913B1 (en) * 1999-08-13 2002-04-23 International Business Machines Corporation Method and system for multi-client access to a dialog system
US6738803B1 (en) * 1999-09-03 2004-05-18 Cisco Technology, Inc. Proxy browser providing voice enabled web application audio control for telephony devices
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6829603B1 (en) * 2000-02-02 2004-12-07 International Business Machines Corp. System, method and program product for interactive natural dialog
US7415537B1 (en) * 2000-04-07 2008-08-19 International Business Machines Corporation Conversational portal for providing conversational browsing and multimedia broadcast on demand
US6970935B1 (en) * 2000-11-01 2005-11-29 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US6839896B2 (en) * 2001-06-29 2005-01-04 International Business Machines Corporation System and method for providing dialog management and arbitration in a multi-modal environment
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7349845B2 (en) * 2003-09-03 2008-03-25 International Business Machines Corporation Method and apparatus for dynamic modification of command weights in a natural language understanding system

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279875A (zh) * 2004-12-15 2013-09-04 三星电子株式会社 对地区中的内容进行全球共享和交易的方法和系统
CN101292282A (zh) * 2005-08-29 2008-10-22 沃伊斯博克斯科技公司 支持自然语言人机交互的移动系统和方法
CN101292282B (zh) * 2005-08-29 2016-01-06 沃伊斯博克斯科技公司 支持自然语言人机交互的移动系统和方法
CN103824177B (zh) * 2005-10-05 2018-03-20 邓白氏公司 用于多个产品的模块化的基于Web的ASP应用
CN100382083C (zh) * 2005-12-23 2008-04-16 威盛电子股份有限公司 网络会话管理方法及系统
CN101689165B (zh) * 2007-06-27 2013-07-24 微软公司 在虚拟环境中运行附加组件
CN102037710A (zh) * 2008-05-19 2011-04-27 思杰系统有限公司 用于远程处理多媒体插件调用的方法和系统
CN102037710B (zh) * 2008-05-19 2014-04-02 思杰系统有限公司 用于远程处理多媒体插件调用的方法和系统
CN101621480B (zh) * 2008-06-30 2012-03-28 国际商业机器公司 呈现服务器和在其中使用的xsl文件处理方法
CN101533409B (zh) * 2009-04-23 2011-03-02 何海群 一种网络浏览器系统和控制方法
CN103098023A (zh) * 2010-04-18 2013-05-08 Voxeo研究有限公司 用于通话控制和媒体控制的统一框架和方法
CN103098023B (zh) * 2010-04-18 2016-10-05 思科技术公司 用于呼叫控制和媒体控制的统一框架和方法
CN103534697A (zh) * 2011-05-13 2014-01-22 微软公司 使用web数据训练口述对话系统中的统计对话管理器
CN103326876B (zh) * 2012-03-22 2016-11-30 纬创资通股份有限公司 服务器系统及其管理方法
CN103326876A (zh) * 2012-03-22 2013-09-25 纬创资通股份有限公司 服务器系统及其管理方法
CN104487932A (zh) * 2012-05-07 2015-04-01 思杰系统有限公司 用于远程应用和桌面的语音识别支持
CN104487932B (zh) * 2012-05-07 2017-10-10 思杰系统有限公司 用于远程应用和桌面的语音识别支持
CN103577444A (zh) * 2012-07-30 2014-02-12 腾讯科技(深圳)有限公司 一种操控浏览器的方法及系统
WO2014019467A1 (en) * 2012-07-30 2014-02-06 Tencent Technology (Shenzhen) Company Limited A web browser operation method and system
US9485330B2 (en) 2012-07-30 2016-11-01 Tencent Technology (Shenzhen) Company Limited Web browser operation method and system
CN103020278A (zh) * 2012-12-28 2013-04-03 深圳创维数字技术股份有限公司 一种网页的控制方法及浏览器
CN110263327A (zh) * 2013-06-21 2019-09-20 微软技术许可有限责任公司 构建会话理解系统
CN110263327B (zh) * 2013-06-21 2023-10-10 微软技术许可有限责任公司 构建会话理解系统
US9558176B2 (en) 2013-12-06 2017-01-31 Microsoft Technology Licensing, Llc Discriminating between natural language and keyword language items
CN112270925B (zh) * 2014-09-14 2024-05-10 谷歌有限责任公司 用于创建可定制对话系统引擎的平台
CN112270925A (zh) * 2014-09-14 2021-01-26 谷歌有限责任公司 用于创建可定制对话系统引擎的平台
CN107408115A (zh) * 2015-01-13 2017-11-28 微软技术许可有限责任公司 web站点访问控制
CN107408115B (zh) * 2015-01-13 2020-10-09 微软技术许可有限责任公司 web站点过滤器、控制对内容的访问的方法和介质
CN107851217A (zh) * 2015-05-27 2018-03-27 奥瑞恩实验室 可穿戴个人通信节点的智能代理特征
CN107808672A (zh) * 2016-09-07 2018-03-16 三星电子株式会社 用于对外部设备进行控制的服务器和方法
CN107808672B (zh) * 2016-09-07 2024-01-12 三星电子株式会社 用于对外部设备进行控制的服务器和方法
US11482227B2 (en) 2016-09-07 2022-10-25 Samsung Electronics Co., Ltd. Server and method for controlling external device
CN106844453A (zh) * 2016-12-20 2017-06-13 江苏瀚远科技股份有限公司 一种电子文件格式转换方法
CN106844453B (zh) * 2016-12-20 2020-09-08 江苏瀚远科技股份有限公司 一种电子文件格式转换方法
CN107767856A (zh) * 2017-11-07 2018-03-06 中国银行股份有限公司 一种语音处理方法、装置及服务器
CN110149806B (zh) * 2017-12-08 2023-08-08 谷歌有限责任公司 堆栈数据结构的数字助理处理
CN110149806A (zh) * 2017-12-08 2019-08-20 谷歌有限责任公司 堆栈数据结构的数字助理处理
CN110110317A (zh) * 2017-12-22 2019-08-09 声音猎手公司 适合于交互式体验的自然语言语法
US11900928B2 (en) 2017-12-23 2024-02-13 Soundhound Ai Ip, Llc System and method for adapted interactive experiences
CN108614773A (zh) * 2018-04-24 2018-10-02 广州链创信息科技有限公司 一种手机小程序用展示发布体验系统
CN110569337A (zh) * 2018-06-06 2019-12-13 国际商业机器公司 支持对话中意图的组合
CN110647736A (zh) * 2019-08-13 2020-01-03 平安科技(深圳)有限公司 插件式坐席系统登录方法、装置、计算机设备及存储介质
CN112527435A (zh) * 2020-12-08 2021-03-19 建信金融科技有限责任公司 浏览器操作方法及系统
CN112527435B (zh) * 2020-12-08 2024-02-13 建信金融科技有限责任公司 浏览器操作方法及系统
CN116719649A (zh) * 2022-09-01 2023-09-08 荣耀终端有限公司 会话通知的提示方法、电子设备及可读存储介质
CN116450383A (zh) * 2023-06-19 2023-07-18 合肥景云软件工程有限责任公司 一种通过网页调用操作系统的方法

Also Published As

Publication number Publication date
US7137126B1 (en) 2006-11-14
EP1125279A4 (en) 2005-02-23
KR20020004931A (ko) 2002-01-16
CA2345662A1 (en) 2000-04-13
EP1125279B1 (en) 2008-01-09
EP1133734A4 (en) 2005-12-14
DE69937962T2 (de) 2008-12-24
JP2002527800A (ja) 2002-08-27
IL142364A0 (en) 2002-03-10
WO2000021232A2 (en) 2000-04-13
US7729916B2 (en) 2010-06-01
CA2345665A1 (en) 2000-04-13
WO2000020962A2 (en) 2000-04-13
CN1160700C (zh) 2004-08-04
IL142366A0 (en) 2002-03-10
KR20010075552A (ko) 2001-08-09
US8082153B2 (en) 2011-12-20
KR100459299B1 (ko) 2004-12-03
IL140805A0 (en) 2002-02-10
IL142363A0 (en) 2002-03-10
WO2000020962A3 (en) 2000-07-13
JP2002527919A (ja) 2002-08-27
EP1163576A4 (en) 2005-11-30
CN100472500C (zh) 2009-03-25
CN1323435A (zh) 2001-11-21
CN1321296A (zh) 2001-11-07
DE69937962D1 (de) 2008-02-21
EP1125279A1 (en) 2001-08-22
ATE383640T1 (de) 2008-01-15
CA2345665C (en) 2011-02-08
WO2000021073A1 (en) 2000-04-13
EP1163576A2 (en) 2001-12-19
EP1125277A4 (en) 2002-02-20
KR20010073105A (ko) 2001-07-31
KR100620826B1 (ko) 2006-09-13
JP3703082B2 (ja) 2005-10-05
WO2000021075A9 (en) 2000-06-08
EP1133734A2 (en) 2001-09-19
CA2345661A1 (en) 2000-04-13
CN1151488C (zh) 2004-05-26
EP1125277A1 (en) 2001-08-22
IL142366A (en) 2008-11-26
CN1171200C (zh) 2004-10-13
JP2003525477A (ja) 2003-08-26
WO2000021232A3 (en) 2000-11-02
JP4171585B2 (ja) 2008-10-22
KR20010085878A (ko) 2001-09-07
JP2002526855A (ja) 2002-08-20
US7418382B1 (en) 2008-08-26
CN1321295A (zh) 2001-11-07
US20070043574A1 (en) 2007-02-22
CA2345660C (en) 2006-01-31
KR100430953B1 (ko) 2004-05-12
US20090313026A1 (en) 2009-12-17
CA2345660A1 (en) 2000-04-13
KR100431972B1 (ko) 2004-05-22
WO2000021075A1 (en) 2000-04-13

Similar Documents

Publication Publication Date Title
CN1342290A (zh) 会话浏览器和会话系统
US6885736B2 (en) System and method for providing and using universally accessible voice and speech data files
US7184523B2 (en) Voice message based applets
US7286985B2 (en) Method and apparatus for preprocessing text-to-speech files in a voice XML application distribution system using industry specific, social and regional expression rules
US7447299B1 (en) Voice and telephone keypad based data entry for interacting with voice information services
US8032577B2 (en) Apparatus and methods for providing network-based information suitable for audio output
CN1158645C (zh) 到服务应用程序上的用户接口的声音控制
US7421390B2 (en) Method and system for voice control of software applications
US7609829B2 (en) Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution
US7283973B1 (en) Multi-modal voice-enabled content access and delivery system
US20040006476A1 (en) Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application
US20110106527A1 (en) Method and Apparatus for Adapting a Voice Extensible Markup Language-enabled Voice System for Natural Speech Recognition and System Response
US20120004910A1 (en) System and method for speech processing and speech to text
JP2000032138A (ja) コンピュ―タ・システムおよびセッション・マネ―ジャ・プロセス
CN101051310A (zh) 用于将合成电子邮件数据转入音频文件的方法和系统
CN1549201A (zh) 信息处理装置和信息处理方法
CN1354851A (zh) 交互式服务所使用的标记语言及其方法
US6732078B1 (en) Audio control method and audio controlled device
CN1445652A (zh) 对话系统和对话控制装置
CN1894658A (zh) 用于话音激活网页的系统和方法
US20060212408A1 (en) Framework and language for development of multimodal applications
US7470850B2 (en) Interactive voice response method and apparatus
KR20020011569A (ko) 음성으로 인터넷상의 정보를 유/무선/이동 전화망을 통해제공하는 시스템 및 방법
KR200209075Y1 (ko) 음성으로 인터넷상의 정보를 유/무선/이동 전화망을 통해제공하는 시스템
KR20220134959A (ko) 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: LIAN XIANG(SINGAPORE)PRIVATE LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20061110

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20061110

Address after: Singapore Changi

Applicant after: Lenovo (Singapore) Pte. Ltd.

Address before: New York, USA

Applicant before: International Business Machines Corp.

C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20090325