CN102047323A - 网页的自动化语音支持 - Google Patents

网页的自动化语音支持 Download PDF

Info

Publication number
CN102047323A
CN102047323A CN2009801198498A CN200980119849A CN102047323A CN 102047323 A CN102047323 A CN 102047323A CN 2009801198498 A CN2009801198498 A CN 2009801198498A CN 200980119849 A CN200980119849 A CN 200980119849A CN 102047323 A CN102047323 A CN 102047323A
Authority
CN
China
Prior art keywords
input field
phonetic entry
described input
voice
core attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801198498A
Other languages
English (en)
Other versions
CN102047323B (zh
Inventor
W·L·努斯比克尔
V·穆尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN102047323A publication Critical patent/CN102047323A/zh
Application granted granted Critical
Publication of CN102047323B publication Critical patent/CN102047323B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明的各实施例提供了用于对网页进行自动化语音支持的方法、系统和计算机程序产品。在本发明的一个实施例中,用于语音支持网页的方法可包括选择网页的供进行语音输入的输入字段,基于输入字段的核心属性中的项来为所述输入字段生成语音语法,为输入字段接收语音输入,将所接收的语音输入和所述语法张贴到自动语音识别(ASR)引擎并将由所述ASR引擎所提供的所述语音输入的文本等值插入到所述网页的文档对象模型(DOM)中。

Description

网页的自动化语音支持
技术领域
本发明涉及语音识别领域,更具体而言,涉及网页中的语音输入处理。
背景技术
语音识别系统通过在处理人的语音过程中避免使用昂贵的人力资本,大大降低了运营成本,在商务中扮演关键角色。一般而言,语音识别系统包括耦合到定义会话流的脚本的语音识别和文本到语音转换处理能力。因此,可以利用语音识别系统来为扬声器提供语音交互式体验,就好象活人参与了人与人之间的谈话一样。
语音识别系统已经被证实对使基于计算机的信息系统适应可听的语音处理世界特别有用。具体而言,基于Web的信息系统在通过在线表单中完成字段的填写而从最终用户处收集和处理信息时特别有效,这种说法对于语音识别系统也成立。具体而言,语音XML和等效的技术提供了Web表单适用于语音的基础。因此,语音识别系统已经被配置成通过基于表单的输入进行复杂的数据处理,正如通过常规的Web界面的情况。
将语音处理与Web应用的网页集成不适合弱者。不仅在网页和Web应用开发领域,而且在语音应用开发领域也需要专业知识。与语音应用开发集成在一起的是设计和使用语音语法使其反映语音应用的应用目的。因为Web表单中的不同字段的期望的信息会在不同字段之间有所不同,因此,在许多情况下,必须为每一个字段生成不同语法。
如此,支持语音的应用的语音开发组件常常与Web应用的开发同时进行,并需要语音开发人员和Web开发人员之间的协调。只有这样才可将两者合并到一个支持语音的Web应用中。由于此任务很复杂,支持语音的应用难以被许多类型的企业广泛采用,只是因为许多企业缺乏资源和专业知识来协调支持语音的应用的开发。因此,Web分发的内容中时常省略交互的一个重要形式,结果客户受损害。
发明内容
本发明的各实施例解决了当前技术的在网页的语音支持方面存在的缺陷,并提供用于网页的自动化语音支持的新颖而非明显的方法、系统和计算机程序产品。在本发明的一个实施例中,用于语音支持网页的方法可包括选择网页的输入字段供进行语音输入,基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法,为所述输入字段接收语音输入,将所接收的语音输入和所述语法张贴到自动语音识别(ASR)引擎并将由所述ASR引擎所提供的所述语音输入的文本等值(textual equivalent)插入到所述网页的文档对象模型(DOM)中。
在本发明的另一实施例中,Web应用数据处理系统可以用于网页的语音支持。该系统可包括语音支持配件,其包括用于执行下列操作的程序代码:基于输入字段的核心属性中的项来为网页中的输入字段生成语音语法,为所述输入字段接收语音输入,将接收到的语音输入和语法张贴到通信地耦合的ASR引擎,并将由所述ASR引擎提供的所述语音输入的文本等值插入到所述网页的DOM中。可任选地,核心属性可以是隐藏的标题字段。进一步地,这些项可包括对于相应语法所允许的项。更进一步,这些项还可包括前缀、语义指示器或两者。最后,ASR引擎可以是符合代表性状态传输(REST)的ASR引擎。
在随后的描述中将阐述本发明的其他方面,经过描述,这些方面将变清楚,也可以通过本发明的实践来了解。本发明的各方面将通过在所附权利要求书中特别指出的元素和组合来实现和获得。应该理解,前面的一般性的说明和下面的详细描述只是示例性的和说明性的,不会对如权利要求所述的本发明形成限制。
附图说明
包括在说明书中并构成本说明书一部分的附图示出了本发明的各实施例,并且与说明书一起用于说明本发明的原理:此处所示出的实施例目前是优选的,然而,可以理解,本发明不仅限于所示出的准确的配置和手段,其中:
图1是网页的自动化语音支持的过程的图示说明;
图2是被配置用于网页的自动化语音支持的Web应用数据处理系统的示意图;以及
图3是示出了Web应用数据处理系统中的语音支持网页的过程的流程图。
具体实施方式
本发明的各实施例提供了用于对网页进行自动化语音支持的方法、系统和计算机程序产品。根据本发明的一实施例,Web应用的网页可以呈现在内容浏览器中,并可以为网页的输入字段接收语音输入。可以为输入字段确定语法,并且,如果不能确定语法,则可以为输入字段动态地生成语法。关于这一点,诸如输入字段的标题之类的输入字段的核心属性可以为输入字段指定可允许的输入,或者,核心属性可以参考现有的语法。
在任一种情况下,可以将语法和语音输入从内容浏览器张贴(post)到语音识别引擎,并且作为响应可以接收文本等值。例如,符合REST的语音识别引擎可以接收来自内容浏览器的语音输入和语法的该张贴,语音识别引擎可以将相当于语音输入的文本,例如,根据Javascript对象符号(JSON)格式化的文本返回到内容浏览器。此后,可以将该文本等值插入到网页的DOM中,并可以重新呈现该网页的受插入影响的部分,以为输入字段提供文本输入的可视化。
以此方式,甚至在没有语音应用开发的特定专业知识的情况下Web应用也可以是支持语音的。具体而言,一个寻求对Web应用中网页的字段进行语音支持的人只需在输入字段的核心属性内为输入字段指定所允许的项。可以参考输入字段的核心属性,自动地生成语音语法。进一步地,可以通过将输入字段的语音输入的文本等值直接插入到网页的DOM中,而将该文本等值无缝地集成到输入字段中。如此,不需要语音识别专业知识即可对Web应用的网页进行语音支持。
在例示中,图1以图形方式示出了用于对网页进行自动化语音支持的过程。如图1所示,Web应用(未示出)的网页120可以通过由呈现网页120的内容浏览器(未示出)产生的DOM 130来表示。DOM130可以在网页120内定义一个或多个不同输入字段180A、180B、180N。每个输入字段180A、180B、180N都可包括诸如标题之类的核心、隐藏属性。本领域技术人员将认识到,根据超文本标记语言(HTML)规范,诸如输入字段之类的标记语言元素的核心属性是已知的,并被很好地备有文件。
语音支持配件(widget)190可以处理由最终用户110为输入字段180A、180B、180N中的给定一个输入字段所提供的语音输入150。具体而言,在从最终用户110接收到语音输入150之后,可以判断是否为输入字段180A、180B、180N中的给定一个输入字段指定了语法。如果没有,则通过参考输入字段180A、180B、180N中的给定一个输入字段的对应的核心属性,为输入字段180A、180B、180N中的给定一个输入字段生成语法140。关于这一点,对于对应的语法提供允许的项的输入字段180A、180B、180N的示例性标记语言元素遵循:
<form dojo Type=″VoiceForm″widgetID=″command″method=″post″>
Field_1:<input type=″text″name=″Field 1″title=″term1,term2,term3″/>
Field_2:<input type=″text″name=″Field 2″title=″term4,term5,term6″/>
Field_N:<input type=″text″name=″Field N″title=″term7,term8″/>
</form>
另外,可以为每一个字段提供诸如[the]或[an]或[to]之类的前缀,以允许自然的语音。更进一步,还可以为允许的项提供语义含义。作为示例,
<form dojo Type=″VoiceForm″widgetID=″command″method=″post″>
Field_1:<input type=″text″name=″Field 1″title=″[the]term1,term2,term3″/>
Field_2:<input type=″text″name=″Field 2″title=″term4,term5,term6″>
Field_N:<input type″text″name=″Field N″title=″(to|$NULL),term7=1,term8=0″/>
</fprm>
以此方式,可以提供语音识别的语义解释(SISR)用于添加到生成的语法中,以便一个项的说出的形式可以被转换为文本等值内的值。
所产生的语法140可以反映所允许的项、前缀和语义值,例如,如下所示:
#ABNF 1.0;
language en-US
mode voice;
tag-format<semantics/1.0>;
root $command
met″author″is″VoiceGrammar Widget″;
public $command=$prologue $action($Field_1$Field_2$Field_N)
       $epilogue{$.Field_1=$Field_1;$.Field_2=$Field_2;$.Field_N=$Field_N}
Sprologue=please|wouldyou|$NULL
$action=do1|do2|doN|$NULL
$Field_1=([the]term1{$=″term_1″}|term2{$=″term_2}|term3{$=″term_3}″/>
$Field_2=(term4{$=″term_4″}|term2{$=″term_5}|term3{$=″term_6}″/>
$Field_N=((to|$NULL)term7{$=″term_7″}|term8{$=″term_8}″/>
$epilogue=thanks|now|$NULL;
可选地,可以只为输入字段180A、180B、180N中的缺乏由最终用户110所提供的输入的那些输入字段生成所产生的语法140。
语音支持配件190可以将所产生的语法140与语音输入150一起提供到语音识别服务160,例如,符合REST的自动语音识别(ASR)引擎。语音识别服务160可以与语法140一起处理语音输入150,以产生语音输入150的文本等值170。可以将该文本等值170返回到语音支持配件190,该语音支持配件190又可以将文本等值170插入到网页120的DOM 130的与输入字段180A、180B、180N中的给定输入字段相对应的那一部分。可任选地,还可以将语音输入150传递到扬声器独立验证(SIV)引擎以执行语音鉴别。最后,可以由内容浏览器(未示出)处理DOM 130,以利用在输入字段180A、180B、180N中的给定输入字段中示出的文本等值170重新呈现网页120。
可以在Web应用数据处理系统中实现结合图1所描述的过程。在例示中,图2示意地描绘了被配置成用于对网页进行自动化语音支持的Web应用数据处理系统。该系统可包括通过计算机通信网络230通信地耦合到客户机240的内容服务器210。内容服务器210可以被配置成通过计算机通信网络230向客户机240供应网页220,以用于在内容浏览器250中呈现。可任选地,每个网页220都可以是从分布在计算机通信网络230上的多个不同内容源(未示出)提取的内容的“杂烩(mesh up)”260。
语音支持配件300可以耦合到内容浏览器250。语音支持配件300可包括用于从输入字段的核心属性中的项为杂烩260中的字段生成提供语音输入270的语法的计算机程序代码。该程序代码进一步可以用于向ASR引擎290提供语法和语音输入270,并且又接收相当于语音输入270的文本输入280。最后,该程序代码还可以进一步用于将文本输入280插入到杂烩260的DOM中,并在内容浏览器250中重新呈现杂烩260,以将文本输入260包括在杂烩260的已经向其中提供了语音输入270的输入字段中。
在语音支持配件300的操作的更进一步的例示中,图3是示出了用于在Web应用数据处理系统中对网页进行语音支持的过程的流程图。在框305中开始,可以接收用于在内容浏览器中呈现的网页,并在框310中,可以为该网页创建DOM。随后,在框315中,可以作为网页在内容浏览器中呈现该DOM。
该网页可以提供预计文本要输入的一个或多个输入字段,然而,还可以与输入字段中的一个或多个一起在该网页中提供用户界面元素,当被激活时,该元素允许在输入字段中提供语音输入代替文本输入。如此,在框320中,可以选择用于语音输入的输入字段,并在判断框325中,可以判断对于该输入字段是否存在语音语法。如果是,则可以为该输入字段加载语法。否则,在框330中,可以从输入字段的核心属性中检索项,并且在框335中,可以基于这些项生成语音语法。
在任意一种情况下,在框345中,可以为输入字段接收语音输入,而在框350中,可以将语音输入与语音语法一起张贴到耦合的ASR引擎中。此后,在框355中,可以将由ASR引擎为语音输入产生的等效的文本插入到与该输入字段相对应的DOM的节点中。最后,在框360中,可以重新呈现该网页以在输入字段中示出文本输入。
本发明的各实施例可以呈现完全是硬件实施方式、完全是软件实施方式或包含硬件和软件元件两者的实施方式的形式。在优选实施例中,本发明是以软件实现的,包括但不仅限于固件、常驻软件、微代码等等。此外,本发明还可以采用计算机程序产品的形式,该产品可以从计算机可用的或计算机可读的介质进行访问,其提供了程序代码,供计算机或任何指令执行系统使用或与它们一起使用。
对于此说明书,计算机可用的或计算机可读的介质可以是能够包含、存储、传递、传播或传输供指令执行系统、设备或装置使用或与它们结合使用的程序的任何设备。介质可以是电子的、磁性的、光学的、电磁的、红外的或半导体系统(设备或器件)或传播介质。计算机可读介质的示例包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前示例包括压缩盘-只读存储器(CD-ROM)、压缩盘-读/写(CD-R/W)和DVD。
适用于存储和/或执行程序代码的数据处理系统将包括至少一个通过系统总线直接或间接地耦接到存储器元件的处理器。存储器元件可以包括在程序代码的实际执行过程中使用的本地存储器、大容量存储器,以及高速缓冲存储器,其提供了至少某些程序代码的临时存储,以便减少在执行过程中必须从大容量存储器取出代码的次数。输入/输出或I/O设备(包括但不仅限于键盘、显示器、指点设备,等等)可以直接或者通过居间I/O控制器耦接到系统。网络适配器也可以耦接到系统,以使得数据处理系统能够通过居间的私有或公共网络耦接到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是几个当前可用类型的网络适配器。

Claims (15)

1.一种用于语音支持网页的方法,包括:
选择网页中的输入字段供进行语音输入;
基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法;
为所述输入字段接收语音输入;
将所接收的语音输入和所述语法张贴到自动语音识ASR引擎;以及,
将由所述ASR引擎所提供的所述语音输入的文本等值插入到所述网页的文档对象模型DOM中。
2.如权利要求1所述的方法,其中,基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括:基于所述输入字段的标题属性中的项来为所述输入字段生成语音语法。
3.如权利要求1或2所述的方法,其中,基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括:基于所述输入字段的核心属性中列出的对于相应语法所允许的项以及所述所允许的项的前缀,为所述输入字段生成语音语法。
4.如权利要求1、2或3所述的方法,其中,基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括:基于所述输入字段的核心属性中列出的对于相应语法所允许的项以及所述所允许的项的语义指示器,为所述输入字段生成语音语法。
5.如权利要求1到4中任一权利要求所述的方法,其中,基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法包括:基于相应的输入字段的核心属性中的项来为每个输入字段生成语音语法。
6.如权利要求5所述的方法,其中,基于相应的输入字段的核心属性中的项来为每个输入字段生成语音语法包括:基于相应的输入字段的核心属性中的项来为缺乏文本输入的每个输入字段生成语音语法。
7.如权利要求1到6中任一权利要求所述的方法,其中,将所接收的语音输入和所述语法张贴到自动语音识别ASR引擎包括:将所接收的语音输入和所述语法张贴到通信地耦合的远程的符合代表性状态传输REST的ASR引擎。
8.一种Web应用数据处理系统,包括:
语音支持配件,包括用于执行下列操作的程序代码:基于输入字段的核心属性中的项来为网页中的输入字段生成语音语法,为所述输入字段接收语音输入,将接收的语音输入和所述语法张贴到通信地耦合的自动语音识别ASR引擎,以及将由所述ASR引擎所提供的所述语音输入的文本等值插入到所述网页的文档对象模型DOM中。
9.如权利要求8所述的系统,其中,所述核心属性是标题字段。
10.如权利要求8或9所述的系统,其中,所述项包括对于相应语法所允许的项。
11.如权利要求10所述的系统,其中,所述项还包括前缀。
12.如权利要求10或11所述的系统,其中,所述项还包括语义指示器。
13.如权利要求8到12中任一权利要求所述的系统,其中,所述ASR引擎是符合代表性状态传输REST的ASR引擎。
14.一种计算机程序产品,包括实施用于语音支持网页的计算机可使用的程序代码的计算机可使用的介质,所述计算机程序产品包括:
用于选择网页的供进行语音输入的输入字段的计算机可使用的程序代码;
用于基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法的计算机可使用的程序代码;
用于为所述输入字段接收语音输入的计算机可使用的程序代码;
用于将所接收到的语音输入和所述语法张贴到自动语音识别ASR引擎的计算机可使用的程序代码;以及,
用于将由所述ASR引擎所提供的所述语音输入的文本等值插入到所述网页的文档对象模型DOM中的计算机可使用的程序代码。
15.如权利要求14所述的计算机程序产品,其中,用于基于所述输入字段的核心属性中的项来为所述输入字段生成语音语法的计算机可使用的程序代码包括:用于基于所述输入字段的隐藏标题属性中的项来为所述输入字段生成语音语法的计算机可使用的程序代码。
CN2009801198498A 2008-04-07 2009-04-03 网页的自动化语音支持 Expired - Fee Related CN102047323B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/099,028 2008-04-07
US12/099,028 US8831950B2 (en) 2008-04-07 2008-04-07 Automated voice enablement of a web page
PCT/EP2009/054008 WO2009124887A1 (en) 2008-04-07 2009-04-03 Automated voice enablement of a web page

Publications (2)

Publication Number Publication Date
CN102047323A true CN102047323A (zh) 2011-05-04
CN102047323B CN102047323B (zh) 2013-04-10

Family

ID=40718702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801198498A Expired - Fee Related CN102047323B (zh) 2008-04-07 2009-04-03 网页的自动化语音支持

Country Status (4)

Country Link
US (1) US8831950B2 (zh)
EP (1) EP2277171A1 (zh)
CN (1) CN102047323B (zh)
WO (1) WO2009124887A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034118A (zh) * 2012-12-23 2013-04-10 黑龙江工程学院 采用语音识别技术的无按键电子报时表
CN105408952A (zh) * 2013-02-21 2016-03-16 谷歌技术控股有限责任公司 识别带口音的语音
CN109766073A (zh) * 2019-01-25 2019-05-17 四川长虹电器股份有限公司 电视浏览器中语音操作网页内容导航的方法
CN113593568A (zh) * 2021-06-30 2021-11-02 北京新氧科技有限公司 将语音转换成文本的方法、系统、装置、设备及存储介质

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8543404B2 (en) * 2008-04-07 2013-09-24 Nuance Communications, Inc. Proactive completion of input fields for automated voice enablement of a web page
US8831950B2 (en) * 2008-04-07 2014-09-09 Nuance Communications, Inc. Automated voice enablement of a web page
US9047869B2 (en) * 2008-04-07 2015-06-02 Nuance Communications, Inc. Free form input field support for automated voice enablement of a web page
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US9213776B1 (en) 2009-07-17 2015-12-15 Open Invention Network, Llc Method and system for searching network resources to locate content
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US9786268B1 (en) * 2010-06-14 2017-10-10 Open Invention Network Llc Media files in voice-based social media
US11068954B2 (en) * 2015-11-20 2021-07-20 Voicemonk Inc System for virtual agents to help customers and businesses
US9576573B2 (en) * 2011-08-29 2017-02-21 Microsoft Technology Licensing, Llc Using multiple modality input to feedback context for natural language understanding
JP5710464B2 (ja) * 2011-12-27 2015-04-30 株式会社東芝 電子機器、表示方法、およびプログラム
US9292252B2 (en) * 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US10157612B2 (en) 2012-08-02 2018-12-18 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9292253B2 (en) * 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9781262B2 (en) 2012-08-02 2017-10-03 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9400633B2 (en) * 2012-08-02 2016-07-26 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US10102848B2 (en) 2014-02-28 2018-10-16 Google Llc Hotwords presentation framework
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US11594218B2 (en) * 2020-09-18 2023-02-28 Servicenow, Inc. Enabling speech interactions on web-based user interfaces

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369577A (en) * 1991-02-01 1994-11-29 Wang Laboratories, Inc. Text searching system
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6587822B2 (en) * 1998-10-06 2003-07-01 Lucent Technologies Inc. Web-based platform for interactive voice response (IVR)
US6314398B1 (en) * 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
US6604075B1 (en) * 1999-05-20 2003-08-05 Lucent Technologies Inc. Web-based voice dialog interface
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6792576B1 (en) * 1999-07-26 2004-09-14 Xerox Corporation System and method of automatic wrapper grammar generation
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6813603B1 (en) * 2000-01-26 2004-11-02 Korteam International, Inc. System and method for user controlled insertion of standardized text in user selected fields while dictating text entries for completing a form
US7389234B2 (en) * 2000-07-20 2008-06-17 Microsoft Corporation Method and apparatus utilizing speech grammar rules written in a markup language
US7308408B1 (en) * 2000-07-24 2007-12-11 Microsoft Corporation Providing services for an information processing system using an audio interface
US7400718B2 (en) * 2000-08-24 2008-07-15 Golden Voice Technology & Training Llc Automated business form information aquisition system
CA2436940C (en) * 2000-12-01 2010-07-06 The Trustees Of Columbia University In The City Of New York A method and system for voice activating web pages
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7020841B2 (en) * 2001-06-07 2006-03-28 International Business Machines Corporation System and method for generating and presenting multi-modal applications from intent-based markup scripts
US20030055649A1 (en) * 2001-09-17 2003-03-20 Bin Xu Methods for accessing information on personal computers using voice through landline or wireless phones
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7222073B2 (en) * 2001-10-24 2007-05-22 Agiletv Corporation System and method for speech activated navigation
US7493259B2 (en) * 2002-01-04 2009-02-17 Siebel Systems, Inc. Method for accessing data via voice
WO2003063137A1 (en) * 2002-01-22 2003-07-31 V-Enable, Inc. Multi-modal information delivery system
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
US7546382B2 (en) * 2002-05-28 2009-06-09 International Business Machines Corporation Methods and systems for authoring of mixed-initiative multi-modal interactions and related browsing mechanisms
SE0202058D0 (sv) * 2002-07-02 2002-07-02 Ericsson Telefon Ab L M Voice browsing architecture based on adaptive keyword spotting
US7660855B2 (en) * 2002-09-24 2010-02-09 International Business Machines Corporation Using a prediction algorithm on the addressee field in electronic mail systems
US7003464B2 (en) 2003-01-09 2006-02-21 Motorola, Inc. Dialog recognition and control in a voice browser
US7054818B2 (en) * 2003-01-14 2006-05-30 V-Enablo, Inc. Multi-modal information retrieval system
US7729913B1 (en) * 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
CN1894658B (zh) * 2003-06-06 2012-02-29 纽约市哥伦比亚大学托管会 用于话音激活网页的系统和方法
US7389236B2 (en) * 2003-09-29 2008-06-17 Sap Aktiengesellschaft Navigation and data entry for open interaction elements
GB2407657B (en) * 2003-10-30 2006-08-23 Vox Generation Ltd Automated grammar generator (AGG)
ATE363120T1 (de) * 2003-11-10 2007-06-15 Koninkl Philips Electronics Nv Audio-dialogsystem und sprachgesteuertes browsing-verfahren
US7660400B2 (en) * 2003-12-19 2010-02-09 At&T Intellectual Property Ii, L.P. Method and apparatus for automatically building conversational systems
CN100424630C (zh) * 2004-03-26 2008-10-08 宏碁股份有限公司 网页语音接口的操作方法
US7739117B2 (en) 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US20060156278A1 (en) * 2004-11-18 2006-07-13 Reager Sue E Global localization and customization system and process
US7613610B1 (en) * 2005-03-14 2009-11-03 Escription, Inc. Transcription data extraction
US20060235694A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Integrating conversational speech into Web browsers
US20060288309A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US7873523B2 (en) * 2005-06-30 2011-01-18 Microsoft Corporation Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech
GB2434664A (en) * 2006-01-25 2007-08-01 Voxsurf Ltd Configuration and analysis of an interactive voice system
US20070192675A1 (en) * 2006-02-13 2007-08-16 Bodin William K Invoking an audio hyperlink embedded in a markup document
US20070203869A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Adaptive semantic platform architecture
US8311836B2 (en) * 2006-03-13 2012-11-13 Nuance Communications, Inc. Dynamic help including available speech commands from content contained within speech grammars
US7747442B2 (en) * 2006-11-21 2010-06-29 Sap Ag Speech recognition application grammar modeling
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8417529B2 (en) * 2006-12-27 2013-04-09 Nuance Communications, Inc. System and methods for prompting user speech in multimodal devices
JP5002283B2 (ja) * 2007-02-20 2012-08-15 キヤノン株式会社 情報処理装置および情報処理方法
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US7991609B2 (en) * 2007-02-28 2011-08-02 Microsoft Corporation Web-based proofing and usage guidance
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8150699B2 (en) * 2007-05-17 2012-04-03 Redstart Systems, Inc. Systems and methods of a structured grammar for a speech recognition command system
US20080319757A1 (en) * 2007-06-20 2008-12-25 International Business Machines Corporation Speech processing system based upon a representational state transfer (rest) architecture that uses web 2.0 concepts for speech resource interfaces
US9047869B2 (en) * 2008-04-07 2015-06-02 Nuance Communications, Inc. Free form input field support for automated voice enablement of a web page
US8543404B2 (en) * 2008-04-07 2013-09-24 Nuance Communications, Inc. Proactive completion of input fields for automated voice enablement of a web page
US8831950B2 (en) * 2008-04-07 2014-09-09 Nuance Communications, Inc. Automated voice enablement of a web page
US8935677B2 (en) * 2008-04-07 2015-01-13 Microsoft Corporation Automatic reverse engineering of input formats

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034118A (zh) * 2012-12-23 2013-04-10 黑龙江工程学院 采用语音识别技术的无按键电子报时表
CN105408952A (zh) * 2013-02-21 2016-03-16 谷歌技术控股有限责任公司 识别带口音的语音
US10347239B2 (en) 2013-02-21 2019-07-09 Google Technology Holdings LLC Recognizing accented speech
US10832654B2 (en) 2013-02-21 2020-11-10 Google Technology Holdings LLC Recognizing accented speech
US11651765B2 (en) 2013-02-21 2023-05-16 Google Technology Holdings LLC Recognizing accented speech
CN109766073A (zh) * 2019-01-25 2019-05-17 四川长虹电器股份有限公司 电视浏览器中语音操作网页内容导航的方法
CN113593568A (zh) * 2021-06-30 2021-11-02 北京新氧科技有限公司 将语音转换成文本的方法、系统、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2009124887A1 (en) 2009-10-15
US8831950B2 (en) 2014-09-09
CN102047323B (zh) 2013-04-10
EP2277171A1 (en) 2011-01-26
US20090254346A1 (en) 2009-10-08

Similar Documents

Publication Publication Date Title
CN102047323B (zh) 网页的自动化语音支持
CN112136124B (zh) 用于与计算机实现的自动助理进行人机对话会话的依赖图谈话建模
US10679622B2 (en) Dependency graph generation in a networked system
EP4174715A1 (en) Method and apparatus for pre-training a language model, storage medium and program product
US9047869B2 (en) Free form input field support for automated voice enablement of a web page
US8543404B2 (en) Proactive completion of input fields for automated voice enablement of a web page
CN108270843A (zh) 生成和传送对适当第三方代理的调用请求
CN110741363B (zh) 使用机器学习处理自然语言以基于槽描述符确定槽值
US11775254B2 (en) Analyzing graphical user interfaces to facilitate automatic interaction
US20140122056A1 (en) Chatbot system and method with enhanced user communication
Alhassan et al. A novel framework for Arabic dialect chatbot using machine learning
Yassin et al. SeerahBot: An Arabic chatbot about prophet’s biography
US10509852B2 (en) Utilizing classification and text analytics for annotating documents to allow quick scanning
CN111966803B (zh) 对话模拟方法、装置、存储介质及电子设备
Zubair Khan et al. SeerahBot: An Arabic Chatbot about Prophet’s Biography
CN111209348B (zh) 用于输出信息的方法和装置
Harshani Sinhala chatbot for train information
Lim et al. Knowledge Management Approach for Memory Components Based on User-friendly Conversational System
Rozga et al. Applying our learnings: Alexa skills kit
Ali Mousa et al. Developing a web application for collecting conversations in lab rooms
Perdana et al. Knowledge-Enriched Domain Specific Chatbot on Low-resource Language
CN114036959A (zh) 会话语境的确定方法、装置、计算机程序产品和存储介质
Xuetao et al. A corpus-based NLP-chain for a web-based Assisting Conversational Agent
TW201901487A (zh) 能對網路資料進行解析並據以模擬特定對象之方法
Plhák A context-based grammar generation in mixed initiative dialogue system for visually impaired

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130410

Termination date: 20210403