CN1558656A - 一种基于voicexml的电话语音实时交互系统和方法 - Google Patents

一种基于voicexml的电话语音实时交互系统和方法 Download PDF

Info

Publication number
CN1558656A
CN1558656A CNA200410001120XA CN200410001120A CN1558656A CN 1558656 A CN1558656 A CN 1558656A CN A200410001120X A CNA200410001120X A CN A200410001120XA CN 200410001120 A CN200410001120 A CN 200410001120A CN 1558656 A CN1558656 A CN 1558656A
Authority
CN
China
Prior art keywords
dynamic
interactive
voice
flow
static
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200410001120XA
Other languages
English (en)
Other versions
CN100464555C (zh
Inventor
孙文彦
张继勇
诸光
任文捷
陈庭玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB200410001120XA priority Critical patent/CN100464555C/zh
Publication of CN1558656A publication Critical patent/CN1558656A/zh
Application granted granted Critical
Publication of CN100464555C publication Critical patent/CN100464555C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种基于voicexml(语音xml标记语言)的电话语音实时交互的方法和系统。方法包括步骤:确定需要定制的电话语音交互应用场景;确定所述交互应用中的动态与静态生成流程;电话呼入时,运行静态生成流程;根据所述静态生成流程调用需要的所述动态流程中的动态参数,根据VXML(voicexml简称)语法结合静态流程生成voicexml文件;执行所述文件,实现电话语音实时交互。系统包括语音门户信息编辑单元、vxml服务器、语音门户运行单元。利用本发明,实现了电话语音交互应用的完全图形界面定制,并且保证了定制的语音应用的交互实时性。

Description

一种基于voicexml的电话语音实时交互系统和方法
技术领域
本发明属于计算机技术领域,涉及一种针对电话语音交互的实时性特点,并且能为普通用户直接用来定制电话语音交互应用的基于voicexml的电话语音实时交互应用定制平台。具体涉及一种基于voicexml的电话语音实时交互系统和方法。
背景技术
随着语音应用技术的不断成熟,和对智能化系统需要的不断增多,各种语音交互应用系统不断出现,语音交互应用在广泛地应用于银行、股票、公共信息、企业呼叫中心等应用领域。伴随语音应用信息的不断更新,对语音应用开发平台的要求也浮出水面,W3C组织相应制定了语音应用的标准xml语言voicexml,一些公司开发了基于voicexml的语音应用平台。
当前出现的语音交互平台有两大局限:只提供的对voicexml的编辑界面,熟悉voicexml的二次开发人员才能使用,普通用户无法定制自己需要的应用;交互流程完全采用www的动态生成页面设计,对于大容量语音实时交互,交互的实时性将因网络传输的影响而降低。
发明内容
本发明的目的是克服现有技术的上述缺点,提供一种基于voicexml的电话语音实时交互系统和方法。
本发明的一种基于voicexml的电话语音实时交互方法,包括步骤:
确定需要定制的电话语音交互应用场景;
确定所述交互应用中的动态与静态生成流程;
电话呼入时,运行静态生成流程;
根据所述静态生成流程调用需要的所述动态流程中的动态参数,根据VXML语法结合静态流程生成voicexml文件;
执行所述文件,实现电话语音实时交互。
可选地,还包括步骤:
企业用户运行编辑单元;
编辑单元将加载已经存在的应用;
用户编辑语音交互应用,并保存完成定制的应用。
优选地,所述实现电话语音实时交互的步骤包括:播放提示语。
可选地,所述调用需要的所述动态流程中的动态参数的步骤包括:响应用户输入,调用动态服务,以运行jsp程序,访问数据库,以获得所述动态流程。
优选地,所述访问数据库的步骤包括:根据用户输入和所述定制的流程,调用动态流程中的变化参数。
可选地,所述数据库和静态生成流程位于一台机器,或分别位于两台机器。
本发明的一种基于voicexml的电话语音实时交互的系统,包括:
语音门户信息编辑装置,用于实现用户和所述系统的交互;
vxml服务器,用于将用户和所述系统的交互生成执行流程,其中,语音交互应用由静态部分和动态部分组成,静态的部分描述主要交互流程和语法,动态部分实现交互流程动态生成;
和语音门户运行装置,用于执行所述流程。
可选地,所述语音门户信息编辑装置包括输入装置,用于由用户确定需要定制的电话语音交互应用场景;所述vxml服务器,用于确定所述交互应用中的动态与静态生成流程,电话呼入时,运行静态生成流程;根据所述静态生成流程调用需要的所述动态流程中的动态参数,根据VXML语法结合静态流程生成voicexml文件;所述语音门户运行装置执行所述文件,实现电话语音实时交互。
优选地,所述运行装置包括对话流程控制装置,用于控制呼入电话的流程;语音识别和语音合成装置,用于识别用户的语音交互并播放提示语。
可选地,所述vxml服务器包括静态服务单元,用于执行所述系统的主流程与控制功能;和动态单元,用于实现所述静态服务单元根据用户要求控制的动态服务;
所述动态单元以Tomcat+Apache方式或者Tomcat直接运行方式加载并执行应用的JSP文件,而Jakarta TagLibs负责JSP标签的解析。
因此,本发明通过对系统架构、对话流程结构设计、对话场景图形界面定制、动态生成场景界面定制等一系列技术的创新和应用,实现了针对非二次开发人员的电话语音交互应用的完全图形界面定制,并且保证了定制的语音应用的交互实时性,为用户特别是企业用户提供了一种定制电话语音应用的工具。
附图说明
图1为本发明的voicexml的电话语音实时交互系统的结构示意图;
图2为本发明的voicexml的电话语音实时交互系统的结构拓扑图;
图3为本发明的实施例中企业用户创建电话语音交互应用过程;
图4为本发明的实施例中普通用户电话呼入后的交互过程。
具体实施方式
为了使本技术领域的人员更好地理解本发明,下面结合附图和实施方式对本发明作进一步的详细说明。
我们把用户分为两类:企业用户(管理员),利用专利提供的平台来创建自己的电话语音交互应用,如企业的呼叫中心语音交互流程定制人员;普通用户,使用电话语音交互应用来完成某些事情,如打电话查询产品价格的客户。
提供一种灵活定制电话语音交互应用的工具。
企业用户可以通过本发明的信息编辑界面来定制需要的电话语音交互应用;对于已经完成的定制应用,本发明的运行单元负责应用的实时运行,并且提供线路运行状态的监控。
本发明基于标准的voicexml 2.0,保证了系统具有良好的扩充性。本发明提供企业用户的定制界面是完全的图形界面,底层的voicexml解析对于企业用户是透明的,企业用户可以获得以IVR树图形界面显示的语音交互应用流程,可以通过界面定制应用。此外,本发明在架构上采用静态和动态页面地结合的技术,从本质上区别于当前众多的语音交互平台(语音浏览器),能够保证语音交互应用的实时性要求。
基于voicexml的电话语音实时交互应用系统的框架图如图1所示。
系统由三部分组成:语音门户信息编辑单元、vxml服务器、语音门户运行单元。语音交互应用由静态部分和动态部分组成,静态的部分描述主要交互流程和语法,动态部分实现交互流程动态生成。
语音交互应用静态对话流程和涉及到的语法文件信息保存在main.vxml文件和grammar.xml文件中,信息编辑单元ccinfo和运行单元ccrun通过共享目录来使用这两个文件和对应的语法包。动态的对话信息通过保存在vxml服务器上的jsp文件来生成。
语音门户运行单元具体负责的语音应用的运行,识别用户的语音和按键输入,播放提示语,并完成相关的电话转接功能,是一套基于语音板卡的应用程序。运行单元分为两层:上层为对话流程控制,通过解析vxml文件,来控制应用的流程。下层包括电话控制、语音识别、语音合成,实现具体电话接听、挂机和转接等电话操作和语音识别语音合成具体功能。此外还包括系统设置模块和日志维护模块,设置系统运行中需要的参数并维护系统运行日志。
VXML服务器负责jsp文件的加载和运行。可以以Tomcat+Apache方式或者Tomcat直接运行方式加载并执行应用的JSP文件,Jakarta TagLibs负责JSP标签的解析。
信息编辑单元负责语音交互应用流程的编辑,分为GUI(图形用户界面)界面模块和vxml(jsp)解析模块。GUI界面模块给用户提供定制语音交互应用的GUI界面,vxml解析模块完成vxml文件、jsp文件的自动生成和维护,是界面与下层的vxml文件的接口。为了保证电话语音交互应用的实时性,信息编辑界面在生成jsp文件时,将动态生成的对话流程最后跳转到主静态流程main.vxml中。
本发明的系统的结构拓扑图如图2所示。
运行单元、信息编辑单元和vxml服务器分别部署在不同的服务器上,三者在同一局域网中。语音交互应用的静态内容部署在语音门户运行单元中,动态服务程序部署在vxml服务器上。语音门户信息编辑单元采用访问虚拟目录方式访问语音交互应用的静态部分。此外,语音识别服务和语音合成服务,可以同语音门户运行单元部署在同一台服务器上,也可以部署在不同的机器上。
信息编辑单元提供图形界面供企业用户创建并编辑语音交互应用,同时语音交互流程信息将以树结构显示在图形编辑界面上。运行单元负责解析及运行语音交互流程,运行单元加载并运行静态流程;在运行中遇到需要动态生成的部分,如数据库查询,向vxml服务器发出请求,vxml服务器将运行对应服务程序,动态生成语音对话流程。
企业用户可以通过语音门户信息编辑单元来创建电话语音交互应用,语音门户运行单元加载运行具体的电话语音交互应用。普通用户通过电话呼入的方式来访问电话语音交互应用。
图3为企业用户创建电话语音交互应用的过程,图4为在运行定制好的电话语音交互应用时,普通用户使用电话与生成的应用交互的一般过程。
图3中,企业用户运行编辑单元,编辑单元将加载已经存在的应用,用户编辑语音交互应用,并保存完成定制的应用。在编辑的过程中,当需要利用保存在应用信息数据库中的应用信息时,由编辑单元自动访问应用信息数据库。
图4中,当企业用户完成电话语音交互应用定制后,启动运行单元。普通用户通过拨打电话的方式访问运行在运行单元中的语音应用,运行单元将运行静态主流程(main.vxml),播放提示语;普通用户可以以语音或按键的输入方式来与系统交互。
当遇到需要动态生成流程时,例如需要从应用信息数据库中获得某产品的报价时,运行单元向vxml服务器提交请求,vxml服务器将运行指定的服务程序,从应用信息数据库中获取需要的产品价格,并生成新的交互流程,返回给运行单元。运行单元将继续运行新生成的交互流程,直到用户挂机或系统转接电话。
由于动态生成的交互流程的执行结果会跳到主交互流程上,同时在除非需要动态生成的交互流程,运行单元大部分时间运行的是静态主流程,大大减少了与vxml服务器交互的时间,保证了电话语音交互的实时性。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims (10)

1、一种基于voicexml的电话语音实时交互的方法,包括步骤:
确定需要定制的电话语音交互应用场景;
确定所述交互应用中的动态与静态生成流程;
电话呼入时,运行静态生成流程;
根据所述静态生成流程调用需要的所述动态流程中的动态参数,根据VXML语法结合静态流程生成voicexml文件;
执行所述文件,实现电话语音实时交互。
2、如权利要求1所述的方法,还包括:
企业用户运行编辑单元;
编辑单元将加载已经存在的应用;
用户编辑语音交互应用,并保存完成定制的应用。
3、如权利要求1所述的方法,其中,所述实现电话语音实时交互的步骤包括:播放提示语。
4、如权利要求1所述的方法,其中,所述调用需要的所述动态流程中的动态参数的步骤包括:响应用户输入,调用动态服务,以运行jsp程序,访问数据库,以获得所述动态流程。
5、如权利要求4所述的方法,其中,所述访问数据库的步骤包括:根据用户输入和所述定制的流程,调用动态流程中的变化参数。
6、如权利要求5所述的方法,其中,所述数据库和静态生成流程位于一台机器,或分别位于两台机器。
7、一种基于voicexml的电话语音实时交互的系统,包括:
语音门户信息编辑装置,用于实现用户和所述系统的交互;
vxml服务器,用于将用户和所述系统的交互生成执行流程,其中,语音交互应用由静态部分和动态部分组成,静态的部分描述主要交互流程和语法,动态部分实现交互流程动态生成;
和语音门户运行装置,用于执行所述流程。
8、如权利要求7所述的系统,其中,所述语音门户信息编辑装置包括输入装置,用于由用户确定需要定制的电话语音交互应用场景;所述vxml服务器,用于确定所述交互应用中的动态与静态生成流程,电话呼入时,运行静态生成流程;根据所述静态生成流程调用需要的所述动态流程中的动态参数,根据VXML语法结合静态流程生成voicexml文件;所述语音门户运行装置执行所述文件,实现电话语音实时交互。
9、如权利要求8所述的系统,其中,所述运行装置包括对话流程控制装置,用于控制呼入电话的流程;语音识别和语音合成装置,用于识别用户的语音交互并播放提示语。
10、如权利要求9所述的系统,其中,所述vxml服务器包括静态服务单元,用于执行所述系统的主流程与控制功能;和动态单元,用于实现所述静态服务单元根据用户要求控制的动态服务;
所述动态单元以Tomcat+Apache方式或者Tomcat直接运行方式加载并执行应用的JSP文件,而Jakarta TagLibs负责JSP标签的解析。
CNB200410001120XA 2004-01-20 2004-01-20 一种基于voicexml的电话语音实时交互系统和方法 Expired - Fee Related CN100464555C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200410001120XA CN100464555C (zh) 2004-01-20 2004-01-20 一种基于voicexml的电话语音实时交互系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200410001120XA CN100464555C (zh) 2004-01-20 2004-01-20 一种基于voicexml的电话语音实时交互系统和方法

Publications (2)

Publication Number Publication Date
CN1558656A true CN1558656A (zh) 2004-12-29
CN100464555C CN100464555C (zh) 2009-02-25

Family

ID=34350570

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200410001120XA Expired - Fee Related CN100464555C (zh) 2004-01-20 2004-01-20 一种基于voicexml的电话语音实时交互系统和方法

Country Status (1)

Country Link
CN (1) CN100464555C (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101677303A (zh) * 2008-09-17 2010-03-24 新奥特(北京)视频技术有限公司 一种基于状态变化的流程控制中消息订阅和分发系统
CN101110843B (zh) * 2007-07-11 2010-07-07 华为技术有限公司 实现不同类型业务交互的系统、方法及设备
WO2010111861A1 (zh) * 2009-03-30 2010-10-07 中兴通讯股份有限公司 基于VoiceXML移动终端语音交互方法及移动终端
CN101605186B (zh) * 2008-06-10 2011-10-26 中兴通讯股份有限公司 一种提高语音可扩展标记语言业务播放远端语音性能方法
CN101895715B (zh) * 2009-05-22 2012-12-19 中兴通讯股份有限公司 一种通过vxml实现视频会议的方法和装置
CN103002156A (zh) * 2011-12-16 2013-03-27 微软公司 用于动态语音菜单的技术
CN105408952A (zh) * 2013-02-21 2016-03-16 谷歌技术控股有限责任公司 识别带口音的语音
CN106953903A (zh) * 2017-03-10 2017-07-14 广州芯德通信科技股份有限公司 Iad上实现ivr实时编程的方法、装置及应用方法、系统
CN110111779A (zh) * 2018-01-29 2019-08-09 阿里巴巴集团控股有限公司 语法模型生成方法及装置、语音识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030043978A1 (en) * 2001-08-31 2003-03-06 Sean Gallagher Lightweight directory access protocol (LDAP) representation of an interactive voice response system
US20040203629A1 (en) * 2002-03-04 2004-10-14 Dezonno Anthony J. Intelligent interactive voice response unit
CN1457180A (zh) * 2002-05-10 2003-11-19 北京艾尼通科技有限公司 实现ip网络中交互式语音应答的方法
CN100579086C (zh) * 2003-08-26 2010-01-06 广东融合通信有限责任公司 一种提供公共呼叫中心服务的方法和系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110843B (zh) * 2007-07-11 2010-07-07 华为技术有限公司 实现不同类型业务交互的系统、方法及设备
CN101605186B (zh) * 2008-06-10 2011-10-26 中兴通讯股份有限公司 一种提高语音可扩展标记语言业务播放远端语音性能方法
CN101677303B (zh) * 2008-09-17 2014-06-04 新奥特(北京)视频技术有限公司 一种基于状态变化的流程控制中消息订阅和分发系统
CN101677303A (zh) * 2008-09-17 2010-03-24 新奥特(北京)视频技术有限公司 一种基于状态变化的流程控制中消息订阅和分发系统
WO2010111861A1 (zh) * 2009-03-30 2010-10-07 中兴通讯股份有限公司 基于VoiceXML移动终端语音交互方法及移动终端
CN101527755B (zh) * 2009-03-30 2011-07-13 中兴通讯股份有限公司 基于VoiceXML移动终端语音交互方法及移动终端
US8724780B2 (en) 2009-03-30 2014-05-13 Zte Corporation Voice interaction method of mobile terminal based on voiceXML and mobile terminal
CN101895715B (zh) * 2009-05-22 2012-12-19 中兴通讯股份有限公司 一种通过vxml实现视频会议的方法和装置
CN103002156B (zh) * 2011-12-16 2016-02-03 微软技术许可有限责任公司 用于动态语音菜单的技术
CN103002156A (zh) * 2011-12-16 2013-03-27 微软公司 用于动态语音菜单的技术
CN105408952A (zh) * 2013-02-21 2016-03-16 谷歌技术控股有限责任公司 识别带口音的语音
US10347239B2 (en) 2013-02-21 2019-07-09 Google Technology Holdings LLC Recognizing accented speech
US10832654B2 (en) 2013-02-21 2020-11-10 Google Technology Holdings LLC Recognizing accented speech
US11651765B2 (en) 2013-02-21 2023-05-16 Google Technology Holdings LLC Recognizing accented speech
CN106953903A (zh) * 2017-03-10 2017-07-14 广州芯德通信科技股份有限公司 Iad上实现ivr实时编程的方法、装置及应用方法、系统
CN110111779A (zh) * 2018-01-29 2019-08-09 阿里巴巴集团控股有限公司 语法模型生成方法及装置、语音识别方法及装置
CN110111779B (zh) * 2018-01-29 2023-12-26 阿里巴巴集团控股有限公司 语法模型生成方法及装置、语音识别方法及装置

Also Published As

Publication number Publication date
CN100464555C (zh) 2009-02-25

Similar Documents

Publication Publication Date Title
US7496516B2 (en) Open architecture for a voice user interface
US7286985B2 (en) Method and apparatus for preprocessing text-to-speech files in a voice XML application distribution system using industry specific, social and regional expression rules
KR100561228B1 (ko) 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템
CN1156751C (zh) 用于自动生成语音xml文件的方法和系统
US8229753B2 (en) Web server controls for web enabled recognition and/or audible prompting
US20050152344A1 (en) System and methods for dynamic integration of a voice application with one or more Web services
US7406418B2 (en) Method and apparatus for reducing data traffic in a voice XML application distribution system through cache optimization
US7634259B2 (en) Applications server and method
US20040073431A1 (en) Application abstraction with dialog purpose
US20040230434A1 (en) Web server controls for web enabled recognition and/or audible prompting for call controls
CA2530867A1 (en) Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an vxml-compliant voice application
CN1558656A (zh) 一种基于voicexml的电话语音实时交互系统和方法
US20020001370A1 (en) Voice portal platform
CN1700714A (zh) 自动实现电话语音服务的系统及方法
US7451086B2 (en) Method and apparatus for voice recognition
CN1457180A (zh) 实现ip网络中交互式语音应答的方法
US7822609B2 (en) Voice browser with integrated TCAP and ISUP interfaces
CN1558655A (zh) 一种实现语音交互应用场景方法
CN1750499A (zh) 一种语音浏览系统
CN102438086A (zh) 一种融合通信中智能语音系统及实现方法
EP1566046B1 (fr) Procede de traitement de donnees audio sur un reseau et dispositif de mise en oeuvre de ce procede
KR20050008155A (ko) 보이스 홈페이지 서비스를 위한 보이스컨텐츠 관리 시스템
US20030236666A1 (en) System for accessing a database using human speech
CN1256835C (zh) 一种实现语音上网的系统及方法
Pargellis et al. A language for creating speech applications.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090225

Termination date: 20210120