CN100581198C - 在网络中处理音频数据的方法,以及实现该方法的设备 - Google Patents
在网络中处理音频数据的方法,以及实现该方法的设备 Download PDFInfo
- Publication number
- CN100581198C CN100581198C CN200380108193A CN200380108193A CN100581198C CN 100581198 C CN100581198 C CN 100581198C CN 200380108193 A CN200380108193 A CN 200380108193A CN 200380108193 A CN200380108193 A CN 200380108193A CN 100581198 C CN100581198 C CN 100581198C
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- software application
- call
- inst2
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012545 processing Methods 0.000 title claims abstract description 11
- 230000005540 biological transmission Effects 0.000 claims abstract description 7
- 102100032919 Chromobox protein homolog 1 Human genes 0.000 claims description 16
- 101000797584 Homo sapiens Chromobox protein homolog 1 Proteins 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003780 insertion Methods 0.000 claims description 7
- 230000037431 insertion Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 238000011161 development Methods 0.000 claims 3
- 230000006870 function Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 4
- 230000000977 initiatory effect Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 101150050883 ERV2 gene Proteins 0.000 description 1
- 101000640813 Homo sapiens Sodium-coupled neutral amino acid transporter 2 Proteins 0.000 description 1
- 102100033774 Sodium-coupled neutral amino acid transporter 2 Human genes 0.000 description 1
- BNPSSFBOAGDEEL-UHFFFAOYSA-N albuterol sulfate Chemical compound OS(O)(=O)=O.CC(C)(C)NCC(O)C1=CC=C(O)C(CO)=C1.CC(C)(C)NCC(O)C1=CC=C(O)C(CO)=C1 BNPSSFBOAGDEEL-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/58—Arrangements for transferring received calls from one subscriber to another; Arrangements affording interim conversations between either the calling or the called party and a third party
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/006—Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/12—Arrangements for interconnection between switching centres for working between exchanges having different types of switching equipment, e.g. power-driven and step by step or decimal and non-decimal
- H04M7/1205—Arrangements for interconnection between switching centres for working between exchanges having different types of switching equipment, e.g. power-driven and step by step or decimal and non-decimal where the types of switching equipement comprises PSTN/ISDN equipment and switching equipment of networks other than PSTN/ISDN, e.g. Internet Protocol networks
- H04M7/125—Details of gateway equipment
- H04M7/1255—Details of gateway equipment where the switching fabric and the switching logic are decomposed such as in Media Gateway Control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/12—Arrangements for interconnection between switching centres for working between exchanges having different types of switching equipment, e.g. power-driven and step by step or decimal and non-decimal
- H04M7/1205—Arrangements for interconnection between switching centres for working between exchanges having different types of switching equipment, e.g. power-driven and step by step or decimal and non-decimal where the types of switching equipement comprises PSTN/ISDN equipment and switching equipment of networks other than PSTN/ISDN, e.g. Internet Protocol networks
- H04M7/1295—Details of dual tone multiple frequency signalling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q1/00—Details of selecting apparatus or arrangements
- H04Q1/18—Electrical details
- H04Q1/30—Signalling arrangements; Manipulation of signalling currents
- H04Q1/44—Signalling arrangements; Manipulation of signalling currents using alternate current
- H04Q1/444—Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
- H04Q1/45—Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies using multi-frequency signalling
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Telephonic Communication Services (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Communication Control (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
Abstract
一种处理包括音频数据的数据流的方法,音频数据在服务器(SERV)和至少一个电话终端之间的网络上交换,该数据流对应于来自所述终端的一次电话呼叫,在该电话呼叫期间用户至少产生一个事件。该方法包括步骤a),该步骤是从数据流中提取对应于每个事件的音频数据(INST2),和步骤b),该步骤是执行至少一个与该提取的音频数据(INTS2)有关并可被软件应用程序执行的任务,该软件应用程序被设计用来通过利用非专用于音频的数据传输协议与网络进行交互。该方法还包括步骤c),该步骤将与所提取的音频数据(INST2)有关,并适于激活步骤b)的至少一条指令(INST2’),引入所述的软件应用程序(AL)。
Description
技术领域
本发明涉及用于在网络中处理音频数据的方法和程序,并涉及实现该方法的设备。
本发明更特别地涉及一种处理包括音频数据的数据流的方法,音频数据在服务器和至少一个电话终端之间的网络中交换,该数据流对应于来自终端的一次电话呼叫,在该电话呼叫期间用户至少产生一个事件。该方法包括:
步骤a),该步骤是从对应于每次电话呼叫的数据流中提取对应于每个事件的音频数据;
步骤b),该步骤是执行与所提取的音频数据有关并可被软件应用程序执行的至少一个任务。
背景技术
这些已有技术方法使得电话终端和服务器通过交换电话网络通信,交换电话网络可以是公共的或私人的,固定的或移动的。举个例子,其相当于按首字母缩写为IVR(interactive voice response,交互式语音应答)的众所周知的方法。
例如,这些方法使得信息以语音形式传达给用户,或者使得用户可以以语音数据方式给出的指令远程控制一些操作,比如当用户在电话终端的键盘上按压按键时产生的语音命令或声音(一种按首字母缩写为DTMF,dual tone multi-frequency,双音多频的方法)。
通过这类方法,用户可以查询例如银行收支或股票价格,也可以在语音信箱查询或留下讯息等等。
在该电话呼叫期间,数据流由电话终端产生。该数据流包括例如:识别用户的标识(ID)数据,以及由电话终端的话筒采集对应于由用户发出的声音的数据,或由按压终端的按键产生声音的数据。在这些声音中,有一些对应于特定事件的语音数据特征。
当音频数据被相配的服务器识别,程序执行相应的任务。例如,当用户发出词“删除”时,在给定场景中该词对应于一预定事件,运行对应于删除在语音信箱中讯息的任务。
在已有技术方法,特别是在文件EP 1175074中描述的方法中,对应于IVR应用程序的计算机程序采用专用语言,例如TCL(tool command language,装置命令语言)进行开发,或要求采用解释器,例如VXML(voice extensible markuplanguage,语音扩展标识语言)等等。这些程序都仅专用于语音应用,其只用一种这样的语言写成,且与这些程序兼容的数据库专用于这些语音应用。
发明内容
本发明的一个目的是使IVR类型的音频数据通信方法应用于更多的源。
这一目的通过一种方法实现,除了上述的特性,该方法的特征还是,软件应用程序被设计用来采用非专用于音频的数据传输协议与网络进行交互,且该方法包括步骤c),该步骤包括通过专用于语音并经由插入子模块加到软件应用程序中的程序单元,将与所提取的音频数据有关并适于激活步骤b)的至少一条指令,插入所述软件应用程序。
除已有的语音应用程序外,这些处理使得使用应用程序和与已开发的这些应用程序兼容的数据库成为可能,该已开发的应用程序用于实现服务器和不是只用音频数据通信的用户之间交互。这样,可能采用已开发的应用程序或数据库,例如用于因特网,从而提供对已存在的多种服务和信息源的访问。
该方法还有一个优点,即已用解释语言写成的所有应用程序,例如,用于因特网,都可立即适用于语音领域,而不需要完全重新开发。
该方法也使将任何新的IVR应用程序立即在以信息包模式运行的远程通信网络中成为一体变得可能。
在本发明的较佳实施例中,也可任选地采取如下的一个或多个处理:
软件应用程序采用一种语言写成,而加到该软件应用程序的专用于语音的程序单元也采用相同的语言写成;
事件由用户按压电话终端的至少一个键产生;
事件由用户发出语音命令产生,且步骤a)包括通过语音识别单元识别发出的语音命令的步骤;
软件应用程序适于在因特网或内部网或电话网络上执行等同于给用户提供服务的任务。
该方法包括步骤a’),步骤a’)是在从数据流所提取的非语音数据的基础上管理电话呼叫中的变化;且
该步骤包括步骤d),步d)是采用用于在网络中传输音频数据的协议,来响应用户产生的至少一个事件在网络中传输输出音频数据。
另一方面,本发明提供一种用于处理包括音频数据的数据流的系统,音频数据在网络中服务器和至少一个电话终端之间交换,该数据流对应于来自所述终端的一次电话呼叫,在该电话呼叫期间用户产生至少一个事件,该系统包括:
提取装置,用于从对应于每次电话呼叫的数据流中提取对应于每个事件的音频数据;
执行装置,执行与所提取的音频数据(INTS2)有关并可被软件应用程序执行的至少一个任务;
该系统的特性是,软件应用程序被设计用来采用一并非专用于音频的数据传输协议与网络进行交互,且该系统包括插入装置,用于将与所提取的音频数据有关并适于被执行装置读和执行的至少一条指令,插入所述的软件应用程序中,引入装置包括专用于语音并加到软件应用程序中的程序单元。
救助可任选如下的一个或多个的处理:
所述的提取装置,执行装置和引入装置集成在服务器中,且服务器包括至少一台计算机;
该服务器包括取自如下表中的数字处理器装置:
语音识别单元,用于识别由至少一个用户发出的语音命令;
呼叫控制单元,用于从对应于各电话呼叫的数据流中提取对应于各电话呼叫的非音频数据;
声音发送器单元,用于利用一用于音频数据传输的网络协议,在网络上输出对应于至少一个事件的音频数据;
呼叫传输单元,用于为至少一个用户管理呼叫传输;
读单元,用于读出与所提取的音频数据有关的至少一条指令;
呼叫传输指令单元,用于实现呼叫传输;和
会议建立指令单元,用于利用对应于各电话呼叫的非音频数据,建立至少有两个电话呼叫的会议;和
音频数据库。
另一方面,本发明提供一种计算机程序,用于处理包含音频数据的数据流,该音频数据在网络中服务器与至少一个电话终端之间的交换,该数据流对应于来自所述的终端上的电话呼叫,在该电话呼叫期间用户产生至少一个事件,该计算机程序包括程序代码部分,用于在所述的程序被计算机执行时,执行这种方法的步骤。
另一方面,本发明提供一种为执行至少一个任务而准备计算机程序的方法,这种任务涉及从包括音频数据的数据流中提取的音频数据,该音频数据在网络中服务器和至少一个电话终端之间交换,该数据流对应于来自所述终端上的电话呼叫,在该电话呼叫期间用于产生至少一个事件,音频数据对应于所述的事件;
该方法的特征在于,所述计算机程序由软件应用程序执行,该软件应用程序用于利用非专用的音频协议的数据传输协议与网络交互,;且
该方法包括将插入子模块加到软件应用程序中的步骤,子模块包括专用于语音并适于将指令引入软件应用程序的程序单元,该指令与所提取的音频数据有关,并适于激活所述的任务执行。
本发明的其他方面、目的和优点将出现在阅读以下多个作为非限制例子的实施例的描述的过程中。
附图说明
借助于附图,可以更好地理解本发明,其中:
图1是根据本发明实现的IVR应用程序的总框图;
图2是示出本发明的应用程序系统的操作的图;
图3是示出本发明的应用程序系统的第二实施例的操作;而
图4示出一例操作中的本发明;
在不同图中,采用相同的标记表示相同或相似的元件。
具体实施方式
图1是示出一例根据本发明实现的交互语音服务器的框图。
一用户UTI,或者一组用户,可以通过例如电话或计算机访问电路交换电话网络RESC。
这样,在该电话呼叫期间,用户UTI产生声音。这些声音对应于例如用户的语音或和在电话终端上按键关联的特定声音信号。这些声音构成音频数据。在该音频数据中,某些数据代表特定的由用户为激活一个服务而产生的事件。举个例子,这样的事件包括发出用于识别的特定词,或是按压使用中的终端的特定按键。
该语音数据从电话终端出发,和其他通信数据(比如识别该呼叫的数据)一起传输,从而形成数据流,数据流被电话网络RESC传至媒体网关MED,用于将电路交换电话网络连接到分组交换电话网络RESP,反之亦然。对于本领域熟悉人员,这类媒体网关是众所周知的(例如参见文件EP 1175074)。数据流接着由分组交换电话网络利用在这类网络上的传输或呼叫建立协议传送至应用程序系统SYST。例如,其可以是会话发起协议(SIP),该协议是因特网工程任务组语音协议。
应用程序系统SYST由服务提供者管理。提供的服务相当于查询数据库(目录、天气数据、股票价格等等)和/或执行操作(为移动电话下载铃声或标志等等)。
数据流相当于经由应用程序系统SYST到达服务提供者的信息。该信息同时涉及由服务的一个或多个用户建立的呼叫,并涉及由所述的用户产生的一组事件。这些事件可以是任意类型,例如按压电话终端的给定键,或点击显示在计算机或其他屏幕上的网页上的给定链接,以通过菜单浏览,用来获得信息或执行给定的操作。
该应用程序系统包括从数据流中分离出的第一模块MOD1,属于由各用户UTI建立的各呼叫的信息INST1,以及对应于事件的有用的音频数据,这些数据适用于激活一个或多个经由服务器访问的服务。第一模块MOD1处理与呼叫有关的信息,并为给定用户UTI翻译与音频数据有关的指令INST2′并将其送至第二模块MOD2。第二模块MOD2处理和用户UTI的交互并输出即将提供给用户UTI的描述信息的指令INST2′,作为其接收到的解释过的指令INST2′的功能。举个例子,该信息可涉及关于操作的结果的成功/失败信息,或涉及由用户申请的信息。
第一模块MOD1接着接收这些由第二模块MOD2输出的输出指令INST2,并利用SIP网络协议传输一组声音,这些声音构成对用户UTI产生的事件的响应。这样用户UTI和服务提供者之间的对话建立了,结果,不仅多个事件可以由用户UTI传输,以接收由服务提供者提供的合适的响应,而且呼叫的特性可以随事件改变。第一模块MOD1用于处理呼叫的特性变化,而第二模块用于处理由用户UTI或一组用户提出的多个请求的响应。
举个例子,服务可以是与数据库DATA交换数据。
分组交换电话网络和第一模块MOD1之间,以及第一和第二模块MOD1和MOD2之间的通信利用比如SIP协议发生。在第二模块MOD2中的交互,举个例子,以一种以超文本预处理(PHP)的语言,或以java脚本语言等等,得到处理。
参见图2,描述了一例本发明的应用程序系统SYST。在该应用程序系统中,举个例子,事件对应于通过按压电话终端的按键产生的声音。来自分组交换电话网络的数据流到达第一模块MOD1。第一模块MOD1基本上包括呼叫控制器CONT和指令产生器GEN。
更特别地,在第一模块MOD1中,数据流被送至呼叫控制器CONT中。该呼叫控制器控制在分组交换电话网络和第一模块MOD1之间利用SIP协议交换的输入和输出数据。它处理建立和监控语音呼叫的操作,管理在应用程序系统中的呼叫的唯一ID,以及SIP协议的所有功能。对于给定的用户,它将与事件有关的指令INST传输到指令发生器GEN。指令发生器GEN检测到线另一端的用户UTI已产生一给定的事件,比如按压电话的“*”键,然后将这一对应于指令INST2的信息解释成指令INST2′,把指令INST2′送至第二模块MOD2。
第二模块MOD2主要包括采用可以编译或解释的高级语言写成的软件应用程序AL。该软件应用程序AL可能已被开发以通过因特网提供服务而不需要专门修改以接收语音指令。软件应用程序一般被设计成通过利用非专用于音频目的的数据传输协议,例如因特网协议(IP)来与网络RESP进行交互。这就是为什么第二模块MOD2还包括插入子模块SM。该插入子模块在需要的地方可起到将附加的指令INSTA加到指令INST2′上的作用,使得专用于语音领域的指令INST2′可在高级语言的代码中使用。
通过插入子模块SM,软件应用程序的指令阅读程序单元LINST能够理解指令产生器GEN发出的指令INST2′,从而能激活以为非专用语音应用程序而开发的高级语言编程的任务。
更特别地,插入子模块SM叠放在软件应用程序AL之上并对此加上非专用于语音,且以高级语言代码写成的程序单元,从而能够例如通过在类型<VOCAL>和</VOCAL>的分隔符之间延伸的命令行,来解码由事件发生器GEN解释的指令INST2′。该程序单元也可再分成分布在软件应用系统中的多个计算机中的多个部分,或者实现系统功能,以代替部分该系统。
这样,在本发明的一例操作中,软件应用程序AL已经采用例如PHP语言得到编程。该程序的语言被重新编译,使利用专用于语音的程序单元,例如命令at_prompt(),成为可能。这种命令使接收DTMF信号成为可能。
例如,在一给定的情况下,预先存在的软件应用程序促使菜单显示在远程用户计算机的屏幕上,允许用户通过在键盘上打字符来选择软件应用程序的多个功能中的一个。在预先存在的软件应用程序的基础上,开发者可以将如下程序单元加到软件应用程序:命令$key=at_prompt()。变量″key″(指令INST2′)取用户按压键的值。软件应用程序的相应功能取决于变量″key″的值得到访问,如同以前通过用户按压键盘上的相应键来访问。由于可以采用预先存在的软件应用程序中的功能,这样就不需要重新开发专用于IVR的上述功能。
另外,系统可以检测用户是否通过电话正在访问软件应用程序,在这种情况下变量取由键盘提供的值(该程序单元已存是软件应用程序中),或取由电话提供的值(该程序单元正被加到子模块SM中)。
这样,软件应用程序A1可以处理指令INST2′并对由用户UTI产生的事件提供响应。
以高级语言形式的软件应用程序AL不一定已经开发,以提供专用于语音领域的信息,故可能必需通过插入子模块SM返回,以通过EINST单元提供指令INSTS′,用于发送声音传输指令,该指令INSTS′接着被送至第一模块MOD1中的声音发送器单元EMI上。可任选地将附加的指令INSTA′加到指令INSTS′上。声音发送器单元EMI可以通过搜索数据库(未显示)中的声音元素并对其编码来响应指令INSTS′,从而将适合在电话网络上传输的编码过的声音元素送至呼叫控制器CONT。呼叫控制器CONT复原编码过的声音元素,且作为用户UTI识别的功能,将与最初由用户产生的事件有关的信息INSTS传送给所述的用户。
这样,在一个例子中,预先存在的软件应用程序过去常使“您的信息已注册”之类的确认信息显示在远程用户的计算机屏幕上。编程语言已被重新编译使开发者能够将诸如命令at_play(sound_file.al)的专用于语音的程序单元加到软件应用程序上。这种命令起到使传统类型的声音文件被读的作用。在预先存在的软件应用程序的基础上,开发者可以对其在合适位置上加上包含命令at_play(confirmation.al)的程序单元,在那儿声音文件confirmation.al回播“您的信息已注册”。
在本发明的背景下,可以在软件应用程序上加上许多其他命令。特别地,可以做好准备以在数据库中更新与特定用户有关的数据文件,无论远程用户在什么情况下挂断电话。
使用可执行程序,比如以C++开发的程序,修改开发软件应用程序的编程语言,使得编程语言可以包括附加的命令,例如命令at_play(file.al)或命令at_prompt()等。从预先存在的软件应用程序开始,通过添加子模块SM,可很容易地构建IVR应用程序,其中,子模块包括添加的专用于语音的程序代码单元。
图2示出本发明的应用系统SYST的简单例,使得可一个或多个声音响应由用户UTI产生的事件,返回给一或多个用户UTI。
本发明的应用系统可实现以批其他功能,例如图3示出的那些功能。
如图3所示,除了应用系统SYST的上述构件,应用系统SYST被完全改编以允许用户UTI产生不再只通过按压电话键而产生的事件。它也可以处理与显示在计算机屏幕上使用鼠标在以HTML(hypertext markup language,超文本标记语言)形式格式化的文件的一页上所做的选择相对应的数据,或者由用户UTI发出的纯语音声音。
举个例子,通过语音指示,声音被用户UTI的电话终端采集,然后在电话网络上传送至集成在第一模块MOD1上的声音接收器单元URS。例如,由用户UTI产生的声音是用户发出的词。接着,声音接收器单元URS可以例如,包括语音识别单元REC,语音识别单元REC能够识别由用户UTI发出的词,并且作为这种识别结果的功能,能够将指令INST2′送至记录指令单元RINST。指令INST2′可以任选地与由插入子模块SM产生的附加指令INSTA相关联,使得记录指令单元RINST能够通过其插入子模块读指令INST2′。
在类似的方式下,此应用系统SYST也可通过呼叫传输单元TRA和传输指令单元TINST来处理诸如呼叫传输的功能。这些功能通过采用与上述的指令INST2′和INSTA类似的指令来实现。这是一种使信息能够被送至呼叫控制器CONT的选择,呼叫控制器使呼叫传输能够被网络的语音协议,例如SIP,处理和支持。
在此描述的例子中的应用系统也可以以相同的方式,根据用户UTI的请求,使用会议建立单元CONF和会议指令单元CINST,使来自多个用户UTI的呼叫进入会议。
以下结合图4描述本发明的一例操作的可选方案。一个或一组用户UTI寻求访问服务,比如上面提到的服务,和如由服务提供者在网络RESC上提供的服务。能够响应这种服务的软件应用程序AL位于远程服务器上,例如一个基于由Intel制造的处理器的服务器。该服务器在诸如,Windows,Unix或Linux操作系统下运行,且除了上述的应用系统SYST,还包括控制该服务器SERV其他功能的系统SYST2。用户UTI寻求访问的服务可以以非语音方式提供,例如通过以PHP语言形式的软件应用程序AL。
由用户UTI产生的事件,比如来自手持电话,如上面的解释,通过电路交换电话网络RESC送至媒体网关MED,并通过分组交换网络RESP送至装有应该程序的服务器SERV。在本例中,分组交换网络RESP是比如因特网。服务器SERV通过传统以太网接口IR和网络RESP连接。
如上面的解释,输入数据流通过第一模块MOD1处理,第一模块管理与呼叫有关的所有方面,并将与由用户产生的事件有关的指令INST2′送至第二模块MOD2,在第二模块中,它们由软件应用程序AL通过子模块SM接收,子模块采用以C++形式的可执行软件将指令INST2′转换成如同重新编译的PHP4.2.2语言,从而使其能够集成到软件应用程序AL中,而软件应用程序AL本身采用PHP语言。软件应用程序AL通过执行适当的任务来响应指令INST2′。特别地,可以从储存在数据库DATA中的数据中重新构成语言响应。软件应用程序AL也可以例如特别通过与其他远程的,可在因特网上访问的服务器SERV2和/或数据库DATA2交互,来产生其他功能。
第二模块MOD2能够将输出指令INSTS′返回到第一模块MOD1。第一模块利用网络语音协议SIP直接在分组交换网络RESP上传输,提供与由用户UTI以语音形式产生事件有关的信息。
另外,取决于由用户UTI产生的数据流,系统SYST2可以例如将专用于该用户的数据经由分组交换网络RESP传输至远程数据库DATA2。
Claims (12)
1.一种处理包括音频数据(INST2)的数据流的方法,音频数据(INST2)在服务器(SERV)和至少一个电话终端之间的网络中交换,该数据流对应于来自终端的一次电话呼叫,在该电话呼叫期间用户(UTI)至少产生一个事件,该方法包括:
步骤a),该步骤是从对应于每次电话呼叫的数据流中提取对应于每个事件的音频数据(INST2);和
步骤b),该步骤是执行与该提取的音频数据(INTS2)有关并可被软件应用程序(AL)执行的至少一个任务;
该方法的特征在于,软件应用程序(AL)采用为非专用语音应用程序开发的语言编程并且被设计用来使用非专用于音频的数据传输协议与网络进行交互,且该方法包括步骤c),该步骤包括通过专用于语音并通过插入子模块加到软件应用程序中的程序单元,将与所提取的音频数据(INST2)有关并适于激活步骤b)的至少一条指令(INST2′),插入所述软件应用程序。
2.如权利要求1所述的一种方法,其特征在于,软件应用程序(AL)采用一种语言写成,而加到软件应用程序中的专用于语音的程序单元也采用相同的语言写成。
3.如权利要求1或2所述的一种方法,其特征在于,事件由用户(UTI)按压电话终端的至少一个键产生。
4.如权利要求1或2所述的一种方法,其特征在于,事件由用户(UTI)发出语音命令产生,且步骤a)包括通过语音识别单元(REC)识别发出的语音命令的步骤。
5.如权利要求1或2所述的一种方法,其特征在于,软件应用程序适于在因特网或内联网(RESP)或电话网络(RESC)上执行给用户(UTI)提供服务的任务。
6.如权利要求1或2所述的一种方法,还包括步骤a′),步骤a′)是在从数据流所提取的非语音数据的基础上管理呼叫中的改变。
7.如权利要求1或2所述的一种方法,还包括步骤d),步骤d)是利用用于在网络中传输音频数据的协议,在响应用户(UTI)产生的至少一个事件传递时在网络上传输输出音频数据(INSTS)。
8.一种系统,用于处理包括音频数据(INST2)的数据流,该音频数据(INST2)在服务器(SERV)和至少一个终端之间的网络中交换,该数据流对应于来自所述终端的一次电话呼叫,在该电话呼叫期间用户(UTI)产生至少一个事件,该系统包括:
提取装置(MOD1),用于从对应于每次电话呼叫的数据流中提取对应于每个事件的音频数据(INST2);和
执行装置(MOD2),用于执行与该提取的音频数据(INTS2)有关并可被软件应用程序(AL)执行的至少一个任务;
该系统的特征在于,软件应用程序(AL)采用为非专用语音应用程序开发的语言编程并且被设计用来利用非专用于音频的数据传输协议与网络进行交互,且该系统包括插入装置(SM),用于将与所提取的音频数据有关并适于被执行装置读和执行的至少一条指令,插入所述的软件应用程序(AL)中,该插入装置(SM)包括专用于语音并加到软件应用程序中的程序单元。
9.如权利要求8的一种系统,其特征在于,所述的提取装置(MOD1)、执行装置(MOD2)和插入装置(SM)集成在服务器(SERV)中,且该服务器(SERV)包括至少一台计算机。
10.如权利要求8或9的一种系统,其特征在于,服务器包括从以下列表中获得的数字处理器装置:
语音识别单元(REC),用于识别至少一个用户(UTI)发出的语音命令;
呼叫控制单元(CONT),用于从对应于各电话呼叫的数据流中提取对应于各电话呼叫的非音频数据;
声音发送器单元(EMI),用于利用用于音频数据传输的网络协议,来在网络上输出对应于至少一个事件的音频数据(INSTS);
呼叫传输单元(TRA),用于为至少一个用户管理呼叫传输;
读单元(LINST),用于读出与所提取的音频数据(INST2’)有关的至少一条指令;
呼叫传输指令单元(TINST),用于实现呼叫传输;和
会议建立指令单元(CINST),用于利用对应于各电话呼叫的非音频数据,建立至少有两个电话呼叫的会议。
11.如权利要求8或9的一种系统,还包括一音频数据库(DATA)。
12.一种为执行至少一个任务准备计算机程序的方法,该计算机程序包括软件应用程序(AL),该任务与从包括音频数据(INST2)的数据流所提取的音频数据(INST2)有关,该音频数据(INST2)在服务器(SERV)和至少一个电话终端之间的网络上交换,该数据流对应于来自所述终端上的电话呼叫,在该电话呼叫期间用户(UTI)产生至少一个事件,该音频数据(INST2)对应于所述的事件;
所述方法的特征在于所述任务由软件应用程序(AL)执行,该软件应用程序(AL)采用为非专用语音应用程序开发的语言编程并且利用非专用的音频协议的数据传输协议来与网络交互;且
该方法包括将插入子模块(SM)加到软件应用程序(AL)中的步骤,所述子模块包括专用于语音并适于将指令(INST2′)引入软件应用程序(AL)的程序单元,该指令与所提取的音频数据(INST2)有关,并适于激活所述的任务执行。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR02/15026 | 2002-11-29 | ||
FR0215026A FR2848053B1 (fr) | 2002-11-29 | 2002-11-29 | Procede de traitement de donnees audio sur un reseau et dispositif de mise en oeuvre de ce procede |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1736088A CN1736088A (zh) | 2006-02-15 |
CN100581198C true CN100581198C (zh) | 2010-01-13 |
Family
ID=32309833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200380108193A Expired - Lifetime CN100581198C (zh) | 2002-11-29 | 2003-11-24 | 在网络中处理音频数据的方法,以及实现该方法的设备 |
Country Status (12)
Country | Link |
---|---|
US (1) | US8644465B2 (zh) |
EP (1) | EP1566046B1 (zh) |
JP (1) | JP4813798B2 (zh) |
CN (1) | CN100581198C (zh) |
AT (1) | ATE503341T1 (zh) |
AU (1) | AU2003294071A1 (zh) |
CA (1) | CA2506549C (zh) |
DE (1) | DE60336498D1 (zh) |
ES (1) | ES2363594T3 (zh) |
FR (1) | FR2848053B1 (zh) |
HK (1) | HK1088752A1 (zh) |
WO (1) | WO2004051973A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8417511B2 (en) * | 2006-12-28 | 2013-04-09 | Nuance Communications | Dynamic grammars for reusable dialogue components |
WO2012006171A2 (en) * | 2010-06-29 | 2012-01-12 | Georgia Tech Research Corporation | Systems and methods for detecting call provenance from call audio |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US57783A (en) * | 1866-09-04 | Improved machine for making metal tubes | ||
GB9523759D0 (en) * | 1995-11-21 | 1996-01-24 | Pollitt Alexander J | World wide web information retrieval system |
EP0834229A1 (en) | 1996-04-22 | 1998-04-08 | AT&T Corp. | Method and apparatus for information retrieval using audio interface |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
US6714641B2 (en) * | 1998-04-03 | 2004-03-30 | Nortel Networks, Ltd | Web based personal directory |
US6456699B1 (en) * | 1998-11-30 | 2002-09-24 | At&T Corp. | Web-based generation of telephony-based interactive voice response applications |
US6742021B1 (en) * | 1999-01-05 | 2004-05-25 | Sri International, Inc. | Navigating network-based electronic information using spoken input with multimodal error feedback |
US7024363B1 (en) * | 1999-12-14 | 2006-04-04 | International Business Machines Corporation | Methods and apparatus for contingent transfer and execution of spoken language interfaces |
AU2279801A (en) * | 1999-12-20 | 2001-07-03 | Audiopoint, Inc. | System for on-demand delivery of user-specific audio content |
AU2762601A (en) * | 2000-01-07 | 2001-07-24 | Informio, Inc. | Methods and apparatus for forwarding audio content using an audio web retrieval telephone system |
US6654722B1 (en) * | 2000-06-19 | 2003-11-25 | International Business Machines Corporation | Voice over IP protocol based speech system |
US7286521B1 (en) * | 2000-07-21 | 2007-10-23 | Tellme Networks, Inc. | Localized voice over internet protocol communication |
US7203186B1 (en) * | 2000-11-27 | 2007-04-10 | Fuller William H | System and device for integrating IP and analog telephone systems |
US7283808B2 (en) * | 2001-01-18 | 2007-10-16 | Research In Motion Limited | System, method and mobile device for remote control of a voice mail system |
US7945592B2 (en) | 2001-03-20 | 2011-05-17 | Verizon Business Global Llc | XML based transaction detail records |
-
2002
- 2002-11-29 FR FR0215026A patent/FR2848053B1/fr not_active Expired - Lifetime
-
2003
- 2003-11-24 ES ES03789487T patent/ES2363594T3/es not_active Expired - Lifetime
- 2003-11-24 AU AU2003294071A patent/AU2003294071A1/en not_active Abandoned
- 2003-11-24 EP EP03789487A patent/EP1566046B1/fr not_active Expired - Lifetime
- 2003-11-24 CN CN200380108193A patent/CN100581198C/zh not_active Expired - Lifetime
- 2003-11-24 US US10/536,320 patent/US8644465B2/en active Active
- 2003-11-24 DE DE60336498T patent/DE60336498D1/de not_active Expired - Lifetime
- 2003-11-24 CA CA2506549A patent/CA2506549C/fr not_active Expired - Lifetime
- 2003-11-24 JP JP2004556417A patent/JP4813798B2/ja not_active Expired - Lifetime
- 2003-11-24 AT AT03789487T patent/ATE503341T1/de not_active IP Right Cessation
- 2003-11-24 WO PCT/FR2003/003472 patent/WO2004051973A1/fr active Application Filing
-
2006
- 2006-08-11 HK HK06108920.2A patent/HK1088752A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
ATE503341T1 (de) | 2011-04-15 |
FR2848053A1 (fr) | 2004-06-04 |
JP2006508596A (ja) | 2006-03-09 |
FR2848053B1 (fr) | 2005-04-01 |
EP1566046B1 (fr) | 2011-03-23 |
US20060047516A1 (en) | 2006-03-02 |
ES2363594T3 (es) | 2011-08-10 |
JP4813798B2 (ja) | 2011-11-09 |
CA2506549C (fr) | 2013-02-12 |
CA2506549A1 (fr) | 2004-06-17 |
US8644465B2 (en) | 2014-02-04 |
AU2003294071A1 (en) | 2004-06-23 |
EP1566046A1 (fr) | 2005-08-24 |
DE60336498D1 (de) | 2011-05-05 |
WO2004051973A1 (fr) | 2004-06-17 |
CN1736088A (zh) | 2006-02-15 |
HK1088752A1 (en) | 2006-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104902113B (zh) | 处理电话会话的系统和方法 | |
US4659877A (en) | Verbal computer terminal system | |
US9456008B2 (en) | System and method for processing telephony sessions | |
US4716583A (en) | Verbal computer terminal system | |
CN1323510C (zh) | 与远程用户通信的方法和系统 | |
US7801294B2 (en) | System and method for resuming automatic advance calling to contacts | |
CN1617559B (zh) | 顺序多模输入 | |
JPH11510977A (ja) | オーディオインターフェイスを用いた情報の取り出し方法および装置 | |
US7831030B2 (en) | Method and apparatus for automatic advance calling to contacts | |
US8069206B2 (en) | System and method for real-time feedback with conservative network usage in a teleconferencing system | |
US20040161079A1 (en) | Methods and systems for routing a call | |
US6493434B1 (en) | Update of web audio messages via audio user interface | |
US6167429A (en) | Service access using limited set of characters | |
CN1770804A (zh) | 用于交互式菜单传输的方法和系统 | |
CN100334863C (zh) | 用于把文本数据转换为语音输出的系统 | |
CN100581198C (zh) | 在网络中处理音频数据的方法,以及实现该方法的设备 | |
CN100539622C (zh) | 具有集成的tcap和isup接口的语音浏览器 | |
CN1620018A (zh) | 通过个人计算系统访问语音服务的方法和系统 | |
CN100531216C (zh) | 媒体资源的控制方法及装置 | |
WO2000030329A1 (en) | A data access system and method | |
CN1805403B (zh) | 分组用户终端使用通信业务的方法及其系统 | |
KR100647420B1 (ko) | 클라이언트/서버 모델을 활용한 음성인식 시스템 및 그를 이용한 음성인식 서비스 제공방법 | |
CN101422003A (zh) | VoIP客户信息 | |
CN1868203B (zh) | 具有应用传送标记的语音标记语言及其翻译器 | |
KR200201894Y1 (ko) | 전화기를 이용한 정보 검색 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1088752 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1088752 Country of ref document: HK |
|
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20100113 |