CN105120373B - 语音传输控制方法及系统 - Google Patents

语音传输控制方法及系统 Download PDF

Info

Publication number
CN105120373B
CN105120373B CN201510560933.0A CN201510560933A CN105120373B CN 105120373 B CN105120373 B CN 105120373B CN 201510560933 A CN201510560933 A CN 201510560933A CN 105120373 B CN105120373 B CN 105120373B
Authority
CN
China
Prior art keywords
voice
vxml
phonetic order
answer device
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510560933.0A
Other languages
English (en)
Other versions
CN105120373A (zh
Inventor
李波
陈迪
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201510560933.0A priority Critical patent/CN105120373B/zh
Publication of CN105120373A publication Critical patent/CN105120373A/zh
Priority to US15/255,627 priority patent/US9667787B2/en
Priority to US15/470,824 priority patent/US9807243B2/en
Application granted granted Critical
Publication of CN105120373B publication Critical patent/CN105120373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/533Voice mail systems
    • H04M3/53333Message receiving aspects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/33Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • H04M1/642Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations storing speech in digital form
    • H04M1/645Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations storing speech in digital form with speech synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • H04M1/65Recording arrangements for recording a message from the calling party
    • H04M1/6505Recording arrangements for recording a message from the calling party storing speech in digital form
    • H04M1/651Recording arrangements for recording a message from the calling party storing speech in digital form with speech synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/533Voice mail systems
    • H04M3/53308Message originator indirectly connected to the message centre, e.g. after detection of busy or absent state of a called party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/533Voice mail systems
    • H04M3/53366Message disposing or creating aspects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/39Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • H04M2201/405Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition involving speaker-dependent recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/41Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition

Abstract

一种语音传输控制方法及系统。所述方法包括:语音应答装置接收语音指令;将所述语音指令通过网络数据传输通道发送至声控服务器;所述声控服务器识别所述语音指令;基于识别结果生成对应的VXML控制信息;经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置;所述语音应答装置根据接收到的VXML控制信息执行相应的操作。应用所述方法可以简化通信系统的系统架构及工作流程,并可以降低其设计难度。

Description

语音传输控制方法及系统
技术领域
本发明涉及语音传输技术领域,特别涉及一种语音传输控制方法及系统。
背景技术
目前,企业应用系统可以包括企业通信平台及UC系统等。通过企业通信平台及UC系统等系统可以为员工提供便利。例如,企业员工之间可以通过企业通信平台向对方拨打电话,通过UC系统召集多媒体会议等。
在使用企业通信平台或UC系统时,员工需要先查找通讯录来获知目标电话号码,再通过手动按键的方式将所获知的目标电话号码输入至企业通信平台或UC系统来进行相应的通信。
为了使得企业应用系统更加便于使用,目前对企业应用系统进行了改进,使得所述企业应用系统可以基于员工的语音指令执行相应的操作。但是上述改进使得企业应用系统的架构及工作流程变得非常复杂,并且设计难度较大。
发明内容
本发明要解决的问题是如何通信系统的系统架构及工作流程,并降低其设计难度。
本发明实施例提供了一种语音传输控制方法,所述方法包括:
语音应答装置接收语音指令;
将所述语音指令通过网络数据传输通道发送至声控服务器;
所述声控服务器识别所述语音指令;
基于识别结果生成对应的VXML控制信息;
经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置;
所述语音应答装置根据接收到的VXML控制信息执行相应的操作。
可选地,所述VXML控制信息为第一VXML控制信息,所述第一VXML控制信息包括:与所述语音指令对应的VXML对话表的存储地址,及控制所述语音应答装置执行所述VXML对话表的第一控制指令;
所述语音应答装置根据接收到的VXML控制信息执行相应的操作,包括:所述语音应答装置根据所述第一控制指令获取并执行所述VXML对话表,提示用户进行输入操作,并将用户输入的语音指令经所述网络数据传输通道发送至所述声控服务器。
可选地,所述VXML控制信息为第二VXML控制信息,所述第二VXML控制信息包括:与所述语音指令对应的VXML脚本的地址,及控制所述语音应答装置执行所述VXML脚本的第二控制指令;
所述语音应答装置根据接收到的VXML控制信息执行相应的操作,包括:所述语音应答装置根据所述第二控制指令获取并执行所述VXML脚本。
可选地,所述第二VXML控制信息还包括:目标号码信息。
可选地,所述方法还包括:语音转换装置将所述语音应答装置接收到的语音指令转换为对应的文本数据;
所述将所述语音指令通过网络数据传输通道发送至声控服务器,包括:所述语音应答装置将所述语音指令对应的文本数据通过网络数据传输通道发送至声控服务器。
可选地,所述声控服务器识别所述语音指令,包括:所述声控服务器对所述语音指令对应的文本数据进行模糊匹配,识别所述语音指令。
可选地,所述语音应答装置通过人机交互界面或远程操控的方式接收所述语音指令。
可选地,在所述语音应答装置接收语音指令之前,所述方法还包括:
所述语音应答装置接收来自用户的触发操作;
根据所述触发操作向所述声控服务器发送操作请求;
所述声控服务器根据所述操作请求向所述语音应答装置发送对应的VXML控制信息;
所述语音应答装置接收语音指令,包括:所述语音应答装置根据所述VXML控制信息接收所述语音指令。
本发明实施例提供了一种语音传输控制系统,所述系统包括:
语音应答装置,适于接收语音指令;将所述语音指令通过网络数据传输通道发送至声控服务器;以及根据接收到的VXML控制信息执行相应的操作;
所述声控服务器,适于识别所述语音指令;基于识别结果生成对应的VXML控制信息;以及经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置。
可选地,所述语音应答装置包括:
第一接收单元,适于接收所述语音指令;
第一发送单元,适于将所述语音指令通过网络数据传输通道发送至所述声控服务器;
操作单元,适于根据接收到的VXML控制信息执行相应的操作;
所述声控服务器包括:
识别单元,适于识别所述语音指令;
生成单元,适于基于识别结果生成对应的VXML控制信息;
第二发送单元,适于经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置。
可选地,所述生成单元生成的VXML控制信息为第一VXML控制信息,所述第一VXML控制信息包括:与所述语音指令对应的VXML对话表的存储地址,及控制所述语音应答装置执行所述VXML对话表的第一控制指令;
所述操作单元适于根据所述第一控制指令获取并执行所述VXML对话表,提示用户进行输入操作;
所述第一发送单元还适于将用户输入的语音指令经所述网络数据传输通道发送至所述声控服务器。
可选地,所述生成单元生成的VXML控制信息为第二VXML控制信息,所述第二VXML控制信息包括:与所述语音指令对应的VXML脚本的地址,及控制所述语音应答装置执行所述VXML脚本的第二控制指令;
所述操作单元适于根据所述第二控制指令获取并执行所述VXML脚本。
可选地,所述第二VXML控制信息还包括:目标号码信息。
可选地,所述语音应答装置还包括:
第二接收单元,适于在所述语音应答装置接收语音指令之前,接收来自用户的触发操作;
第三发送单元,适于根据所述触发操作向所述声控服务器发送操作请求;
所述声控服务器还包括:
第四发送单元,适于根据所述操作请求向所述语音应答装置发送对应的VXML控制信息;
所述语音应答装置的第一接收单元适于根据所述VXML控制信息接收所述语音指令。
可选地,所述系统还包括:语音转换装置,适于将所述语音应答装置接收到的语音指令转换为对应的文本数据;
所述第一发送单元适于将所述语音指令对应的文本数据通过网络数据传输通道发送至声控服务器。
可选地,所述识别单元适于对所述语音指令对应的文本数据进行模糊匹配,识别所述语音指令。
可选地,所述第一接收单元通过人机交互界面或远程操控的方式接收所述语音指令。
可选地,所述语音应答装置位于第三方服务系统,所述声控服务器集成于人工智能机器人。
与现有技术相比,本发明的技术方案至少具有以下优点:
通过采用语音应答装置接收语音指令,以及采用声控服务器识别所述语音指令,再根据识别结果生成相应的控制信息,最终由所述控制信息控制语音应答装置执行相应的操作,可以简化对语音指令进行传输控制的系统架构及工作流程。并且,由于所述控制信息为VXML控制信息,可以有效降低对语音指令进行传输控制的设计难度。
附图说明
图1是本发明实施例中一种语音传输控制系统的结构示意图;
图2是本发明实施例中一种语音传输控制方法的流程图;
图3是本发明实施例中一种语音传输控制系统的工作流程图;
图4是本发明实施例中一种语音应答装置的结构示意图;
图5是本发明实施例中一种声控服务器的结构示意图。
具体实施方式
目前的企业应用系统虽然可以基于员工的语音指令实现多方通话及呼叫转移等功能,但所述企业应用系统的架构及工作流程通常较复杂,且设计难度较大。
针对上述问题,本发明的实施例提供了一种语音传输控制方法,所述方法通过采用语音应答装置接收语音指令,以及采用声控服务器对所述语音指令进行识别,进而产生相应的控制信息,由所述控制信息控制所述语音应答装置执行相应的操作,因此可以简化对语音指令进行传输控制的系统架构及工作流程。并且,将所述控制信息设置为语音扩展标记语言(Voice Extensible Makeup Language,VXML)控制信息,可以有效降低对语音指令进行传输控制的设计难度。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例作详细的说明。
如图1所示,本发明实施例提供了一种语音传输控制系统10,所述语音传输控制系统10可以包括:语音应答装置11以及声控服务器12。所述语音应答装置11以及声控服务器12通过网络数据传输通道13进行数据传输。
其中,所述语音应答装置11适于接收语音指令,并将所述语音指令通过网络数据传输通道13发送至声控服务器12。所述声控服务器12适于识别所述语音指令,并基于识别结果生成对应的VXML控制信息,以及经所述网络数据传输通道13将所述VXML控制信息发送至所述语音应答装置11。所述语音应答装置11还适于根据接收到的VXML控制信息执行相应的操作。
在具体实施中,所述语音指令可以为用户口头表达的自然语言。用户可以通过所表达的自然语言,向语音应答装置11发出相应的请求或命令。所述语音指令中可以仅包括目标对象信息,或者仅包括目标操作信息,还可以同时包括目标对象信息及目标操作信息。例如,所述语音指令可以为“请找销售部的宾斌”,其中,“销售部的宾斌”即为目标对象信息。所述语音指令还可以为“立刻找技术部江淮开会”,其中,“技术部江淮”即为目标对象信息,“开会”即为目标操作信息。
在具体实施中,所述语音应答装置11可以为单独的终端设备,比如所述语音应答装置11可以为手持终端设备、平板型设备、网络PC、小型计算机、大型计算机等;也可以位于第三方服务系统,例如,所述语音应答装置11可以为互动式语音应答系统(InteractiveVoice Response,IVR)。具体无论所述语音应答装置11的形式如何,只要所述语音应答装置11可以接收语音指令,并将所述语音指令通过网络数据传输通道13传输至声控服务器12,以及根据所述声控服务器12生成的控制信息执行相应的应答操作即可。
在具体实施中,所述声控服务器12可以是一台独立的专用服务器,也可以同时提供其他服务,比如可以在其他服务器上开辟一块专用的存储区和内存区,以提供语音控制服务,还可以将所述声控服务器12集成于人工智能机器人。当然,不论是采用哪种方式的声控服务器12,都可以与语音应答装置11通过网络数据传输通道13相连。
在具体实施中,所述网络数据传输通道13可以为有线网络数据传输通道,也可以采用无线网络数据传输通道。其中,所述无线网络可以包括WiFi、蓝牙、红外等多种无线连接方式。具体无论所述语音应答装置11与所述声控服务器12之间的连接方式如何,均不构成对本发明的限制,且均在本发明的保护范围之内。
在具体实施中,所述语音传输控制系统10还可以包括语音转换装置14。所述语音转换装置14适于将所述语音应答装置11接收到的语音指令转换为对应的文本数据。在所述语音转换装置14将所述语音指令转换为对应的文本数据后,再由所述语音应答装置11经网络数据传输通道13将所述语音指令对应的文本数据传输至声控服务器12,所述声控服务器12对所述语音指令对应的文本数据进行相应处理。
需要说明的是,所述语音转换装置可以为单独的终端设备,比如所述语音应答装置11可以为手持终端设备、平板型设备、网络PC、小型计算机、大型计算机等;也可以位于第三方服务系统,例如,所述语音应答装置11可以为互动式语音应答系统(Automatic SpeechRecognition,ASR)。
为了使本领域技术人员更好地理解和实现本发明,以下对语音传输控制系统对应的方法进行详细描述。
如图2所述,本发明实施例提供了一种语音传输控制方法。下面结合图1对所述方法进行详细接介绍。
具体地,所述方法可以包括如下步骤:
步骤21,语音应答装置11接收语音指令。
在具体实施中,所述语音应答装置11可以通过多种方式接收所述语音指令。例如,可以通过人机交互界面接收所述语音指令,也可以通过远程操控的方式接收所述语音指令。
在具体实施中,所述语音应答装置11在接收所述语音指令之前,可以先接收来自用户的触发操作。例如,按热键“11”,来激活所述语音传输控制系统10。所述语音应答装置11接收来自用户的触发操作后,可以根据所述触发操作向所述声控服务器12发送操作请求。所述声控服务器12根据所述操作请求向所述语音应答装置11发送对应的VXML控制信息,所述语音应答装置11可以根据所述VXML控制信息执行相应的操作,例如,播放欢迎语及等待用户的语音指令等。也就是说,所述语音应答装置11可以在所述声控服务器12发送的VXML控制信息的控制下,接收所述语音指令。
步骤22,将所述语音指令通过网络数据传输通道发送至声控服务器。
在具体实施中,所述语音指令可以经语音转换装置14转换为对应的文本数据后,再将所述语音指令对应的文本数据通过网络数据传输通道13发送至声控服务器12。
步骤23,所述声控服务器12识别所述语音指令。
在具体实施中,所述声控服务器12在接收到所述语音指令对应的文本数据后,可以通过对所述语音指令对应的文本数据进行模糊匹配的方式,识别所述语音指令。其中,所述模糊匹配的规则可以由本领域技术人员根据实际使用情况进行设定,例如,可以先将所述文本数据转换为对应的拼音串,再对所述拼音串进行分词处理,最后从语料数据库中搜索与分词后的拼音串对应的文字。
步骤24,基于识别结果生成对应的VXML控制信息。
在具体实施中,所述VXML控制信息可以为第一VXML控制信息。所述第一VXML控制信息可以包括:与所述语音指令对应的VXML对话表的存储地址,及控制所述语音应答装置11执行所述VXML对话表的第一控制指令。例如,所述第一控制指令为控制所述语音应答装置11播报语音的指令,所述VXML对话表即为执行所播报的语音数据对应的VXML对话表。
进一步地,所述第一控制指令可以为VXML控制指令。与所述语音指令对应的VXML对话表可以存储在所述语音应答装置11中,也可以存储在声控服务器12中,还可以存储在其他设备中,具体所述VXML对话表的存储介质不作限定,只要所述语音应答装置11可以获取到所述VXML对话表即可。
在具体实施中,所述VXML控制信息也可以为第二VXML控制信息。所述第二VXML控制信息可以包括:与所述语音指令对应的VXML脚本的地址,及控制所述语音应答装置11执行所述VXML脚本的第二控制指令。此外,所述第二VXML控制信息还可以包括目标号码信息。其中,与所述语音指令对应的VXML脚本的地址,可以是与用户第一次输入的语音指令所对应的VXML脚本的地址,也可以是与用户在后续使用过程中输入的任何一次语音指令所对应的VXML脚本的地址,
例如,所述第二控制指令为控制所述语音应答装置11执行呼叫的指令,此时,所述第二VXML控制信息还可以包括目标号码,所述VXML脚本即为执行所述呼叫对应的VXML脚本。
进一步地,所述第二控制指令可以为VXML控制指令。与所述语音指令对应的VXML脚本可以存储在所述语音应答装置11中,也可以存储在声控服务器12中,还可以存储在其他设备中,具体所述VXML脚本的存储介质不作限定,只要所述语音应答装置11可以获取到所述VXML脚本即可。
步骤25,经所述网络数据传输通道13将所述VXML控制信息发送至所述语音应答装置11。
步骤26,所述语音应答装置11根据接收到的VXML控制信息执行相应的操作。
具体地,当所述VXML控制信息为第一VXML控制信息时,所述语音应答装置11可以根据所述第一控制指令获取并执行所述VXML对话表,提示用户进行输入操作,并将用户输入的语音指令经所述网络数据传输通道13发送至所述声控服务器12。
例如,所述第一控制指令为控制所述语音应答装置11播报语音的指令,所述VXML对话表为执行所播报的语音数据对应的VXML对话表,所述语音应答装置11根据所述第一控制指令向用户播报所述语音。
当所述VXML控制信息为第二VXML控制信息时,所述语音应答装置11可以根据所述第二控制指令获取并执行所述VXML脚本。
例如,所述第二控制指令为控制所述语音应答装置11执行呼叫的指令,所述VXML脚本即为执行所述呼叫对应的VXML脚本,所述语音应答装置11根据所述第二控制指令呼叫目标号码。
下面以所述语音应答装置11为IVR,语音转换装置14为ASR,声控服务器12为人工智能机器人为例,对使用所述语音传输控制系统10实现实时电话会议的工作流程进行详细描述:
如图3所示,所述语音传输控制系统10的工作流程可以包括如下步骤:
步骤s1,用户呼叫接入IVR 11;
步骤s2,IVR 11接收实时电话会议的语音指令;
步骤s3,IVR 11将所述语音指令发送至ASR 14;
步骤s4,ASR 14对所述语音指令转换为对应的文本数据;
步骤s5,ASR 14将所述文本数据发送至IVR 11;
步骤s6,IVR 11将所述文本数据发送至人工智能机器人12;
步骤s7,人工智能机器人12对所述文本数据进行识别,并生成第一VXML控制信息,所述第一VXML控制信息控制IVR 11播报语音并提示用户输入语音指令;
步骤s8,人工智能机器人12将所述第一VXML控制信息发送至IVR 11;
步骤s9,IVR 11播报语音并提示用户输入语音指令;
步骤s10,用户向IVR 11输入语音指令;
步骤s11,IVR 11将用户输入的语音指令发送至人工智能机器人12;
步骤s12,人工智能机器人12根据用户输入的所述语音指令生成第二VXML控制信息,所述第二VXML控制信息用于控制IVR 11执行呼叫操作;
步骤13,人工智能机器人12将所述第一VXML控制信息发送至IVR 11;
步骤14,IVR 11执行呼叫操作。
为了使得本领域技术人员更加清楚地实施所述语音传输控制系统10,下面对所述语音传输系统10进行详细介绍:
在本发明的一实施例中,如图4所示,所述语音应答装置11可以包括:第一接收单元41,第一发送单元42以及操作单元43。其中,所述第一接收单元41适于接收所述语音指令。所述第一发送单元42适于将所述语音指令通过网络数据传输通道发送至所述声控服务器。所述操作单元43适于根据接收到的VXML控制信息执行相应的操作。
在本发明的一实施例中,如图5所示,所述声控服务器12可以包括:识别单元51,生成单元52以及第二发送单元53。其中,所述识别单元51适于识别所述语音指令。所述生成单元52适于基于识别结果生成对应的VXML控制信息。所述第二发送单元53适于经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置。
下面结合图4及图5,对所述语音传输控制系统进行详细介绍:
在具体实施中,所述第一接收单元41可以通过多种方式接收所述语音指令。例如,所述第一接收单元41可以通过人机交互界面接收所述语音指令,也可以通过远程操控的方式接收所述语音指令。
所述语音指令可以经语音转换装置14转换为对应的文本数据后,再由所述第一发送单元42适于将所述语音指令对应的文本数据通过网络数据传输通道13发送至声控服务器12。
所述声控服务器12接收到所述语音指令对应的文本数据后,由识别单元51对所述语音指令对应的文本数据进行模糊匹配,以识别所述语音指令。再由生成单元52根据所述语音指令生成VXML控制信息。
在具体实施中,所述生成单元52生成的VXML控制信息可以为第一VXML控制信息,也可以为第二VXML控制信息。其中,所述第一VXML控制信息包括:与所述语音指令对应的VXML对话表的存储地址,及控制所述语音应答装置11执行所述VXML对话表的第一控制指令。所述第二VXML控制信息包括:与所述语音指令对应的VXML脚本的地址,及控制所述语音应答装置执行所述VXML脚本的第二控制指令。此外,所述第二VXML控制信息还可以包括:目标号码信息。
当所述生成单元52生成的VXML控制信息为第一VXML控制信息时,所述操作单元43适于根据所述第一控制指令获取并执行所述VXML对话表,提示用户进行输入操作,所述第一发送单元42还适于将用户输入的语音指令经所述网络数据传输通道13发送至所述声控服务器12。
当所述生成单元52生成的VXML控制信息为第二VXML控制信息时,所述操作单元43适于根据所述第二控制指令获取并执行所述VXML脚本。
在具体实施中,所述语音应答装置11还可以包括:第二接收单元(未示出)以及第三发送单元(未示出)。其中,所述第二接收单元适于在所述语音应答装置接收语音指令之前,接收来自用户的触发操作。所述第三发送单元适于根据所述触发操作向所述声控服务器发送操作请求。
相应地,所述声控服务器12可以包括:第四发送单元54(未示出)。所述第四发送单元54适于根据所述操作请求向所述语音应答装置发送对应的VXML控制信息。此时,所述语音应答装置11的第一接收单元41适于根据所述第VXML控制信息接收所述语音指令。
由上述内容可以看出,本发明实施例中的语音传输控制系统系统架构以及工作流程较简单,且通过将控制信息设置为VXML控制信息,可以极大降低语音传输控制系统的设计难度。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (16)

1.一种语音传输控制方法,其特征在于,包括:
语音应答装置接收语音指令;
将所述语音指令通过网络数据传输通道发送至声控服务器;
所述声控服务器识别所述语音指令;
基于识别结果生成对应的VXML控制信息;
经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置;
所述语音应答装置根据接收到的VXML控制信息执行相应的操作;
当所述VXML控制信息为第一VXML控制信息时,所述第一VXML控制信息包括:与所述语音指令对应的VXML对话表的存储地址,及控制所述语音应答装置执行所述VXML对话表的第一控制指令;所述语音应答装置根据接收到的VXML控制信息执行相应的操作,包括:所述语音应答装置根据所述第一控制指令获取并执行所述VXML对话表,提示用户进行输入操作,并将用户输入的语音指令经所述网络数据传输通道发送至所述声控服务器;
当所述VXML控制信息为第二VXML控制信息时,所述第二VXML控制信息包括:与所述语音指令对应的VXML脚本的地址,及控制所述语音应答装置执行所述VXML脚本的第二控制指令;所述语音应答装置根据接收到的VXML控制信息执行相应的操作,包括:所述语音应答装置根据所述第二控制指令获取并执行所述VXML脚本。
2.如权利要求1所述的语音传输控制方法,其特征在于,所述第二VXML控制信息还包括:目标号码信息。
3.如权利要求1所述的语音传输控制方法,其特征在于,还包括:语音转换装置将所述语音应答装置接收到的语音指令转换为对应的文本数据;
所述将所述语音指令通过网络数据传输通道发送至声控服务器,包括:所述语音应答装置将所述语音指令对应的文本数据通过网络数据传输通道发送至声控服务器。
4.如权利要求3所述的语音传输控制方法,其特征在于,所述声控服务器识别所述语音指令,包括:所述声控服务器对所述语音指令对应的文本数据进行模糊匹配,识别所述语音指令。
5.如权利要求1所述的语音传输控制方法,其特征在于,所述语音应答装置通过人机交互界面或远程操控的方式接收所述语音指令。
6.如权利要求1所述的语音传输控制方法,其特征在于,
在所述语音应答装置接收语音指令之前,所述方法还包括:
所述语音应答装置接收来自用户的触发操作;
根据所述触发操作向所述声控服务器发送操作请求;
所述声控服务器根据所述操作请求向所述语音应答装置发送对应的VXML控制信息;
所述语音应答装置接收语音指令,包括:所述语音应答装置根据所述VXML控制信息接收所述语音指令。
7.一种语音传输控制系统,其特征在于,包括:
语音应答装置,适于接收语音指令;将所述语音指令通过网络数据传输通道发送至声控服务器;以及根据接收到的VXML控制信息执行相应的操作;所述声控服务器,适于识别所述语音指令;基于识别结果生成对应的VXML控制信息;以及经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置;
当所述VXML控制信息为第一VXML控制信息时,所述第一VXML控制信息包括:与所述语音指令对应的VXML对话表的存储地址,及控制所述语音应答装置执行所述VXML对话表的第一控制指令;所述根据接收到的VXML控制信息执行相应的操作,包括:所述语音应答装置根据所述第一控制指令获取并执行所述VXML对话表,提示用户进行输入操作,并将用户输入的语音指令经所述网络数据传输通道发送至所述声控服务器;
当所述VXML控制信息为第二VXML控制信息时,所述第二VXML控制信息包括:与所述语音指令对应的VXML脚本的地址,及控制所述语音应答装置执行所述VXML脚本的第二控制指令;所述根据接收到的VXML控制信息执行相应的操作,包括:所述语音应答装置根据所述第二控制指令获取并执行所述VXML脚本。
8.如权利要求7所述的语音传输控制系统,其特征在于,
所述语音应答装置包括:
第一接收单元,适于接收所述语音指令;
第一发送单元,适于将所述语音指令通过网络数据传输通道发送至所述声控服务器;
操作单元,适于根据接收到的VXML控制信息执行相应的操作;
所述声控服务器包括:
识别单元,适于识别所述语音指令;
生成单元,适于基于识别结果生成对应的VXML控制信息;
第二发送单元,适于经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置。
9.如权利要求8所述的语音传输控制系统,其特征在于,所述生成单元生成的VXML控制信息为第一VXML控制信息,所述第一VXML控制信息包括:与所述语音指令对应的VXML对话表的存储地址,及控制所述语音应答装置执行所述VXML对话表的第一控制指令;
所述操作单元适于根据所述第一控制指令获取并执行所述VXML对话表,提示用户进行输入操作;
所述第一发送单元还适于将用户输入的语音指令经所述网络数据传输通道发送至所述声控服务器。
10.如权利要求8或9所述的语音传输控制系统,其特征在于,所述生成单元生成的VXML控制信息为第二VXML控制信息,所述第二VXML控制信息包括:与所述语音指令对应的VXML脚本的地址,及控制所述语音应答装置执行所述VXML脚本的第二控制指令;
所述操作单元适于根据所述第二控制指令获取并执行所述VXML脚本。
11.如权利要求10所述的语音传输控制系统,其特征在于,所述第二VXML控制信息还包括:目标号码信息。
12.如权利要求8所述的语音传输控制系统,其特征在于,
所述语音应答装置还包括:
第二接收单元,适于在所述语音应答装置接收语音指令之前,接收来自用户的触发操作;
第三发送单元,适于根据所述触发操作向所述声控服务器发送操作请求;所述声控服务器还包括:
第四发送单元,适于根据所述操作请求向所述语音应答装置发送对应的VXML控制信息;
所述语音应答装置的第一接收单元适于根据所述VXML控制信息接收所述语音指令。
13.如权利要求8所述的语音传输控制系统,其特征在于,还包括:语音转换装置,适于将所述语音应答装置接收到的语音指令转换为对应的文本数据;
所述第一发送单元适于将所述语音指令对应的文本数据通过网络数据传输通道发送至声控服务器。
14.如权利要求13所述的语音传输控制系统,其特征在于,所述识别单元适于对所述语音指令对应的文本数据进行模糊匹配,识别所述语音指令。
15.如权利要求8所述的语音传输控制系统,其特征在于,所述第一接收单元通过人机交互界面或远程操控的方式接收所述语音指令。
16.如权利要求7所述的语音传输控制系统,其特征在于,所述语音应答装置位于第三方服务系统,所述声控服务器集成于人工智能机器人。
CN201510560933.0A 2015-09-06 2015-09-06 语音传输控制方法及系统 Active CN105120373B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510560933.0A CN105120373B (zh) 2015-09-06 2015-09-06 语音传输控制方法及系统
US15/255,627 US9667787B2 (en) 2015-09-06 2016-09-02 Method and system for voice transmission control
US15/470,824 US9807243B2 (en) 2015-09-06 2017-03-27 Method and system for voice transmission control

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510560933.0A CN105120373B (zh) 2015-09-06 2015-09-06 语音传输控制方法及系统

Publications (2)

Publication Number Publication Date
CN105120373A CN105120373A (zh) 2015-12-02
CN105120373B true CN105120373B (zh) 2018-07-13

Family

ID=54668215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510560933.0A Active CN105120373B (zh) 2015-09-06 2015-09-06 语音传输控制方法及系统

Country Status (2)

Country Link
US (2) US9667787B2 (zh)
CN (1) CN105120373B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106486120B (zh) * 2016-10-21 2019-11-12 上海智臻智能网络科技股份有限公司 交互式语音应答方法及应答系统
CN108132768A (zh) * 2016-12-01 2018-06-08 中兴通讯股份有限公司 语音输入的处理方法,终端和网络服务器
JP6610610B2 (ja) * 2017-04-27 2019-11-27 トヨタ自動車株式会社 音声入出力装置、無線接続方法、音声対話システム
US10978061B2 (en) * 2018-03-09 2021-04-13 International Business Machines Corporation Voice command processing without a wake word
CN109561225A (zh) * 2018-12-04 2019-04-02 合肥天骋电子商务有限公司 一种智能语音导航集中系统
EP3900314A4 (en) * 2018-12-18 2021-12-22 Telefonaktiebolaget LM Ericsson (publ) MANAGEMENT OF PRE-EMPTIVE RESPONSES TO USERS OF A COMMUNICATION NETWORK
CN110266797B (zh) * 2019-06-21 2023-06-13 东莞育商智能科技有限公司 远程声控物联网系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1989733A (zh) * 2004-05-21 2007-06-27 电缆优势软件有限公司 远程访问系统和方法以及其智能代理
CN101001287A (zh) * 2006-12-26 2007-07-18 华为技术有限公司 语音服务器及语音应答方法
CN101030994A (zh) * 2007-04-11 2007-09-05 华为技术有限公司 语音识别方法、系统、语音识别服务器
CN101951553A (zh) * 2010-08-17 2011-01-19 深圳市子栋科技有限公司 基于语音命令的导航方法及系统
CN102497481A (zh) * 2011-12-02 2012-06-13 深圳市车音网科技有限公司 语音拨号方法、装置及系统
CN103188409A (zh) * 2011-12-29 2013-07-03 上海博泰悦臻电子设备制造有限公司 语音自动应答云端服务器、系统及方法
CN103377652A (zh) * 2012-04-25 2013-10-30 上海智臻网络科技有限公司 一种用于进行语音识别的方法、装置和设备
CN104202455A (zh) * 2014-08-30 2014-12-10 北京光年无限科技有限公司 智能语音拨号的方法及装置
CN104732982A (zh) * 2013-12-18 2015-06-24 中兴通讯股份有限公司 交互式语音应答业务中的语音识别方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457281B1 (en) * 1996-11-15 2008-11-25 Ele Tel, Inc. System and method for transmitting voice messages through the internet
US20020035474A1 (en) * 2000-07-18 2002-03-21 Ahmet Alpdemir Voice-interactive marketplace providing time and money saving benefits and real-time promotion publishing and feedback
US6934684B2 (en) * 2000-03-24 2005-08-23 Dialsurf, Inc. Voice-interactive marketplace providing promotion and promotion tracking, loyalty reward and redemption, and other features
US20030125958A1 (en) * 2001-06-19 2003-07-03 Ahmet Alpdemir Voice-interactive marketplace providing time and money saving benefits and real-time promotion publishing and feedback
ITTO20010179A1 (it) * 2001-02-28 2002-08-28 Cselt Centro Studi Lab Telecom Sistema e metodo per l'accesso a strutture multimediali.
US7151763B2 (en) * 2001-06-29 2006-12-19 Bellsouth Intellectual Property Corporation Retrieving voice-based content in conjunction with wireless application protocol browsing
US20030139933A1 (en) * 2002-01-22 2003-07-24 Zebadiah Kimmel Use of local voice input and remote voice processing to control a local visual display
US7395329B1 (en) * 2002-05-13 2008-07-01 At&T Delaware Intellectual Property., Inc. Real-time notification of presence availability changes
US7099442B2 (en) * 2002-11-22 2006-08-29 International Business Machines Corporation Telephony and voice interface for voice server system management
US7460652B2 (en) * 2003-09-26 2008-12-02 At&T Intellectual Property I, L.P. VoiceXML and rule engine based switchboard for interactive voice response (IVR) services
US20050152344A1 (en) * 2003-11-17 2005-07-14 Leo Chiu System and methods for dynamic integration of a voice application with one or more Web services
KR100561228B1 (ko) * 2003-12-23 2006-03-15 한국전자통신연구원 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템
US8838454B1 (en) * 2004-12-10 2014-09-16 Sprint Spectrum L.P. Transferring voice command platform (VCP) functions and/or grammar together with a call from one VCP to another
US8849908B2 (en) * 2005-10-13 2014-09-30 Kaydon A. Stanzione Internet based data, voice and video alert notification communications system
US9002726B2 (en) * 2006-06-19 2015-04-07 Nokia Corporation Advertising based on widgets
US8037179B2 (en) * 2006-11-02 2011-10-11 Storz Endoskop Produktions Gmbh Device control system employing extensible markup language for defining information resources
US8265936B2 (en) * 2008-06-03 2012-09-11 International Business Machines Corporation Methods and system for creating and editing an XML-based speech synthesis document
US9047856B2 (en) * 2012-07-26 2015-06-02 Nuance Communications, Inc. Method and apparatus for tone detection
KR101453979B1 (ko) * 2013-01-28 2014-10-28 주식회사 팬택 음성 명령에 의한 데이터 송수신 방법, 단말 및 시스템

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1989733A (zh) * 2004-05-21 2007-06-27 电缆优势软件有限公司 远程访问系统和方法以及其智能代理
CN101001287A (zh) * 2006-12-26 2007-07-18 华为技术有限公司 语音服务器及语音应答方法
CN101030994A (zh) * 2007-04-11 2007-09-05 华为技术有限公司 语音识别方法、系统、语音识别服务器
CN101951553A (zh) * 2010-08-17 2011-01-19 深圳市子栋科技有限公司 基于语音命令的导航方法及系统
CN102497481A (zh) * 2011-12-02 2012-06-13 深圳市车音网科技有限公司 语音拨号方法、装置及系统
CN103188409A (zh) * 2011-12-29 2013-07-03 上海博泰悦臻电子设备制造有限公司 语音自动应答云端服务器、系统及方法
CN103377652A (zh) * 2012-04-25 2013-10-30 上海智臻网络科技有限公司 一种用于进行语音识别的方法、装置和设备
CN104732982A (zh) * 2013-12-18 2015-06-24 中兴通讯股份有限公司 交互式语音应答业务中的语音识别方法及装置
CN104202455A (zh) * 2014-08-30 2014-12-10 北京光年无限科技有限公司 智能语音拨号的方法及装置

Also Published As

Publication number Publication date
US9667787B2 (en) 2017-05-30
US9807243B2 (en) 2017-10-31
US20170201625A1 (en) 2017-07-13
US20170070612A1 (en) 2017-03-09
CN105120373A (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
CN105120373B (zh) 语音传输控制方法及系统
US11055649B1 (en) Systems and methods relating to customer experience automation
US10951768B2 (en) Measuring cognitive capabilities of automated resources and related management thereof in contact centers
CN110096191B (zh) 一种人机对话方法、装置及电子设备
CN106202301B (zh) 一种基于深度学习的智能应答系统
CN105391730B (zh) 一种信息反馈方法、装置及系统
US20210157989A1 (en) Systems and methods for dialog management
CN110347863B (zh) 话术推荐方法和装置及存储介质
CN105206273B (zh) 语音传输控制方法及系统
US10154144B2 (en) Adjustable interactive voice response system and methods of using same
CN109313666A (zh) 计算机代理消息机器人
WO2015062284A1 (zh) 自然表达处理方法、处理及回应方法、设备及系统
CN109739605A (zh) 生成信息的方法和装置
CN116235177A (zh) 与通过使用相关联的样本话语的已知意图从对话数据挖掘意图来进行机器人创作相关的系统和方法
US20210127008A1 (en) Caller deflection and response system and method
CN110047484A (zh) 一种语音识别交互方法、系统、设备和存储介质
CN109448727A (zh) 语音交互方法以及装置
CN105118507B (zh) 声控系统及其控制方法
JP2019144400A (ja) 制御装置、制御方法及びコンピュータプログラム
Yu et al. Multimodal halef: An open-source modular web-based multimodal dialog framework
KR101207435B1 (ko) 대화형 음성인식 서버, 대화형 음성인식 클라이언트 및 대화형 음성인식 방법
CN107783650A (zh) 一种基于虚拟机器人的人机交互方法及装置
CN110047486A (zh) 语音控制方法、装置、服务器、系统及存储介质
CN110543556A (zh) 对话配置方法及存储介质和电子设备
US20230379282A1 (en) Transfer of ai-powered conversational messaging within a mobile application

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant