CN105120373B

CN105120373B - 语音传输控制方法及系统

Info

Publication number: CN105120373B
Application number: CN201510560933.0A
Authority: CN
Inventors: 李波; 陈迪; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2015-09-06
Filing date: 2015-09-06
Publication date: 2018-07-13
Anticipated expiration: 2035-09-06
Also published as: US9667787B2; US9807243B2; US20170201625A1; US20170070612A1; CN105120373A

Abstract

一种语音传输控制方法及系统。所述方法包括：语音应答装置接收语音指令；将所述语音指令通过网络数据传输通道发送至声控服务器；所述声控服务器识别所述语音指令；基于识别结果生成对应的VXML控制信息；经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置；所述语音应答装置根据接收到的VXML控制信息执行相应的操作。应用所述方法可以简化通信系统的系统架构及工作流程，并可以降低其设计难度。

Description

语音传输控制方法及系统

技术领域

本发明涉及语音传输技术领域，特别涉及一种语音传输控制方法及系统。

背景技术

目前，企业应用系统可以包括企业通信平台及UC系统等。通过企业通信平台及UC系统等系统可以为员工提供便利。例如，企业员工之间可以通过企业通信平台向对方拨打电话，通过UC系统召集多媒体会议等。

在使用企业通信平台或UC系统时，员工需要先查找通讯录来获知目标电话号码，再通过手动按键的方式将所获知的目标电话号码输入至企业通信平台或UC系统来进行相应的通信。

为了使得企业应用系统更加便于使用，目前对企业应用系统进行了改进，使得所述企业应用系统可以基于员工的语音指令执行相应的操作。但是上述改进使得企业应用系统的架构及工作流程变得非常复杂，并且设计难度较大。

发明内容

本发明要解决的问题是如何通信系统的系统架构及工作流程，并降低其设计难度。

本发明实施例提供了一种语音传输控制方法，所述方法包括：

语音应答装置接收语音指令；

将所述语音指令通过网络数据传输通道发送至声控服务器；

所述声控服务器识别所述语音指令；

基于识别结果生成对应的VXML控制信息；

经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置；

所述语音应答装置根据接收到的VXML控制信息执行相应的操作。

可选地，所述VXML控制信息为第一VXML控制信息，所述第一VXML控制信息包括：与所述语音指令对应的VXML对话表的存储地址，及控制所述语音应答装置执行所述VXML对话表的第一控制指令；

所述语音应答装置根据接收到的VXML控制信息执行相应的操作，包括：所述语音应答装置根据所述第一控制指令获取并执行所述VXML对话表，提示用户进行输入操作，并将用户输入的语音指令经所述网络数据传输通道发送至所述声控服务器。

可选地，所述VXML控制信息为第二VXML控制信息，所述第二VXML控制信息包括：与所述语音指令对应的VXML脚本的地址，及控制所述语音应答装置执行所述VXML脚本的第二控制指令；

所述语音应答装置根据接收到的VXML控制信息执行相应的操作，包括：所述语音应答装置根据所述第二控制指令获取并执行所述VXML脚本。

可选地，所述第二VXML控制信息还包括：目标号码信息。

可选地，所述方法还包括：语音转换装置将所述语音应答装置接收到的语音指令转换为对应的文本数据；

所述将所述语音指令通过网络数据传输通道发送至声控服务器，包括：所述语音应答装置将所述语音指令对应的文本数据通过网络数据传输通道发送至声控服务器。

可选地，所述声控服务器识别所述语音指令，包括：所述声控服务器对所述语音指令对应的文本数据进行模糊匹配，识别所述语音指令。

可选地，所述语音应答装置通过人机交互界面或远程操控的方式接收所述语音指令。

可选地，在所述语音应答装置接收语音指令之前，所述方法还包括：

所述语音应答装置接收来自用户的触发操作；

根据所述触发操作向所述声控服务器发送操作请求；

所述声控服务器根据所述操作请求向所述语音应答装置发送对应的VXML控制信息；

所述语音应答装置接收语音指令，包括：所述语音应答装置根据所述VXML控制信息接收所述语音指令。

本发明实施例提供了一种语音传输控制系统，所述系统包括：

语音应答装置，适于接收语音指令；将所述语音指令通过网络数据传输通道发送至声控服务器；以及根据接收到的VXML控制信息执行相应的操作；

所述声控服务器，适于识别所述语音指令；基于识别结果生成对应的VXML控制信息；以及经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置。

可选地，所述语音应答装置包括：

第一接收单元，适于接收所述语音指令；

第一发送单元，适于将所述语音指令通过网络数据传输通道发送至所述声控服务器；

操作单元，适于根据接收到的VXML控制信息执行相应的操作；

所述声控服务器包括：

识别单元，适于识别所述语音指令；

生成单元，适于基于识别结果生成对应的VXML控制信息；

第二发送单元，适于经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置。

可选地，所述生成单元生成的VXML控制信息为第一VXML控制信息，所述第一VXML控制信息包括：与所述语音指令对应的VXML对话表的存储地址，及控制所述语音应答装置执行所述VXML对话表的第一控制指令；

所述操作单元适于根据所述第一控制指令获取并执行所述VXML对话表，提示用户进行输入操作；

所述第一发送单元还适于将用户输入的语音指令经所述网络数据传输通道发送至所述声控服务器。

可选地，所述生成单元生成的VXML控制信息为第二VXML控制信息，所述第二VXML控制信息包括：与所述语音指令对应的VXML脚本的地址，及控制所述语音应答装置执行所述VXML脚本的第二控制指令；

所述操作单元适于根据所述第二控制指令获取并执行所述VXML脚本。

可选地，所述第二VXML控制信息还包括：目标号码信息。

可选地，所述语音应答装置还包括：

第二接收单元，适于在所述语音应答装置接收语音指令之前，接收来自用户的触发操作；

第三发送单元，适于根据所述触发操作向所述声控服务器发送操作请求；

所述声控服务器还包括：

第四发送单元，适于根据所述操作请求向所述语音应答装置发送对应的VXML控制信息；

所述语音应答装置的第一接收单元适于根据所述VXML控制信息接收所述语音指令。

可选地，所述系统还包括：语音转换装置，适于将所述语音应答装置接收到的语音指令转换为对应的文本数据；

所述第一发送单元适于将所述语音指令对应的文本数据通过网络数据传输通道发送至声控服务器。

可选地，所述识别单元适于对所述语音指令对应的文本数据进行模糊匹配，识别所述语音指令。

可选地，所述第一接收单元通过人机交互界面或远程操控的方式接收所述语音指令。

可选地，所述语音应答装置位于第三方服务系统，所述声控服务器集成于人工智能机器人。

与现有技术相比，本发明的技术方案至少具有以下优点：

通过采用语音应答装置接收语音指令，以及采用声控服务器识别所述语音指令，再根据识别结果生成相应的控制信息，最终由所述控制信息控制语音应答装置执行相应的操作，可以简化对语音指令进行传输控制的系统架构及工作流程。并且，由于所述控制信息为VXML控制信息，可以有效降低对语音指令进行传输控制的设计难度。

附图说明

图1是本发明实施例中一种语音传输控制系统的结构示意图；

图2是本发明实施例中一种语音传输控制方法的流程图；

图3是本发明实施例中一种语音传输控制系统的工作流程图；

图4是本发明实施例中一种语音应答装置的结构示意图；

图5是本发明实施例中一种声控服务器的结构示意图。

具体实施方式

目前的企业应用系统虽然可以基于员工的语音指令实现多方通话及呼叫转移等功能，但所述企业应用系统的架构及工作流程通常较复杂，且设计难度较大。

针对上述问题，本发明的实施例提供了一种语音传输控制方法，所述方法通过采用语音应答装置接收语音指令，以及采用声控服务器对所述语音指令进行识别，进而产生相应的控制信息，由所述控制信息控制所述语音应答装置执行相应的操作，因此可以简化对语音指令进行传输控制的系统架构及工作流程。并且，将所述控制信息设置为语音扩展标记语言(Voice Extensible Makeup Language，VXML)控制信息，可以有效降低对语音指令进行传输控制的设计难度。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例作详细的说明。

如图1所示，本发明实施例提供了一种语音传输控制系统10，所述语音传输控制系统10可以包括：语音应答装置11以及声控服务器12。所述语音应答装置11以及声控服务器12通过网络数据传输通道13进行数据传输。

其中，所述语音应答装置11适于接收语音指令，并将所述语音指令通过网络数据传输通道13发送至声控服务器12。所述声控服务器12适于识别所述语音指令，并基于识别结果生成对应的VXML控制信息，以及经所述网络数据传输通道13将所述VXML控制信息发送至所述语音应答装置11。所述语音应答装置11还适于根据接收到的VXML控制信息执行相应的操作。

在具体实施中，所述语音指令可以为用户口头表达的自然语言。用户可以通过所表达的自然语言，向语音应答装置11发出相应的请求或命令。所述语音指令中可以仅包括目标对象信息，或者仅包括目标操作信息，还可以同时包括目标对象信息及目标操作信息。例如，所述语音指令可以为“请找销售部的宾斌”，其中，“销售部的宾斌”即为目标对象信息。所述语音指令还可以为“立刻找技术部江淮开会”，其中，“技术部江淮”即为目标对象信息，“开会”即为目标操作信息。

在具体实施中，所述语音应答装置11可以为单独的终端设备，比如所述语音应答装置11可以为手持终端设备、平板型设备、网络PC、小型计算机、大型计算机等；也可以位于第三方服务系统，例如，所述语音应答装置11可以为互动式语音应答系统(InteractiveVoice Response，IVR)。具体无论所述语音应答装置11的形式如何，只要所述语音应答装置11可以接收语音指令，并将所述语音指令通过网络数据传输通道13传输至声控服务器12，以及根据所述声控服务器12生成的控制信息执行相应的应答操作即可。

在具体实施中，所述声控服务器12可以是一台独立的专用服务器，也可以同时提供其他服务，比如可以在其他服务器上开辟一块专用的存储区和内存区，以提供语音控制服务，还可以将所述声控服务器12集成于人工智能机器人。当然，不论是采用哪种方式的声控服务器12，都可以与语音应答装置11通过网络数据传输通道13相连。

在具体实施中，所述网络数据传输通道13可以为有线网络数据传输通道，也可以采用无线网络数据传输通道。其中，所述无线网络可以包括WiFi、蓝牙、红外等多种无线连接方式。具体无论所述语音应答装置11与所述声控服务器12之间的连接方式如何，均不构成对本发明的限制，且均在本发明的保护范围之内。

在具体实施中，所述语音传输控制系统10还可以包括语音转换装置14。所述语音转换装置14适于将所述语音应答装置11接收到的语音指令转换为对应的文本数据。在所述语音转换装置14将所述语音指令转换为对应的文本数据后，再由所述语音应答装置11经网络数据传输通道13将所述语音指令对应的文本数据传输至声控服务器12，所述声控服务器12对所述语音指令对应的文本数据进行相应处理。

需要说明的是，所述语音转换装置可以为单独的终端设备，比如所述语音应答装置11可以为手持终端设备、平板型设备、网络PC、小型计算机、大型计算机等；也可以位于第三方服务系统，例如，所述语音应答装置11可以为互动式语音应答系统(Automatic SpeechRecognition，ASR)。

为了使本领域技术人员更好地理解和实现本发明，以下对语音传输控制系统对应的方法进行详细描述。

如图2所述，本发明实施例提供了一种语音传输控制方法。下面结合图1对所述方法进行详细接介绍。

具体地，所述方法可以包括如下步骤：

步骤21，语音应答装置11接收语音指令。

在具体实施中，所述语音应答装置11可以通过多种方式接收所述语音指令。例如，可以通过人机交互界面接收所述语音指令，也可以通过远程操控的方式接收所述语音指令。

在具体实施中，所述语音应答装置11在接收所述语音指令之前，可以先接收来自用户的触发操作。例如，按热键“11”，来激活所述语音传输控制系统10。所述语音应答装置11接收来自用户的触发操作后，可以根据所述触发操作向所述声控服务器12发送操作请求。所述声控服务器12根据所述操作请求向所述语音应答装置11发送对应的VXML控制信息，所述语音应答装置11可以根据所述VXML控制信息执行相应的操作，例如，播放欢迎语及等待用户的语音指令等。也就是说，所述语音应答装置11可以在所述声控服务器12发送的VXML控制信息的控制下，接收所述语音指令。

步骤22，将所述语音指令通过网络数据传输通道发送至声控服务器。

在具体实施中，所述语音指令可以经语音转换装置14转换为对应的文本数据后，再将所述语音指令对应的文本数据通过网络数据传输通道13发送至声控服务器12。

步骤23，所述声控服务器12识别所述语音指令。

在具体实施中，所述声控服务器12在接收到所述语音指令对应的文本数据后，可以通过对所述语音指令对应的文本数据进行模糊匹配的方式，识别所述语音指令。其中，所述模糊匹配的规则可以由本领域技术人员根据实际使用情况进行设定，例如，可以先将所述文本数据转换为对应的拼音串，再对所述拼音串进行分词处理，最后从语料数据库中搜索与分词后的拼音串对应的文字。

步骤24，基于识别结果生成对应的VXML控制信息。

在具体实施中，所述VXML控制信息可以为第一VXML控制信息。所述第一VXML控制信息可以包括：与所述语音指令对应的VXML对话表的存储地址，及控制所述语音应答装置11执行所述VXML对话表的第一控制指令。例如，所述第一控制指令为控制所述语音应答装置11播报语音的指令，所述VXML对话表即为执行所播报的语音数据对应的VXML对话表。

进一步地，所述第一控制指令可以为VXML控制指令。与所述语音指令对应的VXML对话表可以存储在所述语音应答装置11中，也可以存储在声控服务器12中，还可以存储在其他设备中，具体所述VXML对话表的存储介质不作限定，只要所述语音应答装置11可以获取到所述VXML对话表即可。

在具体实施中，所述VXML控制信息也可以为第二VXML控制信息。所述第二VXML控制信息可以包括：与所述语音指令对应的VXML脚本的地址，及控制所述语音应答装置11执行所述VXML脚本的第二控制指令。此外，所述第二VXML控制信息还可以包括目标号码信息。其中，与所述语音指令对应的VXML脚本的地址，可以是与用户第一次输入的语音指令所对应的VXML脚本的地址，也可以是与用户在后续使用过程中输入的任何一次语音指令所对应的VXML脚本的地址，

例如，所述第二控制指令为控制所述语音应答装置11执行呼叫的指令，此时，所述第二VXML控制信息还可以包括目标号码，所述VXML脚本即为执行所述呼叫对应的VXML脚本。

进一步地，所述第二控制指令可以为VXML控制指令。与所述语音指令对应的VXML脚本可以存储在所述语音应答装置11中，也可以存储在声控服务器12中，还可以存储在其他设备中，具体所述VXML脚本的存储介质不作限定，只要所述语音应答装置11可以获取到所述VXML脚本即可。

步骤25，经所述网络数据传输通道13将所述VXML控制信息发送至所述语音应答装置11。

步骤26，所述语音应答装置11根据接收到的VXML控制信息执行相应的操作。

具体地，当所述VXML控制信息为第一VXML控制信息时，所述语音应答装置11可以根据所述第一控制指令获取并执行所述VXML对话表，提示用户进行输入操作，并将用户输入的语音指令经所述网络数据传输通道13发送至所述声控服务器12。

例如，所述第一控制指令为控制所述语音应答装置11播报语音的指令，所述VXML对话表为执行所播报的语音数据对应的VXML对话表，所述语音应答装置11根据所述第一控制指令向用户播报所述语音。

当所述VXML控制信息为第二VXML控制信息时，所述语音应答装置11可以根据所述第二控制指令获取并执行所述VXML脚本。

例如，所述第二控制指令为控制所述语音应答装置11执行呼叫的指令，所述VXML脚本即为执行所述呼叫对应的VXML脚本，所述语音应答装置11根据所述第二控制指令呼叫目标号码。

下面以所述语音应答装置11为IVR，语音转换装置14为ASR，声控服务器12为人工智能机器人为例，对使用所述语音传输控制系统10实现实时电话会议的工作流程进行详细描述：

如图3所示，所述语音传输控制系统10的工作流程可以包括如下步骤：

步骤s1，用户呼叫接入IVR 11；

步骤s2，IVR 11接收实时电话会议的语音指令；

步骤s3，IVR 11将所述语音指令发送至ASR 14；

步骤s4，ASR 14对所述语音指令转换为对应的文本数据；

步骤s5，ASR 14将所述文本数据发送至IVR 11；

步骤s6，IVR 11将所述文本数据发送至人工智能机器人12；

步骤s7，人工智能机器人12对所述文本数据进行识别，并生成第一VXML控制信息，所述第一VXML控制信息控制IVR 11播报语音并提示用户输入语音指令；

步骤s8，人工智能机器人12将所述第一VXML控制信息发送至IVR 11；

步骤s9，IVR 11播报语音并提示用户输入语音指令；

步骤s10，用户向IVR 11输入语音指令；

步骤s11，IVR 11将用户输入的语音指令发送至人工智能机器人12；

步骤s12，人工智能机器人12根据用户输入的所述语音指令生成第二VXML控制信息，所述第二VXML控制信息用于控制IVR 11执行呼叫操作；

步骤13，人工智能机器人12将所述第一VXML控制信息发送至IVR 11；

步骤14，IVR 11执行呼叫操作。

为了使得本领域技术人员更加清楚地实施所述语音传输控制系统10，下面对所述语音传输系统10进行详细介绍：

在本发明的一实施例中，如图4所示，所述语音应答装置11可以包括：第一接收单元41，第一发送单元42以及操作单元43。其中，所述第一接收单元41适于接收所述语音指令。所述第一发送单元42适于将所述语音指令通过网络数据传输通道发送至所述声控服务器。所述操作单元43适于根据接收到的VXML控制信息执行相应的操作。

在本发明的一实施例中，如图5所示，所述声控服务器12可以包括：识别单元51，生成单元52以及第二发送单元53。其中，所述识别单元51适于识别所述语音指令。所述生成单元52适于基于识别结果生成对应的VXML控制信息。所述第二发送单元53适于经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置。

下面结合图4及图5，对所述语音传输控制系统进行详细介绍：

在具体实施中，所述第一接收单元41可以通过多种方式接收所述语音指令。例如，所述第一接收单元41可以通过人机交互界面接收所述语音指令，也可以通过远程操控的方式接收所述语音指令。

所述语音指令可以经语音转换装置14转换为对应的文本数据后，再由所述第一发送单元42适于将所述语音指令对应的文本数据通过网络数据传输通道13发送至声控服务器12。

所述声控服务器12接收到所述语音指令对应的文本数据后，由识别单元51对所述语音指令对应的文本数据进行模糊匹配，以识别所述语音指令。再由生成单元52根据所述语音指令生成VXML控制信息。

在具体实施中，所述生成单元52生成的VXML控制信息可以为第一VXML控制信息，也可以为第二VXML控制信息。其中，所述第一VXML控制信息包括：与所述语音指令对应的VXML对话表的存储地址，及控制所述语音应答装置11执行所述VXML对话表的第一控制指令。所述第二VXML控制信息包括：与所述语音指令对应的VXML脚本的地址，及控制所述语音应答装置执行所述VXML脚本的第二控制指令。此外，所述第二VXML控制信息还可以包括：目标号码信息。

当所述生成单元52生成的VXML控制信息为第一VXML控制信息时，所述操作单元43适于根据所述第一控制指令获取并执行所述VXML对话表，提示用户进行输入操作，所述第一发送单元42还适于将用户输入的语音指令经所述网络数据传输通道13发送至所述声控服务器12。

当所述生成单元52生成的VXML控制信息为第二VXML控制信息时，所述操作单元43适于根据所述第二控制指令获取并执行所述VXML脚本。

在具体实施中，所述语音应答装置11还可以包括：第二接收单元(未示出)以及第三发送单元(未示出)。其中，所述第二接收单元适于在所述语音应答装置接收语音指令之前，接收来自用户的触发操作。所述第三发送单元适于根据所述触发操作向所述声控服务器发送操作请求。

相应地，所述声控服务器12可以包括：第四发送单元54(未示出)。所述第四发送单元54适于根据所述操作请求向所述语音应答装置发送对应的VXML控制信息。此时，所述语音应答装置11的第一接收单元41适于根据所述第VXML控制信息接收所述语音指令。

由上述内容可以看出，本发明实施例中的语音传输控制系统系统架构以及工作流程较简单，且通过将控制信息设置为VXML控制信息，可以极大降低语音传输控制系统的设计难度。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音传输控制方法，其特征在于，包括：

语音应答装置接收语音指令；

将所述语音指令通过网络数据传输通道发送至声控服务器；

所述声控服务器识别所述语音指令；

基于识别结果生成对应的VXML控制信息；

所述语音应答装置根据接收到的VXML控制信息执行相应的操作；

当所述VXML控制信息为第一VXML控制信息时，所述第一VXML控制信息包括：与所述语音指令对应的VXML对话表的存储地址，及控制所述语音应答装置执行所述VXML对话表的第一控制指令；所述语音应答装置根据接收到的VXML控制信息执行相应的操作，包括：所述语音应答装置根据所述第一控制指令获取并执行所述VXML对话表，提示用户进行输入操作，并将用户输入的语音指令经所述网络数据传输通道发送至所述声控服务器；

当所述VXML控制信息为第二VXML控制信息时，所述第二VXML控制信息包括：与所述语音指令对应的VXML脚本的地址，及控制所述语音应答装置执行所述VXML脚本的第二控制指令；所述语音应答装置根据接收到的VXML控制信息执行相应的操作，包括：所述语音应答装置根据所述第二控制指令获取并执行所述VXML脚本。

2.如权利要求1所述的语音传输控制方法，其特征在于，所述第二VXML控制信息还包括：目标号码信息。

3.如权利要求1所述的语音传输控制方法，其特征在于，还包括：语音转换装置将所述语音应答装置接收到的语音指令转换为对应的文本数据；

4.如权利要求3所述的语音传输控制方法，其特征在于，所述声控服务器识别所述语音指令，包括：所述声控服务器对所述语音指令对应的文本数据进行模糊匹配，识别所述语音指令。

5.如权利要求1所述的语音传输控制方法，其特征在于，所述语音应答装置通过人机交互界面或远程操控的方式接收所述语音指令。

6.如权利要求1所述的语音传输控制方法，其特征在于，

在所述语音应答装置接收语音指令之前，所述方法还包括：

所述语音应答装置接收来自用户的触发操作；

根据所述触发操作向所述声控服务器发送操作请求；

7.一种语音传输控制系统，其特征在于，包括：

语音应答装置，适于接收语音指令；将所述语音指令通过网络数据传输通道发送至声控服务器；以及根据接收到的VXML控制信息执行相应的操作；所述声控服务器，适于识别所述语音指令；基于识别结果生成对应的VXML控制信息；以及经所述网络数据传输通道将所述VXML控制信息发送至所述语音应答装置；

当所述VXML控制信息为第一VXML控制信息时，所述第一VXML控制信息包括：与所述语音指令对应的VXML对话表的存储地址，及控制所述语音应答装置执行所述VXML对话表的第一控制指令；所述根据接收到的VXML控制信息执行相应的操作，包括：所述语音应答装置根据所述第一控制指令获取并执行所述VXML对话表，提示用户进行输入操作，并将用户输入的语音指令经所述网络数据传输通道发送至所述声控服务器；

当所述VXML控制信息为第二VXML控制信息时，所述第二VXML控制信息包括：与所述语音指令对应的VXML脚本的地址，及控制所述语音应答装置执行所述VXML脚本的第二控制指令；所述根据接收到的VXML控制信息执行相应的操作，包括：所述语音应答装置根据所述第二控制指令获取并执行所述VXML脚本。

8.如权利要求7所述的语音传输控制系统，其特征在于，

所述语音应答装置包括：

第一接收单元，适于接收所述语音指令；

操作单元，适于根据接收到的VXML控制信息执行相应的操作；

所述声控服务器包括：

识别单元，适于识别所述语音指令；

生成单元，适于基于识别结果生成对应的VXML控制信息；

9.如权利要求8所述的语音传输控制系统，其特征在于，所述生成单元生成的VXML控制信息为第一VXML控制信息，所述第一VXML控制信息包括：与所述语音指令对应的VXML对话表的存储地址，及控制所述语音应答装置执行所述VXML对话表的第一控制指令；

10.如权利要求8或9所述的语音传输控制系统，其特征在于，所述生成单元生成的VXML控制信息为第二VXML控制信息，所述第二VXML控制信息包括：与所述语音指令对应的VXML脚本的地址，及控制所述语音应答装置执行所述VXML脚本的第二控制指令；

11.如权利要求10所述的语音传输控制系统，其特征在于，所述第二VXML控制信息还包括：目标号码信息。

12.如权利要求8所述的语音传输控制系统，其特征在于，

所述语音应答装置还包括：

第三发送单元，适于根据所述触发操作向所述声控服务器发送操作请求；所述声控服务器还包括：

13.如权利要求8所述的语音传输控制系统，其特征在于，还包括：语音转换装置，适于将所述语音应答装置接收到的语音指令转换为对应的文本数据；

14.如权利要求13所述的语音传输控制系统，其特征在于，所述识别单元适于对所述语音指令对应的文本数据进行模糊匹配，识别所述语音指令。

15.如权利要求8所述的语音传输控制系统，其特征在于，所述第一接收单元通过人机交互界面或远程操控的方式接收所述语音指令。

16.如权利要求7所述的语音传输控制系统，其特征在于，所述语音应答装置位于第三方服务系统，所述声控服务器集成于人工智能机器人。