CN117834779A

CN117834779A - 音频传输装置、语音交互系统、智能交互集成平台及方法

Info

Publication number: CN117834779A
Application number: CN202310818320.7A
Authority: CN
Inventors: 彭殷路
Original assignee: Shengzhi Information Technology Nanjing Co ltd
Current assignee: Shengzhi Information Technology Nanjing Co ltd
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2024-04-05

Abstract

本申请实施例提供了一种音频传输装置、语音交互系统、智能交互集成平台及方法，所述音频传输装置，通过虚拟声卡模块接收语音交互系统发送的第一音频，并通过音频转发模块将第一音频转发给智能语音平台；和/或接收智能语音平台发送的第二音频，并通过音频转发模块将第二音频转发给语音交互系统。解决了相关技术中传统的云呼叫中心无法满足企业的客服体验要求，或者无法将企业的已经购买的第三方的语音机器人客服平台集成到云呼叫中心平台的问题。

Description

音频传输装置、语音交互系统、智能交互集成平台及方法

技术领域

本申请涉及语音数据处理技术领域，具体而言，涉及一种音频传输装置、语音交互系统、智能交互集成平台及方法。

背景技术

相比于传统的呼叫中心需要使用固定电话才能接入系统，当前主流的呼叫中心平台能够让企业的客服人员通过网页或者Softphone软件的方式随时随地的接入系统，与客户进行沟通，为客户提供更加便捷的服务。

以云呼叫中心平台为例，云呼叫中心平台降低了企业使用呼叫中心的门槛，解决了企业低成本和跨地域构建呼叫中心的问题。云呼叫中心平台的电话客服系统可以将呼入的电话或者外呼任务分配给当前在线并且空闲状态的企业人工客服。随着业务的业务发展，企业需要招聘更多的电话客服员工，才能处理更多的外呼任务和电话呼入接听。

为了解决企业的人工客服的人力成本以及培训管理的问题，企业在构建或者购买呼叫中心服务后，会购买语音机器人客服(Voicebot Agent)服务并集成至呼叫中心，使用语音机器人客服来处理电话客服的业务。

现阶段的呼叫中心平台主要使用会话初始协议(Session initializationProtocol，简称为SIP)对接语音机器人客服系统，这要求两个平台都能够支持SIP协议。主流的云呼叫中心虽然也会内置语音机器人客服的功能或者通过合作开发的方式支持部分的语音机器人客服平台，但是也存在内置的语音机器人客服功能简陋，无法满足企业的客服体验要求，或者无法将企业的已经购买的第三方的语音机器人客服平台集成到云呼叫中心平台的问题。

针对相关技术中，传统的云呼叫中心无法满足企业的客服体验要求，或者无法将企业的已经购买的第三方的语音机器人客服平台集成到云呼叫中心平台的问题，目前尚未有有效的解决办法。

发明内容

本申请实施例提供了一种音频传输装置、语音交互系统、智能交互集成平台及方法，以至少解决相关技术中传统的云呼叫中心无法满足企业的客服体验要求，或者无法将企业的已经购买的第三方的语音机器人客服平台集成到云呼叫中心平台的问题。

在本申请的一个实施例中，提出了一种音频传输装置，包括虚拟声卡模块和音频转发模块，其中，所述虚拟声卡模块配置为：接收语音交互系统发送的第一音频，并通过所述音频转发模块将所述第一音频转发给智能语音平台；和/或接收所述智能语音平台发送的第二音频，并通过所述音频转发模块将所述第二音频转发给所述语音交互系统。

在一实施例中，所述虚拟声卡模块包括至少两个虚拟声卡单元，其中，所述虚拟声卡单元为单工模式或全双工模式。

在一实施例中，所述虚拟声卡模块包括：第一声卡单元，配置为接收所述语音交互系统发送的所述第一音频，并通过所述音频转发模块将所述第一音频转发给所述智能语音平台；第二声卡单元，配置为接收所述智能语音平台发送的所述第二音频，并通过所述音频转发模块将所述第二音频转发给所述语音交互系统。

在一实施例中，所述第一音频包括至少一条语音数据流，所述第二音频包括至少一条语音数据流，其中，所述第一音频是对所述第二音频的响应，或，所述第二音频是对所述第一音频的响应。

在本申请的另一个实施例中，还提供了一种语音交互系统，包括上述的音频传输装置，所述语音交互系统还包括语音交互服务器和语音交互操作终端，其中，所述语音交互服务器配置为：接收用户发出的第三音频，将所述第三音频发送至所述语音交互操作终端；所述语音交互操作终端配置为：将所述第三音频发送至所述音频传输装置；和/或，接收所述音频传输装置发送的第四音频，并将所述第四音频发送至所述语音交互服务器；所述语音交互服务器还配置为：将所述第四音频发送给用户。

在一实施例中，所述语音交互服务器还配置为：基于流程操作自动化技术，启动所述语音交互操作终端，并将所述语音交互操作终端的输入设备和输出设备分别绑定在所述虚拟声卡模块中的两个空闲的虚拟声卡单元上，在所述语音交互操作终端初始化后，根据模板定义的流程自动化步骤，模拟一个真人客服人员登录所述语音交互操作终端，并使用所述语音交互系统的通信功能。

在本申请的另一个实施例中，还提供了一种智能语音平台，包括上述的音频传输装置，所述智能语音平台还包括语音机器人服务器和语音机器人客户端，其中，所述语音机器人客户端配置为：接收所述音频传输模块发送的第五音频，将所述第五音频发送至所述语音机器人服务器；和/或，接收所述语音机器人服务器发送的第六音频，并将所述第六音频发送至所述音频传输装置。

在本申请的另一个实施例中，还提供了一种智能交互集成平台，包括上述的音频传输装置，所述智能交互集成平台还包括：语音交互系统和智能语音平台，所述语音交互系统包括语音交互服务器和语音交互操作终端，所述智能语音平台包括语音机器人服务器和语音机器人客户端，其中，所述语音交互服务器配置为：接收用户终端发送的第一音频，并将所述第一音频转发至所述语音交互操作终端；所述语音交互操作终端配置为：将接收到的所述第一音频发送至所述音频传输模块；所述音频传输模块配置为：将所述第一音频发送至所述语音机器人客户端；所述语音机器人客户端配置为：将所述第一音频发送至所述语音机器人服务器，以及接收所述语音机器人服务器发送的第二音频，然后将所述第二音频发送至所述音频传输模块；所述音频传输模块还配置为：将所述第二音频发送至所述语音交互操作终端；所述语音交互操作终端还配置为：将接收到的所述第二音频发送至所述语音交互服务器；所述语音交互服务器还配置为：将所述第二音频发送至所述用户终端。

在本申请的另一个实施例中，还提供了一种智能交互集成方法，包括：步骤1，加载虚拟声卡模块和音频转发模块，其中，所述虚拟声卡模块中包含至少2个虚拟声卡单元；步骤2，通过语音交互系统的自动化模块复现真人登录语音交互操作终端并执行语音交互业务的操作，在所述语音交互操作终端上初始化一个语音交互业务自动化的第一运行实例，为所述第一运行实例配置声音输出设备为第一虚拟声卡单元，声音输入单元为第二虚拟声卡单元；步骤3，运行所述第一运行实例，登录第一账号，所述第一账号监听是否有呼入的语音数据需要处理，当有呼入的语音数据被分配到所述第一账号时，所述第一运行实例捕获所述呼入的第一电话事件；步骤4，所述第一运行实例根据所述第一电话事件，点击页面元素接听所述第一电话事件，并在语音机器人客户端上唤醒第一语音机器人实例，其中，所述语音机器人客户端的声音输入设备为所述第一虚拟声卡单元，所述语音机器人的声音输出设备为所述第二虚拟声卡单元；步骤5，在所述第一电话事件接通后，所述第一运行实例将所述拨入所述第一电话事件的用户的第一音频输出至所述第一虚拟声卡单元，进而输入所述语音机器人客户端，通过所述语音机器人服务器对所述第一音频进行识别和处理；步骤6，所述语音机器人服务器针对所述第一音频返回对应的第二音频，所述语音机器人客户端将所述第二音频通过所述第二虚拟声卡单元输出至所述第一运行实例；步骤7，所述第一运行实例将所述第二音频发送给所述拨入所述第一电话事件的用户。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例提供的音频传输装置，通过虚拟声卡模块接收语音交互系统发送的第一音频，并通过音频转发模块将第一音频转发给智能语音平台；和/或接收智能语音平台发送的第二音频，并通过音频转发模块将第二音频转发给语音交互系统。解决了相关技术中传统的云呼叫中心无法满足企业的客服体验要求，或者无法将企业的已经购买的第三方的语音机器人客服平台集成到云呼叫中心平台的问题，本申请实施例通过在云呼叫中心等语音交互系统的操作终端上加载虚拟声卡和音频转发两个核心的软件模块，模拟真人客服通过终端的麦克风和耳机与该终端进行语音交互的能力，从而实现将语音输入和输出转发到语音机器人系统，实现语音交互的实时集成的能力。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的智能交互集成平台的结构图；

图2是根据本申请实施例的一种可选的智能交互集成方法的流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

将语音机器人客服(Voicebot Agent)与主流呼叫中心平台进行集成应用，是最常见的最具备代表性的语音机器人(Voicebot)与语音交互系统集成应用场景，以下使用该场景举例对本申请实施例的技术背景进行说明。

语音机器人客服(Voicebot Agent)系统与呼叫中心平台会有大量并且逻辑复杂的数据交互，因此在系统集成时，需要耗费大量的时间成本。

一般来说，业界普遍使用以下方式将语音机器人客服(Voicebot Agent)系统集成到呼叫中心平台：

对于集中式组网的呼叫中心平台，语音机器人客服(Voicebot Agent)系统需要自行开发电话软交换模块以支持SIP协议实现电话呼叫的功能。

电话软件换模块可以将语音机器人客服(Voicebot Agent)作为SIP客户端注册到呼叫中心平台，在呼叫中心平台的坐席管理模块中将其配置为智能坐席，处理特定的外呼任务和电话呼入服务。在电话拨打和通话的过程中，电话软件换模块使用SIP协议发起或接听呼叫中心准入的呼叫，通过SIP/RTP协议(实时传输协议，Real-time TransportProtocol，简称为RTP)，实现纯软件的电话语音通信。

对于云呼叫中心平台，如果云呼叫中心平台支持SIP协议对接的方式，在集成语音机器人客服(Voicebot Agent)系统的方案上可以参考传统的集中式组网的呼叫中心平台，但是不同的是，因为电话拨打和通话过程中的数据流要经过互联网，所以需要语音机器人客服(Voicebot Agent)系统提供公网IP地址，来保证云呼叫中心能够与语音机器人客服(Voicebot Agent)系统的电话软件换模块进行通信；此外，双方的通信一般会使用VPN来保证通信数据的安全性。

除了SIP协议以外，部分云呼叫中心平台也支持通过Voice API的方式来实现与语音机器人客服(Voicebot Agent)系统的集成。在这种模式下，语音机器人客服(VoicebotAgent)系统需要根据云呼叫中心平台提供的API文档和SDK，完成双方之间的电话呼叫和通话过程中的数据传输。这种对接的方式给语音机器人客服(Voicebot Agent)系统提供了一种额外的集成方式，但是因为不同的云呼叫中心所提供的Voice API存在较大的差异，语音机器人客服(Voicebot Agent)系统需要较大的人力成本才能将自己的语音客服集成到各个云呼叫中心平台上去；并且，需要较长的开发周期才能完成与一家新的云呼叫中心平台的集成。

对于不支持SIP协议和Voice API对接的云呼叫中心平台，往往平台会在内部集成自有的语音机器人客服(Voicebot Agent)模块，或者选择某些语音机器人客服(VoicebotAgent)平台作为合作方，双方通过协作开发的方式，设计并实现私有的协议和接口，来实现两个系统之间的集成应用。除此以外，往往没有办法与第三方的语音机器人客服(VoicebotAgent)进行集成应用。

本申请实施例所要解决的问题是，当Voicebot等产品需要通过与云呼叫中心系统或是其他的语音交互系统集成以实现类似真人客服的语音服务能力时，都需要通过包括SIP、RTP、MRCP等各类音频相关的交互协议进行集成对接，从而受到集成中涉及的各类系统对协议的支持能力的限制，如果第三方系统无法良好地支持此类协议的话，就会导致Voicebot产品无法发挥作用。

本申请实施例提供的解决问题的途径是通过在云呼叫中心等语音交互系统的操作终端上加载虚拟声卡(Virtual Sound Device)和音频转发(Audio Loopback)这两个核心的软件模块，模拟真人客服通过终端的麦克风和耳机与该终端进行语音交互的能力，从而实现将语音输入和输出转发到Voicebot系统，实现语音交互的实时集成的能力。此外再结合操作终端上的RPA(Robotic process automation)等自动化控制模块(包括但不限于基于浏览器界面或桌面控制的RPA模块，或基于可自动化操控上述语音交互系统界面的某个软件模块)，控制终端上的浏览器或其他应用程序完成模拟真人客服的各种操作，从而实现让Voicebot能像真人客服一样完成部分或完整的与用户进行语音交互的工作。该方法不依赖于任何音频相关的协议和通信技术集成框架，可在任何支持真人客服语音交互的呼叫中心系统或其他语音交互系统上实现。如图1所示，图1是根据本申请实施例的一种可选的智能交互集成平台的结构图。

在本申请的一个实施例中，提出了一种音频传输装置，包括虚拟声卡模块和音频转发模块，其中，虚拟声卡模块配置为：接收语音交互系统发送的第一音频，并通过所述音频转发模块将所述第一音频转发给智能语音平台；和/或接收所述智能语音平台发送的第二音频，并通过所述音频转发模块将所述第二音频转发给所述语音交互系统。

需要说明的是，本申请实施例中提供的基于虚拟声卡的音频转发方法，是指通过音频转发模块，在多个虚拟声卡设备之间实时转发输入输出的音频流，实现两个程序之间的音频传输。

本申请实施例所使用的虚拟声卡可以是需要购买授权的商业软件，也可以是开源的音频框架，根据本申请实施例的集成应用场景的不同，可以使用单工模式的虚拟声卡，即单个虚拟声卡设备只能作为音频的输入或者输出设备，并且只能够同时链接一个声音程序。也可以使用全双工模式的虚拟声卡，支持多个声音程序同时输入到一个虚拟声卡设备，也支持多个程序同时从这个虚拟声卡设备获取声音。

音频转发模块(Audio Loopback Module)根据集成应用的场景，完成虚拟声卡音频转发的配置，为需要音频交互的程序分配可用的虚拟声卡设备。

在一实施例中，虚拟声卡模块包括：第一声卡单元，配置为接收所述语音交互系统发送的所述第一音频，并通过所述音频转发模块将所述第一音频转发给所述智能语音平台；第二声卡单元，配置为接收所述智能语音平台发送的所述第二音频，并通过所述音频转发模块将所述第二音频转发给所述语音交互系统。

在一实施例中，第一音频包括至少一条语音数据流，所述第二音频包括至少一条语音数据流，其中，第一音频是对所述第二音频的响应，或，所述第二音频是对所述第一音频的响应。

在本申请的另一个实施例中，还提供了一种语音交互系统，包括上述的音频传输装置，所述语音交互系统还包括语音交互服务器(即图1中的语音交互系统服务端)和语音交互操作终端(即图1中的语音交互系统操作终端)，其中，所述语音交互服务器配置为：接收用户发出的第三音频，将所述第三音频发送至所述语音交互操作终端；所述语音交互操作终端配置为：将所述第三音频发送至所述音频传输装置；和/或，接收所述音频传输装置发送的第四音频，并将所述第四音频发送至所述语音交互服务器；所述语音交互服务器还配置为：将所述第四音频发送给用户。

在本申请的另一个实施例中，还提供了一种智能交互集成平台，包括上述的音频传输装置，所述智能交互集成平台还包括：语音交互系统和智能语音平台，所述语音交互系统包括语音交互服务器和语音交互操作终端，所述智能语音平台包括语音机器人服务器(即图1中的智能语音平台Voicebot服务器)和语音机器人客户端(即图1中的Voicebot客户端)，其中，所述语音交互服务器配置为：接收用户终端发送的第一音频，并将所述第一音频转发至所述语音交互操作终端；所述语音交互操作终端配置为：将接收到的所述第一音频发送至所述音频传输模块；所述音频传输模块配置为：将所述第一音频发送至所述语音机器人客户端；所述语音机器人客户端配置为：将所述第一音频发送至所述语音机器人服务器，以及接收所述语音机器人服务器发送的第二音频，然后将所述第二音频发送至所述音频传输模块；所述音频传输模块还配置为：将所述第二音频发送至所述语音交互操作终端；所述语音交互操作终端还配置为：将接收到的所述第二音频发送至所述语音交互服务器；所述语音交互服务器还配置为：将所述第二音频发送至所述用户终端。

需要说明的是，语音交互系统的终端自动化方法，是指根据语音交互系统的操作终端的使用流程，定义并执行操作的流程自动化模版。

本申请实施例所包含的语音交互系统包括呼叫中心平台、语音聊天平台(SocialAudio Platform)和语音会议平台(Audio Conferencing Platform)等通过音频来进行消息交互的软件和平台。平台的终端应用不限于软件应用或者Web应用的模式，如安装于Laptop,Workstation,Virtual Machine上的软件,以及Mobile Device including Pad orPhone上的可以由人工客服或真实用户使用的语音交互系统软件都属于本申请实施例的范围。

通过基于浏览器界面或者系统桌面控制的RPA技术，或者其他的流程操作自动化技术，如以呼叫中心的浏览器坐席工作台Web页面作为语音交互系统的操作终端为例，该方法会启动一个浏览器实例，并将该浏览器实例的音频输入输出设备分别绑定在两个空闲的虚拟声卡设备上。在浏览器实例初始化后，根据模版定义的流程自动化步骤，模拟一个真人客服人员登陆云呼叫中心系统，并使用该系统的电话通信功能。

语音机器人(Voicebot)客户端执行方法，是指启动一个语音机器人(Voicebot)的客户端程序，该程序可以在本地，或者连接上语音机器人(Voicebot)服务器，通过指定的接口和参数唤起一个语音机器人客服(Voicebot)服务实例。

以呼叫中心的集成应用场景为例，通过基于虚拟声卡的音频转发方法，语音机器人客服(Voicebot Agent)客户端程序的输入音频来自于呼叫中心平台操作终端中的输出音频，即打进电话或者接听电话的用户说话声音。音频会发送至语音机器人客服(VoicebotAgent)实例，进行语音识别、意图识别、语音合成等处理，最终生成回复音频。语音机器人客服(Voicebot Agent)客户端在获得回复音频后进行播放，将该音频作为呼叫中心平台操作终端的输入音频，最终实现语音机器人客服(Voicebot Agent)与电话用户的语音对话交互。

为了清晰的阐述本申请实施例的具体实施过程，以下使用将语音机器人客服(Voicebot Agent)集成到云呼叫中心平台的实施案例，结合图2，用于说明本申请实施例的基于虚拟声卡实现Voicebot与呼叫中心或语音交互系统集成应用的方法。该实施案例包括以下实施步骤：

S1，加载虚拟声卡(Virtual Sound Device)和音频转发模块(Audio LoopbackModule)，根据实施的场景配置虚拟声卡A和虚拟声卡B作为全双工的声音输入输出设备。

S2，对于需要集成语音机器人客服(Voicebot Agent)的云呼叫中心，以该平台的人工坐席工作台的Web页面为例，分析并记录真人客服使用云呼叫中心平台Web端的操作步骤，并将操作步骤配置为浏览器流程自动化模块可以理解的数据结构，即通过浏览器流程自动化模块，执行记录下的操作步骤，可以复现一个真人客服账号登陆云呼叫中心平台，并在该平台执行外呼任务或者接听电话的操作。

S3，使用操作终端上的RPA(Robotic process automation)等自动化控制模块或者浏览器Webdriver自动化工具，初始化一个浏览器流程自动化运行实例，为该运行实例配置声音输出设备为虚拟声卡A，声音输入设备为虚拟声卡B。

需要说明的是，呼叫中心平台或语音交互系统的终端应用不限于软件应用或者Web应用的模式，如安装于Laptop,Workstation,Virtual Machine上的软件,以及MobileDevice including Pad or Phone上的可以由人工客服或真实用户使用的语音交互平台软件都属于本申请实施例的范围。

需要说明的是，操作终端上的RPA(Robotic process automation)等自动化控制模块包括但不限于基于浏览器界面或桌面控制的RPA模块，或者其他基于可自动化操控上述语音交互系统界面的某个软件模块。任何以自动化控制终端上的浏览器或其他应用程序完成模拟真人客服各种操作的模式都属于本申请实施例的范围。

S4，在浏览器流程自动化运行实例成功初始化后，解析步骤S1中配置的人工客服在云呼叫中心平台上的操作步骤，模拟一个真人客服登陆平台，并进入人工坐席的工作台页面。以呼入接听的场景为例，运行实例将当前登陆的客服账号状态设置为上线，并以通过抓取页面元素的方式监听是否有呼入的电话需要处理。

S5，当有呼入的电话被分配到当前登陆的人工客服账号，浏览器流程自动化运行实例通过监听到页面元素的属性变更捕获到这个呼入的事件。

S6，当捕获到呼入的事件时，浏览器流程自动化运行实例需要执行两个动作。其一，运行实例根据步骤一中的配置，通过点击页面元素接听该电话；其二，通过接口调用或者其它方式通知语音机器人客服(Voicebot Agent)客户端模块，唤起一个语音机器人客服(Voicebot Agent)实例，进行语音交互。

S7，语音机器人客服(Voicebot Agent)客户端模块是构成本申请实施例的独有模块之一，其作用主要是和语音机器人客服(Voicebot Agent)系统进行语音交互。该模块在初始化的时候同样需要配置声音输出设备和声音输入设备。可以假设在当前的实施方案中，配置为声音输出设备为虚拟声卡B，声音输入设备为虚拟声卡A。

需要说明的是，根据语音机器人客服(Voicebot Agent)平台的接入协议的不同，语音机器人客服(Voicebot Agent)客户端模块支持以SIP/RTP，或者基于Websocket等相关协议进行的P2P语音通信。在本实施实例所列出的接入协议仅为了阐述本申请实施例，并非用于限定本申请实施例的保护范围。

S8，在电话接通后，浏览器流程自动化运行实例会将拨入电话的用户声音输出至虚拟声卡A；因为虚拟声卡A是语音机器人客服(Voicebot Agent)客户端模块的声音输入设备，因此语音机器人客服(Voicebot Agent)客户端模块可以获取到拨入电话的用户声音，然后发送至语音机器人客服(Voicebot Agent)平台进行识别和处理。

S9，语音机器人客服(Voicebot Agent)平台通过自主算法实现，对接收到的音频进行ASR识别，ASR模块将用户表述的语音音频流转换为文本信息，通过NLP模块对表述的文本进行意图识别，对话管理，TTS音频合成等一系列处理，返回语音机器人客服(VoicebotAgent)回答的音频。

S10，语音机器人客服(Voicebot Agent)客户端模块收到回答的音频后，将声音输出至虚拟声卡B，因为虚拟声卡B是浏览器流程自动化运行实例的声音输入设备，因此浏览器流程自动化运行实例可以实时获取到音频流并播放给拨入电话的用户。至此，即完成了语音对话的过程。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种音频传输装置，其特征在于，包括虚拟声卡模块和音频转发模块，其中，

所述虚拟声卡模块配置为：

接收语音交互系统发送的第一音频，并通过所述音频转发模块将所述第一音频转发给智能语音平台；和/或

接收所述智能语音平台发送的第二音频，并通过所述音频转发模块将所述第二音频转发给所述语音交互系统。

2.如权利要求1所述的音频传输装置，其特征在于，所述虚拟声卡模块包括至少两个虚拟声卡单元，其中，所述虚拟声卡单元为单工模式或全双工模式。

3.如权利要求1所述的音频传输装置，其特征在于，所述虚拟声卡模块包括：

第一声卡单元，配置为接收所述语音交互系统发送的所述第一音频，并通过所述音频转发模块将所述第一音频转发给所述智能语音平台；

第二声卡单元，配置为接收所述智能语音平台发送的所述第二音频，并通过所述音频转发模块将所述第二音频转发给所述语音交互系统。

4.如权利要求1所述的音频传输装置，其特征在于，所述第一音频包括至少一条语音数据流，所述第二音频包括至少一条语音数据流，其中，所述第一音频是对所述第二音频的响应，或，所述第二音频是对所述第一音频的响应。

5.一种语音交互系统，其特征在于，包括权利要求1至4任一项所述的音频传输装置，所述语音交互系统还包括语音交互服务器和语音交互操作终端，其中，

所述语音交互服务器配置为：

接收用户发出的第三音频，将所述第三音频发送至所述语音交互操作终端；

所述语音交互操作终端配置为：

将所述第三音频发送至所述音频传输装置；和/或，接收所述音频传输装置发送的第四音频，并将所述第四音频发送至所述语音交互服务器；

所述语音交互服务器还配置为：

将所述第四音频发送给用户。

6.如权利要求5所述的语音交互系统，其特征在于，所述语音交互服务器还配置为：

基于流程操作自动化技术，启动所述语音交互操作终端，并将所述语音交互操作终端的输入设备和输出设备分别绑定在所述虚拟声卡模块中的两个空闲的虚拟声卡单元上，在所述语音交互操作终端初始化后，根据模板定义的流程自动化步骤，模拟一个真人客服人员登录所述语音交互操作终端，并使用所述语音交互系统的通信功能。

7.一种智能交互集成平台，其特征在于，包括权利要求1至4任一项所述的音频传输装置，所述智能交互集成平台还包括：语音交互系统和智能语音平台，所述语音交互系统包括语音交互服务器和语音交互操作终端，所述智能语音平台包括语音机器人服务器和语音机器人客户端，其中，

所述语音交互服务器配置为：接收用户终端发送的第一音频，并将所述第一音频转发至所述语音交互操作终端；

所述语音交互操作终端配置为：将接收到的所述第一音频发送至所述音频传输模块；

所述音频传输模块配置为：将所述第一音频发送至所述语音机器人客户端；

所述语音机器人客户端配置为：将所述第一音频发送至所述语音机器人服务器，以及接收所述语音机器人服务器发送的第二音频，然后将所述第二音频发送至所述音频传输模块；

所述音频传输模块还配置为：将所述第二音频发送至所述语音交互操作终端；

所述语音交互操作终端还配置为：将接收到的所述第二音频发送至所述语音交互服务器；

所述语音交互服务器还配置为：将所述第二音频发送至所述用户终端。

8.一种智能交互集成方法，其特征在于，包括：

步骤1，加载虚拟声卡模块和音频转发模块，其中，所述虚拟声卡模块中包含至少2个虚拟声卡单元；

步骤2，通过语音交互系统的自动化模块复现真人登录语音交互操作终端并执行语音交互业务的操作，在所述语音交互操作终端上初始化一个语音交互业务自动化的第一运行实例，为所述第一运行实例配置声音输出设备为第一虚拟声卡单元，声音输入单元为第二虚拟声卡单元；

步骤3，运行所述第一运行实例，登录第一账号，所述第一账号监听是否有呼入的语音数据需要处理，当有呼入的语音数据被分配到所述第一账号时，所述第一运行实例捕获所述呼入的第一电话事件；

步骤4，所述第一运行实例根据所述第一电话事件，点击页面元素接听所述第一电话事件，并在语音机器人客户端上唤醒第一语音机器人实例，其中，所述语音机器人客户端的声音输入设备为所述第一虚拟声卡单元，所述语音机器人的声音输出设备为所述第二虚拟声卡单元；

步骤5，在所述第一电话事件接通后，所述第一运行实例将拨入所述第一电话事件的用户的第一音频输出至所述第一虚拟声卡单元，进而输入所述语音机器人客户端，通过所述语音机器人服务器对所述第一音频进行识别和处理；

步骤6，所述语音机器人服务器针对所述第一音频返回对应的第二音频，所述语音机器人客户端将所述第二音频通过所述第二虚拟声卡单元输出至所述第一运行实例；

步骤7，所述第一运行实例将所述第二音频发送给所述拨入所述第一电话事件的用户。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求8中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求8中所述的方法。