CN110931004A

CN110931004A - 一种基于对接技术实现的语音对话分析方法和装置

Info

Publication number: CN110931004A
Application number: CN201911008159.7A
Authority: CN
Inventors: 狄佳贵; 孙思明; 秦垠峰; 闫冰
Original assignee: Beijing Zhi He Dafang Technology Co Ltd
Current assignee: Beijing Zhi He Dafang Technology Co Ltd
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-03-27

Abstract

本发明实施例公开了一种基于对接技术实现的语音对话分析方法和装置，其中，所述方法包括：基于预设的连接获取客户端发送的包含实时语音信息的数据包；对所述数据包进行解析，获得实时语音流；对所述实时语音流进行识别，获得识别结果；将所述识别结果推送到后端目标设备进行实时展示与分析。采用本发明所述的基于对接技术实现的语音对话分析方法，能够通过与客户端建立连接的方式获取数据包，进行实时在线处理和识别，提高了对通话语音信息进行实时在线识别和分析的效率以及稳定性，并大幅降低已有电话呼叫中心引入实时语音识别等对话分析能力的改造成本和周期，从而极大提升了用户的使用体验。

Description

一种基于对接技术实现的语音对话分析方法和装置

技术领域

本发明实施例涉及语音信号处理领域，具体涉及一种基于对接技术实现的语音对话分析方法和装置，另外还涉及一种电子设备和计算机可读存储介质。

背景技术

近年来，随着互联网技术的不断发展，基于语音识别技术实现的智能化电子设备逐渐吸引了人们的注意。尤其是在电话销售、回访等领域，对通话语音数据进行智能化实时在线识别和分析是用户关注的重点。

然而，目前传统处理方案中，获取实时语音数据进行识别和处理通常需要对呼叫中心业务系统进行修改，或者部署端口镜像抓取数据包。该传统方案涉及到对现有业务服务系统的修改，部署难度大；其次，语音数据由通话机传输到语音服务器，再传输到语音识别服务器，需经过多次传输，造成延迟较高，且稳定性较差，导致无法有效满足用户的实际使用要求。

因此，如何快速、准确对通话语音数据进行智能化识别和分析成为本领域技术人员亟需解决的技术问题。

发明内容

为此，本发明实施例提供一种基于对接技术实现的语音对话分析方法，以解决现有技术中存在的传统通话语音信息识别和分析过程部署难度大，稳定性差，并且延迟较高，导致无法有效满足实时性要求的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

第一方面，本发明实施例提供一种基于对接技术实现的语音对话分析方法，包括：基于预设的连接获取客户端发送的包含实时语音信息的数据包；对所述数据包进行解析，获得实时语音流；对所述实时语音流进行识别，获得识别结果；将所述识别结果推送到后端目标设备进行实时展示与分析。

进一步的，所述对所述实时语音流进行识别，获得识别结果，具体包括：实时对所述实时语音流进行裁剪处理和压缩处理，获得处理后的目标语音流；对所述目标语音流进行识别，获得识别结果。

进一步的，所述的基于对接技术实现的语音对话分析方法，还包括：对所述数据包进行实时检测，判断所述客户端的会话开始和结束的状态；当确定所述客户端的会话开始时，触发对所述数据包进行解析，获得实时语音流；当确定所述客户端的会话结束时，触发停止对所述数据包进行解析。

进一步的，所述识别结果为识别文字。

进一步的，所述的基于对接技术实现的语音对话分析方法，还包括：预先通过网络线路建立与所述客户端之间的所述连接。

第二方面，本发明实施例还提供一种基于对接技术实现的语音对话分析装置，包括：数据包获取单元，用于基于预设的连接获取客户端发送的包含实时语音信息的数据包；数据包解析单元，用于对所述数据包进行解析，获得实时语音流；语音识别单元，用于对所述实时语音流进行识别，获得识别结果；推送单元，用于将所述识别结果推送到后端目标设备进行实时展示与分析。

进一步的，所述语音识别单元具体用于：实时对所述实时语音流进行裁剪处理和压缩处理，获得处理后的目标语音流；对所述目标语音流进行识别，获得识别结果。

进一步的，所述的基于对接技术实现的语音对话分析装置，还包括：通话检测单元，用于对所述数据包进行实时检测，判断所述客户端的会话开始和结束的状态；触发解析单元，用于当确定所述客户端的会话开始时，触发对所述数据包进行解析，获得实时语音流；触发停止单元，用于当确定所述客户端的会话结束时，触发停止对所述数据包进行解析。

进一步的，所述识别结果为识别文字。

进一步的，所述的基于对接技术实现的语音对话分析装置，还包括：建立连接单元，用于预先通过网络线路建立与所述客户端之间的所述连接。

第三方面，本发明实施例还提供一种基于对接技术实现的语音对话分析系统，包括：语音流捕获模块、音频提取模块、通话检测模块、语音识别模块以及推送模块；所述语音流捕获模块，用于基于预设的连接获取客户端发送的包含实时语音信息的数据包，并将所述数据包发送至所述音频提取模块；所述通话检测模块，用于对所述数据包进行实时检测，判断所述客户端会话开始和结束的状态；所述音频提取模块，用于当通过所述通话检测模块确定所述客户端会话开始时，对所述数据包进行解析，获得实时语音流；当通过所述通话检测模块确定所述客户端会话结束时，触发停止对所述数据包进行解析；所述语音识别模块，用于对所述实时语音流进行识别，获得识别结果；所述推送模块，用于将所述识别结果推送到后端目标设备进行实时展示。

第四方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；其中，所述存储器，用于存储基于对接技术实现的语音对话分析方法的程序，该电子设备通电并通过所述处理器运行该基于对接技术实现的语音对话分析方法的程序后，执行上述任意一项所述的基于对接技术实现的语音对话分析方法。

第五方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被服务器执行上述任意一项所述的基于对接技术实现的语音对话分析方法。

采用本发明所述的基于对接技术实现的语音对话分析方法，能够通过与客户端直接建立连接的方式获取数据包，进行实时在线处理和识别，提高了对话语音信息进行实时在线分析和识别的效率以及稳定性，并大幅降低已有电话呼叫中心引入实时语音识别等对话分析能力的改造成本和周期，从而极大提升了用户的使用体验。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

图1为本发明实施例提供的一种基于对接技术实现的语音对话分析方法的流程图；

图2为本发明实施例提供的一种基于对接技术实现的语音对话分析装置的示意图；

图3为本发明实施例提供的一种电子设备的示意图；

图4为本发明实施例提供的一种基于对接技术实现的语音对话分析系统的示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开的技术方案无需对呼叫中心业务系统进行修改，可快速稳定的获取到坐席客服话机包含实时语音信息的数据包，而且由于在靠近客户端一端直接进行语音识别和分析，降低了传输造成的识别延迟。另一方面，降低语音识别引擎和对话分析系统的部署和使用难度，提高了语音数据识别速度与准确率。

下面基于本发明所述的一种基于对接技术实现的语音对话分析方法，对其实施例进行详细描述。如图1所示，其为本发明实施例提供的一种基于对接技术实现的语音对话分析方法的流程图，具体实现过程包括以下步骤：

步骤S101：基于预设的连接获取客户端发送的包含实时语音信息的数据包。

在本发明实施例中，智能对话分析一体机可预先通过网络线路建立与所述客户端之间的连接。所述客户端位于坐席端，可以是指与语音服务器进行数据包交互的客服话机、VOIP话机或PC端软电话等语音通话设备。所述数据包为客户端语音数据交互过程中发送的IP网络数据包。所述网络线路可以是指RJ45网线等，在此不做具体限定。

在本发明实施例中，可将预先定制的语音识别引擎、音频提取引擎、通话检测模块和语音流捕获程序等集成到靠近客户端一侧的所述智能对话分析一体机中。所述智能对话分析一体机与所述客户端可通过预设的交换机和网络线路进行连接。坐席端一侧启动客户端，可自动加载通话检测引擎和语音识别引擎等，并启动语音流捕获程序。

具体的，通过将原插在坐席端一侧的客户端上的网线接到智能对话分析一体机上，并使用新的网线，将智能对话分析一体机和坐席端一侧的客户端上通过预设的交换机连接，使得智能对话分析一体机可利用语音流捕获程序直接实时获取到坐席端一侧的客户端上和语音服务器之间交互的数据包。

举例而言，在电话销售领域，坐席端可以通过客服话机、VOIP话机或PC端软电话等语音通话设备与消费者端的客户端进行语音通话，而智能对话分析一体机通过提取消费者端的客户端与坐席端的客户端之间的语音流，在智能对话分析一体机内进行语音识别并实时返回识别结果。

智能对话分析一体机与坐席端一侧的客户端通过网线连接。一方面降低语音流的网络传输带来的丢包、延迟和安全隐患问题；另一方面降低语音识别引擎的部署和使用难度。

步骤S102：对所述数据包进行解析，获得实时语音流。

在步骤S101中基于预设的连接获取客户端发送的包含实时语音信息的数据包之后，在本步骤中可对所述数据包进行解析获得实时语音流。

在具体实施过程中，对所述数据包进行解析之前，智能对话分析一体机需要预先对所述数据包进行检测，判断所述客户端会话开始和结束的状态。当确定所述客户端会话开始时，依据SIP(Session Initiation Protocol；会话初始协议)对所述数据包进行解析，获得实时语音流；当确定所述客户端会话结束时，触发停止对所述数据包进行解析。

步骤S103：对所述实时语音流进行识别，获得识别结果。

在步骤S102中对所述数据包进行解析获得实时语音流之后，在本步骤中可进一步对所述实时语音流进行识别获得识别结果。

在具体实施过程中，对所述实时语音流进行识别之前，智能对话分析一体机可预先基于相对熵剪枝等技术对所述实时语音流进行裁剪处理，进一步利用TFLite等技术再压缩处理，获得处理后的目标语音流，从而进一步对所述目标语音流进行识别，获得识别结果。所述识别结果为识别文字等识别数据。

步骤S104：将所述识别结果推送到后端目标设备进行实时展示与分析。

在步骤S103中对所述实时语音流进行识别获得识别结果之后，在本步骤中可将所述识别结果推送到后端目标设备进行实时展示。

在具体实施过程中，获得实时识别结果及其他提取分析信息之后，可将所述实时识别结果及其他提取分析信息推送到后端目标设备进行实时的展示。所述目标设备可以是指预定服务器或者显示设备等，在此不做具体限定。

与上述提供的一种基于对接技术实现的语音对话分析方法相对应，本发明还提供一种基于对接技术实现的语音对话分析装置。由于该装置的实施例相似于上述方法实施例，所以描述的比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的基于对接技术实现的语音对话分析装置的实施例仅是示意性的。请参考图2所示，其为本发明实施例提供的一种基于对接技术实现的语音对话分析装置的示意图。

本发明所述的一种基于对接技术实现的语音对话分析装置包括如下部分：

数据包获取单元201，用于基于预设的连接获取客户端发送的包含实时语音信息的数据包。

在本发明实施例中，可将预先定制的语音识别引擎、音频提取引擎、通话检测模块和语音流捕获程序等集成到靠近客户端一侧的所述智能对话分析一体机中。所述智能对话分析一体机与所述客户端可通过预设的交换机和网络线路进行连接。坐席端一侧启动客户端，可自动加载通话检测引擎和语音识别引擎等，并启动语音流捕获程序。具体的，通过将原插在坐席端一侧的客户端上的网线接到智能对话分析一体机上，并使用新的网线，将智能对话分析一体机和坐席端一侧的客户端上通过预设的交换机连接，使得智能对话分析一体机可利用语音流捕获程序直接实时获取到坐席端一侧的客户端上和语音服务器之间交互的数据包。智能对话分析一体机与坐席端一侧的客户端通过网线连接。一方面降低语音流的网络传输带来的丢包、延迟和安全隐患问题；另一方面降低语音识别引擎的部署和使用难度。

数据包解析单元202，用于对所述数据包进行解析，获得实时语音流。

在数据包获取单元201中基于预设的连接获取客户端发送的包含实时语音信息的数据包之后，在数据包解析单元202中可对所述数据包进行解析获得实时语音流。在具体实施过程中，对所述数据包进行解析之前，智能对话分析一体机需要预先对所述数据包进行检测，判断所述客户端会话开始和结束的状态。当确定所述客户端会话开始时，依据SIP协议对所述数据包进行解析，获得实时语音流；当确定所述客户端会话结束时，触发停止对所述数据包进行解析。

语音识别单元203，用于对所述实时语音流进行识别，获得识别结果。

在数据包解析单元202中对所述数据包进行解析获得实时语音流之后，在语音识别单元203中可进一步对所述实时语音流进行识别获得识别结果。在具体实施过程中，对所述实时语音流进行识别之前，智能对话分析一体机可预先基于相对熵剪枝等技术对所述实时语音流进行裁剪处理，进一步利用TFLite等技术再压缩处理，获得处理后的目标语音流，从而进一步对所述目标语音流进行识别，获得识别结果。所述识别结果为识别文字等识别数据。

推送单元204，用于将所述识别结果推送到后端目标设备进行实时展示。

在语音识别单元203中对所述实时语音流进行识别获得识别结果之后，在推送单元204中可将所述识别结果推送到后端目标设备进行实时展示。在具体实施过程中，获得实时识别结果及其他提取分析信息之后，可将所述实时识别结果及其他提取分析信息推送到后端目标设备进行实时的展示。所述目标设备可以是指预定服务器或者显示设备等，在此不做具体限定。

采用本发明所述的基于对接技术实现的语音对话分析装置，能够通过与客户端直接建立连接的方式获取数据包，进行实时在线处理和识别，提高了对话语音信息进行实时在线分析和识别的效率以及稳定性，并大幅降低已有电话呼叫中心引入实时语音识别等对话分析能力的改造成本和周期，从而极大提升了用户的使用体验。

与上述提供的一种基于对接技术实现的语音对话分析方法相对应，本发明还提供一种基于对接技术实现的语音对话分析系统。由于该系统的实施例相似于上述方法和装置实施例，所以描述的比较简单，相关之处请参见上述方法和装置实施例部分的说明即可，下面描述的基于对接技术实现的语音对话分析装置的实施例仅是示意性的。请参考图4所示，其为本发明实施例提供的一种基于对接技术实现的语音对话分析系统的示意图。

本发明所述的一种基于对接技术实现的语音对话分析系统包括如下部分：语音流捕获模块、音频提取模块、通话检测模块、语音识别模块以及推送模块；

其中，所述语音流捕获模块，用于基于预设的连接获取客户端发送的包含实时语音信息的数据包，并将所述数据包发送至所述音频提取模块。所述通话检测模块，用于对所述数据包进行实时检测，判断所述客户端会话开始和结束的状态。所述音频提取模块，用于当通过所述通话检测模块确定所述客户端会话开始时，对所述数据包进行解析，获得实时语音流；当通过所述通话检测模块确定所述客户端会话结束时，触发停止对所述数据包进行解析。所述语音识别模块，用于对所述实时语音流进行识别，获得识别结果。所述推送模块，用于将所述识别结果推送到后端目标设备进行实时展示。

与上述提供的一种基于对接技术实现的语音对话分析方法相对应，本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例，所以描述的比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的电子设备仅是示意性的。如图3所示，其为本发明实施例提供的一种电子设备的示意图。

该电子设备具体包括：处理器301和存储器302；其中，存储器302用于运行一个或多个程序指令，用于存储基于对接技术实现的语音对话分析方法的程序，该服务器通电并通过所述处理器301运行该基于对接技术实现的语音对话分析方法的程序后，执行上述任意一项所述的基于对接技术实现的语音对话分析方法。本发明所述的电子设备可以是指与通话机连接的智能对话分析一体机。

与上述提供的一种基于对接技术实现的语音对话分析方法相对应，本发明还提供一种计算机存储介质。由于该计算机存储介质的实施例相似于上述方法实施例，所以描述的比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的计算机存储介质仅是示意性的。

所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被服务器执行上述所述的基于对接技术实现的语音对话分析方法。

在本发明实施例中，处理器或处理器模块可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，简称SLDRAM)和直接内存总线随机存取存储器(Direct Ram bus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于对接技术实现的语音对话分析方法，其特征在于，包括：

基于预设的连接获取客户端发送的包含实时语音信息的数据包；

对所述数据包进行解析，获得实时语音流；

对所述实时语音流进行识别，获得识别结果；

将所述识别结果推送到后端目标设备进行实时展示与分析。

2.根据权利要求1所述的基于对接技术实现的语音对话分析方法，其特征在于，所述对所述实时语音流进行识别，获得识别结果，具体包括：

实时对所述实时语音流进行裁剪处理和压缩处理，获得处理后的目标语音流；对所述目标语音流进行识别，获得识别结果。

3.根据权利要求1所述的基于对接技术实现的语音对话分析方法，其特征在于，还包括：

对所述数据包进行实时检测，判断所述客户端的会话开始和结束的状态；

当确定所述客户端的会话开始时，对所述数据包进行解析，获得实时语音流；

当确定所述客户端的会话结束时，触发停止对所述数据包进行解析。

4.根据权利要求1所述的基于对接技术实现的语音对话分析方法，其特征在于，所述识别结果为识别文字。

5.根据权利要求1所述的基于对接技术实现的语音对话分析方法，其特征在于，还包括：预先通过网络线路建立与所述客户端之间的所述连接。

6.一种基于对接技术实现的语音对话分析装置，其特征在于，包括：

数据包获取单元，用于基于预设的连接获取客户端发送的包含实时语音信息的数据包；

数据包解析单元，用于对所述数据包进行解析，获得实时语音流；

语音识别单元，用于对所述实时语音流进行识别，获得识别结果；

推送单元，用于将所述识别结果推送到后端目标设备进行实时展示与分析。

7.根据权利要求6所述的基于对接技术实现的语音对话分析装置，其特征在于，所述语音识别单元具体用于：预先对所述实时语音流进行裁剪处理和压缩处理，获得处理后的目标语音流；对所述目标语音流进行识别，获得识别结果。

8.一种基于对接技术实现的语音对话分析系统，其特征在于，包括：语音流捕获模块、音频提取模块、通话检测模块、语音识别模块以及推送模块；

所述语音流捕获模块，用于基于预设的连接获取客户端发送的包含实时语音信息的数据包，并将所述数据包发送至所述音频提取模块；

所述通话检测模块，用于对所述数据包进行实时检测，判断所述客户端会话的开始和结束的状态；

所述音频提取模块，用于当通过所述通话检测模块确定所述客户端的会话开始时，对所述数据包进行解析，获得实时语音流；当通过所述通话检测模块确定所述客户端的会话结束时，触发停止对所述数据包进行解析；

所述语音识别模块，用于对所述实时语音流进行识别，获得识别结果；

所述推送模块，用于将所述识别结果推送到后端目标设备进行实时展示与分析。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储基于对接技术实现的语音对话分析方法的程序，该电子设备通电并通过所述处理器运行该基于对接技术实现的语音对话分析方法的程序后，执行上述权利要求1-5任意一项所述的基于对接技术实现的语音对话分析方法。

10.一种计算机可读存储介质，其特征在于，该计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被服务器执行如权利要求1-5任一项所述的基于对接技术实现的语音对话分析方法。