CN110473549A

CN110473549A - 一种语音对话分析系统、方法及存储介质

Info

Publication number: CN110473549A
Application number: CN201910774639.8A
Authority: CN
Inventors: 陈福; 孙思明; 秦垠峰; 闫冰
Original assignee: Beijing Zhi He Dafang Technology Co Ltd
Current assignee: Beijing Zhi He Dafang Technology Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2019-11-19

Abstract

本发明实施例公开了一种语音对话分析系统、方法及存储介质，涉及语音识别技术领域，系统包括：坐席端、对话分析一体机、客户端和服务器，坐席端与客户端进行语音通话，对话分析一体机采集坐席端与客户端的持续语音信息，并进行处理分析，生成分析结果，并将分析结果发送至服务器，对话分析一体机包括：语音传输装置、语音采集装置和端上计算模块；语音传输装置将坐席端与客户端的语音信息传输至语音采集装置；语音采集装置获得持续的语音流，并对语音信息的格式进行转换后输入端上计算模块；端上计算模块根据语音流进行客户画像、语音识别和语音分析。发明实施例能够解决现有语音识别引擎和对话分析系统部署方式尚存在安全性不高、传输速率低和操作复杂的问题。

Description

一种语音对话分析系统、方法及存储介质

技术领域

本发明实施例涉及语音识别技术领域，具体涉及一种语音对话分析系统、方法及存储介质。

背景技术

随着语音识别及相关技术的不断提高，语音对话分析在电销，回访等领域都发挥出越来越重要的作用。由于电销等场景的对话分析对实时性有较高的要求，需要在对话进行过程中实时识别语音内容并分析。传统的语音识别引擎和对话分析系统部署主要有两种：一是将其部署在云服务器上，通过抓包、浏览器插件、websocket接口等方式获取语音流，并将其通过网络上传至云服务器进行语音识别，然后返回识别结果并按照业务需求进行对话分析。因为需要通过网络进行语音流传输，可能造成延迟，信息泄密等问题；二是将语音识别引擎和对话分析系统部署到本地服务器，减少语音流传输带来的延迟和安全隐患，但由于呼叫中心系统的多样性和业务需求的复杂性，往往需要双方工程师多次沟通，部署难度较高。

由此可知，现有的语音识别引擎和对话分析系统部署方式尚存在安全性不高、传输速率低和操作复杂等问题。

发明内容

本发明实施例的目的在于提供一种语音对话分析系统、方法及存储介质，用以解决现有语音识别引擎和对话分析系统部署方式尚存在安全性不高、传输速率低和操作复杂的问题。

为实现上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种语音对话分析系统，

所述系统包括：坐席端、对话分析一体机、客户端和服务器，所述坐席端与客户端进行语音通话，所述对话分析一体机采集坐席端与客户端的持续语音信息，对所述持续语音信息进行处理分析，生成分析结果，并将所述分析结果发送至服务器，所述对话分析一体机包括：语音传输装置、语音采集装置和端上计算模块；其中，所述语音传输装置用于将坐席端与客户端的语音信息传输至语音采集装置；所述语音采集装置用于获得持续的语音流，并对语音信息的格式进行转换后输入端上计算模块；所述端上计算模块用于根据所述语音流进行客户画像、语音识别和语音分析。

进一步地，所述端上计算模块配置有：静音检测模块、客户画像模块、语音识别模块和对话分析模块，所述静音检测模块用于监测所述语音流中是否有持续的声音信号，若检测到持续的声音信号，则将所述持续的声音信号传输至语音识别模块，所述声音信号包括客户端语音和坐席端语音；所述客户画像模块用于根据客户端语音对客户的性别、年龄段和情绪进行分类；所述语音识别模块用于对所述持续的声音信号进行语音识别,获取文字识别结果，并将所述文字识别结果上传至服务器；所述对话分析模块用于根据文字识别结果对关键信息进行识别、对对话主题进行分类以及对客户意向进行评级。

进一步地，所述语音传输装置包括至少两个音频分线器和数据连接线，所述语音采集装置包括第一采集装置和第二采集装置，所述至少两个音频分线器包括第一分线器和第二分线器，所述第一分线器的二合一端连接至坐席的通话设备，第一分线器的其中一个分线端通过数据连接线连接至所述第一采集装置，第一分线器的另一个分线端连接至坐席的语音输入设备；所述第二分线器的二合一端连接至坐席的通话设备，第二分线器的其中一个分线端通过数据连接线连接至所述第二采集装置，第二分线器的另一个分线端连接至坐席的语音输出设备。

第二方面，本发明实施例还提供一种语音对话分析方法，

所述方法由对话分析一体机执行，所述方法包括：获取坐席端与客户端持续的语音流；检测所述语音流中是否有持续的声音信号，若检测到持续的声音信号，则将所述持续的声音信号传输至语音识别模块；所述语音识别模块对所述持续的声音信号进行语音识别，获取文字识别结果；根据所述文字识别结果进行对话分析，并输出对话分析结果；根据所述持续的声音信号中的客户端语音进行客户画像，并输出客户画像结果；将所述输出对话分析结果和所述客户画像结果传输至服务器。

进一步地，所述方法还包括对所述对话分析一体机进行配置，所述配置方法包括：将训练好的语音识别模型、客户画像模型和对话分析模型嵌入所述对话分析一体机的端上计算模块内。

进一步地，在将所述语音识别模型嵌入端上计算模块之前，所述方法还包括对语音识别模型进行裁剪和压缩操作。

进一步地，所述客户画像模型的开发方法包括：利用标注客户性别、客户年龄和客户情绪的语音数据,训练客户画像模型；其中，所述客户画像模型包括二分类模型和多分类模型。

进一步地，所述对话分析模型包括命名实体识别模型、主题分类模型和客户意向评分模型，所述对话分析模型的开发方法包括：利用标注的命名实体数据训练命名实体识别模型，提取标注信息，所述标注信息包括姓名、地址和日期；利用标注的对话主题数据训练主题分类模型，识别标注主题，所述主题包括咨询、投诉和建议；利用标注的意向评分数据，训练客户意向评分模型，判断客户意向。

第三方面，本发明实施例还提供一种计算机可读存储介质，

所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被对话分析一体机执行一种语音对话分析方法。

本发明实施例提供的技术方案至少具有如下优点：

本发明实施例通过对话分析一体机采集客户端和坐席端的对话语音流，在对话分析一体机内进进行处理和分析，由客户画像模型和对话分析模型自动进行客户画像、关键信息提取、意图分类等任务，将结果返回服务器进行后续处理。一方面能够降低语音流的网络传输带来的丢包、延迟和安全隐患问题，另一方面能够降低语音识别引擎、客户画像和对话分析系统的部署和使用难度。

附图说明

图1为本发明实施例1提供的一种语音对话分析系统的结构示意图。

图2为本发明实施例1提供的一种对话分析一体机的端上计算模块的模块结构示意图。

图3为本发明实施例2提供的一种语音对话分析方法的信令流程图。

图4为本发明实施例提供的一种对话分析方法的步骤图。

图中：客户端01、坐席端02、对话分析一体机03、服务器04、第一分线器05、数据连接线06、第一采集装置07、端上计算模块08、第二分线器09、第二采集装置10、静音检测模块11、客户画像模块12、语音识别模块13、对话分析模块14。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

实施例1

在介绍本发明实施例之前，首先对本申请的技术背景做出简单介绍：

坐席，一般由坐席电脑、坐席软件、坐席耳麦、服务人员等组成，坐席通过坐席软件及硬件设备实现相关的控制功能，以达到客户服务的目的。

客户画像：客户信息标签化，完美地抽象出一个客户的信息全貌，可以看作企业应用大数据的根基。客户画像又称用户角色，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具，用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表，客户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的，形成的用户角色需要有代表性能代表产品的主要受众和目标群体。

公对公线，线的两端一样，都是公头，不能直接对接，一般用作是设备互连用的直连线。

本发明实施例1提供一种语音对话分析系统，参考图1，该系统包括：坐席端02、对话分析一体机03、客户端01和服务器04，坐席端02与客户端01进行语音通话，对话分析一体机03采集坐席端02与客户端01的持续语音信息，对持续语音信息进行处理分析，生成分析结果，并将分析结果发送至服务器04。在实际中，坐席端02包括电脑、手机、电话和服务人员等常规坐席配置，客户端01可以通过互联网或移动通信网络与坐席端02进行通话，对话分析一体机03采集服务人员和客户的通话记录，并通过备份客户端01与坐席端02的语音流，在一体机内进行语音识别并实时返回识别结果。

具体地，对话分析一体机03包括：语音传输装置、语音采集装置和端上计算模块08；其中，语音传输装置用于将坐席端02与客户端01的语音信息传输至语音采集装置；语音采集装置用于获得持续的语音流，并对语音信息的格式进行转换后输入端上计算模块08；端上计算模块08用于根据语音流进行客户画像、语音识别和语音分析，该端上计算模块08可以是开发板。

上述语音传输装置包括至少两个音频分线器和数据连接线06，语音采集装置包括第一采集装置和第二采集装置，本实施例中，语音采集装置优选地为声卡，声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换，是实现声波/数字信号相互转换的一种硬件。至少两个音频分线器包括第一分线器05和第二分线器09，第一分线器05的二合一端连接至坐席的通话设备，第一分线器05的其中一个分线端通过数据连接线06连接至第一采集装置07，第一分线器05的另一个分线端连接至坐席的语音输入设备，以便第一采集装置07采集坐席服务人员的坐席端02语音。上述语音输入设备可以是麦克风。

第二分线器09的二合一端连接至坐席的通话设备，第二分线器09的其中一个分线端通过数据连接线06连接至第二采集装置10，第二分线器09的另一个分线端连接至坐席的语音输出设备，以便第二采集装置10采集客户端01语音。上述语音输出设备可以是扬声器，且本实施例中的数据连接线06优选地为3极公对公线。

需要说明的是，参考图2，端上计算模块08配置有：静音检测模块11、客户画像模块12、语音识别模块13和对话分析模块14，静音检测模块11用于监测所述语音流中是否有持续的声音信号，若检测到持续的声音信号，即代表捕获到客户端01和坐席端02的对话，则将持续的声音信号传输至语音识别模块13，声音信号包括客户端01语音和坐席端02语音；客户画像模块12用于根据客户端01语音对客户的性别、年龄段和情绪进行分类；具体实施过程中，年龄段优选地为0-20岁、20-40岁、40-60岁和60岁以上四个阶段，情绪包括积极、消极、中性三种类别。语音识别模块13用于对所述持续的声音信号进行语音识别，获取文字识别结果，并将文字识别结果上传至服务器04；对话分析模块14用于根据文字识别结果对关键信息进行识别、对对话主题进行分类以及对客户意向进行评级。关键信息包括文字识别结果中包含的姓名、地址、日期等重要信息，对话主题包括客户的目的，如咨询、建议和投诉等。其中，为了保证分析结果的准确性，客户画像和对话分析动作优选地在对话结束之后进行。

本发明实施例通过对话分析一体机03采集客户端01和坐席端02的对话语音流，在对话分析一体机03内进进行处理和分析，由客户画像模型和对话分析模型自动进行客户画像、关键信息提取、意图分类等任务，将结果返回服务器04进行后续处理。一方面能够降低语音流的网络传输带来的丢包、延迟和安全隐患问题，另一方面能够降低语音识别引擎、客户画像和对话分析系统的部署和使用难度。

实施例2

与上述实施例1对应地，本发明实施例2提供一种语音对话分析方法，该方法由对话分析一体机03执行，参考图3和4，该方法包括：

S1、获取坐席端02与客户端01持续的语音流；

通过语音传输装置实时采集坐席端02和客户端01的语音信息，具体地，通过第一分线器05将坐席端02语音信息传输至第一采集装置07，第一采集装置07将坐席端02语音信息进行格式转换后，传输至端上计算模块08；通过第二分线器09将客户端01的语音信息实时传输至第二采集装置10，第二采集装置10将客户端01语音信息进行格式转换后，传输至端上计算模块08。

其中，在采用端上计算模块08对语音信息进行处理之前，还需要对对话分析一体机03的各个模块进行配置，配置方法包括：

将语音流捕获程序、静音检测模块11、识别结果传输程序和训练好的语音识别模型、客户画像模型和对话分析模型嵌入端上计算模块08，完成设备的软件安装。具体的语音识别模型、客户画像模型和对话分析模型的创建方法可构建神经网络构模型采用标记的样本对神经网络模型进行训练，得到具有识别、分类等功能的网络模型，此方法的实现利用现有技术均可以完成，在此不做过多赘述。

S2、检测语音流中是否有持续的声音信号，若检测到持续的声音信号，则将持续的声音信号传输至语音识别模块13；

通过语音流捕获程序捕获语音流，然后通过静音检测模块11，检测语音流中是否有坐席端02和客户端01的语音信息，具体的对语音信息的判定可以通过语音检测程序实现，此检测程序可从现有技术中查证。若检测到坐席端02和客户端01的语音信息，则将该坐席端02和客户端01的语音信息传输至语音识别模块13，再进行下述步骤。

S3、语音识别模块13对持续的声音信号进行语音识别，获取文字识别结果；

语音识别模块13预先装载有语音识别模型，在嵌入该语音识别模型之前，本实施例首先通过语音识别模型进行裁剪优化，优选地，采用基于相对熵剪枝等技术裁剪语音识别引擎的语言模型，利用参数量化、稀疏化或其他技术，进行语音识别引擎的神经网络模型压缩，从而在端上计算模块08有限的计算资源下提高语音识别模型的识别准确率和转录效率。利用裁剪优化后的语音识别模型对持续的声音信号进行语音识别，将语音信号转换成文字信号，获取声音信号的文字识别结果。

S4、根据获取的文字识别结果进行对话分析，并输出对话分析结果；

为了保证分析结果的准确性，优选地在对话结束后进行对话分析，判断对话结束的依据可以根据文字识别结果中的结束语来判断，如谢谢，再见等词。然后利用对话分析模型对文字识别结果进行分析，具体地，对话分析模型包括命名实体识别模型、主题分类模型和客户意向评分模型，其中对话分析模型的开发方法包括：利用标注的命名实体数据训练命名实体识别模型，提取标注信息，标注信息包括姓名、地址和日期等可以直接反应出客户关键信息的元素；主题分类模型的开发方法包括：利用标注的对话主题数据训练主题分类模型，识别标注主题，主题包括咨询、投诉和建议等；客户意向评分模型的开发方法包括：利用标注的意向评分数据，训练客户意向评分模型，判断客户意向，可以设置满意、一般、不满意等梯度，用于反映客户的体验度。当然，在实际操作中可以根据需要设置不同的分类模型，来对语音信息进行多方面分析。

S5、根据持续的声音信号中的客户端01语音进行客户画像，并输出客户画像结果；

由于此步骤是为了得到客户画像，因此只需对客户端01语音进行分析，具体地，首先对客户画像模型进行开发，包括：利用标注客户性别、客户年龄和客户情绪的语音数据，训练客户画像模型；其中，所述客户画像模型包括二分类模型和多分类模型。具体地，二分类模型用于对客户性别进行分类，多分类模型用于对客户年龄和客户情绪的语音数据进行分类，年龄分类优选地为0-20岁、20-40岁、40-60岁和60岁以上四个阶段，情绪包括积极、消极、中性三种类别。也可根据实际需求设置不同的年龄段和情绪类别。

利用上述训练好的客户画像模型对实际的客户语音进行分析，得出客户画像结果。

S6、将输出对话分析结果和客户画像结果传输至服务器04。

通过网络将对话分析结果和客户画像结果传输至服务器04或通过显示装置展现出来，以供坐席端02参考，从而提高服务质量。

本发明实施例通过对话分析一体机03采集客户端01和坐席端02的对话语音流，在对话分析一体机03内进进行处理和分析，由客户画像模型和对话分析模型自动进行客户画像、关键信息提取、意图分类等任务，将结果返回服务器04进行后续处理。一方面能够降低语音流的网络传输带来的丢包、延迟和安全隐患问题，另一方面能够降低语音识别引擎、客户画像和对话分析系统的部署和使用难度。并基于端上设备特征,对语音识别模型进行裁剪优化,提高其识别准确率和转录效率。

实施例3

与上述实施例对应的，本发明实施例3提供一种计算机可读存储介质，计算机存储介质中包含一个或多个程序指令，一个或多个程序指令用于被对话分析一体机03执行一种语音对话分析方法。

本发明所公开的实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行上述的方法。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种语音对话分析系统，其特征在于，所述系统包括：坐席端、对话分析一体机、客户端和服务器，所述坐席端与客户端进行语音通话，所述对话分析一体机采集坐席端与客户端的持续语音信息，对所述持续语音信息进行处理分析，生成分析结果，并将所述分析结果发送至服务器，所述对话分析一体机包括：语音传输装置、语音采集装置和端上计算模块；

其中，所述语音传输装置用于将坐席端与客户端的语音信息传输至语音采集装置；所述语音采集装置用于获得持续的语音流，并对语音信息的格式进行转换后输入端上计算模块；所述端上计算模块用于根据所述语音流进行客户画像、语音识别和语音分析。

2.如权利要求1所述的一种语音对话分析系统，其特征在于，所述端上计算模块配置有：静音检测模块、客户画像模块、语音识别模块和对话分析模块，

所述静音检测模块用于监测所述语音流中是否有持续的声音信号，若检测到持续的声音信号，则将所述持续的声音信号传输至语音识别模块，所述声音信号包括客户端语音和坐席端语音；

所述客户画像模块用于根据客户端语音对客户的性别、年龄段和情绪进行分类；

所述语音识别模块用于对所述持续的声音信号进行语音识别,获取文字识别结果，并将所述文字识别结果上传至服务器；

所述对话分析模块用于根据文字识别结果对关键信息进行识别、对对话主题进行分类以及对客户意向进行评级。

3.如权利要求1所述的一种语音对话分析系统，其特征在于，所述语音传输装置包括至少两个音频分线器和数据连接线，所述语音采集装置包括第一采集装置和第二采集装置，所述至少两个音频分线器包括第一分线器和第二分线器，所述第一分线器的二合一端连接至坐席的通话设备，第一分线器的其中一个分线端通过数据连接线连接至所述第一采集装置，第一分线器的另一个分线端连接至坐席的语音输入设备；所述第二分线器的二合一端连接至坐席的通话设备，第二分线器的其中一个分线端通过数据连接线连接至所述第二采集装置，第二分线器的另一个分线端连接至坐席的语音输出设备。

4.一种语音对话分析方法，其特征在于，所述方法由对话分析一体机执行，所述方法包括：

获取坐席端与客户端持续的语音流；

检测所述语音流中是否有持续的声音信号，若检测到持续的声音信号，则将所述持续的声音信号传输至语音识别模块；

所述语音识别模块对所述持续的声音信号进行语音识别，获取文字识别结果；

根据所述文字识别结果进行对话分析，并输出对话分析结果；

根据所述持续的声音信号中的客户端语音进行客户画像，并输出客户画像结果；

将所述输出对话分析结果和所述客户画像结果传输至服务器。

5.如权利要求4所述的一种语音对话分析方法，其特征在于，所述方法还包括对所述对话分析一体机进行配置，所述配置方法包括：

将训练好的语音识别模型、客户画像模型和对话分析模型嵌入所述对话分析一体机的端上计算模块内。

6.如权利要求5所述的一种语音对话分析方法，其特征在于，在将所述语音识别模型嵌入端上计算模块之前，所述方法还包括对语音识别模型进行裁剪和压缩操作。

7.如权利要求5所述的一种语音对话分析方法，其特征在于，所述客户画像模型的开发方法包括：

利用标注客户性别、客户年龄和客户情绪的语音数据,训练客户画像模型；其中，所述客户画像模型包括二分类模型和多分类模型。

8.如权利要求5所述的一种语音对话分析方法，其特征在于，所述对话分析模型包括命名实体识别模型、主题分类模型和客户意向评分模型，所述对话分析模型的开发方法包括：

利用标注的命名实体数据训练命名实体识别模型，提取标注信息，所述标注信息包括姓名、地址和日期；

利用标注的对话主题数据训练主题分类模型，识别标注主题，所述主题包括咨询、投诉和建议；

利用标注的意向评分数据，训练客户意向评分模型，判断客户意向。

9.一种计算机可读存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被对话分析一体机执行如权利要求4-8任一项所述的方法。