CN111128241A

CN111128241A - 语音通话的智能质检方法及系统

Info

Publication number: CN111128241A
Application number: CN201911402499.8A
Authority: CN
Inventors: 魏云波; 张朋; 周琦
Original assignee: Shanghai Haokun Information Technology Co Ltd
Current assignee: Shanghai Haokun Information Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-08

Abstract

本发明提供了一种语音通话的智能检测方法及系统，具体在互联网端向手机端的语音通话场景下，通过外呼装置实现在互联网端基于websocket协议以及webrtc协议的基础上将互联网端和客户手机端通话信道打通，并将双方的语音媒体流信息发送给对方实现在互联网端和手机端的实时通话。通过通讯服务器完成通道内通话双方语音媒体信息流传输并使用电话软交换平台捕获经由通道传输的媒体声音流并将媒体声音导出。通过对语音数据进行语义分析和情感监测获得一个质检结果，并通过质检结果执行反馈以达到监督语音服务合规性、精准的客户语音服务、提升客户体验。

Description

语音通话的智能质检方法及系统

技术领域

本发明涉及智能语音识别技术，具体涉及一种由互联网向手机端发送语音数据信息，在双向数据传输过程中通过获取导出处理语音，并将处理信息转换为可识别的语义和情感监测信息，通过监测信息实现语音通话过程的智能检测以达到语音智能识别、检测和执行反馈的功能，实现精准识别通话质量的目的。

背景技术

智能语音技术是近年来人工智能领域里被热门研究的前沿技术领域。其本质是通过计算机科学和人工智能科学，实现人与机器之间的语言通信。在相关技术研究中，至少围绕对人的语言进行语义的识别和人的情感识别。

在公开号为CN110265019A名称为“一种语音识别的方法及语音机器人系统”提供了一种语音识别的方法，具体为采集用户语音信息后转换为文本信息，通过识别的信息作出信息反馈。具体的还公开了对语义进行矫正的方法。在该专利文献内，基本记载了现有技术中对语音识别成为文本信息并进行二次矫正的方法。该专利存在的问题是1.没有将具体的语音应用场景的需求多样性考虑在技术方案内。更直白的说，没有实际的应用场景的解决方案。2.人的语音数据不仅仅需要识别文本信息，也需要识别出人的情感信息，同一个字句内容在不同的语音语调下所具有的实际含义是不同的。3.只提供了语音数据的收集处理方案，并没有提供从互联网向手机端提供语音数据信息识别的方案。由于对于大型的通信服务商，如中国移动等其智能语音服务是基于互联网的服务平台实现的，所以要进一步解决互联网向手机通信的技术方案。

在公开号为CN109767789A名称为“一种用于语音情感识别的新特征提取方法”公开了一种用于语音情感识别的新特征的提取方法。具体的，是将语音数据分段后获得分段语音图谱，并通过卷积神经网络深度学习识别语音情感识别。以上内容说明语音情感识别的方法为已知的方法。如前所述，该识别方法具体应用于场景中的方案以解决实际的问题并没有被公开。

申请人，意欲提供一种从互联网向手机端进行智能语音识别，对语音数据信息同时进行语义和情感状态识别的方法，并对识别出来的信息进行质检以提升具体场景下的识别准确性以提供适当的反馈执行操作的方法。

发明内容

为解决上述技术问题，本发明提供了一种语音通话的智能质检方法及系统，其目的是，以互联网向手机客户端发送语音通信为场景，提出一种能够对语音中的语义和情感进行识别的方法，并对识别信息进行质检通过质检的方法获取预警的信息，通过预警信息以执行相应的反馈。

一种语音通话的智能质检方法，其用于对语音媒体信息流中的语音信息进行识别、分析和反馈，通过如下步骤实现，

步骤一.建立互联网端向手机端进行通信联系的通道；

步骤二.通过通讯服务器实现语音媒体信息流的传输；

步骤三.对语音媒体信息流进行语音数据处理；

步骤四.对语音媒体信息流进行情感检测分析；

步骤五.对语音媒体信息流进行语义分析；

步骤六.对步骤四或者步骤五所获取的分析结论进行质量检测；

步骤七.对步骤六中所获取的检测信息进行执行反馈。

进一步的，所述的步骤二中，通过通讯服务器实现语音媒体信息流的传输并使用电话软交换平台捕获经由通道传输的媒体声音流并将媒体声音导出。

进一步的，所述的步骤三当中通过如下步骤实现对语音媒体信息流进行语音数据处理：

步骤3.1预处理：通过预加重、分帧、加窗对步骤二所获取的语音媒体信息流进行预处理；

步骤3.2语种识别：将分帧加窗后的信号转换为语谱图，使用深度卷积神经网络针对语谱图数据进行特征提取，并识别出相应语种；

步骤3.3提取声学特征：对分帧加窗后的各帧信号进行快速傅里叶FFT变换得到相应的频谱信号，并对语音信号的频谱幅度谱取模平方得到语音信号的能量谱，能量谱通过一组梅尔滤波器组，计算每个滤波器的对数输出能量，带入离散余弦变换得到MFCC系数，提取动态差分参数，得到N维MFCG参数；

步骤3.4根据语种提取对应语音的声学特征：根据不同语种特点，提取其他声学特征，并根据不同语种实际使用情况选用声学特征或对声学特征进行混合处理；

步骤3.5静音检测：通过预训练的基于深度神经网络DNN和长短时记忆单元LSTM的混合网络结构进行静音检测；

步骤3.6断句：根据静音检测结果及该语种对应预设阈值将语音流进行断句处理；

步骤3.7语音转文字：通过声学模型、语言模型其中一种或者其结合将语音转为对应语种文本信息输出。

进一步的，所述的步骤四通过以下步骤实现情感检测分析：将步骤3.3至步骤3.6所处理完毕的语音特征矩阵输入已训练的情感状态概率检测模型，得到对应的情感状态序列，确定对应的情感状态。

进一步的，所述的步骤五通过如下方法实现语义分析，设置场景词库模型和质检词库模型两个部分，将步骤3.7所获取的文本信息以及相应的信息节点代号输入到场景词库模型中获取关键词，输出文本信息对应的意图序列；或者将文本信息以及相应的信息节点代号输入到已训练的质检词库模型中，获取质检意图序列；根据权重综合分析出具体的语义信息。

在本申请中，所述多场景是指具体的业务场景，如银行通过其网络服务平台向其客户通知相关理财信息的语音服务信息等。在实现本申请的技术方案过程中，会绘制一个场景通话的流程图如，拨打电话、确认身份、告知信息、业务信息通报等。在一个场景通话的流程中，会给出具体的通话流程阶段的信息节点。与本申请中这些信息节点通常给予计算机可识别的代号予以表达并输入场景词库中，这样的目的是使得在具体的模型匹配过程中能够与其具体通话场景相适应，以提升识别并匹配模型中关键词的准确率和效率。

其中所述的意图序列是指场景词库模型会输出若干个关键词，这些关键词将会给出一个可能的概率，这些附有概率的关键词将会按照概率值按序排列，通过这种排列方式排列出场景下真实的语义。同样的质检意图序列也是按照相应的可能的在质检下真实的语义。而场景词库和质检词库的区别在于，前者是按照具体场景业务流程中所研究得出的大概率的正常通话所应知的对话关键词。比如说在银行理财咨询场景下，在确认身份时流程中被问及是否为某某客户时，通常回答为我是某某。这样的情况下就会与该通话场景下的“我是某某”语义与场景词库模型比对后，输出一个关键词作为正常语义分析过程。但是同样流程下出现“请不要再打电话”这样的语音输入时，将与场景词库模型不匹配而无法输出关键词或者是低概率的关键词时，将会进入质检词库模型进行比对以进一步输出特异性的关键词，这些关键词往往具有场景词库下无法应对的特殊关键词以达到理解语义的目的。

根据两个词库的综合权重分析以达到给出最终的关键词语义予以判断。

进一步的，所述的步骤六通过以下步骤实现对分析结论进行质量检测：

步骤6.1设置质检模型：将步骤四中所述情感检测中得到情感状态序列或者步骤五中所述语义分析获得的意图信息输入到质检模型，输出质量预警序列，所述的质量预警序列包括预警类型及概率；

步骤6.2设置质检触发规则：设定不同预警类型对应质检触发阈值；

步骤6.3当步骤6.1中所述所得预警类型及概率达到步骤6.2所述设置的对应质检触发阈值，触发执行反馈处理模块。

进一步的，通过以下步骤实现对步骤六中的反馈处理：

步骤7.1设置质检执行规则：设定预警类型对应的质检执行反馈方式，所述的反馈方式，包括自动执行反馈、人工执行反馈两种方式；

步骤7.2设置的自动执行反馈规则：当采用自动执行反馈时，预警类型对应采取的执行方式包括电话静音或者挂断；

步骤7.3按照步骤7.2自动执行反馈规则；

步骤7.4设置人工执行反馈提醒：质检屏中高亮对应对话记录，提醒质检人员当前通话需要重点关注，并显示具体的关注信息；

步骤7.5人工执行反馈方式：接管，当确认需要接管时可从原人工智能AI机器人、或人工坐席中接管当前通话直接与客户进行深入沟通；若从人工智能AI机器人中接管，则通话转换为三方通话，人工智能AI机器人辅助人工通讯的模式。

优选的，所述的步骤7.4中的重点关注信息包括预警类型、语义信息、情感状态信息。

应用如上方法的一种语音通讯智能系统，包括外呼系统服务器，用于由客户的网络系统向手机客户端建立双向通讯通道；

中间服务器，实现建立通讯通道后实现语音媒体信息流的传输以及获取语音媒体信息流中的信息，并连接语音分析模块对获取的语音数据进行分析；

文件存储服务器，用于存储相关数据。

本发明提供的一种语音通话的智能质检方法及系统，其有益效果在于，具体在互联网端向手机端的语音通话场景下，通过外呼装置实现在互联网端基于websocket协议(一种在单个TCP连接上进行全双工通信的协议)以及webrtc协议(一种支持网页浏览器进行实时语音对话或视频对话的通讯协议)的基础上将互联网端和客户手机端通话信道打通并将双方的语音媒体流信息发送给对方实现在互联网端和手机端的实时通话，通过通讯服务器完成通道内通话双方语音媒体信息流传输并使用电话软交换平台捕获经由通道传输的媒体声音流并将媒体声音导出。通过对语音数据进行语义分析和情感监测获得一个质检结果，并通过质检结果执行反馈以达到监督语音服务合规性、精准的客户语音服务、提升客户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

附图1为本发明中语音通话流程产生的质检情况反馈表。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例，一种语音通话的智能质检方法，其用于对银行新发卡客户回访调研电话，能够有效提升智能语音回访电话的通话识别准确性提升回访效率。

具体的首先从银行客户服务系统内建立客户语音通话的服务列表，包括客户的姓名、联系电话以及相关客户业务信息等。

以下将结合具体的通话场景以说明本申请方法的原理。

具体的网络服务平台通过通信服务器向手机客户端发出外呼业务，产生语音信息的媒体流。如“王先生，下午好。我是……”在这个过程中，双方的通话语音将会实时的产生。同时我们会依据网络服务平台的语音服务的内容，预先建立一个拟制的通话流程，如打招呼，介绍自己，询问原因等等，在双方语音的通话过程中，智能语音将会按照如上流程记载相应的信息节点，这里的信息节点将会以一个可被数据处理的符号所记载。同时在双向的语音通话过程中将会按照以下步骤实现对语音媒体信息流进行语音数据处理：

媒体信息流经过语音分析中预处理、语种识别、提取声学特征、静音检测、断句，最后将转换成对话文字信息。

步骤3.1预处理：通过预加重、分帧、加窗对获取的语音媒体信息流进行预处理；

步骤3.3提取声学特征：对分帧加窗后的各帧信号进行快速傅里叶FFT变换得到相应的频谱信号，并对语音信号的频谱幅度谱取模平方得到语音信号的能量谱，能量谱通过一组梅尔滤波器组，计算每个滤波器的对数输出能量，带入离散余弦变换得到MFCC系数，提取动态差分参数，得到N维MFCC参数；

在转换成为文本信息后，将文本信息以及流程图中所对应的当前语音通话拟制的节点信息按照如下方法进行实现语义分析。

设置场景词库模型和质检意图词库模型两个部分，将步骤3.7所获取的文本信息以及相应的信息节点代号输入到场景词库模型中获取关键词，输出文本信息对应的意图序列；或者将文本信息以及相应的信息节点代号输入到已训练的质检词库模型中，获取质检意图序列；根据权重综合分析出具体的语义信息。

如正常情况下，我们得到如下的语音信息反馈情况表如图1所示；

在这个过程中，智能语音所表达的“王先生，下午好”和“我是邮政储蓄银行客服人员，编号XX”所对应的两个情感状态检测的结果分别是概率为83％和概率为86％的平静状态，将如上两种状态划归为正常的通话状态。在没有产生客户方的语音对话时，相应的无文本信息，进一步的不会产生场景词库模型和质检词库模型的语义分析结果，对应的质检结论为正常，无相应的执行反馈，智能语音将会按照场景对话流程图进入下一个信息节点的对话阶段。

但是当客户产生如“你这什么态度呀？……，我要投诉你！”这样的语音信息时，会将客户的如上语音转换成为文本信息并输入场景词库模型和质检词库模型中会产生，情感状态序列“愤怒91％，激动77％”的分析结论，场景词库模型分析意图序列“拒绝23％”的分析结论，质检词库模型分析意图序列“投诉92％”的结果，在这样的分析结论下综合权重得出质检模型“投诉预警，90％”的结果。

在通过上述方法得出一个语音通话过程中客户不满意的质检结果的时候，我们需要对这种结果采用方法进行反馈，步骤包括，

步骤7.3按照步骤7.2自动执行反馈规则；

如在得出质检为“投诉预警，90％”的结果的情况下，在网络服务平台上的显示器上将会高亮的显示客户在与智能语音通话过程中，所表达出来的关键词语或者整段文字对话，并且提示人工客户人员应当对该通电话予以关注，在必要的时候切断电话或者转交给人工客服提供服务。

应用如上方法的系统中采用的系统包括外呼系统服务器，用于由客户的网络系统向手机客户端建立双向通讯通道；

文件存储服务器，用于存储相关数据。

具体可参照如下列表中的硬件和软件信息予以实现；

1.1.1软件配置

以100路机器人为例：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。

Claims

1.一种语音通话的智能质检方法，其用于对语音媒体信息流中的语音信息进行识别、分析和反馈，其特征在于，通过如下步骤实现，

步骤一.建立互联网端向手机端进行通信联系的通道；

步骤二.通过通讯服务器实现语音媒体信息流的传输；

步骤三.对语音媒体信息流进行语音数据处理；

步骤四.对语音媒体信息流进行情感检测分析；

步骤五.对语音媒体信息流进行语义分析；

步骤七.对步骤六中所获取的检测信息进行执行反馈。

2.根据权利要求1所述的一种语音通话的智能质检方法，其特征在于，所述的步骤二中，通过通讯服务器实现语音媒体信息流的传输并使用电话软交换平台捕获经由通道传输的媒体声音流并将媒体声音导出。

3.根据权利要求1或者2所述的一种语音通话的智能质检方法，其特征在于，所述的步骤三当中通过如下步骤实现对语音媒体信息流进行语音数据处理：

4.根据权利要求1或者2所述的一种语音通话的智能质检方法，其特征在于，所述的步骤四通过以下步骤实现情感检测分析：将步骤3.3至步骤3.6所处理完毕的语音特征矩阵输入已训练的情感状态概率检测模型，得到对应的情感状态序列，确定对应的情感状态。

5.根据权利要求1或者2所述的一种语音通话的智能质检方法，其特征在于，所述的步骤五通过如下方法实现语义分析，设置场景词库模型和质检词库模型两个部分，将步骤3.7所获取的文本信息以及相应的信息节点代号输入到场景词库模型中获取关键词，输出文本信息对应的意图序列；将文本信息以及相应的信息节点代号输入到已训练的质检词库模型中，获取质检意图序列；根据权重综合分析出具体的语义信息。

6.根据权利要求1或者2所述的一种语音通话的智能质检方法，其特征在于，所述的步骤六通过以下步骤实现对分析结论进行质量检测：

7.根据权利要求6所述的一种语音通话的智能质检方法，其特征在于，通过以下步骤实现对步骤六中的反馈处理：

步骤7.3按照步骤7.2自动执行反馈规则；

8.根据权利要求7所述的一种语音通话的智能质检方法，其特征在于，所述的步骤7.4中的重点关注信息包括预警类型、语义信息、情感状态信息。

9.一种语音通话的智能质检的系统，应用权利要求1-8任一一种方法，其特征在于，包括，

外呼系统服务器，用于由客户的网络系统向手机客户端建立双向通讯通道；

文件存储服务器，用于存储相关数据。