CN111489765A

CN111489765A - 一种基于智能语音技术的话务服务质检方法

Info

Publication number: CN111489765A
Application number: CN201910081795.6A
Authority: CN
Inventors: 黄秀彬; 丁毛毛; 吴佐平; 邢巍; 杨维; 刘旭生; 王秀春; 李玮; 张莉; 张劭韡; 王宏岩; 乔晅
Original assignee: State Grid Co ltd Customer Service Center; Beijing China Power Information Technology Co Ltd
Current assignee: State Grid Co ltd Customer Service Center; Beijing China Power Information Technology Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2020-08-04

Abstract

本发明提供了一种基于智能语音技术的话务服务质检方法，包括以下步骤：A、从电话录音平台下载录音数据文件，进行文件拼接、转换，生成完整的语音文件；B、利用语音转写平台对所述语音文件进行语音识别并转写为文本内容，按照预设的质检规则对所述文本内容进行检测，得到文本分析结果；C、对所述语音文件进行话者分离并生成静默区间、语速和情绪的音频参数，对该音频参数进行分析，得到音频分析结果；D、根据所述文本分析结果和音频分析结果生成质检报告。本发明利用语音转写及分析平台实现话务录音数据的分析与质检，取代了传统方法中依靠人工质检的策略，提高质检效率，把握客服质量全局，提升用户满意度和忠诚度。

Description

一种基于智能语音技术的话务服务质检方法

技术领域

本发明涉及信息分析技术领域，特别涉及一种基于智能语音技术的话务服务质检方法。

背景技术

随着移动通信技术的发展，客服呼叫中心作为运营平台与用户之间的桥梁起着至关重要的作用。近年来，智能语音技术产业规模在全球用户需求拉动、国家战略指导和企业竞争等多重因素驱动下实现了快速和持续的增长，在移动互联网、智能家居、汽车电子、金融支付、在线教育及医疗等领域应用不断深入。在海量数据和深度学习的推动下，语音识别、语音合成、声纹识别等智能语音技术，日趋成熟，开始进入实用化的阶段。

国家电网95598呼叫中心作为国家电网公司与用户之间的重要桥梁，通过采用目前国际主流的DNN(深度神经网络)和HMM(隐马尔可夫模型)的方法训练的中文语音识别技术，能够适用不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境，同时利用国家电网95598呼叫中心积累的海量语音语料和文本语料来进行模型的定制化训练，建立高可用及高识别率的语音转写及分析平台，极大改善了现有技术中语音识别和转写不清楚、不准确的缺陷，降低语音识别错误率。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于智能语音技术的话务服务质检方法，通过利用国家电网95598呼叫中心积累的海量语音语料和文本语料构建声学模型、语音模型，建立高可用及高识别率的语音转写及分析平台，并利用自深度学习技术不断训练和优化模型，提高识别准确率，不断提高识别准确率和对电力服务行业的适用性，形成国网客服中心高度定制化的语音质检引擎，利用该语音质检引擎可进行全部录音数据的转写及质检，改变了传统方法依靠人工调听电话录音以进行质检的策略，从而极大地提高话务服务质检质量和效率，及时发现服务过程中的问题和不足，把握客服全局，针对性的改善、培训、提升用户满意度和忠诚度。

本发明采用的技术方案为，一种基于智能语音技术的话务服务质检方法，包括以下步骤：

A、从电话录音平台下载录音数据文件，进行文件拼接、转换，生成完整的语音文件；

B、利用语音转写平台对所述语音文件进行语音识别并转写为文本内容，按照预设的质检规则对所述文本内容进行检测，得到文本分析结果；

C、对所述语音文件进行话者分离并生成静默区间、语速和情绪的音频参数，对该音频参数进行分析，得到音频分析结果；

D、根据所述文本分析结果和音频分析结果生成质检报告。

由上，本方法通过将录音文件转写成文本内容进行文本分析，同时还将录音文件进行话者分离并进行音频分析，基于文本分析结果和音频分析结果，可得到一份综合性评分的质检报告，从而取代传统方法依靠人工掉听录音进行质检的策略，极大提高了质检质量和效率，使质检实现全面覆盖，从而把握客服全局，针对性的改善、培训、提升用户满意度和忠诚度。

进一步改进，所述步骤A还包括：

对所述语音文件进行端点检测、噪音消除和特征提取的前端处理步骤。

其中，所述语音转写平台包括语音识别模型，该语音识别模型包括声学模型和语言模型，分别对应于从语音文件中抽取的音频特征到音节概率的计算和音节到文字概率的计算；

所述语言模型采用N-Gram模型进行建模；

所述声学模型采用深度神经网络和隐马尔可夫模型进行建模。

其中，步骤B所述按照预设的质检规则对所述文本内容进行检测包括：

对所述文本内容进行关键词提取；

对所述文本内容进行禁忌词匹配。

进一步改进，步骤B所述按照预设的质检规则对所述文本内容进行检测还包括：

获取所述文本内容中与禁忌词匹配的词语对应的句子；

根据所述句子获取对应的录音数据文件和工单信息；

输出所述录音数据文件、工单信息和质检不合格的文本分析结果。

其中，所述文本分析结果还包括对所述工单信息内容进行提取，进行来电原因分析、重复来电分析和投诉分析。

其中，步骤C所述对该音频参数进行分析包括：

获取分离出的客服人员语音文件中静默区间过长、语速过快和情绪异常所对应的句子；

根据所述句子获取对应的录音数据文件和工单信息；

输出所述录音数据文件、工单信息和质检不合格的音频分析结果。

进一步改进，所述步骤D之后还包括：

将所述质检报告及对应的所述语音文件、文本内容和音频参数上传至全文索引平台。

附图说明

图1为本发明基于智能语音技术的话务服务质检方法的流程图。

具体实施方式

本发明的主要目的在于提供一种基于智能语音技术的话务服务质检方法，通过利用国家电网95598呼叫中心积累的海量语音语料和文本语料构建声学模型、语音模型，建立高可用及高识别率的语音转写及分析平台，并利用自深度学习技术不断训练和优化模型，提高识别准确率，不断提高识别准确率和对电力服务行业的适用性，形成国网客服中心高度定制化的语音质检引擎，从而极大地提高话务服务质检质量和效率，及时发现服务过程中的问题和不足，把握客服全局，针对性的改善、培训、提升用户满意度和忠诚度。

国家电网95598呼叫中心通过采用目前国际主流的DNN(深度神经网络)+HMM(隐马尔可夫模型)的方法训练的中文语音识别技术，能够适用不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境，同时利用国家电网95598呼叫中心积累的海量语音语料和文本语料来进行模型的定制化训练，达到高可用及高识别率的语音转写平台；

其中，该语音转写平台的核心技术为智能语音识别技术，该智能语音识别技术采用最新一代的识别算法、解码器核心以及先进的声学模型和语言模型训练方法，主要包括三个重要的组成部分：语音识别模型训练、前端语音处理、后端识别处理；

1.语音识别模型训练

语音识别模型通常由声学模型和语言模型两部分组成，分别对应于从语音信号中抽取的特征到音节概率的计算和音节到字概率的计算。

目前声学模型的建模方法普遍采用DNN(深度神经网络)+HMM(隐马尔可夫模型)的方法，对比前一代使用GMM(混合高斯模型)+HMM的方法，语音识别错误率降低了30％，是近20年来语音识别技术方面最快的进步。而在语言模型方面，目前通常采用统计语言模型的建模方法，而该统计语言模型采用N-Gram模型，该N-Gram模型又被称为一阶马尔科夫链，它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列，每一个字节片段称为gram，对所有的gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度；

该算法具有容错性强和语种无关性的优点，对中、英、繁都通用，并且不需要进行语言学上的处理，是大词汇连续语音识别中常用的一种语言模型，简单有效，被广泛使用。

为了适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境，需要大量语音语料和文本语料来进行训练，才能有效提高识别率。随着互联网的快速发展，以及手机等移动终端的普及应用，目前可以从多个渠道获取大量文本或语音方面的语料，这为语音识别模型中的语言模型和声学模型的训练提供了丰富的资源，使得构建通用大规模语言模型和声学模型成为可能。

2.前端语音处理

前端语音处理指利用信号处理的方法对说话人语音进行检测、降噪等预处理，以便得到最适合识别引擎处理的语音。主要功能包括：

(1)端点检测

端点检测是对输入的音频流进行分析，将语音信号中的语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。

(2)噪音消除

在实际应用中，背景噪声对于语音识别应用是一个现实的挑战，即便说话人处于安静的办公室环境，在电话语音通话过程中也难以避免会有一定的噪声。一个好的语音识别引擎需要具备高效的噪音消除能力，以适应用户在千差万别的环境中应用的要求。

(3)特征提取

声学特征的提取是一个信息大幅度压缩的过程，也对后面的模式分类器能否更好地进行模式划分起到重要的影响，因此，声学特征的提取与选择是语音识别的一个重要环节。目前常用的特征包括MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)和PLP(Perceptual Linear Prediction，感知线性预测倒谱系数)等。

3.后端识别处理

后端识别处理就是指利用训练好的“声学模型”和“语言模型”对提取到的特征向量进行识别(也称为“解码”)，得到文字信息的过程。声学模型的主要目的是对应于语音特征到音节(或者音素)概率的计算，语言模型的主要目的是对应于音节到文字的概率的计算。而其中最主要的解码器部分就是指对原始的语音特征进行声学模型打分和语言模型打分，并在此基础上得到最优的词模式序列的路径，此路径上对应的文本就是最终识别结果。

早期的基于语法树结构的解码器，设计较为复杂，并且在当前技术条件下，其速度提升已经碰到瓶颈，而目前大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络，该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络，大大提高了解码的速度，也能够将解码过程和知识源分离。

基于所述基于国家电网95598呼叫中心积累的海量语音语料和文本语料并采用DNN(深度神经网络)+HMM(隐马尔可夫模型)定制化训练而成的智能语音识别模型，本发明提供的一较佳实施例中，涉及了一种话务服务质检的方法，如图1所示，该方法包括以下步骤：

S101：从电话录音平台下载录音数据文件，进行文件拼接、转换，生成完整的语音文件；

由于本方法所应用的系统在南(北)分中心各需要部署相应的部分，在南方分中心要与当地的电话录音平台对接，就近获取录音数据，在调听录音时，需要将二进制语音流进行南到北网络间的传输；

在北方分中心同样要与本地的录音平台对接，实现录音的获取和转写。此外，由于语音分析的用户主要靠近北方分中心，而由于数据汇总的需要，整个呼叫中心的质检文本内容处理、语音内容分析集中在北方分中心处理，内容检索服务及数据库需要部署在北方分中心。

针对所述完整的语音文件，在进行转写及分析之前，还需采用所述前段语音处理技术对该语音文件进行端点检测、噪音消除和特征提取的处理，以输出清晰的语音文件，针对该语音文件分别进行步骤S102和步骤S103的处理；

S102：利用语音转写平台对所述语音文件进行语音识别并转写为文本内容；

本步骤中，语音转写平台接口层采用主备方式，语音转写(ASR)引擎服务器采用负载均衡方式部署。接口层分为2层，首层是录音获取和转写调度层，支持从南北中心的录音平台数据库中定时轮询，获取最新生成的录音，并完成转码，本层理论上也可以跨中心调度，如在南中心调度北中心的转写引擎完成转写，只是考虑到南北网络传输的带宽时延问题，并不这样配置；第二层接口是录音分发层，将首层发来的一批录音逐个分配给不同的引擎服务器转写，使全部引擎服务器得到充分利用，以及时将每天生成的大量录音进行实时转写；

所述语音文件进行转写的过程中，还会生成随路数据，包括来电号码、时长、来电时间和存储路径等。

S104：按照预设的质检规则对所述文本内容进行检测，得到文本分析结果；

本步骤中，所述质检规则是由国网客服中心统一定制的服务规则，并将每个质检参数的标准值配置在系统的质检模块中，其中该质检规则主要包括对所述文本内容进行关键词提取和对所述文本内容进行禁忌词匹配；

针对所述关键词提取和禁忌词匹配的结果，生成文本分析结果，具体步骤包括：

获取所述文本内容中与禁忌词匹配的词语对应的句子；

根据所述句子获取对应的录音数据文件和工单信息；

客服人员在接听每个用户的来电时，会将该次通话的用户信息、来电原因等信息记录在一信息表格中，作为该通电话的工单信息保存在数据库中，其中每通电话录音都会与该唯一工单信息进行关联保存，因此当获取该通电话录音时，也可从数据库获取该通电话的工单信息进行输出，以方便后续分析。

除此之外，针对所述关键词提取的结果和工单信息，本步骤还可对所述文本内容进行来电原因分析、重复来电分析、投诉分析，以完成更精细地文本质检。

S103：对所述语音文件进行话者分离并生成静默区间、语速和情绪的音频参数；

目前的呼叫中心为了节省成本，通常都使用单通道录音，也即同时对用户和客服进行录音，并存储在同一个通道中。但通常我们需要对客服的录音和用户录音分别进行分析，客服的录音主要用于评价客服的服务能力，用户录音中则包含了用户的潜在需求信息或者竞争对手信息等，具有明显的商业价值，这个时候，我们必须从单通道录音中分析出用户语音和客服语音。这一功能通常称为“话者分离”，也称为“场景分割”；

通过将所述语音文件进行话者分离之后，将分离后的用户语音和客服语音分别进行音频提取，生成静默区间、语速和情绪等音频参数。

S105：对所述音频参数进行分析，得到音频分析结果；

针对步骤S103中生成的用户和客服的静默区间、语速和情绪等音频参数，可分别进行静音检测、语速检测和情绪检测，以得到音频分析结果；

静音检测

静音检测是指检测通话录音中长时静音的状态，以检测通话中是否存在诸如冷场、通话双方(用户与客服)均没有说话的情况。

所述智能语音识别模型中的静音检测模块可以将每个静音段的起始位置和结束位置输出。同时，系统也可以灵活地设置策略，来根据一定的阈值来判断长时静音。

情绪检测

情绪检测是指对通话录音中通话双方(用户或客服)的情绪进行自动检测与判断，以检测通话中是否存在快乐、生气、悲伤、厌恶等异常情绪。用户和座席交互过程中的情绪变化能直观的反应出服务质量的好坏、用户满意度的高低。

所述智能语音识别模型中的情绪检测模块可以通过语音文件中的基频、音高、语速等变化，检测出某段语音是否有情绪上的异常，输出“生气、愤怒”的状态。从原理上来说，只要在模型训练时候，训练多个情绪类型的模型库，在进行检测时就会检测到多类的情绪。考虑到客服质检的需求中，主要需要检测“生气、愤怒”状态，因此目前提供的模型库只针对此类情绪进行了检测。

语速检测

语速检测是指对话者分离后的用户语音或客服语音的速度进行检测，以检测通话中是否存在语速过快、过慢的情况。一般来说，用户的正常语速为4～5字/秒，客服话务员的正常语速为5～7字/秒。当语速过快时，用户可能无法清晰地获取信息，当语速过慢时，可能就说明客服的技能熟练度不够。因此，通过对客服和用户的语音进行语速检测，可以从一个方面评价客服代表的服务质量。

所述智能语音识别模型中具有的语速检测模块可以计算每个语音段的语速并输出。同时，系统也可以通过这些值计算出整通对话的平均语速。

针对所述静音检测、语速检测和情绪检测的结果，生成音频分析结果，具体步骤包括：

根据所述句子获取对应的录音数据文件和工单信息；

S106：根据所述文本分析结果和音频分析结果生成质检报告；

本步骤根据步骤S104生成的文本分析结果和步骤S105生成的音频分析结果，可对每通电话录音进行打分，并输出一包括分数、分析结果等内容的质检报告，以供人工查阅和质检分类。

S107：将所述质检报告及对应的所述语音文件、文本内容和音频参数上传至全文索引平台；

所述全文索引平台是采用内容索引集群实现的全文内容检索应用，核心功能是对海量录音转写文本、随路数据、智能分析结果、人工评分结果等数据组成的Big table进行多字段的索引，并支持多条件的快速检索。为智能语音质检模块提供多条件多字段联合检索、多字段索引、质检规则分析和人工质检智能辅助功能，为智能语音分析模块数提供数据聚合分析、趋势分析和交叉分析的功能。

内容检索支持对文本非结构化字段的全文检索，支持对数值、日期、枚举型字段的布尔检索，支持非结构化加结构化字段的复合条件检索。支持对数据字段的聚合检索，如输出区间统计、最大值、平均值等。

本发明创新性的实现智能语音技术与呼叫行业质量管理工作深度融合，实现了工单的全量自动质检，并通过相关功能应用辅助人工质检，改变传统的“听录音”质检方式为“听录音看文本、质检点提醒相结合”的方式，提高人工质检工作能效50％以上。同时，本发明将通过将95598录音的全量转写和质检结果与人工质检结果结合分析，发现服务过程中的问题和不足，把握客服质量全局，发现服务短板，针对性进行改善、培训、提升，从而有针对性地优化服务策略，提升用户满意度和忠诚度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于智能语音技术的话务服务质检方法，其特征在于，包括以下步骤：

D、根据所述文本分析结果和音频分析结果生成质检报告。

2.根据权利要求1所述的方法，其特征在于，所述步骤A还包括：

3.根据权利要求1所述的方法，其特征在于，所述语音转写平台包括语音识别模型，该语音识别模型包括声学模型和语言模型，分别对应于从语音文件中抽取的音频特征到音节概率的计算和音节到文字概率的计算；

所述语言模型采用N-Gram模型进行建模；

4.根据权利要求3所述的方法，其特征在于，步骤B所述按照预设的质检规则对所述文本内容进行检测包括：

对所述文本内容进行关键词提取；

对所述文本内容进行禁忌词匹配。

5.根据权利要求4所述的方法，其特征在于，步骤B所述按照预设的质检规则对所述文本内容进行检测还包括：

获取所述文本内容中与禁忌词匹配的词语对应的句子；

根据所述句子获取对应的录音数据文件和工单信息；

6.根据权利要求5所述的方法，其特征在于，所述文本分析结果还包括对所述工单信息内容进行提取，进行来电原因分析、重复来电分析和投诉分析。

7.根据权利要求1所述的方法，其特征在于，步骤C所述对该音频参数进行分析包括：

根据所述句子获取对应的录音数据文件和工单信息；

8.根据权利要求1所述的方法，其特征在于，所述步骤D之后还包括：