CN110705218B

CN110705218B - 一种基于深度学习的外呼状态识别方式

Info

Publication number: CN110705218B
Application number: CN201910962912.XA
Authority: CN
Inventors: 王磊
Original assignee: Zhejiang Baiying Technology Co Ltd
Current assignee: Zhejiang Baiying Technology Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2023-04-07
Anticipated expiration: 2039-10-11
Also published as: CN110705218A

Abstract

本发明提供了一种基于深度学习的外呼状态识别方式，属于外呼技术领域。它解决了现有的外呼识别效率低的问题。本基于深度学习的外呼状态识别方式，下载音频文件若干句，使用音频剪辑工具对音频进行剪辑，将剪辑过后的音频通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号，使用VGG的深层的卷积神经网络作为网络模型，并训练，输出会出现大量连续重复的符号，使用ctc解码，将连续相同的符号进行合并为一个符号，将中文语料进行n‑gram分词，制作成一个统计语言模型，拼音转文本建模为一条隐含马尔可夫链，将拼音转换为最终的识别文本并输出。本结构显著提高了外呼识别效率。

Description

一种基于深度学习的外呼状态识别方式

技术领域

本发明属于人机对话技术领域，涉及一种外呼系统，特别是一种基于深度学习的外呼状态识别方式。

背景技术

外呼系统是呼叫中心常规业务，由坐席主动拨叫用户号码，与用户对话，以完成营销、调查等特定任务。自动外呼系统是指采用计算机替代坐席，用计算机拨叫用户号码并与用户对话，完成特定任务的一种应用系统，完全替代人工进行通知、提醒和确认，能节省部分人工成本。

目前，在机器外呼领域，无效的电话占总外呼量的2/3以上，大量的无效外呼量不仅造成了外呼转换的低效，还造成资源严重浪费。随着外呼电话业务的不断增长，需要对外呼电话识别和筛选、以提高拨号效率和节省资源。

现有的外呼电话识别方式为：1、开发通用语音识别引擎，将音频文件直接转换成文字，该语音识别引擎需要大量的语料信息，大量语料信息的制作需要消耗大量的人力物力，而且存在英语的音频，需要对中英文识别做兼容，使得语音识别引擎开发成本十分高昂，并且模型训练时间周期长；2、收集大量的外呼状态录音，如关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃等语音，将这些语音信息建立成音库，将模拟语音信号转换为数字信号，再同音库中的样本进行比对后并对其进行分类，由于需要同音库中的大量音频样本进行比对，进而引入了大量运算，导致识别速度慢，识别效率低下。

发明内容

本发明的目的是针对现有的技术存在上述问题，提出了一种基于深度学习的外呼状态识别方式，本发明所要解决的技术问题是：如何提高外呼识别效率。

本发明的目的可通过下列技术方案来实现：

一种基于深度学习的外呼状态识别方式，其特征在于，包括以下步骤：

S1、下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃等音频文件各若干句；

S2、使用音频剪辑工具，对音频首尾进行空白音的切割剔除，将音频文件中的英语部分删除；

S3、将剪辑过后的音频转化成时域谱矩阵；

S4、将剪辑过后的音频通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号，使用VGG的深层的卷积神经网络作为网络模型，并训练，输出会出现大量连续重复的符号，使用ctc解码，将连续相同的符号进行合并为一个符号；

S5、将中文语料进行n-gram分词，制作成一个统计语言模型，拼音转文本建模为一条隐含马尔可夫链，将拼音转换为最终的识别文本并输出；

S6、对文本进行正则匹配，将匹配后的类别进行输出；

S7、根据输出的结果对音频进行识别打标。

在上述的一种基于深度学习的外呼状态识别方式中，在步骤S2中，音频剪辑工具截取音频首尾各8s的音频信号进行拼接。

在上述的一种基于深度学习的外呼状态识别方式中，在步骤S2中，当音频总时长低于16s时，则进行空白音填充使音频时长为16s。

在上述的一种基于深度学习的外呼状态识别方式中，在步骤S2中，所述音频剪辑工具为vad技术。

在上述的一种基于深度学习的外呼状态识别方式中，在步骤S2中，在步骤S1中，下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃等音频文件各50句以上。

与现有技术相比，本发明的基于深度学习的外呼状态识别方式具有以下优点：

1、本发明运用深度学习技术结合正则匹配，只需少量的语料即可训练出一个基于外呼领域的语音识别模型，识别结果在经过正则匹配，就可达到95％以上的准确率，对号码正确分类，并且制作成本低。

2、本发明可做到实时识别，并且只需对中文部分识别准确即可，英文部分无需关注在线上使用，提高了识别速度，可做到毫秒响应。

3、本发明的维护成本低，只需要收集badcase，在重新训练模型即可。

附图说明

图1是本发明的基于深度学习的外呼状态识别流程图之一。

图2是本发明的基于深度学习的外呼状态识别流程图之二。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

如图1和图2所示，本基于深度学习的外呼状态识别方式，其特征在于，包括以下步骤：

S1、下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃等音频文件各50句以上；

S2、使用vad技术，对音频首尾进行空白音的切割剔除，将音频文件中的英语部分删除，音频剪辑工具截取音频首尾各8s的音频信号进行拼接，当音频总时长低于16s时，则进行空白音填充使音频时长为16s。

S3、将剪辑过后的音频转化成时域谱矩阵；

S6、对文本进行正则匹配，将匹配后的类别进行输出；

S7、根据输出的结果对音频进行识别打标。

本发明的外呼识别方式只对中文部分进行识别，无需关注英文部分，减少了识别运算，提高识别效率，并且每段音频的长度控制在16s，避免了音频过长出现预测速度缓慢的情况，本训练模型采用的音频样本数量较少，运用深度学习技术结合正则匹配，使得只需少量的音频样本即可训练出一个基于外呼领域的语音识别模型，识别结果通过正则匹配，可做到实时识别，在线上使用时可做到毫秒级识别响应，对号码分类可达到95％以上的准确率，有效的识别无效号码，提高识别效率，节省了资源，另外，由于所需的音频样本数量少，这样就降低了音库的维护成本，进而降低了模型的制作成本。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于深度学习的外呼状态识别方式，其特征在于，包括以下步骤：

S1、下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃音频文件各若干句；

S3、将剪辑过后的音频转化成时域谱矩阵；

S6、对文本进行正则匹配，将匹配后的类别进行输出；

S7、根据输出的结果对音频进行识别打标。

2.根据权利要求1所述的一种基于深度学习的外呼状态识别方式，其特征在于，在步骤S2中，音频剪辑工具截取音频首尾各8s的音频信号进行拼接。

3.根据权利要求2所述的一种基于深度学习的外呼状态识别方式，其特征在于，在步骤S2中，当音频总时长低于16s时，则进行空白音填充使音频时长为16s。

4.根据权利要求1～3任一项所述的一种基于深度学习的外呼状态识别方式，其特征在于，在步骤S2中，所述音频剪辑工具为vad技术。

5.根据权利要求1～3任一项所述的一种基于深度学习的外呼状态识别方式，其特征在于，在步骤S1中，下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃音频文件各50句以上。