CN110705218B - 一种基于深度学习的外呼状态识别方式 - Google Patents

一种基于深度学习的外呼状态识别方式 Download PDF

Info

Publication number
CN110705218B
CN110705218B CN201910962912.XA CN201910962912A CN110705218B CN 110705218 B CN110705218 B CN 110705218B CN 201910962912 A CN201910962912 A CN 201910962912A CN 110705218 B CN110705218 B CN 110705218B
Authority
CN
China
Prior art keywords
audio
outbound
deep learning
text
converting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910962912.XA
Other languages
English (en)
Other versions
CN110705218A (zh
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baiying Technology Co Ltd
Original Assignee
Zhejiang Baiying Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baiying Technology Co Ltd filed Critical Zhejiang Baiying Technology Co Ltd
Priority to CN201910962912.XA priority Critical patent/CN110705218B/zh
Publication of CN110705218A publication Critical patent/CN110705218A/zh
Application granted granted Critical
Publication of CN110705218B publication Critical patent/CN110705218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/527Centralised call answering arrangements not requiring operator intervention

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种基于深度学习的外呼状态识别方式,属于外呼技术领域。它解决了现有的外呼识别效率低的问题。本基于深度学习的外呼状态识别方式,下载音频文件若干句,使用音频剪辑工具对音频进行剪辑,将剪辑过后的音频通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,使用VGG的深层的卷积神经网络作为网络模型,并训练,输出会出现大量连续重复的符号,使用ctc解码,将连续相同的符号进行合并为一个符号,将中文语料进行n‑gram分词,制作成一个统计语言模型,拼音转文本建模为一条隐含马尔可夫链,将拼音转换为最终的识别文本并输出。本结构显著提高了外呼识别效率。

Description

一种基于深度学习的外呼状态识别方式
技术领域
本发明属于人机对话技术领域,涉及一种外呼系统,特别是一种基于深度学习的外呼状态识别方式。
背景技术
外呼系统是呼叫中心常规业务,由坐席主动拨叫用户号码,与用户对话,以完成营销、调查等特定任务。自动外呼系统是指采用计算机替代坐席,用计算机拨叫用户号码并与用户对话,完成特定任务的一种应用系统,完全替代人工进行通知、提醒和确认,能节省部分人工成本。
目前,在机器外呼领域,无效的电话占总外呼量的2/3以上,大量的无效外呼量不仅造成了外呼转换的低效,还造成资源严重浪费。随着外呼电话业务的不断增长,需要对外呼电话识别和筛选、以提高拨号效率和节省资源。
现有的外呼电话识别方式为:1、开发通用语音识别引擎,将音频文件直接转换成文字,该语音识别引擎需要大量的语料信息,大量语料信息的制作需要消耗大量的人力物力,而且存在英语的音频,需要对中英文识别做兼容,使得语音识别引擎开发成本十分高昂,并且模型训练时间周期长;2、收集大量的外呼状态录音,如关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃等语音,将这些语音信息建立成音库,将模拟语音信号转换为数字信号,再同音库中的样本进行比对后并对其进行分类,由于需要同音库中的大量音频样本进行比对,进而引入了大量运算,导致识别速度慢,识别效率低下。
发明内容
本发明的目的是针对现有的技术存在上述问题,提出了一种基于深度学习的外呼状态识别方式,本发明所要解决的技术问题是:如何提高外呼识别效率。
本发明的目的可通过下列技术方案来实现:
一种基于深度学习的外呼状态识别方式,其特征在于,包括以下步骤:
S1、下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃等音频文件各若干句;
S2、使用音频剪辑工具,对音频首尾进行空白音的切割剔除,将音频文件中的英语部分删除;
S3、将剪辑过后的音频转化成时域谱矩阵;
S4、将剪辑过后的音频通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,使用VGG的深层的卷积神经网络作为网络模型,并训练,输出会出现大量连续重复的符号,使用ctc解码,将连续相同的符号进行合并为一个符号;
S5、将中文语料进行n-gram分词,制作成一个统计语言模型,拼音转文本建模为一条隐含马尔可夫链,将拼音转换为最终的识别文本并输出;
S6、对文本进行正则匹配,将匹配后的类别进行输出;
S7、根据输出的结果对音频进行识别打标。
在上述的一种基于深度学习的外呼状态识别方式中,在步骤S2中,音频剪辑工具截取音频首尾各8s的音频信号进行拼接。
在上述的一种基于深度学习的外呼状态识别方式中,在步骤S2中,当音频总时长低于16s时,则进行空白音填充使音频时长为16s。
在上述的一种基于深度学习的外呼状态识别方式中,在步骤S2中,所述音频剪辑工具为vad技术。
在上述的一种基于深度学习的外呼状态识别方式中,在步骤S2中,在步骤S1中,下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃等音频文件各50句以上。
与现有技术相比,本发明的基于深度学习的外呼状态识别方式具有以下优点:
1、本发明运用深度学习技术结合正则匹配,只需少量的语料即可训练出一个基于外呼领域的语音识别模型,识别结果在经过正则匹配,就可达到95%以上的准确率,对号码正确分类,并且制作成本低。
2、本发明可做到实时识别,并且只需对中文部分识别准确即可,英文部分无需关注在线上使用,提高了识别速度,可做到毫秒响应。
3、本发明的维护成本低,只需要收集badcase,在重新训练模型即可。
附图说明
图1是本发明的基于深度学习的外呼状态识别流程图之一。
图2是本发明的基于深度学习的外呼状态识别流程图之二。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
如图1和图2所示,本基于深度学习的外呼状态识别方式,其特征在于,包括以下步骤:
S1、下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃等音频文件各50句以上;
S2、使用vad技术,对音频首尾进行空白音的切割剔除,将音频文件中的英语部分删除,音频剪辑工具截取音频首尾各8s的音频信号进行拼接,当音频总时长低于16s时,则进行空白音填充使音频时长为16s。
S3、将剪辑过后的音频转化成时域谱矩阵;
S4、将剪辑过后的音频通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,使用VGG的深层的卷积神经网络作为网络模型,并训练,输出会出现大量连续重复的符号,使用ctc解码,将连续相同的符号进行合并为一个符号;
S5、将中文语料进行n-gram分词,制作成一个统计语言模型,拼音转文本建模为一条隐含马尔可夫链,将拼音转换为最终的识别文本并输出;
S6、对文本进行正则匹配,将匹配后的类别进行输出;
S7、根据输出的结果对音频进行识别打标。
本发明的外呼识别方式只对中文部分进行识别,无需关注英文部分,减少了识别运算,提高识别效率,并且每段音频的长度控制在16s,避免了音频过长出现预测速度缓慢的情况,本训练模型采用的音频样本数量较少,运用深度学习技术结合正则匹配,使得只需少量的音频样本即可训练出一个基于外呼领域的语音识别模型,识别结果通过正则匹配,可做到实时识别,在线上使用时可做到毫秒级识别响应,对号码分类可达到95%以上的准确率,有效的识别无效号码,提高识别效率,节省了资源,另外,由于所需的音频样本数量少,这样就降低了音库的维护成本,进而降低了模型的制作成本。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (5)

1.一种基于深度学习的外呼状态识别方式,其特征在于,包括以下步骤:
S1、下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃音频文件各若干句;
S2、使用音频剪辑工具,对音频首尾进行空白音的切割剔除,将音频文件中的英语部分删除;
S3、将剪辑过后的音频转化成时域谱矩阵;
S4、将剪辑过后的音频通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,使用VGG的深层的卷积神经网络作为网络模型,并训练,输出会出现大量连续重复的符号,使用ctc解码,将连续相同的符号进行合并为一个符号;
S5、将中文语料进行n-gram分词,制作成一个统计语言模型,拼音转文本建模为一条隐含马尔可夫链,将拼音转换为最终的识别文本并输出;
S6、对文本进行正则匹配,将匹配后的类别进行输出;
S7、根据输出的结果对音频进行识别打标。
2.根据权利要求1所述的一种基于深度学习的外呼状态识别方式,其特征在于,在步骤S2中,音频剪辑工具截取音频首尾各8s的音频信号进行拼接。
3.根据权利要求2所述的一种基于深度学习的外呼状态识别方式,其特征在于,在步骤S2中,当音频总时长低于16s时,则进行空白音填充使音频时长为16s。
4.根据权利要求1~3任一项所述的一种基于深度学习的外呼状态识别方式,其特征在于,在步骤S2中,所述音频剪辑工具为vad技术。
5.根据权利要求1~3任一项所述的一种基于深度学习的外呼状态识别方式,其特征在于,在步骤S1中,下载关机、停机、暂时无法接通、正在通话、空号、无人接听、来电提醒、呼入限制、网络忙、呼出限制、线路忙、用户拒接、呼叫转移、回铃音标准嘟嘟声、彩铃音频文件各50句以上。
CN201910962912.XA 2019-10-11 2019-10-11 一种基于深度学习的外呼状态识别方式 Active CN110705218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910962912.XA CN110705218B (zh) 2019-10-11 2019-10-11 一种基于深度学习的外呼状态识别方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910962912.XA CN110705218B (zh) 2019-10-11 2019-10-11 一种基于深度学习的外呼状态识别方式

Publications (2)

Publication Number Publication Date
CN110705218A CN110705218A (zh) 2020-01-17
CN110705218B true CN110705218B (zh) 2023-04-07

Family

ID=69198453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910962912.XA Active CN110705218B (zh) 2019-10-11 2019-10-11 一种基于深度学习的外呼状态识别方式

Country Status (1)

Country Link
CN (1) CN110705218B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112003991A (zh) * 2020-09-02 2020-11-27 深圳壹账通智能科技有限公司 一种外呼方法及相关设备
CN112735583A (zh) * 2020-12-25 2021-04-30 山东众阳健康科技集团有限公司 一种中医养生机器人及方法
CN113438368B (zh) * 2021-06-22 2023-01-24 上海翰声信息技术有限公司 一种实现回铃音检测的方法、装置及计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105979106B (zh) * 2016-06-13 2019-06-18 北京容联易通信息技术有限公司 一种呼叫中心系统的铃音识别方法和系统
CN109670041A (zh) * 2018-11-29 2019-04-23 天格科技(杭州)有限公司 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN109859760A (zh) * 2019-02-19 2019-06-07 成都富王科技有限公司 基于深度学习的电话机器人语音识别结果校正方法
CN110059161A (zh) * 2019-04-23 2019-07-26 深圳市大众通信技术有限公司 一种基于文本分类技术的电话语音机器人系统
CN110211569A (zh) * 2019-07-09 2019-09-06 浙江百应科技有限公司 基于语音图谱和深度学习的实时性别识别方法

Also Published As

Publication number Publication date
CN110705218A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110705218B (zh) 一种基于深度学习的外呼状态识别方式
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN111246027B (zh) 一种实现人机协同的语音通讯系统及方法
AU2007213532B2 (en) A mass-scale, user-independent, device-independent, voice message to text conversion system
US8976944B2 (en) Mass-scale, user-independent, device-independent voice messaging system
WO2021218086A1 (zh) 呼叫控制方法、装置、计算机设备以及存储介质
US20080052071A1 (en) Mass-Scale, User-Independent, Device-Independent Voice Messaging System
CN112188017A (zh) 信息交互方法及信息交互系统、处理设备、存储介质
US20080063155A1 (en) Mass-Scale, User-Independent, Device-Independent Voice Messaging System
CN111294471A (zh) 一种智能电话应答方法和系统
CN116665676B (zh) 一种用于智能语音外呼系统的语义识别方法
CN201355842Y (zh) 一种大规模、用户独立、装置独立的语音讯息系统
CN113779217A (zh) 一种基于人机交互的智能语音外呼业务方法及系统
CN111901488B (zh) 一种基于号码状态提升语音机器人外呼效率的方法
CN112150694A (zh) 一种智能语音电费催缴系统及方法
CN103067579A (zh) 辅助在线语音聊天方法和装置
CN203278958U (zh) 一种通话转录系统
CN115022471A (zh) 一种智能机器人语音交互系统和方法
CN110895657B (zh) 一种基于口语对话特征的语义逻辑表达和分析方法
Ju et al. Call analysis with classification using speech and non-speech features
KR100216536B1 (ko) 대화형 자동 민원처리 방법
CN111916112A (zh) 一种基于语音和文字的情绪识别方法
CN117057813A (zh) 一种客服辅助方法和系统
Ju et al. Call Analysis with Classification Using Speech and Non-Speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant