CN111128241A - 语音通话的智能质检方法及系统 - Google Patents

语音通话的智能质检方法及系统 Download PDF

Info

Publication number
CN111128241A
CN111128241A CN201911402499.8A CN201911402499A CN111128241A CN 111128241 A CN111128241 A CN 111128241A CN 201911402499 A CN201911402499 A CN 201911402499A CN 111128241 A CN111128241 A CN 111128241A
Authority
CN
China
Prior art keywords
voice
quality inspection
information
call
feedback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911402499.8A
Other languages
English (en)
Inventor
魏云波
张朋
周琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Haokun Information Technology Co Ltd
Original Assignee
Shanghai Haokun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Haokun Information Technology Co Ltd filed Critical Shanghai Haokun Information Technology Co Ltd
Priority to CN201911402499.8A priority Critical patent/CN111128241A/zh
Publication of CN111128241A publication Critical patent/CN111128241A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种语音通话的智能检测方法及系统,具体在互联网端向手机端的语音通话场景下,通过外呼装置实现在互联网端基于websocket协议以及webrtc协议的基础上将互联网端和客户手机端通话信道打通,并将双方的语音媒体流信息发送给对方实现在互联网端和手机端的实时通话。通过通讯服务器完成通道内通话双方语音媒体信息流传输并使用电话软交换平台捕获经由通道传输的媒体声音流并将媒体声音导出。通过对语音数据进行语义分析和情感监测获得一个质检结果,并通过质检结果执行反馈以达到监督语音服务合规性、精准的客户语音服务、提升客户体验。

Description

语音通话的智能质检方法及系统
技术领域
本发明涉及智能语音识别技术,具体涉及一种由互联网向手机端发送语音数据信息,在双向数据传输过程中通过获取导出处理语音,并将处理信息转换为可识别的语义和情感监测信息,通过监测信息实现语音通话过程的智能检测以达到语音智能识别、检测和执行反馈的功能,实现精准识别通话质量的目的。
背景技术
智能语音技术是近年来人工智能领域里被热门研究的前沿技术领域。其本质是通过计算机科学和人工智能科学,实现人与机器之间的语言通信。在相关技术研究中,至少围绕对人的语言进行语义的识别和人的情感识别。
在公开号为CN110265019A名称为“一种语音识别的方法及语音机器人系统”提供了一种语音识别的方法,具体为采集用户语音信息后转换为文本信息,通过识别的信息作出信息反馈。具体的还公开了对语义进行矫正的方法。在该专利文献内,基本记载了现有技术中对语音识别成为文本信息并进行二次矫正的方法。该专利存在的问题是1.没有将具体的语音应用场景的需求多样性考虑在技术方案内。更直白的说,没有实际的应用场景的解决方案。2.人的语音数据不仅仅需要识别文本信息,也需要识别出人的情感信息,同一个字句内容在不同的语音语调下所具有的实际含义是不同的。3.只提供了语音数据的收集处理方案,并没有提供从互联网向手机端提供语音数据信息识别的方案。由于对于大型的通信服务商,如中国移动等其智能语音服务是基于互联网的服务平台实现的,所以要进一步解决互联网向手机通信的技术方案。
在公开号为CN109767789A名称为“一种用于语音情感识别的新特征提取方法”公开了一种用于语音情感识别的新特征的提取方法。具体的,是将语音数据分段后获得分段语音图谱,并通过卷积神经网络深度学习识别语音情感识别。以上内容说明语音情感识别的方法为已知的方法。如前所述,该识别方法具体应用于场景中的方案以解决实际的问题并没有被公开。
申请人,意欲提供一种从互联网向手机端进行智能语音识别,对语音数据信息同时进行语义和情感状态识别的方法,并对识别出来的信息进行质检以提升具体场景下的识别准确性以提供适当的反馈执行操作的方法。
发明内容
为解决上述技术问题,本发明提供了一种语音通话的智能质检方法及系统,其目的是,以互联网向手机客户端发送语音通信为场景,提出一种能够对语音中的语义和情感进行识别的方法,并对识别信息进行质检通过质检的方法获取预警的信息,通过预警信息以执行相应的反馈。
一种语音通话的智能质检方法,其用于对语音媒体信息流中的语音信息进行识别、分析和反馈,通过如下步骤实现,
步骤一.建立互联网端向手机端进行通信联系的通道;
步骤二.通过通讯服务器实现语音媒体信息流的传输;
步骤三.对语音媒体信息流进行语音数据处理;
步骤四.对语音媒体信息流进行情感检测分析;
步骤五.对语音媒体信息流进行语义分析;
步骤六.对步骤四或者步骤五所获取的分析结论进行质量检测;
步骤七.对步骤六中所获取的检测信息进行执行反馈。
进一步的,所述的步骤二中,通过通讯服务器实现语音媒体信息流的传输并使用电话软交换平台捕获经由通道传输的媒体声音流并将媒体声音导出。
进一步的,所述的步骤三当中通过如下步骤实现对语音媒体信息流进行语音数据处理:
步骤3.1预处理:通过预加重、分帧、加窗对步骤二所获取的语音媒体信息流进行预处理;
步骤3.2语种识别:将分帧加窗后的信号转换为语谱图,使用深度卷积神经网络针对语谱图数据进行特征提取,并识别出相应语种;
步骤3.3提取声学特征:对分帧加窗后的各帧信号进行快速傅里叶FFT变换得到相应的频谱信号,并对语音信号的频谱幅度谱取模平方得到语音信号的能量谱,能量谱通过一组梅尔滤波器组,计算每个滤波器的对数输出能量,带入离散余弦变换得到MFCC系数,提取动态差分参数,得到N维MFCG参数;
步骤3.4根据语种提取对应语音的声学特征:根据不同语种特点,提取其他声学特征,并根据不同语种实际使用情况选用声学特征或对声学特征进行混合处理;
步骤3.5静音检测:通过预训练的基于深度神经网络DNN和长短时记忆单元LSTM的混合网络结构进行静音检测;
步骤3.6断句:根据静音检测结果及该语种对应预设阈值将语音流进行断句处理;
步骤3.7语音转文字:通过声学模型、语言模型其中一种或者其结合将语音转为对应语种文本信息输出。
进一步的,所述的步骤四通过以下步骤实现情感检测分析:将步骤3.3至步骤3.6所处理完毕的语音特征矩阵输入已训练的情感状态概率检测模型,得到对应的情感状态序列,确定对应的情感状态。
进一步的,所述的步骤五通过如下方法实现语义分析,设置场景词库模型和质检词库模型两个部分,将步骤3.7所获取的文本信息以及相应的信息节点代号输入到场景词库模型中获取关键词,输出文本信息对应的意图序列;或者将文本信息以及相应的信息节点代号输入到已训练的质检词库模型中,获取质检意图序列;根据权重综合分析出具体的语义信息。
在本申请中,所述多场景是指具体的业务场景,如银行通过其网络服务平台向其客户通知相关理财信息的语音服务信息等。在实现本申请的技术方案过程中,会绘制一个场景通话的流程图如,拨打电话、确认身份、告知信息、业务信息通报等。在一个场景通话的流程中,会给出具体的通话流程阶段的信息节点。与本申请中这些信息节点通常给予计算机可识别的代号予以表达并输入场景词库中,这样的目的是使得在具体的模型匹配过程中能够与其具体通话场景相适应,以提升识别并匹配模型中关键词的准确率和效率。
其中所述的意图序列是指场景词库模型会输出若干个关键词,这些关键词将会给出一个可能的概率,这些附有概率的关键词将会按照概率值按序排列,通过这种排列方式排列出场景下真实的语义。同样的质检意图序列也是按照相应的可能的在质检下真实的语义。而场景词库和质检词库的区别在于,前者是按照具体场景业务流程中所研究得出的大概率的正常通话所应知的对话关键词。比如说在银行理财咨询场景下,在确认身份时流程中被问及是否为某某客户时,通常回答为我是某某。这样的情况下就会与该通话场景下的“我是某某”语义与场景词库模型比对后,输出一个关键词作为正常语义分析过程。但是同样流程下出现“请不要再打电话”这样的语音输入时,将与场景词库模型不匹配而无法输出关键词或者是低概率的关键词时,将会进入质检词库模型进行比对以进一步输出特异性的关键词,这些关键词往往具有场景词库下无法应对的特殊关键词以达到理解语义的目的。
根据两个词库的综合权重分析以达到给出最终的关键词语义予以判断。
进一步的,所述的步骤六通过以下步骤实现对分析结论进行质量检测:
步骤6.1设置质检模型:将步骤四中所述情感检测中得到情感状态序列或者步骤五中所述语义分析获得的意图信息输入到质检模型,输出质量预警序列,所述的质量预警序列包括预警类型及概率;
步骤6.2设置质检触发规则:设定不同预警类型对应质检触发阈值;
步骤6.3当步骤6.1中所述所得预警类型及概率达到步骤6.2所述设置的对应质检触发阈值,触发执行反馈处理模块。
进一步的,通过以下步骤实现对步骤六中的反馈处理:
步骤7.1设置质检执行规则:设定预警类型对应的质检执行反馈方式,所述的反馈方式,包括自动执行反馈、人工执行反馈两种方式;
步骤7.2设置的自动执行反馈规则:当采用自动执行反馈时,预警类型对应采取的执行方式包括电话静音或者挂断;
步骤7.3按照步骤7.2自动执行反馈规则;
步骤7.4设置人工执行反馈提醒:质检屏中高亮对应对话记录,提醒质检人员当前通话需要重点关注,并显示具体的关注信息;
步骤7.5人工执行反馈方式:接管,当确认需要接管时可从原人工智能AI机器人、或人工坐席中接管当前通话直接与客户进行深入沟通;若从人工智能AI机器人中接管,则通话转换为三方通话,人工智能AI机器人辅助人工通讯的模式。
优选的,所述的步骤7.4中的重点关注信息包括预警类型、语义信息、情感状态信息。
应用如上方法的一种语音通讯智能系统,包括外呼系统服务器,用于由客户的网络系统向手机客户端建立双向通讯通道;
中间服务器,实现建立通讯通道后实现语音媒体信息流的传输以及获取语音媒体信息流中的信息,并连接语音分析模块对获取的语音数据进行分析;
文件存储服务器,用于存储相关数据。
本发明提供的一种语音通话的智能质检方法及系统,其有益效果在于,具体在互联网端向手机端的语音通话场景下,通过外呼装置实现在互联网端基于websocket协议(一种在单个TCP连接上进行全双工通信的协议)以及webrtc协议(一种支持网页浏览器进行实时语音对话或视频对话的通讯协议)的基础上将互联网端和客户手机端通话信道打通并将双方的语音媒体流信息发送给对方实现在互联网端和手机端的实时通话,通过通讯服务器完成通道内通话双方语音媒体信息流传输并使用电话软交换平台捕获经由通道传输的媒体声音流并将媒体声音导出。通过对语音数据进行语义分析和情感监测获得一个质检结果,并通过质检结果执行反馈以达到监督语音服务合规性、精准的客户语音服务、提升客户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
附图1为本发明中语音通话流程产生的质检情况反馈表。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例,一种语音通话的智能质检方法,其用于对银行新发卡客户回访调研电话,能够有效提升智能语音回访电话的通话识别准确性提升回访效率。
具体的首先从银行客户服务系统内建立客户语音通话的服务列表,包括客户的姓名、联系电话以及相关客户业务信息等。
以下将结合具体的通话场景以说明本申请方法的原理。
具体的网络服务平台通过通信服务器向手机客户端发出外呼业务,产生语音信息的媒体流。如“王先生,下午好。我是……”在这个过程中,双方的通话语音将会实时的产生。同时我们会依据网络服务平台的语音服务的内容,预先建立一个拟制的通话流程,如打招呼,介绍自己,询问原因等等,在双方语音的通话过程中,智能语音将会按照如上流程记载相应的信息节点,这里的信息节点将会以一个可被数据处理的符号所记载。同时在双向的语音通话过程中将会按照以下步骤实现对语音媒体信息流进行语音数据处理:
媒体信息流经过语音分析中预处理、语种识别、提取声学特征、静音检测、断句,最后将转换成对话文字信息。
步骤3.1预处理:通过预加重、分帧、加窗对获取的语音媒体信息流进行预处理;
步骤3.2语种识别:将分帧加窗后的信号转换为语谱图,使用深度卷积神经网络针对语谱图数据进行特征提取,并识别出相应语种;
步骤3.3提取声学特征:对分帧加窗后的各帧信号进行快速傅里叶FFT变换得到相应的频谱信号,并对语音信号的频谱幅度谱取模平方得到语音信号的能量谱,能量谱通过一组梅尔滤波器组,计算每个滤波器的对数输出能量,带入离散余弦变换得到MFCC系数,提取动态差分参数,得到N维MFCC参数;
步骤3.4根据语种提取对应语音的声学特征:根据不同语种特点,提取其他声学特征,并根据不同语种实际使用情况选用声学特征或对声学特征进行混合处理;
步骤3.5静音检测:通过预训练的基于深度神经网络DNN和长短时记忆单元LSTM的混合网络结构进行静音检测;
步骤3.6断句:根据静音检测结果及该语种对应预设阈值将语音流进行断句处理;
步骤3.7语音转文字:通过声学模型、语言模型其中一种或者其结合将语音转为对应语种文本信息输出。
在转换成为文本信息后,将文本信息以及流程图中所对应的当前语音通话拟制的节点信息按照如下方法进行实现语义分析。
设置场景词库模型和质检意图词库模型两个部分,将步骤3.7所获取的文本信息以及相应的信息节点代号输入到场景词库模型中获取关键词,输出文本信息对应的意图序列;或者将文本信息以及相应的信息节点代号输入到已训练的质检词库模型中,获取质检意图序列;根据权重综合分析出具体的语义信息。
如正常情况下,我们得到如下的语音信息反馈情况表如图1所示;
在这个过程中,智能语音所表达的“王先生,下午好”和“我是邮政储蓄银行客服人员,编号XX”所对应的两个情感状态检测的结果分别是概率为83%和概率为86%的平静状态,将如上两种状态划归为正常的通话状态。在没有产生客户方的语音对话时,相应的无文本信息,进一步的不会产生场景词库模型和质检词库模型的语义分析结果,对应的质检结论为正常,无相应的执行反馈,智能语音将会按照场景对话流程图进入下一个信息节点的对话阶段。
但是当客户产生如“你这什么态度呀?……,我要投诉你!”这样的语音信息时,会将客户的如上语音转换成为文本信息并输入场景词库模型和质检词库模型中会产生,情感状态序列“愤怒91%,激动77%”的分析结论,场景词库模型分析意图序列“拒绝23%”的分析结论,质检词库模型分析意图序列“投诉92%”的结果,在这样的分析结论下综合权重得出质检模型“投诉预警,90%”的结果。
在通过上述方法得出一个语音通话过程中客户不满意的质检结果的时候,我们需要对这种结果采用方法进行反馈,步骤包括,
步骤7.1设置质检执行规则:设定预警类型对应的质检执行反馈方式,所述的反馈方式,包括自动执行反馈、人工执行反馈两种方式;
步骤7.2设置的自动执行反馈规则:当采用自动执行反馈时,预警类型对应采取的执行方式包括电话静音或者挂断;
步骤7.3按照步骤7.2自动执行反馈规则;
步骤7.4设置人工执行反馈提醒:质检屏中高亮对应对话记录,提醒质检人员当前通话需要重点关注,并显示具体的关注信息;
步骤7.5人工执行反馈方式:接管,当确认需要接管时可从原人工智能AI机器人、或人工坐席中接管当前通话直接与客户进行深入沟通;若从人工智能AI机器人中接管,则通话转换为三方通话,人工智能AI机器人辅助人工通讯的模式。
如在得出质检为“投诉预警,90%”的结果的情况下,在网络服务平台上的显示器上将会高亮的显示客户在与智能语音通话过程中,所表达出来的关键词语或者整段文字对话,并且提示人工客户人员应当对该通电话予以关注,在必要的时候切断电话或者转交给人工客服提供服务。
应用如上方法的系统中采用的系统包括外呼系统服务器,用于由客户的网络系统向手机客户端建立双向通讯通道;
中间服务器,实现建立通讯通道后实现语音媒体信息流的传输以及获取语音媒体信息流中的信息,并连接语音分析模块对获取的语音数据进行分析;
文件存储服务器,用于存储相关数据。
具体可参照如下列表中的硬件和软件信息予以实现;
Figure BDA0002344806010000101
Figure BDA0002344806010000111
1.1.1软件配置
以100路机器人为例:
Figure BDA0002344806010000112
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。

Claims (9)

1.一种语音通话的智能质检方法,其用于对语音媒体信息流中的语音信息进行识别、分析和反馈,其特征在于,通过如下步骤实现,
步骤一.建立互联网端向手机端进行通信联系的通道;
步骤二.通过通讯服务器实现语音媒体信息流的传输;
步骤三.对语音媒体信息流进行语音数据处理;
步骤四.对语音媒体信息流进行情感检测分析;
步骤五.对语音媒体信息流进行语义分析;
步骤六.对步骤四或者步骤五所获取的分析结论进行质量检测;
步骤七.对步骤六中所获取的检测信息进行执行反馈。
2.根据权利要求1所述的一种语音通话的智能质检方法,其特征在于,所述的步骤二中,通过通讯服务器实现语音媒体信息流的传输并使用电话软交换平台捕获经由通道传输的媒体声音流并将媒体声音导出。
3.根据权利要求1或者2所述的一种语音通话的智能质检方法,其特征在于,所述的步骤三当中通过如下步骤实现对语音媒体信息流进行语音数据处理:
步骤3.1预处理:通过预加重、分帧、加窗对步骤二所获取的语音媒体信息流进行预处理;
步骤3.2语种识别:将分帧加窗后的信号转换为语谱图,使用深度卷积神经网络针对语谱图数据进行特征提取,并识别出相应语种;
步骤3.3提取声学特征:对分帧加窗后的各帧信号进行快速傅里叶FFT变换得到相应的频谱信号,并对语音信号的频谱幅度谱取模平方得到语音信号的能量谱,能量谱通过一组梅尔滤波器组,计算每个滤波器的对数输出能量,带入离散余弦变换得到MFCC系数,提取动态差分参数,得到N维MFCC参数;
步骤3.4根据语种提取对应语音的声学特征:根据不同语种特点,提取其他声学特征,并根据不同语种实际使用情况选用声学特征或对声学特征进行混合处理;
步骤3.5静音检测:通过预训练的基于深度神经网络DNN和长短时记忆单元LSTM的混合网络结构进行静音检测;
步骤3.6断句:根据静音检测结果及该语种对应预设阈值将语音流进行断句处理;
步骤3.7语音转文字:通过声学模型、语言模型其中一种或者其结合将语音转为对应语种文本信息输出。
4.根据权利要求1或者2所述的一种语音通话的智能质检方法,其特征在于,所述的步骤四通过以下步骤实现情感检测分析:将步骤3.3至步骤3.6所处理完毕的语音特征矩阵输入已训练的情感状态概率检测模型,得到对应的情感状态序列,确定对应的情感状态。
5.根据权利要求1或者2所述的一种语音通话的智能质检方法,其特征在于,所述的步骤五通过如下方法实现语义分析,设置场景词库模型和质检词库模型两个部分,将步骤3.7所获取的文本信息以及相应的信息节点代号输入到场景词库模型中获取关键词,输出文本信息对应的意图序列;将文本信息以及相应的信息节点代号输入到已训练的质检词库模型中,获取质检意图序列;根据权重综合分析出具体的语义信息。
6.根据权利要求1或者2所述的一种语音通话的智能质检方法,其特征在于,所述的步骤六通过以下步骤实现对分析结论进行质量检测:
步骤6.1设置质检模型:将步骤四中所述情感检测中得到情感状态序列或者步骤五中所述语义分析获得的意图信息输入到质检模型,输出质量预警序列,所述的质量预警序列包括预警类型及概率;
步骤6.2设置质检触发规则:设定不同预警类型对应质检触发阈值;
步骤6.3当步骤6.1中所述所得预警类型及概率达到步骤6.2所述设置的对应质检触发阈值,触发执行反馈处理模块。
7.根据权利要求6所述的一种语音通话的智能质检方法,其特征在于,通过以下步骤实现对步骤六中的反馈处理:
步骤7.1设置质检执行规则:设定预警类型对应的质检执行反馈方式,所述的反馈方式,包括自动执行反馈、人工执行反馈两种方式;
步骤7.2设置的自动执行反馈规则:当采用自动执行反馈时,预警类型对应采取的执行方式包括电话静音或者挂断;
步骤7.3按照步骤7.2自动执行反馈规则;
步骤7.4设置人工执行反馈提醒:质检屏中高亮对应对话记录,提醒质检人员当前通话需要重点关注,并显示具体的关注信息;
步骤7.5人工执行反馈方式:接管,当确认需要接管时可从原人工智能AI机器人、或人工坐席中接管当前通话直接与客户进行深入沟通;若从人工智能AI机器人中接管,则通话转换为三方通话,人工智能AI机器人辅助人工通讯的模式。
8.根据权利要求7所述的一种语音通话的智能质检方法,其特征在于,所述的步骤7.4中的重点关注信息包括预警类型、语义信息、情感状态信息。
9.一种语音通话的智能质检的系统,应用权利要求1-8任一一种方法,其特征在于,包括,
外呼系统服务器,用于由客户的网络系统向手机客户端建立双向通讯通道;
中间服务器,实现建立通讯通道后实现语音媒体信息流的传输以及获取语音媒体信息流中的信息,并连接语音分析模块对获取的语音数据进行分析;
文件存储服务器,用于存储相关数据。
CN201911402499.8A 2019-12-30 2019-12-30 语音通话的智能质检方法及系统 Pending CN111128241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911402499.8A CN111128241A (zh) 2019-12-30 2019-12-30 语音通话的智能质检方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911402499.8A CN111128241A (zh) 2019-12-30 2019-12-30 语音通话的智能质检方法及系统

Publications (1)

Publication Number Publication Date
CN111128241A true CN111128241A (zh) 2020-05-08

Family

ID=70505888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911402499.8A Pending CN111128241A (zh) 2019-12-30 2019-12-30 语音通话的智能质检方法及系统

Country Status (1)

Country Link
CN (1) CN111128241A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111565254A (zh) * 2020-07-14 2020-08-21 深圳追一科技有限公司 通话数据质检方法、装置、计算机设备和存储介质
CN111881272A (zh) * 2020-07-09 2020-11-03 普强时代(珠海横琴)信息技术有限公司 一种电话服务实时预警系统和预警方法
CN111916073A (zh) * 2020-06-22 2020-11-10 深圳追一科技有限公司 机器人外呼控制方法和装置、服务器、计算机可读存储介质
CN111984779A (zh) * 2020-09-10 2020-11-24 支付宝(杭州)信息技术有限公司 一种对话文本分析方法、装置、设备和可读介质
CN112053681A (zh) * 2020-08-28 2020-12-08 广州探迹科技有限公司 一种asr和nlu联合训练的电话客服质量评分技术及系统
CN112329437A (zh) * 2020-10-21 2021-02-05 交通银行股份有限公司 一种智能客服语音质检评分方法、设备及存储介质
CN115086283A (zh) * 2022-05-18 2022-09-20 阿里巴巴(中国)有限公司 语音流的处理方法和单元
CN116980522A (zh) * 2023-09-22 2023-10-31 湖南三湘银行股份有限公司 一种基于智能质检客户画像的通知的系统和方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102082879A (zh) * 2009-11-27 2011-06-01 华为技术有限公司 呼叫中心语音检测的方法、装置及系统
CN107679234A (zh) * 2017-10-24 2018-02-09 上海携程国际旅行社有限公司 客服信息提供方法、装置、电子设备、存储介质
CN107918633A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 基于语义分析技术的敏感舆情内容识别方法和预警系统
CN109618068A (zh) * 2018-11-08 2019-04-12 上海航动科技有限公司 一种基于人工智能的语音业务推送方法、装置与系统
CN109767791A (zh) * 2019-03-21 2019-05-17 中国—东盟信息港股份有限公司 一种针对呼叫中心通话的语音情绪识别及应用系统
CN109767765A (zh) * 2019-01-17 2019-05-17 平安科技(深圳)有限公司 话术匹配方法及装置、存储介质、计算机设备
CN110472224A (zh) * 2019-06-24 2019-11-19 深圳追一科技有限公司 服务质量的检测方法、装置、计算机设备和存储介质
CN110581927A (zh) * 2018-05-21 2019-12-17 阿里巴巴集团控股有限公司 通话内容的处理及提示方法、装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102082879A (zh) * 2009-11-27 2011-06-01 华为技术有限公司 呼叫中心语音检测的方法、装置及系统
CN107918633A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 基于语义分析技术的敏感舆情内容识别方法和预警系统
CN107679234A (zh) * 2017-10-24 2018-02-09 上海携程国际旅行社有限公司 客服信息提供方法、装置、电子设备、存储介质
CN110581927A (zh) * 2018-05-21 2019-12-17 阿里巴巴集团控股有限公司 通话内容的处理及提示方法、装置
CN109618068A (zh) * 2018-11-08 2019-04-12 上海航动科技有限公司 一种基于人工智能的语音业务推送方法、装置与系统
CN109767765A (zh) * 2019-01-17 2019-05-17 平安科技(深圳)有限公司 话术匹配方法及装置、存储介质、计算机设备
CN109767791A (zh) * 2019-03-21 2019-05-17 中国—东盟信息港股份有限公司 一种针对呼叫中心通话的语音情绪识别及应用系统
CN110472224A (zh) * 2019-06-24 2019-11-19 深圳追一科技有限公司 服务质量的检测方法、装置、计算机设备和存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916073A (zh) * 2020-06-22 2020-11-10 深圳追一科技有限公司 机器人外呼控制方法和装置、服务器、计算机可读存储介质
CN111916073B (zh) * 2020-06-22 2023-10-24 深圳追一科技有限公司 机器人外呼控制方法和装置、服务器、计算机可读存储介质
CN111881272A (zh) * 2020-07-09 2020-11-03 普强时代(珠海横琴)信息技术有限公司 一种电话服务实时预警系统和预警方法
CN111565254A (zh) * 2020-07-14 2020-08-21 深圳追一科技有限公司 通话数据质检方法、装置、计算机设备和存储介质
CN112053681B (zh) * 2020-08-28 2024-04-16 广州探迹科技有限公司 Asr和nlu联合训练的电话客服质量评分方法及系统
CN112053681A (zh) * 2020-08-28 2020-12-08 广州探迹科技有限公司 一种asr和nlu联合训练的电话客服质量评分技术及系统
CN111984779A (zh) * 2020-09-10 2020-11-24 支付宝(杭州)信息技术有限公司 一种对话文本分析方法、装置、设备和可读介质
CN111984779B (zh) * 2020-09-10 2024-05-28 支付宝(杭州)信息技术有限公司 一种对话文本分析方法、装置、设备和可读介质
CN112329437A (zh) * 2020-10-21 2021-02-05 交通银行股份有限公司 一种智能客服语音质检评分方法、设备及存储介质
CN112329437B (zh) * 2020-10-21 2024-05-28 交通银行股份有限公司 一种智能客服语音质检评分方法、设备及存储介质
CN115086283A (zh) * 2022-05-18 2022-09-20 阿里巴巴(中国)有限公司 语音流的处理方法和单元
CN115086283B (zh) * 2022-05-18 2024-02-06 阿里巴巴(中国)有限公司 语音流的处理方法和装置
CN116980522B (zh) * 2023-09-22 2024-01-09 湖南三湘银行股份有限公司 一种基于智能质检客户画像的通知的系统和方法
CN116980522A (zh) * 2023-09-22 2023-10-31 湖南三湘银行股份有限公司 一种基于智能质检客户画像的通知的系统和方法

Similar Documents

Publication Publication Date Title
CN111128241A (zh) 语音通话的智能质检方法及系统
US9842590B2 (en) Face-to-face communication analysis via mono-recording system and methods
US8457964B2 (en) Detecting and communicating biometrics of recorded voice during transcription process
US8484040B2 (en) Social analysis in multi-participant meetings
US7599475B2 (en) Method and apparatus for generic analytics
CN106354835A (zh) 基于上下文语义理解的人工对话辅助系统
CN107886951A (zh) 一种语音检测方法、装置及设备
CN110766442A (zh) 客户信息验证方法、装置、计算机设备及存储介质
CN116600053B (zh) 一种基于ai大语言模型的客服系统
CN114449105A (zh) 基于语音的电力客户服务话务质检系统
CN111508527A (zh) 一种电话应答状态检测方法、装置及服务器
CN110931016A (zh) 一种离线质检用语音识别方法及系统
CN111263016A (zh) 通讯辅助方法、装置、计算机设备和计算机可读存储介质
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
US20210312143A1 (en) Real-time call translation system and method
EP4093005A1 (en) System method and apparatus for combining words and behaviors
US8694309B1 (en) Automatic speech recognition tuning management
CN113314103B (zh) 基于实时语音情感分析的非法信息识别方法及装置
CN116129903A (zh) 一种通话音频处理方法及装置
US11606461B2 (en) Method for training a spoofing detection model using biometric clustering
CN114707515A (zh) 话术判别方法、装置、电子设备及存储介质
CN112714217A (zh) 话务质检方法、装置、存储介质及服务器
CN110798566A (zh) 通话信息记录方法、装置以及相关设备
RU2783966C1 (ru) Способ обработки входящих звонков
CN113782022B (zh) 基于意图识别模型的通信方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200508

WD01 Invention patent application deemed withdrawn after publication