CN113393844B - 一种语音质检的方法、装置及网络设备 - Google Patents

一种语音质检的方法、装置及网络设备 Download PDF

Info

Publication number
CN113393844B
CN113393844B CN202110702711.3A CN202110702711A CN113393844B CN 113393844 B CN113393844 B CN 113393844B CN 202110702711 A CN202110702711 A CN 202110702711A CN 113393844 B CN113393844 B CN 113393844B
Authority
CN
China
Prior art keywords
information
user
vector
voice
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110702711.3A
Other languages
English (en)
Other versions
CN113393844A (zh
Inventor
李座磊
张彬彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datang Telecom Convergence Communications Co Ltd
Original Assignee
Datang Telecom Convergence Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datang Telecom Convergence Communications Co Ltd filed Critical Datang Telecom Convergence Communications Co Ltd
Priority to CN202110702711.3A priority Critical patent/CN113393844B/zh
Publication of CN113393844A publication Critical patent/CN113393844A/zh
Application granted granted Critical
Publication of CN113393844B publication Critical patent/CN113393844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种语音质检的方法、装置及网络设备,该方法包括:获取待质检语音信息;其中,所述待质检语音信息为用户与客服之间的语音对话信息;根据所述待质检语音信息,获得目标用户信息和目标客服信息;根据所述目标用户信息,利用意图识别模型,获得用户意图信息;其中,所述意图识别模型包括机器学习模型和/或深度网络学习模型;根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果。本发明的方案解决了现有技术中的语音质检方法灵活性差且质检准确率较低的问题。

Description

一种语音质检的方法、装置及网络设备
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音质检的方法、装置及网络设备。
背景技术
目前在客服行业,需要大量的质检员对客服通话内容进行人工质检,这种质检方式不但需要很大的人力资源,而且质检效率较低、质检不规范。
近年来,随着智能技术的不断深入和发展,推动了各个领域的智能信息化建设工作。其中,智能质检系统通过利用语音识别、自然语音理解等技术,可以对海量的客服录音进行自动质检,能够提升质检效率,提高质量检验普及率。
然而,现有的质检系统大多基于规则或关键词匹配的方式,需要质检人员实时总结提炼规则或关键词,对规则和关键词的依赖度高,灵活性差,并不能做到智能质检,质检准确率较低。
发明内容
本发明提供一种语音质检的方法、装置及网络设备,解决了现有技术中的语音质检方法灵活性差且质检准确率较低的问题。
第一方面,本发明的实施例提供一种语音质检的方法,包括:
获取待质检语音信息;其中,所述待质检语音信息为用户与客服之间的语音对话信息;
根据所述待质检语音信息,获得目标用户信息和目标客服信息;
根据所述目标用户信息,利用意图识别模型,获得用户意图信息;其中,所述意图识别模型包括机器学习模型和/或深度网络学习模型;
根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果。
可选地,所述根据所述待质检语音信息,获得目标用户信息和目标客服信息,包括:
对所述待质检语音信息进行语音识别,获得用户文本信息和客服文本信息;
分别对所述用户文本信息和所述客服文本信息进行预处理操作,获得所述目标用户信息和所述目标客服信息。
可选地,所述根据所述目标用户信息,利用意图识别模型,获得用户意图信息,包括:
确定所述目标用户文本信息中的字数是否大于预设字数;
在所述字数大于所述预设字数的情况下,利用所述深度网络学习模型进行用户意图识别,获得用户意图信息;或者,
在所述字数小于或等于所述预设字数的情况下,利用所述机器学习模型进行用户意图识别,获得用户意图信息。
可选地,所述在所述字数大于所述预设字数的情况下,利用所述深度网络学习模型进行用户意图识别,获得用户意图信息,包括:
获取所述目标用户文本信息对应的字向量和拼音向量;
将所述字向量和所述拼音向量输入至所述深度网络学习模型;
利用所述深度网络学习模型的卷积层,分别对所述字向量和所述拼音向量进行卷积和池化操作,获得字特征向量和拼音特征向量;
利用所述深度网络学习模型的向量拼接层,将所述字特征向量和所述拼音特征向量拼接,并进行归一化操作,获得拼接特征向量;
将所述拼接特征向量输入至所述深度网络学习模型的注意力层,进行自注意力计算,得到注意力值;
将所述注意力值输入至所述深度网络学习模型的全连接层,进行类别预测,获得用户意图信息。
可选地,所述在所述字数小于或等于所述预设字数的情况下,利用所述机器学习模型进行用户意图识别,获得用户意图信息,包括:
根据所述目标用户文本信息,获得所述目标用户文本信息对应的特征向量;其中,所述特征向量包括:字向量、n-gram拼音向量和主题向量中的至少一项;
将所述特征向量输入至所述机器学习模型,获得用户意图信息。
可选地,所述根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果,包括:
根据所述用户意图信息,获得所述用户意图信息对应的预设话术信息;
利用Bert模型,对所述目标客服信息与所述预设话术信息进行相似度对比,获得所述待质检语音信息的质检结果。
可选地,所述对所述目标客服信息与所述预设话术信息进行相似度对比,获得所述待质检语音信息的质检结果,包括:
在所述目标客服信息与所述预设话术信息之间的相似度大于或等于阈值的情况下,确定所述质检结果为合格;或者,
在所述目标客服信息与所述预设话术信息之间的相似度小于阈值的情况下,确定所述质检结果为不合格。
第二方面,本发明的实施例提供一种网络设备,包括:收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法的步骤。
第三方面,本发明的实施例提供一种语音质检的装置,包括:
信息获取模块,用于获取待质检语音信息;其中,所述待质检语音信息为用户与客服之间的语音对话信息;
第一处理模块,用于根据所述待质检语音信息,获得目标用户信息和目标客服信息;
意图识别模块,用于根据所述目标用户信息,利用意图识别模型,获得用户意图信息;其中,所述意图识别模型包括机器学习模型和/或深度网络学习模型;
信息质检模块,用于根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果。
第四方面,本发明的实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的方法的步骤。
本发明的上述技术方案的有益效果是:
本发明的实施例,根据待质检语音信息的具体情况,灵活采用机器学习模型或深度神经网络模型进行语义理解,提高了用户意图识别准确率,能够减少客服语音质量检验成本,为企业降本增效。
附图说明
图1表示本发明实施例的语音质检的方法的流程图之一;
图2表示本发明实施例的用户意图识别流程图;
图3表示本发明实施例的CNN_Attention模型示意图;
图4表示本发明实施例的语音质检的方法的流程图之二;
图5表示本发明实施例的语音质检的装置的结构框图;
图6表示本发明实施例的网络设备的结构框图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常可互换使用。
在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
本发明实施例中,接入网的形式不限,可以是包括宏基站(Macro Base Station)、微基站(Pico Base Station)、Node B(3G移动基站的称呼)、增强型基站(eNB)、家庭增强型基站(Femto eNB或Home eNode B或Home eNB或HeNB)、中继站、接入点、RRU(Remote RadioUnit,远端射频模块)、RRH(Remote Radio Head,射频拉远头)等的接入网。用户终端可以是移动电话(或手机),或者其他能够发送或接收无线信号的设备,包括用户设备、个人数字助理(PDA)、无线调制解调器、无线通信装置、手持装置、膝上型计算机、无绳电话、无线本地回路(WLL)站、能够将移动信号转换为WiFi信号的CPE(Customer Premise Equipment,客户终端)或移动智能热点、智能家电、或其他不通过人的操作就能自发与移动通信网络通信的设备等。
具体地,本发明的实施例提供了一种语音质检的方法、装置及网络设备,解决了现有技术中的语音质检方法灵活性差且质检准确率较低的问题。
第一实施例
如图1所示,本发明的实施例提供了一种语音质检的方法,具体包括以下步骤:
步骤11:获取待质检语音信息;其中,所述待质检语音信息为用户与客服之间的语音对话信息;
步骤12:根据所述待质检语音信息,获得目标用户信息和目标客服信息。
该步骤中,可以对待质检语音信息进行语音识别以及预处理操作,从而按照话者、段落等对待质检语音信息进行区分,得到目标用户信息(与语音对话中用户的语音相对应)和目标客服信息(与语音对话中客服的语音相对应)。
步骤13:根据所述目标用户信息,利用意图识别模型,获得用户意图信息;其中,所述意图识别模型包括机器学习模型和/或深度网络学习模型。
该步骤中,例如可以根据目标用户信息中的字数来决定采取何种模型进行用户意图识别,这样,可以根据具体情况采用不同的意图识别模型,更加灵活、快速和准确。
步骤14:根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果。
该实施例中,通过识别用户的意图,可以获得用户意图信息,进而对该意图下坐席(即客服)的回答进行质检,能够提高客服服务中涉及业务内容的质检的准确率。而且,本发明实施例中可以根据待质检语音信息的具体情况,灵活采用机器学习模型或深度神经网络模型进行语义理解,提高了用户意图识别准确率,能够减少客服语音质量检验成本,为企业降本增效。
通过上述步骤,可以实现全量全自动的智能语音质检,摆脱了质检过程中人员的限制,解决了传统质检中人工效率低、质检人员专业知识不同且标准不统一以及人力不足等问题,提高了质检人员的工作效率,提升了质检工作质量。
可选地,所述根据所述待质检语音信息,获得目标用户信息和目标客服信息,包括:
对所述待质检语音信息进行语音识别,获得用户文本信息和客服文本信息;
分别对所述用户文本信息和所述客服文本信息进行预处理操作,获得所述目标用户信息和所述目标客服信息。
其中,所述预处理操作可以包括:去除停用词、去除语气词、去除超短句(即去除包含的字数小于预设个数的语句)、中文分词处理、词性提取等等。
该实施例中,首先,可以对待质检语音信息进行语音识别,即进行语音转文本的过程。在该过程中,可以按照话者、段落等对待质检语音信息进行区分,获得转写后的用户文本信息和客服文本信息。然后,可以对转写后得到的信息进行文本预处理(即预处理操作)。例如,去除停用词、去除语气词、去除超短句等,从而得到目标用户信息和目标客服信息。
这里,目标用户信息可以包括目标用户文本信息及其对应的目标用户拼音信息;目标客服信息可以包括目标客服文本信息及其对应的目标客服拼音信息。
可选地,所述根据所述目标用户信息,利用意图识别模型,获得用户意图信息,包括:
确定所述目标用户文本信息中的字数是否大于预设字数;
在所述字数大于所述预设字数的情况下,利用所述深度网络学习模型进行用户意图识别,获得用户意图信息;或者,
在所述字数小于或等于所述预设字数的情况下,利用所述机器学习模型进行用户意图识别,获得用户意图信息。
该实施例中,针对不同字数的目标用户文本信息,可以灵活选择适合的意图识别模型来进行用户意图识别。例如,针对字数较少的情况,可以选择机器学习模型进行识别,简单快速;而针对字数较多的情况,由于其中包含的语义较为负责,则可以选择深度网络学习模型进行识别,更为准确有效。
如图2所示,作为本发明一可选实施例,利用意图识别模型,获得用户意图信息,具体可以包括以下步骤:
S201:获取用户数据(即目标用户信息);
S202:对每句数据长度(即目标用户信息中的字数)进行判断;若字数大于预设字数,则执行S205;若字数小于或等于预设字数,则执行S203;
S203:在字数小于或等于预设字数的情况下,即目标用户文本信息属于短文本,可以提取目标用户信息对应的字向量、拼音向量和整通语音对话(即待质检语音信息)的主题向量作为特征;
S204:采用机器学习的方法(即利用机器学习模型)识别用户意图;
S205:在字数大于预设字数的情况下,即目标用户文本信息属于长文本,则采用深度学习的方法(即利用深度网络学习模型)识别用户意图;
S206:获得用户意图信息。
可选地,所述在所述字数大于所述预设字数的情况下,利用所述深度网络学习模型进行用户意图识别,获得用户意图信息,具体可以包括以下步骤:
(一)获取所述目标用户文本信息对应的字向量和拼音向量。
该步骤中,可以基于大规模训练对话语料和维基百科语料,利用word2vec中的CBOW(Continuous Bag-Of-Words Model,连续词袋模型)词嵌入模型,训练每个字符对应的字向量和每个拼音对应的拼音向量。
(二)将所述字向量和所述拼音向量输入至所述深度网络学习模型。
作为本发明一可选实施例,该深度网络学习模型可以是多特征融合的CNN_Attention模型。该模型为适用于语音对话数据的意图识别的网络模型,在利用该模型进行意图识别前,可以先构建该模型。具体的,该模型可以包括输入层、卷积层、向量拼接层、注意力层和全连接层。
其中,该模型的输入层为字向量和拼音向量,也即,可以将句子中每个字符对应的字向量和拼音对应的拼音向量输入至输入层。这里,由于引入了拼音向量,能够丰富文本特征,缓解语音转文本(即语音识别)中出现的误差,从而更准确地识别用户意图。
(三)利用所述深度网络学习模型的卷积层,分别对所述字向量和所述拼音向量进行卷积和池化操作,获得字特征向量和拼音特征向量。
该步骤中,卷积层(即CNN层)可以对输入的向量(即字向量和拼音向量)进行多尺度卷积运算以及池化操作。其中,作为本发明一可选实施例,卷积核大小为2、3、4,卷积核的纬度为268维,能够分别获得基于字向量和拼音向量的特征向量,即字特征向量和拼音特征向量。
(四)利用所述深度网络学习模型的向量拼接层,将所述字特征向量和所述拼音特征向量拼接,并进行归一化操作,获得拼接特征向量。
该步骤中,向量拼接层可以将提取到的字特征向量和拼音特征向量进行拼接,并进行归一化操作,得到的拼接特征向量可以作为注意力层(即Attention层)的输入;
(五)将所述拼接特征向量输入至所述深度网络学习模型的注意力层,进行自注意力计算,得到注意力值。
该步骤中,注意力层可以对输入的拼接特征向量进行自注意力(即Self-Attention)计算,得到每个特征向量的权重系数,获得最佳特征向量。
(六)将所述注意力值输入至所述深度网络学习模型的全连接层,进行类别预测,获得用户意图信息。
该步骤中,全连接层(即softmax层)可以对获得的所有特征向量全连接,输入到全连接层进行类别预测(即计算类别概率),最终输出该句最大概率所属的类别,即用户意图信息。
该实施例中,针对现有技术中质检系统质检任务较为简单,无法解决更为复杂的业务场景的问题,可以采用多特征融合的CNN_Attention模型来识别用户意图,其中,卷积层分别对字向量和拼音向量进行卷积操作,注意力层将提取到的字特征向量和拼音特征向量拼接,进行自注意力(即self-Attention)计算,并将得到注意力值(即attention值)输入到全连接层进行类别预测。这样,针对语义复杂的语音对话信息,也可以准确地识别用户意图。
如图3所示,作为本发明一可选实施例,利用所述深度网络学习模型进行用户意图识别,获得用户意图信息具体包括以下步骤:
S301:获取用户数据(即目标用户文本信息);
S302:获取目标用户文本信息对应的字向量和拼音向量;
S303:将字向量和拼音向量输入至深度网络学习模型;
S304:卷积层(即CNN层)可以对字向量和拼音向量进行多尺度卷积运算以及池化操作,获得字特征向量(即基于字向量的语义表示)和拼音特征向量(即基于拼音向量的语义表示);
S305:向量拼接层将字特征向量和拼音特征向量拼接;
S306:注意力层可以对输入的拼接特征向量进行自注意力(即Self-Attention)计算,得到注意力值;
S307:全连接层(即softmax层)可以进行类别预测,获得用户意图信息;
S308:输出用户意图信息。
可选地,所述在所述字数小于或等于所述预设字数的情况下,利用所述机器学习模型进行用户意图识别,获得用户意图信息,包括:
(一)根据所述目标用户文本信息,获得所述目标用户文本信息对应的特征向量;其中,所述特征向量包括:字向量、n-gram拼音向量和主题向量中的至少一项;
该步骤中,可以基于大规模训练对话语料和维基百科语料,利用word2vec中的CBOW词嵌入模型,训练每个字符对应的字向量和每个拼音对应的拼音向量,并可以利用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型提取语音对话(即待质检语音信息)的主题向量。其中,字向量、拼音向量和主题向量可以为150维。
(二)将所述特征向量输入至所述机器学习模型,获得用户意图信息。
该实施例中,可以采用字向量、n-gram拼音向量和整通语音对话的主题向量作为特征向量,将特征向量输入已训练好的机器学习模型,从而得到用户意图信息。其中,机器学习模型可以是k-近邻、朴素贝叶斯、支持向量机等模型。
可选地,所述根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果,包括:
根据所述用户意图信息,获得所述用户意图信息对应的预设话术信息;
利用Bert模型,对所述目标客服信息与所述预设话术信息进行相似度对比,获得所述待质检语音信息的质检结果。
该实施例中,可以根据用户意图信息,可以对本次用户与客服之间的语音对话中的坐席(即客服)的回答与用户意图信息对应的标准话术(即预设话术信息)的相似度进行对比,从而对客服的回答进行质检,能够提高业务相关内容的质检准确率,解决了现有技术中的质检系统质检标准较为固定,无法适应个性化的质检需求的问题。
可选地,所述对所述目标客服信息与所述预设话术信息进行相似度对比,获得所述待质检语音信息的质检结果,包括:
在所述目标客服信息与所述预设话术信息之间的相似度大于或等于阈值的情况下,确定所述质检结果为合格;或者,
在所述目标客服信息与所述预设话术信息之间的相似度小于阈值的情况下,确定所述质检结果为不合格。
该实施例中,通过相似度计算,可以得到质检结果。具体的,首先获取识别出的用户意图所对应的标准话术(即预设话术信息),然后可以基于微调的Bert模型,计算标准话术与坐席人员的回答(即目标客服信息)进行相似度对比:若两者相似(即相似度大于或等于阈值),则质检通过,即确定质检结果为合格;否则(即相似度小于阈值),质检不通过,即确定质检结果为不合格。
下面对本申请实施例提供的方案进行具体举例说明。
例如,用户和客服(即坐席)之间的语音对话记录(即待质检语音信息)如下:
用户:“我家电视央视频道声音不对啊,怎么听到两种音了?”。
坐席:“非常抱歉给您带来不便,请您尝试将机顶盒声道改为左声道,您看更改后是否正常”。
如图4所示,S401:获取语音文件(即待质检语音信息),并进行转文本操作(即语音识别),可以获得用户文本信息和客服文本信息;
S402:进行文本预处理操作,获得目标用户信息和目标客服信息;
S403:采取不同的方法识别用户意图;
该步骤中,可以通过对获取到的用户数据(即目标用户信息)进行字数判断,来确定采取哪种模型来进行用户意图识别。例如,通过S401、S402后得到的目标用户信息为“我家电视央视频道声音不对”,预设字数为10字,则该目标用户信息的字数大于预设字数,可以将用户数据输入到神经网络模型(即深度网络学习模型)进行用户意图识别。
具体的,首先,获得目标用户文本信息对应的字向量和拼音向量,并将字向量和拼音向量输入对应的深度网络学习模型的卷积层进行卷积计算、池化操作,提取特征向量(即字特征向量和拼音特征向量),比如,卷积核大小设为2、3、4,维度为268维,可获取字和拼音的n-gram特征(即字向量、n-gram拼音向量);然后,将提取到的特征向量(即字特征向量和拼音特征向量)拼接,得到拼接特征向量,以缓解语音转文本中出现的误差;最后,将拼接的特征向量(即拼接特征向量)输入到self-Attention层计算attenion值,通过softmax函数输出意图类别。
S404:对坐席回答与该用户意图对应的标准话术进行相似度对比。
例如,针对上述用户数据(即目标用户信息),识别出用户意图为频道多音,则可以针对该用户意图找到其对应解决话术(即预设话术信息)为“切换急机顶盒声道,改为左声道”,将标准话术(即预设话术信息)与坐席话术输入到微调的Bert模型,得到两者之间是否相似的相似度对比结果。
S405:根据相似度对比结果,获得待质检语音信息的质检结果。
例如,若相似(即相似度大于或等于阈值),则模型返回为1,可知坐席回答会标准话术很相似,则认为该质检项通过,确定质检结果为合格;否则(即相似度小于阈值),返回为0,即确定质检结果为不合格。
本发明实施例的方法,根据待质检语音信息的具体情况,可以灵活采用机器学习模型或深度神经网络模型进行语义理解,提高了语音质检中用户意图识别的准确率,能够全面挖掘服务数据的价值,质检方法灵活有效,质检结果更为准确,能够减少客服语音质量检验成本,为企业降本增效。
第二实施例
如图5所示,本发明实施例提供一种语音质检的装置500,包括:
信息获取模块501,用于获取待质检语音信息;其中,所述待质检语音信息为用户与客服之间的语音对话信息;
第一处理模块502,用于根据所述待质检语音信息,获得目标用户信息和目标客服信息;
意图识别模块503,用于根据所述目标用户信息,利用意图识别模型,获得用户意图信息;其中,所述意图识别模型包括机器学习模型和/或深度网络学习模型;
信息质检模块504,用于根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果。
该实施例中,通过识别用户的意图,可以获得用户意图信息,进而对该意图下坐席(即客服)的回答进行质检,能够提高客服服务中涉及业务内容的质检的准确率。而且,本发明实施例中可以根据待质检语音信息的具体情况,灵活采用机器学习模型或深度神经网络模型进行语义理解,提高了用户意图识别准确率,能够减少客服语音质量检验成本,为企业降本增效。
可选地,所述第一处理模块502包括:
语音识别单元,用于对所述待质检语音信息进行语音识别,获得用户文本信息和客服文本信息;
预处理单元,用于分别对所述用户文本信息和所述客服文本信息进行预处理操作,获得所述目标用户信息和所述目标客服信息。
可选地,所述意图识别模块503包括:
字数确定单元,用于确定所述目标用户文本信息中的字数是否大于预设字数;
第一识别单元,用于在所述字数大于所述预设字数的情况下,利用所述深度网络学习模型进行用户意图识别,获得用户意图信息;或者,
第二识别单元,用于在所述字数小于或等于所述预设字数的情况下,利用所述机器学习模型进行用户意图识别,获得用户意图信息。
可选地,所述第一识别单元包括:
第一获取子单元,用于获取所述目标用户文本信息对应的字向量和拼音向量;
向量输入子单元,用于将所述字向量和所述拼音向量输入至所述深度网络学习模型;
第一处理子单元,用于利用所述深度网络学习模型的卷积层,分别对所述字向量和所述拼音向量进行卷积和池化操作,获得字特征向量和拼音特征向量;
第二处理子单元,用于利用所述深度网络学习模型的向量拼接层,将所述字特征向量和所述拼音特征向量拼接,并进行归一化操作,获得拼接特征向量;
第三处理子单元,用于将所述拼接特征向量输入至所述深度网络学习模型的注意力层,进行自注意力计算,得到注意力值;
第一预测子单元,用于将所述注意力值输入至所述深度网络学习模型的全连接层,进行类别预测,获得用户意图信息。
可选地,所述第二识别单元包括:
第二获取子单元,用于根据所述目标用户文本信息,获得所述目标用户文本信息对应的特征向量;其中,所述特征向量包括:字向量、n-gram拼音向量和主题向量中的至少一项;
第二预测子单元,用于将所述特征向量输入至所述机器学习模型,获得用户意图信息。
可选地,所述信息质检模块504包括:
获取单元,用于根据所述用户意图信息,获得所述用户意图信息对应的预设话术信息;
质检单元,用于利用Bert模型,对所述目标客服信息与所述预设话术信息进行相似度对比,获得所述待质检语音信息的质检结果。
可选地,所述质检单元包括:
第一质检子单元,用于在所述目标客服信息与所述预设话术信息之间的相似度大于或等于阈值的情况下,确定所述质检结果为合格;或者,
第二质检子单元,用于在所述目标客服信息与所述预设话术信息之间的相似度小于阈值的情况下,确定所述质检结果为不合格。
本发明的第二实施例是与上述第一实施例的方法对应的,上述第一实施例中的所有实现手段均适用于该语音质检的装置的实施例中,也能达到相同的技术效果。
本发明实施例的装置,根据待质检语音信息的具体情况,可以灵活采用机器学习模型或深度神经网络模型进行语义理解,提高了语音质检中用户意图识别的准确率,能够全面挖掘服务数据的价值,质检方法灵活有效,质检结果更为准确,能够减少客服语音质量检验成本,为企业降本增效。
第三实施例
为了更好的实现上述目的,如图6所示,本发明的第三实施例还提供了一种网络设备,包括:
处理器600;以及通过总线接口与所述处理器600相连接的存储器620,所述存储器620用于存储所述处理器600在执行操作时所使用的程序和数据,处理器600调用并执行所述存储器620中所存储的程序和数据。
其中,收发机610与总线接口连接,用于在处理器600的控制下接收和发送数据;处理器600用于读取存储器620中的程序执行以下步骤:
获取待质检语音信息;其中,所述待质检语音信息为用户与客服之间的语音对话信息;
根据所述待质检语音信息,获得目标用户信息和目标客服信息;
根据所述目标用户信息,利用意图识别模型,获得用户意图信息;其中,所述意图识别模型包括机器学习模型和/或深度网络学习模型;
根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果。
其中,在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器600代表的一个或多个处理器和存储器620代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机610可以是多个元件,即包括发送机和收发机,提供用于在传输介质上与各种其他装置通信的单元。针对不同的终端,用户接口630还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。处理器600负责管理总线架构和通常的处理,存储器620可以存储处理器600在执行操作时所使用的数据。
可选地,所述处理器600在根据所述待质检语音信息,获得目标用户信息和目标客服信息时,还用于:
对所述待质检语音信息进行语音识别,获得用户文本信息和客服文本信息;
分别对所述用户文本信息和所述客服文本信息进行预处理操作,获得所述目标用户信息和所述目标客服信息。
可选地,所述处理器600在根据所述目标用户信息,利用意图识别模型,获得用户意图信息时,还用于:
确定所述目标用户文本信息中的字数是否大于预设字数;
在所述字数大于所述预设字数的情况下,利用所述深度网络学习模型进行用户意图识别,获得用户意图信息;或者,
在所述字数小于或等于所述预设字数的情况下,利用所述机器学习模型进行用户意图识别,获得用户意图信息。
可选地,所述处理器600在所述字数大于所述预设字数的情况下,利用所述深度网络学习模型进行用户意图识别,获得用户意图信息时,还用于:
获取所述目标用户文本信息对应的字向量和拼音向量;
将所述字向量和所述拼音向量输入至所述深度网络学习模型;
利用所述深度网络学习模型的卷积层,分别对所述字向量和所述拼音向量进行卷积和池化操作,获得字特征向量和拼音特征向量;
利用所述深度网络学习模型的向量拼接层,将所述字特征向量和所述拼音特征向量拼接,并进行归一化操作,获得拼接特征向量;
将所述拼接特征向量输入至所述深度网络学习模型的注意力层,进行自注意力计算,得到注意力值;
将所述注意力值输入至所述深度网络学习模型的全连接层,进行类别预测,获得用户意图信息。
可选地,所述处理器600在所述字数小于或等于所述预设字数的情况下,利用所述机器学习模型进行用户意图识别,获得用户意图信息时,还用于:
根据所述目标用户文本信息,获得所述目标用户文本信息对应的特征向量;其中,所述特征向量包括:字向量、n-gram拼音向量和主题向量中的至少一项;
将所述特征向量输入至所述机器学习模型,获得用户意图信息。
可选地,所述处理器600在根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果时,还用于:
根据所述用户意图信息,获得所述用户意图信息对应的预设话术信息;
利用Bert模型,对所述目标客服信息与所述预设话术信息进行相似度对比,获得所述待质检语音信息的质检结果。
可选地,所述处理器600在对所述目标客服信息与所述预设话术信息进行相似度对比,获得所述待质检语音信息的质检结果时,还用于:
在所述目标客服信息与所述预设话术信息之间的相似度大于或等于阈值的情况下,确定所述质检结果为合格;或者,
在所述目标客服信息与所述预设话术信息之间的相似度小于阈值的情况下,确定所述质检结果为不合格。
本发明提供的网络设备,根据待质检语音信息的具体情况,可以灵活采用机器学习模型或深度神经网络模型进行语义理解,提高了语音质检中用户意图识别的准确率,能够全面挖掘服务数据的价值,质检方法灵活有效,质检结果更为准确,能够减少客服语音质量检验成本,为企业降本增效。
本领域技术人员可以理解,实现上述实施例的全部或者部分步骤可以通过硬件来完成,也可以通过计算机程序来指示相关的硬件来完成,所述计算机程序包括执行上述方法的部分或者全部步骤的指令;且该计算机程序可以存储于一可读存储介质中,存储介质可以是任何形式的存储介质。
另外,本发明具体实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的第一实施例中的方法的步骤。且能达到相同的技术效果,为避免重复,这里不再赘述。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种语音质检的方法,其特征在于,包括:
获取待质检语音信息,所述待质检语音信息为用户与客服之间的语音对话信息;
根据所述待质检语音信息,获得目标用户信息和目标客服信息;
根据所述目标用户信息,利用意图识别模型,获得用户意图信息;其中,所述意图识别模型包括机器学习模型和/或深度网络学习模型;
根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果;
所述根据所述目标用户信息,利用意图识别模型,获得用户意图信息,包括:在目标用户文本信息中的字数大于预设字数时,利用所述深度网络学习模型进行用户意图识别,获得用户意图信息,这包括:
获取所述目标用户文本信息对应的字向量和拼音向量;
将所述字向量和所述拼音向量输入至所述深度网络学习模型;
利用所述深度网络学习模型的卷积层,分别对所述字向量和所述拼音向量进行卷积和池化操作,获得字特征向量和拼音特征向量;
利用所述深度网络学习模型的向量拼接层,将所述字特征向量和所述拼音特征向量拼接,并进行归一化操作,获得拼接特征向量;
将所述拼接特征向量输入至所述深度网络学习模型的注意力层,进行自注意力计算,得到注意力值;
将所述注意力值输入至所述深度网络学习模型的全连接层,进行类别预测,获得用户意图信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待质检语音信息,获得目标用户信息和目标客服信息,包括:
对所述待质检语音信息进行语音识别,获得用户文本信息和客服文本信息;
分别对所述用户文本信息和所述客服文本信息进行预处理操作,获得所述目标用户信息和所述目标客服信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标用户信息,利用意图识别模型,获得用户意图信息,包括:
确定所述目标用户文本信息中的字数是否大于预设字数;
在所述字数大于所述预设字数的情况下,利用所述深度网络学习模型进行用户意图识别,获得用户意图信息;或者,
在所述字数小于或等于所述预设字数的情况下,利用所述机器学习模型进行用户意图识别,获得用户意图信息。
4.根据权利要求3所述的方法,其特征在于,所述在所述字数小于或等于所述预设字数的情况下,利用所述机器学习模型进行用户意图识别,获得用户意图信息,包括:
根据所述目标用户文本信息,获得所述目标用户文本信息对应的特征向量;其中,所述特征向量包括:字向量、n-gram拼音向量和主题向量中的至少一项;
将所述特征向量输入至所述机器学习模型,获得用户意图信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果,包括:
根据所述用户意图信息,获得所述用户意图信息对应的预设话术信息;
利用Bert模型,对所述目标客服信息与所述预设话术信息进行相似度对比,获得所述待质检语音信息的质检结果。
6.根据权利要求5所述的方法,其特征在于,所述对所述目标客服信息与所述预设话术信息进行相似度对比,获得所述待质检语音信息的质检结果,包括:
在所述目标客服信息与所述预设话术信息之间的相似度大于或等于阈值的情况下,确定所述质检结果为合格;或者,
在所述目标客服信息与所述预设话术信息之间的相似度小于阈值的情况下,确定所述质检结果为不合格。
7.一种网络设备,包括:收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的方法的步骤。
8.一种语音质检的装置,其特征在于,包括:
信息获取模块,用于获取待质检语音信息;其中,所述待质检语音信息为用户与客服之间的语音对话信息;
第一处理模块,用于根据所述待质检语音信息,获得目标用户信息和目标客服信息;
意图识别模块,用于根据所述目标用户信息,利用意图识别模型,获得用户意图信息;其中,所述意图识别模型包括机器学习模型和/或深度网络学习模型;
信息质检模块,用于根据所述用户意图信息和所述目标客服信息,获得所述待质检语音信息的质检结果;
所述意图识别模块包括:
第一识别单元,用于在字数大于预设字数的情况下,利用所述深度网络学习模型进行用户意图识别,获得用户意图信息;
所述第一识别单元包括:
第一获取子单元,用于获取目标用户文本信息对应的字向量和拼音向量;
向量输入子单元,用于将所述字向量和所述拼音向量输入至所述深度网络学习模型;
第一处理子单元,用于利用所述深度网络学习模型的卷积层,分别对所述字向量和所述拼音向量进行卷积和池化操作,获得字特征向量和拼音特征向量;
第二处理子单元,用于利用所述深度网络学习模型的向量拼接层,将所述字特征向量和所述拼音特征向量拼接,并进行归一化操作,获得拼接特征向量;
第三处理子单元,用于将所述拼接特征向量输入至所述深度网络学习模型的注意力层,进行自注意力计算,得到注意力值;
第一预测子单元,用于将所述注意力值输入至所述深度网络学习模型的全连接层,进行类别预测,获得用户意图信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
CN202110702711.3A 2021-06-24 2021-06-24 一种语音质检的方法、装置及网络设备 Active CN113393844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110702711.3A CN113393844B (zh) 2021-06-24 2021-06-24 一种语音质检的方法、装置及网络设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110702711.3A CN113393844B (zh) 2021-06-24 2021-06-24 一种语音质检的方法、装置及网络设备

Publications (2)

Publication Number Publication Date
CN113393844A CN113393844A (zh) 2021-09-14
CN113393844B true CN113393844B (zh) 2022-12-06

Family

ID=77623737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110702711.3A Active CN113393844B (zh) 2021-06-24 2021-06-24 一种语音质检的方法、装置及网络设备

Country Status (1)

Country Link
CN (1) CN113393844B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660458B (zh) * 2022-09-26 2023-10-20 广州云趣信息科技有限公司 基于上下文推理的通话质检方法、装置、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
US10332508B1 (en) * 2016-03-31 2019-06-25 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
CN111709630A (zh) * 2020-06-08 2020-09-25 深圳乐信软件技术有限公司 语音质检方法、装置、设备及存储介质
CN111883115A (zh) * 2020-06-17 2020-11-03 马上消费金融股份有限公司 语音流程质检的方法及装置
CN112885376A (zh) * 2021-01-23 2021-06-01 深圳通联金融网络科技服务有限公司 一种提高语音通话质检效果的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10332508B1 (en) * 2016-03-31 2019-06-25 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
CN111709630A (zh) * 2020-06-08 2020-09-25 深圳乐信软件技术有限公司 语音质检方法、装置、设备及存储介质
CN111883115A (zh) * 2020-06-17 2020-11-03 马上消费金融股份有限公司 语音流程质检的方法及装置
CN112885376A (zh) * 2021-01-23 2021-06-01 深圳通联金融网络科技服务有限公司 一种提高语音通话质检效果的方法和装置

Also Published As

Publication number Publication date
CN113393844A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
US20210174781A1 (en) Text-based speech synthesis method, computer device, and non-transitory computer-readable storage medium
US20160247068A1 (en) System and method for automatic question answering
CN103280216B (zh) 改进依赖上下文的语音识别器对环境变化的鲁棒性
US20170206897A1 (en) Analyzing textual data
CN111428010B (zh) 人机智能问答的方法和装置
US20170316775A1 (en) Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network
CN113239169B (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN107430616A (zh) 语音查询的交互式再形成
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
CN113488024B (zh) 一种基于语义识别的电话打断识别方法和系统
CN114330371A (zh) 基于提示学习的会话意图识别方法、装置和电子设备
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
WO2022267405A1 (zh) 语音交互方法、系统、电子设备及存储介质
CN109858045A (zh) 机器翻译方法和装置
CN111783424B (zh) 一种文本分句方法和装置
CN112084317A (zh) 预训练语言模型的方法和装置
US20190303393A1 (en) Search method and electronic device using the method
CN113393844B (zh) 一种语音质检的方法、装置及网络设备
CN110956958A (zh) 搜索方法、装置、终端设备及存储介质
CN114171000A (zh) 一种基于声学模型和语言模型的音频识别方法
US20230244878A1 (en) Extracting conversational relationships based on speaker prediction and trigger word prediction
CN107886940A (zh) 语音翻译处理方法及装置
CN114218356B (zh) 基于人工智能的语义识别方法、装置、设备及存储介质
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
KR102684930B1 (ko) 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant