CN112053681A

CN112053681A - 一种asr和nlu联合训练的电话客服质量评分技术及系统

Info

Publication number: CN112053681A
Application number: CN202010884877.7A
Authority: CN
Inventors: 陈开冉; 黎展; 谢智权
Original assignee: Guangzhou Tungee Technology Co ltd
Current assignee: Guangzhou Tungee Technology Co ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-08
Anticipated expiration: 2040-08-28
Also published as: CN112053681B

Abstract

本发明提供了一种ASR和NLU联合训练的电话客服质量评分技术及系统，通过自动语音识别与自然语言理解联合训练，能够更有效的保留语音的原始特征，减少误差传播，解决了传统电话质检系统无法匹配语义层面软性指标等问题。所述方法包括：获取录音数据，基于说话人身份，将录音数据切分成n条语音；将n条语音分类标记；将标记后的n条语音经自动语音识别训练，获取n个高维向量；将n个高维向量按类别拼接，获取拼接向量；将拼接向量经过自然语言理解训练，得到语音‑语义向量V；对向量V做分类任务，获得每个任务场景类别的置信度C；对向量V进行编码得到语义向量P，将向量P标准化后，输入到一个全连接层里,然后与置信度C相乘，获得评分。

Description

一种ASR和NLU联合训练的电话客服质量评分技术及系统

技术领域

本发明涉及电话质检，尤其涉及一种ASR和NLU联合训练的电话客服质量评分技术及系统。

背景技术

现有的电话质检系统，通过将语音识别成文字后，评分规则大多基于正则匹配开展。如有没说脏话、有没说敬语等，正则匹配适用于硬性指标。但是对一些语义层面的软性指标，例如客服在特定场景的话术专业度评分等，现存的电话质检系统无法实现。从而无法为企业客户提供更细致的电话客服管理。

由于语音识别和正则规则是pipeline关系，语音识别的错误会积累到正则匹配。而且，从语音转成文字，除了积累误差外，还丢失了很多重要原始信息与语气情绪等。这使得现存的电话质检系统能力有限，无法覆盖更广的应用。

发明内容

为了解决上述技术问题，本发明提供了一种ASR和NLU联合训练的电话客服质量评分技术及系统，通过自动语音识别与自然语言理解联合训练，能够更有效的保留语音的原始特征，减少误差传播，解决了传统电话质检系统无法匹配语义层面软性指标等问题。

本发明的技术方案是这样实现的：

一种ASR和NLU联合训练的电话客服质量评分技术，包括：

获取录音数据；

根据所述录音数据，基于说话人身份，获取与说话人身份相对应的拼接向量；

对所述拼接向量进行自然语言理解训练，获取语音-语义向量V；

基于预设的N个任务场景，对语音-语义向量V做分类任务，获取每个任务场景类别的置信度C；N≥1；

对语音-语义向量V进行编码得到语义向量P，将语义向量P标准化后，输入到一个全连接层里,经全连接层整合后与置信度C相乘，获得评分。

进一步地，所述获取与说话人身份相对应的拼接向量包括：

将录音数据切分成n条语音；n≥2；

基于说话人身份，将n条所述语音分类标记；

将分类标记后的n条所述语音经自动语音识别训练，获取n个高维向量；

基于说话人身份分类，将n个高维向量按类别拼接，获取拼接向量。

进一步地，所述将n条所述语音分类标记包括：

将n条所述语音分类标记为客户语音和客服语音。

进一步地，获取n个高维向量的方法包括：

将n条分类标记后的所述语音输入到wave2vec模型，得到n个高维向量。

进一步地，所述基于说话人身份分类，将n高维向量按类别拼接，获取拼接向量包括：

基于说话人身份，将n个高维向量分为x个客户语音向量和y个客服语音向量；x+y＝n，x≥1，y≥1；

将全部所述客户语音向量和全部所述客服语音向量拼接，得到的拼接向量V1；

将全部所述客户语音向量拼接，得到的拼接向量V2；

将全部所述客服语音向量拼接，得到的拼接向量V3。

进一步地，所述对所述拼接向量进行自然语言理解训练，得到语音-语义向量V，包括：

将所述拼接向量V1、所述拼接向量V2和所述拼接向量V3分别输入到双层的Transformer Block里，进行自注意力的编码，经过后接全连接层统一输出维度，拼接后得到一个语音-语义矩阵M；

对所述语音-语音矩阵M进行卷积神经网络、池化以及dropout、全连接得到语音-语义向量V。

进一步地，所述基于预设的N个任务场景，对语音-语义向量V做分类任务，包括：

将语音-语义向量V输入到electra1分类模块做分类任务。

进一步地，所述对语音-语义向量V进行编码得到语义向量P，包括：

将语音-语义向量V输入到electra2编码模块，编码后，得到语义向量P。

一种ASR和NLU联合训练的电话客服质量评分系统，包括：

获取模块，用于获取录音数据，基于说话人身份，将录音数据切分成n条语音，并基于说话人身份，将n条所述语音分类标记；

自动语音识别模块，用于将分类标记后的语音进行语音识别，获取n个高维向量；

自然语言理解模块，用于将n个高维向量按类别拼接，获取拼接向量，并对拼接向量进行自然语言理解训练，得到语音-语义向量V；其中所述类别为基于说话人身份分类；

评分模块，用于根据预设的N个任务场景，对语音-语义向量V做分类任务，获得每个任务场景类别的置信度C；对语音-语义向量V进行编码得到语义向量P,将语义向量P标准化后，经全连接层整合后与置信度C相乘，获得评分。

进一步地，所述自动语音识别模块包括wave2vec模型，用于将所述语音转换为高维向量。

进一步地，所述评分模块包括：

electra1分类模块，用于根据预设的N个任务场景对语音-语义向量V做分类任务，输出每个对话场景类别的置信度C；

electra2编码模块，用于对语音-语义向量V编码，得到语义向量P。

本发明的实施例一的一种ASR和NLU联合训练的电话客服质量评分方法，相比较现有技术，具有如下优点：

本发明通过把ASR和NLU在模型层面做联合训练。分析电话录音文本，透过自然语言理解，识别出对话的场景意图，和该场景下客服话术的专业程度从而进行评分。解决了传统电话质检系统无法匹配语义层面软性指标的问题。同时，联合训练避免了传电话质检系统的pipeline形式造成的误差传播。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本发明的ASR和NLU联合训练的电话客服质量评分方法的流程示意图；

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。

实施例一

参照图1，本实施例提供了一种ASR和NLU联合训练的电话客服质量评分方法，包括：

获取录音数据，基于说话人身份，将录音数据切分成n条语音；n≥2；

基于说话人身份，将n条所述语音分类标记；

基于说话人身份分类，将n个高维向量按类别拼接，获取拼接向量；

将拼接向量经过自然语言理解训练，得到语音-语义向量V；

基于预设的N个任务场景，对语音-语义向量V做分类任务，获得每个任务场景类别的置信度C；N≥1；

在电话客服服务中，客服和客户之间的所有对话都是基于一些特定的任务场景，协助帮助客户解决一些特定的问题，因此在不同的任务场景下，一段对话的语音和语义，其置信度也不相同；因此，本公开根据常见对话场景和特定对话场景等，预先设置了N个任务场景，通过分类任务获取一段对话在这N个任务场景下的置信度。

作为上述实施方式的可选方案，所述基于预设的N个任务场景，对所述语音-语义向量V做分类任务，包括：

将所述语音-语义向量V输入到electra1分类模块做分类任务。

作为上述实施方式的可选方案，所述对所述语音-语义向量V进行编码得到语义向量P，包括：

将所述语音-语义向量V输入到electra2编码模块，编码后，得到语义向量P。

本实施例中，在获取录音数据后，通过对语音的识别，可以将将归属于不同说话人的语音进行分离，切分成n段语音，每一段语言仅包括一个说话人，相邻的语音说话人会切换。

作为上述实施方式的可选方案，所述将n条所述语音分类标记包括：

将n条所述语音分类标记为客户语音和客服语音。

其中，说话人是指录音数据中语音的发出人，在电话客服中，一般说话人包括客服和客人两个身份。

本实施例中，可按照录音时间顺序对语音进行顺序分割，并对每段语音打上说话人标记，例如：把整段语音分割并标记为：客服语音1、客户语音1、客服语音2、客户语音2……；

本实例中，在对录音数据分割并标记后，得到n条语音，通过自动语音识别训练获得n个高维向量；

其中，基于说话人身份分类，将n个高维向量按类别拼接，获取拼接向量：在电话客服应用场景中，即将n个高维向量分为x个客户语音向量和y个客服语音向量；x+y＝n，其中x+y＝n，x≥1，y≥1；

将全部所述客户语音向量拼接，得到的拼接向量V2；

将全部所述客服语音向量拼接，得到的拼接向量V3。

作为上述实施方式的可选方案，获取n个高维向量的方法包括：

作为上述实施方式的可选方案，所述将拼接向量经过自然语言理解训练，得到语音-语义向量V，包括：

本实施例通过向量评价获得所述拼接向量V1、所述拼接向量V2和所述拼接向量V3，再进行注意力编码，能够得到信息量最全面的所述语音-语义矩阵M，不仅包含了整段录音的语义编码信息，还包含了不同说话人的录音的语义编码信息，能够更有效的保留语音的原始特征，有利于对录音数据内容进行语义分析。

实施例二

一种ASR和NLU联合训练的电话客服质量评分系统，包括：

作为上述实施方式的可选方案，所述自动语音识别模块包括wave2vec模型，用于将所述语音转换为高维向量。

作为上述实施方式的可选方案，所述评分模块包括：

本实施例的原理和效果与实施例1中的一致，本实施例不再重复描述。

领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定。对于所属领域的技术人员而言，在上述发明的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本发明的范围内。

Claims

1.一种ASR和NLU联合训练的电话客服质量评分技术，其特征在于，包括：

获取录音数据；

2.如权利要求1所述的电话客服质量评分技术，其特征在于，

所述获取与说话人身份相对应的拼接向量包括：

将录音数据切分成n条语音；n≥2；

基于说话人身份，将n条所述语音分类标记；

3.如权利要求2所述的电话客服质量评分技术，其特征在于，

所述将n条所述语音分类标记包括：

将n条所述语音分类标记为客户语音和客服语音。

4.如权利要求2所述的电话客服质量评分技术，其特征在于，

获取n个高维向量的方法包括：

5.如权利要求2所述的电话客服质量评分技术，其特征在于，

所述基于说话人身份分类，将n高维向量按类别拼接，获取拼接向量包括：

将全部所述客户语音向量拼接，得到的拼接向量V2；

将全部所述客服语音向量拼接，得到的拼接向量V3。

6.如权利要求5所述的电话客服质量评分技术，其特征在于，

所述对所述拼接向量进行自然语言理解训练，得到语音-语义向量V，包括：

对所述语音-语义矩阵M进行卷积神经网络、池化以及dropout、全连接得到语音-语义向量V。

7.如权利要求1-6任一项所述的电话客服质量评分技术，其特征在于，

所述基于预设的N个任务场景，对所述语音-语义向量V做分类任务，包括：

将所述语音-语义向量V输入到electra1分类模块做分类任务。

8.如权利要求1-6任一项所述的电话客服质量评分技术，其特征在于，

所述对语音-语义向量V进行编码得到语义向量P，包括：

9.一种ASR和NLU联合训练的电话客服质量评分系统，其特征在于，包括：

10.如权利要求9所述的系统，其特征在于，所述自动语音识别模块包括wave2vec模型，用于将所述语音转换为高维向量。

11.如权利要求9所述的系统，其特征在于，所述评分模块包括：