CN110634471A

CN110634471A - 一种语音质检方法、装置、电子设备和存储介质

Info

Publication number: CN110634471A
Application number: CN201910895428.XA
Authority: CN
Inventors: 聂镭; 邹茂泰; 聂颖
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2019-09-21
Filing date: 2019-09-21
Publication date: 2019-12-31
Anticipated expiration: 2039-09-21
Also published as: CN110634471B

Abstract

本发明公开了语音质检方法，通过本发明，通过获取待质检音频，对所述待质检音频进行语音识别，生成待质检文档；从所述待质检音频对应的话术脚本中提取与特定质检规则对应的若干文字作为第一匹配模版；对所述第一匹配模版的文字进行随机模糊，得到若干第二匹配模板，根据所述第二匹配模板得到第三匹配模板；使用所述第三匹配模板对所述待质检文档进行正则匹配，得到质检结果。可以改善现有技术中对语音识别准确率低的音频进行质检效果差的问题。

Description

一种语音质检方法、装置、电子设备和存储介质

技术领域

本发明涉及语音处理技术领域，特别是一种语音质检方法、装置、电子设备和存储介质。

背景技术

为提升服务质量和业绩，银行、保险、电信等行业的呼叫中心或者客服中心会对坐席或者客户经理的客服工作、营销工作等业务场景的对话语音录音进行质检，以检验坐席或者客户经理的讲话内容和方式是否符合单位规定和要求。质检是指对保险行业的客服人员与客户的交流语音进行检查，并与给定话术脚本进行比对，判断是否有错说、漏说等违规现象。话术脚本一般就是固定的文本。通常，对给定的话术脚本中包含有多个质检项，因此要按照各个质检项一一检查。

当前比较热门的语音质检方法是基于人工智能技术的语音质检系统，其先经过语音识别将语音转换为文本，然后基于给定的话术脚本内容，进行文本匹配，从而得出是否合规的结论。这种质检方法的关键在于语音识别的效果情况，在语音识别的结果比较清晰，识别出的文字错误率低的情况下，能很好的针对话术脚本进行质检，然而，在现实场景下，语音识别的效果往往不太如意，识别错误率较高。在这种情况下，如何对语音识别准确率低的音频进行质检就变得极具挑战性。

发明内容

本发明实施例提出了一种语音质检方法、装置、电子设备和存储介质，以至少改善现有技术中对语音识别准确率低的音频进行质检效果差的问题。

根据本发明的一个实施例，提供了一种语音质检方法，包括：

S1，获取待质检音频，对所述待质检音频进行语音识别，生成待质检文档；

S2，从所述待质检音频对应的话术脚本中提取与特定质检规则对应的若干文字作为第一匹配模版；

S3，对所述第一匹配模版的文字进行随机模糊，得到若干第二匹配模板，根据所述第二匹配模板得到第三匹配模板；

S4，使用所述第三匹配模板对所述待质检文档进行正则匹配，得到质检结果。

进一步地，步骤S3对所述第一匹配模版的文字进行随机模糊，得到若干第二匹配模板，根据所述第二匹配模板得到第三匹配模板包括：

S31，使用预先标注好的标注数据集分别对所述第二匹配模板进行质检准确率验证，分别得到所述第二匹配模板的质检准确率，其中，所述标注数据集的标注数据为数据对，包括质检文本和质检结果；

S32，选取质检准确率最高的所述第二匹配模板作为所述第三匹配模板；或者，将所述第二匹配模板按质检准确率从高到低进行排序，选取排序的前若干个所述第二匹配模板组成匹配模板组，将所述匹配模板组作为所述第三匹配模板。

进一步地，当所述第三匹配模板为所述匹配模板组时，所述步骤S4包括：

使用所述匹配模板组中的全部所述第二匹配模板分别对所述待质检文档进行正则匹配，分别得到各个所述第二匹配模板的质检结果，当其中一个质检结果为通过时，则所述待质检音频的质检结果为通过。

进一步地，在步骤S3中对所述第一匹配模版的文字进行随机模糊包括：

S3-1，根据预先准备的测试数据，获取步骤S1中语音识别的语音识别模型的识别准确率W，其中，所述测试数据包括质检音频及对应的文字；

S3-2，根据所述识别准确率W和所述第一匹配模版的文字数量X，确定随机模糊的文字数量Y。

进一步地，所述随机模糊的文字数量Y的具体计算方式为：Y=ceil（（1- W）*X），其中，ceil（）为向上取整函数。

根据本发明的又一个实施例，还提供了一种语音处理装置，包括：

质检文档生成模块，用于获取待质检音频，对所述待质检音频进行语音识别，生成待质检文档；

匹配模板生成模块，用于从所述待质检音频对应的话术脚本中提取与特定质检规则对应的若干文字作为第一匹配模版；

匹配模板转换模块，用于对所述第一匹配模版的文字进行随机模糊，得到若干第二匹配模板，根据所述第二匹配模板得到第三匹配模板；

质检结果生成模块，用于使用所述第三匹配模板对所述待质检文档进行正则匹配，得到质检结果。

进一步地，所述匹配模板转换模块包括：

准确率验证单元，用于使用预先标注好的标注数据集分别对所述第二匹配模板进行质检准确率验证，分别得到所述第二匹配模板的质检准确率，其中，所述标注数据集的标注数据为数据对，包括质检文本和质检结果；

匹配模板转换单元，用于选取质检准确率最高的所述第二匹配模板作为所述第三匹配模板；或者，用于将所述第二匹配模板按质检准确率从高到低进行排序，选取排序的前若干个所述第二匹配模板组成匹配模板组，将所述匹配模板组作为所述第三匹配模板。

进一步地，当所述第三匹配模板为所述匹配模板组时，所述质检结果生成模块用于：

根据本发明的又一个实施例，还提供了一种电子设备，包括存储器和处理器，其中，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。

根据本发明的又一个实施例，还提供了一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述上述任一项中所述的方法。

通过本发明，通过获取待质检音频，对所述待质检音频进行语音识别，生成待质检文档；从所述待质检音频对应的话术脚本中提取与特定质检规则对应的若干文字作为第一匹配模版；对所述第一匹配模版的文字进行随机模糊，得到若干第二匹配模板，根据所述第二匹配模板得到第三匹配模板；使用所述第三匹配模板对所述待质检文档进行正则匹配，得到质检结果。可以改善现有技术中对语音识别准确率低的音频进行质检效果差的问题。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点更为清楚，在附图中：

图1是本发明一个实施例的语音质检方法的终端的硬件结构框图；

图2是本发明一个实施例提供的一种语音质检方法的流程图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下方对本发明的细节描述中，详尽描述了一些特定的细节部分，为了避免混淆本发明的实质，公知的方法、过程、流程、元件并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书的“包括”、“包含”等类似词语应当解释为包含的含义而还是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明中的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种语音质检方法的终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的语音的处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

图2是本发明实施例提供的一种语音质检方法的流程图。如图2所示，本实施例中提供的一种语音质检方法，包括以下步骤：

本发明通过获取待质检音频，对所述待质检音频进行语音识别，生成待质检文档；从所述待质检音频对应的话术脚本中提取与特定质检规则对应的若干文字作为第一匹配模版；对所述第一匹配模版的文字进行随机模糊，得到若干第二匹配模板，根据所述第二匹配模板得到第三匹配模板；使用所述第三匹配模板对所述待质检文档进行正则匹配，得到质检结果。可以改善现有技术中对语音识别准确率低的音频进行质检效果差的问题。

下面将结合具体的实施方式对各个步骤进行详细的说明。

现有语音识别技术，有非常多的商用接口，如科大讯飞、阿里巴巴、腾讯、百度等均提供了相关接口，可将语音直接转成文字。此外，也可以使用非商用的语音识别方式，如通过自行构建并经过训练的语音识别模型来实现待质检语音的文字识别。首先，获取待质检的音频，将其输入至相关语音识别的模型时行语音识别，即可得到待质检文档。

坐席与客户的通话录音一般是关于特定的业务，而特定的业务都会对应的话术脚本，坐席的通过过程需要按照话术脚本的要求与客户进行沟通。因此，每一个通话录音是对应有固定的话术脚本的，也即这个通话录音对应的话术脚本是这个通话录音的质检标准和依据。而在一个话术脚本中会有多个的话术要求，即一个话术脚本中会包含多个质检规则。在本发明实施例中，从所述待质检音频对应的话术脚本中提取与特定质检规则对应的若干文字作为第一匹配模版，如话术脚本内容为“单次最高补偿四万五”，则正则匹配的模板为“单次最高补偿四万五”。需要说明的是，在现有技术中时，纯粹的使用这种直接将话术脚本的相关文字对待质检文档进行正则匹配时，当语音识别不准的情况下，比如待质检文档中对应的“单次最高补偿四万五”被错误地识别成“单词最高补偿四万五”，此时就会无法匹配导致质检结果错误。

以第一匹配模版为基础模板，随机模糊其中的字段，生成新的匹配模板。例如，在上述例子中，“单词最高补偿四万五”即为第一匹配模板假如随机模糊字段的字数为2，则一共有36种情况，即得到了随机模糊2个字数的36个第二匹配模板。然后再从36个的第二匹配模板中进一步得到第三匹配模板。

在本发明的一些实施例中，步骤S3具体包括：

首先，计算出全部的第二匹配模板的质检准确率，具体方法为：预先标注好，标注数据是由真实的坐席通话录音经过语音识别后得到的质检文本，并且由人工按照话术脚本的质检规则进行质检，标注出质检结果，标注数据为数据对的形式，包括质检文本和质检结果。

然后，使用全部的第二匹配模板逐一对标注数据的质检文本进行正则匹配，得到对应的质检结果，然后与标注数据标注的质检结果比对，从而可以得到该第二匹配模板的质检结果的是否准确。由此，对全部的第二匹配模板进行验证，并通过统计得到各个第二匹配模板的质检准确率。下面举例随机模糊的两个字的其中一种情况进行说明，例如随机模糊的两个字为“次”和“偿”，得到了第二匹配模板为“单*最高补*四万五”，而标注数据的文本为“单次呢最高补助四万五”，标注数据对应的结果为质检通过，其与标注数据的质检结果是一致的，说明该第二匹配模板质检正确。用该第二匹配模板对标注数据集中所有的标注数据进行质检，从而可以计算出该第二匹配模板的质检准确率。

选取质检准确率最高的所述第二匹配模板作为所述第三匹配模板。例如，在上述例子中，“单词最高补偿四万五”经过随机模糊2个字数得到36个第二匹配模板，然后分别计算这36个的第二匹配模板的质检准确率，选择预测准确率最高的那个作为最终的匹配模板。

在本发明的另外一些实施中，可以将上述第二匹配模板按质检准确率从高到低进行排序，选取排序的前若干个所述第二匹配模板组成匹配模板组，将所述匹配模板组作为所述第三匹配模板。例如，可以选取排序前3个所述第二匹配模板形成一个匹配模板组形成所述的第三匹配模板。

在本发明实施中，当所述第三匹配模板为所述匹配模板组时，使用所述匹配模板组中的全部所述第二匹配模板分别对所述待质检文档进行正则匹配，分别得到各个所述第二匹配模板的质检结果，只要其中一个质检结果为通过，则所述待质检音频的质检结果为通过。通过大量的实验数据验证，以形成匹配模板组的方式，可以使得质检结果在很大程度上提高准确率，因为其对应于语音识别中可能出现错误的多种情况，使得质检结果对于语音识别结果具有更好的容错性。

在本发明的一些实施中，在步骤S3中对所述第一匹配模版的文字进行随机模糊包括：

首先，根据步骤S1中所使用的语音识别方式的识别准确率W。通常情况下，商用的语音识别接口，其会提供声称的语音识别准确率，但通常其是针对日常生活对话语音的语音识别率。在本发明实施中，需要针对需要进行质检的话语领域测定该语音识别方法的语音识别率。具体方法为:

先准备一定量（例如20小时）的测试数据，测试数据包含质检语音及语音对应的文字，测试数据是事先由人工进行标注的数据。将测试数据的质检语音输入上述步骤S1中使用的语音识别模型中，得到语音识别后的文字，并与测试数据中的语音标注的文字进行比对，即可计算出该语音识别模型的识别准确率W。

然后，根据所述识别准确率W和所述第一匹配模版的文字数量X，确定随机模糊的文字数量Y。例如，在上述例子中，第一匹配模板为“单次最高补偿四万五”，即质检匹配模板的字数X=9。此外，通过上述方法可以计算得出的语音识别模型的识别准确率Y=81%。最后，通过以下计算方法得到随机模糊字段的字数，即Y=ceil（（1- W）*X），其中ceil（）为向上取整函数。即，该随机模糊字段的字数Y =ceil（（1- 81%）*9）=2，即随机模糊字段的字数为两个字。

本发明实施通过上述方式确定随机模糊字段的字数，由于其与语音识别模型的错误识别率相对应，因而这种方式可以在不改变质检匹配模板本身的质检语义的基础上，最大程度地提高质检准确率。

利用步骤S3中得到的第三匹配模板对步骤S1中得到的待质检文档进行预测，从而得出质检结果。

本发明实施例通过将随机模糊字段后的匹配模板代替了原始的直接从话术脚本中提取的基础匹配模板，由于进行了模糊字段处理，因此可以在一定程度上解决语音识别模型的识别错误导致的质检结果出错的问题，进而较好的提升了质检准确率。此外，由于其模糊的字段的文字数量是通过大量的标注数据进行统计验证的，因此其是与实际运用的质检话语领域具有适配性，因此可以保证所选择的随机模糊字段后的匹配模板能够有效地提高质检准确率。

本发明的实施例还提供了一种语音质检装置，包括：

进一步地，所述匹配模板转换模块包括：

计算单元，用于根据预先准备的测试数据，获取步骤S1中语音识别的语音识别模型的识别准确率W，其中，所述测试数据包括质检音频及对应的文字；

确定单元，用于根据所述识别准确率W和所述第一匹配模版的文字数量X，确定随机模糊的文字数量Y。

本发明的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的程序代码，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音质检方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤S3对所述第一匹配模版的文字进行随机模糊，得到若干第二匹配模板，根据所述第二匹配模板得到第三匹配模板包括：

3.根据权利要求2所述的方法，其特征在于，当所述第三匹配模板为所述匹配模板组时，所述步骤S4包括：

4.根据权利要求1-3所述的方法，其特征在于，在步骤S3中对所述第一匹配模版的文字进行随机模糊包括：

5.根据权利要求4所述的方法，其特征在于，所述随机模糊的文字数量Y的具体计算方式为：Y=ceil（（1- W）*X），其中，ceil（）为向上取整函数。

6.一种语音质检装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述匹配模板转换模块包括：

8.根据权利要求7所述的装置，其特征在于，当所述第三匹配模板为所述匹配模板组时，所述质检结果生成模块用于：

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。