CN114999493A

CN114999493A - 一种智能语音质检方法及电子设备

Info

Publication number: CN114999493A
Application number: CN202210493333.7A
Authority: CN
Inventors: 刘家恺; 周慧荣
Original assignee: Hebei Electric Power Engineering Supervision Co ltd; State Grid Corp of China SGCC; Construction Branch of State Grid Hebei Electric Power Co Ltd
Current assignee: Hebei Electric Power Engineering Supervision Co ltd; State Grid Corp of China SGCC; Construction Branch of State Grid Hebei Electric Power Co Ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-09-02

Abstract

本发明涉及语音识别技术领域，具体涉及一种智能语音质检方法及电子设备。包括获取待识别的样本语音信息；根据第一分类算法对样本语音信息进行处理，生成样本语音信息的置信度；当样本语音信息的置信度大于第一阈值且小于或等于第二阈值时，根据第二算法再次对样本语音信息进行处理，生成样本语音信息的质检信息；本申请通过计算精度较低的第一分类算法，对样本语音信息进行快速筛选，再通过计算精度更高的第二算法对存疑的样本语音信息进行最终的判断识别。由此，既可以提高样本语音信息的判断精度，同时还可以提高判断的效率。另外，第一分类算法及第二算法的计算速度更快，可以对所有的待识别的样本语音信进行判断，不存在漏检的情况。

Description

一种智能语音质检方法及电子设备

技术领域

本发明涉及语音识别技术领域，具体涉及一种智能语音质检方法及电子设备。

背景技术

在现有的一些行业中，需要专业的客服人员与客户进行语音沟通，来为客户进行专业的售前、售中或售后服务，如提供咨询服务、产品的质量保修服务、产品的使用反馈等。为了保证客服的服务质量以及保证客服的服务态度友好，在与客户进行语音沟通的过程中，不允许客服人员使用禁用词语与客户进行沟通。

现有技术中是通过人工抽检的方式对客服沟通用语是否合格进行检测，但是人工抽检语音的方式效率较低并且存在漏检的情况。

发明内容

有鉴于此，本申请提供了一种智能语音质检方法及电子设备，解决了现有技术中人工抽检语音的方式效率较低并且存在漏检的情况的技术问题。

根据本申请的一个方面，提供了一种智能语音质检方法，包括：获取待识别的样本语音信息；根据第一分类算法对所述样本语音信息进行处理，生成所述样本语音信息的置信度；当所述样本语音信息的置信度大于第一阈值且小于或等于第二阈值时，根据第二算法再次对所述样本语音信息进行处理，生成所述样本语音信息的质检信息；其中，所述第二算法的计算精度大于所述第一算法的计算精度。

在本申请一种可能的实现方式中，当所述样本语音信息的置信度大于第一阈值且小于或等于第二阈值时，根据第二算法生成所述样本语音信息的质检信息包括：

将所述样本语音信息转化为第一样本文本信息；

根据分词处理将所述第一样本文本信息进行拆分，生成多个样本词汇；

将多个所述样本词汇分别与禁语词汇库中的词汇进行匹配；

当至少一个所述样本词汇与所述禁语词汇库中的词汇匹配成功时，生成样本不合格信息。

在本申请一种可能的实现方式中，所述智能语音质检方法还包括：

当所述样本语音信息的置信度大于第二阈值时，生成所述样本语音信息的样本不合格信息。

当所述样本语音信息的置信度小于或等于第一阈值时，生成所述样本语音信息的样本合格信息。

在本申请一种可能的实现方式中，根据第一分类算法对样本语音信息进行处理，生成样本语音信息的置信度包括：

对所述待识别的样本语音信息进行特征提取预处理，生成第一初始样本语音信息；

采用vgg16模型对所述第一初始样本语音信息进行初步分类处理，生成初始分类结果；

采用softmax分类器对所述初始分类结果进行再次分类处理，生成所述初始分类结果的置信度；

所述初始分类结果的置信度为所述样本语音信息的置信度。

在本申请一种可能的实现方式中，对所述待识别的样本语音信息进行特征提取预处理，生成第一初始样本语音信息包括：

提取所述待识别的样本语音信息的梅尔倒谱系数，生成第一初始样本语音信息。

在本申请一种可能的实现方式中，采用vgg16模型对所述第一初始样本语音信息进行初步分类处理，生成初始分类结果包括：

构建初始vgg16模型；

获取语音训练样本；

通过多个所述语音训练样本对所述初始vgg16模型进行训练，生成所述vgg16模型；

将所述第一初始样本语音信息输入所述vgg16模型中，生成所述初始分类结果。

根据文本转化模型对待识别的所述样本语音信息进行文本转化处理，生成所述样本语音信息的第二样本文本信息；

根据语义分析模型对所述第二样本文本信息进行处理，生成所述第二样本文本信息的置信度；

其中，所述第二样本文本信息的置信度为所述样本语音信息的置信度。

在本申请一种可能的实现方式中，所述文本转化模型为LSTM模型，所述语义分析模型为BM25语义分析模型。

根据本申请的第二个方面，提供了一种智能语音质检电子设备，包括：处理器；以及用于存储所述处理器可执行信息的存储器；其中，所述处理器用于执行上述任一项所述的智能语音质检方法。

本申通过第一分类算法快速计算出待识别的样本语音信息的置信度，通过置信度来对待识别的样本语音信息进行初次判断，当样本语音信息的置信度大于第一阈值且小于或等于第二阈值时，再通过计算精度更高第二算法对待识别的样本语音信息进行计算，通过第二算法的计算结果来判断待识别的样本语音信息是否合格。由此，通过计算精度较低的第一分类算法，来对待识别的样本语音信息进行快速筛选，再将置信度大于第一阈值且小于或等于第二阈值范围内的待识别的样本语音信息，通过计算精度更高的第二算法对存疑的样本语音信息进行最终的判断识别。由此，既可以提高对待识别的样本语音信息是否合格的判断精度，同时还可以提高判断的效率。

另外，第一分类算法及第二算法的计算速度更快，可以对所有的待识别的样本语音信进行判断，不存在漏检的情况，由此，进一步提高对待识别的样本语音信息的判断结果的准确性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1所示为本申请一实施例提供的智能语音质检方法的流程示意图。

图2所示为本申请另一实施例提供的智能语音质检方法的流程示意图。

图3所示为本申请另一实施例提供的智能语音质检方法的流程示意图。

图4所示为本申请另一实施例提供的智能语音质检方法的流程示意图。

图5所示为本申请另一实施例提供的智能语音质检方法的流程示意图。

图6所示为本申请另一实施例提供的智能语音质检方法的流程示意图。

图7所示为本申请另一实施例提供的智能语音质检方法的流程示意图。

图8所示为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后、顶、底……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在简单介绍了本申请的实施原理之后，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

根据本申请的一个方面，如图1所示，提供了一种智能语音质检方法，应用于语音通信的合规检测场景中，包括：

步骤S10：获取待识别的样本语音信息；通过话筒等现有的收音设备进行样本语音信息的采集获取。

步骤S20：根据第一分类算法对样本语音信息进行处理，生成样本语音信息的置信度；通过现有的第一分类算法对样本语音信息进行快速的计算处理，以得到样本语音信息的置信度。置信度用于表示样本语音信息合规程度的高低。

步骤S30：当样本语音信息的置信度大于第一阈值且小于或等于第二阈值时，根据第二算法再次对样本语音信息进行处理，生成样本语音信息的质检信息；其中，第二算法的计算精度大于第一算法的计算精度。第一阈值与第二阈值可以根据实际使用场景进行确定，当样本语音信息的置信度大于第一阈值且小于或等于第二阈值时，则表示样本语音信息存在不合规的风险较高，需要通过第二算法对样本语音信息进行进一步的计算判断，由于第二算法的计算精度要高于第一分类算法的精度，由此，可以直接以第二算法的计算结果来作为判断样本语音信息是否合规的最终结果。

本实施例，通过计算速度更高的第一分类算法来快速对所有的样本语音信息进行置信度计算，进而快速筛选出不合规的风险较高的样本语音信息，通常不合规的风险较高的样本语音信息的数量极少，所以通过第一分类算法可以提高对样本语音信息检测的速度。同时，再通过第二算法对极少数量的不合规风险较高的样本语音信息进行判断，由于第二算法的计算精度更高，所以可以保证对样本语音信息的识别的精度。

在本申请一种可能的实施例中，如图2所示，当步骤S30：样本语音信息的置信度大于第一阈值且小于或等于第二阈值时，根据第二算法生成样本语音信息的质检信息包括：

步骤S301：将样本语音信息转化为第一样本文本信息；通过现有的语音转文本的技术，如：LSTM模型，将样本语音信息转化为第一样本文本信息。LSTM模型是RNN模型的一种版本，它的特点是具有时间循环结构，可以很好地刻画具有时空关联的序列数据，包括时间序列数据、如：气温、车流量、销量等，文本、事件。如：购物清单、个人行为等等。也可以简单理解为：LSTM模型是一种基于神经网络的自回归模型。常用在自然语言处理领域。

步骤S302：根据分词处理将第一样本文本信息进行拆分，生成多个样本词汇；根据现有的分词处理技术对第一样本文本信息进行拆分。

步骤S303：将多个样本词汇分别与禁语词汇库中的词汇进行匹配；

具体的，需要预先在禁语词汇库中存入被认为是不合规的词汇或语句，以方便后期与样本词汇进行匹配。

步骤S304：当至少一个样本词汇与禁语词汇库中的词汇匹配成功时，生成样本不合格信息。当样本词汇与禁语词汇库中的词汇一样时，则表示匹配成功，此时生成用于表示样本语音信息不合规的样本不合格信息。

在本申请一种可能的实施例中，如图3所示，智能语音质检方法还包括：

步骤S31：当样本语音信息的置信度大于第二阈值时，生成样本语音信息的样本不合格信息。当通过第一分类算法初筛时，样本语音信息的置信度就大于第二阈值，则直接判定为样本语音信息不合规。

在本申请一种可能的实施例中，如图4所示，智能语音质检方法还包括：

步骤S32：当样本语音信息的置信度小于或等于第一阈值时，生成样本语音信息的样本合格信息。当通过第一分类算法初筛时，样本语音信息的置信度就小于第一阈值，则直接判定为样本语音信息合规。

在本申请一种可能的实施例中，如图5所示，步骤S20：根据第一分类算法对样本语音信息进行处理，生成样本语音信息的置信度包括：

步骤S201：对待识别的样本语音信息进行特征提取预处理，生成第一初始样本语音信息；

步骤S202：采用vgg16模型对第一初始样本语音信息进行计算，生成初始分类结果；vgg16模型为深度学习模型，通过大量的数据训练后，可以准确预测第一初始样本语音信息对应的初始分类结果。

步骤S203：采用softmax分类器对初始分类结果进行再次分类处理，生成初始分类结果的置信度；其中，初始分类结果的置信度为样本语音信息的置信度。

可选的，步骤S201：对待识别的样本语音信息进行特征提取预处理，生成第一初始样本语音信息包括：

步骤S2011：提取待识别的样本语音信息的梅尔倒谱系数，生成第一初始样本语音信息。通过提取待识别的样本语音信息的梅尔倒谱系数来对待识别的样本语音信息进行特征处理，待识别的样本语音信息进行特征提取预处理可以减小后续的vgg16模型的计算量，有利于提高计算速度，同时，通过提取待识别的样本语音信息的梅尔倒谱系数也可以去除噪音信息，可以提高计算精度。

在本申请一种可能的实施例中，如图6所示，步骤S202：采用vgg16模型对第一初始样本语音信息进行初步分类处理，生成初始分类结果包括：

步骤S2022：构建初始vgg16模型；

步骤S2023：获取语音训练样本；获取的语音训练样本包括数据样本以及该数据样本所对应的分类结果标签。该语音训练样本在对初始vgg16模型进行训练之间，也可以采用步骤S2011中的方法对语音训练样本进行特征处理。

步骤S2024：通过多个语音训练样本对初始vgg16模型进行训练，生成vgg16模型；

步骤S2025：将第一初始样本语音信息输入vgg16模型中，生成初始分类结果。

在本申请一种可能的实施例中，如图7所示，步骤S20：根据第一分类算法对样本语音信息进行处理，生成样本语音信息的置信度包括：

步骤S204：根据文本转化模型对待识别的样本语音信息进行文本转化处理，生成样本语音信息的第二样本文本信息；可选的，文本转化模型为LSTM模型。通过将语音转化为文本，可以使用更多的现有的计算模型得到置信度。由此，可以降低计算置信度时的算法设计难度，提高适用性。

步骤S205：根据语义分析模型对第二样本文本信息进行处理，生成第二样本文本信息的置信度；可选的，语义分析模型为BM25语义分析模型。

其中，第二样本文本信息的置信度为样本语音信息的置信度。

根据本申请的第二个方面，如图8所示，提供了一种智能语音质检电子设备，包括：处理器601；以及用于存储处理器601可执行信息的存储器602；其中，处理器601用于执行上述的智能语音质检方法。

下面，参考图8来描述根据本申请实施例的电子设备。图8所示为本申请一实施例提供的电子设备的结构示意图。

如图8所示，电子设备600包括一个或多个处理器601和存储器602。

处理器601可以是中央处理单元(CPU)或者具有数据处理能力和/或信息执行能力的其他形式的处理单元，并且可以控制电子设备600中的其他组件以执行期望的功能。

存储器601可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序信息，处理器601可以运行程序信息，以实现上文的本申请的各个实施例的智能语音质检方法或者其他期望的功能。

在一个示例中，电子设备600还可以包括：输入装置603和输出装置604，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置603可以包括例如键盘、鼠标等等。

该输出装置604可以向外部输出各种信息。该输出装置604可以包括例如显示器、通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备600中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备600还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序信息，计算机程序信息在被处理器运行时使得处理器执行本说明书中描述的根据本申请各种实施例的智能语音质检方法中的步骤。

计算机程序产品可以以一种智能语音质检方法或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序信息，计算机程序信息在被处理器运行时使得处理器执行本说明书根据本申请各种实施例的智能语音质检方法中的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此发明的原理和新颖的特征一致的最宽范围。

以上仅为本申请创造的较佳实施例而已，并不用以限制本申请创造，凡在本申请创造的精神和原则之内，所作的任何修改、等同替换等，均应包含在本申请创造的保护范围之内。

Claims

1.一种智能语音质检方法，其特征在于，包括：

获取待识别的样本语音信息；

根据第一分类算法对所述样本语音信息进行处理，生成所述样本语音信息的置信度；

当所述样本语音信息的置信度大于第一阈值且小于或等于第二阈值时，根据第二算法再次对所述样本语音信息进行处理，生成所述样本语音信息的质检信息；

其中，所述第二算法的计算精度大于所述第一算法的计算精度。

2.根据权利要求1所述的一种智能语音质检方法，其特征在于，当所述样本语音信息的置信度大于第一阈值且小于或等于第二阈值时，根据第二算法生成所述样本语音信息的质检信息包括：

将所述样本语音信息转化为第一样本文本信息；

将多个所述样本词汇分别与禁语词汇库中的词汇进行匹配；

3.根据权利要求1所述的一种智能语音质检方法，其特征在于，所述智能语音质检方法还包括：

4.根据权利要求1所述的一种智能语音质检方法，其特征在于，所述智能语音质检方法还包括：

5.根据权利要求1所述的一种智能语音质检方法，其特征在于，根据第一分类算法对样本语音信息进行处理，生成样本语音信息的置信度包括：

所述初始分类结果的置信度为所述样本语音信息的置信度。

6.根据权利要求5所述的一种智能语音质检方法，其特征在于，对所述待识别的样本语音信息进行特征提取预处理，生成第一初始样本语音信息包括：

7.根据权利要求5所述的一种智能语音质检方法，其特征在于，采用vgg16模型对所述第一初始样本语音信息进行初步分类处理，生成初始分类结果包括：

构建初始vgg16模型；

获取语音训练样本；

8.根据权利要求1所述的一种智能语音质检方法，其特征在于，根据第一分类算法对样本语音信息进行处理，生成样本语音信息的置信度包括：

9.根据权利要求8所述的一种智能语音质检方法，其特征在于，所述文本转化模型为LSTM模型，所述语义分析模型为BM25语义分析模型。

10.一种智能语音质检电子设备，其特征在于，所述电子设备包括：

处理器；以及

用于存储所述处理器可执行信息的存储器；

其中，所述处理器用于执行上述权利要求1-9任一项所述的智能语音质检方法。