CN112951275B

CN112951275B - 语音质检方法、装置、电子设备及介质

Info

Publication number: CN112951275B
Application number: CN202110220938.4A
Authority: CN
Inventors: 赵情恩; 曾新贵; 熊新雷; 陈蓉; 肖岩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-12-23
Anticipated expiration: 2041-02-26
Also published as: CN112951275A

Abstract

本申请公开了一种语音质检方法、装置、电子设备及介质，涉及数据处理领域的语音技术和深度学习技术领域。具体实现方案为：通过获取待质检音频信息，对待质检音频信息进行语音识别，得到待质检音频信息对应的多个文本段，获取多个文本段分别对应的时间戳信息，根据待质检音频信息和多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类，以生成多个说话人的文本内容，从多个说话人的文本内容之中获取目标说话人的文本内容，对目标说话人的文本内容进行质检。由此，通过将待质检音频信息转换为文本内容，以对识别得到坐席的文本内容进行质检，不仅实现了自动化的质检，还大大降低了人工成本，有利于提高语音质检的效率和精准度。

Description

语音质检方法、装置、电子设备及介质

技术领域

本申请公开了一种语音质检方法、装置、电子设备及介质，涉及数据处理技术领域，具体涉及语音技术、深度学习技术领域。

背景技术

随着人工智能技术在呼叫中心这一劳动密集型行业的应用逐渐增多，智能质检也成为呼叫中心厂商的着力研发点。在呼叫中心质检的主要目的是检测客服人员的工作质效，有效提升客服的整体水平与质量。

传统质检流程主要包含以下几个环节：制定评分规则；录音抽样；录音试听；录音评分；反馈和总结。但是，传统质检主要依赖于人工质检，存在人工质检耗时长、效率低、成本高、精准度差、评判主观性强等缺点。

发明内容

本申请提供了一种语音质检方法、装置、电子设备以及存储介质。

根据本申请的一方面，提供了一种语音质检方法，包括：

获取待质检音频信息；

对所述待质检音频信息进行语音识别，得到所述待质检音频信息对应的多个文本段，并获取所述多个文本段分别对应的时间戳信息；

根据所述待质检音频信息和所述多个文本段对应的所述时间戳信息对所述待质检音频信息进行声纹聚类，以生成多个说话人的文本内容；

从所述多个说话人的文本内容之中获取目标说话人的文本内容；

对所述目标说话人的文本内容进行质检。

根据本申请的另一方面，提供了一种语音质检装置，包括：

获取模块，用于获取待质检音频信息；

识别模块，用于对所述待质检音频信息进行语音识别，得到所述待质检音频信息对应的多个文本段，并获取所述多个文本段分别对应的时间戳信息；

生成模块，用于根据所述待质检音频信息和所述多个文本段对应的所述时间戳信息对所述待质检音频信息进行声纹聚类，以生成多个说话人的文本内容；

处理模块，用于从所述多个说话人的文本内容之中获取目标说话人的文本内容；

质检模块，用于对所述目标说话人的文本内容进行质检。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例所述的语音质检方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述实施例所述的语音质检方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述实施例所述的语音质检方法。

根据本申请的技术解决了现有的人工质检存在成本高、效率低的问题，提高了语音质检的效率和精准度。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的一种语音质检方法的流程示意图；

图2为本申请实施例提供的另一种语音质检方法的流程示意图；

图3为本申请实施例提供的又一种语音质检方法的流程示意图；

图4为本申请实施例提供的又一种语音质检方法的流程示意图；

图5为本申请实施例提供的又一种语音质检方法的流程示意图；

图6为本申请实施例提供的又一种语音质检方法的流程示意图；

图7为本申请实施例提供的一种语音质检方法的示例图；

图8为本申请实施例提供的一种语音质检装置的结构示意图；

图9是用来实现本申请实施例的语音质检方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

现有的人工质检，一般先对海量坐席客户的对话录音文件，进行随机抽样，然后质检专员进行听辨，对于听到双方的对话内容按照给定的评分模板和规则，给坐席的服务质量进行打分，服务质量评判包括服务流程合规性以及言语合规性的评价。其中，流程合作性包括是否按标准说欢迎语，结束语，是否确认客户信息，客户抱怨情绪是否安抚等；言语合规性包括坐席服务忌语，外呼消极营销，强势营销，诱导欺骗客户等。

但是，现有的人工质检存在耗时长、效率低、成本高、精准度差、评判主观性强等缺点。传统的呼叫中心质检配置也无法支撑大量繁杂的质检工作，难以适应企业迅速成长的脚步。

针对上述技术问题，本申请提出了一种语音质检方法，通过获取待质检音频信息，对待质检音频信息进行语音识别，得到待质检音频信息对应的多个文本段，并获取多个文本段分别对应的时间戳信息，根据待质检音频信息和多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类，以生成多个说话人的文本内容，从多个说话人的文本内容之中获取目标说话人的文本内容，对目标说话人的文本内容进行质检。由此，通过将待质检音频信息转换为文本内容，并对识别得到坐席的文本内容进行质检，不仅实现了自动化的质检，还大大降低了人工成本，有利于提高语音质检的效率和精准度。

下面参考附图描述本申请实施例的语音质检方法、装置、服务器及存储介质。

图1为本申请实施例提供的一种语音质检方法的流程示意图。

本申请实施例以该语音质检方法被配置于语音质检装置中来举例说明，该语音质检装置可以应用于任一电子设备中，以使该电子设备可以执行语音质检功能。

其中，电子设备可以为个人电脑(Personal Computer，简称PC)、云端设备、移动设备等，移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统的硬件设备。

如图1所示，该语音质检方法，可以包括以下步骤：

步骤101，获取待质检音频信息。

其中，待质检音频信息，为通话人员的语音通话数据。例如，可以获取坐席A与客户通话过程中的通话录音数据。

可以理解的是，坐席与客户的通话录音一般是关于特定的业务，而特定的业务都会有对应的话术脚本，坐席的通话过程需要按照话术脚本的要求与客户进行沟通。

可选地，可以从服务器中获取到坐席与客户的通话录音，以获取到待质检音频信息。

需要解释的是，获取到的待质检音频信息可以为完整的通话录音，也可以为部分通话录音，在此不做限定。

步骤102，对待质检音频信息进行语音识别，得到待质检音频信息对应的多个文本段，并获取多个文本段分别对应的时间戳信息。

其中，时间戳信息，通常是一个字符序列，唯一地标识某一刻的时间。例如，某一文本段对应的时间戳信息为2020年10月1日11点10分。

本申请实施例中，获取到待质检音频信息后，可以采用端到端的语音识别系统对待质检音频信息进行语音识别，以得到待质检音频信息对应的多个文本段，以及对应字粒度的时间戳信息和多个文本段分别对应的时间戳信息。

例如，假设待质检音频信息为15s，0-2s是音乐彩铃，2-5s语音，5-8s静音，8-15s语音，对该待质检音频信息进行语音识别，可以得到2-5s的文本段，8-15s的文本段，以及文本的每个字对应的时间戳信息。

在一种可能的情况下，用于对待质检音频信息进行语音设备的语音识别系统，可以是基于语音数据训练得到的语音识别模型，可以识别语音信息和非语音信息。进一步地，可以将语音识别模型识别得到的文本内容通过后处理模块，通过对文本内容加上标点符号，实现对文本内容的短句，以得到多个文本段。

其中，后处理模块，可以为条件随机场(Conditional Random Field，简称CRF)，是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。

由于语音识别模型是一帧一帧解码得到识别结果的，因此，可以得到多个文本段对应的时间戳信息。

步骤103，根据待质检音频信息和多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类，以生成多个说话人的文本内容。

本申请实施例中，获取到多个文本段分别对应的时间戳信息后，可以将待质检音频信息和多个文本段对应的时间戳信息输入声纹聚类系统(Agglomerative HierarchicalClustering，简称AHC)，通过对待质检音频信息进行声纹聚类，以生成多个说话人的音频信息。进一步地，分别对多个说话人的音频信息进行语音识别，以生成多个说话人的文本内容。

作为一种示例，假设待质检音频信息为说话人A与说话人B的通话录音，可以将待质检音频信息进行声纹聚类，以生成说话人A和说话人B的音频信息，进而，对说话人A和说话人B的音频信息进行语音识别，以得到说话人A和说话人B的文本内容。

步骤104，从多个说话人的文本内容之中获取目标说话人的文本内容。

其中，目标说话人是指坐席。例如，坐席A和客户B进行通话时，目标说话人是指坐席A。

本申请实施例中，在生成多个说话人的文本内容后，可以对多个说话人的文本内容进行识别，以从多个说话人的文本内容之中确定目标说话人的文本内容。

作为一种可能的实现方式，可以将多个说话人的文本内容分别与预设关键词进行匹配，以确定各说话人的文本内容中包含的预设关键词的个数，将包含预设关键词个数最多的文本内容确定为目标说话人的文本内容。

作为另一种可能的实现方式，还可以对多个说话人的文本内容进行识别，以确定各说话人的文本内容中包含的预设关键词的个数，从各说话人的文本内容中确定预设关键词的个数大于个数阈值的目标说话人的文本内容。

需要说明的是，上述从多个说话人的文本内容之中确定目标说话人的文本内容的实现方式，仅作为示例性表述，其他可以实现的方式也可以适用于本申请实施例中，在此不做限定。

步骤105，对目标说话人的文本内容进行质检。

本申请实施例中，确定目标说话人的文本内容后，可以对目标说话人的文本内容进行质检，以确定待质检音频信息的质检结果。

作为一种可能的实现方式，可以预先设定违规关键词库，例如，违规关键词库可以包括“傻子”、“傻帽”、“神经病”、“无语”、“有病”等等，在此不做特别限定。将目标说话人的文本内容与违规关键词库进行匹配，从而根据匹配结果可以确定质检结果。

作为另一种可能的实现方式，还可以将目标说话人的文本内容输入经过训练的质检模型，以根据质检模型的输出确定质检结果。其中，质检模型为采用人工标注违规关键词的训练样本训练得到的，能够准确识别到目标说话人的文本内容中是否包含有违规关键词。

需要说明的是，上述对目标说话人的文本内容进行质检的实现方式，仅作为示例性表述，其他可以实现的方式也可以适用于本申请实施例中，在此不做限定。

本申请实施例的语音质检方法，通过获取待质检音频信息，对待质检音频信息进行语音识别，得到待质检音频信息对应的多个文本段，并获取多个文本段分别对应的时间戳信息，根据待质检音频信息和多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类，以生成多个说话人的文本内容，从多个说话人的文本内容之中获取目标说话人的文本内容，对目标说话人的文本内容进行质检。由此，通过将待质检音频信息转换为文本内容，并对识别得到坐席的文本内容进行质检，不仅实现了自动化的质检，还大大降低了人工成本，有利于提高语音质检的效率和精准度。

在上述实施例的基础上，在步骤102中生成多个文本段时，可以首先对待质检音频信息进行语音识别，得到语音识别内容，再对语音识别内容进行断句，以得到多个文本段，下面结合图2进行详细介绍，图2为本申请实施例提供的另一种语音质检方法的流程示意图。

如图2所示，该语音质检方法，可以包括以下步骤：

步骤201，获取待质检音频信息。

本申请实施例中，步骤201的实现过程，可以参见上述实施例中步骤101的实现过程，在此不再赘述。

步骤202，采用经过训练的语音识别模型对待质检音频信息进行语音识别，以生成语音识别内容。

其中，语音识别模型为采用训练样本进行训练得到的端到端语音识别模型，能够准确识别出待质检音频信息中的语音和非语音，并能将语音转化为语音识别内容。

在一种可能的情况下，获取到待质检音频信息后，可以对待质检音频信息进行预处理，以对待质检音频信息进行噪声过滤后，将预处理后的待质检音频信息输入语音识别模型。

作为一种可能的实现方式，可以提取将待质检音频信息的特征向量，将特征向量输入经过训练的语音识别模型，以得到对应的语音识别内容。

步骤203，对语音识别内容进行断句，以生成多个文本段。

本申请实施例中，可以对语音识别内容进行语义识别，通过对语音识别内容加上标点符号，从而生成多个文本段。

作为一种可能的实现方式，可以采用判别式概率模型对语音识别内容进行断句，以生成多个文本段。例如，CRF能够结合语音识别内容的上下文，能够准确的对语音识别内容进行分割，从而有利于提高分割的效果。

步骤204，获取多个文本段分别对应的时间戳信息。

步骤205，根据待质检音频信息和多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类，以生成多个说话人的文本内容。

步骤206，从多个说话人的文本内容之中获取目标说话人的文本内容。

步骤207，对目标说话人的文本内容进行质检。

本申请实施例中，步骤204至步骤207的实现过程，可以参见上述实施例中步骤102至步骤105的实现过程，在此不再赘述。

在上述实施例的基础上，已经提及了根据各说话人的文本内容中包含的预设关键词的个数确定目标说话人的文本内容，下面结合图3进行详细介绍，图3为本申请实施例提供的又一种语音质检方法的流程示意图。

如图3所示，上述步骤104，还可以包括以下步骤：

步骤301，对多个说话人的文本内容进行识别，以确定各说话人的文本内容中包含的预设关键词的个数。

其中，预设关键词，是指预先设定的用于确定文本内容对应的角色的关键词。例如，可以预先设定关键词“您好”，“请问”，“帮您”，“评价”，“满意”，等等。

本申请实施例中，可以将多个说话人的文本内容分别与预设关键词进行匹配，以确定各说话人的文本内容中包含的预设关键词的个数。

例如，假设某一说话人的文本内容为“您好请问有什么需要帮您的么”，通过对该说话人的文本内容进行识别，可以确定该说话人的文本内容中包含有3个预设关键词。

步骤302，对各说话人的文本内容中包含的预设关键词的个数从大到小排序，将排序在前的说话人的文本内容作为目标说话人的文本内容。

本申请实施例中，确定各说话人的文本内容中包含的预设关键词的个数后，可以根据各说话人的文本内容中包含的预设关键词的个数按照从大到小的顺序，对各说话人的文本内容进行排序，进而，将排序在前的说话人的文本内容作为目标说话人的文本内容。也就说，将包含预设关键词的个数最多的文本内容，确定为目标说话人的文本内容。

作为一种示例，假设说话人A的文本内容中包含3个预设关键词，说话人B的文本内容中包含1个预设关键词，则可以确定说话人A的文本内容为目标说话人的文本内容。

由此，通过对多个说话人的文本内容进行识别，以确定各说话人的文本内容中包含的预设关键词的个数后，对各所述说话人的文本内容中包含的预设关键词的个数从大到小排序，将排序在前的说话人的文本内容作为目标说话人的文本内容，从而可以确定包含预设关键词个数最多的文本内容为目标说话人的文本内容，实现了确定坐席说话的文本内容的目的。

作为另一种可能的实现方式，还可以将说话人的文本内容中预设关键词的个数大于个数阈值的文本内容确定为目标说话人的文本内容。下面结合图4进行详细介绍，图4为本申请实施例提供的又一种语音质检方法的流程示意图。

如图4所示，上述步骤104还可以包括以下步骤：

步骤401，对多个说话人的文本内容进行识别，以确定各说话人的文本内容中包含的预设关键词的个数。

本申请实施例中，步骤401的实现过程，可以参见上述实施例中步骤301的实现过程，在此不再赘述。

步骤402，从各说话人的文本内容中确定预设关键词的个数大于个数阈值的目标说话人的文本内容。

其中，个数阈值为预先设定的值。

本申请实施例中，确定各说话人的文本内容中包含的预设关键词的个数后，将各说话人的文本内容中包含的预设关键词的个数与个数阈值进行比较，确定文本内容中包含预设关键词的个数大于个数阈值的文本内容为目标说话人的文本内容。

作为一种示例，假设个数阈值为3，说话人A的文本内容中包含4个预设关键词，说话人B的文本内容中包含1个预设关键词，则可以确定说话人A的文本内容为目标说话人的文本内容。

由此，对多个说话人的文本内容进行识别，以确定各说话人的文本内容中包含的预设关键词的个数，从各说话人的文本内容中确定预设关键词的个数大于个数阈值的目标说话人的文本内容，从而实现了确定坐席说话的文本内容的目的。

在上述实施例的基础上，对待质检音频信息进行语音识别，得到的多个文本段中可能出现多个说话人的文本内容在一个文本段的情况，为了准确的确定各个说话人的文本内容，本申请中，可以将待质检音频信息分割为多个说话人的音频信息，以根据多个说话人的音频信息对多个文本段重新划分。下面结合图5对上述过程进行详细介绍，图5为本申请实施例提供的又一种语音质检方法的流程示意图。

如图5所示，该语音质检方法，还可以包括以下步骤：

步骤501，将待质检音频信息和多个文本段对应的时间戳信息输入声纹聚类模型，得到多个说话人的音频信息。

其中，声纹聚类模型，为采用音频样本进行训练得到的，已经学习得到不同说话人的音频特征，能够准确识别出各说话人对应的音频信息。

其中，用于对声纹聚类模型进行训练的音频样本中包含尽可能多的说话人，比如超过10万个说话人，音频样本中说的话尽可能多样化，并且口音、语调、录制设备及环境尽可能多样化，由此，使得经过训练的声纹聚类模型能够准确识别出说话人对应的音频信息。

本申请实施例中，声纹聚类模型可以判断出每一个时间戳对应的说话人，在此结合多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类，以起到辅助作用，从而更准确的识别得到多个说话人的音频信息。

步骤502，根据多个说话人的音频信息对多个文本段重新划分，以生成多个说话人的文本内容。

需要说明的是，对多个文本段进行重新划分，其目的在于使得划分后的每一个文本段中仅包含一个说话人的文本内容。

为了避免对待质检音频信息进行语音识别得到的文本段中可能存在一个文本段中包含两个说话人的文本内容的情况，本申请实施例中，获取到多个说话人的音频信息后，对多个说话人的音频信息进行语音识别，根据语音识别得到的结果对多个文本段重新划分以生成多个说话人的文本内容。由此，实现了划分后的每一个文本段包含同一个说话人的文本内容。

在上述实施例的基础上，确定目标说话人的文本内容后，可以将目标说话人的文本内容输入经过训练的质检模型，以确定质检结果。下面结合图6进行详细介绍，图6为本申请实施例提供的又一种语音质检方法的流程示意图。

如图6所示，该语音之间方法，还可以包括以下步骤：

步骤601，获取待质检音频信息。

步骤602，对待质检音频信息进行语音识别，得到待质检音频信息对应的多个文本段，并获取多个文本段分别对应的时间戳信息。

步骤603，根据待质检音频信息和多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类，以生成多个说话人的文本内容。

步骤604，从多个说话人的文本内容之中获取目标说话人的文本内容。

本申请实施例中，步骤601至步骤604的实现过程，可以参见上述实施例的实现过程，在此不再赘述。

步骤605，将目标说话人的文本内容输入经过训练的质检模型，以根据质检模型的输出确定质检结果；其中，质检模型是采用人工标注违规关键词的训练样本训练得到的。

其中，违规关键词，是指在客服与客户通话过程中禁止使用的词。如“傻子”、“傻帽”、“神经病”、“无语”、“有病”等等

本申请实施例中，采用人工标注违规关键词的训练样本对质检模型进行训练。可选地，在获取得到训练样本后，首先对训练样本中包含的违规关键词进行人工标注，进而，采用标注违规关键词的训练样本对质检模型进行训练。

作为一种示例，假设质检模型为Transformers模型，则可以将目标说话人的文本内容输入Transformers模型进行文本内容的分类判定，如，目标说话人的文本内容中包含有违规关键词，则输出1，否则输出0。由此，采用Transformer模型，精细刻画了目标说话人的文本内容的上下文之间的语义关系，更好的得出语义的分类结果，即达到质检的目的。

由此，采用经过训练的质检模型对目标说话人的文本内容进行质检，以得到质检结果，相较于人工质检存在成本高、效率低的缺点，大大提高了语音质检的效率。

作为一种示例，图7为本申请实施例提供的一种语音质检方法的示例图。如图7所示，在获取到待质检音频信息后，可以将待质检音频信息输入端到端语音识别系统进行内容识别，得到待质检音频信息对应的多个文本段，以及多个文本段分别对应的时间戳信息，进而将多个文本段通过后处理模块加上标点符号进行断句。接着将待质检音频信息和断句后的时间戳信息输入到声纹聚类系统，得到多个说话人的音频信息，即给每个片段打上说话人的标签，以得到每个说话人的文本内容；进一步地，对每个说话人的文本内容进行角色判定，以确定目标说话人的文本内容，最后对目标说话人的文本内容通过质检模型进行内容分类判定，以达到质检的目的。

为了实现上述实施例，本申请提供了一种语音质检装置。

图8为本申请实施例提供的一种语音质检装置的结构示意图。

如图8所示，该语音质检装置800，可以包括：获取模块810、识别模块820、生成模块830、处理模块840以及质检模块850。

其中，获取模块810，用于获取待质检音频信息。

识别模块820，用于对待质检音频信息进行语音识别，得到待质检音频信息对应的多个文本段，并获取多个文本段分别对应的时间戳信息。

生成模块830，用于根据待质检音频信息和多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类，以生成多个说话人的文本内容。

处理模块840，用于从多个说话人的文本内容之中获取目标说话人的文本内容。

质检模块850，用于对目标说话人的文本内容进行质检。

作为一种可能的情况，识别模块820，还可以用于：

采用经过训练的语音识别模型对待质检音频信息进行语音识别，以生成语音识别内容；对语音识别内容进行断句，以生成多个文本段。

作为另一种可能的情况，处理模块840，还可以用于：

对多个说话人的文本内容进行识别，以确定各说话人的文本内容中包含的预设关键词的个数；对各说话人的文本内容中包含的预设关键词的个数从大到小排序，将排序在前的说话人的文本内容作为目标说话人的文本内容。

作为另一种可能的情况，处理模块840，还可以用于：

从各说话人的文本内容中确定预设关键词的个数大于个数阈值的目标说话人的文本内容。

作为另一种可能的情况，生成模块830，还可以用于：

将待质检音频信息和多个文本段对应的时间戳信息输入声纹聚类模型，得到多个说话人的音频信息；根据多个说话人的音频信息对多个文本段重新划分，以生成多个说话人的文本内容。

作为另一种可能的情况，质检模块850，还可以用于：

将目标说话人的文本内容输入经过训练的质检模型，以根据质检模型的输出确定质检结果；其中，质检模型是采用人工标注违规关键词的训练样本训练得到的。

需要说明的是，前述对语音质检方法实施例的解释说明也适用于该实施例的语音质检装置，此处不再赘述。

本申请实施例的语音质检装置，通过获取待质检音频信息，对待质检音频信息进行语音识别，得到待质检音频信息对应的多个文本段，并获取多个文本段分别对应的时间戳信息，根据待质检音频信息和多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类，以生成多个说话人的文本内容，从多个说话人的文本内容之中获取目标说话人的文本内容，对目标说话人的文本内容进行质检。由此，通过将待质检音频信息转换为文本内容，并对识别得到坐席的文本内容进行质检，不仅实现了自动化的质检，还大大降低了人工成本，有利于提高语音质检的效率和精准度。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

为了实现上述实施例，本申请提出了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例的语音质检方法。

为了实现上述实施例，本申请提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述实施例的语音质检方法。

为了实现上述实施例，本申请提出了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述实施例的语音质检方法。

如图9所示，是用于实现本申请实施例的语音质检方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音质检方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音质检方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音质检方法对应的程序指令/模块(例如，附图8所示的获取模块810、识别模块820、生成模块830、处理模块840以及质检模块850)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音质检的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与虚拟专用服务器(VirtualPrivateServer，VPS)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音质检方法，包括：

获取待质检音频信息；

对所述待质检音频信息进行语音识别，得到所述待质检音频信息对应的多个文本段，并获取所述多个文本段分别对应的时间戳信息；其中，所述时间戳信息包括字粒度的时间戳信息和所述多个文本段分别对应的时间戳信息；

对所述目标说话人的文本内容进行质检；

其中，所述根据所述待质检音频信息和所述多个文本段对应的所述时间戳信息对所述待质检音频信息进行声纹聚类，以生成多个说话人的文本内容，包括：

将所述待质检音频信息和所述多个文本段对应的所述时间戳信息输入声纹聚类模型，得到所述多个说话人的音频信息；

根据所述多个说话人的音频信息对所述多个文本段重新划分，以生成所述多个说话人的文本内容。

2.根据权利要求1所述的方法，其中，所述对所述待质检音频信息进行语音识别，得到所述待质检音频信息对应的多个文本段，包括：

采用经过训练的语音识别模型对所述待质检音频信息进行语音识别，以生成语音识别内容；

对所述语音识别内容进行断句，以生成多个文本段。

3.根据权利要求1所述的方法，其中，所述从所述多个说话人的文本内容之中获取目标说话人的文本内容，包括：

对所述多个说话人的文本内容进行识别，以确定各所述说话人的文本内容中包含的预设关键词的个数；

对各所述说话人的文本内容中包含的预设关键词的个数从大到小排序，将排序在前的所述说话人的文本内容作为所述目标说话人的文本内容。

4.根据权利要求3所述的方法，其中，所述确定各所述说话人的文本内容中包含的预设关键词的个数之后，还包括：

从各所述说话人的文本内容中确定所述预设关键词的个数大于个数阈值的目标说话人的文本内容。

5.根据权利要求1-4任一项所述的方法，其中，所述对所述目标说话人的文本内容进行质检，包括：

将所述目标说话人的文本内容输入经过训练的质检模型，以根据所述质检模型的输出确定质检结果；其中，所述质检模型是采用人工标注违规关键词的训练样本训练得到的。

6.一种语音质检装置，包括：

获取模块，用于获取待质检音频信息；

识别模块，用于对所述待质检音频信息进行语音识别，得到所述待质检音频信息对应的多个文本段，并获取所述多个文本段分别对应的时间戳信息；其中，所述时间戳信息包括字粒度的时间戳信息和所述多个文本段分别对应的时间戳信息；

质检模块，用于对所述目标说话人的文本内容进行质检；

其中，所述生成模块，还用于：

7.根据权利要求6所述的装置，其中，所述识别模块，还用于：

对所述语音识别内容进行断句，以生成多个文本段。

8.根据权利要求6所述的装置，其中，所述处理模块，还用于：

9.根据权利要求8所述的装置，其中，所述处理模块，还用于：

10.根据权利要求6-9任一项所述的装置，其中，所述质检模块，还用于：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的语音质检方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的语音质检方法。