CN116665714A

CN116665714A - 语音质检方法、装置、计算机设备和存储介质

Info

Publication number: CN116665714A
Application number: CN202310661537.1A
Authority: CN
Inventors: 赵燕子; 陈永录; 王静; 吴琳琳
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-08-29

Abstract

本申请涉及一种语音质检方法、装置、计算机设备和存储介质。所述方法包括：响应于资源交互服务中心对应的资源交互语音质检任务，获取资源交互语音质检任务对应的语音数据文本集合；将各语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；根据资源交互语音质检任务对应的自定义关键词提取条件，对各语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；将各模型提取关键词以及各自定义提取关键词进行关键词融合，得到资源交互语音质检任务对应的各语音质检关键词。本方法有利于对质检工作出现的变化更好的适应，增加资源交互服务中心的被抽检的客服话务和工单的数量和覆盖面，降低语音质检工作的漏检率。

Description

语音质检方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音质检方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，出现了语音质检技术，该技术在资源交互服务中心广泛地应用。传统技术中，资源交互服务中心的语音质检策略经历了3个步骤：第1步为从全部话务和工单中随机抽取一部分话务和工单进行质检；第2步考虑了不同业务的重要程度差异，越重要的业务抽检的比例越大；第3步考虑了客服人员被抽检话务和工单数量的公平性和不同业务的重要程度差异，将抽样问题转化为最优化问题。因为资源交互服务中心的被抽检的客服话务和工单只包含很少一部分问题话务和问题，导致语音质检工作的漏检率较高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够增加资源交互服务中心的被抽检的客服话务和工单的数量和覆盖面，降低语音质检工作的漏检率的语音质检方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种语音质检方法。所述方法包括：响应于资源交互服务中心对应的资源交互语音质检任务，获取所述资源交互语音质检任务对应的语音数据文本集合；所述语音数据文本集合包括至少一条语音数据文本信息；将各所述语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；根据所述资源交互语音质检任务对应的自定义关键词提取条件，对各所述语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；将各所述模型提取关键词以及各所述自定义提取关键词进行关键词融合，得到所述资源交互语音质检任务对应的各语音质检关键词；各所述语音质检关键词用于对所述资源交互服务中心的服务情况进行质检。

第二方面，本申请还提供了一种语音质检装置。所述装置包括：语音数据采集模块，用于响应于资源交互服务中心对应的资源交互语音质检任务，获取所述资源交互语音质检任务对应的语音数据文本集合；所述语音数据文本集合包括至少一条语音数据文本信息；模型关键词提取模块，用于将各所述语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；自定义关键词提取模块，用于根据所述资源交互语音质检任务对应的自定义关键词提取条件，对各所述语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；质检关键词得到模块，用于将各所述模型提取关键词以及各所述自定义提取关键词进行关键词融合，得到所述资源交互语音质检任务对应的各语音质检关键词；各所述语音质检关键词用于对所述资源交互服务中心的服务情况进行质检。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：响应于资源交互服务中心对应的资源交互语音质检任务，获取所述资源交互语音质检任务对应的语音数据文本集合；所述语音数据文本集合包括至少一条语音数据文本信息；将各所述语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；根据所述资源交互语音质检任务对应的自定义关键词提取条件，对各所述语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；将各所述模型提取关键词以及各所述自定义提取关键词进行关键词融合，得到所述资源交互语音质检任务对应的各语音质检关键词；各所述语音质检关键词用于对所述资源交互服务中心的服务情况进行质检。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：响应于资源交互服务中心对应的资源交互语音质检任务，获取所述资源交互语音质检任务对应的语音数据文本集合；所述语音数据文本集合包括至少一条语音数据文本信息；将各所述语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；根据所述资源交互语音质检任务对应的自定义关键词提取条件，对各所述语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；将各所述模型提取关键词以及各所述自定义提取关键词进行关键词融合，得到所述资源交互语音质检任务对应的各语音质检关键词；各所述语音质检关键词用于对所述资源交互服务中心的服务情况进行质检。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：响应于资源交互服务中心对应的资源交互语音质检任务，获取所述资源交互语音质检任务对应的语音数据文本集合；所述语音数据文本集合包括至少一条语音数据文本信息；将各所述语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；根据所述资源交互语音质检任务对应的自定义关键词提取条件，对各所述语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；将各所述模型提取关键词以及各所述自定义提取关键词进行关键词融合，得到所述资源交互语音质检任务对应的各语音质检关键词；各所述语音质检关键词用于对所述资源交互服务中心的服务情况进行质检。

上述一种语音质检方法、装置、计算机设备、存储介质和计算机程序产品，通过响应于资源交互服务中心对应的资源交互语音质检任务，获取资源交互语音质检任务对应的语音数据文本集合；语音数据文本集合包括至少一条语音数据文本信息；将各语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；根据资源交互语音质检任务对应的自定义关键词提取条件，对各语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；将各模型提取关键词以及各自定义提取关键词进行关键词融合，得到资源交互语音质检任务对应的各语音质检关键词；各语音质检关键词用于对资源交互服务中心的服务情况进行质检。

通过语音分析技术，将语音转换为文本进行关键词智能提取的方法，设计了基于TextRank算法的智能质检关键词提取方法，基于这种算法可以对单一文本文件关键词进行提取，将关键词提取的准确性与针对性增强。同时，参照呼叫中心语音质检相关经验成果，将自定义词库引进，给予不同权重，最终将目标文本的关键词提取出来。最后对两组关键词集进行融合与匹配，将出现频率最高的目标关键词结果输出，能够对自定义词库不断改进并对其优化，有利于对质检工作出现的变化更好的适应，增加资源交互服务中心的被抽检的客服话务和工单的数量和覆盖面，降低语音质检工作的漏检率。

附图说明

图1为一个实施例中一种语音质检方法的应用环境图；

图2为一个实施例中一种语音质检方法的流程示意图；

图3为一个实施例中语音质检关键词得到方法的流程示意图；

图4为另一个实施例中语音质检关键词得到方法的流程示意图；

图5为又一个实施例中语音质检关键词得到方法的流程示意图；

图6为一个实施例中自定义提取关键词得到方法的流程示意图；

图7为一个实施例中关联度信息确定方法的流程示意图；

图8为一个实施例中模型提取关键词提取方法的流程示意图；

图9为一个实施例中基于语音分析的智能质检关键词融合过程示意图；

图10为一个实施例中基于语音分析的智能质检关键词提取方案示意图；

图11为一个实施例中一种语音质检装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的一种语音质检方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104响应于终端102的资源交互服务中心对应的资源交互语音质检任务，获取资源交互语音质检任务对应的语音数据文本集合；语音数据文本集合包括至少一条语音数据文本信息；将各语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；根据资源交互语音质检任务对应的自定义关键词提取条件，对各语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；将各模型提取关键词以及各自定义提取关键词进行关键词融合，得到资源交互语音质检任务对应的各语音质检关键词；各语音质检关键词用于对资源交互服务中心的服务情况进行质检。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音质检方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，响应于资源交互服务中心对应的资源交互语音质检任务，获取资源交互语音质检任务对应的语音数据文本集合。

其中，资源交互服务中心可以是服务于资源交互平台的部门，例如：银行作为资源交互平台，则电话银行客服中心为资源交互服务中心。

其中，资源交互语音质检任务可以是对资源交互平台与客户之间的语音数据进行质检的任务，一般由资源交互服务中心的质检服务器完成。

其中，语音数据文本集合可以是需要执行资源交互语音质检指令的文本的集合，该文本集合中的所有文本是通过资源交互平台与客户之间的语音数据转化为文本的形式得到的。

具体地，服务器104响应于终端102关于资源交互服务中心对应的资源交互语音质检任务的指令，从终端102处获取资源交互语音质检任务对应的语音数据文本集合，其中，语音数据文本集合包括至少一条语音数据文本信息，并且将获取到的各个语音数据文本信息存储到存储单元中，当服务器需要对至少一个语音数据文本信息中的任意数据记录进行处理时，则从存储单元中调取至易失性存储资源以供中央处理器进行计算。其中，任意数据记录可以是单个数据输入至中央处理器，也可以为多个数据同时输入至中央处理器。

步骤204，将各语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词。

其中，关键词提取模型可以是由TextRank算法构成的模型。

其中，模型提取关键词可以是语音数据文本信息使用TextRank算法进行关键词提取得到的结果。

具体地，将各个语音数据文本信息输入至关键词提取模型，通过接口对各个语音数据文本信息中的完整语句进行分割，各个分割的片段表示为[S1、S 2、S 3、S 4.....，Sn]。先分割的片段进行分词后确定词性对每个文本，然后进行词性标注，并集中处理，最终将与主题无关或者冗余的文字去除，比如“的”、“而且”、“但是”，剩下的定性词作为模型备选关键词，这些模型备选关键词表示为[ti，1，、t i，2、t i，r，.....t i，n]。

根据各个模型备选关键词构建出模型关键词图，即G＝(V，E)，是依据指定共现窗口K大小进行构造，任意两点间的边由共同关系构造出来。其中，模型关键词图为有向权图G＝(V，E)，模型关键词图中的V，V×V的子集就是E。任意两点v_i由W_ji表示，图中指向该点的其他集合表示为In(V_i)入度，v_i指向其他点集合，称为出度，表示为Out(v_i)，V_i得分计算公式为：

模型关键词图中表示某一点都有1-d的概率指向其它任意点，即阻尼系数，d∈[0，1]，0.85为d的默认系数。每个点进行打分时，应用关键词提取模型，每个点必须为指定任意的初值，计算采用迭代计算方式并收敛。鉴于图有着一定连贯性，收敛需经过较少次数迭代实现。

最后，依据特定公式进行计算，最终将迭代传播计算各节点权重得分值计算出，直到将收敛完成。对各节点权重进行排列，按照倒序排列方式，关键词提取的结果为得到的最重要的至少一个模型提取关键词。

步骤206，根据资源交互语音质检任务对应的自定义关键词提取条件，对各语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词。

其中，自定义关键词提取条件可以是用自定义的方法提取管检测的条件，一般情况下，选择出现频率最高或者出现次数最多作为提取条件。

其中，自定义提取关键词可以是各个语音数据文本信息通过自定义关键词提取条件进行筛选的结果。

具体地，将各个语音数据文本信息通过接口方式，对各个语音数据文本信息中的完整语句进行分割，各个分割的片段表示为[S1、S 2、S 3、S 4.....，S n]。根据自定义关键词提取条件，将各个语音数据文本信息的各个语音词组与自定义关键词库中的各个自定义关键词进行对比，并将各个语音数据文本信息的各个语音词组与自定义关键词库中有相同的各个语音词组进行标注，作为各个待统计关键词组。对各个待统计关键词组在自定义关键词库中频率进行统计，关键词频率统计结果。其中，关键词在自定义关键词库中出现频率表示为count(Si)，自定义关键词库中总分词数表示为count(T)(自定义关键词的数量)。针对自定义关键词库中的各个自定义关键词对应地给予一个权重值，根据各个自定义关键词对应的总分词数以及关键词频率统计结果，可以计算出各个待统计关键词组在总分词数的参数，例如：占比、相关性、重复率等。结合自定义关键词库中的各个自定义关键词对应地给予一个权重值，可以得到各个语音数据文本信息的各个语音词组对应的关联度信息。

对各个语音数据文本信息的各个语音词组对应的关联度信息与预设的关键词相关程度进行对比，根据关联度对比结果选取关联度信息大于预设的关键词相关程度的语音词组作为各个自定义提取关键词。

步骤208，将各模型提取关键词以及各自定义提取关键词进行关键词融合，得到资源交互语音质检任务对应的各语音质检关键词。

其中，语音质检关键词可以是用于对资源交互服务中心的服务情况进行质检的文本。

具体地，经过两次抽取以后的语音文本，得到关键词结果集，结果集带有各个模型提取关键词以及各个自定义提取关键词。通过两组提取关键词的词语个数，确定关键词提取比例，其中，关键词提取比例表征模型提取关键词的数量以及自定义提取关键词的数量之间的比例。

根据关键词提取比例，确定按照模型提取关键词的数量以及自定义提取关键词的数量之间的比例为1:1，然后按照1:1的比例数量设置模型提取关键词以及自定义提取关键词显示数，最终从关键词结果集提取出来，得到各个候选质检关键词，候选质检关键词的数量要满足资源交互语音质检任务。

对各个候选质检关键词是否具有重复的候选质检关键词进行检查，如果检查结果表示各个候选质检关键词中均不存在重复的候选质检关键词，则将各个候选质检关键词作为满足资源交互语音质检任务的各个语音质检关键词。

如果检查结果表示各个候选质检关键词中存在至少一个重复的候选质检关键词的情况下，将多余的候选质检关键词进行删除，重复的关键词最终保留一个候选质检关键词，将去重后的所有去重质检关键词作为去重质检关键词。由于删除若干个去重质检关键词后，不满足资源交互语音质检任务规定的关键词数量，因此返回执行“根据关键词提取比例，确定按照模型提取关键词的数量以及自定义提取关键词的数量之间的比例为1:1，然后按照1:1的比例数量设置模型提取关键词以及自定义提取关键词显示数，最终从关键词结果集提取出来，得到各个候选质检关键词”的步骤，直到各个候选质检关键词中均不存在重复的关键词。最后，将已经确认不存在重复的关键词的各个候选质检关键词作为各个语音质检关键词。图9为一个实施例中基于语音分析的智能质检关键词融合过程示意图。

例如：模型提取关键词的数量以及自定义提取关键词的数量总共有10个，需要从结果集中提取出5个关键词，这5个关键词一定要是分数最高的，并作为备选，去重处理对这5个备选关键词，从词库中提取出其它关键词作为补充备选关键词，得到最终的关键词结果集，即得到各候选质检关键词。图10为一个实施例中基于语音分析的智能质检关键词提取方案示意图。

上述一种语音质检方法中，通过响应于资源交互服务中心对应的资源交互语音质检任务，获取资源交互语音质检任务对应的语音数据文本集合；语音数据文本集合包括至少一条语音数据文本信息；将各语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；根据资源交互语音质检任务对应的自定义关键词提取条件，对各语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；将各模型提取关键词以及各自定义提取关键词进行关键词融合，得到资源交互语音质检任务对应的各语音质检关键词；各语音质检关键词用于对资源交互服务中心的服务情况进行质检。

在一个实施例中，如图3所示，将各模型提取关键词以及各自定义提取关键词进行关键词融合，得到资源交互语音质检任务对应的各语音质检关键词，包括：

步骤302，根据模型提取关键词以及各自定义提取关键词，确定关键词提取比例。

其中，关键词提取比例可以是提取模型提取关键词的数量以及自定义提取关键词的数量之间的比例。

步骤304，根据关键词提取比例，从模型提取关键词以及各自定义提取关键词中提取关键词，得到资源交互语音质检任务对应的各语音质检关键词。

其中，根据关键词提取比例，确定按照模型提取关键词的数量以及自定义提取关键词的数量之间的比例为1:1，然后按照1:1的比例数量设置模型提取关键词以及自定义提取关键词显示数，最终从关键词结果集提取出来，得到各个候选质检关键词，候选质检关键词的数量要满足资源交互语音质检任务。

如果检查结果表示各个候选质检关键词中存在至少一个重复的候选质检关键词的情况下，将多余的候选质检关键词进行删除，重复的关键词最终保留一个候选质检关键词，将去重后的所有去重质检关键词作为去重质检关键词。由于删除若干个去重质检关键词后，不满足资源交互语音质检任务规定的关键词数量，因此返回执行“根据关键词提取比例，确定按照模型提取关键词的数量以及自定义提取关键词的数量之间的比例为1:1，然后按照1:1的比例数量设置模型提取关键词以及自定义提取关键词显示数，最终从关键词结果集提取出来，得到各个候选质检关键词”的步骤，直到各个候选质检关键词中均不存在重复的关键词。最后，将已经确认不存在重复的关键词的各个候选质检关键词作为各个语音质检关键词。

本实施例中，通过利用模型提取关键词以及自定义提取关键词的提取比例，从对应的关键词集合中提取相应数量的关键词作为各个语音质检关键词，通过这种关键词日趋方式，有效保证了关键词质量与准确性，可进一步将资源交互服务中心的质检问题录音监测概率提高。

在一个实施例中，如图4所示，根据关键词提取比例，从模型提取关键词以及各自定义提取关键词中提取关键词，得到资源交互语音质检任务对应的各语音质检关键词，包括：

步骤402，根据关键词提取比例，从模型提取关键词以及各自定义提取关键词中提取关键词，得到各候选质检关键词。

其中，候选质检关键词可以是按照资源交互语音质检任务但未进行重复情况检查的关键词。

具体地，根据关键词提取比例，确定按照模型提取关键词的数量以及自定义提取关键词的数量之间的比例为1:1，然后按照1:1的比例数量设置模型提取关键词以及自定义提取关键词显示数，最终从关键词结果集提取出来，得到各个候选质检关键词。

步骤404，在各候选质检关键词中均不存在重复的关键词的情况下，将各候选质检关键词作为各语音质检关键词。

具体地，对各个候选质检关键词是否具有重复的候选质检关键词进行检查，如果检查结果表示各个候选质检关键词中均不存在重复的候选质检关键词，则将各个候选质检关键词作为满足资源交互语音质检任务的各个语音质检关键词。

本实施例中，通过检查各个候选质检关键词均不存在重复的关键词的情况下，将各个检查候选质检关键词作为所需要的各个语音质检关键词，能够保证各个语音质检关键词中没有重复的关键词，使得进行资源交互语音质检时覆盖更多的关键词，提高质检的覆盖面。

在一个实施例中，如图5所示，在根据关键词提取比例，从模型提取关键词以及各自定义提取关键词中提取关键词，得到各候选质检关键词步骤之后，方法还包括：

步骤502，在各候选质检关键词中存在任一重复的关键词的情况下，将各候选质检关键词中重复的关键词删除，得到去重质检关键词。

其中，去重质检关键词可以是对重复出现的关键词保留其中一个后组成的关键词集合。

具体地，如果检查结果表示各个候选质检关键词中存在至少一个重复的候选质检关键词的情况下，将多余的候选质检关键词进行删除，重复的关键词最终保留一个候选质检关键词，将去重后的所有去重质检关键词作为去重质检关键词。

步骤504，基于去重质检关键词，返回执行根据关键词提取比例，从模型提取关键词以及各自定义提取关键词中提取关键词，得到各候选质检关键词，直到各候选质检关键词中均不存在重复的关键词。

具体地，由于删除若干个去重质检关键词后，不满足资源交互语音质检任务规定的关键词数量，因此返回执行“根据关键词提取比例，确定按照模型提取关键词的数量以及自定义提取关键词的数量之间的比例为1:1，然后按照1:1的比例数量设置模型提取关键词以及自定义提取关键词显示数，最终从关键词结果集提取出来，得到各个候选质检关键词”的步骤，直到各个候选质检关键词中均不存在重复的关键词。

步骤506，将各候选质检关键词作为各语音质检关键词。

具体地，将已经确认不存在重复的关键词的各个候选质检关键词作为各个语音质检关键词。

本实施例中，通过将各个候选质检关键词中重复的关键词保留其中一个，并重复执行得到候选质检关键词的步骤，以满足作为语音质检关键词的数量要求，能够保证在具有重复关键词的时候自动补充缺失关键词，使得资源交互语音质检能够继续执行，提高了语音质检效率。

在一个实施例中，如图6所示，根据资源交互语音质检任务对应的自定义关键词提取条件，对各语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词，包括：

步骤602，根据自定义关键词提取条件，确定各语音数据文本信息的各语音词组对应的关联度信息。

其中，语音词组可以是组成语音数据文本信息的至少一个词组。

其中，关联度信息可以是各个语音词组与自定义关键词的关联情况数据。

具体地，将各个语音数据文本信息通过接口方式，对各个语音数据文本信息中的完整语句进行分割，各个分割的片段表示为[S1、S 2、S 3、S 4.....，S n]。根据自定义关键词提取条件，将各个语音数据文本信息的各个语音词组与自定义关键词库中的各个自定义关键词进行对比，并将各个语音数据文本信息的各个语音词组与自定义关键词库中有相同的各个语音词组进行标注，作为各个待统计关键词组。对各个待统计关键词组在自定义关键词库中频率进行统计，关键词频率统计结果。其中，关键词在自定义关键词库中出现频率表示为count(Si)，自定义关键词库中总分词数表示为count(T)。针对自定义关键词库中的各个自定义关键词对应地给予一个权重值，根据各个语音数据文本信息的总分词数以及关键词频率统计结果，可以计算出各个待统计关键词组在总分词数的参数，例如：占比、相关性、重复率等。结合自定义关键词库中的各个自定义关键词对应地给予一个权重值，可以得到各个语音数据文本信息的语音词组对应的关联度信息。

步骤604，从各语音数据文本信息中提取关联度信息大于预设的关键词相关程度的语音词组，得到至少一个自定义提取关键词。

其中，关键词相关程度可以是关联度信息的判断标准，关联度信息大于或者等于关键词相关程度表示该语音词组与自定义关键词库的关联程度满足资源交互语音质检任务，关联度信息小于关键词相关程度表示该语音词组与自定义关键词库的关联程度不满足资源交互语音质检任务。

具体地，对各个语音数据文本信息的各个语音词组对应的关联度信息与预设的关键词相关程度进行对比，根据关联度对比结果选取关联度信息大于预设的关键词相关程度的语音词组作为各个自定义提取关键词。

实施例中，通过使用各个语音词组的关联度信息与预设的关键词相关程度进行比较，选出目标的自定义提取关键词，能够保证关键词更为规范、具备更强的表达性，提高对资源交互语音质检的准确率。

在一个实施例中，如图7所示，根据自定义关键词提取条件，确定各语音数据文本信息的各语音词组对应的关联度信息，包括：

步骤702，将各语音词组与自定义关键词库进行对比，并选取对比结果为相同的各语音词组作为待统计关键词组。

其中，待统计关键词组可以是未进行出现频率统计的各个语音词组。

其中，自定义关键词库可以是自定义关键词的集合。

具体地，将各个语音数据文本信息通过接口方式，对各个语音数据文本信息中的完整语句进行分割，各个分割的片段表示为[S1、S 2、S 3、S 4.....，S n]。根据自定义关键词提取条件，将各个语音数据文本信息的各个语音词组与自定义关键词库中的各个自定义关键词进行对比，并将各个语音数据文本信息的各个语音词组与自定义关键词库中有相同的各个语音词组进行标注，作为各个待统计关键词组。

步骤704，对各待统计关键词组在自定义关键词库出现的次数进行统计，得到关键词频率统计结果。

其中，关键词频率统计结果可以是各个语音词组在各个自定义关键词出现的次数。

具体地，对各个待统计关键词组在自定义关键词库中频率进行统计，关键词频率统计结果。其中，关键词在自定义关键词库中出现频率表示为count(Si)，自定义关键词库中总分词数表示为count(T)。

步骤706，根据自定义关键词库对应的总分词数以及关键词频率统计结果，确定各语音数据文本信息的关键词对应的关联度信息。

其中，总分词数可以是自定义关键词的数量。

具体地，针对自定义关键词库中的各个自定义关键词对应地给予一个权重值，根据各个自定义关键词对应的总分词数以及关键词频率统计结果，可以计算出各个待统计关键词组在总分词数的参数，例如：占比、相关性、重复率等。结合自定义关键词库中的各个自定义关键词对应地给予一个权重值，可以得到各个语音数据文本信息的各个语音词组对应的关联度信息。

本实施例中，通过使用待统计关键词组在各个自定义关键词出现的次数结合各个自定义关键词对应的总分词数确定各个关键词对应的关联度信息，能够保证被筛选的关键词与各个自定义关键词的相关性能达到资源交互语音质检任务的要求，提高了对资源交互语音质检的精度。

在一个实施例中，如图8所示，将各语音数据文本信息输入至关键词提取模型中，得到至少一个模型提取关键词，包括：

步骤802，将各语音数据文本信息的各语音词组进行去冗余处理，得到各模型备选关键词。

其中，模型备选关键词可以是各个语音词组进行去冗余处理后剩下的语音词组。

步骤804，根据各模型备选关键词，构建各语音数据文本信息对应的模型关键词图。

其中，模型关键词图可以是由各个模型备选关键词构成，由词标签/维度和词大小/度量组成图像。

具体地，根据各个模型备选关键词构建出模型关键词图，即G＝(V，E)，是依据指定共现窗口K大小进行构造，任意两点间的边由共同关系构造出来。其中，模型关键词图为有向权图G＝(V，E)，模型关键词图中的V，V×V的子集就是E。任意两点v_i由W_ji表示，图中指向该点的其他集合表示为In(V_i)入度，v_i指向其他点集合，称为出度，表示为Out(v_i)，V_i得分计算公式为：

步骤806，根据模型关键词图，提取出至少一个模型提取关键词。

具体地，依据特定公式进行计算，最终将迭代传播计算各节点权重得分值计算出，直到将收敛完成。对各节点权重进行排列，按照倒序排列方式，关键词提取的结果为得到的最重要的至少一个模型提取关键词。

本实施例中，通过利用去冗余处理后的各个模型备选关键词构建模型关键词图，进一步根据模型关键词图提取模型提取关键词，能够在一定程度上考虑了文本中词与词之间的关系，也就是文本结构，在关键词提取的任务中能够更为准确提取到目标的关键词，提高了计算机执行资源交互语音质检的能力。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音质检方法的一种语音质检装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音质检装置实施例中的具体限定可以参见上文中对于一种语音质检方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种语音质检装置，包括：语音数据采集模块1102、模型关键词提取模块1104、自定义关键词提取模块1106和质检关键词得到模块1108，其中：

语音数据采集模块1102，用于响应于资源交互服务中心对应的资源交互语音质检任务，获取资源交互语音质检任务对应的语音数据文本集合；语音数据文本集合包括至少一条语音数据文本信息；

模型关键词提取模块1104，用于将各语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；

自定义关键词提取模块1106，用于根据资源交互语音质检任务对应的自定义关键词提取条件，对各语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；

质检关键词得到模块1108，用于将各模型提取关键词以及各自定义提取关键词进行关键词融合，得到资源交互语音质检任务对应的各语音质检关键词；各语音质检关键词用于对资源交互服务中心的服务情况进行质检。

在一个实施例中，质检关键词得到模块1108，还用于根据模型提取关键词以及各自定义提取关键词，确定关键词提取比例；关键词提取比例表征提取模型提取关键词的数量以及自定义提取关键词的数量之间的比例；根据关键词提取比例，从模型提取关键词以及各自定义提取关键词中提取关键词，得到资源交互语音质检任务对应的各语音质检关键词。

在一个实施例中，质检关键词得到模块1108，还用于根据关键词提取比例，从模型提取关键词以及各自定义提取关键词中提取关键词，得到各候选质检关键词；在各候选质检关键词中均不存在重复的关键词的情况下，将各候选质检关键词作为各语音质检关键词。

在一个实施例中，质检关键词得到模块1108，还用于在各候选质检关键词中存在任一重复的关键词的情况下，将各候选质检关键词中重复的关键词删除，得到去重质检关键词；基于去重质检关键词，返回执行根据关键词提取比例，从模型提取关键词以及各自定义提取关键词中提取关键词，得到各候选质检关键词，直到各候选质检关键词中均不存在重复的关键词；将各候选质检关键词作为各语音质检关键词。

在一个实施例中，自定义关键词提取模块1106，还用于根据自定义关键词提取条件，确定各语音数据文本信息的各语音词组对应的关联度信息；从各语音数据文本信息中提取关联度信息大于预设的关键词相关程度的语音词组，得到至少一个自定义提取关键词。

在一个实施例中，自定义关键词提取模块1106，还用于将各语音词组与自定义关键词库进行对比，并选取对比结果为相同的各语音词组作为待统计关键词组；对各待统计关键词组在自定义关键词库出现的次数进行统计，得到关键词频率统计结果；根据自定义关键词库对应的总分词数以及关键词频率统计结果，确定各语音数据文本信息的关键词对应的关联度信息。

在一个实施例中，模型关键词提取模块1104，还用于将各语音数据文本信息的各语音词组进行去冗余处理，得到各模型备选关键词；根据各模型备选关键词，构建各语音数据文本信息对应的模型关键词图；根据模型关键词图，提取出至少一个模型提取关键词。

上述一种语音质检装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储服务器数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音质检方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音质检方法，其特征在于，所述方法包括：

响应于资源交互服务中心对应的资源交互语音质检任务，获取所述资源交互语音质检任务对应的语音数据文本集合；所述语音数据文本集合包括至少一条语音数据文本信息；

将各所述语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；

根据所述资源交互语音质检任务对应的自定义关键词提取条件，对各所述语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；

将各所述模型提取关键词以及各所述自定义提取关键词进行关键词融合，得到所述资源交互语音质检任务对应的各语音质检关键词；各所述语音质检关键词用于对所述资源交互服务中心的服务情况进行质检。

2.根据权利要求1所述的方法，其特征在于，所述将各所述模型提取关键词以及各所述自定义提取关键词进行关键词融合，得到所述资源交互语音质检任务对应的各语音质检关键词，包括：

根据所述模型提取关键词以及各所述自定义提取关键词，确定关键词提取比例；所述关键词提取比例表征提取所述模型提取关键词的数量以及所述自定义提取关键词的数量之间的比例；

根据所述关键词提取比例，从所述模型提取关键词以及各所述自定义提取关键词中提取关键词，得到所述资源交互语音质检任务对应的各所述语音质检关键词。

3.根据权利要求2所述的方法，其特征在于，所述根据所述关键词提取比例，从所述模型提取关键词以及各所述自定义提取关键词中提取关键词，得到所述资源交互语音质检任务对应的各所述语音质检关键词，包括：

根据所述关键词提取比例，从所述模型提取关键词以及各所述自定义提取关键词中提取关键词，得到各候选质检关键词；

在各所述候选质检关键词中均不存在重复的关键词的情况下，将各所述候选质检关键词作为各所述语音质检关键词。

4.根据权利要求3所述的方法，其特征在于，在所述根据所述关键词提取比例，从所述模型提取关键词以及各所述自定义提取关键词中提取关键词，得到各候选质检关键词步骤之后，所述方法还包括：

在各所述候选质检关键词中存在任一重复的关键词的情况下，将各所述候选质检关键词中重复的关键词删除，得到去重质检关键词；

基于去重质检关键词，返回执行所述根据所述关键词提取比例，从所述模型提取关键词以及各所述自定义提取关键词中提取关键词，得到各候选质检关键词，直到各所述候选质检关键词中均不存在重复的关键词；

将各所述候选质检关键词作为各所述语音质检关键词。

5.根据权利要求1所述的方法，其特征在于，所述根据所述资源交互语音质检任务对应的自定义关键词提取条件，对各所述语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词，包括：

根据自定义关键词提取条件，确定各所述语音数据文本信息的各语音词组对应的关联度信息；

从各所述语音数据文本信息中提取所述关联度信息大于预设的关键词相关程度的所述语音词组，得到至少一个所述自定义提取关键词。

6.根据权利要求5所述的方法，其特征在于，所述根据自定义关键词提取条件，确定各所述语音数据文本信息的各语音词组对应的关联度信息，包括：

将各所述语音词组与自定义关键词库进行对比，并选取对比结果为相同的各所述语音词组作为待统计关键词组；

对各所述待统计关键词组在所述自定义关键词库出现的次数进行统计，得到关键词频率统计结果；

根据所述自定义关键词库对应的总分词数以及所述关键词频率统计结果，确定各所述语音数据文本信息的关键词对应的所述关联度信息。

7.根据权利要求1所述的方法，其特征在于，所述将各所述语音数据文本信息输入至关键词提取模型中，得到至少一个模型提取关键词，包括：

将各所述语音数据文本信息的各语音词组进行去冗余处理，得到各模型备选关键词；

根据各所述模型备选关键词，构建各所述语音数据文本信息对应的模型关键词图；

根据所述模型关键词图，提取出至少一个所述模型提取关键词。

8.一种语音质检装置，其特征在于，所述装置包括：

语音数据采集模块，用于响应于资源交互服务中心对应的资源交互语音质检任务，获取所述资源交互语音质检任务对应的语音数据文本集合；所述语音数据文本集合包括至少一条语音数据文本信息；

模型关键词提取模块，用于将各所述语音数据文本信息输入至关键词提取模型，得到至少一个模型提取关键词；

自定义关键词提取模块，用于根据所述资源交互语音质检任务对应的自定义关键词提取条件，对各所述语音数据文本信息进行自定义关键词提取，得到至少一个自定义提取关键词；

质检关键词得到模块，用于将各所述模型提取关键词以及各所述自定义提取关键词进行关键词融合，得到所述资源交互语音质检任务对应的各语音质检关键词；各所述语音质检关键词用于对所述资源交互服务中心的服务情况进行质检。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。