CN114333784A

CN114333784A - 信息处理方法、装置、计算机设备和存储介质

Info

Publication number: CN114333784A
Application number: CN202210032655.1A
Authority: CN
Inventors: 梁健龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-12

Abstract

本发明涉及一种信息处理方法方法、装置、计算机设备和存储介质，该方法包括：获取待处理的语音内容，语音内容至少包括第一发言人的语音内容；基于语音内容中语音的静音片段，将语音内容划分为多个语音片段；基于语音片段的声纹特征，确定同一发言人对应的语音片段；提取发言人的语音片段中包含的身份关键词和/或禁语关键词；如果语音片段中包含身份关键词，则基于身份关键词确定发言人是否是第一发言人；如果语音片段中包含禁语关键词，则分析禁语关键词的语音片段的语义，得到发言人的发言质量的评估结果。上述方法可以提升了质检的准确率。

Description

信息处理方法、装置、计算机设备和存储介质

技术领域

本发明涉及数据处理技术领域，特别是涉及信息处理方法、装置、计算机设备和存储介质。

背景技术

服务质检是热线服务运营过程中非常重要的一个品质管控环节。传统的服务质检主要依托人工抽检日常座席员的录音进行跟听、分析。对发现的各类问题制定提升计划，实施改善方案，从而进一步完善内部服务质量控制体系，并从数据上客观真实地反映出呼叫中心前台与后台在各环节上的快速响应性与紧密合作性，寻找服务短板，提出改进意见、建议并协助做好业务流程改善，从而不断提升呼叫中心客户服务热线的服务水平。然而，传统的质检采取了人工抽检方式，抽检结果覆盖率较低，人员抽检耗时，时效性较低。

发明内容

本申请提供了一种信息处理方法、装置、计算机设备和存储介质。

第一方面提供了一种信息处理方法，所述方法包括：

获取待处理的语音内容，所述语音内容至少包括第一发言人的语音内容；

基于所述语音内容中语音的静音片段，将所述语音内容划分为多个语音片段；

基于所述语音片段的声纹特征，确定同一发言人对应的语音片段；

提取所述发言人的语音片段中包含的身份关键词和/或禁语关键词；

如果所述语音片段中包含身份关键词，则基于所述身份关键词确定所述发言人是否是所述第一发言人；

如果所述语音片段中包含禁语关键词，则分析禁语关键词的语音片段的语义，得到所述发言人的发言质量的评估结果。

在一些实施例中，所述基于所述语音内容中语音的静音片段，将所述语音内容划分为多个语音片段，包括：

在所述语音内容的静音停顿处作为切割点将所述语音内容划分为多个语音片段，其中，所述静音停顿处满足以下条件之一：静音片段持续第一预设时长、静音片段第二预设时长内有占比大于预设比例的时长是静音且没有超过第三预设时长的连续非静音。

在一些实施例中，所述基于所述语音片段的声纹特征，确定同一发言人对应的语音片段，包括：

对多个语音片段的声纹进行聚类，得到多个聚类结果；

确定每个聚类结果中的多个语音片段对应于同一发言人。

在一些实施例中，所述提取所述发言人的语音片段中包含的身份关键词和/或禁语关键词，包括：

分别将每个聚类结果的语音片段转换为文本数据；

采用自然语言处理方式，提取所述语音片段进行身份关键词和/或禁语关键词。

在一些实施例中，所述分别将每个聚类结果的语音片段转换为文本数据，包括：

将语音片段转写为文本数据，对所述文本数据进行字母大小写转换；

根据历史发言人会话文本数据判断文本转写合理或文本转写错误，所述历史发言人会话文本数据是命中服务禁语的发言人会话内容且命中的禁语关键词是转写错误的。

在一些实施例中，所述根据历史发言人会话文本数据判断文本转写合理或文本转写错误，包括：

收集一批历史发言人会话文本数据，所收集的历史发言人会话文本数据是命中服务禁语关键词的发言人会话内容且命中的服务禁语关键词是转写错误的；

基于收集到的历史发言人会话文本数据，训练语言模型；

对命中服务禁语关键词的发言人会话内容进行预测，基于语言模型通过历史发言人会话文本数据计算句子概率，句子概率的计算值超过句子概率阈值时判断文本转写合理，否则判断文本转写错误。

在一些实施例中，所述如果所述语音片段中包含身份关键词，则基于所述身份关键词确定所述发言人是否是所述第一发言人，包括：

对所述身份关键词进行归一化处理，得到所述身份关键词的第一特征数据；

采用计算特征之间的距离的方式，将所述第一特征数据与预设的表征第一发言人身份的第一特征信息进行相似度比较得到相似度比较结果，根据所述比较结果确定所述发言人是否是第一发言人；

对所述禁语关键词进行归一化处理，得到所述禁语关键词的第二特征数据；

采用计算特征之间的距离的方式，将所述第二特征数据与预设的表征服务禁语的第二特征信息进行匹配度比较得到匹配度比较结果，对所述发言人的服务质量进行评价。

第二方面提供了一种信息处理装置，包括：

语音内容获取单元，用于获取待处理的语音内容，所述语音内容至少包括第一发言人的语音内容；

语音划分单元，用于基于所述语音内容中语音的静音片段，将所述语音内容划分为多个语音片段；

特征分析单元，用于基于所述语音片段的声纹特征，确定同一发言人对应的语音片段；

关键词提取单元，用于提取所述发言人的语音片段中包含的身份关键词和/或禁语关键词；

发言人确定单元，用于基于所述语音片段的声纹特征，确定同一发言人对应的语音片段；

结果输出单元，用于抽取每个发言人的语音片段中包含的身份关键词和/或禁语关键词，基于所述身份关键词确定所述发言人是否是所述第一发言人，通过分析命中禁语关键词的语音片段的语义，得到发言人的发言质量的评估结果。

第三方面提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述信息处理方法的步骤。

第四方面提供了一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述信息处理方法的步骤。

本申请提供的技术方案中，首先获取待处理的语音内容，所述语音内容至少包括第一发言人的语音内容；其次基于所述语音内容中语音的静音片段，将所述语音内容划分为多个语音片段；再次基于所述语音片段的声纹特征，确定同一发言人对应的语音片段；最后抽取每个发言人的语音片段中包含的身份关键词和/或禁语关键词，基于所述身份关键词确定所述发言人是否是所述第一发言人，通过分析命中禁语关键词的语音片段的语义，得到发言人的发言质量的评估结果。因此，对发言人文本中是否有违禁用语进行分析及识别，可过滤发言人没有违禁用语的识别结果，提升了质检的准确率。

附图说明

图1为一个实施例中提供的信息处理方法的实施环境图；

图2为一个实施例中信息处理方法的流程图；

图3为一个实施例中信息处理装置的结构框图；

图4为一个实施例中计算机设备的内部结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

图1为一个实施例中提供的信息处理方法的实施环境图，如图1所示，以下各本发明实施例的典型应用场景是利用第一存储端120、在第二存储端110和第三存储端120之间完成数据高速迁移。第一存储端、第二存储端和第三存储端均包括多台存储服务器多台存储服务器用于存储如即时通信客户端用户共享的或收藏图片、视频、音频以及应用程序等文件数据。

如图2所示，在一个实施例中，提出了一种信息处理方法，该信息处理方法可以应用于上述的计算机设备110中，具体可以包括以下步骤：

步骤201、获取待处理的语音内容，语音内容至少包括第一发言人的语音内容；

根据本公开实施例的声纹识别的方法，可以针对通过电话信道或其他途径生成的对话音频数据，将对话音频数据中所涉及的双方对话人的声纹特征进行提取并识别，并根据识别出的各对话人的声纹特征，建立包含每个对话人的声纹特征的声纹库，以方便后续的声纹检索。

示例性地，本公开实施例的声纹识别方法可以涉及人工智能技术领域，尤其可以应用在大数据以及语音识别技术等领域。具体地，可以在公安技侦领域、银行领域、保险领域等领域中广泛应用，涉及发言人(或接线员)与用户进行语音对话的业务场景。

例如，在步骤S201中，对话音频可以是任一发言人与任一客户进行对话的音频数据。

其中，第一发言人可以是任一提供服务的人员，第一发言人的语音片段可以是发言人的语音片段；第二发言人可以是任一客户，第二发言人的语音片段可以是客户的语音片段。并且，第一发言人的语音片段和第二发言人的语音片段存在时间间隔，即对话音频中不存在第一发言人和第二发言人同时发言的场景。

步骤202、基于语音内容中语音的静音片段，将语音内容划分为多个语音片段；

其中，可以使用开源的webrtcVAD进行语音检测，找出语音片段时间戳，认为此处是说话停顿。从而把停顿点作为切割点。

在一些实施例中，在步骤202的基础上进一步包括：在语音内容的静音停顿处作为切割点将语音内容划分为多个语音片段，其中，静音停顿处满足以下条件之一：静音片段持续第一预设时长、静音片段第二预设时长内有占比大于预设比例的时长是静音且没有超过第三预设时长的连续非静音。

例如，判断是否停顿点，需要增添以下判断：可选条件一：静音片段连续1秒钟内都是静音。可选条件二：静音片段2秒内有占比大于60％的时长是静音，且没有超过0.4秒的连续非静音。

使用开源的webrtcVAD进行语音检测，找出语音片段时间戳，认为此处是说话停顿。从而把停顿点作为切割点。

接着语音服务应用程序会对这些语音片段，根据声纹特征来做聚类，输出每个片段属于哪个类别(说话人)。形如：

0:00:00.110 0:00:05.330片段1类别A

0:00:06.220 0:00:08.440片段2类别B

0:00:10.330 0:00:15.660片段3类别A

一个或多个类别，是同一个说话人。

步骤203、基于语音片段的声纹特征，确定同一发言人对应的语音片段；

其中，对多个语音片段的声纹进行聚类，得到多个聚类结果。

在一些实施例中，上述步骤203可以包括：

步骤2031、对多个语音片段的声纹进行聚类，得到多个聚类结果；

步骤2032、确定每个聚类结果中的多个语音片段对应于同一发言人。

可以理解的是，经过对语音片段中各语音片段的声纹进行聚类，得到多个聚类结果。每个聚类结果中的多个语音片段的声纹对应于同一个发言人。

例如，在A组对话音频中，所涉及的对话人包括发言人A、客户a、客户b和客户c，则A组的聚类结果包括与各对话人分别对应的四个。

针对得到的多个声纹，可以采用本领域技术人员所知晓的各种聚类算法进行聚类，本公开实施例对此不作具体限定。例如，可以采用K均值聚类算法、均值漂移聚类算法、EM算法，最大期望值算法)以及凝聚层次聚类算法中的任一种聚类算法。

可选的聚类方法是层次聚类：

输入：样本集D＝(x₁,x₂,x₃…x_n)，聚类阈值S

输出：簇划分C(c₁,c₂,c₃…c_k)，

1)计算样本集中每个节点之间的相似度；

2)根据相似度从强到弱连接相应节点对，形成树状图；

3)根据聚类阈值S，横切树状图，获得聚类结果

再者，语音服务应用程序会对这些语音片段，逐个转译文字，输出每个片段的说话内容。形如：

0:00:00.110 0:00:05.330片段1类别A：xxxxxxxx

0:00:06.220 0:00:08.440片段2类别B：xxxxxxxxxx

0:00:10.330 0:00:15.660片段3类别A：xxxxx

最后，语音服务应用程序会对这些语音片段的文字，进行关键词识别，从而判断某个类别是支行行员，还是客户。比如识别到“有什么可以帮到您”，就可以判断为支行行员。最后形成笔录。形如：

0:00:00.110 0:00:05.330片段1支行行员：xxxxxxxx

0:00:06.220 0:00:08.440片段2客户：xxxxxxxxxx

0:00:10.330 0:00:15.660片段3支行行员：xxxxx

笔录形成，就进入自动质检阶段。质检单元会筛选出支行行员的片段的转译文字，通过风控配置的关键词，来甄别是否不妥当的话语行为。一旦发现，并且达到告警等级，就会把行员语音片段依序拼接，新存储在服务器存储设备上，并提交给质检专员进行人工复核。

步骤204、提取发言人的语音片段中包含的身份关键词和/或禁语关键词。

其中，笔录形成，就进入自动质检阶段。质检单元会筛选出支行行员的片段的转译文字，通过风控配置的关键词，来甄别是否不妥当的话语行为。一旦发现，并且达到告警等级，就会把行员语音片段依序拼接，新存储在服务器存储设备上，并提交给质检专员进行人工复核。

在一些实施例中，步骤204可以包括：

步骤2041、分别将每个聚类结果的语音片段转换为文本数据；

步骤2042、采用自然语言处理方式，提取语音片段进行身份关键词和/或禁语关键词。

在一些实施例中，将待处理文本转换为待处理文本，提取待处理文本进行身份关键词和/或禁语关键词，可以包括：

步骤2042a、在关联的关键词库中进行搜索，匹配出待处理文本中的关键词；

步骤2042b、根据待处理文本、匹配出的待处理文本中的关键词，确定出所有的文本句式及对应的关键词组合，其中，确定出的任意一个文本句式及其对应的关键词组合，共同组成了上述待处理文本；

步骤2042c、根据关键词概率网络模型，分析确定各文本句式及对应的关键词组合成立的概率；

步骤2042d、将分析确定的概率中值最大的概率对应的关键词组合确定为从待处理文本中提取的关键词组合。

根据如上的实施例的方案，其在需要对待提取完本中的关键词进行提取时，是基于关联的关键词库，在关联的关键词库中进行搜索，匹配出待处理文本中的关键词，然后基于关键词确定出所有的文本句式及对应的关键词组合，再根据关键词概率网络模型分析确定各文本句式及对应的关键词组合成立的概率，并将分析确定的概率中值最大的概率对应的关键词组合确定为从待处理文本中提取的关键词组合。其在提取出待处理文本中的关键词的基础上，确定出所有的文本句式及对应的关键词组合，然后基于关键词概率网络模型来确定出各文本句式及对应的关键词组合的概率，其不仅响应速度快，而且简化了提取文本关键词的难度，提高了文本关键词的准确性。

上述关键词概率网络模型，可以是由终端预先生成，此时，在上述获取待处理文本之前，还可以包括步骤：生成关键词概率网络模型。此外，也可以是在服务器生成关键词概率网络模型后，终端从服务器获取该关键词概率网络模型。此时，在上述获取待处理文本之前，还可以包括步骤：获取服务器生成的关键词概率网络模型。

在一些实施例中，上述根据历史发言人会话文本数据判断文本转写合理或文本转写错误，可以包括：

收集一批历史发言人会话文本数据，所收集的历史发言人会话文本数据是命中服务禁语关键词的发言人会话内容且命中的服务禁语关键词是转写错误的；基于收集到的历史发言人会话文本数据，训练语言模型；最后对命中服务禁语关键词的发言人会话内容进行预测，基于语言模型通过历史发言人会话文本数据计算句子概率，句子概率的计算值超过句子概率阈值时判断文本转写合理，否则判断文本转写错误。

可以理解的是，首先需要收集一批历史发言人会话文本数据，这批历史发言人会话文本数据需要满足2个条件，第一个是命中服务禁语关键词的发言人会话内容，第二个是命中的服务禁语关键词是转写错误的。然后基于收集到的历史发言人会话文本数据，训练2_gram语言模型。最后对命中服务禁语关键词的发言人会话内容进行预测，基于2_gram语言模型通过历史发言人会话文本数据计算句子概率。句子概率的计算值超过一定的句子概率预设阈值时判断文本转写合理，否则判断文本转写错误，从而优化质检准确率。

步骤205、如果语音片段中包含身份关键词，则基于身份关键词确定发言人是否是第一发言人；

如果抽取到身份关键词，则对身份关键词进行归一化处理，得到身份关键词的第一特征数据；

采用计算特征之间的距离的方式，将第一特征数据与预设的表征第一发言人身份的第一特征信息进行相似度比较得到相似度比较结果，根据比较结果确定发言人是否是第一发言人。

步骤206、如果语音片段中包含禁语关键词，则分析禁语关键词的语音片段的语义，得到发言人的发言质量的评估结果。

如果抽取到禁语关键词，则对禁语关键词进行归一化处理，得到禁语关键词的第二特征数据；

采用计算特征之间的距离的方式，将第二特征数据与预设的表征服务禁语的第二特征信息进行匹配度比较得到匹配度比较结果，对发言人的服务质量进行评价。

在一种应用场景中，每位支行行员，按规矩都要佩戴胸卡。我们把具备蓝牙传输功能的麦克风，定制化制作成胸卡的模样(参考导游用的小型麦克风)，即可进行实时录音。胸卡，成为录音单元。

再让胸卡通过蓝牙，连接到行员的办公设备(如iPad、notebook)，即可进行实时传输录音以保存下来，每隔一定时间，就会停写旧文件重定向写到新录音文件中。办公设备，成为传输单元。

本申请中，此处胸卡可以结合麦克风硬件特性，屏蔽正前方以外的噪声，比如使用心形指向的麦克风，方向指向正前方，设置合适的灵敏度，即可屏蔽正前方以外、低于某个声强的噪声，从而保留下只有正常说话人声。

可选的，此处胸卡可以结合麦克风阵列技术，分割出来自不同方向的说话声。区别于传统麦克风阵列需要4+0(四个方向各一个心形指向特性的麦克风，平铺在桌面)，或4+1(四个心形指向再加一个中央全向，平铺在桌面)，本场景中可以优化技术为2+0，即麦克风阵列做成水平平行的两个麦克风(胸卡是垂直佩戴在胸前，因此两个麦克风需是水平安装，拾音面向正前方)，均为全向麦克风。每个麦克风各自录音出一个语音。

如图3所示，在一个实施例中，提供了一种信息处理装置，该信息处理装置可以集成于上述的计算机设备110中，具体可以包括

语音内容获取单元311，用于获取待处理的语音内容，语音内容至少包括第一发言人的语音内容；

语音划分单元312，用于基于语音内容中语音的静音片段，将语音内容划分为多个语音片段；

特征分析单元313，用于基于语音片段的声纹特征，确定同一发言人对应的语音片段；

关键词提取单元314，用于提取发言人的语音片段中包含的身份关键词和/或禁语关键词；

发言人确定单元315，用于如果语音片段中包含身份关键词，则基于身份关键词确定发言人是否是第一发言人；

结果输出单元316，用于如果语音片段中包含禁语关键词，则分析禁语关键词的语音片段的语义，得到发言人的发言质量的评估结果。

图4为一个实施例中计算机设备的内部结构示意图。如图4所示，该计算机设备包括通过系统总线连接的处理器、存储介质、存储器和网络API接口。其中，该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种信息处理方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种信息处理方法。该计算机设备的网络API接口用于与终端连接通信。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机设备，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取待处理的语音内容，语音内容至少包括第一发言人的语音内容；基于语音内容中语音的静音片段，将语音内容划分为多个语音片段；基于语音片段的声纹特征，确定同一发言人对应的语音片段；提取发言人的语音片段中包含的身份关键词和/或禁语关键词；如果语音片段中包含身份关键词，则基于身份关键词确定发言人是否是第一发言人；如果语音片段中包含禁语关键词，则分析禁语关键词的语音片段的语义，得到发言人的发言质量的评估结果。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：获取待处理的语音内容，语音内容至少包括第一发言人的语音内容；基于语音内容中语音的静音片段，将语音内容划分为多个语音片段；基于语音片段的声纹特征，确定同一发言人对应的语音片段；提取发言人的语音片段中包含的身份关键词和/或禁语关键词；如果语音片段中包含身份关键词，则基于身份关键词确定发言人是否是第一发言人；如果语音片段中包含禁语关键词，则分析禁语关键词的语音片段的语义，得到发言人的发言质量的评估结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的信息处理方法，其特征在于，所述基于所述语音内容中语音的静音片段，将所述语音内容划分为多个语音片段，包括：

3.根据权利要求1所述的信息处理方法，其特征在于，所述基于所述语音片段的声纹特征，确定同一发言人对应的语音片段，包括：

对多个语音片段的声纹进行聚类，得到多个聚类结果；

确定每个聚类结果中的多个语音片段对应于同一发言人。

4.根据权利要求1所述的信息处理方法，其特征在于，所述提取所述发言人的语音片段中包含的身份关键词和/或禁语关键词，包括：

分别将每个聚类结果的语音片段转换为文本数据；

5.根据权利要求4所述的信息处理方法，其特征在于，所述分别将每个聚类结果的语音片段转换为文本数据，包括：

6.根据权利要求4所述的信息处理方法，其特征在于，所述根据历史发言人会话文本数据判断文本转写合理或文本转写错误，包括：

基于收集到的历史发言人会话文本数据，训练语言模型；

7.根据权利要求1所述的信息处理方法，其特征在于，所述如果所述语音片段中包含身份关键词，则基于所述身份关键词确定所述发言人是否是所述第一发言人，包括：

8.一种信息处理装置，其特征在于，包括：

发言人确定单元，用于如果所述语音片段中包含身份关键词，则基于所述身份关键词确定所述发言人是否是所述第一发言人；

结果输出单元，用于如果所述语音片段中包含禁语关键词，则分析禁语关键词的语音片段的语义，得到所述发言人的发言质量的评估结果。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述信息处理方法的步骤。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被处理器执行时，使得处理器执行如权利要求1至7中任一项权利要求所述信息处理方法的步骤。