CN115982657B

CN115982657B - 一种智能外呼客服系统的录音审核分类方法及装置

Info

Publication number: CN115982657B
Application number: CN202310016783.1A
Authority: CN
Inventors: 陶金; 汪健; 陈禹
Original assignee: Hangzhou Jianhai Technology Co ltd
Current assignee: Hangzhou Jianhai Technology Co ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-10-31
Anticipated expiration: 2043-01-06
Also published as: CN115982657A

Abstract

本发明公开了一种智能外呼客服系统的录音审核分类方法及装置，首先，获取智能外呼客服与目标用户的完整录音信息，包括录音的各个时间戳信息及对应的音频信息，时间戳信息包括拨打电话到接通的时间戳信息、每一轮次智能外呼客服语音播放的开始及结束时间戳信息，以及每一轮次目标用户语音的开始及结束时间戳信息；再将音频信息通过自动语音识别模块，转换为文本信息，同时，将每一轮次的智能客服文本信息和目标用户文本信息，输入到文本处理模块，推理每一轮次的问题和答复的相关性，以此为依据判断该轮次的完成度；然后根据预设的特征模版，构建每一份录音的特征向量；最后，利用生成的特征向量，根据预设的模型识别路径，对用户进行分类。

Description

一种智能外呼客服系统的录音审核分类方法及装置

技术领域

本发明涉及智能外呼系统技术领域，尤其是涉及一种智能外呼客服系统的录音审核分类方法及装置。

背景技术

随着人工智能技术的飞速发展，尤其是自动语音识别ASR(Automatic SpeechRecognition)技术、自然语言处理NLP(Natural LanguageProcessing)技术的不断发展，越来越多的智能外呼机器人在真实业务场景中获得了实践落地，且市场反馈表现良好，替代了大量人力。然而，现有技术中，智能机器人还不能达到人工的客服服务水平，并且用户的触达也并非百分百。因此，为了提高整套外呼系统的服务质量，依然需要人工花费精力对录音内容进行审核筛选，挑选出其中高质量的用户录音，并且针对未触达的用户，设定新一轮的外呼策略。为了降低整体外呼系统的运营和维护成本，需要一种可直接对通话录音进行审核分类的方法，替代人工。

相关专利文献CN202110345454.2，“基于freeswitch与ASR技术的外呼失败结果检测方法”，描述了一种外呼失败的分析方法，主要是将整段录音利用ASR技术转成文字，再设计每一种外呼失败的关键词，基于关键词模版匹配技术完成录音的分类。该方法仅提出了一种对未触达用户的分类方法，并且仅仅基于关键词匹配的方法鲁棒性不强，同时，严重依赖ASR识别的准确率，而忽略了录音本身的音频特征，及对话任务相关信息。

发明内容

为解决现有技术的不足，实现降低干扰，提升用户群体分类精度的目的，本发明采用如下的技术方案：

一种智能外呼客服系统的录音审核分类方法，包括如下步骤：

步骤S1：获取智能外呼客服与目标用户的完整录音信息，包括录音的各个时间戳信息及对应的音频信息，其中，时间戳信息包括拨打电话到接通的时间戳信息、每一轮次智能外呼客服语音播放的开始及结束时间戳信息，以及每一轮次目标用户语音的开始及结束时间戳信息；

步骤S2：将音频信息通过自动语音识别模块ASR(Automatic SpeechRecognition)，转换为文本信息，同时，将每一轮次的智能客服文本信息和目标用户文本信息，输入到文本处理模块NLU(Natural Language Understanding)，推理每一轮次的问题和答复的相关性，以此为依据判断该轮次的完成度，并记录数据；

步骤S3：根据预设的特征模版，构建每一份录音的特征向量，包括如下步骤：

步骤S3.1：针对录音的总音频时长，从外呼机器人的使用经验来看，录音总的音频时长越高，则表明用户的配合度越高，拒绝配合的用户，往往在听到第一段录音时，就会挂断，因此，针对总音频时长，构建基于总音频时长的独热编码特征，记为特征1；

步骤S3.2：针对录音的接通等待时长，从外呼机器人的使用经验来看，接通的等待时间越长，用户的配合度意愿越低，因此，针对录音的接通等待时长，构建基于接通等待时长的独热编码特征，记为特征2；

步骤S3.3：针对录音的问答轮次及完成度，从外呼机器人的使用经验来看，问答的轮次越多，往往用户的配合意愿度越高，但是需考虑到，轮次的增多，可能是因为客户与机器人的沟通存在障碍导致的，所以构建基于问答轮次及完成度的独热编码特征，记为特征3；

步骤S3.4：针对录音的文本信息，针对未接通的用户，往往运营商的语音提示音中会包含大量的关键词信息，可以用于判断未接通的原因，同时，针对接通的用户，也会在问答中表露自己现在的配合度意愿，而仅考虑关键词，不考虑其他文本信息，可以有效规避彩铃等干扰信息的影响，所以构建基于文本信息的关键词独热编码特征，记为特征4；

步骤S4：利用生成的特征向量，根据预设的模型识别路径，对用户进行分类，包括如下步骤：

步骤S4.1：针对未接通的用户，利用特征4，构建关键词匹配策略，区分用户类别；

步骤S4.2：针对接通的用户，采用决策树模型，基于特征1至特征4生成训练数据集，计算每一个类别在总数据集中的占比，以此训练决策树中的每一个节点进行特征的选择，利用训练好的决策树模型，对用户进行分类。

进一步地，所述步骤S2中，将问题和答复两句话，利用预训练模型BERT(Bidirectional Encoder Representations from Transformers，双向转换的编码器)，转化为句向量，再计算两句话的余弦距离相似度。

进一步地，所述步骤S3.1中，设定特征长度为l₁，以t₁秒为一个间隔设为一个类别，若大于(l₁-1)*t₁秒，则默认为第l₁个类别；

所述步骤S3.2中，设定特征长度为l₂，以t₂秒为一个间隔设为一个类别，若大于(l₂-1)*t₂秒，则默认为第l₂个类别；

所述步骤S3.3中，设定该特征的特征长度为l₃，以1轮问答为一个间隔设定一个类别，若大于l₃-1轮，则默认为第l₃个类别。

进一步地，所述步骤S3.4中，设定该独热编码特征的长度等于关键词列表的长度，每个关键词占据一个维度特征，若无完全匹配的关键词，则视为没有匹配，该独热编码特征全部置0。

进一步地，所述步骤S3.4中，关键词列表如下：

“空号”，“停机”，“服务器”，“通话中”，“关机”，“无法接通”，“不方便”，“忙”，“有事”，“没空”。

进一步地，所述步骤S3.4中，针对未接通用户的情况，仅考虑音频的最后时间t₃内的涉及运营商的语音提示音转化而来的文本信息。

进一步地，所述步骤S4.2包括如下步骤：

步骤S4.2.1：对所述特征向量，进行类别标注，得到训练数据集；

步骤S4.2.2：计算出每一个类别在总数据集中的占比，以此训练决策树中的每一个节点进行特征的选择，每一类特征为一层，每一层的节点为特征向量，特征选择通过信息增益作为纯度的度量，即选取使得信息增益最大的特征向量进行分裂，从而确定各层特征节点，生成决策树模型。

进一步地，所述步骤S4.2.2中，信息增益的计算公式为：

infoGain(D|A_i)＝Entropy(D)-Entropy(D|A_i)

其中，A_i表示第i类特征向量，D表示训练数据及，p_k表示每一个类别在总数据集中的占比，k表示第k类，K表示总类别数，V表示特征向量A_i的取值个数，D^v表示数据集D中，所有在特征A_i上取值为的样本个数，最终，得到各个特征向量的信息增益。

一种智能外呼客服系统的录音审核分类装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现所述的一种智能外呼客服系统的录音审核分类方法。

本发明的优势和有益效果在于：

1)对于未触达的用户，通过对系统提示语音的分段文本分析，结合录音时长等音频特征，可以有效区分出“拒绝受访”，“手机停机”，“当前正忙”，“号码错误”等关键客户群体。对于音频的分段识别特征处理，可以有效规避彩铃用户对ASR识别结果的干扰。

2)对于触达的用户，通过对用户回复语音的分段文本分析，用户分项任务选择分析，再结合录音时长等音频特征，可以有效区分出“拒绝受访”，“积极配合”，“当前正忙”，“有限配合”等关键客户群体。对于用户分项任务选择的分析，可以有效区分出，“积极配合”和“有限配合”这两个群体类别。

3)对于用户录音的自动审核分类，可以大幅减少人工审核成本，节省出来的人力完全可以投入于，对“积极配合”的用户群体的回复整理工作，同时设定好，“当前正忙”用户的再一次外呼策略。

附图说明

图1是本发明实施例中方法的流程图。

图2是本发明实施例中装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

给定一种医院随访满意度的调查场景，我们需要通过审核用户的录音，对用户进行分类。具体类别可以分为，“拒绝受访”，“当前正忙”，“号码错误”，“积极配合”，“有限配合”。

如图1所示，一种智能外呼客服系统的录音审核分类方法，包括如下步骤：

步骤S1：获取目标用户的完整录音信息，包括录音的各个时间戳信息及对应的音频信息。其中，时间戳信息包括拨打电话到接通的时间戳信息、每一轮次机器人语音播放的开始及结束时间戳信息，每一轮次目标用户语音的开始及结束时间戳信息。

本发明实施例中，采用一段音频：示例.wav，则上述时间戳信息的获取格式可以规整为：

若该电话未接通，则只需要记录拨打电话到接通信息。

其中每一轮次是指以机器人语音播放起至用户声音检测完成；

其中对目标用户声音的检测采用语音活性检测技术(Voice ActivityDetection)。

步骤S2：将步骤S1规整出的每一段音频信息，都通过自动语音识别模块ASR(Automatic Speech Recognition)，转换为文本信息。同时将每一轮次的机器文本信息和用户文本信息输入到文本处理模块NLU(Natural Language Understanding)，推理每一轮次的问题和答复的相关性，以此为依据判断该轮次的完成度，并记录数据。

本发明实施例中，基于步骤S1中的示例.wav，给定一种医院随访满意度的调查场景。

机器人的问题Q：“您对医生护士的服务态度还满意吗？”

用户的回答A：“服务态度满意的”

将QA一起输入到NLU模块，推理得到QA相关性为0.9。若相关性大于0.5，即可以判断该轮次的完成度为1.0，可解释的意义为，用户的回答与机器人的问题有关联关系，并不是答非所问或拒绝。

最终转化后数据格式可以规整为：

其中，文本处理模块NLU主要包含一个文本相似度判断模型。

其中的一种优选方案是，将QA两句话利用开源BERT模型，转化为句向量，再计算两句话的余弦距离相似度。

步骤S3：利用步骤S2所得到的数据，根据预先设计好的特征模版，构建每一份录音的特征向量，如图2所示，特征向量的构建方法包括如下步骤：

步骤S3.1：针对录音的总音频时长，构建one-hot编码特征，记为特征1；

从外呼机器人的使用经验来看，录音总的音频时长越高，则表明用户的配合度越高。拒绝配合的用户，往往在听到第一段录音时，就会挂断。因此，针对总音频时长，我们构建ont-hot编码特征，将连续的数据离散化处理；

具体的，设定该特征的特征长度为10，以10秒为一个间隔设为一个类别，若大于90秒，则默认为第10个类别，即：

类别1：0-10秒

类别2：10-20秒

...

类别10：>90秒

本发明实施例中，一段音频的总时长为，12秒，则该特征表示为：

【0，1，0，0，0，0，0，0，0，0】

步骤S3.2：针对录音的接通等待时长，构建one-hot编码特征，记为特征2；

从外呼机器人的使用经验来看，接通的等待时间越长，用户的配合度意愿越低。因此，针对录音的接通等待时长，我们构建one-hot编码特征，将连续的数据离散化处理。

具体的，设定该特征的特征长度为11，以3秒为一个间隔设为一个类别，若大于30秒，则默认为第11个类别，即，

类别1：0-3秒

类别2：3-6秒

...

类别10：27-30秒

类别11：>30秒

本发明实施例中，一段音频的录音的接通等待时长总时长为，2秒，则该特征表示为：

【1，0，0，0，0，0，0，0，0，0，0】

步骤S3.3：针对录音的问答轮次及完成度，构建one-hot编码特征，记为特征3；

从外呼机器人的使用经验来看，问答的轮次越多，往往用户的配合意愿度越高。但是需考虑到，轮次的增多，可能是因为客户与机器人的沟通存在障碍导致的，所以需要同时考虑完成度。

具体的，设定该特征的特征长度为11，以1轮为一个间隔设为一个类别，若大于10轮，则默认为第11个类别，即，

类别1：1轮

类别2：2轮

...

类别10：10轮

类别11：>10轮

同时计算，所有轮次的，平均完成度，填入对应的类别。

本发明实施例中，一段音频的问答轮次为5，平均完成度为0.8，则该特征表示为：

【0，0，0，0，0.8，0，0，0，0，0】

步骤S3.4：针对录音的文本信息，构建关键词one-hot编码特征，记为特征4；

针对未接通的用户，往往运营商的语音提示音中会包含大量的关键词信息，可以用于判断未接通的原因，同时，针对接通的用户，也会在问答中表露自己现在的配合度意愿。而仅考虑关键词，不考虑其他文本信息，可以有效规避彩铃等干扰信息的影响。

具体的，设定该特征的长度等于关键词列表的长度。每个关键词占据一个维度特征，若无完全匹配的关键词，则视为没有匹配，该特征全部置0。

其中的一种优选的关键词列表如下：

【“空号”，“停机”，“服务器”，“通话中”，“关机”，“无法接通”，““不方便”，“忙”，“有事”，“没空”】

即，该特征的长度为10。

本发明实施例中，一段音频的文本信息为，“您拨打的电话是空号”，则该特征表示为，

【0，1，0，0，0，0，0，0，0，0】

具体的，其中的一种针对未接通用户的优化方案，仅考虑音频的最后10秒的涉及运营商的语音提示音转化而来的文本信息。

步骤S4：利用步骤S3生成的特征，根据预先设定好的模型识别路径，对用户进行分类。类别包括但不限于：“拒绝受访”，“当前正忙”，“号码错误”，“积极配合”，“有限配合”，具体包括如下步骤：

步骤S4.1：针对未接通的用户，利用特征4，构建关键词匹配策略，区分用户类别。

具体的，若特征4前3个维度，至少有一个维度的值大于等于1，即可判断该用户的类别为，“号码错误”，此时系统应通知人工审核员，提醒其与需求方核实该用户的手机号码。相反，若前3个维度的值均为0，则可判断该用户的类别为，“当前正忙”，此时系统对应的动作为，将其调入下一次外呼用户列表。

步骤S4.2：针对接通的用户，可能发生的情况则多种多样，仅仅利用一组特征难以判断用户的真实类别。例如：用户在配合回答5个问题后，才表示，不方便，此时应归类为“有限配合”，若仅根据特征4，则会将其错误归类为，“当前正忙”；再如：用户每一个问题都回答的十分简短，虽然轮次很多，但有效时长很少，此时应归类为“有限配合”，若仅根据特征3，则会将其错误归类为，“积极配合”。因此，需要考虑全部的特征。

在本发明实施例中，将采用决策树模型基于这4种特征来对用户进行分类。决策树(Decision Tree)是一类基于监督学习的机器学习方法。

步骤S4.2.1：训练数据准备

利用步骤S3的特征向量生成方法，对每一份录音数据都进行特征向量的生成，同时人工标注出其类别标签。其中的一种有效的存储格式如下所示：

步骤S4.2.2：特征节点的选择

利用步骤S4.2.1生成训练数据集D，总数量为N，一共可以分为4个类别(K)，即“拒绝受访”，“当前正忙”，“积极配合”，“有限配合”。计算出每一个类别在总数据集中的占比，记为p_k；

据此训练数据集，对决策树中的每一个节点进行特征的选择。

具体的，每一层节点一共有4种特征可供选择，

特征1(录音时长特征)记为A₁，该特征可能的V₁个取值记为

特征2(录音等待时长特征)记为A₂，该特征可能的V₂个取值记为

特征3(录音完成度特征)记为A₃，该特征可能的V₃个取值记为

特征4(关键词匹配特征)记为A₄，该特征可能的V₄个取值记为

每一层节点特征选择的依据，将采取信息增益这个量来作为纯度的度量。即选取使得信息增益最大的特征进行分裂。

具体的，信息增益的计算公式为：

infoGain(D|A_i)＝Entropy(D)-Entropy(D|A_i)

其意义即为，选择特征i的信息增益。

其中，Entropy(D)，的计算公式如下：

其中，条件熵Entropy(D|A_i)，的计算公式如下：

其中，V表示特征A_i的取值个数，D^v表示数据集D中，所有在特征A_i上，取值为的样本个数。

具体的，假设选择A₁，则根据步骤S3.1，其可能的取值只有10种(即10个类别)，其条件熵的计算公式如下：

基于上述计算公式可以得出各个特征的信息增益。

具体的，在本发明实施例中，按信息熵的增益排序，第一层的节点特征为A₄(关键词匹配特征)，第二层的节点特征为A₃(录音完成度特征)，第三层的节点特征为A₁(录音时长特征)，第四层的节点特征为A₂(录音等待时长特征)。确定好各层的特征节点后，对应的决策树模型也就生成了。

步骤S4.3：利用训练好的决策树模型，对用户进行分类预测，得到分类结果。

与前述一种智能外呼客服系统的录音审核分类方法的实施例相对应，本发明还提供了一种智能外呼客服系统的录音审核分类装置的实施例。

参见图2，本发明实施例提供的一种智能外呼客服系统的录音审核分类装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的一种智能外呼客服系统的录音审核分类方法。

本发明一种智能外呼客服系统的录音审核分类装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本发明一种智能外呼客服系统的录音审核分类装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种智能外呼客服系统的录音审核分类方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种智能外呼客服系统的录音审核分类方法，其特征在于包括如下步骤：

步骤S2：将音频信息通过自动语音识别模块，转换为文本信息，同时，将每一轮次的智能客服文本信息和目标用户文本信息，输入到文本处理模块，推理每一轮次的问题和答复的相关性，以此为依据判断该轮次的完成度；

步骤S3.1：针对录音的总音频时长，构建基于总音频时长的独热编码特征，记为特征1；

步骤S3.2：针对录音的接通等待时长，构建基于接通等待时长的独热编码特征，记为特征2；

步骤S3.3：针对录音的问答轮次及完成度，构建基于问答轮次及完成度的独热编码特征，记为特征3；

步骤S3.4：针对录音的文本信息，构建基于文本信息的关键词独热编码特征，记为特征4；

步骤S4：利用生成的特征向量，根据预设的模型识别路径，对用户配合度进行分类，包括如下步骤：

步骤S4.1：针对未接通的用户，利用特征4，构建关键词匹配策略，区分用户配合度类别；

步骤S4.2：针对接通的用户，采用决策树模型，基于特征1至特征4生成训练数据集，计算每一个类别在总数据集中的占比，以此训练决策树中的每一个节点进行特征的选择，利用训练好的决策树模型，对用户配合度进行分类。

2.根据权利要求1所述的一种智能外呼客服系统的录音审核分类方法，其特征在于：所述步骤S2中，将问题和答复两句话，利用预训练模型，转化为句向量，再计算两句话的余弦距离相似度。

3.根据权利要求1所述的一种智能外呼客服系统的录音审核分类方法，其特征在于：

所述步骤S3.1中，设定特征长度为l₁，以t₁秒为一个间隔设为一个类别，若大于(l₁-1)*t₁秒，则默认为第l₁个类别；

4.根据权利要求1所述的一种智能外呼客服系统的录音审核分类方法，其特征在于：所述步骤S3.4中，设定该独热编码特征的长度等于关键词列表的长度，每个关键词占据一个维度特征，若无完全匹配的关键词，则视为没有匹配，该独热编码特征全部置0。

5.根据权利要求1所述的一种智能外呼客服系统的录音审核分类方法，其特征在于：所述步骤S3.4中，关键词列表如下：

6.根据权利要求1所述的一种智能外呼客服系统的录音审核分类方法，其特征在于：所述步骤S3.4中，针对未接通用户的情况，仅考虑音频的最后时间t₃内的涉及运营商的语音提示音转化而来的文本信息。

7.根据权利要求1所述的一种智能外呼客服系统的录音审核分类方法，其特征在于：所述步骤S4.2包括如下步骤：

8.根据权利要求7所述的一种智能外呼客服系统的录音审核分类方法，其特征在于：所述步骤S4.2.2中，信息增益的计算公式为：

infoGain(D|A_i)＝Entropy(D)-Entropy(D|A_i)

9.一种智能外呼客服系统的录音审核分类装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8中任一项所述的一种智能外呼客服系统的录音审核分类方法。