CN112732871B

CN112732871B - 一种机器人催收获取客户意向标签的多标签分类方法

Info

Publication number: CN112732871B
Application number: CN202110037569.5A
Authority: CN
Inventors: 李电祥; 陈学珉; 毛骏
Original assignee: Shanghai Changsheng Computer Technology Co ltd
Current assignee: Shanghai Changsheng Computer Technology Co ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2023-04-28
Anticipated expiration: 2041-01-12
Also published as: CN112732871A

Abstract

本申请公开了一种机器人催收获取客户意向标签的多标签分类方法、装置、设备及介质。该方法包括：获取催收语音数据，并利用自动语音识别技术将所述催收语音数据转化为文本信息，以得到目标文本数据；将目标文本数据与预设正则表达式进行匹配，得到第一预测标签集；通过构建词共现矩阵对所述目标文本数据进行特征提取以得到特征词集，并将特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集；基于第一预测标签集和第二预测标签集得到客户意向标签集。本申请，通过结合正则匹配和含有注意力机制的多标签分类模型，确定出客户意向标签，提高了多标签分类的准确性，提高了对客户意向识别的能力。

Description

一种机器人催收获取客户意向标签的多标签分类方法

技术领域

本发明涉及自然语言处理领域，特别涉及一种机器人催收获取客户意向标签的多标签分类方法、装置、设备及介质。

背景技术

当前，随着人工智能的不断发展，智能机器客服的应用场景越来越广泛，例如在信用卡贷后催收方面，机器人开始逐步替代人工进行催收工作，从而减少催收的企业成本，在成熟的催收团队中，会使用机器人完成第一轮催收，并通过与客户的对话中确定客户的初步意向，并根据客户的初步意向筛选出部分客户进行第二轮人工催收工作，从而达到在高效与人力成本的之间的平衡。但是，机器人在催收过程中会出现无法理解客户表达意愿的情况，特别是在口语化严重的电话催收过程中，因此，如何在第一轮的机器人催收过程中准确获得客户的意向成为催收的关键。现有技术中，利用机器学习法对与文本内容进行分类，通过将问题转为多个不同的问题子集的方式为文本内容添加标签，或通过集成算法来解决，scikit-multilearn库提供了多种算法用于解决多分类任务，但是这些方式没有考虑标签间的相关性，实际应用时准确性不高，降低了多标签分类的准确性。

发明内容

有鉴于此，本发明的目的在于提供一种机器人催收获取客户意向标签的多标签分类方法、装置、设备及介质，能够提高客户意向标签分类的准确性。其具体方案如下：

第一方面，本申请公开了一种机器人催收获取客户意向标签的多标签分类方法，包括：

获取催收语音数据，并利用自动语音识别技术将所述催收语音数据转化为文本信息，以得到目标文本数据；

将所述目标文本数据与预设正则表达式进行匹配，得到第一预测标签集；

通过构建词共现矩阵对所述目标文本数据进行特征提取以得到特征词集，并将所述特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集；

基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集。

可选的，所述通过构建词共现矩阵对所述目标文本数据进行特征提取以得到特征词集，包括：

对所述目标文本数据进行语料预处理得到处理后文本数据，并基于所述处理后文本数据构建词共现矩阵；

利用BERT模型对所述词共现矩阵的词语进行语义相似度计算，并根据计算得到的语义相似度对所述词共现矩阵的词语添加词语权重；

从所述含有词语权重的词共现矩阵中筛选出预设数量的共现词语，以得到所述特征词集。

可选的，所述多标签分类模型的构建过程，包括：

按照BERT嵌入层、双向门控循环单元、注意力模块、全连接层和softmax层的顺序构造神经网络模型；

获取催收文本数据，并对每条催收文本数据添加对应的意向标签；

将含有所述意向标签的催收文本数据划分为训练集、验证集和测试集，将所述训练集输入至所述神经网络模型进行训练，并通过所述验证集和所述测试集进行验证和测试，以得到所述标签分类模型。

可选的，所述将所述特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集，包括：

将所述特征词集输入至所述多标签分类模型，通过BERT嵌入层进行向量化操作，并通过双向门控循环单元进行特征提取得到文本特征；

基于所述文本特征得到作为所述注意力模块输入的矩阵Q、矩阵K和矩阵V，并根据预设维度参数，对所述矩阵Q和矩阵K进行尺寸扩大处理；

将所述矩阵V、扩大后矩阵Q和扩大后矩阵K输入至所述注意力模块，并将所述注意力模块的输出结果输入至全连接层和softmax层，以得到所述第二预测标签集。

可选的，所述基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集，包括：

对所述第一预测标签集和所述第二预测标签集进行冲突检测，判断是否存在冲突标签；

若存在，则剔除所述第二预测标签集中与所述冲突标签对应的标签，得到剔除后第二预测标签集；

计算所述第一预测标签集和所述剔除后第二预测标签集的并集，以得到所述客户意向标签集。

第二方面，本申请公开了一种机器人催收获取客户意向标签的多标签分类装置，包括：

文本数据获取模块，用于获取催收语音数据，并利用自动语音识别技术将所述催收语音数据转化为文本信息，以得到目标文本数据；

第一预测标签集确定模块，用于将所述目标文本数据与预设正则表达式进行匹配，得到第一预测标签集；

第二预测标签集确定模块，用于通过构建词共现矩阵对所述目标文本数据进行特征提取以得到特征词集，并将所述特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集；

客户意向标签集确定模块，用于基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集。

可选的，所述第二预测标签集确定模块，包括：

词共现矩阵构建单元，用于对所述目标文本数据进行语料预处理得到处理后文本数据，并基于所述处理后文本数据构建词共现矩阵；

语义相似度计算单元，用于利用BERT模型对所述词共现矩阵的词语进行语义相似度计算，并根据计算得到的语义相似度对所述词共现矩阵的词语添加词语权重；

特征词集确定单元，用于从所述含有词语权重的词共现矩阵中筛选出预设数量的共现词语，以得到所述特征词集。

可选的，所述客户意向标签集确定模块，包括：

冲突检测单元，用于对所述第一预测标签集和所述第二预测标签集进行冲突检测，判断是否存在冲突标签；

标签剔除单元，用于若所述冲突检测单元的检测结果为存在，则剔除所述第二预测标签集中与所述冲突标签对应的标签，得到剔除后第二预测标签集；

并集计算单元，用于计算所述第一预测标签集和所述剔除后第二预测标签集的并集，以得到所述客户意向标签集。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的机器人催收获取客户意向标签的多标签分类方法。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中计算机程序被处理器执行时实现前述的机器人催收获取客户意向标签的多标签分类方法。

本申请中，获取催收语音数据，并利用自动语音识别技术将所述催收语音数据转化为文本信息，以得到目标文本数据；将所述目标文本数据与预设正则表达式进行匹配，得到第一预测标签集；同时，通过构建词共现矩阵对所述目标文本数据进行特征提取以得到特征词集，并将所述特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集；然后基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集。通过预设正则表达式可以确定出部分简单常见的客户意向标签，然后利用基于注意力机制构建的多标签分类模型进一步确定多个客户意向标签，并通过构建词共现矩阵提高特征词集的质量，最后基于第一预测标签集和第二预测标签集确定出客户意向标签集，提高了多标签分类的准确性，提高了客户意向的识别能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种机器人催收获取客户意向标签的多标签分类方法流程图；

图2为本申请提供的一种具体的机器人催收获取客户意向标签的多标签分类方法流程图；

图3为本申请提供的一种文本特征提取方法流程图；

图4为本申请提供的一种具体的机器人催收获取客户意向标签的多标签分类方法流程图；

图5为本申请提供的一种机器人催收获取客户意向标签的多标签分类装置结构示意图；

图6为本申请提供的一种电子设备结构图。

具体实施方式

现有技术中，利用机器学习法对与文本内容进行分类，通过将问题转为多个不同的问题子集的方式为文本内容添加标签，或通过集成算法来解决，scikit-multilearn库提供了多种算法用于解决多分类任务，但是这些方式没有考虑标签间的相关性，实际应用时准确性不高，降低了多标签分类的准确性。为克服上述技术问题，本申请提出一种机器人催收获取客户意向标签的多标签分类方法，可以提高多标签分类的准确性，提高了客户意向的识别能力。

本申请实施例公开了一种机器人催收获取客户意向标签的多标签分类方法，参见图1所示，该方法可以包括以下步骤：

步骤S11：获取催收语音数据，并利用自动语音识别技术将所述催收语音数据转化为文本信息，以得到目标文本数据。

本实施例中，首先获取目标客户的机器人催语音数据，然后通过自动语音识别技术(ASR，Automatic Speech Recognition)将获取的针对目标客户的催收语音数据转化为文本信息，以得到目标文本信息；

步骤S12：将所述目标文本数据与预设正则表达式进行匹配，得到第一预测标签集。

本实施例中，在得到上述目标文本数据后，利用预设正则表达式与上述目标文本数据进行匹配，根据匹配结果确定出第一预测标签集；可以理解的是，在实际的催收过程中，对于一些简单的客户意向标签，可以通过预设正则模版进行匹配以直接获取到可以表征客户意向的第一预测标签集，例如，在通话开始阶段，智能客服会询问是否为信用卡使用者，客户回答是或是的等肯定词时，则可以确定出用户本人这一标签。对于对话中常见的问题及内容，利用预设正则表达式通过视后匹配确定出第一预测标签集，可以大幅度提高客户意向识别的速度和准确率。

步骤S13：通过构建词共现矩阵对所述目标文本数据进行特征提取以得到特征词集，并将所述特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集。

本实施例中，在得到上述目标文本数据后，基于上述目标文本数据并通过构建词共现矩阵的方式进行特征提取，以确定出特征词集，可以理解的是，词共现矩阵可以用于描述词之间的相关性，当两个词同时出现在同一文本中，那么大概率可以认为两者具有一定的相关性，如果出现的频率越多，则两者的相关性越强。然后将根据词共现矩阵确定出的特征词集，输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集。可以理解的是，此时得到的第二预测标签集中的标签相比与上述第一预测标签集的标签更加细化和深入，得到更加复杂的可以表征用户意图的标签。

需要说明的是，上述步骤S12与步骤S13可以同时进行。

步骤S14：基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集。

本实施例中，在得到上述第一预测标签集和上述第二预测标签集后，基于上述第一预测标签集和上述第二预测标签集确定出表征目标客户意向的客户意向标签集。

本实施例中，所述基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集，可以包括：对所述第一预测标签集和所述第二预测标签集进行冲突检测，判断是否存在冲突标签；若存在，则剔除所述第二预测标签集中与所述冲突标签对应的标签，得到剔除后第二预测标签集；计算所述第一预测标签集和所述剔除后第二预测标签集的并集，以得到所述客户意向标签集。可以理解是，由于预设正则表达式匹配到的标签的精确度极高，而基于注意力机制构建的多标签分类模型得到的标签，可能由于网络参数的设置不当导致预测出一些异常标签，因此将第二预测标签集与第一预测标签集进行比较，剔除掉第二预测标签集中与第一预测标签集中表述含义相反的标签后，再将第一预测标签集和剔除后第二预测标签集取并集，以得到上述客户意向标签集，通过取并集可以剔除标签中的冗余数据，即重复的标签；如果没有冲突的标签，则直接取上述第一预测标签集与上述第二预测标签集的并集，得到上述客户意向标签集。例如，若第一预测标签集中含有暂时无法还款的标签，而第二预测标签集含有承诺还款的标签，则在这种情况下以第一预测标签集中的标签为准，并去除第二预测标签集中的冲突标签。由此一来，提高了标签确定的全面性和准确性。

由上可见，本实施例中获取催收语音数据，并利用自动语音识别技术将所述催收语音数据转化为文本信息，以得到目标文本数据，然后将所述目标文本数据与预设正则表达式进行匹配，得到第一预测标签集；同时，通过构建词共现矩阵对所述目标文本数据进行特征提取以得到特征词集，并将所述特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集；最后，基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集。通过预设正则表达式可以确定出部分简单常见的客户意向标签，然后利用基于注意力机制构建的多标签分类模型进一步确定多个客户意向标签，并通过构建词共现矩阵提高特征词集的质量，最后基于第一预测标签集和第二预测标签集确定出客户意向标签集，提高了多标签分类的准确性，提高了客户意向的识别能力。

本申请实施例公开了一种具体的机器人催收获取客户意向标签的多标签分类方法，参见图2所示，该方法可以包括以下步骤：

步骤S21：获取催收语音数据，并利用自动语音识别技术将所述催收语音数据转化为文本信息，以得到目标文本数据。

步骤S22：将所述目标文本数据与预设正则表达式进行匹配，得到第一预测标签集。

步骤S23：对所述目标文本数据进行语料预处理得到处理后文本数据，并基于所述处理后文本数据构建词共现矩阵。

本实施例中，在得到上述目标文本数据后，例如图3所示，对上述目标文本数据进行预料预处理，得到处理后文本数据，其中，上述语料预处理包括但不限于去重复语句、去标点符号、去停用词和分词。由此一来，可以避免语音对话中出现的字数短、口语化严重和多省略句等情况。然后根据语料预处理得到处理后文本数据构建词共现矩阵。

步骤S24：利用BERT模型对所述词共现矩阵的词语进行语义相似度计算，并根据计算得到的语义相似度对所述词共现矩阵的词语添加词语权重。

本实施例中，得到上述词共现矩阵后，例如图3所示，利用BERT模型对上述词共现矩阵的词语进行语义相似度计算，并根据计算得到的语义相似度对上述词共现矩阵的词语添加词语权重。具体的，通过BERT模型对词共现矩阵中的词语进行向量化操作，根据向量化词语计算词语之间的相似度，根据计算得到的语义相似度对词共现矩阵的词语添加词语权重，即在词共现矩阵的基础上增加分词词语的语义相似度。可以理解的是，词共现矩阵通过词频能够体现出词语与词语之间的相关性，但是却也忽略了词语本身的语义，对于相似语义但共现频率低的两个词语无法通过词频来衡量两者之间的真实相似度，因此，通过BERT模型的嵌入层(embedding层)，将低维的词语映射到高维空间中，并采用余弦距离来衡量两个词语的相似度，以作为词共现矩阵的权重数值。

步骤S25：从所述含有词语权重的词共现矩阵中筛选出预设数量的共现词语，以得到所述特征词集。

本实施例中，在得到上述含有词语权重的词共现矩阵后，根据词语的权重以及共现频率按照从高到低的顺序筛选出预设数量的共现词语，以得到上述目标文本数据的特征词集。

步骤S26：将所述特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集。

本实施例中，在得到上述特征词集后，将上述特征词集输入至预先基于注意力机制构建的多标签分类模型，根据多标签分类模型的输出结果得到上述第二预测标签集。

本实施例中，所述多标签分类模型的构建过程，可以包括：按照BERT嵌入层、双向门控循环单元(Bi-GRU，Bi-Gate Recurrent Unit)、注意力模块、全连接层(FC layer)和softmax层(softmax layer)的顺序构造神经网络模型；获取催收文本数据，并对每条催收文本数据添加对应的意向标签；将含有所述意向标签的催收文本数据划分为训练集、验证集和测试集，将所述训练集输入至所述神经网络模型进行训练，并通过所述验证集和所述测试集进行验证和测试，以得到所述标签分类模型。可以理解的是，获取历史催收语音数据，然后通过自动语音识别技术将上述历史催收语音数据转化为催收文本数据，并通过人工方式对每条催收文本数据标注上与文本内容对应的意向标签，其中，每条催收文本数据可以含有一个或多个意向标签，然后将含有意向标签的催收文本数据划分为训练集、验证集和测试集，再将训练集输入至神经网络模型，训练集依次通过BERT嵌入层、双向门控循环单元、注意力模块、全连接层和softmax层进行多次迭代收敛，并通过验证集和测试集进行验证和测试，最终得到上述多标签分类模型。其中，上述意向标签的标注可以根据实际需要进行标注。并且，通过将包含一个或多个向标签的催收文本数据输入至神经网络模型进行训练，模型训练过程中可以学习到标签之间的关联性，通过对标签进行整体的学习，提高了多标签分类模型的分类能力。

本实施例中，所述将所述特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集，可以包括：将所述特征词集输入至所述多标签分类模型，通过BERT嵌入层进行向量化操作，并通过双向门控循环单元进行特征提取得到文本特征；基于所述文本特征得到作为所述注意力模块输入的矩阵Q、矩阵K和矩阵V，并根据预设维度参数，对所述矩阵Q和矩阵K进行尺寸扩大处理；将所述矩阵V、扩大后矩阵Q和扩大后矩阵K输入至所述注意力模块，并将所述注意力模块的输出结果输入至全连接层和softmax层，以得到所述第二预测标签集。

可以理解的是，特征词集输入至多标签分类模型后，首先经由BERT嵌入层转为词嵌入向量，然后经过双向门控循环单元进行长距离之间的特征提取，挖掘上下文信息以得到文本特征，然后，基于文本特征生成作为注意力模块输入的矩阵Q、矩阵K和矩阵V，并根据预设维度参数，对矩阵Q和矩阵K进行尺寸扩大处理，然后将矩阵V、扩大后矩阵Q和扩大后矩阵K输入至注意力模块。可以理解的是，上述注意力模块的注意力机制是一种能让模型对重要信息重点关注并充分学习吸收的技术，但由于注意力模块本身网络结构存在的低秩性，本实施例中，通过增加矩阵K、矩阵Q的尺寸来克服网络结构的缺陷，提高模型的效果。然后，将注意力模块的输出结果输入至全连接层和softmax层，进行归一化输出，以得到第二预测标签集。

具体的，上述注意力模块的注意力公式为：

其中，Q、K、V均为注意力模块的输入矩阵，

Q是大小为n×d_k的矩阵，K是大小为n×d_k的矩阵，V是大小为m×d_v的矩阵；本实施例中，在原有技术的注意力机制中通过预设维度参数调整d_k的数值，由此，增大矩阵K、矩阵Q的尺寸，以克服注意力模块本身网络结构低秩性的缺陷。

步骤S27：基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集。

例如图4所示，本实施例中，通过基于正则匹配结合注意力机制的多标签分类的分类方法，对客户意向进行识别。具体的，首先将机器人催收的语音数据通过ASR技术转为目标文本数据，基于目标文本数据和预设正则表达式得到第一预测标签集，同时，基于目标文本数据和以改进注意力机制为核心的神经网络模型得到第二预测标签集；并且，在第二预测标签集确定中，首先对目标文本数据进行特征提取，在特征提取中，通过构建词共现矩阵加语义相似度的方式来得到语句的加权词共现矩阵，以确定特征词集；并在神经网络训练模块中，数据进入Bi-GRU和改进的注意力机制的模块中训练。最后，将两种方式得到的第一预测标签集和第二预测标签集进行冲突检测，以输出最终的意向标签集。可见，本实施例中针对机器人催收获取客户意向标签，为下一步人工催收进行初步客户筛选，采用正则匹配并结合注意力机制进行多标签分类，充分提取文本特征，有效挖掘文本上下文信息和潜在语义联系，提高了模型预测多标签任务的准确率和实际预测效率。

其中，关于上述步骤S21、步骤S22、步骤S27的具体过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

相应的，本申请实施例还公开了一种机器人催收获取客户意向标签的多标签分类装置，参见图5所示，该装置包括：

文本数据获取模块11，用于获取催收语音数据，并利用自动语音识别技术将所述催收语音数据转化为文本信息，以得到目标文本数据；

第一预测标签集确定模块12，用于将所述目标文本数据与预设正则表达式进行匹配，得到第一预测标签集；

第二预测标签集确定模块13，用于通过构建词共现矩阵对所述目标文本数据进行特征提取以得到特征词集，并将所述特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集；

客户意向标签集确定模块14，用于基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集。

由上可见，本实施例中获取催收语音数据，并利用自动语音识别技术将所述催收语音数据转化为文本信息，以得到目标文本数据，然后将所述目标文本数据与预设正则表达式进行匹配，得到第一预测标签集；同时，通过构建词共现矩阵对所述目标文本数据进行特征提取以得到特征词集，并将所述特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集；最后，基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集。通过预设正则表达式可以确定出部分简单常见的客户意向标签标签，然后利用基于注意力机制构建的多标签分类模型进一步确定多个客户意向标签，并通过构建词共现矩阵提高特征词集的质量，最后基于第一预测标签集和第二预测标签集确定出客户意向标签集，提高了多标签分类的准确性，提高了客户意向的识别能力。

在一些具体实施例中，所述第二预测标签集确定模块13具体可以包括：

在一些具体实施例中，所述客户意向标签集确定模块14具体可以包括：

进一步的，本申请实施例还公开了一种电子设备，参见图6所示，图中的内容不能被认为是对本申请的使用范围的任何限制。

图6为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的机器人催收获取客户意向标签的多标签分类方法中的相关步骤。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及包括目标文本数据在内的数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的机器人催收获取客户意向标签的多标签分类方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的机器人催收获取客户意向标签的多标签分类方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种机器人催收获取客户意向标签的多标签分类方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种机器人催收获取客户意向标签的多标签分类方法，其特征在于，包括：

基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集；

其中，所述通过构建词共现矩阵对所述目标文本数据进行特征提取以得到特征词集，包括：

利用BERT模型对所述词共现矩阵对应的词语进行语义相似度计算，并根据计算得到的语义相似度对所述词共现矩阵对应的词语添加词语权重；

从所述含有词语权重的词共现矩阵中筛选出预设数量的共现词语，以得到所述特征词集；

其中，所述多标签分类模型的构建过程，包括：

将含有所述意向标签的催收文本数据划分为训练集、验证集和测试集，将所述训练集输入至所述神经网络模型进行训练，并通过所述验证集和所述测试集进行验证和测试，以得到所述标签分类模型；

其中，所述将所述特征词集输入至预先基于注意力机制构建的多标签分类模型，以得到第二预测标签集，包括：

将所述矩阵V、扩大后矩阵Q和扩大后矩阵K输入至所述注意力模块，并将所述注意力模块的输出结果输入至全连接层和softmax层，以得到所述第二预测标签集；

其中，所述基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集，包括：

2.一种机器人催收获取客户意向标签的多标签分类装置，其特征在于，包括：

第一预测标签集确定模块，用于将所述目标文本数据与预设正则模板进行匹配，得到第一预测标签集；

客户意向标签集确定模块，用于基于所述第一预测标签集和所述第二预测标签集得到客户意向标签集；

其中，所述第二预测标签集确定模块，包括：

语义相似度计算单元，用于利用BERT模型对所述词共现矩阵对应的词语进行语义相似度计算，并根据计算得到的语义相似度对所述词共现矩阵对应的词语添加词语权重；

特征词集确定单元，用于从所述含有词语权重的词共现矩阵中筛选出预设数量的共现词语，以得到所述特征词集；

其中，所述客户意向标签集确定模块，包括：

并集计算单元，用于计算所述第一预测标签集和所述剔除后第二预测标签集的并集，以得到所述客户意向标签集；

其中，所述多标签分类装置，包括多标签分类模型构建模块，用于按照BERT嵌入层、双向门控循环单元、注意力模块、全连接层和softmax层的顺序构造神经网络模型；获取催收文本数据，并对每条催收文本数据添加对应的意向标签；将含有所述意向标签的催收文本数据划分为训练集、验证集和测试集，将所述训练集输入至所述神经网络模型进行训练，并通过所述验证集和所述测试集进行验证和测试，以得到所述标签分类模型；

其中，所述第二预测标签集确定模块，还用于将所述特征词集输入至所述多标签分类模型，通过BERT嵌入层进行向量化操作，并通过双向门控循环单元进行特征提取得到文本特征；基于所述文本特征得到作为所述注意力模块输入的矩阵Q、矩阵K和矩阵V，并根据预设维度参数，对所述矩阵Q和矩阵K进行尺寸扩大处理；将所述矩阵V、扩大后矩阵Q和扩大后矩阵K输入至所述注意力模块，并将所述注意力模块的输出结果输入至全连接层和softmax层，以得到所述第二预测标签集。

3.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1所述的机器人催收获取客户意向标签的多标签分类方法。

4.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中计算机程序被处理器执行时实现如权利要求1所述的机器人催收获取客户意向标签的多标签分类方法。