CN111814467A

CN111814467A - 催收通话的标签建立方法、装置、电子设备及介质

Info

Publication number: CN111814467A
Application number: CN202010612171.5A
Authority: CN
Inventors: 邓真
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-23

Abstract

本发明涉及数据处理，提供一种催收通话的标签建立方法、装置、电子设备及介质。该方法在人工智能领域中，获取目标时间并提取催收通话音频，将催收通话音频转换为催收文本并进行预处理，得到多个分词，将多个分词输入至预先训练好的第一模型中，得到第一标签，根据第一标签选取预先训练好的第二模型，将多个分词输入至第二模型中，得到第二标签，计算第二标签的逾期率及置信区间，当检测到逾期率在置信区间内时，将第二标签确定为催收通话音频的目标标签，不仅能够在不受人为因素的干扰下，保证目标标签的准确性，以使目标标签能有效地被应用，还能加快对催收通话音频的标注速度。此外，本发明还涉及区块链技术，目标标签可存储于区块链中。

Description

催收通话的标签建立方法、装置、电子设备及介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种催收通话的标签建立方法、装置、电子设备及介质。

背景技术

对于智能催收工作者而言，为催收通话音频打标签能够帮助相关从业者快速进行逾期分析，因此，为催收通话建立标签是十分必要的。

在现有的催收通话的标签建立的技术方案中，采用人工的方式理解通话音频的含义，进而根据含义确定通话音频的标签，然而，这种方式会受到用户对通话音频及标签理解的限制，将导致建立的标签准确率低。

发明内容

鉴于以上内容，有必要提供一种催收通话的标签建立方法、装置、电子设备及介质，不仅能够在不受人为因素的干扰下，保证目标标签的准确性，还能加快对催收通话音频的标注速度。

一种催收通话的标签建立方法，所述催收通话的标签建立方法包括：

当接收到标签建立请求时，从所述标签建立请求中获取目标时间；

根据所述目标时间从催收语音平台提取催收通话音频；

将所述催收通话音频转换为所述催收通话音频对应的催收文本；

对所述催收文本进行预处理，得到所述催收通话音频对应的多个分词；

将所述多个分词输入至预先训练好的第一模型中，得到所述催收通话音频对应的第一标签；

根据所述第一标签从配置模型库中选取预先训练好的第二模型；

将所述多个分词输入至所述第二模型中，得到所述催收通话音频对应的第二标签；

计算所述第二标签的逾期率及所述第二标签的置信区间；

当检测到所述第二标签的逾期率在所述置信区间内时，将所述第二标签确定为所述催收通话音频的目标标签。

根据本发明优选实施例，所述将所述催收通话音频转换为所述催收通话音频对应的催收文本包括：

采用移动窗函数对所述催收通话音频按照预设时长进行分割，得到至少一帧语音；

对所述至少一帧语音中每帧语音进行预处理；

计算预处理后的每帧语音的能量值；

当检测到第一语音之前存在连续预设帧的能量值小于能量值阈值，及所述第一语音之后存在连续所述预设帧的能量值大于所述能量值阈值时，将所述第一语音确定为前端点；

当检测到第二语音之前存在连续所述预设帧的能量值大于所述能量值阈值，及所述第二语音之后存在连续所述预设帧的能量值小于所述能量值阈值时，将所述第二语音确定为后端点；

将所述前端点至所述后端点之间的语音确定为目标音频；

对所述目标音频进行语音识别，得到所述催收文本。

根据本发明优选实施例，所述对所述催收文本进行预处理，得到所述催收通话音频对应的多个分词包括：

根据自定义词典对所述催收文本进行切分，得到切分位置；

根据所述切分位置，构建至少一个有向无环图；

根据所述自定义词典中的权值计算每个有向无环图的概率；

将概率最大的有向无环图对应的切分位置确定为目标切分位置；

根据所述目标切分位置确定多个特征词；

确定所述多个特征词中的冗余信息；

采用去冗余算法处理所述冗余信息，得到所述多个分词。

根据本发明优选实施例，在将所述多个分词输入至预先训练好的第一模型中，得到所述催收通话音频对应的第一标签之前，所述催收通话的标签建立方法还包括：

获取历史催收样本集；

将所述历史催收样本集划分为训练催收样本集及验证催收样本集；

生成每个训练催收样本的训练催收文本的输入向量序列，每个训练催收样本包括训练催收文本及类别；

以每个训练催收文本的输入向量序列为输入，基于BERT模型计算每个训练催收文本的输出向量序列；

以每个训练催收文本的输出向量序列为输入，基于全连接层计算每个训练催收文本的文本向量；

根据所述文本向量及所述类别优化所述BERT模型和所述全连接层，将优化后的BERT模型和全连接层作为学习器；

根据所述验证催收样本集中的验证催收样本调整所述学习器，得到所述第一模型。

根据本发明优选实施例，所述生成每个训练催收样本的训练催收文本的输入向量序列包括：

对每个训练催收文本进行分词，得到每个训练催收文本的词组；

根据预设编码表获取每个训练催收文本的每个词组的编码向量；

根据每个训练催收文本的每个词组的位置编号生成每个词组的位置向量；

拼接每个词组的编码向量及每个词组的位置向量，得到每个词组的编码输入向量；

依词序组合每个训练催收文本的每个词语的编码输入向量，得到每个训练催收文本的输入向量序列。

根据本发明优选实施例，所述计算所述第二标签的逾期率包括：

确定所述第二标签对应的催收通话音频的总数量；

获取标识为逾期的催收通话音频，作为逾期通话音频，并计算所述第二标签对应的逾期通话音频的目标数量；

将所述第二标签对应的目标数量除以所述第二标签对应的总数量，得到所述第二标签的逾期率。

根据本发明优选实施例，所述目标标签存储于区块链中，在将逾期率在置信区间的第二标签确定为所述催收通话音频的目标标签后，所述催收通话的标签建立方法还包括：

获取所述标签建立请求的请求编号；

根据所述请求编号及所述目标标签生成提示信息；

采用对称加密技术加密所述提示信息，得到密文；

将所述密文发送至指定联系人的终端设备。

一种催收通话的标签建立装置，所述催收通话的标签建立装置包括：

获取单元，用于当接收到标签建立请求时，从所述标签建立请求中获取目标时间；

提取单元，用于根据所述目标时间从催收语音平台提取催收通话音频；

转换单元，用于将所述催收通话音频转换为所述催收通话音频对应的催收文本；

预处理单元，用于对所述催收文本进行预处理，得到所述催收通话音频对应的多个分词；

输入单元，用于将所述多个分词输入至预先训练好的第一模型中，得到所述催收通话音频对应的第一标签；

选取单元，用于根据所述第一标签从配置模型库中选取预先训练好的第二模型；

所述输入单元，还用于将所述多个分词输入至所述第二模型中，得到所述催收通话音频对应的第二标签；

计算单元，用于计算所述第二标签的逾期率及所述第二标签的置信区间；

确定单元，用于当检测到所述第二标签的逾期率在所述置信区间内时，将所述第二标签确定为所述催收通话音频的目标标签。

一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现所述催收通话的标签建立方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现所述催收通话的标签建立方法。

由以上技术方案可以看出，本发明通过第一模型、第二模型及逾期率与置信区间的数学关系，能够在不受人为因素的干扰下，保证目标标签的准确性，进而使目标标签能有效地被应用，另外，本发明还能加快对所述催收通话音频的标注速度。

附图说明

图1是本发明催收通话的标签建立方法的较佳实施例的流程图。

图2是本发明催收通话的标签建立装置的较佳实施例的功能模块图。

图3是本发明实现催收通话的标签建立方法的较佳实施例的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，是本发明催收通话的标签建立方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

所述催收通话的标签建立方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(DigitalSignal Processor，DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能式穿戴式设备等。

所述电子设备还可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。

所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

S10，当接收到标签建立请求时，从所述标签建立请求中获取目标时间。

在本发明的至少一个实施例中，所述标签建立请求中的信息可以包括，但不限于：所述标签建立请求的请求编号、所述目标时间等。所述目标时间是个时间段。

在本发明的至少一个实施例中，所述标签建立请求可以由用户触发(例如：通过预设功能按键进行触发)，也可以在预设时间内自动触发，本发明不作限制。

其中，所述预设时间可以是个时间点(例如：每天早上九点)，也可以是个时间段。

在本发明的至少一个实施例中，所述电子设备从所述标签建立请求中确定标识，进一步地，所述电子设备从所述标签建立请求所携带的所有信息中提取与所述标识对应的信息，作为所述目标时间。

其中，所述标识为所述目标时间在所述标签建立请求中对应的标识。

S11，根据所述目标时间从催收语音平台提取催收通话音频。

在本发明的至少一个实施例中，当检测到用户向客户发起催收通话时，所述电子设备会触发所述催收语音平台的监听代码开启监听功能，通过监听通话的整个过程，所述催收语音平台将记载多个催收通话音频。所述催收语音平台上记载着多个催收通话音频及催收通话音频的通话时间。

在本发明的至少一个实施例中，所述电子设备将通话时间在所述目标时间内的音频进行提取，作为所述催收通话音频。

S12，将所述催收通话音频转换为所述催收通话音频对应的催收文本。

在本发明的至少一个实施例中，所述电子设备将所述催收通话音频转换为所述催收通话音频对应的催收文本包括：

所述电子设备采用移动窗函数对所述催收通话音频按照预设时长进行分割，得到至少一帧语音，并对所述至少一帧语音中每帧语音进行预处理，进一步地，所述电子设备计算预处理后的每帧语音的能量值，当检测到第一语音之前存在连续预设帧的能量值小于能量值阈值，及所述第一语音之后存在连续所述预设帧的能量值大于所述能量值阈值时，所述电子设备将所述第一语音确定为前端点，当检测到第二语音之前存在连续所述预设帧的能量值大于所述能量值阈值，及所述第二语音之后存在连续所述预设帧的能量值小于所述能量值阈值时，所述电子设备将所述第二语音确定为后端点，更进一步地，所述电子设备将所述前端点至所述后端点之间的语音确定为目标音频，所述电子设备对所述目标音频进行语音识别，得到所述催收文本。

其中，对语音进行预处理的方式可以包括去除直流及加窗等。

进一步地，所述预设时长可以根据需要进行调整，一般情况下，所述预设时长设置为20ms。

更进一步地，所述预设帧可以根据语音应用场景不同设置为不同的值，所述预设帧的具体值可以根据实际需求进行调整，本发明不作限制。

更进一步地，所述能量值阈值可以根据静音时的平均能量值确定，本发明也不作限制。

在人工智能领域中，通过对所述催收通话音频进行处理，能够对所述催收通话音频中的静音部分和噪声部分进行消除，不仅节省所述催收通话音频的存储空间，还提高所述催收通话音频的转换效率，进而基于语音识别对所述目标音频完成语音转写，能够准确将所述目标音频转换为所述催收文本。

S13，对所述催收文本进行预处理，得到所述催收通话音频对应的多个分词。

在本发明的至少一个实施例中，所述多个分词是在对所述催收文本分词后，进行去冗余处理后得到的。

在本发明的至少一个实施例中，所述电子设备对所述催收文本进行预处理，得到所述催收通话音频对应的多个分词包括：

所述电子设备根据自定义词典对所述催收文本进行切分，得到切分位置，并根据所述切分位置，构建至少一个有向无环图，所述电子设备根据所述自定义词典中的权值计算每个有向无环图的概率，进一步地，所述电子设备将概率最大的有向无环图对应的切分位置确定为目标切分位置，所述电子设备根据所述目标切分位置确定多个特征词，并确定所述多个特征词中的冗余信息，所述电子设备采用去冗余算法处理所述冗余信息，得到所述多个分词。

其中，所述自定义词典中存储着多个词组及每个词组对应的权值；所述冗余信息包括，但不限于：标点符号、停用词等。

采用自定义词典切分所述催收文本，能够根据需求切分所述催收文本，以得到多个特征词，进而对所述多个特征词中的冗余信息去冗余，不仅能够将多余的特征词删除，以避免多余的特征词影响模型的输出结果，还能够减少所述电子设备的占用内存。

S14，将所述多个分词输入至预先训练好的第一模型中，得到所述催收通话音频对应的第一标签。

在本发明的至少一个实施例中，所述第一标签包括还款意愿类、咨询类等。

在本发明的至少一个实施例中，在将所述多个分词输入至预先训练好的第一模型中，得到所述催收通话音频对应的第一标签之前，所述方法还包括：

所述电子设备获取历史催收样本集，所述电子设备将所述历史催收样本集划分为训练催收样本集及验证催收样本集，进一步地，所述电子设备生成每个训练催收样本的训练催收文本的输入向量序列，每个训练催收样本包括训练催收文本及类别，所述电子设备以每个训练催收文本的输入向量序列为输入，基于BERT模型计算每个训练催收文本的输出向量序列，更进一步地，所述电子设备以每个训练催收文本的输出向量序列为输入，基于全连接层计算每个训练催收文本的文本向量，所述电子设备根据所述文本向量及所述类别优化所述BERT模型和所述全连接层，将优化后的BERT模型和全连接层作为学习器，所述电子设备根据所述验证催收样本集中的验证催收样本调整所述学习器，得到所述第一模型。

通过对所述BERT模型和所述全连接层的优化及调整，能够准确地得到与催收通话音频对应的第一模型，为后续准确的确定催收通话音频对应的第一标签奠定基础。

在本发明的至少一个实施例中，所述电子设备生成每个训练催收样本的训练催收文本的输入向量序列包括：

所述电子设备对每个训练催收文本进行分词，得到每个训练催收文本的词组，所述电子设备根据预设编码表获取每个训练催收文本的每个词组的编码向量，并根据每个训练催收文本的每个词组的位置编号生成每个词组的位置向量，所述电子设备拼接每个词组的编码向量及每个词组的位置向量，得到每个词组的编码输入向量，所述电子设备依词序组合每个训练催收文本的每个词语的编码输入向量，得到每个训练催收文本的输入向量序列。

通过拼接每个词组的编码向量及位置向量，能够生成具有上下文语义特征的编码输入向量。

在本发明的至少一个实施例中，所述电子设备以每个训练催收文本的输出向量序列为输入，基于全连接层计算每个训练催收文本的文本向量包括：

所述电子设备将每个训练催收文本的输出向量序列乘以预设权重矩阵，并加上预设偏置值，得到每个训练催收文本的分数向量，对每个训练催收文本的分数向量进行归一化处理，得到每个训练催收文本的文本向量，其中，每个文本向量中所有维度的概率总和为1。

S15，根据所述第一标签从配置模型库中选取预先训练好的第二模型。

在本发明的至少一个实施例中，每个第一标签对应一个第二模型，也就是说，第一标签的数量与第二模型的数量相同。

在本发明的至少一个实施例中，所述电子设备训练所述第二模型的训练数据为相同的第一标签下的训练样本，另外，所述第二模型的训练方式与所述第一模型的训练方式相同，本发明对此不作赘述。

S16，将所述多个分词输入至所述第二模型中，得到所述催收通话音频对应的第二标签。

在本发明的至少一个实施例中，所述第二标签为所述第一标签下的标签，所述第二标签包括：足额存、未足额扣款等。也就是说，第一标签下含有至少一个个第二标签。

S17，计算所述第二标签的逾期率及所述第二标签的置信区间(Confidenceinterval)。

在本发明的至少一个实施例中，所述逾期率是指在相同的第二标签下，逾期通话音频在所有的催收通话音频中所占的比重；所述置信区间展现的是被测量参数的测量值的可信程度。

在本发明的至少一个实施例中，所述电子设备计算所述第二标签的逾期率包括：

所述电子设备确定所述第二标签对应的催收通话音频的总数量，所述电子设备获取标识为逾期的催收通话音频，作为逾期通话音频，并计算所述第二标签对应的逾期通话音频的目标数量，所述电子设备将所述第二标签对应的目标数量除以所述第二标签对应的总数量，得到所述第二标签的逾期率。

在本发明的至少一个实施例中，单个客户的逾期值服从概率为p的0-1分布，当客户数量大于1时，客户群体的逾期值服从概率为p的二项分布，其中，二项分布的均值为np，方差为npq。由中心极限定理可得，当客户群体的数量达到一定人数时，客户的逾期率满足中心极限定律

即客户的逾期率会服从均值为np，方差为npq的正态分布。经计算，以所述第二标签的催收通话音频为一个客户群体，能够得到所述第二标签的正态分布曲线。

在本发明的至少一个实施例中，所述电子设备计算所述第二标签的置信区间包括：

所述电子设备配置置信度，进一步地，所述电子设备采用数值1与配置的置信度进行相减运算，并将相减运算后的数值除以2，得到目标值，所述电子设备获取所述第二标签的正态分布曲线，在所述第二标签的正态分布曲线上，所述电子设备将横坐标为所述目标值对应的纵坐标确定为置信区间的上限值，并将横坐标为所述目标值的相反数对应的纵坐标确定为所述置信区间的下限值，所述电子设备根据所述置信区间的上限值及下限值，确定所述第二标签的置信区间。

例如：配置置信度为95％，采用数值1与配置的置信度进行相减运算，得到相减运算后的数值为1-95％＝5％＝0.05，目标值为0.25，进而得到置信区间为[a＝Z_{_0.25}，b＝Z_0.25]。

S18，当检测到所述第二标签的逾期率在所述置信区间内时，将所述第二标签确定为所述催收通话音频的目标标签。

需要强调的是，为进一步保证上述目标标签的私密和安全性，上述目标标签还可以存储于一区块链的节点中。

在本发明的至少一个实施例中，所述逾期率的大小是由所述第二标签下的逾期通话音频的数量与所述第二标签下的催收通话音频的数量决定，所述置信区间是由所述第二标签下的逾期通话音频的分布及置信度决定的，因此，所述第二标签的逾期率在所述置信区间内，也就是说，所述第二模型预测出的预测结果(第二标签)是正确的。

通过对所述第二标签的验证，能够准确地为所述催收通话音频建立目标标签。

在本发明的至少一个实施例中，在将逾期率在置信区间的第二标签确定为所述催收通话音频的目标标签后，所述方法还包括：

所述电子设备获取所述标签建立请求的请求编号，所述电子设备根据所述请求编号及所述目标标签生成提示信息，所述电子设备采用对称加密技术加密所述提示信息，得到密文，所述电子设备将所述密文发送至指定联系人的终端设备。

如图2所示，是本发明催收通话的标签建立装置的较佳实施例的功能模块图。所述催收通话的标签建立装置11包括获取单元110、提取单元111、转换单元112、预处理单元113、输入单元114、选取单元115、计算单元116、确定单元117、划分单元118、生成单元119、优化单元120、调整单元121、加密单元122及发送单元123。本发明所称的模块/单元是指一种能够被处理器13所执行，并且能够完成固定功能的一系列计算机程序段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。

当接收到标签建立请求时，获取单元110从所述标签建立请求中获取目标时间。

在本发明的至少一个实施例中，所述获取单元110从所述标签建立请求中确定标识，进一步地，所述获取单元110从所述标签建立请求所携带的所有信息中提取与所述标识对应的信息，作为所述目标时间。

提取单元111根据所述目标时间从催收语音平台提取催收通话音频。

在本发明的至少一个实施例中，当检测到用户向客户发起催收通话时，所述提取单元111会触发所述催收语音平台的监听代码开启监听功能，通过监听通话的整个过程，所述催收语音平台将记载多个催收通话音频。所述催收语音平台上记载着多个催收通话音频及催收通话音频的通话时间。

在本发明的至少一个实施例中，所述提取单元111将通话时间在所述目标时间内的音频进行提取，作为所述催收通话音频。

转换单元112将所述催收通话音频转换为所述催收通话音频对应的催收文本。

在本发明的至少一个实施例中，所述转换单元112将所述催收通话音频转换为所述催收通话音频对应的催收文本包括：

所述转换单元112采用移动窗函数对所述催收通话音频按照预设时长进行分割，得到至少一帧语音，并对所述至少一帧语音中每帧语音进行预处理，进一步地，所述转换单元112计算预处理后的每帧语音的能量值，当检测到第一语音之前存在连续预设帧的能量值小于能量值阈值，及所述第一语音之后存在连续所述预设帧的能量值大于所述能量值阈值时，所述转换单元112将所述第一语音确定为前端点，当检测到第二语音之前存在连续所述预设帧的能量值大于所述能量值阈值，及所述第二语音之后存在连续所述预设帧的能量值小于所述能量值阈值时，所述转换单元112将所述第二语音确定为后端点，更进一步地，所述转换单元112将所述前端点至所述后端点之间的语音确定为目标音频，所述转换单元112对所述目标音频进行语音识别，得到所述催收文本。

预处理单元113对所述催收文本进行预处理，得到所述催收通话音频对应的多个分词。

在本发明的至少一个实施例中，所述预处理单元113对所述催收文本进行预处理，得到所述催收通话音频对应的多个分词包括：

所述预处理单元113根据自定义词典对所述催收文本进行切分，得到切分位置，并根据所述切分位置，构建至少一个有向无环图，所述预处理单元113根据所述自定义词典中的权值计算每个有向无环图的概率，进一步地，所述预处理单元113将概率最大的有向无环图对应的切分位置确定为目标切分位置，所述预处理单元113根据所述目标切分位置确定多个特征词，并确定所述多个特征词中的冗余信息，所述预处理单元113采用去冗余算法处理所述冗余信息，得到所述多个分词。

输入单元114将所述多个分词输入至预先训练好的第一模型中，得到所述催收通话音频对应的第一标签。

在本发明的至少一个实施例中，在将所述多个分词输入至预先训练好的第一模型中，得到所述催收通话音频对应的第一标签之前，所述获取单元110获取历史催收样本集，划分单元118将所述历史催收样本集划分为训练催收样本集及验证催收样本集，进一步地，生成单元119生成每个训练催收样本的训练催收文本的输入向量序列，每个训练催收样本包括训练催收文本及类别，计算单元116以每个训练催收文本的输入向量序列为输入，基于BERT模型计算每个训练催收文本的输出向量序列，更进一步地，所述计算单元116以每个训练催收文本的输出向量序列为输入，基于全连接层计算每个训练催收文本的文本向量，优化单元120根据所述文本向量及所述类别优化所述BERT模型和所述全连接层，将优化后的BERT模型和全连接层作为学习器，调整单元121根据所述验证催收样本集中的验证催收样本调整所述学习器，得到所述第一模型。

在本发明的至少一个实施例中，所述生成单元119生成每个训练催收样本的训练催收文本的输入向量序列包括：

所述生成单元119对每个训练催收文本进行分词，得到每个训练催收文本的词组，所述生成单元119根据预设编码表获取每个训练催收文本的每个词组的编码向量，并根据每个训练催收文本的每个词组的位置编号生成每个词组的位置向量，所述生成单元119拼接每个词组的编码向量及每个词组的位置向量，得到每个词组的编码输入向量，所述生成单元119依词序组合每个训练催收文本的每个词语的编码输入向量，得到每个训练催收文本的输入向量序列。

在本发明的至少一个实施例中，所述计算单元116以每个训练催收文本的输出向量序列为输入，基于全连接层计算每个训练催收文本的文本向量包括：

所述计算单元116将每个训练催收文本的输出向量序列乘以预设权重矩阵，并加上预设偏置值，得到每个训练催收文本的分数向量，对每个训练催收文本的分数向量进行归一化处理，得到每个训练催收文本的文本向量，其中，每个文本向量中所有维度的概率总和为1。

选取单元115根据所述第一标签从配置模型库中选取预先训练好的第二模型。

在本发明的至少一个实施例中，训练所述第二模型的训练数据为相同的第一标签下的训练样本，另外，所述第二模型的训练方式与所述第一模型的训练方式相同，本发明对此不作赘述。

所述输入单元114将所述多个分词输入至所述第二模型中，得到所述催收通话音频对应的第二标签。

所述计算单元116计算所述第二标签的逾期率及所述第二标签的置信区间(Confidence interval)。

在本发明的至少一个实施例中，所述计算单元116计算所述第二标签的逾期率包括：

所述计算单元116确定所述第二标签对应的催收通话音频的总数量，所述计算单元116获取标识为逾期的催收通话音频，作为逾期通话音频，并计算所述第二标签对应的逾期通话音频的目标数量，所述计算单元116将所述第二标签对应的目标数量除以所述第二标签对应的总数量，得到所述第二标签的逾期率。

在本发明的至少一个实施例中，所述计算单元116计算所述第二标签的置信区间包括：

所述计算单元116配置置信度，进一步地，所述计算单元116采用数值1与配置的置信度进行相减运算，并将相减运算后的数值除以2，得到目标值，所述计算单元116获取所述第二标签的正态分布曲线，在所述第二标签的正态分布曲线上，所述计算单元116将横坐标为所述目标值对应的纵坐标确定为置信区间的上限值，并将横坐标为所述目标值的相反数对应的纵坐标确定为所述置信区间的下限值，所述计算单元116根据所述置信区间的上限值及下限值，确定所述第二标签的置信区间。

当检测到所述第二标签的逾期率在所述置信区间内时，确定单元117将所述第二标签确定为所述催收通话音频的目标标签。

在本发明的至少一个实施例中，在将逾期率在置信区间的第二标签确定为所述催收通话音频的目标标签后，所述获取单元110获取所述标签建立请求的请求编号，所述生成单元119根据所述请求编号及所述目标标签生成提示信息，加密单元122采用对称加密技术加密所述提示信息，得到密文，发送单元123将所述密文发送至指定联系人的终端设备。

如图3所示，是本发明实现催收通话的标签建立方法的较佳实施例的电子设备的结构示意图。

在本发明的一个实施例中，所述电子设备1包括，但不限于，存储器12、处理器13，以及存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如催收通话的标签建立程序。

本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。

所述处理器13可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器13是所述电子设备1的运算核心和控制中心，利用各种接口和线路连接整个电子设备1的各个部分，及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个催收通话的标签建立方法实施例中的步骤，例如图1所示的步骤。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如，所述计算机程序可以被分割成获取单元110、提取单元111、转换单元112、预处理单元113、输入单元114、选取单元115、计算单元116、确定单元117、划分单元118、生成单元119、优化单元120、调整单元121、加密单元122及发送单元123。

所述存储器12可用于存储所述计算机程序和/或模块，所述处理器13通过运行或执行存储在所述存储器12内的计算机程序和/或模块，以及调用存储在存储器12内的数据，实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器12可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地，所述存储器12可以是具有实物形式的存储器，如内存条、TF卡(Trans-flash Card)等等。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。

其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

结合图1，所述电子设备1中的所述存储器12存储多个指令以实现一种催收通话的标签建立方法，所述处理器13可执行所述多个指令从而实现：当接收到标签建立请求时，从所述标签建立请求中获取目标时间；根据所述目标时间从催收语音平台提取催收通话音频；将所述催收通话音频转换为所述催收通话音频对应的催收文本；对所述催收文本进行预处理，得到所述催收通话音频对应的多个分词；将所述多个分词输入至预先训练好的第一模型中，得到所述催收通话音频对应的第一标签；根据所述第一标签从配置模型库中选取预先训练好的第二模型；将所述多个分词输入至所述第二模型中，得到所述催收通话音频对应的第二标签；计算所述第二标签的逾期率及所述第二标签的置信区间；当检测到所述第二标签的逾期率在所述置信区间内时，将所述第二标签确定为所述催收通话音频的目标标签。

具体地，所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种催收通话的标签建立方法，其特征在于，所述催收通话的标签建立方法包括：

根据所述目标时间从催收语音平台提取催收通话音频；

计算所述第二标签的逾期率及所述第二标签的置信区间；

2.如权利要求1所述的催收通话的标签建立方法，其特征在于，所述将所述催收通话音频转换为所述催收通话音频对应的催收文本包括：

对所述至少一帧语音中每帧语音进行预处理；

计算预处理后的每帧语音的能量值；

将所述前端点至所述后端点之间的语音确定为目标音频；

对所述目标音频进行语音识别，得到所述催收文本。

3.如权利要求1所述的催收通话的标签建立方法，其特征在于，所述对所述催收文本进行预处理，得到所述催收通话音频对应的多个分词包括：

根据自定义词典对所述催收文本进行切分，得到切分位置；

根据所述切分位置，构建至少一个有向无环图；

根据所述自定义词典中的权值计算每个有向无环图的概率；

根据所述目标切分位置确定多个特征词；

确定所述多个特征词中的冗余信息；

采用去冗余算法处理所述冗余信息，得到所述多个分词。

4.如权利要求1所述的催收通话的标签建立方法，其特征在于，在将所述多个分词输入至预先训练好的第一模型中，得到所述催收通话音频对应的第一标签之前，所述催收通话的标签建立方法还包括：

获取历史催收样本集；

5.如权利要求4所述的催收通话的标签建立方法，其特征在于，所述生成每个训练催收样本的训练催收文本的输入向量序列包括：

6.如权利要求1所述的催收通话的标签建立方法，其特征在于，所述计算所述第二标签的逾期率包括：

确定所述第二标签对应的催收通话音频的总数量；

7.如权利要求1所述的催收通话的标签建立方法，其特征在于，所述目标标签存储于区块链中，在将逾期率在置信区间的第二标签确定为所述催收通话音频的目标标签后，所述催收通话的标签建立方法还包括：

获取所述标签建立请求的请求编号；

根据所述请求编号及所述目标标签生成提示信息；

采用对称加密技术加密所述提示信息，得到密文；

将所述密文发送至指定联系人的终端设备。

8.一种催收通话的标签建立装置，其特征在于，所述催收通话的标签建立装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的催收通话的标签建立方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的催收通话的标签建立方法。