CN110728145B

CN110728145B - 一种基于录音对话的自然语言理解模型的建立方法

Info

Publication number: CN110728145B
Application number: CN201910960980.2A
Authority: CN
Inventors: 崔晶晶; 左琦
Original assignee: Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Current assignee: Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2023-08-29
Anticipated expiration: 2039-10-11
Also published as: CN110728145A

Abstract

本发明提出了一种基于录音对话的自然语言理解模型的建立方法，包括：获取针对一个拨叫方的多组对话录音的音频数据，将所述对话录音的音频数据转换为文字数据；向所述拨叫方和多个接听方分配对应的ID，将每组对话的文字数据根据ID进行划分；然后根据文字内容设置标签；将设置标签后的文字数据进行数据清洗，划分数据集为训练集和测试集；将训练集放入预设训练模型中进行训练，输出模型。本发明通过调节隐层和神经元的参数提高了预测的准确性。本发明可以适用于贷款逾期以后的场景下的自然语言理解模型。

Description

一种基于录音对话的自然语言理解模型的建立方法

技术领域

本发明涉及自然语音处理技术领域，特别涉及一种基于录音对话的自然语言理解模型的建立方法。

背景技术

当前，虽然许多公司都有设计了的自然语言理解模型，但都是通用场景下的技术方案，针对特定场景下的自然语言理解模型目前还没有，尤其是针对贷款逾期以后的场景下的自然语言理解模型。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种基于录音对话的自然语言理解模型的建立方法。

为了实现上述目的，本发明的实施例提供一种基于录音对话的自然语言理解模型的建立方法，包括如下步骤：

步骤S1，获取针对一个拨叫方的多组对话录音的音频数据，将所述对话录音的音频数据转换为文字数据；

步骤S2，向所述拨叫方和多个接听方分配对应的ID，将每组对话的文字数据根据ID进行划分；

步骤S3，然后根据文字内容设置标签；

步骤S4，将设置标签后的文字数据进行数据清洗，划分数据集为训练集和测试集；

步骤S5，将训练集放入预设训练模型中进行训练，输出模型。

进一步，在所述步骤S2中，将每组对话的文字数据根据ID进行划分后，对对话文字中连续出现的ID的对话内容进行合并。

进一步，在所述步骤S3中，所述标签内容包括：品质违规、业务违规、负面风险、话术流程、施压话术。

进一步，在所述步骤S4中，将清洗后的数据中80％的数据划分为训练集，20％的数据划分为测试集。

进一步，划分为训练集和测试集后，将中文进行分词，然后对词做编码。

进一步，在所述步骤S5中，所述预设训练模型为TextCNN模型。

进一步，预先设定默认值，向预设训练模型中输入训练集数据进行训练，训练出来的模型经过测试集进行验证，然后修改参数并同时检测准确率，选取准确率最高的参数为最终的参数。

进一步，所述参数包括：词向量的维度、词汇表的大小、句子的长度、CNN过滤器的大小、CNN过滤器的个数、dropout的阈值、学习率、卷积核大小、学习率下降的梯度、梯度下降的阈值、l2正则化项值、训练批次、每批次样本个数。

进一步，采用TextCNN模型进行训练，包括如下步骤：

首先，对输入矩阵进行卷积操作，经过卷积操作后得到k个向量，采用不同大小的卷积核，从输入文本中提取特征；

然后，对卷积操作的输出进行max-pooling操作；将k个标量数字拼接起来，组成一个向量表示最后提取的特征；

最后，在接一个全联接层作为输出层，得到模型的输出。

根据本发明实施例的基于录音对话的自然语言理解模型的建立方法，将获取的对话录音的音频数据转换为文字数据；将每组对话的文字数据根据拨叫方和接听方ID进行划分；然后根据文字内容设置标签；将设置标签后的文字数据进行数据清洗，划分数据集为训练集和测试集；将训练集放入预设训练模型中进行训练，输出模型。本发明通过调节隐层和神经元的参数提高了预测的准确性。本发明可以适用于贷款逾期以后的场景下的自然语言理解模型。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于录音对话的自然语言理解模型的建立方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

如图1所示，本发明实施例的基于录音对话的自然语言理解模型的建立方法，包括如下步骤：

步骤S1，获取针对一个拨叫方的多组对话录音的音频数据，将对话录音的音频数据转换为文字数据。

步骤S2，向拨叫方和多个接听方分配对应的ID，将每组对话的文字数据根据ID进行划分。

以贷后场景为例，催收员为拨叫方，客户为接听方。由于是基于贷后场景下的录音对话，每一条数据表示一个催收员所拨打的所有催收电话。这种数据关系为一对多关系，因为催收员的电话号码是唯一的，但催收员所拨打的电话可以是多个。所以，将每一通电话的通话id分开，这样数据就变成一对一的关系。

将每一通电话id分开后，此时的数据由于是录音转换为文字所以对话有两个角色，一个是电催员(拨叫方)用大写字母S来指代，一个是客户(接听方)用大写字母C来指代。而录音转换为文字会根据间断点去分隔。

此外，将每组对话的文字数据根据ID进行划分后，对对话文字中连续出现的ID的对话内容进行合并。即，将所有连续的S、C作为ID的数据分别合并。

步骤S3，然后根据文字内容设置标签。

然后将这些数据进行人工打标签。打标签就是根据录音对话来从以下标签中选择适合的标签标注其中。

在本发明的实施例中，标签按维度分为：品质违规、业务违规、负面风险、话术流程、施压话术等。

其中，品质违规维度有“侮辱辱骂”标签、“威胁恐吓”标签；业务违规维度有“承诺消除不良”标签、“承诺减免”标签、“承诺可继续使用信用卡”标签、“承诺可继续借款”标签、“承诺可以分期”标签、“法律应用错误”标签、“无效通时”标签、“私收现金风险”标签、“催收名义违规”标签、“冒充公检法”标签、“告知第三方债务人欠款金额”标签、“告知第三方债务人身份证号”标签、“告知第三方债务人其他信息”标签、“催收第三方”标签；负面风险维度有“挑衅公务人员”标签、“引导债务人或第三方投诉”标签、“引导客户实施违规行为”标签、“信息来源说明不当”标签、“对债权方负面评价”标签；话术流程维度有“核实对方身份”标签、“描述借款信息”标签、“表明自己身份”标签、“询问欠款原因”标签、“约定下次沟通时间”标签、“询问筹款状态”标签、“约定还款时间”标签、“要求限时还款”标签、“核实预留信息”标签、“询问最新信息”标签、“询问工作单位”标签、“确认朋友电话”标签、“询问紧急联系人信息”标签；施压话术维度有“个人信息”标签、“诉讼处置”标签、“仲裁处置”标签、“社交影响”标签、“生活影响”标签、“工作影响”标签。

步骤S4，将设置标签后的文字数据进行数据清洗，划分数据集为训练集和测试集。

具体来说，原始提取的数据为脏数据，即源系统中的数据不在给定的范围内或对于实际业务毫无意义，或是数据格式非法，以及在源系统中存在不规范的编码和含糊的业务逻辑。因此，需要对这些数据进行数据清洗。数据清洗是指对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。

在本步骤中，将清洗后的数据中80％的数据划分为训练集，20％的数据划分为测试集。其中，训练集是指学习样本数据集，通过匹配一些参数来建立一个分类器。建立一种分类的方式，主要是用来训练模型的。测试集是测试训练好的模型的分辨能力(识别率等)，看预测结果与真实结果的误差。

然后划分为训练集和测试集后，将中文进行分词，然后对词做编码。

在本发明的实施例汇总，通过word2vec将中文进行分词，然后对词做编码，也就是通过使用word2vec。

由于自然语言理解模型的输入一般为表示为矩阵的句子或文档，所以本发明将输入数据转换成表示为矩阵的文档，矩阵的每一行对应一个标记，每行是表示单词的向量，向量维度设为100。然后，本专利使用10*100矩阵作为输入。接下来使用模型来对训练集样本进行训练，本专利使用的自然语言理解模型为TextCNN，通过训练数据的效果不断调参来提高预测的准确率。

在本步骤中，预先设定默认值，向预设训练模型中输入训练集数据进行训练，训练出来的模型经过测试集进行验证，然后不断修改参数看准确率是否提高，选取准确率最高的参数为最终的参数。。

在本发明的实施例中，参数包括：词向量的维度(embedding_size)、词汇表的大小(vocab_size)、句子的长度(seq_length)、CNN过滤器的大小(num_classes)、CNN过滤器的个数(num_filters)、dropout的阈值(keep_prob)、学习率(lr)、卷积核大小(filter_sizes)、学习率下降的梯度(lr_decay)、梯度下降的阈值(clip)、l2正则化项值(l2_reg_lambda)、训练批次(num_epochs)、每批次样本个数(batch_size)。

需要说明的是，上述采用的参数仅是出于示例的目的，而不是为了限制本发明。本发明还可以采用其他类型的参数。

在本步骤中，预设训练模型为TextCNN模型。TextCNN模型主要用于文本分类。需要说明的是，上述采用的训练模型仅是出于示例的目的，而不是为了限制本发明。本发明还可以采用其他类型的训练模型。

采用TextCNN模型进行训练，包括如下步骤：

首先，对输入矩阵进行卷积操作，使用不同大小的卷积核，每种类型的卷积核可以有多个。假设卷积核的大小是(f，d)，f的取值为f＝[2，3，4]，而d是固定的，是词向量的维度，并且假设总共使用了k个卷积核，步长为1。经过卷积操作后会得到k个向量，每个向量的长度是n-f+1.使用不同大小的卷积核，从输入文本中提取丰富的特征，这和n-gram特征有点相似(f＝2，3，4分别对应于2-gram，3-gram-4-gram)。

然后，对卷积操作的输出进行max-pooling操作。作用于k个长度为n-f+1的向量上，最每个向量整体取最大值，得到k个标量数字。将k个标量数字拼接起来，组成一个向量表示最后提取的特征，其长度是固定的，取决于所使用的不同大小的卷积核的总数。

最后，在接一个全联接层作为输出层，如果是2分类的话使用sigmoid激活函数，多分类则使用softmax激活函数，得到模型的输出。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求极其等同限定。

Claims

1.一种基于录音对话的自然语言理解模型的建立方法，其特征在于，包括如下步骤：

步骤S2，向所述拨叫方和多个接听方分配对应的ID，将每组对话的文字数据根据ID进行划分；其中，将每组对话的文字数据根据ID进行划分后，对对话文字中连续出现的ID的对话内容进行合并；

步骤S3，然后根据文字内容设置标签；

步骤S4，将设置标签后的文字数据进行数据清洗，划分数据集为训练集和测试集；训练集是指学习样本数据集，通过匹配一些参数来建立一个分类器；建立一种分类的方式，用来训练模型；测试集是测试训练好的模型的分辨能力，判断预测结果与真实结果的误差；

步骤S5，将训练集放入预设训练模型中进行训练，输出模型；其中，所述预设训练模型为TextCNN模型；预先设定默认值，向预设训练模型中输入训练集数据进行训练，训练出来的模型经过测试集进行验证，然后修改参数并同时检测准确率，选取准确率最高的参数为最终的参数；所述参数包括：词向量的维度、词汇表的大小、句子的长度、CNN过滤器的大小、CNN过滤器的个数、dropout的阈值、学习率、卷积核大小、学习率下降的梯度、梯度下降的阈值、l2正则化项值、训练批次、每批次样本个数。

2.如权利要求1所述的基于录音对话的自然语言理解模型的建立方法，其特征在于，在所述步骤S3中，所述标签内容包括：品质违规、业务违规、负面风险、话术流程、施压话术。

3.如权利要求1所述的基于录音对话的自然语言理解模型的建立方法，其特征在于，在所述步骤S4中，将清洗后的数据中80％的数据划分为训练集，20％的数据划分为测试集。

4.如权利要求3所述的基于录音对话的自然语言理解模型的建立方法，其特征在于，划分为训练集和测试集后，将中文进行分词，然后对词做编码。

5.如权利要求1所述的基于录音对话的自然语言理解模型的建立方法，其特征在于，采用TextCNN模型进行训练，包括如下步骤：

最后，在接一个全联接层作为输出层，得到模型的输出。