CN112185358A

CN112185358A - 意图识别方法、模型的训练方法及其装置、设备、介质

Info

Publication number: CN112185358A
Application number: CN202010858925.5A
Authority: CN
Inventors: 朱频频
Original assignee: Weizhi Technology Zhangjiakou Co ltd
Current assignee: Weizhi Technology Zhangjiakou Co ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2021-01-05

Abstract

意图识别方法、模型的训练方法及其装置、设备、介质，所述意图识别模型的训练方法包括：获取预设外呼场景对应的外呼场景训练数据；基于所述外呼场景的候选意图标签集合，将所述外呼场景训练数据输入初始的意图识别模型，进行迁移学习训练，得到完成训练的意图识别模型；其中，所述外呼场景训练数据包括：用于所述外呼场景的训练话术文本集合和所述训练话术文本集合对应的真实意图标签集合，所述意图识别模型包括：已完成预训练的神经网络模型。采用上述方案，提高意图识别准确率，改善客户交互体验。

Description

意图识别方法、模型的训练方法及其装置、设备、介质

技术领域

本说明书实施例涉及信息处理技术领域，尤其涉及一种意图识别方法、模型的训练方法及其系统、设备、介质。

背景技术

客户服务中心(Customer Service Center，CSC)是一种建立企业与客户沟通的平台，利用电话、手机、传真、网络等多种通信渠道接入，并以人工答复、自动化答复、人工与自动化结合答复等多种交互方式，帮助企业为客户提供所需信息和服务。

外呼系统是客户服务中心系统不可或缺的一个组成部分，外呼系统通过设置的程序主动外呼客户，将录制好的语音数据通过通话渠道(如座机、手机等)播放给接听客户。

但是，外呼系统只能单方面向接听客户输出信息，并通过客户的按键操作才能继续输出对应的信息，无法识别客户的真实想法，也不能对客户提出的需求直接进行响应和互动，客户体验感差。

发明内容

有鉴于此，本说明书实施例提供一种意图识别方法、模型的训练方法及其系统、设备、介质，提高意图识别准确率，改善客户交互体验。

本说明书实施例提供了一种意图识别模型的训练方法，包括：

获取预设外呼场景对应的外呼场景训练数据；

基于所述外呼场景的候选意图标签集合，将所述外呼场景训练数据输入初始的意图识别模型，进行迁移学习训练，得到完成训练的意图识别模型；

其中，所述外呼场景训练数据包括：用于所述外呼场景的训练话术文本集合和所述训练话术文本集合对应的真实意图标签集合，所述意图识别模型包括：已完成预训练的神经网络模型。

可选地，所述获取预设外呼场景对应的外呼场景训练数据，包括：

通过可视化界面，接收输入的真实意图标签，并将所述真实意图标签与对应的训练话术文本建立关联关系。

可选地，所述意图识别模型的训练方法还包括：

将测试通话文本输入完成训练的意图识别模型，对所述意图识别模型进行文本对话测试，得到所述测试通话文本对应的预测意图标签；

将所述预测意图标签与所述测试通话文本对应的真实意图标签进行匹配；

基于匹配结果，确定所述意图识别模型是否继续进行迁移学习训练。

可选地，所述意图识别模型的训练方法还包括：

获取所述意图识别模型在测试过程中意图未命中的测试通话文本；

将意图未命中的所述测试通话文本设置为训练话术文本，并与所述真实意图标签进行关联，用以进行迁移学习训练。

可选地，所述意图识别模型的训练方法还包括：基于可视化界面，显示所述意图识别模型进行文本对话测试的过程。

本说明书实施例还提供了一种意图识别方法，包括：

基于预设外呼场景，配置对应的意图识别模型和候选意图标签集合，所述意图识别模型通过上述权利要求1-5任一项所述方法训练得到；

获取从接听客户的客户语音流转换得到的客户通话文本；

基于所述意图识别模型和候选意图标签集合，对所述客户通话文本对话过程进行预测，得到所述客户通话文本对应的预测意图标签；

将所述预测意图标签作为所述客户通话文本的真实意图，执行对应的操作。

可选地，所述基于所述意图识别模型和候选意图标签集合，对所述客户通话文本进行预测，得到所述客户通话文本对应的预测意图标签，包括：

获取当前通话所处的流程节点，从所述候选意图标签集合中确定当前通话流程节点对应的候选意图标签子集合；

基于所述意图识别模型和候选意图标签子集合，对所述客户通话文本进行预测，得到所述客户通话文本对应的预测意图标签。

可选地，所述意图识别方法还包括：

若所述客户通话文本对应的预测意图标签表征意图未命中，则获取对应的客户通话文本；

将获取的客户通话文本设置为所述训练话术文本，并与输入的真实意图标签建立关联关系，用以进行迁移学习训练。

可选地，所述意图识别方法还包括：基于可视化界面，显示所述预测意图标签对应的通话交互过程。

本说明书实施例还提供了一种意图识别模型的训练装置，包括：

训练数据获取单元，适于获取预设外呼场景对应的外呼场景训练数据，所述外呼场景训练数据包括：用于所述外呼场景的训练话术文本集合和所述训练话术文本集合对应的真实意图标签集合；

模型训练单元，适于根据所述外呼场景的候选意图标签集合，将所述外呼场景训练数据输入初始的意图识别模型，进行迁移学习训练，得到完成训练的意图识别模型，所述意图识别模型包括：已完成预训练的神经网络模型。

本说明书实施例还提供了一种意图识别装置，包括：

配置单元，适于根据预设外呼场景，配置对应的意图识别模型和候选意图标签集合，所述意图识别模型通过上述权利要求1-5任一项所述方法训练得到；

客户通话文本获取单元，适于获取从接听客户的客户语音流转换得到的客户通话文本；

意图预测单元，适于基于所述意图识别模型和候选意图标签集合，对所述客户通话文本进行预测，得到所述客户通话文本对应的预测意图标签，并将所述预测意图标签作为所述客户通话文本的真实意图；

操作执行单元，适于执行所述预测意图标签对应的操作。

本说明书实施例还提供了一种数据处理设备，包括存储器和处理器；其中，所述存储器适于存储一条或多条计算机指令，所述处理器运行所述计算机指令时执行上述任一项所述方法的步骤。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一项所述方法的步骤。

采用本说明书实施例的意图识别模型的训练方案，根据外呼场景的分类，可以获得不同类型的外呼场景对应的外呼场景训练数据，使得意图识别模型能够基于外呼场景进行针对性训练，意图识别模型包括已完成预训练的神经网络模型，使得初始的意图识别模型具有深度捕获文本信息的能力，可以减少对于外呼场景训练数据的需求量，在较少的外呼场景训练数据的情况下进行快速收敛，提高迁移学习训练效率，实现高效的半监督学习，训练得到的意图识别模型在对应外呼场景下具有更高的意图识别准确率，能够改善客户交互体验。

采用本说明书实施例的意图识别方案，在所述外呼场景下采用通过对应的外呼场景训练数据完成训练的意图识别模型，能够保障该外呼场景下的意图识别准确率，意图识别模型对语音转换得到客户通话文本进行意图预测，挖掘客户意图，进而执行与客户意图匹配程度最高的操作，提高沟通交流的话术质量，与客户高效地进行互动，进而提高客户交互体验。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例中一种意图识别模型的训练方法的流程示意图；

图2是本说明书实施例中一种外呼场景训练数据的可视化界面示意图；

图3是本说明书实施例中一种真实意图标签集合的可视化界面示意图；

图4是本说明书实施例中另一种意图识别模型的训练方法的流程示意图；

图5是本说明书实施例中另一种意图识别模型的训练方法的流程示意图；

图6是本说明书实施例中一种外呼场景的流程界面示意图；

图7是本说明书实施例中一种文本对话测试的可视化界面示意图；

图8是本说明书实施例中一种意图识别方法的流程示意图；

图9是本说明书实施例中另一种意图识别方法的流程示意图；

图10是本说明书实施例中一种通话交互过程的可视化界面示意图；

图11是本说明书实施例中一种意图识别模型的训练装置的结构框图；

图12是本说明书实施例中一种意图识别装置的结构框图。

具体实施方式

由背景技术部分可知，现有的外呼系统只能单方面向接听客户输出信息，并通过客户的按键操作才能切换输出的信息；对于接听的客户而言，按键操作过程麻烦，并且可能存在未听清或理解错误导致按错键的情况，从而增加按键操作的复杂程度，这种外呼系统无法识别客户的真实想法，也不能对客户提出的需求进行响应和互动，客户体验感差。

因此，如何改善外呼系统成为了本领域技术人员亟待解决的问题。

针对上述问题，本说明书实施例根据实际外呼场景获取外呼场景训练数据，对意图识别模型进行迁移学习训练，得到完成训练的意图识别模型，从而提高识别意图准确率，改善客户交互体验。

为使本领域技术人员更加清楚地了解及实施本说明书实施例，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行详细描述。

参照图1所示的一种意图识别模型的训练方法的流程示意图，在本说明书实施例中，可以包括如下步骤：

S11，获取预设外呼场景对应的外呼场景训练数据。

在具体实施中，外呼场景与使用方(如企业或个人)实际需要处理的业务相关，根据不同的业务可以设置不同的外呼场景，并且可以获取预设外呼场景对应的外呼场景训练数据，从而明确外呼场景训练数据的获取范围，减少获取无用外呼场景训练数据的概率。

例如，若使用方存在回访业务，则可以设置回访业务外呼场景，并获取回访业务外呼场景对应外呼场景训练数据；若使用方存在账单催缴业务，则可以设置账单催缴业务外呼场景，并获取回账单催缴业务外呼场景对应外呼场景训练数据；若使用方存在电话销售业务，则可以设置电话销售业务外呼场景，并获取电话销售业务外呼场景对应外呼场景训练数据。

其中，所述外呼场景训练数据可以包括：用于所述外呼场景的训练话术文本集合和所述训练话术文本集合对应的真实意图标签集合，

可以理解的是，在实际应用中，根据使用方的实际业务需求，可以设置一个或多个外呼场景，并且可以将使用方的业务拆分为多个外呼场景，也可以将使用方的多个业务合并为一个外呼场景，本说明书实施例对于业务与外呼场景之间的对应关系不做具体限制。

S12，基于所述外呼场景的候选意图标签集合，将所述外呼场景训练数据输入初始的意图识别模型，进行迁移学习训练，得到完成训练的意图识别模型。

其中，所述意图识别模型包括已完成预训练的神经网络模型。已完成预训练的神经网络模型可以使意图识别模型所需的外呼场景训练数据的数量大大缩小，节约人工成本和标注时间，并减少意图识别模型的训练时间。同时，迁移学习训练能够使得整个标点符号标注模型在减少外呼场景训练数据的前提下可以快速收敛，提高召回率。

在具体实施中，迁移学习方法可以包括以下至少一种：

1)冻结已完成预训练的神经网络模型中的部分神经网络的参数，通过外呼场景训练数据对已完成预训练的神经网络模型进行再次训练，调整其他神经网络的参数，将完成训练的神经网络模型作为所述意图识别模型；

2)初始的意图识别模型包括已完成预训练的神经网络模型，并增加其他神经网络与已完成预训练的神经网络模型建立连接，通过外呼场景训练数据，对意图识别模型进行训练，得到完成训练的图识别模型。

3)初始的意图识别模型包括已完成预训练的神经网络模型，将其他神经网络替换已完成预训练的神经网络模型中部分神经网络，通过外呼场景训练数据，对意图识别模型进行训练，得到完成训练的图识别模型。

为了使本领域的技术人员能够理解并实施上述实施例，以下通过具体场景进行详细说明。可以理解的是，下述实施例仅为示意说明，在实际实施时可以根据实际场景采用不同的已完成预训练的神经网络模型和迁移学习方法，本说明书实施例对此不作限制。

在本说明一实施例中，所述初始的意图识别模型包括已完成预训练的BERT(Bidirectional Encoder Representations from Transformers，代表Transformers结构的双向编码器)模型，以及在已完成预训练的BERT模型之后增加的全连接神经网络和softmax(一种数值计算函数)神经网络。

根据已完成预训练的BERT模型的输入规则，对外呼场景训练数据做预处理，在外呼场景训练数据的起始位置之前添加首位标签CLS，在外呼场景训练数据的结束位置之前添加末尾标签SEP。

可选地，当外呼场景训练数据分成多批次输入意图识别模型中进行处理时，可以为所述意图识别模型预设一长度阈值，若一批次的外呼场景训练数据的长度不满足长度阈值时，可以对外呼场景训练数据进行填充(Padding)处理。若一批次的外呼场景训练数据的长度超过长度阈值，则进行分割处理，将一批次的外呼场景训练数据分为符合长度阈值的若干部分按序输入意图识别模型。

将外呼场景训练数据输入所述意图识别模型后，已完成预训练的BERT模型对外呼场景训练数据中的训练话术文本进行深度学习处理，获取已完成预训练的BERT模型中首位标签CLS对应的最终隐藏层输出的特征向量C，所述特征向量C包含训练话术文本的全部分类信息，通过全连接神经网络和softmax神经网络，可以得到：

p＝softmax(CW^T)；

其中，W为全连接神经网络的权重矩阵，为所述特征向量C中各元素分配权重，softmax函数将矩阵CW^T中各元素映射到(0,1)数值区间内，得到特征矩阵P。特征矩阵P中各元素的数值可以表征真实客户意图与各候选意图标签之间的匹配程度。

若首位标签CLS对应的特征向量C为i维向量，则：

其中，P_i表示特征矩阵P中第i位元素，C_i表示特征向量C中第i位元素。

获取数值最大的元素的分布位置，从预设的候选意图标签集合中选取对应分布位置的候选意图标签，作为所述意图识别模型的预测意图标签。

在经过意图识别模型预测后，通过预设的损失函数可以计算得到所述预测意图标签和所述训练话术文本对应的真实意图标签之间的结果误差值。当结果误差值大于预设的结果误差阈值时，可以对所述意图识别模型的参数(不包括冻结的参数)进行调整。当结果误差值小于结果误差阈值，误差符合次数加一，并确定误差符合次数是否大于或等于误差符合次数阈值，若是，则所述意图识别模型符合完成训练。

其中，可以采用梯度下降方法和反向传播方法中一种对所述标签分类模型的参数进行调整。

采用本说明书实施例的意图识别模型的训练方法，根据外呼场景的分类，可以获得不同类型的外呼场景对应的外呼场景训练数据，使得意图识别模型能够基于外呼场景进行针对性训练，意图识别模型包括已完成预训练的神经网络模型，使得初始的意图识别模型具有深度捕获文本信息的能力，可以减少对于外呼场景训练数据的需求量，在较少的外呼场景训练数据的情况下进行快速收敛，提高迁移学习训练效率，实现高效的半监督学习，训练得到的意图识别模型在对应外呼场景下具有更高的意图识别准确率，能够改善客户交互体验。

在具体实施中，所述神经网络模型可以采用以下至少一种方式进行无监督预训练：

1)语言模型(Language Model，LM)训练方式

从预训练文本集合中随机获取一预训练文本，并输入初始的神经网络模型中，所述神经网络模型在给定上文的条件下预测所述预训练文本的下一个分词单元，当预测准确的概率达到预设的预测阈值时，确定获得已完成预训练的神经网络模型。采用ML方式预训练得到的神经网络模型可以增强对文本中上下文句子特征的表征能力。

其中，分词单元对应于预训练文本的语言种类的最小语句组成单元，例如，中文的最小语句组成单元可以是“字”，也可以是“词；英文的最小语句组成单元是“单词(word)”。因此，分词单元的具体表述由预训练文本的语言种类所决定。

1)屏蔽语言模型(Mask Language Model，MLM)训练方式

从所述预训练文本集合中获取一预训练文本，并在预训练文本中随机掩盖预设比例部分，输入所述神经网络模型，所述神经网络模型在给定上下文的条件下预测被掩盖的预设比例部分，当预测准确的概率达到预设的预测阈值时，确定获得已完成预训练的神经网络模型。采用MLM方式预训练得到的神经网络模型对句子上下文的句子特征信息表征更强。

其中，预设比例部分可以按照百分比来表示，例如，5％、10％等，也可以按照划分单元数量来表示，例如1个划分单元、2个划分单元等。所述划分单元为预训练文本将按照预设要求能够划分的最小成分，可以包括分词单元和标点符号。

作为一可选示例，在一个预训练周期中，部分时间通过用预设掩盖符号掩盖预设比例部分，部分时间通过其他划分单元掩盖预设比例部分，剩余时间选择不掩盖所选择的预设比例部分。例如，在一个预训练周期，80％的时间通过用预设掩盖符号掩盖预设比例部分，15％的时间通过其他划分单元掩盖预设比例部分，5％的时间选择不掩盖所选择的预设比例部分。

3)下句预测(next sentence prediction，NSP)训练方式

从所述预训练文本集合中获取一预训练文本，并随机掩盖其中一条语句，输入所述神经网络模型，所述神经网络模型在给定上文的条件下预测被掩盖的一条语句，当预测准确的概率达到预设的预测阈值时，确定获得已完成预训练的神经网络模型。采用NSP方式预训练得到的神经网络模型具有更强的上下段落之间关系的理解能力。

作为一可选示例，NSP方式采用二分类方法，可以从预训练文本集合中获取一预训练文本A，随机掩盖预训练文本A其中一条语句，然后再从预训练文本集合中获取一条语句B，预测语句B是否为预训练文本A中被掩盖的语句，如果预测语句B是预训练文本A中被掩盖的语句，则输出“1”或者“TRUE”，否则输出“0”或者“FLASE”，根据输出结果判断预测是否准确并统计预测准确的概率，当预测准确的概率达到预设的预测阈值时，确定已完成预训练。

其中，可以设定获取语句B是被掩盖的语句的时间所占一个预训练周期的百分比，例如，在一个训练周期内，50％的时间，获取到的语句B是预训练文本A的实际被掩盖的句子，其余50％的时间，获取到的语句B是随机从预训练文本集合中抽取的语句。

在具体实施中，为了确保所述预训练的神经网络模型的泛化能力，所述预训练文本的数据量要大于所述外呼场景对应的训练话术文本的数据量，并且所述预训练文本的获取范围广于所述外呼场景对应的训练话术文本的获取范围，所述预训练文本的获取范围可以包含所述外呼场景对应训练话术文本的获取范围，也可以不包含所述外呼场景对应训练话术文本的获取范围。

在具体实施中，采用可视化界面可以让使用者直观地配置各外呼场景对应的外呼场景训练数据，通过可视化界面，接收输入的真实意图标签，并将所述真实意图标签与对应的训练话术文本建立关联关系，提高外呼场景训练数据的配置效率，且灵活性高。为了便于本领域技术人员理解和实施，以下通过具体应用场景和附图进行详细说明。

如图2所示，为一种外呼场景训练数据的可视化界面示意图。为了便于使用者理解，将该界面命名为编辑意图。根据外呼场景训练数据输入的位置区域，可以将数据分为用于所述外呼场景的训练话术文本集合和所述训练话术文本集合对应的真实意图标签集合。

例如，在意图名称对应框中输入数据“卡丢了”，程序执行主体(如计算机、服务器等)识别“卡丢了”，并根据输入的位置区域，确定输入的数据“卡丢了”为一个真实意图标签；在训练话术对应框中输入数据“我的卡片丢了可以补办吗”，程序执行主体识别“我的卡片丢了可以补办吗”，并根据输入的位置区域，确定输入的数据“我的卡片丢了可以补办吗”为一个训练话术文本，并且在训练话术对应框中可以输入的多行数据形成所述训练话术文本集合。

可以理解的是，在上述实施例中，通过分行来区分各训练话术文本，但是上述实施例仅为示例说明，在具体应用中，可以通过其他方式区分训练话术文本，如使用分隔符等，本说明书实施例对此不作限制。

如图3所示，为一种真实意图标签集合的可视化界面示意图，为了便于使用者理解，将该界面命名为意图管理，用于显示配置的真实意图标签集合，以及各真实意图标签的更新日期，对应的训练话术文本(参考图3中询问话术一列)的数量，以及对应的操作控制按键。操作控制按键可以对各真实意图标签进行编辑和删除，在点击编辑按键后，可以跳转到如图2所示的界面中，对外呼场景训练数据进行修改、删除、新增等配置操作。

在具体实施中，可以对完成训练的意图识别模型进行测试，验证意图识别模型的预测能力，确保在实际使用时，意图识别模型能够准确识别客户的真实意图。如图4所示，所述意图识别模型的训练方法还可以包括：

S41，将测试通话文本输入完成训练的意图识别模型，对所述意图识别模型进行文本对话测试，得到所述测试通话文本对应的预测意图标签。

其中，所述测试通话文本可以来源于所述训练话术文本集合，也可以是通过其他方式获得的文本。

S42，将所述预测意图标签与所述测试通话文本对应的真实意图标签进行匹配。

S43，基于匹配结果，确定所述意图识别模型是否继续进行迁移学习训练。

在具体实施中，可以预设一测试正确数量阈值，当所述预测意图标签与所述测试通话文本对应的真实意图标签匹配的次数达到测试正确数量阈值时，确定意图识别模型的预测能力达到要求，否则，所述意图识别模型继续进行迁移学习训练，继续训练使用的外呼场景训练数据可以与上一次训练时使用的外呼场景训练数据一致或者有所不同。

在具体训练过程中，从所述特征矩阵中选取最大数值对应的候选意图标签作为预测意图标签之前，可以对最大数值是否超过预设的数值阈值进行判断，从而确保意图识别模型输出的预测标签意图的可信度。

若最大数值未超过数值阈值，则所述意图识别模型将候选意图标签集合中表征意图未命中的异常标签作为预测意图标签输出，使得程序执行主体能够检测到意图识别的异常情况。其中，异常标签可以为空白标签，即意图识别模型输出空白结果。

基于上述描述，在意图识别模型测试过程中，可能存在意图未命中的情况，即输入测试通话文本后，所述意图识别模型输出异常标签。为了使意图识别模型能够学习未命中的测试通话文本，可以将测试通话文本添加到训练话术文本集合中，使得意图识别模型再次进行迁移学习训练。

具体而言，如图5所示，所述意图识别模型的训练方法还可以包括：

S51，获取所述意图识别模型在测试过程中意图未命中的测试通话文本。

S52，将意图未命中的所述测试通话文本设置为训练话术文本，并与所述真实意图标签进行关联，用以进行迁移学习训练。

其中，在意图识别模型再次进行迁移学习训练之前，可以设置一未命中次数阈值，若所述意图识别模型在本次测试过程中，意图未命中的次数超过未命中次数阈值，则再次进行迁移学习训练，否则可以不再次进行迁移学习训练。

在具体实施中，通过可视化节点流程图，可以向使用方更加直观地展示外呼场景对应业务流程的逻辑关系，将各流程节点与业务流程中可能存在的客户意图进行关联，从而可视化操作之间的逻辑对应关系，便于使用方根据实际业务流程进行流程节点的配置，并且在业务流程发生改变后，可以在可视化界面中快速定位并修改，提高更新效率。

如图6所示，为一种外呼场景的流程界面示意图，以圆形节点作为流程的开始，第一个业务流程节点(即命名为“核身”的节点)相应的后续业务流程节点建立连接关系，并在连接线上设置及显示核身这一业务流程可能存在的客户意图。根据意图识别模型输出的预测意图标签，可以进行流程节点的跳转，执行相应的操作(如答复操作、询问操作等)。

在“核身”的流程节点处，可以进行采集客户语音流并分析客户意图的操作，在意图识别模型输出的预测意图标签对应为“本人”时，判断后续流程为通过表征本人意图的连接线连接的“还款意愿”的业务流程节点，进入“还款意愿”业务流程节点，执行对应的操作进行询问，继续采集客户语音流并分析客户意图；在客户意图表示其他意图时，进入其他意图的连接线连接的业务流程节点，执行对应的操作进行答复。

可以理解的是，上述实施例的界面示意图仅为示例说明，在实际应用中，业务流程涉及的节点远比界面示意图中的复杂。

在具体实施中，所述意图识别模型进行文本对话测试的过程可以通过可视化界面进行显示。如图7所示，为一种文本对话测试的可视化界面示意图。为了便于使用者理解，将该界面命名为流程测试。

在文本对话测试的过程中，在下方输入框输入测试通话文本，程序执行主体识别测试通话文本后，将测试通话文本输入所述意图识别模型中，并在显示界面中显示识别得到的测试通话文本，参考图7所示界面中右侧一列，均为输入的测试通话文本；程序执行主图获取意图识别模型输出的预测意图标签，并在对应位置显示所述预测意图标签表征的客户意图，参考图7所示界面中“命中意图”之后显示的数据，使得测试人员(可以是使用方或者其他人员)能够直观的看到意图识别模型对于每一个测试通话文本的预测结果。

可选地，结合参考图6和图7，文本对话测试的可视化界面中还可以显示测试通话文本对应跳转后的流程节点，参考图7所示界面中“当前节点”之后显示的数据。

本说明书实施例还提供了与上述的意图识别模型的训练方法对应的意图识别方法，以下参照附图，通过具体实施例进行详细介绍。下文描述的意图识别方法的内容，可与上文描述的意图识别模型的训练方法的内容相互对应参照。

参照图8所示的本说明书实施例中一种意图识别方法的流程示意图，在本说明书实施例中，所述意图识别方法可以包括：

S81，基于预设外呼场景，配置对应的意图识别模型和候选意图标签集合。

其中，所述意图识别模型通过上述任一实施例所述意图识别模型的训练方法训练得到。

S82，获取从接听客户的客户语音流转换得到的客户通话文本。

在具体实施中，与接听客户进行交互时，通过通信渠道可以实时接收客户发出的声音，在采集所述接听客户的客户语音流后，可以采用自动语音识别(Automatic SpeechRecognition，ASR，又称为Speech-To-Text，STT)算法，将采集到的客户语音流转换为计算机能够理解的字符组成的客户通话文本。

S83，基于所述意图识别模型和候选意图标签集合，对所述客户通话文本进行预测，得到所述客户通话文本对应的预测意图标签。

在具体实施中，所述意图识别模型根据输入的所述客户通话文本，从所述场景对应的候选意图标签集合中选取匹配程度最高的候选意图标签，作为预测意图标签输出，用以表征所述客户通话文本对应的真实客户意图。

S84，将所述预测意图标签作为所述客户通话文本的真实意图，执行对应的操作。

在具体实施中，根据预设的播报话术文本，可以向客户进行答复操作或者询问操作。其中，可以采用文本转换语音(Text-To-Speech，TTS)算法，得到所述播报话术文本对应的播报语音流，并通过通信渠道向接听客户播放。

在具体实施中，各外呼场景设置有可视化的节点流程图，在各流程节点之间设置有连接线，在连接线上设置及显示业务流程可能存在的客户意图。所述候选意图标签集合与业务流程中可能存在的客户意图相对应，在意图识别模型进行意图预测时，可能存在输出的预测意图标签与当前流程节点对应连接线所设置的客户意图不匹配，此时，流程节点无法进行条状。

例如，参考图6，当前流程节点为“核身”，当前流程节点对应连接线所设置的客户意图包括：非本人意图、本人意图、忙意图、号码错意图、身故意图和入监意图。若候选意图标签集合包括：表征非本人意图的候选意图标签、表征本人意图的候选意图标签、表征忙意图的候选意图标签、表征号码错意图的候选意图标签、表征身故意图的候选意图标签、表征入监意图的候选意图标签和表征不在本地的候选意图标签。若所述意图识别模块输出的预测意图标签为表征不在本地的候选意图标签，则没有对应的流程节点可以进行跳转。

为了避免上述问题，在基于所述意图识别模型和候选意图标签集合，对所述客户通话文本进行预测，得到所述客户通话文本对应的预测意图标签时，可以获取当前通话所处的流程节点，从所述候选意图标签集合中确定当前通话流程节点对应的候选意图标签子集合，并基于所述意图识别模型和候选意图标签子集合，对所述客户通话文本进行预测，得到所述客户通话文本对应的预测意图标签。

由此，通过缩小意图识别模块的标签可选范围，能够使意图识别模块输出的预测意图标签与当前流程节点对应连接线所设置的客户意图匹配成功，确保流程节点能够顺利进行跳转。

在具体实施中，从所述特征矩阵中选取最大数值对应的候选意图标签作为预测意图标签之前，可以对最大数值是否超过预设的数值阈值进行判断，从而确保意图识别模型输出的预测标签意图的可信度。

基于上述描述，意图识别模型在应用过程中可能存在意图未命中的情况，即输入客户通话文本后，所述意图识别模型输出异常标签。为了使意图识别模型能够学习未命中的客户通话文本，可以将客户通话文本添加到训练话术文本集合中，使得意图识别模型再次进行迁移学习训练。

具体而言，如图9所示，所述意图识别方法还可以包括：

S91，若所述客户通话文本对应的预测意图标签表征意图未命中，则获取对应的客户通话文本；

S92，将获取的客户通话文本设置为所述训练话术文本，并与输入的真实意图标签建立关联关系，用以进行迁移学习训练。

其中，在意图识别模型再次进行迁移学习训练之前，可以设置一未命中次数阈值，若所述意图识别模型在应用过程中，意图未命中的次数超过未命中次数阈值，则再次进行迁移学习训练，否则可以不再次进行迁移学习训练。

可以理解的是，为了与上述测试过程对应的未命中次数阈值进行区别，测试过程对应的未命中次数阈值可以称为第一未命中次数阈值，应用过程对应的未命中次数阈值可以称为第二未命中次数阈值，所述第一未命中次数阈值和所述第二未命中次数阈值根据实际需求进行设置，二者可以相同，也可以不相同。

在具体实施中，在所述意图识别模型的应用过程中，所述预测意图标签对应的通话交互过程可以通过可视化界面进行显示。其中，可以采用自动语音识别算法，将采集到的客户语音流转换为客户通话文本。

如图10所示，为一种通话交互过程的可视化界面示意图。为了便于使用者理解，将该可视化界面命名为通话记录详情，在可视化界面中可以包括播报话术文本和对应采集转换到的客户通话文本。

可以理解的是，上文描述了本说明书实施例提供的多个实施例方案，各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用，从而延伸出多种可能的实施例方案，这些均可认为是本说明书披露、公开的实施例方案。

本说明书实施例还提供了与上述意图识别模型的训练方法对应的意图识别模型的训练装置，以下参照附图，通过具体实施例进行详细介绍。需要知道的是，下文描述的意图识别装置可以认为是为实现本说明书实施例提供的训练方法所需设置的功能模块；下文描述的训练装置的内容，可与上文描述的训练方法的内容相互对应参照。

参照图11所示的本说明书实施例中一种意图识别模型的训练装置的结构框图，在本说明书实施例中，所述意图识别模型的训练装置110可以包括：

训练数据获取单元111，适于获取预设外呼场景对应的外呼场景训练数据，所述外呼场景训练数据包括：用于所述外呼场景的训练话术文本集合和所述训练话术文本集合对应的真实意图标签集合；

模型训练单元112，适于根据所述外呼场景的候选意图标签集合，将所述外呼场景训练数据输入初始的意图识别模型，进行迁移学习训练，得到完成训练的意图识别模型，所述意图识别模型包括：已完成预训练的神经网络模型。

采用本说明书实施例的意图识别模型的训练系统，根据外呼场景的分类，可以获得不同类型的外呼场景对应的外呼场景训练数据，使得意图识别模型能够基于外呼场景进行针对性训练，意图识别模型包括已完成预训练的神经网络模型，使得初始的意图识别模型具有深度捕获文本信息的能力，可以减少对于外呼场景训练数据的需求量，在较少的外呼场景训练数据的情况下进行快速收敛，提高迁移学习训练效率，实现高效的半监督学习，训练得到的意图识别模型在对应外呼场景下具有更高的意图识别准确率，能够改善客户交互体验。

在具体实施中，在具体实施中，可以对完成训练的意图识别模型进行测试，验证意图识别模型的预测能力，确保在实际使用时，意图识别模型能够准确识别客户的真实意图。

具体而言，继续参考图11，所述意图识别模型的训练装置110还可以包括：

测试单元113，适于将测试通话文本输入完成训练的意图识别模型，对所述意图识别模型进行文本对话测试，得到所述测试通话文本对应的预测意图标签；

匹配单元114，适于将所述预测意图标签与所述测试通话文本对应的真实意图标签进行匹配，并根据匹配结果，确定所述意图识别模型继续进行迁移学习训练后，触发所述模型训练单元112。

在具体实施中，在意图识别模型测试过程中，可能存在意图未命中的情况，即输入测试通话文本后，所述意图识别模型输出异常标签。为了使意图识别模型能够学习未命中的测试通话文本，所述训练数据获取单元111还适于获取所述意图识别模型在测试过程中意图未命中的测试通话文本，并将意图未命中的所述测试通话文本设置为训练话术文本，并与所述真实意图标签进行关联，用以进行迁移学习训练。

在具体实施中，所述训练装置中各单元执行的方法步骤具体可参考上述训练方法部分的相关描述，在此不再赘述。

本说明书实施例还提供了与上述意图识别方法对应的意图识别装置，以下参照附图，通过具体实施例进行详细介绍。需要知道的是，下文描述的意图识别装置可以认为是为实现本说明书实施例提供的意图识别方法所需设置的功能模块；下文描述的训练装置的内容，可与上文描述的意图识别方法的内容相互对应参照。

参照图12所示的本说明书实施例中一种意图识别装置的结构框图，在本说明书实施例中，所述意图识别装置120可以包括：

配置单元121，适于根据预设外呼场景，配置对应的意图识别模型和候选意图标签集合，所述意图识别模型通过上述任一项实施例所述训练方法训练得到；

文本获取122，适于获取从接听客户的客户语音流转换得到的客户通话文本；

意图预测单元123，适于基于所述意图识别模型和候选意图标签集合，对所述客户通话文本进行预测，得到所述客户通话文本对应的预测意图标签，并将所述预测意图标签作为所述客户通话文本的真实意图；

操作执行单元124，适于执行所述预测意图标签对应的操作。

在具体实施中，所述意图识别装置还可以包括声音采集单元，或者，所述意图识别装置还可以与包含声音采集单元的装置建立通信连接。所述声音采集单元可以采集通话过程中接听客户的客户语音流。

并且，所述意图识别装置还可以包括语音文本转换单元，或者，所述意图识别装置还可以与包含音文本转换单元的装置建立通信连接。所述语音文本转换单元可以将采集到的的客户语音流转换为对应的客户通话文本。

其中，建立通信连接的方式可以是有线通信连接或者无线通信连接。

在意图识别模型应用过程中，可能存在意图未命中的情况，即输入客户通话文本后，所述意图识别模型输出异常标签。为了使意图识别模型能够学习未命中的客户通话文本，所述意图识别装置120还可以包括：

训练数据获取单元125，适于在所述客户通话文本对应的预测意图标签表征意图未命中，则获取对应的客户通话文本，并将获取的客户通话文本设置为所述训练话术文本，并与输入的真实意图标签建立关联关系，用以进行迁移学习训练。

可以理解的是，训练装置中包括的训练数据获取单元和所述意图识别装置中的训练数据获取单元在实际应用中，可以是同一个功能模块，通过同一个处理器实现；也可以是不同的功能模块，通过不同的处理器实现。

在通过同一个处理器实现训练数据获取单元时，所述处理器可以采用同一个处理核进行处理，也可以用不同的处理核分别对应各装置的训练数据获取单元。

在通过不同处理器实现训练数据获取单元时，为了区分训练装置中包括的训练数据获取单元和所述意图识别装置中的训练数据获取单元，可以称训练装置中包括的训练数据获取单元为第一训练数据获取单元，所述意图识别装置中的训练数据获取单元为第二训练数据获取单元。

上述训练装置或意图识别装置可以通过计算机可执行指令(如程序)的形式装载于数据处理设备，以实现本说明书实施例中的训练方法或意图识别方法。

其中，所述数据处理设备可以包括存储器和处理器，所述存储器可以存储一条或多条计算机可执行指令，处理器可以调用所述一条或多条计算机可执行指令，以执行本说明书实施例提供的训练方法或意图识别方法。

在具体实施中，所述信息处理设备还可以包括显示接口及通过显示接口接入的显示器。所述显示器可以显示处理器执行本说明书实施例提供的训练方法或意图识别方法的交互界面。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行前述任一实施例所述的训练方法或意图识别方法的步骤。具体步骤可以参照前述实施例中训练方法或意图识别方法的具体步骤，此处不再赘述。

所述计算机可读存储介质可以包括例如任何合适类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质和/或存储单元，例如，存储器、可移除的或不可移除的介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、光盘只读存储器(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁介质、磁光介质、可移动存储卡或磁盘、各种类型的数字通用光盘(DVD)、磁带、盒式磁带等。

计算机指令可以包括通过使用任何合适的高级、低级、面向对象的、可视化的、编译的和/或解释的编程语言来实现的任何合适类型的代码，例如，源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。

需要说明的是，本发明所称的“一个实施例”或“实施例”是指可包含于本发明的至少一个实现方式中的特定特征、结构或特性。并且在本发明的描述中，“第一”、“第二”等术语仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等术语的特征可以明示或者隐含的包括一个或者多个该特征。而且，“第一”、“第二”等术语是用于区别类似的对象，而不必用于描述特定的顺序或表示重要性。可以理解的是，这样使用的术语在适当情况下可以互换，以使这里描述的本发明实施例能够以除了在这里图示或描述的那些以外的顺序实施。

虽然本说明书实施例披露如上，但本说明书实施例并非限定于此。任何本领域技术人员，在不脱离本说明书实施例的精神和范围内，均可作各种更动与修改，因此本说明书实施例的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种意图识别模型的训练方法，其特征在于，包括：

获取预设外呼场景对应的外呼场景训练数据；

2.根据权利要求1所述的意图识别模型的训练方法，其特征在于，所述获取预设外呼场景对应的外呼场景训练数据，包括：

3.根据权利要求1所述的意图识别模型的训练方法，其特征在于，还包括：

4.根据权利要求3所述的意图识别模型的训练方法，其特征在于，还包括：

5.根据权利要求2所述的意图识别模型的训练方法，其特征在于，还包括：基于可视化界面，显示所述意图识别模型进行文本对话测试的过程。

6.一种意图识别方法，其特征在于，包括：

获取从接听客户的客户语音流转换得到的客户通话文本；

7.根据权利要求6所述的意图识别方法，其特征在于，所述基于所述意图识别模型和候选意图标签集合，对所述客户通话文本进行预测，得到所述客户通话文本对应的预测意图标签，包括：

8.根据权利要求6所述的意图识别方法，其特征在于，还包括：

9.根据权利要求6所述的意图识别方法，其特征在于，还包括：基于可视化界面，显示所述预测意图标签对应的通话交互过程。

10.一种意图识别模型的训练装置，其特征在于，包括：

11.一种意图识别装置，其特征在于，包括：

文本获取单元，适于获取从接听客户的客户语音流转换得到的客户通话文本；

操作执行单元，适于执行所述预测意图标签对应的操作。

12.一种数据处理设备，包括存储器和处理器；其中，所述存储器适于存储一条或多条计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至5任一项或者权利要求6-9任一项所述方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至5任一项或者权利要求6-9任一项所述方法的步骤。