CN108959651A

CN108959651A - 一种基于迁移学习的用户意图识别的方法

Info

Publication number: CN108959651A
Application number: CN201810877616.5A
Authority: CN
Inventors: 陈国锋
Original assignee: Beijing Jieyixun Information Technology Co Ltd
Current assignee: Beijing Jieyixun Information Technology Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2018-12-07

Abstract

本发明公开了一种基于迁移学习的用户意图识别的方法，包括如下步骤：步骤S01，建立源语言到其它语言的空间迁移模型，步骤S02，抽取训练好的翻译模型的编码器网络，并增加注意力和全连接网络，构成用户意图识别模型S02‑1，在翻译模型的编码器网络的基础上，增加注意力和全连接网络，并根据用户意图类别构建输出层；步骤S03，使用用户意图标注语料，固定编码器参数，训练S02‑2构建的用户意图识别模型，经过以上算法步骤后，即得到用户意图识别模型。

Description

一种基于迁移学习的用户意图识别的方法

技术领域

本发明涉及一种识别方法，具体是一种基于迁移学习的用户意图识别的方法。

背景技术

对用户的问题进行语义分析，识别出用户的意图，从而根据用户意图，给出相应的响应，是对话系统需要解决的核心问题。

用户意图识别面临的主要问题是目标领域或目标场景语料资源不足，缺少有标注的语料或者收集和标注语料成本太高。而机器学习的方法则需要大量的目标领域的语料支持，

意图识别技术一般基于深度学习的CNN（Convolutional Neural Networks，卷积神经网络）或RNN（Recurrent Neural Network，循环神经网络）分类算法，用户意图识别面临的主要问题是通过深度学习的CNN或RNN分类算法来训练意图识别模型需要大量的且成本较高的人工标注语料，而当目标领域或目标场景语料资源不足，缺少有标注的语料或者收集和标注语料成本太高时，只能使用少量的人工标注语料来训练意图识别模型，此时意图识别模型欠拟合，模型预测的准确率将非常低。

因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

专利CN106777011A《一种基于深度多任务学习的文本分类方法》，公开了一种多任务的迁移学习方法，其利用其它任务训练得到的循环神经网络，结合卷积神经网络的学习能力，得到额外的文档表示，用于扩展当前任务文档的语义表示，期望解决当前任务训练数据不足的问题。但是该方法需要其它任务的标注数据，迁移效果依赖于多个数据的多个任务标注以及任务的相关性，同时，对语料量依然有一定的要求，才能学习到文档表示，使用场景有一定的局限性，并且没有从根本上解决少语料的任务场景。

发明内容

本发明的目的在于提供一种基于迁移学习的用户意图识别的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于迁移学习的用户意图识别的方法，包括如下步骤：

步骤S01，建立源语言到其它语言的空间迁移模型，具体如下：

S01-1，收集翻译语料；S01-2，构建基于encoder-decoder的翻译模型；S01-3，对翻译语料按字分词，训练翻译模型，直至该模型能够正确将源语言翻译至目标语言；

步骤S02，抽取训练好的翻译模型的编码器网络，并增加注意力和全连接网络，构成用户意图识别模型，具体如下：

S02-1，在翻译模型的编码器网络的基础上，增加注意力和全连接网络，并根据用户意图类别构建输出层；

S02-2，载入训练好的翻译模型的编码器参数；

步骤S03，使用用户意图标注语料，固定编码器参数，训练S02-2构建的用户意图识别模型，具体如下：

S03-1, 对标注语料按字分词；

S03-2，固定编码器网络参数；

S03-3，训练用户意图识别模型，直至模型收敛；

经过以上算法步骤后，即得到用户意图识别模型。

作为本发明再进一步的方案：所述语料为源语言到任何其它语言，所述源语言为用户意图识别任务中的语料语言。

与现有技术相比，本发明的有益效果是：本发明通过收集翻译语料，训练翻译模型，从而得到源语言的语义特征网络，此时只需要标注少量的目标任务语料就可以使目标任务模型获得较高的准确率，节约了目标任务模型的训练成本，同时还能有效的减少目标任务模型的训练时间。

附图说明

图1为现有技术的流程图。

图2为本发明的流程图。

图3为本发明实施例1中翻译模型训练构建过程流程图。

图4为本发明实施例1中用户意图识别训练构建过程流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，一种基于迁移学习的用户意图识别的方法，包括如下步骤：

S02-2，载入训练好的翻译模型的编码器参数；

S03-1, 对标注语料按字分词；

S03-2，固定编码器网络参数；

S03-3，训练用户意图识别模型，直至模型收敛；

经过以上算法步骤后，即得到用户意图识别模型。

所述语料为源语言到任何其它语言，所述源语言为用户意图识别任务中的语料语言。

下面，以智能客服系统中金融领域的中文用户意图识别为例，应用本发明阐述的方式，在只有较少标注语料的情况下，结合翻译模型，训练得到准确率较高的意图识别模型。

下面按照数据流的流向描述智能客服系统中金融领域的中文用户意图识别的具体实现方式：

程序分为两个大的过程，第一个是翻译模型构建过程；第二个是目标领域的用户意图识别模型的构建过程。

使用至少包含金融领域的大规模翻译语料，构建机器翻译模型并进行训练，具体如下：

1-1尽可能得收集金融领域的翻译语料，同时，可包含其他领域语料。

1-2 对翻译语料进行按字分词，按字分词可以很好的避免OOV问题。

1-3 搭建一种基于神经网络的翻译模型，该模型包含encoder和decoder模块，两者均包含Embedding层，NN层，decoder还包含全连接层和输出层，NN层为BILSTM，LSTM，GRU,CNN中的一种，保持encoder和decoder一致即可，同时使用注意力机制。使用翻译语料进行训练，得到翻译模型。

2-1 获取金融领域标注语料。

2-2 构建用于意图识别模型，该模型包含如下模块：和1-3中翻译模型中相同的编码器网络，注意力机制，全连接网络和输出层。

2-3 载入翻译模型的编码器参数。

2-4 将标注语料按字分词。

2-5 固定编码器网络参数，训练用户意图识别模型。

在智能客服系统中，对于新增加的领域，在训练数据不足的情况下，系统基本无法正确识别出用户意图。为了满足用户意图识别准确率的要求，实际生产环境中则所需大量的训练语料，这些语料都来源于人工标注。通过人工标记大量的语料，进行训练，可以获得准确度高的用户意图识别模型，但是该方法效率低下，成本高昂，越来越不能满足日新月异的智能客服系统的产业需求，并且在很多场景下，是无法获取大量语料的。

应用本发明，通过收集金融领域中英翻译语料，构建翻译模型，训练完成翻译模型后，抽取其中的编码器网络，在此基础上，结合注意力网络和全连接层，搭建意图识别模型，使用有限的语料进行训练，即得到准确率较高的用户意图识别模型。从而有效地解决了金融领域训练数据不足导致意图识别准确率低的问题。

上述实施方式，在智能客服系统中，可以自动的收集系统无法应答的用户语料，找出业务相关的有明确用户意图的语料，同时给出每条语料的意图分类标签，然后输出展示给企业用户，满足智能客服知识的自动发现需求。

整体而言，因为整个无法应答语料的意图类别生成过程可以通过一套软件程序实现，一旦运行不再需要投入人工成本，所以能节约大量人力资源，同时极大提高了语料的筛选标记效率。

算法的ecoder-decoder模型的选择是开放的，可使用通用的翻译模型，也可使用VAE等自编码器模型。Encoder-decoder选择的区别，不影响本专利的权利申明保护范围。

算法的编码器网络，可使用循环神经网络、卷积神经网络、递归卷积神经网络，以及这些网络与注意力机制、记忆模块等的结合。编码器网络选择的区别，不影响本专利的权力申明保护范围。

训练encoder-decoder模型时，使用预训练词向量，可以一定程度的提高模型训练的效率和模型的性能，但不产生决定性影响，预训练词向量是否使用，不影响本专利的权力要求。

本发明中构造用户意图识别模型时，可在编码器网络基础上，增加注意力机制和全连接层网络中的一种或者两种，也可以直接将编码器网络接到输出层。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于迁移学习的用户意图识别的方法，其特征在于，包括如下步骤：

步骤S01，建立源语言到其它语言的空间迁移模型；

步骤S02，抽取训练好的翻译模型的编码器网络，并增加注意力和全连接网络，构成用户意图识别模型；

步骤S03，使用用户意图标注语料，固定编码器参数，训练步骤S02构成的用户意图识别模型；

经过以上算法步骤后，即得到用户意图识别模型。

2.根据权利要求1所述的基于迁移学习的用户意图识别的方法，其特征在于，所述语料为源语言到任何其它语言，所述源语言为用户意图识别任务中的语料语言。

3.根据权利要求1所述的基于迁移学习的用户意图识别的方法，其特征在于，所述步骤S01具体如下：S01-1，收集翻译语料；S01-2，构建基于encoder-decoder的翻译模型；S01-3，对翻译语料按字分词，训练翻译模型，直至该模型能够正确将源语言翻译至目标语言。

4.根据权利要求1所述的基于迁移学习的用户意图识别的方法，其特征在于，所述步骤S02具体如下：S02-1，在翻译模型的编码器网络的基础上，增加注意力和全连接网络，并根据用户意图类别构建输出层；S02-2，载入训练好的翻译模型的编码器参数。

5.根据权利要求1所述的基于迁移学习的用户意图识别的方法，其特征在于，所述步骤S03，具体如下：S03-1, 对标注语料按字分词；S03-2，固定编码器网络参数；S03-3，训练用户意图识别模型，直至模型收敛。