CN111079448A

CN111079448A - 一种意图识别方法及装置

Info

Publication number: CN111079448A
Application number: CN201911402702.1A
Authority: CN
Inventors: 夏林旭; 雷欣; 李志飞
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd; Chumen Wenwen Information Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-04-28

Abstract

本申请公开了一种意图识别方法、装置及存储介质，其中，所述方法包括：从保存的对话日志中获取多个待处理文本，对所述多个待处理文本进行处理得到对应的多个句向量；基于所述多个句向量，对所述多个待处理文本进行聚类，得到N类待处理文本；N为大于等于1的整数；针对所述N类待处理文本中每一类待处理文本进行关键词提取，得到至少一个关键词；基于所述至少一个关键词，确定新增的至少一个意图；其中，至少一个意图中每一个意图对应一个或多个关键词。

Description

一种意图识别方法及装置

技术领域

本申请涉及信息处理领域，尤其涉及一种意图识别方法、装置及存储介质。

背景技术

语义理解是对话系统中重要的组成部分，而意图识别是语义理解要解决的核心问题，所以意图识别的准确性直接关系到语义理解模块的性能以及对整个对话系统的研究。在相关技术中，对话系统中的意图主要通过人工分析和总结，这在一些常用场景中取得了很好的效果。但是，用户需求是很复杂的，人为总结的方法并不能完美的覆盖所有领域和场景，而且无法快速准确的发现新的意图。

发明内容

本申请提供一种意图识别方法、装置及存储介质，以解决现有技术中存在的上述问题。

本发明一方面提供一种意图识别方法，所述方法包括：

从保存的对话日志中获取多个待处理文本，对所述多个待处理文本进行处理得到对应的多个句向量；

基于所述多个句向量，对所述多个待处理文本进行聚类，得到N类待处理文本；N为大于等于1的整数；

针对所述N类待处理文本中每一类待处理文本进行关键词提取，得到至少一个关键词；

基于所述至少一个关键词，确定新增的至少一个意图；其中，至少一个意图中每一个意图对应一个或多个关键词。

本发明另一方面提供一种意图识别装置，所述装置包括：

数据预处理单元，用于从保存的对话日志中获取多个待处理文本，对所述多个待处理文本进行处理得到对应的多个句向量；

聚类单元，用于基于所述多个句向量，对所述多个待处理文本进行聚类，得到N类待处理文本；N为大于等于1的整数；

关键词提取单元，用于针对所述N类待处理文本中每一类待处理文本进行关键词提取，得到至少一个关键词；

意图识别单元，用于基于所述至少一个关键词，确定新增的至少一个意图；其中，至少一个意图中每一个意图对应一个或多个关键词。

本发明另一方面还提供一种存储介质，所述存储介质用于存储计算机指令，所述计算机指令用于使所述计算机执行前述方法。

通过采用上述方案，就能够基于对话日志确定指示一个待处理文本，进而基于分类处理得到至少一类待处理文本，基于至少一类待处理文本得到多个关键词，进而确定新增的意图。如此，避免了需要采用人为总结来发现对话系统中的新意图的方法，所带来的效率不高并且准确率较低的问题。

附图说明

图1为本发明实施例提供的一种意图识别方法流程示意图；

图2为本发明实施例提供的一种整体处理流程示意图；

图3为本发明实施例提供的一种DAN模型结构示意图；

图4为本发明实施例提供的一种意图识别装置的组成结构示意图。

具体实施方式

为使本申请的目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种意图识别方法，如图1所示，所述方法包括：

S11：从保存的对话日志中获取多个待处理文本，对所述多个待处理文本进行处理得到对应的多个句向量；

S12：基于所述多个句向量，对所述多个待处理文本进行聚类，得到N类待处理文本；N为大于等于1的整数；

S13：针对所述N类待处理文本中每一类待处理文本进行关键词提取，得到至少一个关键词；

S14：基于所述至少一个关键词，确定新增的至少一个意图；其中，至少一个意图中每一个意图对应一个或多个关键词。

本申请实施例可以应用于任意一种电子设备中，只要具备处理功能即可。比如，可以应用于服务器侧，或者，可以应用于PC端等等，这里不做穷举。

本申请实施例通过利用对话系统中的日志数据经过算法处理，快速为研究者找到数据中的新意图，帮助完善对话系统的应用领域和场景，提高对话系统的性能。

结合图2对本申请实施例提供的方案进行具体说明：

1、数据采集。数据来源于系统中用户的对话日志，按对话轮次分开，每一轮为一个句子。

也就是说，首先需要先从系统保存的数据中提取对话日志，前述对话日志可以为一个或多个用户的对话日志。

另外，对话日志的内容，可以包括以下至少之一：用户与用户之间的语音对话转换得到的文本信息；用户与机器之间的语音对话转换得到的文本信息；用户与用户之间的文本对话内容；用户与机器之间的文本对话内容。

需要指出的是，通过本步骤得到多个待处理文本，该待处理文本的数量越多最终得到的新增的意图越准确，因此，可以将获取到多个待处理文本的数量设置的比较大，比如，可以设置为大于1000条。当然，还可以设置大于更大的数字，比如2000条或者更多。本示例中不做穷举。

2、数据预处理。

具体可以包括：对所述多个待处理文本进行过滤，得到过滤后的多个待处理文本。

这里进行过滤处理可以包括以下至少之一：去除重复的无意义的词语或句子；去除长度大于长度阈值的句子。

其中，重复的无意义的词语中至少可以包括语气词，比如“嗯嗯”“好的好的”等等。

具体来说，多个待处理文本中主要过滤两类数据：

一是有些句子虽然大量出现，但对意图识别没有太大的意义，比如“嗯嗯”，“哎”等，都是由语气词和没有实际意义的短词组成，需要利用词表和规则将这类句子过滤掉；

另外一类是针对一些特别长的句子，该类数据结构很复杂，包含了多种意图，本应分成多个句子进行分析，因此预处理时希望能过滤掉这类数据，将句子的最大长度阈值可以设置为100，当然，还可以根据实际情况将长度阈值设置为其他数值，比如可以为200，或者可以为50。另外，所述长度阈值的单位可以为字数。

在进一步地，进行过滤的处理可以采用预设的模型或者预设的规则来完成。其中模型可以预先根据设置的输入以及输出进行训练，具体的训练方法这里不进行赘述。

3、文本的向量化表示。

本实施例中采用的向量表示方法可以为基于词级别的方法，比如，可以是TFIDF和Word2Vec等。本实施例中采用的向量表示方法为需要经过有监督的训练后才能表示句向量。

本申请提供的新意图识别方法，为无监督学习问题，而且意图识别是一个句子级别任务，因此，本申请实施例采用一种句子编码框架模型DAN(deep average network)，该模型通过多任务学习，训练出了一个泛化能力很强的模型。

其中，DAN模型结构图如图3所示，应用时，利用训练好的模型可以直接生成一个500维的句向量，比基于词向量的模型更加方便。

4、文本聚类过程。也就是基于所述多个句向量，对所述多个待处理文本进行聚类。

这里基于所述多个句向量，对所述多个待处理文本进行聚类，包括：

将所述多个句向量进行聚类，得到N个句向量簇；其中，所述N个句向量簇中，每一个句向量簇包含一个或多个句向量；

将所述N个句向量簇的每一个句向量簇中包含的一个或多个句向量所对应的待处理文本，作为同一类待处理文本。

新意图发现需要先将具有相似意图的文本归纳在一起，因此需要用到聚类算法。

再具体来说，将所述多个句向量进行聚类，得到N个句向量簇，可以为：选取一个句向量作为第一句向量，将该句向量作为一个向量簇，计算其他句向量与选取的第一句向量之间的相似度；从其他句向量中选取与所述第一句向量中获取相似度最高的句向量添加至所述向量簇中，以此类推，直至划分得到多个向量簇为止。

本申请可以使用层次聚类算法来实现上述处理，该算法的基本思想是先将所有句向量本身作为一个簇，然后通过计算任意两个簇之间的相似性，将所有数据中最为相似的两个簇进行合并，并反复迭代这一过程直到达到预设的簇个数。该算法对复杂类型的数据具有很好的鲁棒性，且数据量大时聚类结果分布更加均匀。

5、意图识别过程。也就是针对所述N类待处理文本中每一类待处理文本进行关键词提取，得到至少一个关键词。

所述针对所述N类待处理文本中每一类待处理文本进行关键词提取，得到至少一个关键词，包括：

将每一类待处理文本中包含的待处理文本划分为至少一个组成单元；其中，所述组成单元为词语或句子；

计算得到至少一个组成单元对应的权重值；

基于所述至少一个组成单元的权重值进行排序，选择前M个组成单元，基于所述前M个组成单元确定所述每一类待处理文本所对应的关键词；其中，M大于等于1。

也就是说，意图识别可以看成是一个关键词提取过程，该过程用到了TextRank算法。

其中，所述TextRank算法是一种应用于文本的且基于图的排序算法，可应用于关键词提取和自动摘要等任务。

所述TextRank的基本思想是源于PageRank算法，可以包括：通过将文本分割成若干组成单元(词或句子)并建立图模型，然后根据各成分之间的共现关系计算每个组成单元的相似度，即rank值，最后对rank值排序取TopM个结果即可得到该文本的关键词或摘要。

聚类过程中按簇将相似的句子聚在了一起，将这些聚在一起的句子作为一类文本，利用TextRank算法提取该类文本中的关键词。考虑到文本意图一般都是由名词和动词组成，所以这里选取名词、动词、动名词以及一些专有名词作为提取关键词的候选词。最后将Top5的关键词作为新意图的候选结果，为新意图的发现提供依据和参考。

6、新意图发现。基于所述至少一个关键词，确定新增的至少一个意图。

具体的：基于已有的意图对所述至少一个关键词进行筛选，从所述至少一个关键词中删除与所述已有的意图相同的关键词，根据剩余的关键词确定所述新增的至少一个意图。

也就是说，利用聚类过程中聚集的数据，参考提取出的关键词，过滤掉已有的意图，即可分析得到新的意图。

这里，还需要指出的是，每一个意图可以包含有一个关键词，也可以由多个关键词结合共同作为一个意图。

在整个流程图中，通过聚类算法聚集的簇即可作为一类新的意图，且最后提取的排序最高的几个关键词可作为这类新意图的参考结果。

本申请实施例提供了一种意图识别装置，如图4所示，所述装置包括：

数据预处理单元41，用于从保存的对话日志中获取多个待处理文本，对所述多个待处理文本进行处理得到对应的多个句向量；

聚类单元42，用于基于所述多个句向量，对所述多个待处理文本进行聚类，得到N类待处理文本；N为大于等于1的整数；

关键词提取单元43，用于针对所述N类待处理文本中每一类待处理文本进行关键词提取，得到至少一个关键词；

意图识别单元44，用于基于所述至少一个关键词，确定新增的至少一个意图；其中，至少一个意图中每一个意图对应一个或多个关键词。

本申请实施例提供的装置可以设置于任意一种电子设备中，只要具备处理功能即可。比如，可以应用于服务器侧，或者，可以应用于PC端等等，这里不做穷举。

数据采集。数据来源于系统中用户的对话日志，按对话轮次分开，每一轮为一个句子。

数据预处理。

具体可以包括：数据预处理单元41，用于对所述多个待处理文本进行过滤，得到过滤后的多个待处理文本。

具体来说，多个待处理文本中主要过滤两类数据：

文本的向量化表示。

文本聚类过程。也就是基于所述多个句向量，对所述多个待处理文本进行聚类。

所述装置还包括：

向量化表示单元45，用于将所述多个句向量进行聚类，得到N个句向量簇；其中，所述N个句向量簇中，每一个句向量簇包含一个或多个句向量；将所述N个句向量簇的每一个句向量簇中包含的一个或多个句向量所对应的待处理文本，作为同一类待处理文本。

再具体来说，将所述多个句向量进行聚类，得到N个句向量簇，可以为：向量化表示单元45，用于选取一个句向量作为第一句向量，将该句向量作为一个向量簇，计算其他句向量与选取的第一句向量之间的相似度；从其他句向量中选取与所述第一句向量中获取相似度最高的句向量添加至所述向量簇中，以此类推，直至划分得到多个向量簇为止。

意图识别过程。也就是关键词提取单元43，用于针对所述N类待处理文本中每一类待处理文本进行关键词提取，得到至少一个关键词。

所述关键词提取单元43，用于将每一类待处理文本中包含的待处理文本划分为至少一个组成单元；其中，所述组成单元为词语或句子；

计算得到至少一个组成单元对应的权重值；

所述TextRank的基本思想是源于PageRank算法，可以包括：关键词提取单元43，用于通过将文本分割成若干组成单元(词或句子)并建立图模型，然后根据各成分之间的共现关系计算每个组成单元的相似度，即rank值，最后对rank值排序取TopM个结果即可得到该文本的关键词或摘要。

新意图发现。意图识别单元44，用于基于所述至少一个关键词，确定新增的至少一个意图。

具体的：意图识别单元44，用于基于已有的意图对所述至少一个关键词进行筛选，从所述至少一个关键词中删除与所述已有的意图相同的关键词，根据剩余的关键词确定所述新增的至少一个意图。

在整个流程图中，通过聚类算法聚集的簇即可作为一类新的意图，且最后提取的排序最高的5个关键词可作为这类新意图的参考结果。

在示例性实施例中，本发明实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器，上述计算机程序可由终端的处理器执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种意图识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述多个句向量，对所述多个待处理文本进行聚类，包括：

3.根据权利要求1所述的方法，其特征在于，所述针对所述N类待处理文本中每一类待处理文本进行关键词提取，得到至少一个关键词，包括：

计算得到至少一个组成单元对应的权重值；

4.根据权利要求1所述的方法，其特征在于，对所述多个待处理文本进行处理得到对应的多个句向量之前，所述方法还包括：

对所述多个待处理文本进行过滤，得到过滤后的多个待处理文本。

5.根据权利要求1所述的方法，其特征在于，基于所述至少一个关键词，确定新增的至少一个意图，包括：

基于已有的意图对所述至少一个关键词进行筛选，从所述至少一个关键词中删除与所述已有的意图相同的关键词，根据剩余的关键词确定所述新增的至少一个意图。

6.一种意图识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

向量化表示单元，用于将所述多个句向量进行聚类，得到N个句向量簇；其中，所述N个句向量簇中，每一个句向量簇包含一个或多个句向量；将所述N个句向量簇的每一个句向量簇中包含的一个或多个句向量所对应的待处理文本，作为同一类待处理文本。

8.根据权利要求6所述的装置，其特征在于，所述关键词提取单元，用于将每一类待处理文本中包含的待处理文本划分为至少一个组成单元；其中，所述组成单元为词语或句子；计算得到至少一个组成单元对应的权重值；基于所述至少一个组成单元的权重值进行排序，选择前M个组成单元，基于所述前M个组成单元确定所述每一类待处理文本所对应的关键词；其中，M大于等于1。

9.根据权利要求6所述的装置，其特征在于，所述数据预处理单元，用于对所述多个待处理文本进行过滤，得到过滤后的多个待处理文本。

10.一种存储介质，其特征在于，所述存储介质用于存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。