CN112527969A

CN112527969A - 增量意图聚类方法、装置、设备及存储介质

Info

Publication number: CN112527969A
Application number: CN202011531561.6A
Authority: CN
Inventors: 黄健; 李锋; 杨洋; 汪赟; 潘仰耀; 张琛; 万化
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-19
Anticipated expiration: 2040-12-22
Also published as: CN112527969B

Abstract

本说明书实施例提供了一种增量意图聚类方法、装置、设备及存储介质，该方法包括：获取增量对话语料；从所述增量对话语料中提取文本关键词；将所述文本关键词转换为第一词向量，以作为所述增量对话语料的向量化表示；确定所述第一词向量与历史意图类别集合中各第二词向量的相似度；所述各第二词向量为对应历史意图类别的文本关键词的向量表示；根据所述相似度对所述文本关键词进行意图聚类。本说明书实施例可以提高识别用户的增量意图的及时性。

Description

增量意图聚类方法、装置、设备及存储介质

技术领域

本说明书涉及自然语言处理技术领域，尤其是涉及一种增量意图聚类方法、装置、设备及存储介质。

背景技术

短文本分类(Short Text Classification)是自然语言处理(Natural LanguageProcessing，NLP)中关于自然语言理解(Natural Language Understanding，NLU)的一个基础任务。其任务目的是为短文本语料分配预先定义的一组分类标签集合。短文本分类技术是对话系统、信息检索、问答系统等多种NLP技术中必不可少的重要组成部分。

以金融领域为例，随着金融业快速发展，商业银行为客户提供丰富的标准化金融产品和服务(例如：存款、住房贷款、消费贷款、银企直联和第三方存管凭证等)。海量客户在使用这些金融产品过程中，往往会产生大量的问题。通常，商业银行的客户服务系统每天会收到大量的客户电话。目前，金融科技在商业银行逐步发展，智能客服系统会将客户的语音转为文本(Audio Speech Recognition，ASR)，再利用NLP技术对客户的意图进行分类，然后，针对不同的意图，客服系统为用户提供不同的服务和反馈。

目前，在实际应用场景下，现有技术往往是统计历史用户咨询中使用频率最高一些用户咨询(例如前100个使用频率最高的query等)，并据此训练意图分类器，以用于线上意图分类(即对于任意的用户咨询，都可以按照意图分类器为其匹配出一种意图)。然而，随着业务的发展变化及用户咨询的不断累积，原先的意图分类器可能不再满足实际需求。在此情况下，一般通过客服人员和业务人员对增量的用户意图进行定期(例如每周一次、每月一次等)汇总和提炼，以挖掘出使用频率较高的新意图类别。显然，这种人工定期挖掘使用频率较高的新意图类别的方式具有一定的滞后性。因此，如何及时识别用户的增量意图已成为目前亟待解决的技术问题。

发明内容

本说明书实施例的目的在于提供一种增量意图聚类方法、装置、设备及存储介质，以提高识别用户的增量意图的及时性。

为达到上述目的，一方面，本说明书实施例提供了一种增量意图聚类方法，包括：

获取增量对话语料；

从所述增量对话语料中提取文本关键词；

将所述文本关键词转换为第一词向量，以作为所述增量对话语料的向量化表示；

确定所述第一词向量与历史意图类别集合中各第二词向量的相似度；所述各第二词向量为对应历史意图类别的文本关键词的向量表示；

根据所述相似度对所述文本关键词进行意图聚类。

本说明书一个实施例中，所述历史意图类别集合通过以下方式获得：

从历史对话语料中提取业务操作动词集合和业务名词集合；

根据所述业务操作动词集合和所述业务名词集合构建领域词典；

根据所述领域词典对所述历史对话语料进行分词，获得分词结果；

用所述分词结果训练词向量模型，获得所述历史对话语料的领域词向量集合；

获取所述历史对话语料中各次对话语料的文本关键词；

根据所述领域词向量集合将所述各次对话语料的文本关键词进行向量化，获得向量化对话语料集合；

对所述向量化对话语料集合中的向量化对话语料进行意图聚类，获得历史意图类别集合。

本说明书一个实施例中，所述对所述向量化对话语料集合中的向量化对话语料进行意图聚类，包括：

当两个向量化对话语料的业务操作动词向量的相似度达到第一阈值，且所述两个向量化对话语料的业务名词向量的相似度达到第二阈值时，将所述两个向量化对话语料聚类为同一个意图类别；

确定同一个意图类别中，各个向量化对话语料的业务操作动词向量的第一均值，及各个向量化对话语料对应的第二均值；

将所述第一均值和所述第二均值按序拼接组合，以作为该意图类别的向量表示。

本说明书一个实施例中，所述将所述文本关键词转换为第一词向量，包括：

确认所述文本关键词中是否包含业务操作动词和业务名词；

当所述文本关键词中包含一个业务操作动词以及一个业务名词时，将该业务操作动词及该业务名词所对应的词向量按序拼接为第一词向量。

本说明书一个实施例中，所述将所述文本关键词转换为第一词向量，还包括：

当所述文本关键词中包含一个业务操作动词以及多个业务名词时，获取所述多个业务名词对应的词向量；

确定所述多个业务名词对应词向量的均值；

将该业务操作动词对应的词向量及所述均值按序拼接为第一词向量。

当所述文本关键词中包含一个业务操作动词，且不包含业务名词时，获取所述文本关键词中所有名词性词语对应的词向量；

确定所述所有名词性词语对应的词向量的均值；将该业务操作动词对应的词向量及所述均值按序拼接为第一词向量。

本说明书一个实施例中，所述根据所述相似度对所述文本关键词进行意图聚类，包括：

当所述第一词向量与所述各第二词向量的相似度均小于设定阈值时，则确认所述第一词向量对应的增量对话语料为增量意图类别。

另一方面，本说明书实施例还提供了一种意图聚类装置，包括：

获取模块，用于获取增量对话语料；

提取模块，用于从所述增量对话语料中提取文本关键词；

转换模块，用于将所述文本关键词转换为第一词向量，以作为所述增量对话语料的向量化表示；

确定模块，用于确定所述第一词向量与历史意图类别集合中各第二词向量的相似度；所述各第二词向量为对应历史意图类别的文本关键词的向量表示；

聚类模块，用于根据所述相似度对所述文本关键词进行意图聚类。

另一方面，本说明书实施例还提供了一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时，执行上述方法的指令。

另一方面，本说明书实施例还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机设备的处理器运行时，执行上述方法的指令。

由以上本说明书实施例提供的技术方案可见，本说明书实施例可以从获取到的增量对话语料中提取文本关键词；将文本关键词转换为第一词向量，以作为增量对话语料的向量化表示；其次确定第一词向量与历史意图类别集合中各第二词向量的相似度；其中，各第二词向量为对应历史意图类别的文本关键词的向量表示；然后根据相似度对文本关键词进行意图聚类，从而自动实现对增量对话语料的意图聚类。因此，与现有技术中人工定期挖掘增量意图类别相比，本说明书实施例可以更加及时地对增量对话语料进行意图聚类，且这种自动意图聚类方式的效率较高。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本说明书一些实施例中增量意图聚类系统的结构示意图；

图2示出了本说明书另一些实施例中增量意图聚类系统的结构示意图；

图3示出了本说明书另一些实施例中增量意图聚类系统的结构示意图；

图4示出了本说明书一些实施例中增量意图聚类方法的流程图；

图5示出了本说明书一些实施例中历史意图聚类的流程图；

图6示出了本说明书一些实施例中意图聚类装置的结构框图；

图7示出了本说明书一些实施例计算机设备的结构框图。

【附图标记说明】

100、意图聚类装置；

200、增量对话语料数据库；

300、历史意图类别存储器；

400、智能客服系统；

500、历史对话语料数据库；

600、消息中间件；

61、获取模块；

62、提取模块；

63、转换模块；

64、确定模块；

65、聚类模块；

702、计算机设备；

704、处理器；

706、存储器；

708、驱动机构；

710、输入/输出模块；

712、输入设备；

714、输出设备；

716、呈现设备；

718、图形用户接口；

720、网络接口；

722、通信链路；

724、通信总线。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

参考图1所示，本说明书一些实施例中的增量意图聚类系统可以包括：意图聚类装置100、增量对话语料数据库200和历史意图类别存储器300。其中，意图聚类装置100可以用于从增量对话语料数据库200获取增量对话语料，对所述增量对话语料进行聚类，并将聚类结果存储(持久化存储)至历史意图类别存储器300中。增量对话语料数据库200中的增量对话语料可以由外部的智能客服系统400提供。智能客服系统400可以将不同渠道(例如通话语音、短信、即时通讯消息等)的实时增量对话信息转换为适于意图聚类装置100处理的增量对话语料，并存储于增量对话语料数据库200中。

在本说明书一些实施例中，意图聚类装置100可以为服务器。所述服务器可以为具有运算和网络交互功能的电子设备；也可以为运行于该电子设备中，为数据处理和网络交互提供业务逻辑的软体。所述服务器可以接收客户端发送的通信消息，并向客户端发送通信消息。例如，所述服务器可以将增量对话语料的意图聚类结果提供给客户端，以便于用户(一般为客服管理人员等)可以根据增量对话语料的意图聚类结果，来确认是否需要将增量意图类别添加至历史意图类别存储器300中，以作为历史意图类别的补充。在本说明书一个实施例中，所述客户端可以为台式电脑、平板电脑、笔记本电脑和智能手机等。当然，所述客户端并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软体。

结合图2所示，在本说明书另一些实施例中，除意图聚类装置100、增量对话语料数据库200和历史意图类别存储器300之外，增量意图聚类系统还可以包括历史对话语料数据库500。历史意图类别存储器300中存储的各个历史意图类别(这些历史意图类别可以形成历史意图类别集合)，可以是意图聚类装置100预先对历史对话语料数据库500中的历史对话语料进行聚类得到。在此基础上，意图聚类装置100还可以进行增量对话语料的流处理，即智能客服系统400生成一个增量对话语料至增量对话语料数据库200，意图聚类装置100即可以及时获取到该增量对话语料，并对其进行意图聚类。

结合图3所示，在本说明书另一些实施例中，除意图聚类装置100、增量对话语料数据库200、历史意图类别存储器300和历史对话语料数据库500之外，增量意图聚类系统还可以包括消息中间件600。图3所示的增量意图聚类系统与图2所示的增量意图聚类系统的工作原理大致相同。不同之处主要在于，意图聚类装置100可以通过消息中间件获取增量对话语料，以保证增量对话语料的高可靠性和高安全性传递。例如在本说明书一个实施例中，所述消息中间件可以为Kafka、RabbitMQ或及RocketMQ等。

本说明书提供了增量意图聚类方法的实施例，其可以用于上述的意图聚类装置侧。参考图4所示，在本说明书一些实施例中，所述增量意图聚类方法包括以下步骤：

S401、获取增量对话语料。

S402、从所述增量对话语料中提取文本关键词。

S403、将所述文本关键词转换为第一词向量，以作为所述增量对话语料的向量化表示。

S404、确定所述第一词向量与历史意图类别集合中各第二词向量的相似度；所述各第二词向量为对应历史意图类别的文本关键词的向量表示。

S405、根据所述相似度对所述文本关键词进行意图聚类。

在本说明书实施例中，意图聚类装置可以从获取到的增量对话语料中提取文本关键词；将文本关键词转换为第一词向量，以作为增量对话语料的向量化表示；其次确定第一词向量与历史意图类别集合中各第二词向量的相似度；其中，各第二词向量为对应历史意图类别的文本关键词的向量表示；然后根据相似度对文本关键词进行意图聚类，从而自动实现对增量对话语料的意图聚类。因此，与现有技术中人工定期挖掘增量意图类别相比，本说明书实施例可以更加及时地对增量对话语料进行意图聚类，且这种自动意图聚类方式的效率较高。

此外，在现有技术中，虽然也可以定期统计历史对话语料，并基于最新统计的历史对话语料重新训练出新的意图分类器，并重新部署。但是，这种方式的成本更高。因此，相对于这种方式，本说明书实施例避免了针对增量意图需要反复训练建模的问题，实现成本更低。

在本说明书的实施例中，对话语料一般是为指定业务客服领域内以自然语言形式表达的对话短文。例如，以金融客服领域为例，典型的对话语料可以是：“业务用户：请问我名下现有几笔定期存款？是否都办理了到期自动续存？；客服(包括智能客服系统)：您好！截至目前您名下共有两笔笔定期存款，且都办理了到期自动续存”。

在本说明书的实施例中，增量对话语料是一个相对概念。以历史对话语料数据库和增量对话语料数据库为例，增量对话语料数据库中的每个对话语料，相对于历史对话语料数据库中的每个对话语料都属于增量对话语料。例如，假设历史对话语料数据库中保存的均为对话语料均为2020年12月1日以前的对话语料，则对于历史对话语料数据库而言，2020年12月1日以及以后的对话语料均属于增量对话语料；相应的，存储2020年12月1日以及以后的对话语料的对话语料数据库，则可以称之为增量对话语料数据库。同理，相对于已经存储于增量对话语料数据库中的对话语料而言，智能客服系统当前时刻新生成的尚未写入增量对话语料数据库中的对话语料，则属于增量对话语料。

在本说明书的实施例中，文本关键词是指包含了增量对话语料的核心和主要内容的词；因此，用文本关键词即可以体现对话语料的核心和主要内容。例如，以金融客服领域为例，用户的咨询呈现一些明显的特征：一是咨询(QUERY)语句长度往往较短，长度小于15个字的QUERY数量占比87％。二是QUERY往往是客户对业务本身或业务操作问题的表达。因此，QUERY一般都涉及到业务实体，或者业务操作方法，或者是二者的组合，这类QUERY模式占比接近90％。因此，在本说明书一些实施例中，可以将增量对话语料中的业务操作动词和业务名词等作为文本关键词。

在本说明书一些实施例中，从所述增量对话语料中提取文本关键词可以包括如下步骤：

(1)、对增量对话语料进行分词，获得分词结果。

在本说明书一些实施例中，可以采用基于词典的分词方法、基于统计的分词方法或基于规则的分词方法等实现对增量对话语料进行分词。例如，在一示例性实施例中，可以采用结巴分词(jieba)工具对对增量对话语料进行分词。当然，在本说明书其他一些实施例中，在对增量对话语料进行分词之前，还可以对对话语料进行数据清洗等预处理。

(2)、对分词结果进行词性标注，获得词性标注结果。

为了提取分词结果中的业务操作动词和业务名词，可以先对上一步骤得到的分词结果进行词性标注。在本说明书一些实施例中，词性标注可以任何合适词性标注方法实现。例如可以包括但不限于基于规则的词性标注方法(例如基于正则表达式的规则)、基于统计模型的词性标注方法(例如隐马尔可夫模型、条件随机场等统计模型)、基于统计方法与规则方法相结合的词性标注方法、基于深度学习的词性标注方法(例如LSTM+CRF、BiLSTM+CRF等)。

(3)、从词性标注结果中提取业务操作动词和业务名词，以作为文本关键词。

本领域技术人员可以理解，上述从增量对话语料中提取文本关键词的方法仅是本说明书中的示例性距离，在本说明书其他的实施例中，根据需要，也可以采用任何其他合适的技术从增量对话语料中提取文本关键词，本说明书中对此不作唯一限定。

从增量对话语料中提取的文本关键词一般不方便计算机设备的运算处理。因此，

需要对其进行词向量转换操作，以转换为方便计算机设备运算处理的词向量矩阵。在本说明书一些实施例中，可以基于word2vec模型等实现文本关键词的词向量化(wordembedding)。在本说明书一个实施例中，所述将所述文本关键词转换为第一词向量，可以包括以下步骤：

(1)、确认所述文本关键词中是否包含业务操作动词和业务名词。

(2)、当所述文本关键词中包含一个业务操作动词以及一个业务名词时，将该业务操作动词及该业务名词所对应的词向量按序拼接为第一词向量。

研究表明，用户的每轮次咨询中，绝大多数是针对单个业务实体的单个业务操作方法。例如，“查余额”中，“查”为单个业务操作方法，“余额”为单个业务实体。再如，“买基金”中，“买”为单个业务操作方法，“基金”为单个业务实体。因此，用一个业务操作动词+一个业务名词可以表示绝大多数的咨询。相应的，当文本关键词中包含一个业务操作动词以及一个业务名词时，可以将该业务操作动词及该业务名词所对应的词向量按序拼接为第一词向量(例如{v，n}，其中v表示业务操作动词的词向量，n表示业务名词的词向量)。

在本说明书另一个实施例中，所述将所述文本关键词转换为第一词向量，还可以包括：当所述文本关键词中包含一个业务操作动词以及多个业务名词时，获取所述多个业务名词对应的词向量；确定所述多个业务名词对应词向量的均值(即对所述多个业务名词对应词向量进行求平均值)，并将该业务操作动词对应的词向量及所述均值按序拼接为第一词向量(例如{v，f(n1，n2，…)}，其中v表示业务操作动词的词向量，f(n1，n2，…)表示多个业务名词的词向量均值)。在少数情况下，文本关键词中可能会出现不止一个业务名词，但统计表明，这些业务名词有大概率是针对同一业务实体概念的不同称呼(例如“余款”和“余额”，“清单”和“明细”等)。因此，通过对多个业务名词对应词向量求均值，可以有利于更准确地提炼出可以表征该文本关键词中的业务实体，从而有利于提高增量意图聚类的准确性。

在本说明书另一个实施例中，所述将所述文本关键词转换为第一词向量，还可以包括：当所述文本关键词中包含一个业务操作动词，且不包含业务名词时，获取所述文本关键词中所有名词性词语对应的词向量；确定所述所有名词性词语对应的词向量的均值，并将该业务操作动词对应的词向量及所述均值按序拼接为第一词向量。在少数情况下，文本关键词中可能会出现无业务名词的情况，此时为了有利于提高增量意图聚类的准确性，也可以对文本关键词中所有名词性词语对应的词向量求均值。

在本说明书另一个实施例中，在少数情况下，当文本关键词不包含任何业务操作动词，表明用户的咨询可能没有实际意图。在此情况下，可以认为文本关键词对应的用户咨询不是有效咨询，从而不予进行意图聚类。此外，在本说明书另一个实施例中，在少数情况下，当文本关键词包含两个或更多个业务操作动词时表明用户的意图复杂，难以通过单一意图来表达。在此情况下，也可以认为文本关键词对应的用户咨询不是有效咨询，从而不予进行意图聚类。

在本说明书的实施例中，历史意图类别集合反映了指定范围内历史对话语料中所包含的意图类别。历史意图类别集合中包含多个第二词向量，历史意图类别集合中的每个第二词向量与一个历史意图类别一一对应，即每个第二词向量用于表征对应历史意图类别的文本关键词的向量。以下举例说明历史意图类别集合的生成方法。

参考图5所示，在本说明书一些实施例中，所述历史意图类别集合可以通过以下方式获得：

S501、从历史对话语料中提取业务操作动词集合和业务名词集合。

在本说明书一些实施例中，可以使用启发式方法(或其他任何合适的词提取方法)从历史对话语料中提取常见的业务操作方法。例如，在本说明书一个实施例中，根据商业银行提供的金融服务和产品，可以使用启发式方法抽象整理出若干种子动词，包括：“查”、“转”、“改”、“换”、“调”、“存”、“取”、“销”、“开”、“刷”、“打”等。在一示例性实施例中，根据具体需要，所述启发式方法例如可以选择为模拟退火算法、遗传算法、列表搜索算法、进化规划、进化策略或蚁群算法等。

以这些种子动词为基础，可以使用字节对编码(Byte Pair Encoder，BPE)方法(或其他词频分析方法)，从用户QUERY(即用户的咨询)中分析出潜在的业务操作动词(候选业务操作动词)，并依据候选业务操作动词的词频，分别选取出若干业务操作动词。当然，在本说明书的其他实施例中，还可以通过人工检查等方式，辅助挖掘历史对话语料中常见的业务操作动词。

例如，根据“查”这个种子动词，可以挖掘出“查询”、“调查”、“检查”、“查看”、“查一下”、“查下”、“查查”、“查不了”、“查不到”、“不能查”等。值得注意的是，这里既能挖掘出规范的表达(如“查询”、“查看”等)，也能挖掘出偏向口语化的表达(如“查一下”、“查下”等)。而且，金融领域的业务操作动词往往变化不大，因此，可以认为，这里挖掘出的业务操作动词，对于后续新出现的业务，同样适用。

基于上述BPE方法，还可以从历史对话语料中分析出潜在的业务名词，并根据候选业务名词的词频，分别选取若干业务名词。当然，在本说明书的其他实施例中，还可以通过人工检查等方式，辅助挖掘历史对话语料中常见的业务名词。

例如，根据“查”这个业务操作动词，可以挖掘出相关的业务名称(例如：“余额”、“卡号”、“明细”、“对账单”、“积分”等)。再如，根据“换”这个业务操作动词，可以挖掘出相关业务名称(例如：“密码”、“手机号”、“联系方式”、“地址”等)。值得注意的是，商业银行的某些专有业务名词可能较长(例如：“单位结算卡”、“第三方存管凭证”等)，针对该类业务名称，使用BPE方法不仅可以更有效地挖掘出这类专有业务名词，还可以挖掘出新的业务名词。

S502、根据所述业务操作动词集合和所述业务名词集合构建领域词典。

顾名思义，领域词典即为特定领域的词典。在本说明书实施例中，领域词典是指金融领域或银行领域的领域词典。

为了提高上一步得到的业务操作动词集合和业务名词集合的泛化能力，可以训练金融领域专属的词向量。具体而言，可以根据上述得到的业务操作动词集合和业务名词集合，构建历史对话语料的领域词典。例如，可以将业务操作动词集合和业务名词集合的并集作为领域词典。

S503、根据所述领域词典对所述历史对话语料进行分词，获得分词结果。

在本说明书一些实施例中，可以使用分词工具(例如结巴分词等)，对历史对话语料进行分词，获得分词结果。

S504、用所述分词结果训练词向量模型，获得所述历史对话语料的领域词向量集合。

应当注意的是，对话语料中的词一般偏向口语化，而目前主流的词向量算法(例如word2vec模型)，都是使用规范化文本训练得到。而在本说明书一些实施例中，将偏向口语化的分词结果作为训练数据，训练词向量模型，将更加符合业务场景，从而可以提高训练出模型的泛化能力。基于训练好的词向量模型对历史对话语料进行转换，即可以得到历史对话语料的领域词向量集合。

S505、获取所述历史对话语料中各次对话语料的文本关键词。

在本说明书一些实施例中，可以使用分词工具(例如结巴分词等)，对每轮次历史对话语料进行分词，获得对应的分词结果。然后利用预设的序列标注方法对一些分词结果进行词性标注，并以标注后的数据作为数据集训练机器学习模型，从而可以训练得到能够预测分词词性的词性预测模型。

在一示例性实施例中，序列标注方法可以采用BIO标注等。BIO标注中，B表示一个词处于一个实体的开始(Begin)，I表示一个词处于一个实体的内部(inside)，O表示一个词处于一个实体的外部(outside)。BIO序列标准模型的输入：xi＝{c1,c2,…,cn}，BIO序列标准模型的输出：yi＝{O,B-V,I-V,O,O,B-N,I-N,O}。其中，ci表示对话语料的字符，n为对话语料的字符数量。

S506、根据所述领域词向量集合将所述各次对话语料的文本关键词进行向量化，获得向量化对话语料集合。

在上述获得所述历史对话语料中各次对话语料的文本关键词基础上，通过查询领域词向量集合，可以匹配到每个文本关键词对应的词向量，从而实现各次对话语料的文本关键词的向量化，获得向量化对话语料集合。在向量化对话语料集合中，每个向量为一个对话语料的文本关键词的向量，该向量即用于表征该对话语料。不仅如此，向量化对话语料集合中的每个向量一般是一个业务操作动词向量+一个业务名词向量的拼接组合，具体原因可以参见上文中有关部分的解释说明，在此不再赘述。例如，在第i个向量化对话语料{vi，ni}，其中vi表示对应的业务操作动词的词向量，ni表示对应的业务名词的词向量。

在本说明书另一些实施例中，还可能会出现：一个文本关键词中包含一个业务操作动词以及多个业务名词的情况；一个文本关键词中包含一个业务操作动词，但不包含业务名词的情况；一个文本关键词中包含不包含任何业务操作动词的情况；以及一个文本关键词中包含多个业务操作动词的情况。关于这些特殊情况的处理，可以参见上文有关于部分的解释说明，在此不再赘述。

S507、对所述向量化对话语料集合中的向量化对话语料进行意图聚类，获得历史意图类别集合。

在本说明书一些实施例中，所述对所述向量化对话语料集合中的向量化对话语料进行意图聚类，可以包括以下步骤：

(1)、当两个向量化对话语料的业务操作动词向量的相似度达到第一阈值，且所述两个向量化对话语料的业务名词向量的相似度达到第二阈值时，将所述两个向量化对话语料聚类为同一个意图类别。否则，可以认为两个向量化对话语料属于不同的意图类别。

(2)、确定同一个意图类别中，各个向量化对话语料的业务操作动词向量的第一均值，及各个向量化对话语料对应的第二均值。

(3)、将所述第一均值和所述第二均值按序拼接组合，以作为该意图类别的向量表示。

如此，通过该方式，可以从历史对话语料中挖掘大量的意图，并且对同一个意图聚类中的向量求平均，得到每个意图聚类的向量表示，即

其中，S_i表示第i个意图，q_i是S_i中的一个用户QUERY，I_i是第i个意图聚类的向量。

在本说明书一些实施例中，所述根据所述相似度对所述文本关键词进行意图聚类，可以包括：当所述第一词向量与所述各第二词向量的相似度均小于设定阈值时，则确认所述第一词向量对应的增量对话语料为增量意图类别，并作为增量意图类别集合中的增量意图类别。此后，当聚类增量意图时，不仅要考虑历史意图类别集合中的意图类别，还要考虑增量意图类别集合中的意图。即当一个增量对话语料的词向量与历史意图类别集合中的各个向量距离均小于设定阈值，且与增量意图类别集合中的各个向量距离也均小于设定阈值时，则认为该增量对话语料对应的意图属于增量意图类别。

在本说明书另一些实施例中，当增量意图类别集合中的某一增量意图类别对应的增量对话语料累计达到设定数量时，可以将该增量意图类别自动增加至历史意图类别集合中。

在本说明书一些实施例中，上述的相似度可以根据任何合适的距离算法或相似度算法实现，本说明书对此不作限定，具体可以根据需要选择。例如，在本说明书一实施例中，所述相似度算法可以为：余弦相似度、调整余弦相似度、皮尔逊相关系数、杰卡德相似系数、谷本系数或对数似然相似度等。在本说明书一实施例中，所述距离算法可以为：莱文斯坦距离、欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离或巴氏距离等。

虽然上文描述的过程流程包括以特定顺序出现的多个操作，但是，应当清楚了解，这些过程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。

与上述的增量意图聚类方法对应，本说明书还提供了意图聚类装置的实施例。参考图6所示，在本说明书一些实施例中，所述意图聚类装置可以包括：

获取模块61，可以用于获取增量对话语料；

提取模块62，可以用于从所述增量对话语料中提取文本关键词；

转换模块63，可以用于将所述文本关键词转换为第一词向量，以作为所述增量对话语料的向量化表示；

确定模块64，可以用于确定所述第一词向量与历史意图类别集合中各第二词向量的相似度；所述各第二词向量为对应历史意图类别的文本关键词的向量表示；

聚类模块65，可以用于根据所述相似度对所述文本关键词进行意图聚类。

在本说明书一些实施例中，所述历史意图类别集合通过以下方式获得：

从历史对话语料中提取业务操作动词集合和业务名词集合；

获取所述历史对话语料中各次对话语料的文本关键词；

在本说明书一些实施例中，所述对所述向量化对话语料集合中的向量化对话语料进行意图聚类，可以包括：

在本说明书一些实施例中，所述将所述文本关键词转换为第一词向量，可以包括：

确认所述文本关键词中是否包含业务操作动词和业务名词；

在本说明书一些实施例中，所述将所述文本关键词转换为第一词向量，还可以包括：

确定所述多个业务名词对应词向量的均值；

在本说明书一些实施例中，所述根据所述相似度对所述文本关键词进行意图聚类，可以包括：

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本说明书还提供一种计算机设备的实施例。如图7所示，在本说明书一些实施例中，所述计算机设备702可以包括一个或多个处理器704，诸如一个或多个中央处理单元(CPU)或图形处理器(GPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备702还可以包括任何存储器706，其用于存储诸如代码、设置、数据等之类的任何种类的信息，一具体实施方式中，存储器706上并可在处理器704上运行的计算机程序，所述计算机程序被所述处理器704运行时，可以执行根据上述方法的指令。非限制性的，比如，存储器706可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备702的固定或可移除部件。在一种情况下，当处理器704执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备702可以执行相关联指令的任一操作。计算机设备702还包括用于与任何存储器交互的一个或多个驱动机构708，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备702还可以包括输入/输出模块710(I/O)，其用于接收各种输入(经由输入设备712)和用于提供各种输出(经由输出设备714)。一个具体输出机构可以包括呈现设备716和相关联的图形用户接口718(GUI)。在其他实施例中，还可以不包括输入/输出模块710(I/O)、输入设备712以及输出设备714，仅作为网络中的一台计算机设备。计算机设备702还可以包括一个或多个网络接口720，其用于经由一个或多个通信链路722与其他设备交换数据。一个或多个通信总线724将上文所描述的部件耦合在一起。

通信链路722可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路722可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

本申请是参照本说明书一些实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产生一个机器，使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理器上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算机设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种增量意图聚类方法，其特征在于，包括：

获取增量对话语料；

从所述增量对话语料中提取文本关键词；

根据所述相似度对所述文本关键词进行意图聚类。

2.如权利要求1所述的增量意图聚类方法，其特征在于，所述历史意图类别集合通过以下方式获得：

从历史对话语料中提取业务操作动词集合和业务名词集合；

获取所述历史对话语料中各次对话语料的文本关键词；

3.如权利要求2所述的增量意图聚类方法，其特征在于，所述对所述向量化对话语料集合中的向量化对话语料进行意图聚类，包括：

4.如权利要求1所述的增量意图聚类方法，其特征在于，所述将所述文本关键词转换为第一词向量，包括：

确认所述文本关键词中是否包含业务操作动词和业务名词；

5.如权利要求4所述的增量意图聚类方法，其特征在于，所述将所述文本关键词转换为第一词向量，还包括：

确定所述多个业务名词对应词向量的均值；

6.如权利要求4所述的增量意图聚类方法，其特征在于，所述将所述文本关键词转换为第一词向量，还包括：

7.如权利要求1所述的增量意图聚类方法，其特征在于，所述根据所述相似度对所述文本关键词进行意图聚类，包括：

8.一种意图聚类装置，其特征在于，包括：

获取模块，用于获取增量对话语料；

提取模块，用于从所述增量对话语料中提取文本关键词；

9.一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，其特征在于，所述计算机程序被所述处理器运行时，执行根据权利要求1-7任意一项所述方法的指令。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器运行时，执行根据权利要求1-7任意一项所述方法的指令。