CN115618968B

CN115618968B - 新意图发现方法、装置、电子设备及存储介质

Info

Publication number: CN115618968B
Application number: CN202211534447.8A
Authority: CN
Inventors: 顾鹏程; 李磊; 贾路; 徐元春
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-03-31
Anticipated expiration: 2042-12-02
Also published as: CN115618968A

Abstract

本发明实施例提供一种新意图发现方法、装置、电子设备及存储介质，该方法包括：获取当前意图识别模型的意图标注数据；利用意图标注数据训练预训练的第一语言模型，得到第二语言模型；将意图识别模型未有效实现意图识别的语料数据输入到第二语言模型，得到语料数据的句子的第一向量；通过降维处理将第一向量压缩成具有预设维数的第二向量；通过对第二向量进行聚类计算，得到聚类结果，根据聚类结果得到新意图的意图名称及对应的语料数据。本发明实施例提供的新意图发现方法、装置、电子设备及存储介质，实现了新意图识别，并实现了新意图识别时行业知识信息的融入，优化了行业内的文本表示效果，提高了新意图识别的准确性。

Description

新意图发现方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，具体涉及一种新意图发现方法、装置、电子设备及存储介质。

背景技术

垂直行业通常包含自身领域特定的业务，不同的行业会根据自身的业务特点去构建任务相关的意图。用户构建行业意图和对应的训练语料，并采用深度学习模型进行训练，得到对应的意图模型，从而进行行业内的意图识别。而在意图构建初期，用户可能并不清楚当前领域所有可能使用的场景都构建完整，或者随着业务逐渐展开，会有一部分全新的业务相关意图出现，因此会有部分业务内容通过当前意图模型无法有效识别。

发明内容

针对现有技术存在的缺陷，本发明实施例提供一种新意图发现方法、装置、电子设备及存储介质。

本发明实施例提供一种新意图发现方法，包括：获取当前意图识别模型的意图标注数据；其中，所述意图识别模型是根据行业意图和对应的训练语料预先训练好的；利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型；将所述意图识别模型未有效实现意图识别的语料数据输入到所述第二语言模型，得到所述语料数据的句子的第一向量；通过降维处理将所述第一向量压缩成具有预设维数的第二向量；通过对所述第二向量进行聚类计算，得到聚类结果，根据所述聚类结果得到新意图的意图名称及对应的所述语料数据。

根据本发明实施例提供的一种新意图发现方法，所述利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型，包括：利用预设的预训练预测任务，利用所述意图标注数据训练预训练的第一语言模型，得到第三语言模型；以相似句对作为输入，相同意图的标注结果作为输出标签，以及以不相似句对作为输入，不同意图的标注结果作为输出标签，继续训练所述第三语言模型，得到所述第二语言模型；其中，所述相似句对是通过将相同意图下的所述意图标注数据两两组合得到的，所述不相似句对是通过将不同意图下的所述意图标注数据两两组合得到的。

根据本发明实施例提供的一种新意图发现方法，所述预训练预测任务包括单向、双向及序列到序列的预训练预测任务。

根据本发明实施例提供的一种新意图发现方法，所述根据所述聚类结果得到新意图的意图名称及对应的所述语料数据，包括：通过对所述聚类结果分别进行关键词提取得到新意图的意图名称，并将所述聚类结果对应的所述语料数据作为与相应所述新意图的意图名称对应的语料数据。

根据本发明实施例提供的一种新意图发现方法，所述通过对所述第二向量进行聚类计算，得到聚类结果，包括：根据所述第二向量构建加权图；其中，所述加权图的顶点为所述第二向量，所述加权图的边的权重为相应两个所述第二向量之间的距离；设置预设阈值，并在所述预设阈值逐步减小的过程中，通过逐步删除所述边的权重超过所述预设阈值的边进行图分裂，获取最小生成树；其中，所述最小生成树中删除任何边均会导致图分裂；将所述最小生成树中的边按照距离递增排序，依次选取每条边，将所述边连接的两个子图进行合并，构建得到层次聚类树；确定聚类数量，并自上而下遍历所述层次聚类树，对所述层次聚类树按照所述聚类数量进行压缩，压缩完成后得到的每棵子树中的数据即为聚合为同一类别的数据，从而得到所述聚类结果。

根据本发明实施例提供的一种新意图发现方法，所述通过降维处理将所述第一向量压缩成具有预设维数的第二向量，包括：对于每个所述第一向量，从其他所述第一向量中获取与所述第一向量距离最近的预设数量的最近邻向量；将各个所述第一向量分别和对应的所述最近邻向量连接，得到邻域图；其中，所述邻域图中的任意两点连接的边的权重为所述边存在的概率；将所述邻域图投影到所述预设维数的低维空间；其中，通过最小化交叉熵的方式，在预设维数的向量表示中找到边的最优权重，最终得到所述预设维数的第二向量。

本发明实施例还提供一种新意图发现装置，包括：意图标注数据获取模块，用于：获取当前意图识别模型的意图标注数据；其中，所述意图识别模型是根据行业意图和对应的训练语料预先训练好的；第二语言模型获取模块，用于：利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型；第一向量获取模块，用于：将所述意图识别模型未有效实现意图识别的语料数据输入到所述第二语言模型，得到所述语料数据的句子的第一向量；第二向量获取模块，用于：通过降维处理将所述第一向量压缩成具有预设维数的第二向量；新意图识别模块，用于：通过对所述第二向量进行聚类计算，得到聚类结果，根据所述聚类结果得到新意图的意图名称及对应的所述语料数据。

根据本发明实施例提供的一种新意图发现装置，所述第二语言模型获取模块在用于利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型时，具体用于：利用预设的预训练预测任务，利用所述意图标注数据训练预训练的第一语言模型，得到第三语言模型；以相似句对作为输入，相同意图的标注结果作为输出标签，以及以不相似句对作为输入，不同意图的标注结果作为输出标签，继续训练所述第三语言模型，得到所述第二语言模型；其中，所述相似句对是通过将相同意图下的所述意图标注数据两两组合得到的，所述不相似句对是通过将不同意图下的所述意图标注数据两两组合得到的。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述新意图发现方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述新意图发现方法的步骤。

本发明实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述新意图发现方法的步骤。

本发明实施例提供的新意图发现方法、装置、电子设备及存储介质，通过获取当前意图识别模型的意图标注数据，利用意图标注数据训练预训练的第一语言模型，得到第二语言模型，将意图识别模型未有效实现意图识别的语料数据输入到第二语言模型，得到语料数据的句子的第一向量，通过降维处理将第一向量压缩成具有预设维数的第二向量，通过对第二向量进行聚类计算，得到聚类结果，根据聚类结果得到新意图的意图名称及对应的语料数据，实现了新意图识别，并实现了新意图识别时行业知识信息的融入，优化了行业内的文本表示效果，提高了新意图识别的准确性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的新意图发现方法的流程示意图之一；

图2是本发明实施例提供的新意图发现方法的流程示意图之二；

图3是本发明实施例提供的新意图发现装置的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

可以根据不同的意图识别需求，以训练语料作为输入，行业意图作为输出，对神经网络进行训练，得到意图识别模型。可以通过对意图识别模型未命中意图的语料数据（未有效实现意图识别的语料数据）进行聚合分析，从而尽可能多的发现并挖掘出用户的意图，进一步地提升对用户意图的识别能力和完善交互引导，提升用户的使用体验。通过聚类算法进行意图发现，首先需要将文本数据处理成能够便于计算机进行数学计算的向量形式，然后通过聚类算法得到对应的意图类别。目前文本数据常见的向量表示方法有词袋模型、Word2Vec、基于预训练模型的文本向量表示等。其中，词袋模型没有考虑文本语义的相似性以及上下文语境信息；Word2Vec使用的静态词向量表示，无法准确表达“一词多义”的情况；基于预训练模型的文本向量维数很高，高维度的向量表示对后续聚类过程中距离度量的可区分性很差。另外，上述几种方式没有融入当前行业的知识信息，对行业内的文本表示效果欠佳，仍需要大量人力对后续结果进行分析和修正。

本发明实施例提供的新意图发现方法，采用预训练模型进行文本向量表示，为解决维度高的问题，在聚类之前进行了降维处理，并且，通过预训练模型加入了行业知识数据，优化了行业内文本表示，可以提高行业新意图识别的准确性。

图1是本发明实施例提供的新意图发现方法的流程示意图之一。如图1所示，该方法包括：

步骤S1、获取当前意图识别模型的意图标注数据；其中，所述意图识别模型是根据行业意图和对应的训练语料预先训练好的。

意图识别模型是根据行业意图和对应的训练语料预先训练好的。在训练时，以训练语料作为输入，行业意图作为输出。训练得到意图识别模型后，可以对向意图识别模型输入的语料数据进行意图识别，意图识别结果为训练时对应的多个意图中的一种。若意图识别模型训练时的训练数据不完善，或出现行业新意图，则可以会出现输入语料数据后，意图识别模型无法命中意图，也即无法实现有效的意图识别的情况。

本发明实施例首先获取当前意图识别模型的意图标注数据。其中，意图识别模型的意图标注数据可以包括意图识别模型的训练数据，即训练时的行业意图和对应的训练语料，还可以包括意图识别模型投入使用后的语料数据及识别出的意图。意图标注数据属于行业知识数据，反映行业数据特点。

步骤S2、利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型。

为在新意图识别的过程中融入行业知识数据，即上一步骤得到的意图标注数据，本发明实施例采用预训练模型进行向量表示。其中，采用的预训练模型称为第一语言模型，第一语言模型经过预训练，用于实现句子的向量表示。

对经过预训练得到的第一语言模型，利用上一步骤得到的意图标注数据继续训练，得到第二语言模型。得到的第二语言模型则融入了行业知识数据，优化了行业内文本表示，可以提高行业新意图识别的准确性。

可以通过预设的预训练预测任务，利用意图标注数据训练预训练的第一语言模型，得到第二语言模型。

步骤S3、将所述意图识别模型未有效实现意图识别的语料数据输入到所述第二语言模型，得到所述语料数据的句子的第一向量。

将意图识别模型未有效实现意图识别的语料数据输入到第二语言模型，得到语料数据的句子的向量表示，称为第一向量。意图识别模型未有效实现意图识别的语料数据可以从对话日志数据中获取。对话日志数据包括意图识别模型输入的语料数据及对应的意图识别结果。

步骤S4、通过降维处理将所述第一向量压缩成具有预设维数的第二向量。

第二语言模型输出的第一向量的维数较高，本步骤通过降维处理将第一向量压缩成具有预设维数的第二向量。可以通过降维算法将第一向量压缩成具有预设维数的第二向量。降维不仅可以减少后续聚类步骤的计算复杂度和内存使用量，同时可以减少维度过大造成的维数灾难，提升聚类效果。

步骤S5、通过对所述第二向量进行聚类计算，得到聚类结果，根据所述聚类结果得到新意图的意图名称及对应的所述语料数据。

通过对第二向量进行聚类计算，得到聚类结果，聚类结果包括多个聚合为同一类别的数据，对聚类结果中聚合为同一类别的数据进行意图识别，得到新意图的意图名称，聚合为同一类别的数据对应的语料数据为相应新意图对应的语料数据。

本发明实施例提供的新意图发现方法，通过获取当前意图识别模型的意图标注数据，利用意图标注数据训练预训练的第一语言模型，得到第二语言模型，将意图识别模型未有效实现意图识别的语料数据输入到第二语言模型，得到语料数据的句子的第一向量，通过降维处理将第一向量压缩成具有预设维数的第二向量，通过对第二向量进行聚类计算，得到聚类结果，根据聚类结果得到新意图的意图名称及对应的语料数据，实现了新意图识别，并实现了新意图识别时行业知识信息的融入，优化了行业内的文本表示效果，提高了新意图识别的准确性。

在利用意图标注数据训练预训练的第一语言模型，得到第二语言模型时，首先利用预设的预训练预测任务，利用意图标注数据训练预训练的第一语言模型，得到第三语言模型。

另外，额外构建一个判断是否相似的0-1分类任务；将相同意图下的训练语料两两组合构成相似句对（正例），不同意图之间的语料，两两组合构成不相似句对（负例），将构建的正负句对语料在第三语言模型的基础上继续训练，得到第二语言模型。即以相似句对作为输入，相同意图的标注结果作为输出标签，以及以不相似句对作为输入，不同意图的标注结果作为输出标签，继续训练第三语言模型，得到第二语言模型。通过这种方式能够提升模型对于当前行业内句子的整体向量表示质量。

本发明实施例提供的新意图发现方法，通过利用预设的预训练预测任务及构建的分类任务训练得到第二语言模型，提高了行业内句子的整体向量表示质量，有利于进一步提高新意图识别的准确性。

通过预设的预训练预测任务，利用意图标注数据训练预训练的第一语言模型，得到第三语言模型，以相似句对作为输入，相同意图的标注结果作为输出标签，以及以不相似句对作为输入，不同意图的标注结果作为输出标签，继续训练第三语言模型，得到第二语言模型。或者，通过预设的预训练预测任务，利用意图标注数据训练预训练的第一语言模型，直接得到第二语言模型。

预设的预训练预测任务包括单向、双向及序列到序列的预训练预测任务，当然也可以选择单向、双向及序列到序列的预训练预测任务中的部分任务或其他预训练预测任务。本发明实施例采用预设的预训练预测任务包括单向、双向及序列到序列的预训练预测任务，实践证明，训练效果较好。

第一语言模型可以是一个多层Transformer网络结构，结合了自回归和自编码两种语言模型的特点，可以完成单向、双向、序列到序列三种预训练预测任务。在自然语言理解和自然语言生成任务上都有很好的表现。本发明实施例中，利用已有的行业内意图数据（意图标注数据），来构建训练语料，使用单向、双向、序列到序列三种已有预训练预测任务，继续训练预训练模型（第一语言模型）。通过单向预训练预测任务得到模型称为单向语言模型，通过双向预训练预测任务得到模型称为双向语言模型，通过序列到序列预训练预测任务得到模型称为序列到序列语言模型。

单向语言模型指的是，依据前面（或后面）出现的tokens（词汇或字）来预测当前时刻的token。双向语言模型指的是通过上下文信息来预测当前时刻的token。序列到序列语言模型（seq-to-seq语言模型）指的是，由source sequence（源序列）预测target sequence（目标序列）。

以“我来申请信用卡”这句话举例说明，如需要预测“我，来，申，请，信，[MASK]，卡”中的[MASK]掩码，则上述三种预训练预测任务分别表示：

（1）单向语言模型预测任务：由“我，来，申，请，信”的信息来预测[MASK]，这里“卡”的信息不可见；

（2）双向语言模型预测任务：由“我，来，申，请，信，卡”来预测[MASK]，句子中所有位置的信息均可见；

（3）序列到序列语言模型预测任务：如果“办理信用卡”这句话是“我来申请信用卡”的相同意图下的语料，则序列到序列语言模型则是由“我来申请信用卡”来预测“办理信用卡”。

本发明实施例提供的新意图发现方法，通过预训练预测任务包括单向、双向及序列到序列的预训练预测任务，通过多类任务进行模型训练，进一步提高了新意图识别的准确性。

在根据聚类结果得到新意图的意图名称及对应的语料数据时，通过对聚类结果分别进行关键词提取得到新意图的意图名称，并将聚类结果对应的语料数据作为与相应新意图的意图名称对应的语料数据。如使用TF-IDF对每一类结果提取关键词作为新意图的意图名称，最终得到新意图的意图名及对应的语料数据。

其中，TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。

本发明实施例提供的新意图发现方法，通过对聚类结果分别进行关键词提取得到新意图的意图名称，并将聚类结果对应的语料数据作为与相应新意图的意图名称对应的语料数据，进一步提高了新意图识别的准确性。

对降维处理得到的第二向量进行聚类计算，得到聚类结果。假设第二向量为4维向量，聚类计算的步骤可以包括：

（1）将所有降维后的数据向量（第一向量）看作一个加权图，其中每一个数据点（第一向量）作为顶点，任意两数据点之间的边的权重为两个4维向量（第一向量）之间的距离。设置一个阈值t，阈值从高开始逐步降低。删除任何权重超过阈值t的边，对图进行分裂。找到一个最小的边集合，使得从边集合中删除任何边都会导致图分裂，该最小的边集合即为最小生成树。

（2）将步骤（1）得到的最小生成树中所有边按照距离递增排序。然后依次选取每条边，将边连接的两个子图进行合并，构建层次聚类树。

（3）确定聚类数量n，自上而下遍历层次聚类树，对层次聚类树进行压缩，压缩完后每棵子树中的数据即为聚合为同一类别的数据，聚类完成。

本发明实施例提供的新意图发现方法，通过根据第二向量构建加权图，设置预设阈值，并在预设阈值逐步减小的过程中，通过逐步删除边的权重超过预设阈值的边进行图分裂，获取最小生成树，将最小生成树中的边按照距离递增排序，依次选取每条边，将边连接的两个子图进行合并，构建得到层次聚类树，确定聚类数量，并自上而下遍历层次聚类树，对层次聚类树按照聚类数量进行压缩，压缩完成后得到的每棵子树中的数据即为聚合为同一类别的数据，从而得到聚类结果，实现了对于第二向量的准确聚类，有利于进一步提高新意图识别的准确性。

上述通过预训练预测任务得到第三语言模型，再通过0-1分类任务训练得到第二语言模型。意图识别模型未有效实现意图识别的语料数据输入到第二语言模型，得到语料数据的句子的第一向量为768维向量。导入当前对话日志数据中识别为No-match的数据（未有效实现意图识别的语料数据），输入到第二语言模型，得到所有No-match数据的向量表示，即语料数据的句子的第一向量。假设“我要贷款”为No-match数据中的其中一句，则通过第二语言模型，得到当前“我要贷款”这句话的768维向量表示。第一向量的维数较高，需要在聚类之前进行降维处理，得到第二向量。然后针对第二向量再进行聚类处理。

通过降维处理将第一向量压缩成具有预设维数的第二向量，假设预设维数为4维，降维方法的步骤可以包括：

（1）以语料数据中包括“我要贷款”为例，寻找与当前“我要贷款”对应的第一向量距离最相近的k个句子向量表示；其中，k为最近邻向量的预设数量。

（2）将当前向量与找到的k个最近邻向量连接。

（3）对当前No-match中的每一个句子向量都执行步骤（1）和（2），最终得到一个连接的邻域图。邻域图中的任意两点连接的边的权重就是这条边存在的概率。

（4）将768维的空间连接的图投影（映射）到4维低维空间。尽可能在低维空间的向量表示中去改变点与点之间的距离。通过最小化交叉熵的方式，在4维的向量表示中找到边的最优权重，整个迭代过程通过随机梯度下降的方法进行优化。

（5）最终得到每句句向量的4维向量表示。

本发明实施例提供的新意图发现方法，通过对于每个第一向量，从其他第一向量中获取与第一向量距离最近的预设数量的最近邻向量，将各个第一向量分别和对应的最近邻向量连接，得到邻域图，将邻域图投影到预设维数的低维空间，通过最小化交叉熵的方式，在预设维数的向量表示中找到边的最优权重，最终得到预设维数的第二向量，实现了有效的降维处理，有效防止维度灾难，同时降低计算量，便利了后续的聚类及意图识别的处理。

图2是本发明实施例提供的新意图发现方法的流程示意图之二。如图2所示，该方法包括：

获取当前系统（当前意图识别模型）中的意图标注数据，使用意图识别模型，继续训练预训练模型；

获取当前系统中识别为No-match的数据，通过再次训练的预训练模型计算得到每句No-match句子的高维向量表示；

通过降维算法将高维向量压缩成低维向量；

对低维向量进行聚类；

使用TF-IDF对每一类结果提取关键词作为新意图的意图名称；

最终得到新意图的意图名称及对应的语料数据。

为了在用户构建模型，投入使用后，挖掘更多潜在的新意图，不断提升用户体验，本发明实施例提供一种新意图发现方法，首先通过用户已构建的行业意图数据来优化预训练模型的文本向量表示，随后对得到的文本向量进行降维，接着通过聚类算法聚合出语义相似的句子集合，最后通过关键词/关键句来体现聚类结果，能够更加直观的发现有用的新意图，降低人工维护成本。

需要说明的是，本实施例所给出的多个优选实施方式，在逻辑或结构相互不冲突的前提下，可以自由组合，本发明对此不做限定。

下面对本发明实施例提供的新意图发现装置进行描述，下文描述的新意图发现装置与上文描述的新意图发现方法可相互对应参照。

图3是本发明实施例提供的新意图发现装置的结构示意图。如图3所示，该装置包括意图标注数据获取模块10、第二语言模型获取模块20、第一向量获取模块30、第二向量获取模块40及新意图识别模块50，其中：意图标注数据获取模块10用于：获取当前意图识别模型的意图标注数据；其中，所述意图识别模型是根据行业意图和对应的训练语料预先训练好的；第二语言模型获取模块20用于：利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型；第一向量获取模块30用于：将所述意图识别模型未有效实现意图识别的语料数据输入到所述第二语言模型，得到所述语料数据的句子的第一向量；第二向量获取模块40用于：通过降维处理将所述第一向量压缩成具有预设维数的第二向量；新意图识别模块50用于：通过对所述第二向量进行聚类计算，得到聚类结果，根据所述聚类结果得到新意图的意图名称及对应的所述语料数据。

本发明实施例提供的新意图发现装置，通过获取当前意图识别模型的意图标注数据，利用意图标注数据训练预训练的第一语言模型，得到第二语言模型，将意图识别模型未有效实现意图识别的语料数据输入到第二语言模型，得到语料数据的句子的第一向量，通过降维处理将第一向量压缩成具有预设维数的第二向量，通过对第二向量进行聚类计算，得到聚类结果，根据聚类结果得到新意图的意图名称及对应的语料数据，实现了新意图识别，并实现了新意图识别时行业知识信息的融入，优化了行业内的文本表示效果，提高了新意图识别的准确性。

根据本发明实施例提供的一种新意图发现装置，第二语言模型获取模块20在用于利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型时，具体用于：利用预设的预训练预测任务，利用所述意图标注数据训练预训练的第一语言模型，得到第三语言模型；以相似句对作为输入，相同意图的标注结果作为输出标签，以及以不相似句对作为输入，不同意图的标注结果作为输出标签，继续训练所述第三语言模型，得到所述第二语言模型；其中，所述相似句对是通过将相同意图下的所述意图标注数据两两组合得到的，所述不相似句对是通过将不同意图下的所述意图标注数据两两组合得到的。

本发明实施例提供的新意图发现装置，通过利用预设的预训练预测任务及构建的分类任务训练得到第二语言模型，提高了行业内句子的整体向量表示质量，有利于进一步提高新意图识别的准确性。

根据本发明实施例提供的一种新意图发现装置，所述预训练预测任务包括单向、双向及序列到序列的预训练预测任务。

本发明实施例提供的新意图发现装置，通过预训练预测任务包括单向、双向及序列到序列的预训练预测任务，通过多类任务进行模型训练，进一步提高了新意图识别的准确性。

根据本发明实施例提供的一种新意图发现装置，新意图识别模块50在用于根据所述聚类结果得到新意图的意图名称及对应的所述语料数据时，具体用于：通过对所述聚类结果分别进行关键词提取得到新意图的意图名称，并将所述聚类结果对应的所述语料数据作为与相应所述新意图的意图名称对应的语料数据。

本发明实施例提供的新意图发现装置，通过对聚类结果分别进行关键词提取得到新意图的意图名称，并将聚类结果对应的语料数据作为与相应新意图的意图名称对应的语料数据，进一步提高了新意图识别的准确性。

根据本发明实施例提供的一种新意图发现装置，新意图识别模块50在用于通过对所述第二向量进行聚类计算，得到聚类结果时，具体用于：根据所述第二向量构建加权图；其中，所述加权图的顶点为所述第二向量，所述加权图的边的权重为相应两个所述第二向量之间的距离；设置预设阈值，并在所述预设阈值逐步减小的过程中，通过逐步删除所述边的权重超过所述预设阈值的边进行图分裂，获取最小生成树；其中，所述最小生成树中删除任何边均会导致图分裂；将所述最小生成树中的边按照距离递增排序，依次选取每条边，将所述边连接的两个子图进行合并，构建得到层次聚类树；确定聚类数量，并自上而下遍历所述层次聚类树，对所述层次聚类树按照所述聚类数量进行压缩，压缩完成后得到的每棵子树中的数据即为聚合为同一类别的数据，从而得到所述聚类结果。

本发明实施例提供的新意图发现装置，通过根据第二向量构建加权图，设置预设阈值，并在预设阈值逐步减小的过程中，通过逐步删除边的权重超过预设阈值的边进行图分裂，获取最小生成树，将最小生成树中的边按照距离递增排序，依次选取每条边，将边连接的两个子图进行合并，构建得到层次聚类树，确定聚类数量，并自上而下遍历层次聚类树，对层次聚类树按照聚类数量进行压缩，压缩完成后得到的每棵子树中的数据即为聚合为同一类别的数据，从而得到聚类结果，实现了对于第二向量的准确聚类，有利于进一步提高新意图识别的准确性。

根据本发明实施例提供的一种新意图发现装置，第二向量获取模块40在用于通过降维处理将所述第一向量压缩成具有预设维数的第二向量时，具体用于：对于每个所述第一向量，从其他所述第一向量中获取与所述第一向量距离最近的预设数量的最近邻向量；将各个所述第一向量分别和对应的所述最近邻向量连接，得到邻域图；其中，所述邻域图中的任意两点连接的边的权重为所述边存在的概率；将所述邻域图投影到所述预设维数的低维空间；其中，通过最小化交叉熵的方式，在预设维数的向量表示中找到边的最优权重，最终得到所述预设维数的第二向量。

本发明实施例提供的新意图发现装置，通过对于每个第一向量，从其他第一向量中获取与第一向量距离最近的预设数量的最近邻向量，将各个第一向量分别和对应的最近邻向量连接，得到邻域图，将邻域图投影到预设维数的低维空间，通过最小化交叉熵的方式，在预设维数的向量表示中找到边的最优权重，最终得到预设维数的第二向量，实现了有效的降维处理，有效防止维度灾难，同时降低计算量，便利了后续的聚类及意图识别的处理。

图4是本发明实施例提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行新意图发现方法，该方法包括：获取当前意图识别模型的意图标注数据；其中，所述意图识别模型是根据行业意图和对应的训练语料预先训练好的；利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型；将所述意图识别模型未有效实现意图识别的语料数据输入到所述第二语言模型，得到所述语料数据的句子的第一向量；通过降维处理将所述第一向量压缩成具有预设维数的第二向量；通过对所述第二向量进行聚类计算，得到聚类结果，根据所述聚类结果得到新意图的意图名称及对应的所述语料数据。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的新意图发现方法，该方法包括：获取当前意图识别模型的意图标注数据；其中，所述意图识别模型是根据行业意图和对应的训练语料预先训练好的；利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型；将所述意图识别模型未有效实现意图识别的语料数据输入到所述第二语言模型，得到所述语料数据的句子的第一向量；通过降维处理将所述第一向量压缩成具有预设维数的第二向量；通过对所述第二向量进行聚类计算，得到聚类结果，根据所述聚类结果得到新意图的意图名称及对应的所述语料数据。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的新意图发现方法，该方法包括：获取当前意图识别模型的意图标注数据；其中，所述意图识别模型是根据行业意图和对应的训练语料预先训练好的；利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型；将所述意图识别模型未有效实现意图识别的语料数据输入到所述第二语言模型，得到所述语料数据的句子的第一向量；通过降维处理将所述第一向量压缩成具有预设维数的第二向量；通过对所述第二向量进行聚类计算，得到聚类结果，根据所述聚类结果得到新意图的意图名称及对应的所述语料数据。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种新意图发现方法，其特征在于，包括：

获取当前意图识别模型的意图标注数据；其中，所述意图识别模型是根据行业意图和对应的训练语料预先训练好的；

利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型；

将所述意图识别模型未有效实现意图识别的语料数据输入到所述第二语言模型，得到所述语料数据的句子的第一向量；

通过降维处理将所述第一向量压缩成具有预设维数的第二向量；

通过对所述第二向量进行聚类计算，得到聚类结果，根据所述聚类结果得到新意图的意图名称及对应的所述语料数据；

所述根据所述聚类结果得到新意图的意图名称及对应的所述语料数据，包括：

通过对所述聚类结果分别进行关键词提取得到新意图的意图名称，并将所述聚类结果对应的所述语料数据作为与相应所述新意图的意图名称对应的语料数据；

所述通过对所述第二向量进行聚类计算，得到聚类结果，包括：

根据所述第二向量构建加权图；其中，所述加权图的顶点为所述第二向量，所述加权图的边的权重为相应两个所述第二向量之间的距离；

设置预设阈值，并在所述预设阈值逐步减小的过程中，通过逐步删除所述边的权重超过所述预设阈值的边进行图分裂，获取最小生成树；其中，所述最小生成树中删除任何边均会导致图分裂；

将所述最小生成树中的边按照距离递增排序，依次选取每条边，将所述边连接的两个子图进行合并，构建得到层次聚类树；

确定聚类数量，并自上而下遍历所述层次聚类树，对所述层次聚类树按照所述聚类数量进行压缩，压缩完成后得到的每棵子树中的数据即为聚合为同一类别的数据，从而得到所述聚类结果；

所述通过降维处理将所述第一向量压缩成具有预设维数的第二向量，包括：

对于每个所述第一向量，从其他所述第一向量中获取与所述第一向量距离最近的预设数量的最近邻向量；

将各个所述第一向量分别和对应的所述最近邻向量连接，得到邻域图；其中，所述邻域图中的任意两点连接的边的权重为所述边存在的概率；

将所述邻域图投影到所述预设维数的低维空间；其中，通过最小化交叉熵的方式，在预设维数的向量表示中找到边的最优权重，最终得到所述预设维数的第二向量。

2.根据权利要求1所述的新意图发现方法，其特征在于，所述利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型，包括：

利用预设的预训练预测任务，利用所述意图标注数据训练预训练的第一语言模型，得到第三语言模型；

以相似句对作为输入，相同意图的标注结果作为输出标签，以及以不相似句对作为输入，不同意图的标注结果作为输出标签，继续训练所述第三语言模型，得到所述第二语言模型；

其中，所述相似句对是通过将相同意图下的所述意图标注数据两两组合得到的，所述不相似句对是通过将不同意图下的所述意图标注数据两两组合得到的。

3.根据权利要求2所述的新意图发现方法，其特征在于，所述预训练预测任务包括单向、双向及序列到序列的预训练预测任务。

4.一种新意图发现装置，其特征在于，包括：

意图标注数据获取模块，用于：获取当前意图识别模型的意图标注数据；其中，所述意图识别模型是根据行业意图和对应的训练语料预先训练好的；

第二语言模型获取模块，用于：利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型；

第一向量获取模块，用于：将所述意图识别模型未有效实现意图识别的语料数据输入到所述第二语言模型，得到所述语料数据的句子的第一向量；

第二向量获取模块，用于：通过降维处理将所述第一向量压缩成具有预设维数的第二向量；

新意图识别模块，用于：通过对所述第二向量进行聚类计算，得到聚类结果，根据所述聚类结果得到新意图的意图名称及对应的所述语料数据；

所述新意图识别模块在用于根据所述聚类结果得到新意图的意图名称及对应的所述语料数据时，具体用于：通过对所述聚类结果分别进行关键词提取得到新意图的意图名称，并将所述聚类结果对应的所述语料数据作为与相应所述新意图的意图名称对应的语料数据；

所述新意图识别模块在用于通过对所述第二向量进行聚类计算，得到聚类结果时，具体用于：根据所述第二向量构建加权图；其中，所述加权图的顶点为所述第二向量，所述加权图的边的权重为相应两个所述第二向量之间的距离；设置预设阈值，并在所述预设阈值逐步减小的过程中，通过逐步删除所述边的权重超过所述预设阈值的边进行图分裂，获取最小生成树；其中，所述最小生成树中删除任何边均会导致图分裂；将所述最小生成树中的边按照距离递增排序，依次选取每条边，将所述边连接的两个子图进行合并，构建得到层次聚类树；确定聚类数量，并自上而下遍历所述层次聚类树，对所述层次聚类树按照所述聚类数量进行压缩，压缩完成后得到的每棵子树中的数据即为聚合为同一类别的数据，从而得到所述聚类结果；

所述第二向量获取模块在用于通过降维处理将所述第一向量压缩成具有预设维数的第二向量时，具体用于：对于每个所述第一向量，从其他所述第一向量中获取与所述第一向量距离最近的预设数量的最近邻向量；将各个所述第一向量分别和对应的所述最近邻向量连接，得到邻域图；其中，所述邻域图中的任意两点连接的边的权重为所述边存在的概率；将所述邻域图投影到所述预设维数的低维空间；其中，通过最小化交叉熵的方式，在预设维数的向量表示中找到边的最优权重，最终得到所述预设维数的第二向量。

5.根据权利要求4所述的新意图发现装置，其特征在于，所述第二语言模型获取模块在用于利用所述意图标注数据训练预训练的第一语言模型，得到第二语言模型时，具体用于：

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述新意图发现方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述新意图发现方法的步骤。