CN111581388B

CN111581388B - 一种用户意图识别方法、装置及电子设备

Info

Publication number: CN111581388B
Application number: CN202010391268.8A
Authority: CN
Inventors: 王玉昕; 陈立琨
Original assignee: Beijing Kingsoft Internet Security Software Co Ltd
Current assignee: Beijing Kingsoft Internet Security Software Co Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2023-09-19
Anticipated expiration: 2040-05-11
Also published as: CN111581388A

Abstract

本发明实施例提供了一种用户意图识别方法、装置及电子设备，获取待识别查询语句；基于聚类算法，在预先建立的用户意图分布库中，确定所述待识别查询语句所属的查询语句类别；其中，所述用户意图分布库中包括：查询语句类别，以及与各查询语句类别分别对应的用户意图；所述查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的；将与所述待识别查询语句所属的查询语句类别对应的用户意图，确定为所述待识别查询语句的用户意图。本发明实施例中的用户意图分布库更能反映当前场景下用户的真实意图，并且，用户意图分布库的设定也更加全面，因此，可以提高识别的准确率。

Description

一种用户意图识别方法、装置及电子设备

技术领域

本发明涉及人工智能技术领域，特别是涉及一种用户意图识别方法、装置及电子设备。

背景技术

目前，人工智能技术飞速发展，智能终端设备也在不断普及。为提高用户体验，许多智能终端设备都配备了语音或者文本识别功能，具体的：可以根据用户通过语音或硬件输入设备等输入的查询语句，识别用户意图，即：理解查询语句的语义，进而了解用户需求，为用户提供相应服务。

现阶段，用户意图识别的方法主要为：人工根据自身经验预先设置好当前场景下的意图库，该意图库中包含不同的用户意图；当存在待识别的查询语句时，先对待识别查询语句进行关键词提取，再将提取到的关键词与意图库中的各用户意图进行匹配，从而将意图库中匹配成功的用户意图确定为待识别查询语句对应的用户意图。

上述方法中，意图库中的用户意图是人工根据自身经验设定的。由于人工经验具有较强的主观性，因此，意图库中的用户意图并不一定为当前场景下可能存在的用户真实意图；另外，某一指定场景下存在的用户真实意图通常数量较多，而上述设定的用户意图可能仅涵盖上述用户真实意图的一小部分。也就是说，上述意图库中用户意图的准确率较低，并且，用户意图的设定不够全面，无法反映出用户的真实意图。因此，基于上述人工设定的意图库进行用户意图识别，识别的准确率较低。

发明内容

本发明实施例的目的在于提供一种用户意图识别方法、装置及电子设备，以提高用户意图识别的准确率。具体技术方案如下：

第一方面，本发明实施例提供了一种用户意图识别方法，包括：

获取待识别查询语句；

基于聚类算法，在预先建立的用户意图分布库中，确定所述待识别查询语句所属的查询语句类别；其中，所述用户意图分布库中包括：查询语句类别，以及与各查询语句类别分别对应的用户意图；所述查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的；

将与所述待识别查询语句所属的查询语句类别对应的用户意图，确定为所述待识别查询语句的用户意图。

进一步的，所述用户意图分布库的建立过程包括：

获取当前场景下的查询语句样本；

采用聚类算法，对各查询语句样本进行类别划分，得到当前场景下包含的查询语句类别；

针对每个查询语句类别，对该查询语句类别中包含的查询语句样本进行关键词提取，得到与该查询语句类别对应的用户意图。

进一步的，所述采用聚类算法，对各查询语句样本进行类别划分，得到当前场景下包含的查询语句类别的步骤，包括：

对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量；

采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的查询语句类别；

所述基于聚类算法，在预先建立的用户意图分布库中，确定所述待识别查询语句所属的查询语句类别的步骤，包括：

对所述待识别查询语句进行向量化，得到待识别特征向量；

基于所述待识别特征向量和各查询语句类别中包含的样本特征向量之间的位置关系，在预先建立的用户意图分布库中，确定所述待识别特征向量所属的查询语句类别，作为所述待识别查询语句所属的查询语句类别。

进一步的，所述采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的查询语句类别的步骤，包括：

从所述样本特征向量中，确定核心样本特征向量，以及与各核心样本特征向量对应的临时聚类簇；

对所述临时聚类簇进行合并，得到聚类簇，作为当前场景下包含的查询语句类别。

采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的候选查询语句类别；

按照各候选查询语句类别中包含的查询语句样本数量从大到小的顺序，选择包含的查询语句样本数量总和大于预设阈值的候选查询语句类别，作为当前场景下包含的查询语句类别；

对所述待识别查询语句进行向量化，得到待识别特征向量；

进一步的，所述采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的候选查询语句类别的步骤，包括：

对所述临时聚类簇进行合并，得到聚类簇，作为当前场景下包含的候选查询语句类别。

进一步的，所述对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量的步骤，包括：

采用词频逆文本频率IFIDF算法，对各查询语句样本进行向量化，得到所述各查询语句样本的第一样本特征向量；

采用BERT模型，对所述各查询语句样本进行向量化，得到所述各查询语句样本的第二样本特征向量；

对所述第一样本特征向量和所述第二样本特征向量进行拼接，得到所述各查询语句样本的样本特征向量；

所述对所述待识别查询语句进行向量化，得到待识别特征向量的步骤，包括：

采用词频逆文本频率IFIDF算法，对所述待识别查询语句进行向量化，得到第一待识别特征向量；

采用BERT模型，对所述待识别查询语句进行向量化，得到第二待识别特征向量；

对所述第一待识别特征向量和所述第二待识别特征向量进行拼接，得到待识别特征向量。

进一步的，所述获取待识别查询语句的步骤，包括：

获取待识别语音数据；

对所述待识别语音数据进行语音识别，得到待识别查询语句。

第二方面，本发明实施例提供了一种用户意图识别装置，包括：

待识别查询语句获取模块，用于获取待识别查询语句；

查询语句类别确定模块，用于基于聚类算法，在预先建立的用户意图分布库中，确定所述待识别查询语句所属的查询语句类别；其中，所述用户意图分布库中包括：查询语句类别，以及与各查询语句类别分别对应的用户意图；所述查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的；

用户意图确定模块，用于将与所述待识别查询语句所属的查询语句类别对应的用户意图，确定为所述待识别查询语句的用户意图。

进一步的，装置还包括：用户意图分布库建立模块；

所述用户意图分布库建立模块，包括：查询语句样本获取子模块、查询语句类别得到子模块、用户意图得到子模块；

所述查询语句样本获取子模块，用于获取当前场景下的查询语句样本；

所述查询语句类别得到子模块，用于采用聚类算法，对各查询语句样本进行类别划分，得到当前场景下包含的查询语句类别；

所述用户意图得到子模块，用于针对每个查询语句类别，对该查询语句类别中包含的查询语句样本进行关键词提取，得到与该查询语句类别对应的用户意图。

进一步的，所述查询语句类别得到子模块，具体用于：对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量；采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的查询语句类别；

所述查询语句类别确定模块，具体用于：对所述待识别查询语句进行向量化，得到待识别特征向量；基于所述待识别特征向量和各查询语句类别中包含的样本特征向量之间的位置关系，在预先建立的用户意图分布库中，确定所述待识别特征向量所属的查询语句类别，作为所述待识别查询语句所属的查询语句类别。

进一步的，所述所述查询语句类别得到子模块，在执行所述采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的查询语句类别步骤时，具体用于：

进一步的，所述查询语句类别得到子模块，具体用于：对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量；采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的候选查询语句类别；按照各候选查询语句类别中包含的查询语句样本数量从大到小的顺序，选择包含的查询语句样本数量总和大于预设阈值的候选查询语句类别，作为当前场景下包含的查询语句类别；

进一步的，所述查询语句类别得到子模块，在执行所述采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的候选查询语句类别的步骤时，具体用于：

进一步的，所述查询语句类别得到子模块在执行所述对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量的步骤时，具体用于：

所述查询语句类别确定模块在执行所述对所述待识别查询语句进行向量化，得到待识别特征向量的步骤时，具体用于：

进一步的，所述待识别查询语句获取模块，具体用于：

获取待识别语音数据；

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一用户意图识别方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述任一用户意图识别方法。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的用户意图识别方法。

本发明实施例有益效果：

本发明实施例提供的一种用户意图识别方法、装置及电子设备，获取待识别查询语句；基于聚类算法，在预先建立的用户意图分布库中，确定所述待识别查询语句所属的查询语句类别；其中，所述用户意图分布库中包括：查询语句类别，以及与各查询语句类别分别对应的用户意图；所述查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的；将与所述待识别查询语句所属的查询语句类别对应的用户意图，确定为所述待识别查询语句的用户意图。

本发明实施例中，所使用的用户意图分布库中的查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的，与人工根据经验设定意图库的方式相比，本发明实施例中的用户意图分布库更能反映当前场景下用户的真实意图，并且，由于是基于大量的查询语句样本得到的，用户意图分布库的设定也更加全面。因此，基于本发明实施例中的用户意图分布库进行用户意图识别，可以提高识别的准确率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的用户意图识别方法的一种流程示意图；

图2为图1所示实施例中建立用户意图分布库的方法流程示意图；

图3为本发明实施例提供的用户意图识别方法的另一种流程示意图；

图4为图3所示实施例中建立用户意图分布库的方法流程示意图；

图5为本发明实施例提供的用户意图识别装置的一种结构示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高用户意图识别的准确率，本发明实施例提供了一种用户意图识别方法、装置及电子设备，以下分别进行详细说明。

图1为本发明实施例提供的用户意图识别方法的一种流程示意图，具体包括如下步骤：

步骤101，获取待识别查询语句。

本步骤中，待识别查询语句可以为用户通过输入设备直接输入的查询文本，也可以为对用户输入的语音数据进行语音识别之后，得到的查询语句文本等。此处，对于获取待识别查询语句的方式，不作限定。

步骤102，基于聚类算法，在预先建立的用户意图分布库中，确定待识别查询语句所属的查询语句类别；其中，用户意图分布库中包括：查询语句类别，以及与各查询语句类别分别对应的用户意图；查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的。

用户意图分布库中与各查询语句类别分别对应的用户意图，可以为对各查询语句类别中包含的查询语句样本进行关键词提取之后，得到的。

基于聚类算法，在预先建立的用户意图分布库中，确定待识别查询语句所属的查询语句类别的步骤，可以包括：

对待识别查询语句进行向量化，得到待识别特征向量；

基于待识别特征向量和各查询语句类别中包含的样本特征向量之间的位置关系，在预先建立的用户意图分布库中，确定待识别特征向量所属的查询语句类别，作为待识别查询语句所属的查询语句类别。

其中，样本特征向量为对查询语句样本进行向量化之后得到的。

本发明实施例中，在对待识别查询语句或者查询语句样本进行向量化时，可以采用任一向量化算法，例如：IFIDF算法、BERT算法等，此处，对于向量化算法的选择，不作限定。

步骤103，将与待识别查询语句所属的查询语句类别对应的用户意图，确定为待识别查询语句的用户意图。

在图1所示实施例中，所使用的用户意图分布库中的查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的，与人工根据经验设定意图库的方式相比，本发明实施例中的用户意图分布库更能反映当前场景下用户的真实意图，并且，由于是基于大量的查询语句样本得到的，用户意图分布库的设定也更加全面。因此，基于本发明实施例中的用户意图分布库进行用户意图识别，可以提高识别的准确率。

参见图2，图2为图1所示实施例中建立用户意图分布库的方法流程示意图，包括如下步骤：

步骤201，获取当前场景下的查询语句样本。

为了能够更加全面地反映出某个场景下，存在的用户真实意图，本步骤中，可以获取该场景下的大量的查询语句样本，以在后续步骤中进行聚类，从而得到当前场景下包含的查询语句类别以及与各查询语句类别对应的用户意图。

例如，对于在某餐厅中，为顾客提供菜品推荐服务这一场景而言，在建立用户意图分布库之前，可以先获取该场景下，顾客通过语音或硬件输入设备等输入的大量的查询语句，作为当前场景下的查询语句样本。

步骤202，采用聚类算法，对各查询语句样本进行类别划分，得到当前场景下包含的查询语句类别。

本步骤中，可以采用任一现有的聚类算法，例如：DBSCAN算法等，得到当前场景下包含的查询语句类别，此处，对于具体采用何种聚类算法，不作限定。

步骤203，针对每个查询语句类别，对该查询语句类别中包含的查询语句样本进行关键词提取，得到与该查询语句类别对应的用户意图。

具体的，可以先对该查询语句类别中包含的各查询语句样本分别进行关键词提取，然后再从提取出的所有的关键词中选择部分关键词，作为与该查询语句类别对应的用户意图。

图2所示的用户意图分布库建立方法，是自动化实现的，无需人工参与，即可得到当前场景下包括查询语句类别以及与各查询语句类别分别对应的用户意图的用户意图分布库，因此，用户意图分布库建立的效率较高。

同时，由于用户意图分布库中的查询语句类别是对当前场景下的大量的查询语句样本进行聚类之后得到的，而与各查询语句类别对应的用户意图又是通过对各查询语句类别中包含的查询语句样本提取关键词得到的，相同查询语句类别中的查询语句样本的关键词具有很强的共性。因此，通过图2所示的方法建立的用户意图分布库更加全面，并且，更能反映当前场景下用户的真实意图。

参见图3，图3为本发明实施例提供的用户意图识别方法的另一种流程示意图，包括如下步骤：

步骤301，获取待识别语音数据。

步骤302，对待识别语音数据进行语音识别，得到待识别查询语句。

本步骤中，可以采用任一现有的语音识别方法对待识别语音数据进行识别。对于具体的语音识别方法，此处不作限定。

在得到待识别查询语句之后，可以对待识别查询语句进行分词处理，以便后续的向量化操作。具体的，可以采用任一现有的分词方法进行分词处理，此处不作限定。

步骤303，采用词频逆文本频率IFIDF算法，对待识别查询语句进行向量化，得到第一待识别特征向量。

具体的，得到第一待识别特征向量的步骤，可以包括：

对待识别查询语句进行词频统计，得到待识别查询语句中各词出现的频率；

基于预设预料库，得到上述各词的逆文本频率；

将各词的逆文本频率与频率的乘积(IFIDF值)，作为各词的特征值，得到待识别查询语句对应的特征向量，作为第一待识别特征向量。

得到的该第一待识别特征向量可以表征待识别查询语句中各词的词特性。

其中，预设预料库可以由建立用户意图分布库时，获取到的当前场景下的查询语句样本组成。

步骤304，采用BERT模型，对待识别查询语句进行向量化，得到第二待识别特征向量。

具体的，可以将待识别查询语句输入至BERT模型中，即可对待识别查询语句进行向量化，得到第二待识别特征向量。该第二待识别特征向量可以表征待识别查询语句的语义特征。

步骤305，对第一待识别特征向量和第二待识别特征向量进行拼接，得到待识别特征向量。

例如，假设第一待识别特征向量为(a1，a2，a3)，第二待识别特征向量为(a4，a5，a6)，则通过对上述两个特征向量的拼接操作，可以得到待识别特征向量为(a1，a2，a3，a4，a5，a6)。

步骤306，基于待识别特征向量和各查询语句类别中包含的样本特征向量之间的位置关系，在预先建立的用户意图分布库中，确定待识别特征向量所属的查询语句类别，作为待识别查询语句所属的查询语句类别。

其中，预先建立的用户意图分布库中包括：查询语句类别，以及与各查询语句类别分别对应的用户意图；查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的。

本步骤中的样本特征向量，为对查询语句样本进行向量化之后得到的，具体的向量化过程为：

采用词频逆文本频率IFIDF算法，对各查询语句样本进行向量化，得到各查询语句样本的第一样本特征向量；采用BERT模型，对各查询语句样本进行向量化，得到各查询语句样本的第二样本特征向量；对第一样本特征向量和第二样本特征向量进行拼接，得到各查询语句样本的样本特征向量。

步骤307，将与待识别查询语句所属的查询语句类别对应的用户意图，确定为待识别查询语句的用户意图。

在图3所示实施例中，所使用的用户意图分布库中的查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的，与人工根据经验设定意图库的方式相比，本发明实施例中的用户意图分布库更能反映当前场景下用户的真实意图，并且，由于是基于大量的查询语句样本得到的，用户意图分布库的设定也更加全面。因此，基于本发明实施例中的用户意图分布库进行用户意图识别，可以提高识别的准确率。

另外，在对待识别查询语句以及查询语句样本进行向量化时，是通过IFIDF算法和BERT模型算法综合得到的，其中，通过IFIDF算法得到的特征向量，可以表征查询语句中各词的词特性，通过BERT模型算法得到的特征向量，可以表征查询语句的语义特性。因此，最终拼接得到的特征向量既可以表征查询语句中各词的词特性，还可以表征查询语句的语义，进而，基于上述拼接得到的特征向量进行聚类，得到的同一查询语句类别中包含的查询语句样本在词特征以及语义特征方面均更加相似，聚类结果更加精确。

图4为图3所示实施例中建立用户意图分布库的方法流程示意图，包括如下步骤：

步骤401，获取当前场景下的查询语句样本。

步骤402，采用词频逆文本频率IFIDF算法，对各查询语句样本进行向量化，得到各查询语句样本的第一样本特征向量。

步骤403，采用BERT模型，对各查询语句样本进行向量化，得到各查询语句样本的第二样本特征向量。

步骤404，对第一样本特征向量和第二样本特征向量进行拼接，得到各查询语句样本的样本特征向量。

步骤405，从样本特征向量中，确定核心样本特征向量，以及与各核心样本特征向量对应的临时聚类簇。

步骤406，对临时聚类簇进行合并，得到聚类簇，作为当前场景下包含的查询语句类别。

上述步骤405-步骤406即为采用DBSCAN聚类算法，对各查询语句样本进行类别划分，得到当前场景下包含的查询语句类别的具体过程。由于DBSCAN聚类算法无需指定最终得到的聚类簇的数量，因此，更适合用于对未知用户意图的查询语句样本进行聚类。

在本发明另一实施例中，也可以在步骤405之后，对临时聚类簇进行合并，得到聚类簇，作为当前场景下包含的候选查询语句类别，然后再按照各候选查询语句类别中包含的查询语句样本数量从大到小的顺序，选择包含的查询语句样本数量总和大于预设阈值的候选查询语句类别，作为当前场景下包含的查询语句类别。这样，可以剔除掉当前场景下包含的候选查询语句类别中，包含的查询语句样本数量极少的候选查询语句类别，即：从候选查询语句类别中剔除掉常伪类别。使得得到的查询语句类别更接近当前场景下真实存在的查询语句类别。

例如：假设查询语句样本总数量为N，聚类后得到的候选查询语句类别分别为A1、A2、…、A_m，各候选查询语句类别中包含的查询语句样本数量分别为B1、B2、…、B_m，其中，B1＞B2＞…＞B_m，若(B1+B2+……+B_m-1)大于预设阈值，或者大于N的预设百分比，则可以剔除候选查询语句类别A_m，而将A1、A2、…、A_m-1作为当前场景下包含的查询语句类别。

步骤407，针对每个查询语句类别，对该查询语句类别中包含的查询语句样本进行关键词提取，得到与该查询语句类别对应的用户意图。

本步骤中，对于进行关键词提取所采用的具体方法，不作限定。

在本发明实施例中，针对每个查询语句类别，对该查询语句类别中包含的查询语句样本进行关键词提取，得到与该查询语句类别对应的用户意图的过程，可以为：

针对该查询语句类别中包含的每个查询语句样本，按照该查询语句样本中各词的IFIDF值从大到小的顺序，提取第一预设数量个词作为该查询语句样本的关键词；再从该查询语句类别中包含的所有查询语句样本的关键词中，按照IFIDF值从大到小的顺序，提取第二预设数量个关键词作为该查询语句类别对应的用户意图。

图4所示的用户意图分布库建立方法，是自动化实现的，无需人工参与，即可得到当前场景下包括查询语句类别以及与各查询语句类别分别对应的用户意图的用户意图分布库，因此，用户意图分布库建立的效率较高。

同时，由于用户意图分布库中的查询语句类别是对当前场景下的大量的查询语句样本进行聚类之后得到的，而与各查询语句类别对应的用户意图又是通过对各查询语句类别中包含的查询语句样本提取关键词得到的，相同查询语句类别中的查询语句样本的关键词具有很强的共性。因此，通过图4所示的方法建立的用户意图分布库更加全面，并且，更能反映当前场景下用户的真实意图。

基于同一发明构思，根据本发明上述实施例提供的用户意图识别方法，相应地，本发明一个实施例还提供了一种用户意图识别装置，其结构示意图如图5所示，包括：

待识别查询语句获取模块501，用于获取待识别查询语句；

查询语句类别确定模块502，用于基于聚类算法，在预先建立的用户意图分布库中，确定待识别查询语句所属的查询语句类别；其中，用户意图分布库中包括：查询语句类别，以及与各查询语句类别分别对应的用户意图；查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的；

用户意图确定模块503，用于将与待识别查询语句所属的查询语句类别对应的用户意图，确定为待识别查询语句的用户意图。

进一步的，装置还包括：用户意图分布库建立模块；

用户意图分布库建立模块，包括：查询语句样本获取子模块、查询语句类别得到子模块、用户意图得到子模块；

查询语句样本获取子模块，用于获取当前场景下的查询语句样本；

查询语句类别得到子模块，用于采用聚类算法，对各查询语句样本进行类别划分，得到当前场景下包含的查询语句类别；

用户意图得到子模块，用于针对每个查询语句类别，对该查询语句类别中包含的查询语句样本进行关键词提取，得到与该查询语句类别对应的用户意图。

进一步的，查询语句类别得到子模块，具体用于：对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量；采用聚类算法，对样本特征向量进行类别划分，得到当前场景下包含的查询语句类别；

查询语句类别确定模块502，具体用于：对待识别查询语句进行向量化，得到待识别特征向量；基于待识别特征向量和各查询语句类别中包含的样本特征向量之间的位置关系，在预先建立的用户意图分布库中，确定待识别特征向量所属的查询语句类别，作为待识别查询语句所属的查询语句类别。

进一步的，查询语句类别得到子模块，在执行采用聚类算法，对样本特征向量进行类别划分，得到当前场景下包含的查询语句类别步骤时，具体用于：

从样本特征向量中，确定核心样本特征向量，以及与各核心样本特征向量对应的临时聚类簇；

对临时聚类簇进行合并，得到聚类簇，作为当前场景下包含的查询语句类别。

进一步的，查询语句类别得到子模块，具体用于：对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量；采用聚类算法，对样本特征向量进行类别划分，得到当前场景下包含的候选查询语句类别；按照各候选查询语句类别中包含的查询语句样本数量从大到小的顺序，选择包含的查询语句样本数量总和大于预设阈值的候选查询语句类别，作为当前场景下包含的查询语句类别；

进一步的，查询语句类别得到子模块，在执行采用聚类算法，对样本特征向量进行类别划分，得到当前场景下包含的候选查询语句类别的步骤时，具体用于：

对临时聚类簇进行合并，得到聚类簇，作为当前场景下包含的候选查询语句类别。

进一步的，，查询语句类别得到子模块在执行对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量的步骤时，具体用于：

采用词频逆文本频率IFIDF算法，对各查询语句样本进行向量化，得到各查询语句样本的第一样本特征向量；

采用BERT模型，对各查询语句样本进行向量化，得到各查询语句样本的第二样本特征向量；

对第一样本特征向量和第二样本特征向量进行拼接，得到各查询语句样本的样本特征向量；

查询语句类别确定模块502，在执行对待识别查询语句进行向量化，得到待识别特征向量的步骤时，具体用于：

采用词频逆文本频率IFIDF算法，对待识别查询语句进行向量化，得到第一待识别特征向量；

采用BERT模型，对待识别查询语句进行向量化，得到第二待识别特征向量；

对第一待识别特征向量和第二待识别特征向量进行拼接，得到待识别特征向量。

进一步的，待识别查询语句获取模块501，具体用于：

获取待识别语音数据；

对待识别语音数据进行语音识别，得到待识别查询语句。

图5所示实施例中，所使用的用户意图分布库中的查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的，与人工根据经验设定意图库的方式相比，本发明实施例中的用户意图分布库更能反映当前场景下用户的真实意图，并且，由于是基于大量的查询语句样本得到的，用户意图分布库的设定也更加全面。因此，基于本发明实施例中的用户意图分布库进行用户意图识别，可以提高识别的准确率。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

获取待识别查询语句；

基于聚类算法，在预先建立的用户意图分布库中，确定待识别查询语句所属的查询语句类别；其中，用户意图分布库中包括：查询语句类别，以及与各查询语句类别分别对应的用户意图；查询语句类别是对当前场景下的查询语句样本进行聚类之后得到的；

将与待识别查询语句所属的查询语句类别对应的用户意图，确定为待识别查询语句的用户意图。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一用户意图识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一用户意图识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种用户意图识别方法，其特征在于，包括：

获取待识别查询语句；

将与所述待识别查询语句所属的查询语句类别对应的用户意图，确定为所述待识别查询语句的用户意图；

所述用户意图分布库的建立过程包括：

获取当前场景下的查询语句样本；

针对每个查询语句类别，对该查询语句类别中包含的查询语句样本进行关键词提取，得到与该查询语句类别对应的用户意图；

所述采用聚类算法，对各查询语句样本进行类别划分，得到当前场景下包含的查询语句类别的步骤，包括：

对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量；采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的查询语句类别；

或，

对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量；采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的候选查询语句类别；按照各候选查询语句类别中包含的查询语句样本数量从大到小的顺序，选择包含的查询语句样本数量总和大于预设阈值的候选查询语句类别，作为当前场景下包含的查询语句类别。

2.根据权利要求1所述的方法，其特征在于，所述基于聚类算法，在预先建立的用户意图分布库中，确定所述待识别查询语句所属的查询语句类别的步骤，包括：

对所述待识别查询语句进行向量化，得到待识别特征向量；

3.根据权利要求1所述的方法，其特征在于，所述采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的查询语句类别的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的候选查询语句类别的步骤，包括：

5.根据权利要求2所述的方法，其特征在于，所述对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量的步骤，包括：

6.根据权利要求1-5任一所述的方法，其特征在于，所述获取待识别查询语句的步骤，包括：

获取待识别语音数据；

7.一种用户意图识别装置，其特征在于，包括：

待识别查询语句获取模块，用于获取待识别查询语句；

用户意图确定模块，用于将与所述待识别查询语句所属的查询语句类别对应的用户意图，确定为所述待识别查询语句的用户意图；

还包括：用户意图分布库建立模块；

所述用户意图得到子模块，用于针对每个查询语句类别，对该查询语句类别中包含的查询语句样本进行关键词提取，得到与该查询语句类别对应的用户意图；

所述查询语句类别得到子模块，具体用于：对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量；采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的查询语句类别；

或，

具体用于：对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量；采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的候选查询语句类别；按照各候选查询语句类别中包含的查询语句样本数量从大到小的顺序，选择包含的查询语句样本数量总和大于预设阈值的候选查询语句类别，作为当前场景下包含的查询语句类别。

8.根据权利要求7所述的装置，其特征在于，所述查询语句类别确定模块，具体用于：对所述待识别查询语句进行向量化，得到待识别特征向量；基于所述待识别特征向量和各查询语句类别中包含的样本特征向量之间的位置关系，在预先建立的用户意图分布库中，确定所述待识别特征向量所属的查询语句类别，作为所述待识别查询语句所属的查询语句类别。

9.根据权利要求7所述的装置，其特征在于，所述所述查询语句类别得到子模块，在执行所述采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的查询语句类别步骤时，具体用于：

10.根据权利要求7所述的装置，其特征在于，所述查询语句类别得到子模块，在执行所述采用聚类算法，对所述样本特征向量进行类别划分，得到当前场景下包含的候选查询语句类别的步骤时，具体用于：

11.根据权利要求8所述的装置，其特征在于，所述查询语句类别得到子模块在执行所述对各查询语句样本进行向量化，得到各查询语句样本的样本特征向量的步骤时，具体用于：

12.根据权利要求7-11任一所述的装置，其特征在于，所述待识别查询语句获取模块，具体用于：

获取待识别语音数据；

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。