CN116244413B

CN116244413B - 新意图确定方法、设备和存储介质

Info

Publication number: CN116244413B
Application number: CN202211686566.5A
Authority: CN
Inventors: 任伟杰; 焦振宇; 常月; 孙叔琦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-11-21
Anticipated expiration: 2042-12-27
Also published as: CN116244413A

Abstract

本公开提供了一种新意图确定方法、设备和存储介质，涉及自然语言处理等人工智能技术领域。具体实现方案为：通过已有场景对查询语句集合之中的查询语句进行过滤，以生成候选集合，生成候选集合之中每个查询语句对应的文本表示向量；根据候选集合之中每个查询语句对应的文本表示向量，从候选集合的查询语句之中选择高频查询语句；根据高频查询语句生成用户的新意图。由此，通过对查询语句集合进行自动化处理，即可确定出用户的新意图，实现了新意图地自动化确定，无需人工参与，降低了挖掘新意图的成本。

Description

新意图确定方法、设备和存储介质

技术领域

本公开涉及计算机技术领域，具体涉及自然语言处理等人工智能技术领域，尤其涉及新意图确定方法、设备和存储介质。

背景技术

目前，在人机对话系统中，人机对话系统中通常是基于意图数据进行意图理解，意图数据很大程度上决定了人机交互理解的效果。因此，如何以较低的成本来确定出人机对话系统的新意图是人机对话系统中亟需解决的问题。

发明内容

本公开提供了一种用于新意图确定方法、设备和存储介质。

根据本公开的一方面，提供了一种新意图确定方法，包括：获取查询语句集合；根据已有场景对所述查询语句集合之中的查询语句进行过滤，以生成候选集合；生成所述候选集合之中每个查询语句对应的文本表示向量；根据所述候选集合之中每个所述查询语句对应的文本表示向量，从所述候选集合的查询语句之中选择高频查询语句；根据所述高频查询语句生成用户的新意图。根据本公开的另一方面，提供了一种新意图确定装置，包括：获取模块，用于获取查询语句集合；第一过滤模块，用于根据已有场景对所述查询语句集合之中的查询语句进行过滤，以生成候选集合；第一生成模块，用于生成所述候选集合之中每个查询语句对应的文本表示向量；选择模块，用于根据所述候选集合之中每个所述查询语句对应的文本表示向量，从所述候选集合的查询语句之中选择高频查询语句；第二生成模块，根据所述高频查询语句生成用户的新意图。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例公开的新意图确定方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开实施例公开的新意图确定方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本公开实施例公开的新意图确定方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开一个实施例的新意图确定方法的示例图；

图7是根据本公开第六实施例的示意图；

图8是根据本公开第七实施例的示意图；

图9是用来实现本公开实施例的新意图确定方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本公开实施例的新意图确定方法、设备和存储介质。

图1是根据本公开第一实施例的示意图。

如图1所示，该新意图确定方法可以包括：

步骤101，获取查询语句集合。

其中，需要说明的是，上述新意图确定方法的执行主体为新意图确定装置，该新意图确定装置可以由软件和/或硬件的方式实现，该实施例中的新意图确定装置可以为电子设备，或者，可以配置在电子设备中。

其中，本示例实施例中电子设备可以包括但不限于终端设备和服务器等设备，该实施例对电子设备不作限定。

在一些示例性的实施方式中，可从人机对话系统的历史交互日志之中，获取多个查询语句，并基于多个查询语句生成查询语句集合。

步骤102，根据已有场景对查询语句集合之中的查询语句进行过滤，以生成候选集合。

在一些示例性的实施方式中，针对查询句集合中的每个查询语句，可基于已有场景对应的意图识别模型对该查询语句进行意图识别，如果存在与该查询语句对应的历史意图标签，则将该查询语句删除，对应地，如果不存在该查询语句对应的历史意图标签，则将该查询语句保存至候选集合中。

其中，本示例中的意图识别模型是基于已有场景的样本查询语句以及对应的意图标签训练出的。

其中，关于训练意图识别模型的过程可参见相关技术中的描述，此处不再赘述。

其中，关于根据已有场景对查询语句集合之中的查询语句进行过滤，以生成候选集合的其他实现方式，可参见其他实施例的相关描述。

步骤103，生成候选集合之中每个查询语句对应的文本表示向量。

在一些示例性的实施方式中，在不同应用场景中，生成候选集合之中每个查询语句对应的文本表示向量的方式不同，例如，可通过文本表示向量生成模型对候选集合中每个查询语句进行处理，以得到各个查询语句对应的文本表示向量。

步骤104，根据候选集合之中每个查询语句对应的文本表示向量，从候选集合的查询语句之中选择高频查询语句。

在一些示例性的实施方式中，可根据候选集合之中每个查询语句对应的文本表示向量，确定出每个查询语句的被召回次数，并根据被召回次数，从候选集合中的查询语句之中选择高频查询语句。由此，基于候选集合中每个查询语句的被召回次数，准确从候选集合中选择出了高频查询语句。

其中，高频查询语句是指在人机交互对话系统中出现频次较高的查询语句。

在一些示例性的实施方式中，根据被召回次数，从候选集合中的查询语句之中选择高频查询语句的实现方式有多种，示例说明如下：

作为一种示例，可根据被召回次数从大到小的顺序，对候选集合中各个查询语句进行排序，以得到排序结果，并从排序结果中获取排序在前K位的查询语句，并将排序在前K位的查询语句作为高频查询语句。其中，K为正整数。由此，结合各个查询语句对应的被召回此时，准确确定出了候选集合中的高频查询语句。

其中，上述K的取值可以是在新意图确定装置中预先设置的。作为一种示例，可根据预先设置的高频过滤比例r和查询语句集合中查询语句的总数预先确定出K的取值，并根据所确定出的K的取值在新意图确定装置来设置该K的取值。例如，预先设置的高频过滤比例r为0.75，查询语句集合中查询语句的总数为M，其中，K＝0.75*M。

作为另一种示例，可根据被召回次数，从候选集合中获取被召回次数大于或者等于预设次数阈值的查询语句，并将所获取到的查询语句作为高频查询语句。

步骤105，根据高频查询语句生成用户的新意图。

在一些示例性的实施方式中，为了准确确定出用户的新意图，可对高频查询语句进行聚类处理，以得到多个高频查询语句簇，针对每个高频查询语句簇，可将该高频查询语句簇中作为簇类中心的查询语句作为用户的新意图。

在一些示例性的实施方式中，为了准确确定出用户的新意图，可对高频查询语句进行聚类处理，以得到多个高频查询语句簇，针对每个高频查询语句簇，可获取高频查询语句簇之中被召回次数最多的查询语句，并将被召回次数最多的查询语句作为新意图。

例如，高频查询语句有五个分别为『你叫什么、你的名字叫什么、查询余额、查余额、我想查余额』，对应地，选定簇数量是2，对上述五个高频查询语句进行聚类处理，以得到两个高频查询语句簇，分别用高频查询语句簇A和高频查询语句簇B来表示，高频查询语句簇A包括：“你叫什么”、“你的名字叫什么”。对应地，高频查询语句簇B包括“查询余额”、“查余额”、“我想查余额”。假设高频查询语句簇A中“你的名字叫什么”的被召回次数最高，对应地，可将“你的名字叫什么”作为用户的新意图。对应地，如果高频查询语句簇B中“查询余额”的被召回次数最高，对应地，可将“查询余额”作为用户的新意图。

本公开实施例的新意图确定方法，通过已有场景对查询语句集合之中的查询语句进行过滤，以生成候选集合，生成候选集合之中每个查询语句对应的文本表示向量；根据候选集合之中每个查询语句对应的文本表示向量，从候选集合的查询语句之中选择高频查询语句；根据高频查询语句生成用户的新意图。由此，通过对查询语句集合进行自动化处理，即可确定出用户的新意图，实现了新意图地自动化确定，无需人工参与，降低了挖掘新意图的成本。

在本公开的一个实施例中，为了可以基于已有场景对查询语句集合之中的查询语句进行过滤，可基于已有场的样本查询语句集合对查询语句集合中的查询语句进行过滤，为了可以清楚理解该过程，下结合图2对该实施例的新意图确定方法进行示例性描述。

图2是根据本公开第二实施例的示意图。该实施例对图1所实施例的进一步细化或者优化。

如图2所示，该新意图确定方法可以包括：

步骤201，获取查询语句集合。

步骤202，获取已有场景的样本查询语句集合；

步骤203，将查询语句集合之中查询语句与已有场景的样本查询语句集合之中的样本查询语句进行相似性匹配，以获取查询语句集合之中查询语句匹配的样本查询语句。

在一些示例性的实施方式中，针对查询语句集合中的每个查询语句，可采用全文检索(Elasticsearch，ES)或通用语义检索的方式，将该查询语句与已有场景的样本查询语句集合之中的样本查询语句进行相似性匹配，以获取该查询语句集合之中查询语句匹配的样本查询语句。由此，可从已有场景的样本查询语句集合中快速且准确地获取与该查询语句匹配的样本查询语句。

步骤204，根据语义模型生成查询语句与匹配的样本查询语句之间的相似度，判断该相似度是否大于或者等于预设阈值，如果是，则执行步骤205，否则执行步骤206。

其中，预设阈值是在新意图确定装置中预先设置的相似度的临界值，在实际应用中，可根据实际需求来设置该预设阈值的取值，该实施例对预设阈值的取值不作具体限定。

在一些示例性的实施方式中，可将查询语句与匹配的样本查询语句输入到语义模型中，以通过该语义模型确定出查询语句与匹配的样本查询语句之间的相似度。

步骤205，将该查询语句集合中的该查询语句删除。

也就是说，如果确定该相似度大于或者等于预设阈值，则可将该查询语句集合中该查询语句删除，即，删除该查询语句集合中的该查询语句。

例如，查询语句集合中的查询语句为“忘记密码”，对应地，从已有场景的样本查询语句集合中获取与该查询语句匹配的样本查询语句为“密码忘记了”，对应地，语义模型确定出该查询语句与该样本查询语句之间的相似度为95％，假设预设阈值为85％，对应地，通过将相似度和预设阈值进行比较可获知该相似度大于预设阈值，则将该查询语句集合中的该查询语句删除。

步骤206，将查询语句保存至候选集合。

在一些示例性的实施方式，在该相似度小于预设阈值的情况下，说明该查询语句与已有场景的样本语句集合中的样本查询语句之间不存在相似性，对应地，可在查询语句集合中保留该查询语句，对应地，可通过本示例公开的方式对查询语句集合中每个查询语句进行过滤处理，并将最后处理所得到的查询语句集合作为候选集合。

在另一些示例中，在该相似度小于预设阈值的情况下，说明该查询语句与已有场景的样本语句集合中的样本查询语句之间不存在相似性，对应地，可将查询语句集合中的该查询语句保存至候选集合中。

其中，候选集合中用于保存查询语句集合中与已有场景的样本语句集合中样本查询语句之间不存在相似性的查询语句。

步骤207，生成候选集合之中每个查询语句对应的文本表示向量。

步骤208，根据候选集合之中每个查询语句对应的文本表示向量，从候选集合的查询语句之中选择高频查询语句。

步骤209，根据高频查询语句生成用户的新意图。

其中，需要说明的是，关于步骤207至步骤209的具体实现方式，可参见本公开实施例的相关描述，此处不再赘述。

在本示例中，通过将查询语句集合之中查询语句与已有场景的样本查询语句集合之中的样本查询语句进行相似性匹配，以获取查询语句集合之中查询语句匹配的样本查询语句，并根据语义模型生成查询语句与匹配的样本查询语句之间的相似度，以及基于相似度度与预设阈值之间的大小关系，来对查询语句集合进行准确过滤，由此，可准确将已有场景的样本查询语句从该查询语句集合中过滤掉，可以提高所生成的候选集合的准确性，进而可提高后续所确定出的新意图的准确性。

基于上述任意一个实施例的基础上，可以理解的是，在查询语句集合中可能存在一些与确定新意图无关的数据，为了减少在确定新意图的过程中，所需要处理的数据量，提高确定新意图的效率，在根据已有场景对查询语句集合之中的查询语句进行过滤，以生成候选集合之后，还可以对候选集合之中的查询语句进行无意义数据过滤，由此，可以将候选集合中的查询语句中的无意义数据进行过滤。

在一些示例性的实施方式中，为了清楚理解是如何对候选集合之中的查询语句进行无意义数据过滤，下面结合图3对该情况进行示例性描述。

图3是根据本公开第三实施例的示意图。

如图3所示，该新意图确定方法可以包括：

步骤301，获取查询语句集合。

步骤302，根据已有场景对查询语句集合之中的查询语句进行过滤，以生成候选集合。

其中，需要说明的是，关于步骤301和步骤302的具体实现方式，可参见本公开实施例的相关描述，此处不再赘述。

步骤303，识别候选集合之中查询语句的非中文字符，并将非中文字符从查询语句之中去除，以得到去除后的查询语句。

步骤304，计算去除后的查询语句与通用无意义的查询语句之间的编辑距离。

其中，通用无意义的查询语句是指在人机对话过程中，与进行意图识别无关的查询语句，例如，通用无意义的查询语句可以包括但不限于谢谢您了、不行、知道了、不会吧等。

步骤305，将编辑距离小于或等于预设编辑距离的查询语句删除。

其中，需要说明的是，如果查询语句与通用无意义的查询语句之间的编辑距离之间的编辑距离小于或者等于预设编辑距离，则说明该查询语句包括该通用无意义的查询语句，并且说明该查询语句与该通用无意义的查询语句比较相似。

其中，预设编辑距离是在新意图确定装置中预先设置的编辑距离的临界值，例如，预设编辑距离可以为2。

例如，预设编辑距离为2，针对候选集合中的每个查询语句，在确定出该查询语句中存在非中文字符后，可删除该查询语句中的非中文字符后，该查询语句为“我知道了”，通用无意义的查询语句为“知道”，对应地，如果计算出该查询语句与通用无意义的查询语句“知道”之间的编辑距离为2，对应地，通过将编辑距离和预设编辑距离进行大小比较，可获知该编辑距离等于预设编辑距离，此时，可确定该查询语句也是无意义的查询语句，可将该查询语句从候选集合中删除，以减少后续处理的数据量，提高后续确定出新意图的效率。

步骤306，生成候选集合之中每个查询语句对应的文本表示向量。

步骤307，根据候选集合之中每个查询语句对应的文本表示向量，从候选集合的查询语句之中选择高频查询语句。

步骤308，根据高频查询语句生成用户的新意图。

其中，需要说明的是，关于步骤306至步骤308的具体实现方式，可参见本公开实施例的相关描述，此处不再赘述。

在本示例中，通过识别候选集合之中查询语句的非中文字符，并将非中文字符从查询语句之中去除，以得到去除后的查询语句，并计算去除后的查询语句与通用无意义的查询语句之间的编辑距离，以及将编辑距离小于或等于预设编辑距离的查询语句删除。由此，可准确对候选集合中的查询语句进行无意义数据过滤，进而可减少后续在确定新意图的过程中所处理的查询语句的数据量，继而可提高确定新意图的效率。

基于上述任意一个实施例的基础上，为了可以准确生成候选集合之中每个查询语句对应的文本表示向量，提高后续处理的准确性，可结合对比学习的方式来生成候选集合中每个查询语句对应的文本表示向量。为了可以清楚理解该过程，下面结合图4对该过程进行示例性描述。

图4是根据本公开第四实施例的示意图。

如图4所示，生成候选集合之中每个查询语句对应的文本表示向量可以包括：

步骤401，针对候选集合中的第i个查询语句，生成候选集合之中第i个检索词对应的第一文本表示向量和第二文本表示向量，其中，第一文本表示向量和第二文本表示向量不同，其中，i为大于或者等于1，并且小于N的整数，其中，N为候选集合中查询语句的总数。

在一些示例性的实施方式中，可通过具有dropout层的文本表示生成模型来生成第i个检索词对应的第一文本表示向量和第二文本表示向量。

其中，需要说明的是，本示例中文本表示生成模型的dropout层会有随机数产生。因此，针对同一个检索词，本示例中具有dropout层的文本表示生成模型针对该同一个检索词两次所生成的文本表示向量是不同的。也就是说，在将该检索词输入到文本表示生成模型后，该文本表示生成模型得到一个文本表示向量，再次将该检索词输入到该文本表示生成模型后，该文本表示生成模型得到另一个文本表示向量，文本表示生成模型两次输出的文本表示向量是不同的。

步骤402，从已有场景的样本查询语句集合中随机获取n个与第i个查询语句不相似的目标查询语句。

在一些示例性的实施方式中，n个目标查询语句所对应的意图类型可以是相同的，也可以是不相同的，该实施例对此不作具体限定。

步骤403，生成n个目标查询语句各自对应的第三文本表示向量。

其中，需要说明的是，关于步骤403的具体实现方式，可参见本公开实施例的相关描述，此处不再赘述。

步骤404，根据第一文本表示向量、第二文本表示向量和第三文本表示向量，确定第i个查询语句和n个目标查询语句之间的对比损失函数的损失值。

在一些示例性的实施方式中，本示例中的对比损失函数为对比损失函数为：

其中，h_i为第一文本表示向量，/>为第二文本表示向量，为第一文本表示向量和第二文本表示向量之间的距离，/>为候选集合之中第i个查询语句的与n个目标查询语句之间的距离。其中，/>为第一文本表示向量和第j个目标查询语句的第三文本表示向量之间的距离。

其中，损失值越大，表示第i个检索词的第一文本表示向量和第二文本表示向量之间的距离越大，第i个检索词的第一文本表示向量和n个目标检索词的第三文本表示向量之间的距离越大。

步骤405，根据损失值确定候选集合之中第i个查询语句对应的文本表示向量。

在一些示例性的实施方式中，通过反向梯度减少损失值，并获取使得损失值满足预设条件时第i个查询语句所对应的第四文本表示向量；将第四文本表示向量作为第i个查询语句对应的文本表示向量。也就是说，在本示例中通过减少该损失值，可以得到一个第i个查询语句对应的第四文本表示向量使得第i个查询语句对应的两个文本表示向量之间的距离最小，并且，第i个查询语句与n个目标查询语句之间越来越远。由此，可以准确确定出第i个查询语句的最终的文本表示向量，方便后续基于各个查询语句所对应的最终的文本表示向量，对新意图进行准确确定。

其中，预设条件即为对损失值调整结束的条件。预设条件可以根据实际需求进行相应的配置，例如，预设条件可以是损失值小于预设值，也可以是损失值的变化趋近于平稳，即相邻两次损失值的差值小于设定值，也就是损失值基本不再变化。

在本示例中，通过对比学习的方式准确确定出了该候选集合中各个查询语句对应的文本表示向量，方便后续基于文本表示向量来准确确定出新意图。

为了可以清楚理解本公开实施例所提出的新意图确定方法，下面结合图5对该实施例的新意图确定方法进行示例性描述。

图5是根据本公开第五实施例的示意图。

如图5所示，该新意图确定方法可以包括：

步骤501，获取查询语句集合。

步骤502，针对查询语句集合中的每个查询语句，将该查询语句与已有场景的样本查询语句集合之中的样本查询语句进行相似性匹配，以获取与该查询语句匹配的样本查询语句。

步骤503，根据语义模型生成该查询语句与匹配的样本查询语句之间的相似度，判断该相似度大于或者等于预设阈值，若是，则执行步骤504，否则执行步骤505。

步骤504，将查询语句集合中的该查询语句删除。

步骤505，将该查询语句保存至候选集合中。

步骤506，对该候选集合中的查询句进行无意义数据过滤。

在一些示例性的实施方式中，对该候选集合中的查询句进行无意义数据过滤的一种可能实现方式为：可识别候选集合之中查询语句的非中文字符，并将非中文字符从查询语句之中去除，以得到去除后的查询语句；计算去除后的查询语句与通用无意义的查询语句之间的编辑距离；将编辑距离小于或等于预设编辑距离的查询语句删除。由此，将候选集合中的无意义的查询语句剔除掉，减少后续所处理的查询语句的数量，提高了所确定出的新意图的效率。

步骤507，对生成候选集合之中每个查询语句对应的文本表示向量。

在一些示例性的实施方式中，对生成候选集合之中每个查询语句对应的文本表示向量的一种可能实现方式为：针对候选集合中的第i个查询语句，生成候选集合之中第i个检索词对应的第一文本表示向量和第二文本表示向量，其中，第一文本表示向量和第二文本表示向量不同，其中，i为大于或者等于1，并且小于N的整数，其中，N为候选集合中查询语句的总数；从已有场景的样本查询语句集合中随机获取n个与第i个查询语句不相似的目标查询语句；生成n个目标查询语句各自对应的第三文本表示向量；根据第一文本表示向量、第二文本表示向量和第三文本表示向量，确定第i个查询语句和n个目标查询语句之间的对比损失函数的损失值；根据损失值确定候选集合之中第i个查询语句对应的文本表示向量。由此，通过对比学习的方式，准确确定出了候选集合中各个查询语句最终的文本表示向量，方便后续基于该文本表示向量对候选集合中的查询语句进行处理，继而可提高所确定出的新意图的效率。

步骤508，根据查询语句对应的文本表示向量，依次对候选集合之中的查询语句进行相似性召回，并计算候选集合之中每个查询语句的被召回次数。

在一些示例性的实施方式中，针对每个查询语句，可基于该查询语句对应的文本表示向量，从候选集合中获取与其文本表示向量之间的相似度大于预设相似度阈值的查询语句，并根据所获取到的查询语句的数量，确定该查询语句的被召回次数。作为一种示例，可直接将所获取到的查询语句的数量的取值作为该查询语句的被召回次数。

也就是说，针对每个查询语句，可基于该查询语句对应的文本表示向量，从候选集合中获取与其文本表示向量之间的相似度大于预设相似度阈值的s个查询语句，其中，s的取值即为该查询句的被召回次数。

步骤509，按照召回次数从大到小的顺序，对候选集合中的查询语句进行排序，并从排序结果中获取排序在前K位的查询语句，并将所获取到的查询语句作为高频查询语句。

其中，K是基于预先设置的高频过滤比例r和查询语句集合中查询语句的数量M进行相乘而得到的。例如，高频过滤比例r可以为0.75。

例如，候选集合中包括『你的名字叫什么、查询余额、查余额、我想查余额』四个查询语句，其中『查询余额、查余额、我想查余额』可以被相互召回，『你的名字叫什么』无法被召回，那么『查询余额、查余额、我想查余额』这三个查询语句的被召回次数就是3，『你的名字叫什么』的被召回次数就是0，对应地，『查询余额、查余额、我想查余额』这三个查询语句可以被作为高频查询语句。

步骤510，对高频查询语句进行聚类，以生成多个高频查询语句簇。

在一些示例性的实施方式中，可基于K均值聚类算法对高频查询语句进行聚类，以生成多个高频查询语句簇。

其中，关于可基于K均值聚类算法对高频查询语句进行聚类的具体实现方式，可参见相关技术中的描述，此处不再赘述。

步骤511，针对每个高频查询语句簇，可获取高频查询语句簇之中被召回次数最多的查询语句，并将被召回次数最多的查询语句作为新意图。

在本示例中，基于已有场景数据和自监督的方式进行文本向量的表示，能够在不使用任务标注成本的技术上完成向量表示，并且基于检索匹配方式、编辑距离方式剔除掉了与已有场景数据相似查询语句和无意义的查询语句，减少了无关数据对后续处理的影响，并且，并基于各个查询语句的被召回次数来确定出高频查询语句，并基于高频查询语句来确定出用户的新意图，提高了所确定出的新意图的准确性以及效率。

为了可以清楚理解本公开实施例所提出的新意图确定方法，下面结合图6对该实施例的方法进行示例性描述，具体过程为：获取未标注意图标签的新场景数据，基于已有场景数据对新场景数据进行已有场景匹配，然后，基于无意义数据对处理后的新场景数据进行无意义数据过滤，然后，基于已有场景数据对过滤后的新场景数据进行深度语义表示学习，然后，基于新场景数据中各个查询语句的文本表示向量进行高频查询语句发现，对高频查询语句进行聚类，以得到新场景数据。

其中，需要说明的是，本示例中无标注意图标签的新场景数据是从人机对话系统的历史交互日志中获取到的。

其中，需要说明的是，基于已有场景数据对新场景数据进行已有场景匹配、基于无意义数据对处理后的新场景数据进行无意义数据过滤、基于已有场景数据对过滤后的新场景数据进行深度语义表示学习、基于新场景数据中各个查询语句的文本表示向量进行高频查询语句发现以及对高频查询语句进行聚类的具体实现方式，可参见本公开实施例的相关描述，此处不再赘述。

为了实现上述实施例，本公开实施例还提供一种新意图确定装置。

图7是根据本公开第六实施例的示意图。

如图7所示，该新意图确定装置700可以包括：获取模块701、第一过滤模块702、第一生成模块703、选择模块704和第二生成模块705，其中：

获取模块701，用于获取查询语句集合。

第一过滤模块702，用于根据已有场景对查询语句集合之中的查询语句进行过滤，以生成候选集合。

第一生成模块703，用于生成候选集合之中每个查询语句对应的文本表示向量。

选择模块704，用于根据候选集合之中每个查询语句对应的文本表示向量，从候选集合的查询语句之中选择高频查询语句。

第二生成模块705，根据高频查询语句生成用户的新意图。

其中，需要说明的是，前述对新意图确定方法实施例的解释说明也适用于本实施例，本实施对此不再赘述。

本公开实施例提供的新意图确定装置，通过已有场景对查询语句集合之中的查询语句进行过滤，以生成候选集合，生成候选集合之中每个查询语句对应的文本表示向量；根据候选集合之中每个查询语句对应的文本表示向量，从候选集合的查询语句之中选择高频查询语句；根据高频查询语句生成用户的新意图。由此，通过对查询语句集合进行自动化处理，即可确定出用户的新意图，实现了新意图地自动化确定，无需人工参与，降低了挖掘新意图的成本。

在本公开的一个实施例中，图8是根据本公开第七实施例的示意图。

如图8所示，该新意图确定装置800可以包括：获取模块801、第一过滤模块802、第一生成模块803、选择模块804、第二生成模块805和第二过滤模块806，其中，第一过滤模块802可以包括第一获取单元8021、匹配单元8022、第一生成单元8023、删除单元8024和保存单元8025；第一生成模块803可以包括第二生成单元8031、第二获取单元8032、第三生成单元8033、第一确定单元8034和第二确定单元8035，其中：

其中，关于获取模块801的详细描述请参考图7所示实施例中获取模块701的说明，此处不再进行描述。

在本公开的一个实施例中，第一过滤模块802，包括：

第一获取单元8021，用于获取已有场景的样本查询语句集合；

匹配单元8022，用于将查询语句集合之中查询语句与已有场景的样本查询语句集合之中的样本查询语句进行相似性匹配，以获取查询语句集合之中查询语句匹配的样本查询语句；

第一生成单元8023，用于根据语义模型生成查询语句与匹配的样本查询语句之间的相似度；

删除单元8024，用于如果相似度大于或者等于预设阈值，则将查询语句删除；

保存单元8025，用于如果相似度小于预设阈值，则将查询语句保存至候选集合。

在本公开的一个实施例中，相似性匹配通过全文检索ES或通用语义检索进行。

在本公开的一个实施例中，该装置还可以包括：

第二过滤模块806，用于对候选集合之中的查询语句进行无意义数据过滤。

在本公开的一个实施例中，第二过滤模块806，具体用于：识别候选集合之中查询语句的非中文字符，并将非中文字符从查询语句之中去除，以得到去除后的查询语句；计算去除后的查询语句与通用无意义的查询语句之间的编辑距离；将编辑距离小于或等于预设编辑距离的查询语句删除。

在本公开的一个实施例中，第一生成模块803，包括：

第二生成单元8031，用于针对候选集合中的第i个查询语句，生成候选集合之中第i个检索词对应的第一文本表示向量和第二文本表示向量，其中，第一文本表示向量和第二文本表示向量不同，其中，i为大于或者等于1，并且小于N的整数，其中，N为候选集合中查询语句的总数；

第二获取单元8032，用于从已有场景的样本查询语句集合中随机获取n个与第i个查询语句不相似的目标查询语句；

第三生成单元8033，用于生成n个目标查询语句各自对应的第三文本表示向量；

第一确定单元8034，用于根据第一文本表示向量、第二文本表示向量和第三文本表示向量，确定第i个查询语句和n个目标查询语句之间的对比损失函数的损失值；

第二确定单元8035，用于根据损失值确定候选集合之中第i个查询语句对应的文本表示向量。

在本公开的一个实施例中，对比损失函数为：

其中，h_i为第一文本表示向量，/>为第二文本表示向量，为第一文本表示向量和第二文本表示向量之间的距离，/>为候选集合之中第i个查询语句的与n个目标查询语句之间的距离。

在本公开的一个实施例中，第二确定单元8035，具体用于：通过反向梯度减少损失值，并获取使得损失值满足预设条件时第i个查询语句所对应的第四文本表示向量；将第四文本表示向量作为第i个查询语句对应的文本表示向量。

在本公开的一个实施例中，选择模块804，具体用于：根据查询语句对应的文本表示向量，依次对候选集合之中的查询语句进行相似性召回，并计算候选集合之中每个查询语句的被召回次数；按照被召回次数从候选集合的查询语句之中选择高频查询语句。

在本公开的一个实施例中，第二生成模块805，具体用于：对高频查询语句进行聚类，以生成多个高频查询语句簇；获取高频查询语句簇之中被召回次数最多的查询语句，并将被召回次数最多的查询语句作为新意图。

其中，需要说明的是，前述对新意图确定方法实施例的解释说明也适用于本实施例中的新意图确定装置，此处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，该电子设备900可以包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如新意图确定方法。例如，在一些实施例中，新意图确定方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的新意图确定方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行新意图确定方法。

本文中以上描述的装置和技术的各种实施方式可以在数字电子电路装置、集成电路装置、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上装置的装置(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程装置上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储装置、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储装置、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行装置、装置或设备使用或与指令执行装置、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体装置、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的装置和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的装置和技术实施在包括后台部件的计算装置(例如，作为数据服务器)、或者包括中间件部件的计算装置(例如，应用服务器)、或者包括前端部件的计算装置(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的装置和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算装置中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将装置的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机装置可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器可以是云服务器，也可以为分布式装置的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种新意图确定方法，其特征在于，包括：

获取查询语句集合；

根据已有场景对所述查询语句集合之中的查询语句进行过滤，以生成候选集合；

生成所述候选集合之中每个查询语句对应的文本表示向量；

根据所述查询语句对应的文本表示向量，依次对所述候选集合之中的查询语句进行相似性召回，并计算所述候选集合之中每个查询语句的被召回次数；

按照所述被召回次数从所述候选集合的查询语句之中选择高频查询语句；

对所述高频查询语句进行聚类，以生成多个高频查询语句簇；

获取所述高频查询语句簇之中被召回次数最多的查询语句，并将所述被召回次数最多的查询语句作为所述新意图。

2.如权利要求1所述的方法，其特征在于，所述根据已有场景对所述查询语句集合之中的查询语句进行过滤，以生成候选集合，包括：

获取已有场景的样本查询语句集合；

将所述查询语句集合之中查询语句与所述已有场景的样本查询语句集合之中的样本查询语句进行相似性匹配，以获取所述查询语句集合之中查询语句匹配的样本查询语句；

根据语义模型生成所述查询语句与匹配的样本查询语句之间的相似度；

如果所述相似度大于或者等于预设阈值，则将所述查询语句删除；

如果所述相似度小于所述预设阈值，则将所述查询语句保存至所述候选集合。

3.如权利要求2所述的方法，其特征在于，所述相似性匹配通过全文检索ES或通用语义检索进行。

4.如权利要求1所述的方法，其特征在于，在所述根据已有场景对所述查询语句集合之中的查询语句进行过滤，以生成候选集合之后，还包括：

对所述候选集合之中的查询语句进行无意义数据过滤。

5.如权利要求4所述的方法，其特征在于，所述对所述候选集合之中的查询语句进行无意义数据过滤，包括：

识别所述候选集合之中查询语句的非中文字符，并将所述非中文字符从所述查询语句之中去除，以得到去除后的查询语句；

计算所述去除后的查询语句与通用无意义的查询语句之间的编辑距离；

将所述编辑距离小于或等于预设编辑距离的查询语句删除。

6.如权利要求1所述的方法，其特征在于，所述生成所述候选集合之中每个查询语句对应的文本表示向量，包括：

针对所述候选集合中的第i个查询语句，生成所述候选集合之中第i个检索词对应的第一文本表示向量和第二文本表示向量，其中，所述第一文本表示向量和所述第二文本表示向量不同，其中，i为大于或者等于1，并且小于N的整数，其中，所述N为所述候选集合中查询语句的总数；

从所述已有场景的样本查询语句集合中随机获取n个与所述第i个查询语句不相似的目标查询语句；

生成n个所述目标查询语句各自对应的第三文本表示向量；

根据所述第一文本表示向量、所述第二文本表示向量和所述第三文本表示向量，确定所述第i个查询语句和n个所述目标查询语句之间的对比损失函数的损失值；

根据所述损失值确定所述候选集合之中所述第i个查询语句对应的文本表示向量。

7.如权利要求6所述的方法，其特征在于，所述对比损失函数为：

，其中，/>为所述第一文本表示向量，/>为所述第二文本表示向量，/>为所述第一文本表示向量和所述第二文本表示向量之间的距离，为所述候选集合之中第i个查询语句的与n个所述目标查询语句之间的距离。

8.如权利要求6所述的方法，其特征在于，所述根据所述损失值确定所述候选集合之中所述第i个查询语句对应的文本表示向量，包括：

通过反向梯度减少所述损失值，并获取使得所述损失值满足预设条件时所述第i个查询语句所对应的第四文本表示向量；

将所述第四文本表示向量作为所述第i个查询语句对应的文本表示向量。

9.一种新意图确定装置，其特征在于，包括：

获取模块，用于获取查询语句集合；

第一过滤模块，用于根据已有场景对所述查询语句集合之中的查询语句进行过滤，以生成候选集合；

第一生成模块，用于生成所述候选集合之中每个查询语句对应的文本表示向量；

选择模块，用于根据所述查询语句对应的文本表示向量，依次对所述候选集合之中的查询语句进行相似性召回，并计算所述候选集合之中每个查询语句的被召回次数；按照所述被召回次数从所述候选集合的查询语句之中选择高频查询语句；

第二生成模块，根据对所述高频查询语句进行聚类，以生成多个高频查询语句簇；获取所述高频查询语句簇之中被召回次数最多的查询语句，并将所述被召回次数最多的查询语句作为所述新意图。

10.如权利要求9所述的装置，其特征在于，所述第一过滤模块，包括：

第一获取单元，用于获取已有场景的样本查询语句集合；

匹配单元，用于将所述查询语句集合之中查询语句与所述已有场景的样本查询语句集合之中的样本查询语句进行相似性匹配，以获取所述查询语句集合之中查询语句匹配的样本查询语句；

第一生成单元，用于根据语义模型生成所述查询语句与匹配的样本查询语句之间的相似度；

删除单元，用于如果所述相似度大于或者等于预设阈值，则将所述查询语句删除；

保存单元，用于如果所述相似度小于所述预设阈值，则将所述查询语句保存至所述候选集合。

11.如权利要求10所述的装置，其特征在于，所述相似性匹配通过全文检索ES或通用语义检索进行。

12.如权利要求9所述的装置，其特征在于，还包括：

第二过滤模块，用于对所述候选集合之中的查询语句进行无意义数据过滤。

13.如权利要求12所述的装置，其特征在于，所述第二过滤模块，具体用于：

将所述编辑距离小于或等于预设编辑距离的查询语句删除。

14.如权利要求9所述的装置，其特征在于，所述第一生成模块，包括：

第二生成单元，用于针对所述候选集合中的第i个查询语句，生成所述候选集合之中第i个检索词对应的第一文本表示向量和第二文本表示向量，其中，所述第一文本表示向量和所述第二文本表示向量不同，其中，i为大于或者等于1，并且小于N的整数，其中，所述N为所述候选集合中查询语句的总数；

第二获取单元，用于从所述已有场景的样本查询语句集合中随机获取n个与所述第i个查询语句不相似的目标查询语句；

第三生成单元，用于生成n个所述目标查询语句各自对应的第三文本表示向量；

第一确定单元，用于根据所述第一文本表示向量、所述第二文本表示向量和所述第三文本表示向量，确定所述第i个查询语句和n个所述目标查询语句之间的对比损失函数的损失值；

第二确定单元，用于根据所述损失值确定所述候选集合之中所述第i个查询语句对应的文本表示向量。

15.如权利要求14所述的装置，其特征在于，所述对比损失函数为：

16.如权利要求14所述的装置，其特征在于，所述第二确定单元，具体用于：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。