CN111949785A

CN111949785A - 查询语句管理方法和装置、可读存储介质、电子设备

Info

Publication number: CN111949785A
Application number: CN202010824310.0A
Authority: CN
Inventors: 卢新洁; 赵嫘; 崔鸣; 梁达昌; 黄钰瑶
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-17

Abstract

本公开实施例公开了一种查询语句管理方法和装置、可读存储介质、电子设备，其中，方法包括：获取日志中符合预设条件的多个查询语句；对所述多个查询语句进行分类处理，并基于分类处理的结果进行聚合处理，得到至少一个聚类集合，其中，每个所述聚类集合中包括至少一个查询语句；分别对所述聚类集合中的每个所述查询语句进行标准问句匹配，为所述每个聚类集合确定设定数量的匹配标准问句；本实施例通过分类和聚合处理，确定了与聚类集合匹配的设定数量的匹配标准问句，实现对不同方式提出的实质相同的问题匹配对应的标准问句，以提高对不同查询语句的处理效率。

Description

查询语句管理方法和装置、可读存储介质、电子设备

技术领域

本公开涉及语句管理技术领域，尤其是一种查询语句管理方法和装置、可读存储介质、电子设备。

背景技术

对于涉及问答的业务场景，在回答问题的过程中会遇到很多业务上的问题，例如，房产经纪人会遇到如：二套房的贷款比例，税费如何计算等问题；而房产经纪人自己也有需要解答的问题，比如公司某项规章制度的解读，公积金如何提取等。由于需要解决各种面向不同人群的问题，知识管理需要将问题积累沉淀并产生对应知识，提供一个便捷的搜索入口，以便后续有人再有相同问题时可以直接搜到答案。

但是千人千面，不同人的人问问题的方式也不尽相同，同一个问题会有多种问法，比如针对“邮箱密码如何修改及重置”这一问题，可能出现的问法有“邮箱密码忘记了怎么办”，“怎么修改邮箱密码”，“邮箱密码修改规则是什么”，“邮箱密码丢了如何找回”等等；因此，需要对查询语句进行管理。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种查询语句管理方法和装置、可读存储介质、电子设备。

根据本公开实施例的一个方面，提供了一种查询语句管理方法，包括：

获取日志中符合预设条件的多个查询语句；

对所述多个查询语句进行分类处理，并基于分类处理的结果进行聚合处理，得到至少一个聚类集合；其中，每个所述聚类集合中包括至少一个查询语句；

分别对所述聚类集合中的每个所述查询语句进行标准问句匹配，为所述每个聚类集合确定设定数量的匹配标准问句。

可选地，所述预设条件包括以下至少一种：有答案无点击、无答案；

所述获取日志中符合预设条件的多个查询语句，包括：

基于所述预设条件对从日志中获取的查询语句进行筛选，获得符合所述预设条件的多个查询语句。

可选地，所述对所述多个查询语句进行分类处理，并基于分类处理的结果进行聚合处理，得到至少一个聚类集合，包括：

对所述多个查询语句进行分类，将所述多个查询语句分类到至少一个类别中；其中，所述每个类别中包括至少两个所述查询语句；

对所述每个类别中包括的至少两个所述查询语句进行聚类，得到至少一个聚类集合。

可选地，所述对所述多个查询语句进行分类，将所述多个查询语句分类到至少一个类别中，包括：

针对所述多个查询语句中的每个所述查询语句，对所述查询语句进行分词，得到至少一个词语；

通过分类模型对所述至少一个词语对应的至少一个词向量进行处理，确定所述查询语句对应的类别标签；其中，所述分类模型经过已知类别标签的训练语句集合训练，所述语句训练集合对应所述查询语句的业务场景。

可选地，所述分别对所述聚类集合中的每个所述查询语句进行标准问句匹配，为所述每个聚类集合确定设定数量的匹配标准问句，包括：

针对所述聚类集合中的每个所述查询语句，将所述查询语句与预存的多个标准问句中的每个标准问句通过输入网络模型进行评分，得到所述查询语句与所述多个标准问句中每个标准问句相匹配的得分；

基于所述得分确定与所述查询语句相匹配的设定数量的标准问句；

基于与所述聚类集合中包括的每个所述查询语句相匹配的标准问句，确定所述聚类集合对应的设定数量的匹配标准问句。

可选地，所述基于所述得分确定与所述查询语句相匹配的设定数量的标准问句，包括：

按照所述得分的大小对所述多个标准问句对应的多个得分进行排序；

按照所述排序，确定得分最高的设定数量的所述标准问句作为所述查询语句的标准问句。

可选地，所述基于与所述聚类集合中包括的每个所述查询语句相匹配的标准问句，确定所述聚类集合对应的设定数量的匹配标准问句，包括：

基于与所述聚类集合中包括的每个所述查询语句相匹配的标准问句，得到所述聚类集合对应的多个标准问句；

基于所述多个标准问句中每个所述标准问句对应的得分，确定设定数量的所述标准问句作为所述聚类集合对应的匹配标准问句。

可选地，所述将所述查询语句与预存的多个标准问句中的每个标准问句通过输入网络模型进行评分，得到所述查询语句与所述多个标准问句中每个标准问句相匹配的得分，包括：

分别对所述查询语句与所述每个标准问句进行分词，确定所述查询语句对应的多个词向量和所述标准问句对应的多个词向量；

通过双向长短期记忆网络对所述查询语句对应的多个词向量进行处理，得到句子特征；通过双向长短期记忆网络对所述标准问句对应的多个词向量进行处理，得到标准问特征；

连接所述句子特征和所述标准问特征，得到连接特征；

基于所述连接特征确定一个一维矩阵，通过所述一维矩阵确定所述查询语句与所述标准问句相匹配的得分和所述标准问句在所述多个标准问句中的位置；其中，所述一维矩阵表示所述查询语句与所述多个标准问句之间的匹配关系。

可选地，还包括：

基于所述匹配标准问句确定所述聚类集合中包括查询语句对应的答案内容，并将所述查询语句与所述答案内容存入知识库。

可选地，所述基于所述匹配标准问句确定所述聚类集合中包括查询语句对应的答案内容，包括：

基于所述设定数量的匹配标准问句，确定设定数量的与所述标准问句对应的答案内容；

将所述设定数量的答案内容作为所述聚类集合对应的答案内容。

根据本公开实施例的另一方面，提供了一种查询语句管理装置，包括：

语句获取模块，用于获取日志中符合预设条件的多个查询语句；

语句处理模块，用于对所述多个查询语句进行分类处理，并基于分类处理的结果进行聚合处理，得到至少一个聚类集合；其中，每个所述聚类集合中包括至少一个查询语句；

标准匹配模块，用于分别对所述聚类集合中的每个所述查询语句进行标准问句匹配，为所述每个聚类集合确定设定数量的匹配标准问句。

所述语句获取模块，具体用于基于所述预设条件对从日志中获取的查询语句进行筛选，获得符合所述预设条件的多个查询语句。

可选地，所述语句处理模块，包括：

分类单元，用于对所述多个查询语句进行分类，将所述多个查询语句分类到至少一个类别中；其中，所述每个类别中包括至少两个所述查询语句；

聚类单元，用于对所述每个类别中包括的至少两个所述查询语句进行聚类，得到至少一个聚类集合。

可选地，所述分类单元，具体用于针对所述多个查询语句中的每个所述查询语句，对所述查询语句进行分词，得到至少一个词语；通过分类模型对所述至少一个词语对应的至少一个词向量进行处理，确定所述查询语句对应的类别标签；其中，所述分类模型经过已知类别标签的训练语句集合训练，所述语句训练集合对应所述查询语句的业务场景。

可选地，所述标准匹配模块，包括：

评分单元，用于针对所述聚类集合中的每个所述查询语句，将所述查询语句与预存的多个标准问句中的每个标准问句通过输入网络模型进行评分，得到所述查询语句与所述多个标准问句中每个标准问句相匹配的得分；

语句匹配单元，用于基于所述得分确定与所述查询语句相匹配的设定数量的标准问句；

集合匹配单元，用于基于与所述聚类集合中包括的每个所述查询语句相匹配的标准问句，确定所述聚类集合对应的设定数量的匹配标准问句。

可选地，所述语句匹配单元，具体用于按照所述得分的大小对所述多个标准问句对应的多个得分进行排序；按照所述排序，确定得分最高的设定数量的所述标准问句作为所述查询语句的标准问句。

可选地，所述集合匹配单元，具体用于基于与所述聚类集合中包括的每个所述查询语句相匹配的标准问句，得到所述聚类集合对应的多个标准问句；基于所述多个标准问句中每个所述标准问句对应的得分，确定设定数量的所述标准问句作为所述聚类集合对应的匹配标准问句。

可选地，所述评分单元，具体用于分别对所述查询语句与所述每个标准问句进行分词，确定所述查询语句对应的多个词向量和所述标准问句对应的多个词向量；通过双向长短期记忆网络对所述查询语句对应的多个词向量进行处理，得到句子特征；通过双向长短期记忆网络对所述标准问句对应的多个词向量进行处理，得到标准问特征；连接所述句子特征和所述标准问特征，得到连接特征；基于所述连接特征确定一个一维矩阵，通过所述一维矩阵确定所述查询语句与所述标准问句相匹配的得分和所述标准问句在所述多个标准问句中的位置；其中，所述一维矩阵表示所述查询语句与所述多个标准问句之间的匹配关系。

可选地，所述装置还包括：

答案匹配模块，用于基于所述匹配标准问句确定所述聚类集合中包括查询语句对应的答案内容，并将所述查询语句与所述答案内容存入知识库。

可选地，所述答案匹配模块，具体用于基于所述设定数量的匹配标准问句，确定设定数量的与所述标准问句对应的答案内容；将所述设定数量的答案内容作为所述聚类集合对应的答案内容。

根据本公开实施例的又一方面，提供了一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的查询语句管理方法。

根据本公开实施例的还一方面，提供了一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的查询语句管理方法。

基于本公开上述实施例提供的一种查询语句管理方法和装置、可读存储介质、电子设备，获取日志中符合预设条件的多个查询语句；对所述多个查询语句进行分类处理，并基于分类处理的结果进行聚合处理，得到至少一个聚类集合；其中，每个聚类集合中包括至少一个查询语句；分别对所述聚类集合中的每个所述查询语句进行标准问句匹配，为所述每个聚类集合确定设定数量的匹配标准问句；本实施例通过分类和聚合处理，确定了与聚类集合匹配的设定数量的匹配标准问句，实现对不同方式提出的实质相同的问题匹配对应的标准问句，以提高对不同查询语句的处理效率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的查询语句管理方法的流程示意图。

图2是本公开图1所示的实施例中步骤104的一个流程示意图。

图3是本公开图2所示的实施例中步骤1041的一个流程示意图。

图4是本公开一实施例提供的查询语句管理方法中训练查询语句的获取流程示意图。

图5是本公开图1所示的实施例中步骤106的一个流程示意图。

图6是本公开一可选实施例提供的label-embeding模型处理查询语句的一个流程示意图。

图7是本公开另一示例性实施例提供的查询语句管理方法的流程示意图。

图8是本公开一示例性实施例提供的查询语句管理装置的结构示意图。

图9是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，现有技术中对查询语句的管理，通常是采用kmeans算法聚类，使同一类问题尽可能聚到一起，该技术方案至少存在以下问题：每小时数据去重后数据量少，按小时聚类准确度不够，聚类不准确。

示例性方法

图1是本公开一示例性实施例提供的查询语句管理方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

步骤102，获取日志中符合预设条件的多个查询语句。

可选地，可通过日志埋点的方式获得日志中的查询语句(query)，其中，埋点是数据采集领域(尤其是用户行为数据采集领域)的术语。指的是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。

可选地，对于本实施例中的预设条件，可通过对获取的查询语句进行筛选获得符合预设条件的多个查询语句。

步骤104，对多个查询语句进行分类处理，并基于分类处理的结果进行聚合处理，得到至少一个聚类集合。

其中，每个聚类集合中包括至少一个查询语句。本实施例中为了克服现有技术中聚类不准确的缺点，增加了对查询语句的分类，通过分类提高了聚类的准确率。

步骤106，分别对聚类集合中的每个查询语句进行标准问句匹配，为聚类集合确定设定数量的匹配标准问句。

本实施例中，在同一聚类集合中，通过对每个查询语句分别进行标准问句匹配，获得每个聚类集合对应的设定数量的匹配标准问句，相对于对每个查询语句分别进行匹配，提高了处理效率同时，使匹配标准问句与聚类集合更匹配。

本公开上述实施例提供的一种查询语句管理方法，获取日志中符合预设条件的多个查询语句；对所述多个查询语句进行分类处理，并基于分类处理的结果进行聚合处理，得到至少一个聚类集合；其中，每个所述聚类集合中包括至少一个查询语句；分别对所述聚类集合中的每个所述查询语句进行标准问句匹配，为所述每个聚类集合确定设定数量的匹配标准问句；本实施例通过分类和聚合处理，确定了与聚类集合匹配的设定数量的匹配标准问句，实现对不同方式提出的实质相同的问题匹配对应的标准问句，以提高对不同查询语句的处理效率。

在一些可选的实施例中，预设条件包括但不限于以下至少一种：有答案无点击、无答案等；

本实施例中，点击是指被提问者点击，可认为是提问者认可该答案；无答案是指针对该查询语句在日志中没有对应的答案内容；有答案无点击是指针对该查询语句在日志中有答案内容，但针对这些答案内容没有被提问者点击。

步骤102包括：

基于预设条件对从日志中获取的查询语句进行筛选，获得符合预设条件的多个查询语句。

本实施例通过条件筛选，对查询语句中有答案并且有点击的，可认为该查询语句为标准问句，并且具有对应的被提问者点击过的答案内容，此时，对于这类查询语句不进行处理；本实施例主要针对没有答案或有答案无点击的查询语句进行匹配标准问，以获得对应的答案内容。

如图2所示，在上述图1所示实施例的基础上，步骤104可包括如下步骤：

步骤1041，对多个查询语句进行分类，将多个查询语句分类到至少一个类别中。

其中，每个类别中包括至少两个查询语句。

本实施例中的类别可以是查询语句对应的业务场景对应的类别，例如，通过人工总结得到多个类别标签，在分类时，通过确定查询语句对应的类别标签，确定该查询语句的类别。

步骤1042，对每个类别中包括的至少两个查询语句进行聚类，得到至少一个聚类集合。

本实施例中，对于分类结果中每一类别中包括的多个查询语句进行聚类，可选地，采用kmeans聚类；通过对每一类别中的查询语句进行聚类，使同一类查询语句中内容相似的尽可能聚到一起，以便在后期标准问句总结时统一操作。

如图3所示，在上述图2所示实施例的基础上，步骤1041可包括如下步骤：

步骤301，针对多个查询语句中的每个查询语句，对查询语句进行分词，得到至少一个词语。

本实施例通过分词将查询语句分解为多个词语，并分别对每个词语进行处理，得到对应的词向量。

步骤302，通过分类模型对至少一个词语对应的至少一个词向量进行处理，确定查询语句对应的类别标签。

其中，分类模型经过已知类别标签的训练语句集合训练，语句训练集合对应查询语句的业务场景。

可选地，本实施例采用分类模型对查询语句对应的至少一个词向量进行处理，例如，采用fasttext模型进行分类，fasttext是开源的一个词向量及文本分类工具，在模型架构上与word2vec非常相似。在利用fasttext模型进行分类之前，对需要对fasttext模型进行训练。在训练语料的处理时，先对训练query进行分词，可选地，分词基于业务场景领域的关键词分词器加上知识库中专用的词典；为避免分词错误带来的影响，训练时加入了词的2-gram特征(n-gram是一种基于统计语言模型的算法，它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成了长度是n的字节片段序列；其中，每一个字节片段称为gram)，如图4所示的训练查询语句处理过程。除此之外在训练时采用一个神经网络模型获得词向量，在应用该神经网络模型之前通过预训练以提高获得词语的词向量的准确性，其中，预训练的语料为查询语句对应的业务场景下的多个查询语句及其对应的标题和内容(例如，房产领域50万+条query，3w+条知识库的标题和内容)，事先通过大型数据进行预训练，可以得到通用性较强的底层参数(词向量)，然后直接应用到此处的分类任务中，可以增强模型效果。本实施例利用训练好的fasttext模型进行分类的过程是对输入的词向量进行处理，直接输出类别标签，例如，内容标签是人工总结整理出多(如，213)类标签(label)，预测时将分好词的query输入分类模型，获得该query的预测内容标签。例如，查询语句1：如何预约VR摄影师，经过分类确定其类别标签为：实勘；查询语句2：离职审核通过后才能打印离职单吗，经过分类确定其类别标签为：离职；查询语句3：合同到期怎么办，经过分类确定其类别标签为：合同；查询语句4：定点医院如何修改，经过分类确定其类别标签为：社保公积金。

如图5所示，在上述图1所示实施例的基础上，步骤106可包括如下步骤：

步骤1061，针对聚类集合中的每个查询语句，将查询语句与预存的多个标准问句中的每个标准问句通过输入网络模型进行评分，得到查询语句与多个标准问句中每个标准问句相匹配的得分。

步骤1062，基于得分确定与查询语句相匹配的设定数量的标准问句。

步骤1063，基于与聚类集合中包括的每个查询语句相匹配的标准问句，确定聚类集合对应的设定数量的匹配标准问句。

为避免聚类得到的聚类集合不准确，本实施例中，对于每个聚类集合中的每一个query通过网络模型(如，label-embedding模型)进行匹配设定数量的标准问句。可选地，通过label-embedding模型做一个标准问匹配，在这个模型中，以标准问句作为标签，其也是query的总结规整，含有大量有用的语义信息。克服了其他常见的分类模型如svm、lstm等会把标签转换成没有实际含义、独立于文本信息存在的one-hot编码，造成信息缺失的缺点，本实施例采用的label-embedding模型会将label转换为语义向量，将分类任务转换为向量匹配任务。

可选地，步骤1062包括：

按照得分的大小对多个标准问句对应的多个得分进行排序；

按照排序，确定得分最高的设定数量的标准问句作为查询语句的标准问句。

本实施例通过对所有标准问句对应的得分进行排序，以获得得分最高的设定数量的标准问句，通过排序提高了获取标准问句的效率，例如，按照得分从大到小的顺序进行排序，在获取匹配的标准问句时，只需按序获取排序前设定数量(如，3或4等)的标准问句即获得了匹配的标准问句。

可选地，步骤1063包括：

基于与聚类集合中包括的每个查询语句相匹配的标准问句，得到聚类集合对应的多个标准问句；

基于多个标准问句中每个标准问句对应的得分，确定设定数量的标准问句作为聚类集合对应的匹配标准问句。

本实施例通过对聚类集合中每个查询语句获取对应的相匹配的标准问句，得到聚类集合对应的多个标准问句，为了得到聚类集合对应的设定数量的匹配标准问句，可通过对多个标准问句进行筛选，得到其中得分最高的设定数量的标准问句作为匹配标准问句。

在一些可选的实施例中，步骤1061包括：

分别对查询语句与每个标准问句进行分词，确定查询语句对应的多个词向量和标准问句对应的多个词向量；

通过双向长短期记忆网络对查询语句对应的多个词向量进行处理，得到句子特征；通过双向长短期记忆网络对标准问句对应的多个词向量进行处理，得到标准问特征；

连接句子特征和标准问特征，得到连接特征；

基于连接特征确定一个一维矩阵，通过一维矩阵确定查询语句与标准问句相匹配的得分和标准问句在多个标准问句中的位置。

其中，一维矩阵表示查询语句与多个标准问句之间的匹配关系。

本实施例采用基于Bilstm的监督型label-embeding模型，该模型结构共有4层，如图6所示，第一层是look-up layer，获取每个词的embedding向量；第二层是Bilstm层，本实施两种采用双向lstm使句子表达更准确，可更准确的提取到句子特征；第三层将query和label的Bilstm表达拼接，与权重矩阵M_2m*1做(该权重矩阵的取值通过训练确定)运算变为一维，最后经过Sigmoid激励函数归一化来打分，得到一维向量表示的匹配得分以及对应的标准问句的位置。

在应用label-embeding模型进行标准问句匹配之前，通过多轮训练学习权重矩阵M_2m*1，使模型输出的得分更准确。作为监督性学习任务，其真实标签是该label的one-hot向量，此处用到了预训练的词向量，将query与label经过同一个分词器，分词之后获得各自embedding向量。得到标准问的位置。可选地，label-embedding的训练数据集的生成方式包括：用query当输入，标准问当输出训练一个fasttext分类模型，取得分最高的前几个(例如，top5)；人工筛选这前几个中哪个是query的正确的标注问；将正确的标准问和query组合成正样本对，其余几个标准问和query组成负样本对；该方法生成的训练数据集可以更好的区分可解答该query和相似但不可解答该query的标准问。

图7是本公开另一示例性实施例提供的查询语句管理方法的流程示意图。如图7所示，包括如下步骤：

步骤102，获取日志中符合预设条件的多个查询语句。

步骤104，对多个查询语句进行分类和聚合处理，得到至少一个聚类集合，聚类集合中包括至少一个查询语句。

步骤708，基于匹配标准问句确定聚类集合中包括查询语句对应的答案内容，并将查询语句与答案内容存入知识库。

本实施例中，经过分类、聚类和匹配的查询语句，构成了每个聚类集合对应设定数量的标准问句，可选地，为了建立在接收提问之后能够及时反馈答案内容的知识库，在建立聚类集合及其对应的匹配标准问句之后，基于匹配标准问句获得该聚类集合对应的答案内容，实现在接收查询语句之后，即可根据其对应的聚类集合对应的答案内容输出对应的设定数量的答案内容，本实施例提高了这些输出的答案内容被点击的可能性。

可选地，步骤708包括：

基于设定数量的匹配标准问句，确定设定数量的与标准问句对应的答案内容；

将设定数量的答案内容作为聚类集合对应的答案内容。

本实施例中，在确定查询语句对应的标准问句之后，将query推送到知识库管理后台进行管理，通过与标准问句对应的答案内容作为聚类集合对应的答案内容，其中，可预先保存标准问句及其对应的答案内容。可选地，对推送的query的类别和推荐的top3标准问进行人工判断，若query类别正确，则可进行标准问的生产，若类别不正确，则流回样本库，模型优化后将该query分到正确的类；若top3推荐的标准问，若推荐的准确则选择正确标准问，若不正确则现在已有的标准问中找正确标准问，否则可通过人工总结生成一条新的标准问，无论类别和标准问的正确与否都将结果重新送回样本库，为模型的迭代优化提供训练样本。对于query所产生标准问走到知识挂接步骤。若标准问能与已有的知识挂接，则挂接对应知识推入线上知识库；若无知识挂接则产生一条新的知识推入线上知识库。至此完成知识生产过程。本实施例可以不仅能够为模型的迭代更新积累正确的样本，而且实现了高效且准确的知识生产过程。

本公开实施例提供的任一种查询语句管理方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种查询语句管理方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种查询语句管理方法。下文不再赘述。

示例性装置

图8是本公开一示例性实施例提供的查询语句管理装置的结构示意图。如图8所示，本实施例提供的装置包括：

语句获取模块81，用于获取日志中符合预设条件的多个查询语句。

语句处理模块82，用于对多个查询语句进行分类处理，并基于分类处理的结果进行聚合处理，得到至少一个聚类集合。

其中，每个聚类集合中包括至少一个查询语句。

标准匹配模块83，用于分别对聚类集合中的每个查询语句进行标准问句匹配，为每个聚类集合确定设定数量的匹配标准问句。

本公开上述实施例提供的一种查询语句管理装置，获取日志中符合预设条件的多个查询语句；对所述多个查询语句进行分类和聚合处理，得到至少一个聚类集合，所述聚类集合中包括至少一个查询语句；分别对所述聚类集合中的每个所述查询语句进行标准问句匹配，为所述每个聚类集合确定设定数量的匹配标准问句；本实施例通过分类和聚合处理，确定了与聚类集合匹配的设定数量的匹配标准问句，实现对不同方式提出的实质相同的问题匹配对应的标准问句，以提高对不同查询语句的处理效率。

语句获取模块81，具体用于基于预设条件对从日志中获取的查询语句进行筛选，获得符合预设条件的多个查询语句。

在一些可选的实施例中，语句处理模块82，包括：

分类单元，用于对多个查询语句进行分类，将多个查询语句分类到至少一个类别中；其中，每个类别中包括至少两个所述查询语句；

聚类单元，用于对每个类别中包括的至少两个查询语句进行聚类，得到至少一个聚类集合。

可选地，分类单元，具体用于针对多个查询语句中的每个查询语句，对查询语句进行分词，得到至少一个词语；通过分类模型对至少一个词语对应的至少一个词向量进行处理，确定查询语句对应的类别标签；其中，分类模型经过已知类别标签的训练语句集合训练，语句训练集合对应查询语句的业务场景。

在一些可选的实施例中，标准匹配模块83，包括：

评分单元，用于针对聚类集合中的每个查询语句，将查询语句与预存的多个标准问句中的每个标准问句通过输入网络模型进行评分，得到查询语句与多个标准问句中每个标准问句相匹配的得分；

语句匹配单元，用于基于得分确定与查询语句相匹配的设定数量的标准问句；

集合匹配单元，用于基于与聚类集合中包括的每个查询语句相匹配的标准问句，确定聚类集合对应的设定数量的匹配标准问句。

可选地，语句匹配单元，具体用于按照得分的大小对多个标准问句对应的多个得分进行排序；按照排序，确定得分最高的设定数量的标准问句作为查询语句的标准问句。

可选地，集合匹配单元，具体用于基于与聚类集合中包括的每个查询语句相匹配的标准问句，得到聚类集合对应的多个标准问句；基于多个标准问句中每个标准问句对应的得分，确定设定数量的标准问句作为聚类集合对应的匹配标准问句。

可选地，评分单元，具体用于分别对查询语句与每个标准问句进行分词，确定查询语句对应的多个词向量和标准问句对应的多个词向量；通过双向长短期记忆网络对查询语句对应的多个词向量进行处理，得到句子特征；通过双向长短期记忆网络对标准问句对应的多个词向量进行处理，得到标准问特征；连接句子特征和标准问特征，得到连接特征；基于连接特征确定一个一维矩阵，通过一维矩阵确定查询语句与所述标准问句相匹配的得分和标准问句在多个标准问句中的位置。

在一些可选的实施例中，本实施例提供的装置还包括：

答案匹配模块，用于基于匹配标准问句确定聚类集合中包括查询语句对应的答案内容，并将查询语句与答案内容存入知识库。

可选地，答案匹配模块，具体用于基于设定数量的匹配标准问句，确定设定数量的与标准问句对应的答案内容；将设定数量的答案内容作为聚类集合对应的答案内容。

示例性电子设备

下面，参考图9来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图9图示了根据本公开实施例的电子设备的框图。

如图9所示，电子设备90包括一个或多个处理器91和存储器92。

处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备90中的其他组件以执行期望的功能。

存储器92可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器91可以运行所述程序指令，以实现上文所述的本公开的各个实施例的查询语句管理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备90还可以包括：输入装置93和输出装置94，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置93可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置93可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入设备93还可以包括例如键盘、鼠标等等。

该输出装置94可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备94可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备90中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备90还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的查询语句管理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的查询语句管理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种查询语句管理方法，其特征在于，包括：

获取日志中符合预设条件的多个查询语句；

2.根据权利要求1所述的方法，其特征在于，所述预设条件包括以下至少一种：有答案无点击、无答案；

所述获取日志中符合预设条件的多个查询语句，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述对所述多个查询语句进行分类处理，并基于分类处理的结果进行聚合处理，得到至少一个聚类集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述多个查询语句进行分类，将所述多个查询语句分类到至少一个类别中，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述分别对所述聚类集合中的每个所述查询语句进行标准问句匹配，为所述每个聚类集合确定设定数量的匹配标准问句，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述得分确定与所述查询语句相匹配的设定数量的标准问句，包括：

7.根据权利要求5或6所述的方法，其特征在于，所述将所述查询语句与预存的多个标准问句中的每个标准问句通过输入网络模型进行评分，得到所述查询语句与所述多个标准问句中每个标准问句相匹配的得分，包括：

连接所述句子特征和所述标准问特征，得到连接特征；

8.一种查询语句管理装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的查询语句管理方法。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的查询语句管理方法。