CN111708800A

CN111708800A - 查询方法、装置及电子设备

Info

Publication number: CN111708800A
Application number: CN202010459567.0A
Authority: CN
Inventors: 林英展; 陈炳金; 林大勇; 陈万顺; 黄炼楷; 王昕煜; 叶路; 黄世维; 王丽杰; 孙叔琦; 孙珂
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-25

Abstract

本申请公开了一种查询方法、装置及电子设备，涉及自然语言处理技术领域。具体实现方案为：获取查询语句；获取与查询语句匹配的词性组合模板；根据匹配的词性组合模板和查询语句，生成查询片段；根据查询片段，从结构化知识之中获取查询片段对应的候选别名；根据查询片段和查询片段对应的候选别名，生成结构化查询语句；根据结构化查询语句进行查询，以生成查询结果。由此，通过这种查询方法，预先建立多种词性组合模板，并依据词性组合模板提取查询语句中关键的查询片段，进而根据结构化知识对查询片段进行别名挖掘，从而使得挖掘的别名与结构化知识高度相关，提升了查询结果的召回率和准确性。

Description

查询方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及自然语言技术领域，提出一种查询方法、装置及电子设备。

背景技术

结构化知识问答是一种基于现有结构化知识进行提问，并从结构化知识中提取与用户问题对应的信息，生成相应答案的技术。

相关技术中，在用户提供了结构化知识(如表格)以后，对结构化知识的内容进行提问时，由于结构化知识的内容无法直接命中用户问题，从而导致无法给出正确答案。

发明内容

本申请提供了一种用于查询的方法、装置、电子设备以及存储介质。

根据本申请的一方面，提供了一种查询方法，包括：获取查询语句；获取与所述查询语句匹配的词性组合模板；根据所述匹配的词性组合模板和所述查询语句，生成查询片段；根据所述查询片段，从结构化知识之中获取所述查询片段对应的候选别名；根据所述查询片段和所述查询片段对应的候选别名，生成结构化查询语句；以及根据所述结构化查询语句进行查询，以生成查询结果。

根据本申请的另一方面，提供了一种查询装置，包括：第一获取模块，用于获取查询语句；第二获取模块，用于获取与所述查询语句匹配的词性组合模板；第一生成模块，用于根据所述匹配的词性组合模板和所述查询语句，生成查询片段；第三获取模块，用于根据所述查询片段，从结构化知识之中获取所述查询片段对应的候选别名；第二生成模块，用于根据所述查询片段和所述查询片段对应的候选别名，生成结构化查询语句；以及查询模块，用于根据所述结构化查询语句进行查询，以生成查询结果。

根据本申请的再一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的查询方法。

根据本申请的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如前所述的查询方法。

根据本申请的技术方案，解决了在结构化知识问答中，由于结构化知识的内容无法直接命中用户问题，从而导致无法给出正确答案的问题。通过获取与查询语句匹配的词性组合模板，并根据匹配的词性组合模板从查询语句提取查询片段，之后从结构化知识中获取与查询片段对应的候选别名，进而根据查询片段和查询片段对应的候选别名，从结构化知识中获取查询结果。由此，通过预先建立多种词性组合模板，并依据词性组合模板提取查询语句中关键的查询片段，进而根据结构化知识对查询片段进行别名挖掘，从而使得挖掘的别名与结构化知识高度相关，提升了查询结果的召回率和准确性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例所提供的一种查询方法的流程示意图；

图2为本申请实施例所提供的另一种查询方法的流程示意图；

图3为本申请实施例所提供的再一种查询方法的流程示意图；

图4为本申请实施例提供的一种查询装置的结构示意图；

图5为用来实现本申请实施例的查询方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例针对相关技术中，在结构化知识问答中，由于结构化知识的内容无法直接命中用户问题，从而导致无法给出正确答案的问题，提出一种查询方法。

下面参考附图对本申请提供的查询方法、装置、电子设备及存储介质进行详细描述。

图1为本申请实施例所提供的一种查询方法的流程示意图。

如图1所示，该查询方法，包括以下步骤：

步骤101，获取查询语句。

需要说明的是，本申请实施例的查询方法，可以由本申请实施例的查询装置执行。本申请实施例的查询装置可以配置在任意电子设备(如查询服务、问答服务的服务器)中，以执行本申请实施例的查询方法。

实际使用时，本申请实施例的查询方法的执行主体可以为服务器，可以应用在结构化知识问答应用场景。比如，可以应用在从服务器中已存储的结构化知识中获取答案，反馈给用户的查询场景；也可以应用在从用户实时上传的结构化知识中获取答案，反馈给用于的查询场景，等等。

其中，查询语句，是指服务器从客户端获取的用于查询的信息。比如，查询语句可以是客户端的用户输入的文本信息、语音信息等，本申请实施例对此不做限定。

在本申请实施例中，服务器可以实时获取客户端发送的查询请求，并对查询请求进行解析处理，以获取查询请求中包括的查询语句。比如，查询语句可以是“农行的股价是多少”。

需要说明的是，如果获取的查询语句为语音信息，则还可以对获取的语音信息进行转换处理，以将获取的语音信息转换为文本形式是查询语句。

步骤102，获取与查询语句匹配的词性组合模板。

其中，词性组合模板，是指对句子中各词性的排列顺序进行限定的词性组合。实际使用时，可以对大量样本语句中的词性排列顺序进行统计分析，生成多个词性组合模板。其中，样本语句可以是从各种文档、文献中搜集的任意句型的语句，也可以是从各种查询或问答应用中搜集的已获取到的查询语句；或者，还可以是服务器自身已经获取到的大量查询语句，本申请实施例对此不做限定。

举例来说，一个词性组合模板为“nt-u-n”，其中，nt代表机构名，n代表普通名词词性，u代表助词词性，则该词性组合模板限定的词性排列顺序为“机构名-助词-普通名词”。

在本申请实施例中，可以根据查询语句中包括的每个分词的词性，确定查询语句对应的词性排列顺序，进而根据查询语句对应的词性排列顺序与各个词性组合模板对应的词性排列顺序，将词性排列顺序与查询语句对应的词性排列顺序相同的词性组合模板，确定为与查询语句匹配的词性组合模板；或者，将词性排列顺序与查询语句对应的词性排列顺序的一部分相同的词性组合模板，确定为与查询语句匹配的词性组合模板。

举例来说，查询语句为“农行的股价是多少”，则可以确定查询语句对应的词性排列顺序为“nt-u-n-v-r”，其中，nt为机构名，n为普通名词，u为助词，v为动词，r为代词，从而可以确定查询语句对应的词性排列顺序的一部分与词性组合模板“nt-u-n”匹配，从而可以将词性组合模板“nt-u-n”确定为与查询语句匹配的词性组合模板。

需要说明的是，上述举例仅为示例性的，不能视为对本申请的限制。实际使用时，可以根据实际需要及具体的应用场景，选择确定匹配词性组合模板的方式，本申请实施例对此不做限定。

步骤103，根据匹配的词性组合模板和查询语句，生成查询片段。

其中，查询片段，是指根据与查询语句匹配的词性组合模板，从查询语句中截取的部分语句。

在本申请实施例中，可以利用查询语句中词性与匹配的词性组合模板中的词性相同、且词性排列顺序与匹配的词性组合模板中的分词，构成查询片段。

举例来说，查询语句为“农行的股价是多少”，则可以确定查询语句对应的词性排列顺序为“nt-u-n-v-r”，与查询语句匹配的词性组合模板为“nt-u-n”。其中，“农行的股价”对应的词性排列顺序为“nt-u-n”，与词性组合模板“nt-u-n”的词性及排列顺序均相同，从而可以将“农行的股价”确定为查询片段。

步骤104，根据查询片段，从结构化知识之中获取查询片段对应的候选别名。

其中，结构化知识，可以是知识库、知识图谱、表格等结构化数据。实际使用时，结构化知识可以是服务器中已存储的知识，也可以是服务器在获取客户端发送的查询语句之前，从客户端获取的用户发送的结构化知识，本申请实施例对此不做限定。

举例来说，服务器可以根据客户端选择的查询模式，确定结构化知识获取途径。比如，在客户端选择的查询模式为第一模式时，结构化知识可以是服务器已存储的结构化知识与服务器在获取到查询语句之前从客户端实时获取的结构化知识(即用户在提问之前上传的结构化知识)；在客户端选择的查询模式为第二模式时，结构化知识可以是服务器在获取到查询语句之前从客户端实时获取的结构化知识。

需要说明的是，从查询语句中提取的查询片段可以是查询语句中包括的关键信息，因此可以通过查询片段从结构化知识从查询与查询语句对应的答案。然而，由于查询片段中包括的词条可能存在一个或多个别名(即可能包括多种表达方式，或者存在多个同义词)，因此，在结构化知识中的词条为查询片段中的词条的别名时，如果不对查询片段进行别名挖掘，容易导致无法召回查询片段对应的答案，从而导致查询结果不准确。

在本申请实施例中，可以利用查询时所依据的结构化知识对查询片段进行别名挖掘，从而无需提前对结构化知识中的词条的别名进行富集，节约了人工标注成本，而且根据结构化知识进行别名挖掘，确定的查询片段的别名与结构化知识高度相关，因此别名挖掘的准确性、针对性较高。

作为一种可能的实现方式，可以对查询片段进行分词处理，以确定查询片段中包括的各分词，对于查询片段中的一个分词，可以根据该分词的词性，判断结构化知识中与该分词的词性相同的各词条是否为该分词的别名；比如，若查询片段中一个分词的词性为名词，则判断结构化知识中的每个名词是否为该分词的别名。若确定结构化知识中的一个词条为该分词的别名，则可以将该词条确定为查询片段对应的候选别名。按照相同的方式，可以确定出查询片段中的每个分词对应的别名，从而确定出查询片段对应的所有候选别名。

可选的，在本申请实施例一种可能的实现方式中，可以根据查询片段中的分词与结构化知识中的词条的语义相似度，确定查询片段中每个分词对应的别名。

举例来说，查询片段为“农行的股价”，结构化知识为用户上传的各大银行的信息表格。将查询片段进行分词处理，确定查询片段包括的各分词为：“农行”、“的”、“股价”，由于分词“农行”的词性为机构名，从而可以将“农行”与表格中的各机构名进行比较，从而确定出结构化知识中的“中国农业银行”为分词“农行”的别名，即可以将“中国农业银行”确定为查询片段对应的一个候选别名。

需要说明的是，上述举例仅为示例性的，不能视为对本申请的限制。实际使用时，可以根据实际需要及具体的应用场景，选择根据结构化知识对查询片段继续别名挖掘的具体方式，本申请实施例对此不做限定。

步骤105，根据查询片段和查询片段对应的候选别名，生成结构化查询语句。

在本申请实施例中，确定出查询片段对应的候选别名之后，则可以利用查询片段中各分词对应的候选别名替换查询片段中的相应分词，以生成结构化查询语句。

举例来说，查询片段为“农行的股价”，查询片段对应的候选别名为“中国农业银行”，分词“的”和“股价”均不存在对应的别名，从而可以确定结构化查询语句为“中国农业银行的股价”。

步骤106，根据结构化查询语句进行查询，以生成查询结果。

在本申请实施例中，确定出结构化查询语句之后，即可以根据结构化查询语句从结构化知识中，查询与结构化查询语句对应的答案，以生成查询结果，并将查询结果返回至客户端。

举例来说，用户上传的各大银行的信息表格，结构化知识为结构化查询语句为“中国农业银行的股价”，则可以首先从表格中获取中国农业银行对应的信息，进而从中国农业银行对应的信息中抽取“股价”字段对应的数值，进而中国农业银行对应的信息中“股价”字段对应的数值，作为查询结果，返回至客户端。

根据本申请实施例的技术方案，通过获取与查询语句匹配的词性组合模板，并根据匹配的词性组合模板从查询语句提取查询片段，之后从结构化知识中获取与查询片段对应的候选别名，进而根据查询片段和查询片段对应的候选别名，从结构化知识中获取查询结果。由此，通过预先建立多种词性组合模板，并依据词性组合模板提取查询语句中关键的查询片段，进而根据结构化知识对查询片段进行别名挖掘，从而使得挖掘的别名与结构化知识高度相关，提升了查询结果的召回率和准确性。

在本申请一种可能的实现形式中，可以根据查询语句中每个分词的词性及查询语句中每个分词的命名实体特征，确定与查询语句匹配的词性组合模板，以提升匹配的准确性。

下面结合图2，对本申请实施例提供的查询方法进行进一步说明。

图2为本申请实施例所提供的另一种查询方法的流程示意图。

如图2所示，该查询方法，包括以下步骤：

步骤201，获取查询语句。

上述步骤201的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤202，对查询语句进行切词，以形成多个分词。

在本申请实施例中，可以采用任意的切词工具对查询语句进行切词处理，以确定查询语句中包括的各分词。比如，可以使用Jieba分词工具、清华分词工具等，本申请实施例对此不做限定。

举例来说，查询语句为“农行的股价是多少”，则对查询语句进行分词处理，确定查询语句中包括的多个分词为：“农行”、“的”、“股价”、“是”、“多少”。

步骤203，分别获取多个分词的词性。

在本申请实施例中，确定出查询语句中包括的各分词之后，可以利用词性标注工具确定各分词的词性，并对各分词进行词性标注。实际使用时，可以根据实际需要及具体的应用场景，选择合适的词性标注工具，对查询语句中包括的各分词的词性进行标注，本申请实施例对此不做限定。

举例来说，查询语句为“农行的股价是多少”，则对查询语句进行分词处理，确定查询语句中包括的多个分词为：“农行”、“的”、“股价”、“是”、“多少”，对每个分词进行词性标注的结果为“农行/nt的/u股价/n是/v多少/r”。又如，查询语句为“年纪大于18岁的法国球员有哪些”，则对查询语句进行分词处理，确定查询语句中包括的各分词为：“年纪”、“大于”、“18岁”、“的”、“法国”、“球员”、“有”、“哪些”，对每个分词进行词性标注的结果为“年纪/n大于/v 18岁/m的/u法国/ns球员/n有/v哪些/r”，其中，m为数量词。

进一步的，是否为命名实体通常是分词的一个重要特征，引入分词的命名实体特征可以更加准确的表示查询语句的句法结构。即在本申请实施例一种可能的实现形式中，上述步骤203之后，还可以包括：

获取查询语句之中的名词。

判断查询语句之中的名词是否包括命名实体。

如果包括命名实体，则进一步获取命名实体在查询语句之中的位置。

作为一种可能的实现方式，由于命名实体通常为名词，从而可以在确定出查询语句中各分词的词性之后，获取查询语句中词性为名词的各分词，即获取查询语句中的各名词，进而判断各名词是否为命名实体。若查询语句存在为命名实体的名词，则可以确定查询语句中包括命名实体，从而可以对命名实体在查询语句中的位置进行标记。其中，命名实体在查询语句中的位置可以为命名实体对应的分词在查询语句中的次序。

举例来说，查询语句为“农行的股价是多少”，对查询语句中的每个分词进行词性标注的结果为“农行/nt的/u股价/n是/v多少/r”，查询语句中包括的名词有“农行”和“股价”，对“农行”和“股价”进行命名实体识别，确定“农行”为命名实体，从而可以确定命名实体在查询语句中的位置为“1”，即命名实体为查询语句中的第1个分词。

又如，查询语句为“年纪大于18岁的法国球员有哪些”，对查询语句中的每个分词进行词性标注的结果为“年纪/n大于/v 18岁/m的/u法国/ns球员/n有/v哪些/r”，查询语句中包括的名词有“年纪”、“法国”和“球员”，对“年纪”、“法国”和“球员”进行命名实体识别，确定“法国”为命名实体，从而可以确定命名实体在查询语句中的位置为“5”，即命名实体为查询语句中的第5个分词。

作为另一种可能的实现方式，还可以使用可以同时完成切词、词性标注、命名实体标注三种任务的词性标注工具，对查询语句进行处理，从而可以直接识别出查询语句中包括的各分词的词性及查询语句中包括的命名实体。

步骤204，根据多个分词的词性，生成查询语句的词性组合特征。

其中，查询语句的词性组合特征，可以是指查询语句中各分词的词性组合。

在本申请实施例中，可以在确定出查询语句中每个分词的词性之后，根据每个分词在查询语句中的排列顺序，对每个分词的词性进行组合，生成查询语句的词性组合特征。

举例来说，查询语句为“农行的股价是多少”，对查询语句中的每个分词进行词性标注的结果为“农行/nt的/u股价/n是/v多少/r”，从而可以确定查询语句的词性组合特征为“nt-u-n-v-r”。又如，查询语句为“年纪大于18岁的法国球员有哪些”，对查询语句中的每个分词进行词性标注的结果为“年纪/n大于/v 18岁/m的/u法国/ns球员/n有/v哪些/r”，从而可以确定查询语句的词性组合特征为“n-v-m-u-ns-n-v-r”。

进一步的，若查询语句中包括命名实体，还可以采用命名实体名称代替相应的词性，生成查询语句的词性组合特征。即在本申请实施例一种可能的实现形式中，上述步骤204，可以包括：

根据多个分词的词性和命名实体的位置，生成查询语句的词性组合特征。

作为一种可能的实现方式，在查询语句中包括命名实体时，可以根据命名实体的位置，确定命名实体对应的分词，进而利用命名实体的名称替换该命名实体对应的分词的词性，生成查询语句的词性组合特征。

举例来说，查询语句为“农行的股价是多少”，对查询语句中的每个分词进行词性标注的结果为“农行/nt的/u股价/n是/v多少/r”，且查询语句中包括的命名实体位置为“1”，即查询语句中的第1个分词“农行”为命名实体，命名实体名称为“ORG”(机构名)，从而可以确定查询语句的词性组合特征为“ORG-u-n-v-r”。

又如，查询语句为“年纪大于18岁的法国球员有哪些”，对查询语句中的每个分词进行词性标注的结果为“年纪/n大于/v 18岁/m的/u法国/ns球员/n有/v哪些/r”，且查询语句中包括的命名实体位置为“5”，即查询语句中的第5个分词“法国”为命名实体，命名实体名称为“LOC”(地名)，从而可以确定查询语句的词性组合特征为“n-v-m-u-LOC-n-v-r”。

步骤205，根据查询语句的词性组合特征查询词性组合模板库，以获取与查询语句匹配的词性组合模板。

其中，词性组合模板库，是指包括大量词性组合模板的数据库。其中，词性组合模板的生成方式，可以参照上述实施例的详细描述，此处不再赘述。

在本申请实施例中，确定出查询语句的词性组合特征之后，可以将查询语句的词性组合特征与词性组合模板库中的每个词性组合模板进行比较，以获取与查询语句匹配的词性组合模板。可选的，可以将词性排列顺序与查询语句的词性组合特征相同的词性组合模板，确定为与查询语句匹配的词性组合模板；或者，将词性排列顺序与查询语句的词性组合特征的一部分相同的词性组合模板，确定为与查询语句匹配的词性组合模板。

举例来说，查询语句为“农行的股价是多少”，则可以确定查询语句的词性组合特征为“ORG-u-n-v-r”，从而可以确定查询语句的词性组合特征的一部分与词性组合模板“ORG-u-n”匹配，从而可以将词性组合模板“ORG-u-n”确定为与查询语句匹配的词性组合模板。

步骤206，根据匹配的词性组合模板和查询语句，生成查询片段。

步骤207，根据查询片段，从结构化知识之中获取查询片段对应的候选别名。

步骤208，根据查询片段和查询片段对应的候选别名，生成结构化查询语句。

上述步骤206-208的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤209，获取结构化查询语句之中包括的目标字段。

其中，目标字段，可以是指结构化查询语句中的关键信息。比如，可以是结构化查询语句中的名词、命名实体等，也可以是结构化知识中包括的字段。

在本申请实施例中，生成结构化查询语句之后，由于结构化知识(比如表格)通常是按照字段对信息进行存储，因此，可以首先确定结构化查询语句中包括的目标字段，以从结构化知识中获取与目标字段对应的信息，作为答案返回客户端。

可选地，在本申请实施例一种可能的实现形式中，由于结构化知识中存在的字段通常是名词，从而可以将结构化查询语句进行分词处理，以确定结构化查询语句中包括的各分词，并将结构化查询语句中包括的名词、命名实体确定为结构化查询语句中包括的目标字段。

举例来说，结构化查询语句为“中国农业银行的股价”，则结构化查询语句包括的各分词为：“中国农业银行”、“的”、“股价”，其中，“中国农业银行”为命名实体，“股价”为名词，从而可以将“中国农业银行”与“股价”，确定为结构化查询语句中包括的目标字段。

可选地，在本申请实施例另一种可能的实现形式中，还可以将结构化查询语句中包括的各分词，与结构化知识中包括的各字段进行比较，若结构化查询语句中包括的分词为结构化知识中包括的字段，则可以将该分词确定为结构化查询语句中包括的目标字段。

举例来说，结构化知识为用户上传的法国球员信息表，包括年龄、体重、身高、履历等字段。查询语句为“年纪大于18岁的法国球员有哪些”，对查询语句中的每个分词进行词性标注的结果为“年纪/n大于/v 18岁/m的/u法国/LOC球员/n有/v哪些/r”，且词性组合模板库中与查询语句匹配的词性组合模板为“n-v-m”，从而可以确定查询片段为“年纪大于18岁”；由于根据结构化知识确定的“年纪”对应的候选别名为“年龄”，从而可以确定结构化查询语句为“年龄大于18岁”。由于“年龄”为结构化知识中包括的字段，从而可以将“年龄”确定为结构化查询语句中包括的目标字段。

需要说明的是，确定结构化查询语句中的目标字段的方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要及具体的应用场景，选择确定目标字段的方式，本申请实施例对此不做限定。

步骤210，根据目标字段，从结构化知识之中提取与目标字段对应的信息，以生成查询结果。

在本申请实施例中，确定出结构化查询语句中包括的目标字段之后，可以从结构化知识中提取与目标字段对应的信息，并根据结构化语句的句法规则对提取的信息进行筛选或总结，以生成查询结果，并反馈至客户端。

举例来说，结构化知识为用户上传的银行信息表格，结构化查询语句为“中国农业银行的股价”，目标字段为“中国农业银行”与“股价”，从而可以从表格中提取“中国农业银行”对应的各项信息，并提取“股价”字段对应的数值，进而根据结构化语句的句法规则对提取的信息进行筛选，将“中国农业银行”信息中“股价”字段对应的数值，作为查询结果，反馈至客户端。

根据本申请实施例的技术方案，通过根据查询语句包括的各分词的词性特征和命名实体特征，从词性组合模板库中获取与查询语句匹配的词性组合模板，并根据匹配的词性组合模板从查询语句提取查询片段，之后根据结构化知识对查询片段进行别名挖掘，以生成结构化查询语句，进而结构化查询语句中包括的目标字段，从结构化知识中获取查询结果。由此，通过预先建立词性组合模板库，并依据查询语句的词性特征、命名实体特征及词性组合模板库，提取查询语句中关键的查询片段，从而使得提取的查询片段能够更加准确的描述查询语句的关键信息，进一步提升了查询结果的召回率和准确性。

在本申请一种可能的实现形式中，还可以根据查询片段中各分词与结构化知识中各词条的相似度，对查询片段进行别名挖掘，以提升别名挖掘的准确性。

下面结合图3，对本申请实施例提供的查询方法进行进一步说明。

图3为本申请实施例所提供的再一种查询方法的流程示意图。

如图3所示，该查询方法，包括以下步骤：

步骤301，获取查询语句。

步骤302，获取与查询语句匹配的词性组合模板。

步骤303，根据匹配的词性组合模板和查询语句，生成查询片段。

上述步骤301-303的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤304，获取查询片段之中的分词。

在本申请实施例中，可以采用任意的切词工具对查询片段进行切词处理，以确定查询片段中包括的各分词。比如，可以使用Jieba分词工具、清华分词工具等，本申请实施例对此不做限定。

举例来说，查询片段为“农行的股价”，则对查询片段进行分词处理，确定查询片段中包括的多个分词为：“农行”、“的”、“股价”。

步骤305，分别计算分词与结构化知识之中的候选词之间的相似度。

其中，候选词，可以是指结构化知识中与分词的词性相同的词条。比如，分词“农行”为命名实体，且命名实体名称为“ORG”，从而可以将结构化知识中所有“ORG”类型的命名实体，确定为分词“农行”对应的候选词。

其中，相似度，可以是文本相似度、语义相似度等，本申请实施例对此不做限定。

作为一种可能的实现形式，对于查询片段中的一个分词，可以首先根据该分词的词性或命名实体特征，将结构化知识中与该分词的词性相同，或者命名实体特征相同的词条，确定为该分词对应的候选词。之后，可以对该分词以及该分词对应的候选词进行词向量映射，以确定该分词以及该分词分别对应的词向量，进而计算该分词对应的词向量与每个候选词对应的词向量之间的距离(如欧式距离)，确定该分词与每个候选词对应的相似度。由于分词对应的词向量与候选词对应的词向量之间的距离，与分词与候选词之间的相似度呈负相关，从而可以将分词对应的词向量与候选词对应的词向量之间的距离的倒数，确定为分词与该候选词的相似度，本申请实施例对此不做限定。

步骤306，根据相似度，从候选词之中选择分词对应的候选别名。

可选地，在本申请实施例一种可能的实现方式中，可以将分词的相似度大于或等于相似度阈值的候选词，确定为分词对应的候选别名。具体的，由于查询片段中的一个分词可能对应多个候选词，且候选词与分词的相似度越大，说明候选词为分词的别名的可能性越大。因此，可以预设相似度阈值，并将与分词的相似度大于或等于预设阈值的候选词，确定为分词对应的候选别名。

举例来说，预设的相似度阈值为0.6，查询片段为“农行的股价”，则对查询片段进行分词处理，确定查询片段中包括的多个分词为：“农行”、“的”、“股价”，分词“农行”对应的候选词为“中国农业银行”与“中国建设银行”，且“农行”与“中国农业银行”的相似度为0.74，与“中国建设银行”的相似度为0.036，从而可以将“中国农业银行”确定为“农行”对应的候选别名。

需要说明的是，上述举例仅为示例性的，不能视为对本申请的限制。实际使用时，可以根据实际需要及具体的应用场景，确定相似度阈值的具体取值，本申请实施例对此不做限定。

可选地，在本申请实施例另一种可能的实现形式中，还可以将与分词的相似度最大的候选词，确定分词对应的候选别名。

举例来说，查询片段为“年纪大于18岁”，则对查询片段进行分词处理，确定查询片段中包括的多个分词为：“年纪”、“大于”、“18岁”，分词“年纪”对应的候选词为“年龄”、“身高”、“体重”，且“年纪”与“年龄”的相似度为0.6，与“身高”的相似度为0.1，与“体重”的相似度为-0.07，由于“年龄”与“年纪”的相似度最大，从而可以将“年龄”确定为“年纪”对应的候选别名。

可选地，在本申请实施例再一种可能的实现形式中，将与分词的相似度最大的候选词确定为分词对应的候选别名时，在所有候选词与分词的相似度都较小的情况下，容易导致别名挖掘错误，从而使得别名挖掘的准确度较低。因此，还可以将与分词的相似度最大，且大于或等于相似度阈值的候选词，确定为分词对应的候选别名。

举例来说，预设的相似度阈值为0.6，查询片段为“年纪大于18岁”，则对查询片段进行分词处理，确定查询片段中包括的多个分词为：“年纪”、“大于”、“18岁”，分词“年纪”对应的候选词为“身高”、“体重”，且“年纪”与“身高”的相似度为0.1，与“体重”的相似度为-0.07，由于“身高”与“年纪”的相似度最大，但是小于相似度阈值，从而可以确定结构化知识中不存在分词“年纪”对应的候选别名。

需要说明的是，确定分词对应的候选别名的方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要及具体的应用场景，选择合适的方式，本申请实施例对此不做限定。

步骤307，根据查询片段和查询片段对应的候选别名，生成结构化查询语句。

步骤308，根据结构化查询语句进行查询，以生成查询结果。

上述步骤307-308的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

根据本申请实施例的技术方案，通过获取与查询语句匹配的词性组合模板，并根据匹配的词性组合模板从查询语句提取查询片段，之后将结构化知识获取与查询片段中各分词的相似度较高的候选词，确定为查询片段对应的候选别名，以对查询片段进行别名挖掘，进而根据查询片段和查询片段对应的候选别名，从结构化知识中获取查询结果。由此，通过根据查询片段中各分词与结构化知识中各候选词的相似度，对查询片段进行别名挖掘，从而提升了别名挖掘的准确度，以及与结构化知识的相关性，进一步提升了查询结果的召回率和准确性。

为了实现上述实施例，本申请还提出一种查询装置。

图4为本申请实施例提供的一种查询装置的结构示意图。

如图4所示，该查询装置40，包括：

第一获取模块41，用于获取查询语句；

第二获取模块42，用于获取与查询语句匹配的词性组合模板；

第一生成模块43，用于根据匹配的词性组合模板和查询语句，生成查询片段；

第三获取模块44，用于根据查询片段，从结构化知识之中获取查询片段对应的候选别名；

第二生成模块45，用于根据查询片段和查询片段对应的候选别名，生成结构化查询语句；以及

查询模块46，用于根据结构化查询语句进行查询，以生成查询结果。

在实际使用时，本申请实施例提供的查询装置，可以被配置在任意电子设备中，以执行前述查询方法。

在本申请一种可能的实现形式中，上述第二获取模块42，包括：

切词单元，用于对查询语句进行切词，以形成多个分词；

第一获取单元，用于分别获取多个分词的词性；

第一生成单元，用于根据多个分词的词性，生成查询语句的词性组合特征；以及

第二获取单元，用于根据查询语句的词性组合特征查询词性组合模板库，以获取与查询语句匹配的词性组合模板。

进一步的，在本申请另一种可能的实现形式中，上述第二获取模块42，还包括：

第三获取单元，用于获取查询语句之中的名词；

判断单元，用于判断查询语句之中的名词是否包括命名实体；

第四获取单元，用于在查询语句之中包括命名实体时，进一步获取命名实体在查询语句之中的位置；

相应的，上述第一生成单元，包括：

生成子单元，用于根据多个分词的词性和命名实体的位置，生成查询语句的词性组合特征。

进一步的，在本申请再一种可能的实现形式中，上述第三获取模块44，包括：

第五获取单元，用于获取查询片段之中的分词；

计算单元，用于分别计算分词与结构化知识之中的候选词之间的相似度；以及

选择单元，用于根据相似度，从候选词之中选择分词对应的候选别名。

进一步的，在本申请又一种可能的实现形式中，上述选择单元，包括：

确定子单元，用于将与分词的相似度大于或等于相似度阈值的候选词，确定为分词对应的候选别名。

进一步的，在本申请又一种可能的实现形式中，上述查询模块46，包括：

第六获取单元，用于获取结构化查询语句之中包括的目标字段；

第二生成单元，用于根据目标字段，从结构化知识之中提取与目标字段对应的信息，以生成查询结果。

需要说明的是，前述对图1、图2、图3所示的查询方法实施例的解释说明也适用于该实施例的查询装置40，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的查询方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个电子设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的查询方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的查询方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的查询方法对应的程序指令/模块(例如，附图4所示的第一获取模块41、第二获取模块42、第一生成模块43、第三获取模块44、第二生成模块45及查询模块46)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的查询方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据查询方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至查询方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

查询方法及人脸融合方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与查询方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种查询方法，包括：

获取查询语句；

获取与所述查询语句匹配的词性组合模板；

根据所述匹配的词性组合模板和所述查询语句，生成查询片段；

根据所述查询片段，从结构化知识之中获取所述查询片段对应的候选别名；

根据所述查询片段和所述查询片段对应的候选别名，生成结构化查询语句；以及

根据所述结构化查询语句进行查询，以生成查询结果。

2.如权利要求1所述的查询方法，其中，所述获取与所述查询语句匹配的词性组合模板，包括：

对所述查询语句进行切词，以形成多个分词；

分别获取所述多个分词的词性；

根据所述多个分词的词性，生成所述查询语句的词性组合特征；以及

根据所述查询语句的词性组合特征查询词性组合模板库，以获取与所述查询语句匹配的词性组合模板。

3.如权利要求2所述的查询方法，其中，在所述分别获取所述多个分词的词性之后，还包括：

获取所述查询语句之中的名词；

判断所述查询语句之中的名词是否包括命名实体；

如果包括所述命名实体，则进一步获取所述命名实体在所述查询语句之中的位置；

所述根据所述多个分词的词性，生成所述查询语句的词性组合特征，包括：

根据所述多个分词的词性和所述命名实体的位置，生成所述查询语句的词性组合特征。

4.如权利要求1所述的查询方法，其中，所述根据所述查询片段，从结构化知识之中获取所述查询片段对应的候选别名，包括：

获取所述查询片段之中的分词；

分别计算所述分词与所述结构化知识之中的候选词之间的相似度；以及

根据所述相似度，从所述候选词之中选择所述分词对应的候选别名。

5.如权利要求4所述的查询方法，其中，所述根据所述相似度，从所述候选词之中选择所述分词对应的候选别名，包括：

将与所述分词的相似度大于或等于相似度阈值的所述候选词，确定为所述分词对应的候选别名。

6.如权利要求1-5任一所述的查询方法，其中，所述根据所述结构化查询语句进行查询，以生成查询结果，包括：

获取所述结构化查询语句之中包括的目标字段；

根据所述目标字段，从所述结构化知识之中提取与所述目标字段对应的信息，以生成查询结果。

7.一种查询装置，包括：

第一获取模块，用于获取查询语句；

第二获取模块，用于获取与所述查询语句匹配的词性组合模板；

第一生成模块，用于根据所述匹配的词性组合模板和所述查询语句，生成查询片段；

第三获取模块，用于根据所述查询片段，从结构化知识之中获取所述查询片段对应的候选别名；

第二生成模块，用于根据所述查询片段和所述查询片段对应的候选别名，生成结构化查询语句；以及

查询模块，用于根据所述结构化查询语句进行查询，以生成查询结果。

8.如权利要求7所述的查询装置，其中，所述第二获取模块，包括：

切词单元，用于对所述查询语句进行切词，以形成多个分词；

第一获取单元，用于分别获取所述多个分词的词性；

第一生成单元，用于根据所述多个分词的词性，生成所述查询语句的词性组合特征；以及

第二获取单元，用于根据所述查询语句的词性组合特征查询词性组合模板库，以获取与所述查询语句匹配的词性组合模板。

9.如权利要求8所述的查询装置，其中，所述第二获取模块，还包括：

第三获取单元，用于获取所述查询语句之中的名词；

判断单元，用于判断所述查询语句之中的名词是否包括命名实体；

第四获取单元，用于在所述查询语句之中包括所述命名实体时，进一步获取所述命名实体在所述查询语句之中的位置；

所述第一生成单元，包括：

生成子单元，用于根据所述多个分词的词性和所述命名实体的位置，生成所述查询语句的词性组合特征。

10.如权利要求7所述的查询装置，其中，所述第三获取模块，包括：

第五获取单元，用于获取所述查询片段之中的分词；

计算单元，用于分别计算所述分词与所述结构化知识之中的候选词之间的相似度；以及

选择单元，用于根据所述相似度，从所述候选词之中选择所述分词对应的候选别名。

11.如权利要求10所述的查询装置，其中，所述选择单元，包括：

确定子单元，用于将与所述分词的相似度大于或等于相似度阈值的所述候选词，确定为所述分词对应的候选别名。

12.如权利要求7-11任一所述的查询装置，其中，所述查询模块，包括：

第六获取单元，用于获取所述结构化查询语句之中包括的目标字段；

第二生成单元，用于根据所述目标字段，从所述结构化知识之中提取与所述目标字段对应的信息，以生成查询结果。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。