CN114610744A

CN114610744A - 一种数据查询方法、装置及计算机可读存储介质

Info

Publication number: CN114610744A
Application number: CN202210186039.1A
Authority: CN
Inventors: 肖志; 李秉坤; 王杰; 陈昌根
Original assignee: Sany Group Co Ltd
Current assignee: Sany Group Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-10

Abstract

本发明公开了一种数据查询方法、装置及计算机可读存储介质，所述方法包括：获取自然语言查询语句，从所述自然语言查询语句中提取关键信息片段；基于所述关键信息片段在预置的表关键信息库中查询，得到匹配的候选表关键信息，根据所述候选表关键信息确定候选表集合及所述候选表集合中各候选表对应的特征表征参数；将所述自然语言查询语句和所述候选表对应的特征表征参数输入预置的表匹配模型，得到每个所述候选表和所述自然语言查询语句的匹配得分；根据所述匹配得分返回查询结果。本发明可实现根据自然语言查询语句查询表结构数据，降低检索门槛，便于普通人员检索。

Description

一种数据查询方法、装置及计算机可读存储介质

技术领域

本发明涉及自然语言处理和深度神经网络技术领域，具体涉及一种数据查询方法、装置及计算机可读存储介质。

背景技术

随着数据库技术的发展，数据库中存储的数据量呈爆发式增长，表结构作为最常见的业务数据存储形式，在数据库中占据很大的数据比重，如何在海量的表结构数据中精准检索到所需数据成为研究热点之一。

在目前的表结构数据检索实践中，通常需要用户写SQL语句以实现数据查找，而SQL语言需要一定编程基础，具有较高的检索门槛，给检索活动带来不便。

发明内容

本发明解决的问题是现有的表结构数据检索需要用户写SQL语句才能实现数据查找，具有较高的检索门槛。

本发明提出一种数据查询方法，包括：

获取自然语言查询语句，从所述自然语言查询语句中提取关键信息片段；

基于所述关键信息片段在预置的表关键信息库中查询，得到匹配的候选表关键信息，根据所述候选表关键信息确定候选表集合及所述候选表集合中各候选表对应的特征表征参数；

将所述自然语言查询语句和所述候选表对应的特征表征参数输入预置的表匹配模型，得到每个所述候选表和所述自然语言查询语句的匹配得分；

根据所述匹配得分返回查询结果。

可选地，所述关键信息片段包括表名片段、表头名片段和/或数据片段；所述表关键信息库包括存储表名、表头名以及表中的数据的索引库。

可选地，当基于所述关键信息片段查询到所述候选表不存在对应数据时，所述候选表对应的特征表征参数包括所述候选表的表名；当基于所述关键信息片段查询到所述候选表存在对应数据时，所述候选表对应的特征表征参数包括所述候选表的表名和基于所述关键信息片段查询到的所述候选表中的对应数据。

可选地，所述将所述自然语言查询语句和所述候选表对应的特征表征参数输入预置的表匹配模型，得到每个所述候选表和所述自然语言查询语句的匹配得分包括：

将所述自然语言查询语句进行编码，得到查询向量；

将所述候选表的特征表征参数进行编码得到表向量，其中，当基于所述关键信息片段查询到所述候选表不存在对应数据时，将所述候选表的表名，或者表名和表别名，进行编码得到所述表向量，当基于所述关键信息片段查询到所述候选表存在对应数据时，将所述候选表的表名，或者表名和表别名，进行编码得到第一向量，将基于所述关键信息片段查询到的所述候选表中的对应数据进行编码得到第二向量，基于所述第一向量和所述第二向量得到所述表向量；

将所述查询向量和所述表向量进行匹配，得到所述候选表和所述自然语言查询语句的匹配得分。

可选地，所述基于所述第一向量和所述第二向量得到所述表向量包括：

采用注意力机制，生成所述第一向量和所述第二向量各自的重要性得分；

根据所述重要性得分将所述第一向量和所述第二向量进行加权计算，得到所述表向量。

可选地，所述基于所述关键信息片段在预置的表关键信息库中查询，得到匹配的候选表关键信息，根据所述候选表关键信息确定候选表集合及所述候选表集合中各候选表对应的特征表征参数包括：

分别基于所述关键信息片段和所述自然语言查询语句在所述表关键信息库中进行模糊匹配，得到与所述关键信息片段匹配的第一候选表关键信息和与所述自然语言查询语句匹配的第二候选表关键信息；

将所述第一候选表关键信息和所述第二候选表关键信息去重合并，得到第三候选表关键信息；

根据所述第三候选表关键信息确定所述候选表集合及所述候选表集合中各候选表对应的特征表征参数。

可选地，所述从所述自然语言查询语句中提取关键信息片段包括：

将所述自然语言查询语句输入预置的实体识别模型，得到识别出的所述关键信息片段，其中，所述实体识别模型用于识别所述自然语言查询语句中的实体，所述实体的类型包括表名实体类别、表头实体类别和数据实体类别。

可选地，所述根据所述匹配得分返回查询结果包括：

依照所述匹配得分将所述查询结果降序排列，并基于排列后的所述查询结果生成SQL语句返回。

本发明还提出一种数据查询装置，包括存储有计算机程序的计算机可读存储介质和处理器，所述计算机程序被所述处理器读取并运行时，实现如上所述的数据查询方法。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器读取并运行时，实现如上所述的数据查询方法。

本发明通过基于从自然语言查询语句中提取的关键信息片段，在预置的表关键信息库中查询，得到候选表集合，再将自然语言查询语句和候选表集合中的候选表输入预置的表匹配模型，得到每个候选表和自然语言查询语句的匹配得分，最后根据匹配得分返回查询结果，由此，实现根据自然语言查询语句查询表结构数据，降低检索门槛，便于普通人员检索，此外，通过获得每个候选表和自然语言查询语句的匹配得分，根据匹配得分返回查询结果，可实现将查询得到的表按照匹配得分排序输出，使用户快速获得最为匹配的查询结果，降低用户查找目标数据的时间，提升检索效率。

附图说明

图1为本发明实施例数据查询方法一流程示意图；

图2为本发明实施例数据查询方法中实体识别模型的示意图；

图3为本发明实施例数据查询方法中表匹配模型的一示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

如图1，在本发明一实施例中，所述数据查询方法包括：

步骤S100，获取自然语言查询语句，从所述自然语言查询语句中提取关键信息片段。

自然语言查询语句，即自然语言形式的查询语句，自然语言是用户最常使用的表达形式，本发明实施例采用自然语言查询语句作为原始输入，可大大降低检索门槛，满足绝大部分用户的检索需求。

用户在检索系统中输入自然语言查询语句后，检索系统获取自然语言查询语句，将输入的自然语言查询语句中描述表、描述表头和描述数据的语句部分解析出来作为关键信息片段。其中，表、表头、数据是表结构数据的三个层级，表头包含行头和列头，将自然语言查询语句按照表结构数据的三个层级进行解析，便于后续步骤中，将自然语言查询语句与数据库中的表按照表结构数据的三个层级进行匹配，可提高检索效率，降低表结构数据的检索难度。本发明实施例中的检索系统可采用ES(elastic search)搜索引擎。

可选地，所述从所述自然语言查询语句中提取关键信息片段包括：将所述自然语言查询语句输入预置的实体识别模型，得到识别出的所述关键信息片段，其中，所述实体识别模型用于识别所述自然语言查询语句中的实体，所述实体的类型包括表名实体类别、表头实体类别和数据实体类别。

其中，实体识别模型可采用如下结构模型：

IDCNN+CRF、BiLSTM+CRF或BERT+BiLSTM+CRF。其中，IDCNN指空洞卷积，CRF指条件随机场，BiLSTM指双向长短时记忆网络，BERT指预训练模型。其中，IDCNN+CRF、BiLSTM+CRF为现有技术，此处不赘述。

具体地，一实施方式中，如图2，实体识别模型包括Bert层、BiLSTM层和CRF层，其功能为序列标注，即对输入的中文以字为单位进行BIO标签分类，B为实体起始位置、I为实体中间位置，O为实体外部的字符，即无关字符。其中，Bert层负责特征提取，用于将自然语言查询语句转化为向量语义表达，BiLSTM层为双向长短时记忆网络，用于编码字符之间的双向关联关系，综合前后两个方向所有的字符向量判断该字符的标签取值[BIO]，以将输入的序列进行语义编码，CRF层为条件随机场层，用于消除BiLSTM中无法识别的[O,I]等明显非法的现象，生成序列的最优解码结果。如图2，自然语言查询语句为“铲斗安装的不合格工序有哪些？”，将其输入到实体识别模型，通过实体识别模型，可识别出其中的实体“铲斗安装”、“不合格”、“工序”。

在训练实体识别模型时，构建带实体标签的自然语言文本作为训练样本，其进行了实体标注，各个实体带有实体类型标签，实体类型标签为表名实体类别标签、表头实体类别标签和数据实体类别标签中的一者。

步骤S200，基于所述关键信息片段在预置的表关键信息库中查询，得到匹配的候选表关键信息，根据所述候选表关键信息确定候选表集合及所述候选表集合中各候选表对应的特征表征参数。

数据库中的表结构数据存在表、表头和数据这三个层级结构的信息，为实现无结构的自然语言与结构化的表结构数据之间的对应，将数据库中的表结构数据从表、表头和数据这三个层级进行梳理，具体如下：

一、梳理表名、表别名和表信息描述，构成表名实体类别基础数据，其中，表名指表的标准名称，表别名指表的口语化别称、同义名称等区别于标准名称的别名，表信息描述指对表整体信息的文字描述。

二、梳理表的通用信息维度，如部门、公司等通用重要实体，构成表头实体类别的基础数据。

三、梳理表的具体数据，将梳理出的通用信息维度中涉及到的具体数据进行分类，如人名、部门等，构成与分类类别对应的数据实体类别的基础数据和构建码表的基础数据。

将梳理好的数据结构化地存入表关键信息库以备快速查询使用。

一实施方式中，所述关键信息片段包括表名片段、表头名片段和/或数据片段。所述表关键信息库包括存储表名、表头名以及表中的数据的索引库，其中，存储表名、表头名以及表中的数据的索引库可以合并设置，也可以分开设置。可选地，所述表关键信息库包括表元数据索引库和码表索引库，所述表元数据索引库包括表名和表头名，还可包括表信息描述，所述码表索引库包含表中的数据，具体指去重后的码表数据取值，以及每个取值在哪些表和表头中出现。由此，可大大减少需要索引和缓存数据的量。

进一步地，基于关键信息片段在预置的表关键信息库中查询，具体可将关键信息片段与表关键信息库中所有表对应层级的信息进行匹配，其中，所述表名片段与所述表关键信息库中的表名对应，所述表头名片段与所述表关键信息库中的表头名对应，所述数据片段与所述表关键信息库中的表中的数据对应。

候选表关键信息，即从表关键信息库中查询匹配到的表名、表头名、表别名、表头别名、表中的数据中的一个或多个。

因为表、表头和数据三个层级的数据是从表中抽取而来，三个层级的数据均可链接到源表，所以，在确定候选表关键信息后，可以确定候选表关键信息对应的源表，将候选表关键信息对应的源表作为候选表集合。

进一步地，当基于所述关键信息片段查询到所述候选表不存在对应数据时，所述候选表对应的特征表征参数包括所述候选表的表名，还可包括候选表的表别名。当基于所述关键信息片段查询到所述候选表存在对应数据时，所述候选表对应的特征表征参数包括所述候选表的表名和基于所述关键信息片段查询到的所述候选表中的对应数据，其中，特征表征参数还可包括候选表的表别名；基于关键信息片段查询到的候选表中的对应数据，除了具体的数据取值，还可包含数据在候选表中所属的表头。

步骤S300，将所述自然语言查询语句和所述候选表对应的特征表征参数输入预置的表匹配模型，得到每个所述候选表和所述自然语言查询语句的匹配得分。

将自然语言查询语句依次与每个候选表一起输入表匹配模型，得到自然语言查询语句与每个候选表的匹配得分。

其中，将自然语言查询语句和候选表分别编码成向量后输入表匹配模型。其中，采用候选表的表关键数据表征候选表，将候选表的表关键数据编码成向量，参与表匹配模型的匹配运算。其中，表关键数据包括表名/表别名，或者包括表名/表别名和表格中码表数据，表格中码表数据指基于关键信息片段在表关键信息库中查询到的候选表中的数据，即码表索引库的检索结果，若没有查询到候选表中的数据，即某一候选表没有码表索引库的检索结果，则该候选表的表关键数据包括表名/表别名，若查询到候选表中的数据，即某一候选表有码表索引库的检索结果，则该候选表的表关键数据包括表名/表别名和表格中码表数据。

可选地，将候选表的表关键数据编码成向量时，可将表名/表别名和表格中码表数据编码成两个向量，即将表名/表别名编码成一个向量，表格中码表数据编码成另一个向量。

此处对将自然语言查询语句和候选表编码成向量的编码算法不做限定，可为BERT预训练模型算法等。

步骤S400，根据所述匹配得分返回查询结果。

一实施方式中，将匹配得分最高的前预设数量的候选表作为查询结果返回。另一实施方式中，将匹配得分大于预设分数的候选表作为查询结果返回。再一实施方式中，可将所有候选表作为查询结果返回。进一步地，可将查询结果按照匹配得分排序，匹配得分越高的候选表越靠前。

可选地，所述根据所述匹配得分返回查询结果包括：依照所述匹配得分将所述查询结果降序排列，并基于排列后的所述查询结果生成SQL语句返回。其中，可采用NL2SQL规则生成SQL语句。NL2SQL规则具体内容为现有技术，此处不赘述。由此，可将与用户查询语句匹配的候选表按照匹配得分的高低排序返回，使用户快速获得最为匹配的查询结果，降低用户查找目标数据的时间，提升检索效率。

本发明通过基于从自然语言查询语句中提取的关键信息片段，在预置的表关键信息库中查询，得到候选表集合，再将自然语言查询语句和候选表集合中的候选表输入预置的表匹配模型，得到每个候选表和自然语言查询语句的匹配得分，最后根据匹配得分返回查询结果，由此，实现根据自然语言查询语句查询表结构数据，针对结构化数据查询的场景，降低检索门槛和检索成本，便于普通人员检索，此外，通过获得每个候选表和自然语言查询语句的匹配得分，根据匹配得分返回查询结果，可实现将查询得到的表按照匹配得分排序输出，使用户快速获得最为匹配的查询结果，降低用户查找目标数据的时间，提升检索效率。

进一步地，因为数据库中的表结构数据存在表、表头和数据这三个层级结构的信息，所以，先将的自然语言查询语句中描述表，描述表头和描述数据的语句解析出来作为关键信息片段，再将关键信息片段与预先缓存到表关键信息库中的所有表的对应三个层级的描述做匹配，得出候选表，由此，将自然语言查询语句的关键信息片段与底层的表结构数据相对应，实现无结构的自然语言与结构化的表结构数据之间的对应，对于专业性强、专有名词多、语境封闭，同样的字词在行业语境和通用语境下的语义存在较大差异的检索场景，具有较佳的适用性，利于方案落地，操作性强，例如图2所能反映出的工程机械应用领域；再通过表匹配模型依据自然语言查询语句本身及候选表综合判定各个候选表与自然语言查询语句的总体相似度，即匹配得分，通过将表名和基于关键信息片段查询到的候选表中的对应数据作为候选表的特征表征参数，在匹配运算中综合考虑表名和表内与自然语言查询语句匹配的对应数据，在表内数据层面生成匹配得分，获得较为准确的匹配得分，进而得到更为准确、更符合用户需求的检索结果；再按照匹配得分较高的结果按照一定的规则拼接为SQL返回，并且按照相似度进行排序，使用户快速获得最为匹配的查询结果，降低用户查找目标数据的时间，提升检索效率。

可选地，步骤S300包括：

将所述自然语言查询语句进行编码，得到查询向量；

本发明实施例对将自然语言查询语句和候选表的特征表征参数进行向量化编码的算法不做限制，可采用如BERT预训练模型等算法进行编码。

其中，若没有查询到候选表中的对应数据，即某一候选表没有码表索引库的检索结果，则该候选表由1个句子组成，即表名，或者表名和表别名，将其编码得到表向量。若查询到候选表中的对应数据，即某一候选表有码表索引库的检索结果，则该候选表由2个句子组成，第一个句子为表名，或者表名和表别名，第二个句子为表头名加数据，将2个句子分别编码成向量，得到第一向量和第二向量。

可选地，所述基于所述第一向量和所述第二向量得到所述表向量包括：采用注意力机制，生成所述第一向量和所述第二向量各自的重要性得分；根据所述重要性得分将所述第一向量和所述第二向量进行加权计算，得到所述表向量。其中，采用注意力机制，生成所述第一向量和所述第二向量各自的重要性得分具体包括：将第一向量和第二向量分别与查询向量计算内积，再通过Softmax归一化后得到第一向量和第二向量各自的重要性得分。通过注意力机制，确定第一向量、第二向量与查询向量的相似性，进而得到第一向量和第二向量各自的重要性得分，从而使最终生成的表向量更能准确表征候选表与自然语言查询语句相似层面的特征，使获得的匹配得分更准确，提高检索结果的准确性。

本发明实施例中采用的表匹配模型为基于双塔模型结合注意力机制的表匹配模型，如图3，该表匹配模型包括特征提取层：BERT模型、Attention模型以及匹配层。其中，BERT模型用于将自然语言查询语句进行编码，得到查询向量，将候选表的表名，或者表名和表别名，进行编码得到表向量，或者将候选表的表名，或者表名和表别名，进行编码得到第一向量，将基于关键信息片段查询到的候选表中的对应数据进行编码得到第二向量；Attention模型用于基于查询向量、第一向量和第二向量生成第一向量和第二向量各自的重要性得分，并根据重要性得分将第一向量和第二向量进行加权计算，得到表向量；匹配层用于将查询向量和表向量进行匹配，得到候选表和自然语言查询语句的匹配得分。

可选地，步骤S200包括：分别基于所述关键信息片段和所述自然语言查询语句在所述表关键信息库中进行模糊匹配，得到与所述关键信息片段匹配的第一候选表关键信息和与所述自然语言查询语句匹配的第二候选表关键信息；将所述第一候选表关键信息和所述第二候选表关键信息去重合并，得到第三候选表关键信息；根据所述第三候选表关键信息确定所述候选表集合及所述候选表集合中各候选表对应的特征表征参数。

此处的模糊匹配指字符串匹配，因模糊匹配为现有技术，此处不赘述。

将关键信息片段在表关键信息库中进行模糊匹配，得到与关键信息片段匹配的第一候选表关键信息，将自然语言查询语句在表关键信息库中进行模糊匹配，得到与自然语言查询语句匹配的第二候选表关键信息。其中，表关键信息包含除了从表元数据索引库匹配到的表名和表别名，还可包含表头和表头别名，以及从码表索引库匹配到的表中的数据。

表关键信息库中的表关键信息均对应特定的表，因而在得到第三候选表关键信息后，即可确定候选表集合，将表名和表别名，表头和表头别名以及表中的数据作为此处的特征表征参数。

通过分别基于关键信息片段和自然语言查询语句在表关键信息库中进行模糊匹配，得到与关键信息片段匹配的第一候选表关键信息和与自然语言查询语句匹配的第二候选表关键信息，将二者去重合并，从部分片段和整体两个维度进行模糊匹配，可获得更为全面的候选表关键信息，获得更全面的候选表集合。

本发明一实施例中，数据查询装置包括存储有计算机程序的计算机可读存储介质和处理器，所述计算机程序被所述处理器读取并运行时，实现如上所述的数据查询方法。本发明数据查询装置相对于现有技术所具有的有益效果与上述数据查询方法一致，此处不赘述。

本发明一实施例中，计算机可读存储介质存储有计算机程序，所述计算机程序被处理器读取并运行时，实现如上所述的数据查询方法。本发明计算机可读存储介质相对于现有技术所具有的有益效果与上述数据查询方法一致，此处不赘述。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种数据查询方法，其特征在于，包括：

根据所述匹配得分返回查询结果。

2.如权利要求1所述的数据查询方法，其特征在于，所述关键信息片段包括表名片段、表头名片段和/或数据片段；所述表关键信息库包括存储表名、表头名以及表中的数据的索引库。

3.如权利要求1或2所述的数据查询方法，其特征在于，当基于所述关键信息片段查询到所述候选表不存在对应数据时，所述候选表对应的特征表征参数包括所述候选表的表名；当基于所述关键信息片段查询到所述候选表存在对应数据时，所述候选表对应的特征表征参数包括所述候选表的表名和基于所述关键信息片段查询到的所述候选表中的对应数据。

4.如权利要求1或2所述的数据查询方法，其特征在于，所述将所述自然语言查询语句和所述候选表对应的特征表征参数输入预置的表匹配模型，得到每个所述候选表和所述自然语言查询语句的匹配得分包括：

将所述自然语言查询语句进行编码，得到查询向量；

5.如权利要求4所述的数据查询方法，其特征在于，所述基于所述第一向量和所述第二向量得到所述表向量包括：

6.如权利要求1或2所述的数据查询方法，其特征在于，所述基于所述关键信息片段在预置的表关键信息库中查询，得到匹配的候选表关键信息，根据所述候选表关键信息确定候选表集合及所述候选表集合中各候选表对应的特征表征参数包括：

7.如权利要求1或2所述的数据查询方法，其特征在于，所述从所述自然语言查询语句中提取关键信息片段包括：

8.如权利要求1或2所述的数据查询方法，其特征在于，所述根据所述匹配得分返回查询结果包括：

9.一种数据查询装置，其特征在于，包括存储有计算机程序的计算机可读存储介质和处理器，所述计算机程序被所述处理器读取并运行时，实现如权利要求1-8任一项所述的数据查询方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器读取并运行时，实现如权利要求1-8任一项所述的数据查询方法。