CN114756655A

CN114756655A - 数据查询方法、装置、设备及存储介质

Info

Publication number: CN114756655A
Application number: CN202210469016.1A
Authority: CN
Inventors: 徐驰; 林健
Original assignee: Dongyun Ruilian Wuhan Computing Technology Co ltd
Current assignee: Dongyun Ruilian Wuhan Computing Technology Co ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-07-15

Abstract

本发明属于数据处理技术领域，公开了一种数据查询方法、装置、设备及存储介质。该方法包括根据用户输入的数据查询请求确定自然语言问题文本；通过预设文本分类模型确定自然语言问题文本对应的目标数据源；查找目标数据源对应的目标数据平台类型，确定对应的目标查询范式；根据目标查询范式和自然语言问题文本生成目标查询语句；获取与目标查询语句匹配的查询结果并显示。本发明基于自然语言的异构大数据平台，支持多种异构大数据后端，并且查找目标数据源对应的目标数据平台类型从而确定对应的目标查询范式，支持多种数据查询范式。有利于实现便捷的数据查询，解决了不同种类的数据平台的查询接口不同，数据查询的难度高的问题。

Description

数据查询方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据查询方法、装置、设备及存储介质。

背景技术

随着信息技术的飞速发展，大数据和人工智能技术在越来越多的场合得到广泛的应用。各行各业中数据资源以前所未有的速度快速增长和积累，如何从这些大数据中挖掘出有用的内容，逐渐成为人们广泛关注的问题。

对于传统的关系型数据库，需要使用SQL语言(结构化查询语言)进行交互，在数据查询应用方面存在一定技术门槛。同时，由于不同种类的数据通常存储在不同的大数据平台中，而每个大数据平台的查询接口又不尽相同，进一步提高了数据查询的难度。如何降低数据查询分析的门槛，让更多的非专业用户也能按需进行数据查询，也就成为了新兴的研究热点。

发明内容

针对现有技术存在不同种类的数据平台的查询接口不同，数据查询的难度高的问题，本发明提供一种数据查询方法、装置、设备及存储介质。

第一方面，本发明提供了一种数据查询方法，包括：

响应于用户输入的数据查询请求，根据所述数据查询请求确定自然语言问题文本；

通过预设文本分类模型确定所述自然语言问题文本对应的目标数据源；

查找所述目标数据源对应的目标数据平台类型，并根据所述目标数据平台类型确定对应的目标查询范式；

根据所述目标查询范式和所述自然语言问题文本生成目标查询语句；

获取与所述目标查询语句匹配的查询结果，并显示所述查询结果。

可选地，所述通过预设文本分类模型确定所述自然语言问题文本对应的目标数据源之前，所述方法还包括：

构建自然语言问题文本与对应数据源的数据集合，并将所述数据集合作为预设文本分类算法的训练样本数据集；

根据所述训练样本数据集对文本分类模型进行训练，并将训练后的文本分类模型作为预设文本分类模型。

可选地，所述通过预设文本分类模型确定所述自然语言问题文本对应的目标数据源，包括：

对所述自然语言问题文本进行特征提取，得到特征向量；

通过预设分类器对所述特征向量进行分类，得到若干分类类别的概率值；

将所述概率值按照从大到小的顺序进行排序，将第一排序对应的概率值作为目标概率值；

将所述目标概率值对应的分类类别作为所述自然语言问题文本的目标分类类别；其中，所述目标分类类别为目标数据源。

可选地，所述查找所述目标数据源对应的目标数据平台类型，并根据所述目标数据平台类型确定对应的目标查询范式之前，所述方法还包括：

获取数据源和数据平台类型；

建立所述数据源和所述数据平台类型的对应关系并存储所述对应关系。

可选地，所述根据所述目标查询范式和所述自然语言问题文本生成目标查询语句之后，还包括：

确定所述目标查询语句的置信度值；

判断所述置信度值是否满足预设置信度值阈值条件；

在所述置信度值满足所述预设置信度值阈值条件时，则执行所述获取与所述目标查询语句匹配的查询结果，并显示所述查询结果的步骤。

可选地，所述判断所述置信度值是否满足预设置信度值阈值条件之后，还包括：

在判断所述置信度值不满足所述预设置信度值阈值条件时，执行多轮次对话并获取与所述多轮次对话对应的应答数据；

根据所述应答数据更新所述自然语言问题文本的语义信息，获得更新后的自然语言问题文本；

执行通过预设文本分类模型确定所述更新后的自然语言问题文本对应的目标数据源。

可选地，所述根据所述应答数据更新所述自然语言问题文本的语义信息，获得更新后的自然语言问题文本，包括：

对所述应答数据进行文本分析，获得意图数据；其中，所述意图数据包括所述应答数据关联的语义特征值；

基于所述意图数据的语义特征值更新所述自然语言问题文本，获得更新后的自然语言问题文本。

第二方面，本发明还提出一种数据查询装置，包括：

响应模块，用于响应于用户输入的数据查询请求，根据所述数据查询请求确定自然语言问题文本；

确定模块，用于通过预设文本分类模型确定所述自然语言问题文本对应的目标数据源；

查找模块，用于查找所述目标数据源对应的目标数据平台类型，并根据所述目标数据平台类型确定对应的目标查询范式；

生成模块，用于根据所述目标查询范式和所述自然语言问题文本生成目标查询语句；

匹配模块，用于获取与所述目标查询语句匹配的查询结果，并显示所述查询结果。

第三方面，本发明还提出一种数据查询设备，所述数据查询设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据查询程序，所述数据查询程序配置为实现如第一方面所提供的方法的步骤。

第四方面，本发明还提出一种计算机存储介质，其上存储有数据查询程序，所述数据查询程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明响应于用户输入的数据查询请求，根据所述数据查询请求确定自然语言问题文本；通过预设文本分类模型确定所述自然语言问题文本对应的目标数据源；查找所述目标数据源对应的目标数据平台类型，并根据所述目标数据平台类型确定对应的目标查询范式；根据所述目标查询范式和所述自然语言问题文本生成目标查询语句；获取与所述目标查询语句匹配的查询结果，并显示所述查询结果。本发明提出的数据查询方法，基于自然语言的异构大数据平台，可以支持多种异构大数据后端，并且查找目标数据源对应的目标数据平台类型，并根据目标数据平台类型确定对应的目标查询范式，支持多种数据查询范式，例如SQL查询、Hive SQL查询、Spark Scala表达式查询等。有利于实现便捷的数据查询，解决了不同种类的数据平台的查询接口不同，数据查询的难度高的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例方案涉及的硬件运行环境的数据查询设备的结构示意图；

图2为本发明提供的数据查询方法的第一实施例流程示意图；

图3为本发明一实施例中深度学习文本分类算法模型示意图；

图4为本发明一实施例中大数据平台查询语言生成结构示意图；

图5为本发明一实施例中用于执行多轮次对话的多轮对话模块的结构示意图；

图6为本发明提供的数据查询方法的第二实施例流程示意图；

图7为本发明实施例提供的基于自然语言的异构大数据平台查询系统的结构示意图；

图8为本发明实施例提供的基于自然语言的异构大数据平台查询系统示意图；

图9为本发明提供的数据查询装置的第一实施例结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的数据查询设备结构示意图。

如图1所示，该数据查询设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对数据查询设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据查询程序。

在图1所示的数据查询设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明数据查询设备中的处理器1001、存储器1005可以设置在数据查询设备中，所述数据查询设备通过处理器1001调用存储器1005中存储的数据查询程序，并执行本发明实施例提供的数据查询方法。

一方面，一些数据查询方法大多针对某一具体的大数据平台，有明显的局限性。例如，针对关系型数据库的自然语言到SQL语言的转换，针对Hadoop平台的自然语言到MapReduce计算的转换，以及针对Spark平台的自然语言到查询逻辑的转换，上述这些方式还可能存在相互不兼容的问题。

另一方面，用户输入的自然语言问题可能存在缺少必要信息、语义不明确等问题，大多数系统在这种情况下的查询成功率无法得到保障。

自然语言处理技术中的Transformer是一种新颖的架构，Transformer是第一个完全依赖自注意力(self-attention)来计算输入和输出的表示，而不使用序列对齐的递归神经网络或卷积神经网络的转换模型。BERT的全称是基于Transformer的双向编码器表征，其中“双向”表示模型在处理某一个词时，它能同时利用前面的词和后面的词两部分信息。这种“双向”的来源在于BERT与传统语言模型不同，它不是在给定所有前面词的条件下预测最可能的当前词，而是随机遮掩一些词，并利用所有没被遮掩的词进行预测。

对此，本发明实施例提供了一种数据查询方法，参照图2，图2为本发明提供的数据查询方法的第一实施例流程示意图。

本实施例中，所述数据查询方法包括以下步骤：

S10：响应于用户输入的数据查询请求，根据所述数据查询请求确定自然语言问题文本。

需要说明的是，用户可以通过用户终端发起数据查询需求，该数据查询需求包括至少一个完整句的文本。响应于用户输入的数据查询请求，并根据所述数据查询请求确定自然语言问题文本

具体地，若当前的应用场景是电信运营商内部数据查询场景，需要查询用户相关信息，例如：“北京市2021年新增用户数量是多少”。用户可以通过用户终端发起数据查询需求，该数据查询需求包括至少一个完整句的查询文本，将该查询文本“北京市2021年新增用户数量是多少”作为输入的自然语言问题文本。

S20：通过预设文本分类模型确定所述自然语言问题文本对应的目标数据源。

易于理解的是，通过预设文本分类模型确定所述自然语言问题文本对应的目标数据源，可以包括：对所述自然语言问题文本进行特征提取，得到特征向量；通过预设分类器对所述特征向量进行分类，得到若干分类类别的概率值；将所述概率值按照从大到小的顺序进行排序，将第一排序对应的概率值作为目标概率值；将所述目标概率值对应的分类类别作为所述自然语言问题文本的目标分类类别；其中，所述目标分类类别为目标数据源。

其中，预设文本分类模型可以为文本分类算法模型或者其他算法模型，本实施例对此并不加以限制。通过文本分类算法确定所述自然语言问题文本对应的目标数据源。

具体地，可以通过构建自然语言问题文本与对应数据源的数据集合，并将所述数据集合作为预设文本分类算法的训练样本数据集；根据所述训练样本数据集对文本分类模型进行训练，并将训练后的文本分类模型作为预设文本分类模型。

在一实施例中，训练样本数据集可以包括：a自然语言问题文本：“北京市2021年用户的总出账收入有多少”，对应的数据源：“用户信息表”。b自然语言问题文本：“北京市2020年用户数量最多的套餐是什么”，对应的数据源：“产品信息表”。c自然语言问题文本：“北京市2020年各渠道新增用户分别是多少”，对应的数据源：“渠道信息表”。基于深度学习文本分类算法建立模型，根据该训练样本数据集进行模型训练，得到将自然语言问题文本分类到对应数据源的文本分类算法模型。其中，深度学习文本分类算法模型如图3所示，深度学习文本分类算法模型可以包括数据输入单元、第一文本特征提取器、文本类别分类器以及类别输出单元。

在本实施例中，对于用户输入的自然语言问题文本，使用文本分类算法，得到目标数据源。例如，在电信运营商内部数据查询场景中，若电信运营商内部系统中包括用户信息表、产品信息表和渠道信息表，用户信息表、产品信息表和渠道信息表可以作为目标数据源。

这里，查询文本“北京市2021年新增用户数量是多少”作为输入的自然语言问题文本，通过文本分类算法可以得出“北京市2021年新增用户数量是多少”对应的目标数据源为用户信息表。

S30：查找所述目标数据源对应的目标数据平台类型，并根据所述目标数据平台类型确定对应的目标查询范式。

需要说明的是，查找所述目标数据源对应的目标数据平台类型，并根据所述目标数据平台类型确定对应的目标查询范式之前，还可以：获取数据源和数据平台类型；建立所述数据源和所述数据平台类型的对应关系并存储所述对应关系，从而实现预先设定不同数据源对应的大数据平台类型。

具体地，通过预先设定不同数据源对应的大数据平台类型，确定不同数据源对应大数据平台查询范式。在当前场景为电信运营商内部数据查询场景时，电信运营商内部系统中可以包括用户信息表、产品信息表和渠道信息表。用户信息表、产品信息表和渠道信息表可以作为目标数据源，大数据平台类型可以包括：MySQL、Hadoop和Spark。本实施例对具体的数据源和大数据平台类型并不加以限制。

在本实施例中，可以将电信运营商内部数据查询场景中的用户信息表、产品信息表和渠道信息表，分别保存在MySQL、Hadoop、Spark中。其中，MySQL的查询范式可以为SQL语言，Hadoop的查询范式可以为Hive HQL语言，Spark的查询范式可以为Spark Scala表达式。

这里，查询文本“北京市2021年新增用户数量是多少”作为输入的自然语言问题文本，通过文本分类算法可以得出“北京市2021年新增用户数量是多少”对应的目标数据源为用户信息表。目标数据源为用户信息表，查找目标数据源对应的目标数据平台类型，从而确定该目标数据平台类型为MySQL，根据目标数据平台类型确定对应的目标查询范式，可以确定目标查询范式为SQL语言。

S40：根据所述目标查询范式和所述自然语言问题文本生成目标查询语句。

易于理解的是，根据所述目标查询范式和所述自然语言问题文本生成目标查询语句可以采用以下方式：通过深度学习算法结合目标查询范式将自然语言问题文本转换为数据查询语句。此外，还可以采用其他方式生成目标查询语句，本实施例对此并不加以限制。

本实施例以深度学习算法为深度学习神经网络文本编码算法进行说明。通过深度学习神经网络文本编码算法，通过目标查询范式对自然语言问题文本进行编码，得到转换后的数据查询语句，将转换后的数据查询语句作为目标查询语句。

这里，查询文本“北京市2021年新增用户数量是多少”作为输入的自然语言问题文本，目标数据源为用户信息表，目标数据平台类型为MySQL，目标查询范式为SQL语言。

具体地，自然语言问题文本包括所述用户输入的自然语言问题文本以及目标数据源的元数据信息。将自然语言问题文本“北京市2021年新增用户数量是多少”以及用户信息表的元数据信息进行融合后，输入深度学习神经网络文本编码算法，得到转换后的SQL语言的数据查询语句，将转换后的SQL语言的数据查询语句作为目标查询语句。目标查询语句可以为：“select count(user_id)from user_info where acct_year＝”2021"and city＝“北京”and is_new＝true”。确定该目标查询语句相应的置信度值可以为0.92。

以下通过第一范例和第二范例对本实施例步骤S10至步骤S40进行详细说明。本实施例对此并不加以限制。

参照图4，图4为本发明一实施例中大数据平台查询语言生成结构示意图。可以通过数据输入单元接收自然语言问题文本以及对应的数据源元数据，元数据可以包括数据源名称、数据源列名称等。具体地，数据输入单元包括自然语言问题文本“北京市2021年新增用户数量是多少”和用户信息表的表格列名信息进行融合。

可以通过第二文本特征提取器对数据输入单元的自然语言问题文本进行编码，得到编码后的高维向量值。具体地，可以使用双向Transformer编码器Bert，对自然语言问题文本进行编码，得到编码后高维向量。其中，高维向量包含自然语言问题文本向量和表格列名向量。

可以通过查询语言组件生成器将查询语言定义为第二文本特征提取器输出的高维向量映射到查询语言的各个组件元素。对于SQL查询语言，可以包括select、aggregate、group by、order by、condition等查询语言元素的组件。对于Scala查询表达式，可以包括map、reduce、filter等组件。将第二文本特征提取器输出的高维向量使用分类算法进行分类，对于SQL查询语言，确定高维向量对应各个表格列在select、aggregate、condition、group by、order by等分类任务的结果。对于Scala查询表达式，确定高维向量对应map、reduce、filter等组件的值。

可以通过大数据查询语言生成器将查询语言组件分类器中得到的各个查询语言组件进行汇总。对于SQL查询语言，将select、aggregate、condition、group by、order by等元素进行汇总，生成SQL查询语言。对于Scala查询表达式，将map、reduce、filter组件结果进行汇总，生成Scala查询表达式。

第一范例：以输入的自然语言问题文本“北京市2021年新增用户数量是多少”为例，目标查询语句的生成过程可以包括：将输入的自然语言问题文本“北京市2021年新增用户数量是多少”和样本数据库的表格列信息输入数据输入单元，进行融合。经过第二文本特征提取器，即双向Transformer编码器Bert，得到编码后的文本向量。将编码后的文本向量输入到查询语言组件生成器，其中：对于select分类器组件，列user_id的输出结果为true，其他列的输出结果为false；对于aggregate分类器，列user_id的输出结果为count，其他列的输出结果为none；对于condition col分类器，列acct_year、is_new、city的输出结果为true，其他列输出结果为false；对于condition op分类器，列acct_year、is_new、city的值都是“＝”，其他列的值都是none；对于group by和order by分类器，所有列的值都是none。对于condition value任务，从所述编码后的文本向量中的自然语言问题文本部分提取出备选condition value，包括“北京”、“2021”、“新增”，再与上述condition col的结果(acct_year、is_new、city)和condition op的结果(＝、＝、＝)进行排列组合方式的融合，即使用Condition Value提取器分别判断(acct_year＝“2021”、acct_year＝“新增”、acct_year＝“北京”)、(is_new＝“2021”、is_new＝“新增”、is_new＝“北京”)、(city＝“2021”、city＝“新增”、city＝“北京”)的输出结果哪个是true，这里判断出acct_year＝“2021”为true，is_new＝“新增”为true，city＝“北京”为true。

通过查询语言生成器将查询语言组件分类器输出的结果进行融合，并根据数据源对应的查询范式，即MySQL数据库对应的SQL查询范式，得到自然语言问题文本“北京市2021年新增用户数量是多少”对应的SQL查询语言“select count(user_id)from user_infowhere acct_year＝”2021"and is_new＝true and city＝“北京””。

第二范例：对于Spark Scala查询表达式，以输入的自然语言问题文本“北京市2020年各渠道新增用户分别是多少”为例，目标查询语句的生成过程可以包括：将输入的自然语言问题文本“北京市2020年各渠道新增用户分别是多少”和样本数据源的列信息输入数据输入单元，进行融合。经过第二文本特征提取器，即双向Transformer编码器Bert，得到编码后的文本向量。将编码后的文本向量输入到查询语言组件生成器，其中：对于map和reduce组件，分类器结果为空，即不需要map和reduce操作；对于filter组件，列is_new和city的输出结果为true，其他列的输出结果为false，同时，从编码后的文本向量中的自然语言问题文本部分提取出备选filter value，包括“北京”、“2020”、“新增”，再与上述filter col的结果(acct_year、is_new、city)和filter op的结果(＝、＝、＝)进行排列组合方式的融合，即使用filter value提取器分别判断(acct_year＝“2020”、acct_year＝“新增”、acct_year＝“北京”)、(is_new＝“2020”、is_new＝“新增”、is_new＝“北京”)、(city＝“2020”、city＝“新增”、city＝“北京”)的输出结果哪个是true，这里判断出acct_year＝“2020”为true，is_new＝“新增”为true，city＝“北京”为true；对于groupBy组件，列qudao的输出结果为true，其他列的输出结果为false；对于aggregate组件，输出结果为count。通过查询语言生成器将查询语言组件分类器输出的结果进行融合，并根据数据源对应的查询范式，即Spark平台对应的Scala表达式查询范式，得到自然语言问题文本“北京市2020年各渠道新增用户分别是多少”对应的Spark Scala查询表达式为“df.filter(”is_new＝＝‘true’and city＝＝‘北京’and acct_year＝＝‘2020’“).groupBy(”qudao“).count()”。

S50：获取与所述目标查询语句匹配的查询结果，并显示所述查询结果。

在本实施例中，根据所述目标查询范式和所述自然语言问题文本生成目标查询语句之后，还可以包括：确定所述目标查询语句的置信度值；判断所述置信度值是否满足预设置信度值阈值条件；在所述置信度值满足所述预设置信度值阈值条件时，则执行所述获取与所述目标查询语句匹配的查询结果，并显示所述查询结果的步骤。在判断所述置信度值不满足所述预设置信度值阈值条件时，执行多轮次对话并获取与所述多轮次对话对应的应答数据；根据所述应答数据更新所述自然语言问题文本的语义信息，获得更新后的自然语言问题文本；执行通过预设文本分类模型确定所述更新后的自然语言问题文本对应的目标数据源。

其中，根据所述应答数据更新所述自然语言问题文本的语义信息，获得更新后的自然语言问题文本，包括：对所述应答数据进行文本分析，获得意图数据；其中，所述意图数据包括所述应答数据关联的语义特征值；基于所述意图数据的语义特征值更新所述自然语言问题文本，获得更新后的自然语言问题文本。

具体地，预设置信度值阈值条件可以为置信度值大于预设置信度阈值，本实施例设置预设置信度阈值为0.85，预设置信度阈值可以根据实际情况进行设置，本实施例对此并不加以限制。

在查询文本“北京市2021年新增用户数量是多少”作为输入的自然语言问题文本时，目标数据源为用户信息表，目标数据平台类型为MySQL，目标查询范式为SQL语言。目标查询语句可以为：“select count(user_id)from user_info where acct_year＝”2021"and city＝“北京”and is_new＝true”。确定该目标查询语句相应的置信度值为0.92。

这里，由于目标查询语句的置信度值0.92大于预设置信度阈值0.85，置信度值满足预设置信度值阈值条件，输出转换后的目标查询语句“select count(user_id)fromuser_info where acct_year＝”2021"and city＝“北京”and is_new＝true”，结束当前数据查询转换流程。获取与所述目标查询语句匹配的查询结果，并显示所述查询结果。

在查询文本“用户总出账收入是多少”作为输入的自然语言问题文本时，目标数据源为用户信息表，目标数据平台类型为MySQL，目标查询范式为SQL语言。将自然语言问题文本“用户总出账收入是多少”以及用户信息表的元数据信息进行融合后，输入深度学习神经网络文本编码算法，得到转换后的SQL语言的数据查询语句，将转换后的SQL语言的数据查询语句作为目标查询语句。目标查询语句可以为：“select sum(total_fee)from user_info”。确定该目标查询语句相应的置信度值为0.56。

这里，由于目标查询语句的置信度值0.56小于预设置信度阈值0.85，目标查询语句的置信度值不满足预设置信度值阈值条件，执行多轮次对话，完善语义信息。具体地，执行多轮次对话并获取与所述多轮次对话对应的应答数据；根据所述应答数据更新所述自然语言问题文本的语义信息，获得更新后的自然语言问题文本。重新回到步骤S10，将多轮对话返回的更新后的自然语言问题文本，作为用户输入的自然语言问题文本，执行通过预设文本分类模型确定所述更新后的自然语言问题文本对应的目标数据源。

本实施例中，通过支持多轮次对话，提升对话信息的完整性和语义的准确性，从而提高查询的成功率。参照图5，图5为本实施例中用于执行多轮次对话的多轮对话模块的结构示意图，多轮对话模块可以包括：

自然语言理解模块可以包括文本特征提取模块和语义槽填充模块。文本特征提取模块用于提取自然语言问题文本和表格列名的融合信息。语义槽填充模块用于输入到对话管理模块。

具体地，用户输入的自然语言问题文本为“用户总出账收入是多少”，融合用户信息表的表格列名信息，得到查询语句：“select sum(total_fee)from user_info”。由于查询语句的置信度值0.56小于预设置信度阈值0.85，则执行多轮次对话，通过多轮对话模块完善语义信息。经过自然语言理解模块后，生成高维文本特征向量，以及相应的意图、槽位、槽位信息三元组形式，即“查询(槽位1＝用户，槽位2＝总出账收入)”。

对话管理模块可以包括状态追踪和对话策略模块。状态追踪模块在对话的每一轮次对用户的目标进行预估，管理每个回合的输入和对话历史，输出当前对话状态。对话策略模块根据前面的对话状态决策采取的最优动作(如：提供结果，询问特定限制条件，澄清或确认需求等)，从而最有效的辅助用户完成信息或服务获取的任务，该模块基于用户输入的语义表达和当前对话状态输出下一步的系统行为和更新的对话状态。

这里，根据当前抽取到语义槽信息以及当前对话状态，即将语义槽模块中的“查询(槽位1＝用户，槽位2＝总出账收入)”和用户输入的自然语言问题文本是“用户总出账收入是多少”，以及用户信息表的表格列名信息，输入神经网络进行计算，得到最优动作，即询问特定限制条件：年份和城市，则语义槽信息变为“查询(槽位1＝用户，槽位2＝总出账收入，槽位3＝年份，槽位4＝城市)”。

自然语言生成模块可以包含编码器解码器模块，用于将对话策略模块输出的语义，生成流畅可读的自然语言文本，反馈给用户。

具体地，对于对话策略模块中的输入语义槽信息“查询(槽位1＝用户，槽位2＝总出账收入，槽位3＝年份，槽位4＝城市)”，以及当前对话状态，即自然语言理解模块中文本特征提取器的输出，经过编码器编码，生成高维向量，再使用解码器，生成返回给用户的自然语言问题。例如，在本实施例中，生成的自然问题文本为：“请问想查询哪个城市哪一年的用户总出账收入”。

在后续的流程中，若用户输入“北京市2021年用户总出账收入是多少”，则生成查询语句“select sum(total_fee)from user_info where city＝”北京"and acct_year＝“2021””，该查询语句的置信度值为0.92，大于预设置信度阈值0.85，则完成自然语言到查询语句的转换，得到目标查询语句。

本实施例通过响应于用户输入的数据查询请求，根据所述数据查询请求确定自然语言问题文本；通过预设文本分类模型确定所述自然语言问题文本对应的目标数据源；查找所述目标数据源对应的目标数据平台类型，并根据所述目标数据平台类型确定对应的目标查询范式；根据所述目标查询范式和所述自然语言问题文本生成目标查询语句；获取与所述目标查询语句匹配的查询结果，并显示所述查询结果。本实施例提出的数据查询方法，基于自然语言的异构大数据平台，可以支持多种异构大数据后端，并且查找目标数据源对应的目标数据平台类型，并根据目标数据平台类型确定对应的目标查询范式，支持多种数据查询范式，例如SQL查询、Hive SQL查询、Spark Scala表达式查询等。有利于实现便捷的数据查询，解决了不同种类的数据平台的查询接口不同，数据查询的难度高的问题。并且，本实施例还通过支持多轮次对话，提升输入的自然语言问题文本的完整性和语义的准确性，从而提高查询的成功率。

基于上述实施例，参照图6，图6为本发明提供的数据查询方法的第二实施例流程示意图；

如图6所示，步骤S20，包括：

步骤S201：对所述自然语言问题文本进行特征提取，得到特征向量。

易于理解的是，可以通过构建自然语言问题文本与对应数据源的数据集合，并将所述数据集合作为预设文本分类算法的训练样本数据集；根据所述训练样本数据集对文本分类模型进行训练，并将训练后的文本分类模型作为预设文本分类模型。

具体地，训练样本数据集可以包括：a自然语言问题文本：“北京市2021年用户的总出账收入有多少”，对应的数据源：“用户信息表”。b自然语言问题文本：“北京市2020年用户数量最多的套餐是什么”，对应的数据源：“产品信息表”。c自然语言问题文本：“北京市2020年各渠道新增用户分别是多少”，对应的数据源：“渠道信息表”。基于深度学习文本分类算法建立模型，根据该训练样本数据集进行模型训练，得到将自然语言问题文本分类到对应数据源的文本分类算法模型。

深度学习文本分类算法模型如图3所示，深度学习文本分类算法模型可以包括数据输入单元、第一文本特征提取器、文本类别分类器以及类别输出单元。其中，数据输入单元，用于输入训练数据集，所述训练数据集包括自然语言问题文本以及对应的数据源，具体可参考数据查询方法的第一实施例步骤S20中的示例。

这里，可以通过第一文本特征提取器对所述自然语言问题文本进行特征提取，得到特征向量。具体地，将数据输入单元输入的自然语言问题文本，通过双向Transformer编码器Bert进行特征提取，得到特征向量。

步骤S202：通过预设分类器对所述特征向量进行分类，得到若干分类类别的概率值。

在本实施例中，预设分类器可以为文本类别分类器，文本类别分类器用于将第一文本特征提取器得到的特征向量，通过基于神经网络的文本类别分类器进行分类，输出各类别的概率值。其中，神经网络可以包括：全连接神经网络、卷积神经网络或者循环神经网络。

步骤S203：将所述概率值按照从大到小的顺序进行排序，将第一排序对应的概率值作为目标概率值。

在本实施例中，类别输出单元，用于确定文本类别分类器输出的各类别概率值，将所述概率值中的最大概率值作为目标概率值。

步骤S204：将所述目标概率值对应的分类类别作为所述自然语言问题文本的目标分类类别；其中，所述目标分类类别为目标数据源。

在本实施例中，类别输出单元，用于将各类别概率值中的最大值对应的类别作为自然语言问题文本的目标分类类别，即对应的数据源。

本实施例通过对所述自然语言问题文本进行特征提取，得到特征向量；通过预设分类器对所述特征向量进行分类，得到若干分类类别的概率值；将所述概率值按照从大到小的顺序进行排序，将第一排序对应的概率值作为目标概率值；将所述目标概率值对应的分类类别作为所述自然语言问题文本的目标分类类别；其中，所述目标分类类别为目标数据源。本实施例提出的数据查询方法，基于自然语言的异构大数据平台，可以支持多种异构大数据后端，并且查找目标数据源对应的目标数据平台类型，并根据目标数据平台类型确定对应的目标查询范式，支持多种数据查询范式，例如SQL查询、Hive SQL查询、SparkScala表达式查询等。有利于实现便捷的数据查询，解决了不同种类的数据平台的查询接口不同，数据查询的难度高的问题。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有应用运行内存统计分析程序，所述应用运行内存统计分析程序被处理器执行时实现如上文所述的应用运行内存统计分析方法。

由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

参照图7，图7为本发明实施例基于自然语言的异构大数据平台查询系统的结构示意图，该系统可运行在计算机中，如工作站、服务器等，该系统用于执行上述方法实施例的步骤，基于自然语言的异构大数据平台查询系统包括：

自然语言问题文本获取单元701，用于获取用户输入的自然语言问题文本；

文本分类算法模型单元702，用于调用文本分类算法模型来确定自然语言问题文本对应的数据表名称和对应的查询范式；

深度学习算法模型单元703，根据用户输入的自然语言问题文本，结合文本分类算法模型单元702计算得出的数据表名称和对应的查询范式，融合表列名信息，输入到深度学习算法模型，得到转换后的查询语言；

多轮对话单元704，用于在自然语言问题文本生成的查询语句的置信度低于阈值时，进行多轮对话，补足完善语义信息。

参照图8，图8为本发明实施例提供的基于自然语言的异构大数据平台查询系统示意图，该系统包括处理器801、存储器802、通信总线803和基于自然语言的异构大数据平台查询系统804，所述处理器801、存储器802和基于自然语言的异构大数据平台查询系统804通过总线803相互连接。

参照图9，图9为本发明提供的数据查询装置第一实施例的结构框图。

如图9所示，本发明实施例提出的数据查询装置包括：

响应模块10，用于响应于用户输入的数据查询请求，根据所述数据查询请求确定自然语言问题文本。

确定模块20，用于通过预设文本分类模型确定所述自然语言问题文本对应的目标数据源。

查找模块30，用于查找所述目标数据源对应的目标数据平台类型，并根据所述目标数据平台类型确定对应的目标查询范式。

生成模块40，用于根据所述目标查询范式和所述自然语言问题文本生成目标查询语句。

匹配模块50，用于获取与所述目标查询语句匹配的查询结果，并显示所述查询结果。

进一步地，所述装置还包括构建模块，所述构建模块，用于构建自然语言问题文本与对应数据源的数据集合，并将所述数据集合作为预设文本分类算法的训练样本数据集；

进一步地，所述确定模块20，还用于对所述自然语言问题文本进行特征提取，得到特征向量；

进一步地，所述构建模块，还用于获取数据源和数据平台类型；

进一步地，所述装置还包括判断模块，所述判断模块，用于确定所述目标查询语句的置信度值；

判断所述置信度值是否满足预设置信度值阈值条件；

进一步地，所述判断模块，还用于在判断所述置信度值不满足所述预设置信度值阈值条件时，执行多轮次对话并获取与所述多轮次对话对应的应答数据；

进一步地，所述判断模块，还用于对所述应答数据进行文本分析，获得意图数据；其中，所述意图数据包括所述应答数据关联的语义特征值；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据查询方法，其特征在于，所述数据查询方法，包括：

2.如权利要求1所述的数据查询方法，其特征在于，所述通过预设文本分类模型确定所述自然语言问题文本对应的目标数据源之前，所述方法还包括：

3.如权利要求1所述的数据查询方法，其特征在于，所述通过预设文本分类模型确定所述自然语言问题文本对应的目标数据源，包括：

对所述自然语言问题文本进行特征提取，得到特征向量；

4.如权利要求1所述的数据查询方法，其特征在于，所述查找所述目标数据源对应的目标数据平台类型，并根据所述目标数据平台类型确定对应的目标查询范式之前，所述方法还包括：

获取数据源和数据平台类型；

5.如权利要求1所述的数据查询方法，其特征在于，所述根据所述目标查询范式和所述自然语言问题文本生成目标查询语句之后，还包括：

确定所述目标查询语句的置信度值；

判断所述置信度值是否满足预设置信度值阈值条件；

6.如权利要求5所述的数据查询方法，其特征在于，所述判断所述置信度值是否满足预设置信度值阈值条件之后，还包括：

7.如权利要求6所述的数据查询方法，其特征在于，所述根据所述应答数据更新所述自然语言问题文本的语义信息，获得更新后的自然语言问题文本，包括：

8.一种数据查询装置，其特征在于，所述数据查询装置，包括：

9.一种数据查询设备，其特征在于，所述数据查询设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据查询程序，所述数据查询程序配置为实现如权利要求1至7中任一项所述的数据查询方法的步骤。

10.一种计算机存储介质，其特征在于，其上存储有数据查询程序，所述数据查询程序被处理器执行时实现如权利要求1至7中任一项所述的数据查询方法的步骤。