CN110851465A

CN110851465A - 数据查询方法及系统

Info

Publication number: CN110851465A
Application number: CN201911124280.6A
Authority: CN
Inventors: 袁建伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-02-28
Anticipated expiration: 2039-11-15
Also published as: CN110851465B

Abstract

本发明实施例提供一种数据查询方法及系统，应用于大数据场景中。其中，该方法可包括：代理节点接收来自客户端的查询请求，查询请求包括查询任务信息，并将查询任务信息传输至分布式节点；分布式节点根据查询任务信息生成数据模型；计算节点在监听到数据模型的情况下，根据数据模型获得至少一个查询子任务，并获取查询子任务的子结果，根据至少一个查询子任务的子结果生成查询任务结果，并将查询任务结果传输至分布式节点；分布式节点将查询任务结果传输至代理节点；代理节点将查询任务结果传输至客户端。采用本发明实施例，可以提高数据查询的高效性和实时性。

Description

数据查询方法及系统

技术领域

本发明涉及大数据技术领域，尤其涉及一种数据查询方法及系统。

背景技术

Spark是专为大规模数据处理而设计的快速通用的计算引擎，可用来构建大型的、低延迟的数据分析，完成复杂的交互式数据查询任务。目前，针对交互式数据查询方法主要包括如下两种：第一种是在每次执行任务时，将查询任务封装成jar文件格式的文件包，然后将文件包提交至服务器；第二种是将查询数据导入数据仓库(hive)中，通过查询语言(Hibernate，HQL)进行数据查询。但是第一种方法使得每个任务都需要都单独提交、分配和销毁，其查询效率低；第二种方法需要将任务解析成MapReduce计算框架执行，其实时性差。

发明内容

本发明实施例提供了一种数据查询方法及系统，可以提高数据查询的高效性和实时性。

第一方面，本发明实施例提供了一种数据查询方法，所述方法应用于服务器，所述服务器包括代理节点、分布式节点和计算节点，所述方法包括：

所述代理节点，用于接收来自客户端的查询请求，所述查询请求包括查询任务信息，并将所述查询任务信息传输至所述分布式节点；

所述分布式节点，用于根据所述查询任务信息生成数据模型；

所述计算节点，用于在监听到所述数据模型的情况下，根据所述数据模型获得至少一个查询子任务，并获取所述查询子任务的子结果，根据所述至少一个查询子任务的子结果生成查询任务结果，并将所述查询任务结果传输至所述分布式节点；

所述分布式节点，还用于将所述查询任务结果传输至所述代理节点；

所述代理节点，还用于将所述查询任务结果传输至所述客户端。

在该技术方案中，代理节点接收来自客户端的包括查询任务信息的查询请求，并将查询任务信息传输至分布式节点，以使分布式节点根据查询任务信息生成数据模型，从而提高数据的可拓展性。计算节点监听到该数据模型后，将数据模型解析成至少一个查询子任务，获取子任务的结果聚合成查询任务结果，并将查询任务结果传输至分布式节点，分布式节点将查询任务结果传输至代理节点，以使代理节点将查询任务结果传输至客户端。从而提高数据查询的高效性和实时性。

第二方面，本发明实施例提供了一种数据查询方法，所述方法应用于客户端，所述方法包括：

接收查询指令，根据所述查询指令生成查询请求，所述查询请求包括查询任务信息；

向服务器发送所述查询请求；

接收来自所述服务器的所述查询任务信息对应的查询任务结果，并输出所述查询任务结果。

在该技术方案中，客户端在接收到该客户端用户发送的查询指令后，根据查询指令生成查询请求，并将该查询请求发送到服务器，当接收到服务器发送的查询任务结果后，将该查询任务结果输出给客户端用户进行查看，用户不需要编写查询语言，只需在查询可视化界面勾选查询指令即可实现，从而提高数据查询的高效性和实时性。

第三方面，本发明实施例提供一种数据查询装置，包括：

收发单元，用于接收来自客户端的查询请求，所述查询请求包括查询任务信息；

处理单元，用于根据所述查询任务信息生成数据模型，根据所述数据模型获得至少一个查询子任务；获取所述查询子任务的子结果，根据所述至少一个查询子任务的子结果生成查询任务结果；

所述收发单元，还用于将所述查询任务结果传输至所述客户端。

第四方面，本发明实施例提供一种数据查询装置，包括：

收发单元，用于接收查询指令；

处理单元，用于根据所述查询指令生成查询请求，所述查询请求包括查询任务信息；

所述收发单元，还用于向服务器发送所述查询请求；接收来自所述服务器的所述查询任务信息对应的查询任务结果，并输出所述查询任务结果。

第五方面，本发明实施例提供一种数据查询装置，包括处理器、存储器和通信接口，所述处理器、所述存储器和所述通信接口相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面或第二方面所描述的方法。该处理设备解决问题的实施方式以及有益效果可以参见上述第一方面或第二方面所描述的方法以及有益效果，重复之处不再赘述。

第六方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有一条或多条第一指令，所述一条或多条第一指令适于由处理器加载并执行如第一方面或第二方面所描述的方法。

第七方面，本发明实施例还提供一种数据查询系统，所述数据查询系统包括客户端以及服务器，所述服务器包括代理节点、分布式节点和计算节点；

所述客户端，用于接收查询指令，根据所述查询指令生成查询请求，所述查询请求包括查询任务信息；向所述服务器发送所述查询请求；

所述代理节点，用于接收所述查询请求，并将所述查询任务信息传输至所述分布式节点；

所述客户端，还用于输出所述查询任务结果。

在本发明实施例中，客户端在接收到查询指令后，根据查询指令生成查询请求，并将该查询请求发送到服务器，用户不需要编写查询语言，只需在查询可视化界面勾选查询指令即可实现；服务器在接收来自客户端的包括查询任务信息的查询请求后，将查询任务信息传输至分布式节点，以使分布式节点根据查询任务信息生成数据模型，从而提高数据的可拓展性。对该查询模型自动进行解析、执行计算及结果返回的流程，从而提高数据查询的高效性和实时性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据查询系统的架构图；

图2是本发明实施例提供的另一种数据查询系统的架构图；

图3本发明实施例提供的计算节点的结构示意图；

图4是本发明实施例提供的一种数据查询方法的流程示意图；

图5是本发明实施例提供的一种客户端查询可视化界面示意图；

图6是本发明实施例提供的计算节点的任务执行流程示意图；

图7a是本发明实施例提供的另一种客户端查询可视化界面示意图；

图7b是本发明实施例提供的又一种客户端查询可视化界面示意图；

图8是本发明实施例提供的另一种数据查询方法的流程示意图；

图9是本发明实施例提供的又一种数据查询方法的流程示意图；

图10是本发明实施例提供的一种任务执行流程示意图；

图11是本发明实施例提供的一种数据查询装置的结构示意图；

图12是本发明实施例提供的另一种数据查询装置的结构示意图；

图13是本发明实施例提供的又一种数据查询装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

目前，第一种交互式数据查询方法中，每次提交一个任务包，都需要服务器对该任务包进行一次资源的分配和销毁，导致查询效率极低；第二种交互式数据查询方法中，数据仓库(hive)一般会将任务解析成MapReduce的编程模式执行任务，这种编程模式作为第一代大数据查询系统，其执行效率比较低，实时性差，同时还存在查询语言(Hibernate，HQL)表达能力差，调优困难等问题。

为解决上述问题，本发明实施例提供一种数据查询方法，该数据查询方法将spark数据处理平台的程序常驻在内存，以省去每次查询时需要集群服务器重新分配资源的过程。本发明实施例还采用分布式(zookeeper)节点管理数据元(meta)数据，提高了数据的可拓展性，缩短了数据的开发周期；将基础数据和各类配置表分离，能够方便快速支持新增维度和各种自定义指标的开发，使数据查询指标更加丰富。本发明实施例还将历史计算任务信息和结果路径缓存在数据库，对于相同的任务则直接返回结果。本发明实施例中，客户端采用的是查询可视化界面，用户在提交任务时，只需在界面勾选查询任务指令，客户端则会将查询指令转化为统一的查询请求，提交至服务器。

其中，spark数据处理平台的程序可以但不限于运行在Linux系统上。所谓Spark数据处理平台是专为大规模数据处理而设计的快速通用的计算引擎，其优点主要体现在，任务中间输出结果可以保存在内存中，从而不需要读写分布式文件系统(HadoopDistributed File System，HDFS)数据库，因此，Spark数据处理平台可以更好地适用于数据挖掘、机器学习等需要迭代的算法。

上述所提及的数据查询方法可应用于如图1所示的数据查询系统中，该数据查询系统可包括客户端101及服务器102。其中，客户端101可以为以下任一种：终端、独立的应用程序、应用程序编程接口(Application Programming Interface，API)或者软件开发工具包(Software Development Kit，SDK)。终端可以是手机、个人计算机、便捷式计算机等。服务器102可以包括但不限于集群服务器。客户端101向服务器102发送查询请求，服务器102根据查询请求进行查询，并向客户端101反馈查询任务结果。

该数据查询系统可以支持千兆字节(petabyte，pb)级别的数据查询，能够实现各种自定义指标的查询。具体实现中，其整体构架图可参见图2所示：

客户端在接收到用户输入的查询指令的情况下，根据查询指令生成查询请求发送至服务器，该客户端具体可包括：前端子系统。其中，前端子系统是指客户端的子系统，用于将用户在客户端查询可视化界面上输入的查询指令解析转化为统一语言类型的查询请求，任务完成后，也可用于将查询任务结果输出至用户进行展示。服务器可以接收客户端发送的查询请求，执行并生成查询任务结果，将该查询任务结果返回至客户端；其具体可包括：代理(agent)节点、分布式(zookeeper)节点、计算节点和加载(loader)节点。其中，代理(agent)节点可以描述为代理(agent)子系统，分布式(zookeeper)节点可以描述为分布式(zookeeper)应用程序，计算节点可以描述为spark子系统，加载(loader)节点可以描述为加载(loader)子系统。

具体的，代理(agent)节点负责接收前端的查询请求，可用于在接收到查询请求之后判断任务是否命中缓存数据库，命中则直接返回结果至前端，否则将查询任务信息更新到分布式(zookeeper)节点中。

分布式(zookeeper)节点负责记录查询任务信息及任务状态，并根据查询任务信息生成数据模型。

计算节点负责在监听到所述数据模型的情况下，获取任务并执行，该计算节点可以描述为spark子系统，该子系统的结构可参见图3所示。其具体可包括：元(meta)数据模块、解析(sqlparse)模块、执行(executor)模块、监听(watch)模块，等等。其中，元(meta)数据模块用于监听同步分布式(zookeeper)节点中不同数据模型的生成。解析(sqlparse)模块用于从分布式(zookeeper)节点中解析数据模型，得到任务信息数据，根据任务信息数据生成不同的spark sql任务，并提交至任务队列。执行(executor)模块用于从任务队列中获取任务，执行任务并生成查询任务结果。监听(watch)模块用于监听计算节点中的任务进程状态，并将查询任务结果传输至分布式(zookeeper)节点中。

加载(loader)节点负责模型元(meta)数据及中间表数据的计算和导入，导入数据之后更新分布式(zookeeper)节点中的元(meta)数据信息。

请参见图4，图4为本发明实施例提供的一种数据查询方法的流程示意图。如图4所示，该数据查询方法可以包括401～410部分，其中：

401、客户端接收查询指令，根据查询指令生成查询请求。

其中，查询指令指的是用户在客户端的查询可视化界面中勾选需要计算的模型和任务的维度、指标等信息，可以理解为用户在查询可视化界面中输入的查询指令。客户端的查询可视化界面图可参见图5所示。图5中，指标可以理解为查询的目标参数，例如：指标可以包括收入、点击量、预定量；维度可以理解为查询条件，例如：维度可以包括客户名称、计价模式、广告位名称、品牌产品。用户可以在查询可视化界面自由勾选需要查询的信息。

客户端在接收到针对查询可视化界面输入的查询指令的情况下，可以将该查询指令，解析为查询请求，该查询请求携带有查询任务信息，该查询任务信息可以为统一的查询协议。示例性的，查询协议的格式可如下：

{"filter":"(res_site＝＝'QQBrowser'or res_site＝＝'qq'or res_site＝＝'qqzone'or res_site＝＝'qqmusic'or res_site＝＝'QQyuedu'or res_site＝＝'qzone'or res_site＝＝'kuwo'or res_site＝＝'QMKG'or res_site＝＝'qiedianjing'or res_site＝＝'ttps'or res_site＝＝'kuaibao'or res_site＝＝'OMG-APP-ZXG'orres_site＝＝'XYJLB'or res_site＝＝'DNGJ'or res_site＝＝'qiefm'or res_site＝＝'weiyun'or res_site＝＝'weishi2')","groupby":"month,quarter,res_site,loc_code,client_id,product_first_industry,price_mode,is_virtual_order,target_name,schedule_type,zs_sale_type","metric":"click,imp,i ncome","user":"appuser","begin_day":"20190101","end_day":"20190630"}

上述查找协议中，"res_site"可表示查询的条件范围，例如res_site＝＝'QQBrowser'，表示查询的条件范围包括qq浏览器，即在qq浏览器对应的数据中进行查询。上述查询协议中，查询的条件范围可以包括qq浏览器、qq、qq空间、qq音乐或qq阅读等等。"groupby"可表示查询的维度，例如"price_mode"，表示设置的维度可以为计价模式。上述查询协议中，维度还可以包括客户ID或售卖模式等等。"metric"可表示查询的指标，例如"click,imp,income"，表示查询的指标包括点击收入。上述查询协议中，指标还可以包括用户名或app用户名等等。"begin_day"表示查询的起始日期，"end_day"表示查询的截止日期，可以理解为，在起始日期至截止日期这段时间内查询。通过该查询协议，可以查询如：“A客户在qq浏览器中的点击收入为多少”，“A客户2019年1月1日至2019年6月30日期间，在qq浏览器中的点击收入为多少”等等。

402、客户端向代理节点发送查询请求。相应的，代理节点接收来自客户端的查询请求。

具体的，客户端在生成查询请求后，可以通过超文本传输协议(Hyper TextTransfer Protocol，HTTP)将查询请求发送给代理(agent)节点。其中，关于代理(agent)节点的描述可参见上述系统构架中对应的描述，在此不赘述。代理(agent)节点将任务信息记录在数据库之后，将任务提交至计算节点执行查询计算。可选的，代理(agent)节点还可以负责所有任务的统计和分析，例如：统计在XX时间段，有哪些用户输入了哪些查询任务，以及响应了哪些查询任务，输出了哪些查询任务的查询任务结果等等。该agent数据库任务表的设计可如表1所示：

表1

其中，该查询请求包括查询任务信息，

403、代理节点将查询任务信息传输至分布式节点。

具体的，在代理(agent)节点接收来自客户端的查询请求的情况下，还可以将查询任务信息传输至分布式(zookeeper)节点，以使分布式(zookeeper)节点根据该查询任务信息生成数据模型。

404、分布式节点根据查询任务信息生成数据模型。

具体的，在分布式(zookeeper)节点接收到查询任务信息的情况下，将任务信息写入分布式(zookeeper)节点中，并根据查询任务信息生成该查询请求的数据模型。

其中，分布式(zookeeper)节点的任务节点树的设计样例可如下：

其中，job表示任务，即查询任务。job_id_1表示任务1的id，status表示任务的执行状态，task_info表示任务信息。

具体的，zookeeper节点上保存的任务的数据模型和表的元(meta)信息的结构可如下：

其中root节点表示根节点，包括任务，任务状态，元(meta)数据模型等子节点，view_families用于记录由基本表组成的视图，model_name_1用于保存模型的基本信息，base_tables用于保存模型分区表基本信息，rollup_tables用于保存中间表基本信息，broadcast_tables用于记录各种可以根据不同主键加入的配置表,table_families用于记录各类数据模型。例如：根据订单号oid加入的配置，dict_oid的样例结构可如下：

其中，"columnName"为字段名称，"columnType"为所属类型。

上述zookeeper节点上保存的任务的数据模型和表的元信息的结构中的table_families节点下记录的是可供查询的各类数据模型，每个模型节点model_name_x上保存了该模型的基本信息，其中，x为正整数形式的模型标号，model_name_x的结构可如下：

其中，该model_name_x的结构可包括："table_name"用于表示模型表的名字，"valid_from"用于表示数据有效开始时间，模型维度，例如："loc_code"，模型指标，例如："income"，等等。每个model_name_x模型包括两个节点，base_tables节点和rollup_tables节点，base_tables节点的结构可如下：

其中，该base_tables节点的结构可包括："hdfs_path"用于表示分布式文件系统(Hadoop Distributed File System，HDFS)路径，"valid_day"用于表示有效时间，等等。

rollup_tables节点的结构可如下：

其中，该rollup_tables节点的结构可包括："hdfs_path"用于表示分布式文件系统(Hadoop Distributed File System，HDFS)路径；模型维度，例如："m_loc_code"；模型指标，例如："income"；等等。

405、计算节点在监听到数据模型的情况下，根据数据模型获得至少一个查询子任务。

具体的，可以为计算节点中的解析(sqlparse)模块解析数据模型中的初始任务信息，获得至少一个查询子任务。其中，计算节点在监听到所述数据模型的情况下，从分布式(zookeeper)节点中获取数据模型中初始状态的任务信息。解析该任务信息得到任务信息数据，并根据得到的任务信息数据生成不同的spark sql任务，该spark sql任务根据任务优先级和/或任务大小的不同提交至任务队列。其中，任务优先级和/或任务大小为任务执行先后顺序的主要依据，例如：管理员提交的任务要优先于普通用户的任务，那么优先执行管理员提交的任务；任务大的优先级低于任务小的优先级，那么优先执行小任务。其中，任务队列包括但不限于先入先出队列(First Input First Output，FIFO)、(加权公平队列Eighted Fair Queueing，FAIR)、优先级队列(Priority Queue，PQ)、可定制队列(Customized Queue,CQ)、基于类别的加权公平队列(class-based weighted fairqueuing，CBWFQ)、低延迟队列(Low Latency Queuing，LLQ)。

可选的，在解析查询任务信息之后，可以调用预设的查询模型判断解析后得到的任务信息数据是否合法。具体的，可以从元(meta)数据中获取查询模型字段，数据范围等信息，与该解析后的任务信息数据进行比对，判断该任务信息数据的格式及运行逻辑是否正确，若正确，则认为该任务信息数据合法，继续执行计算子任务的子结果，若不正确，则认为该任务信息数据不合法，返回执行失败结果，即向客户端反馈查询失败的指示信息。若合法，则对该任务信息数据进行拆分，得到至少一个查询子任务。具体的，当查询任务为视图查询时，可以根据分区(年、月、日等)拆分到不同分区的子任务，子任务生成不同的子sparksql，并根据任务模型，时间跨度，维度，子任务优先级等选择不同的队列提交执行(executor)模块执行计算，可选的，还可以选择查询表，并在子任务提交计算时，加入字典表、收入表，等等。

基于该可选方式，服务器可以先判断查询任务信息是否合法，若合法，再继续执行计算，不合法，则返回执行失败结果，从而节约了服务器资源，无需进行不必要的查询工作，提高了查询效率。

406、计算节点获取查询子任务的子结果，根据至少一个查询子任务的子结果生成查询任务结果。

具体的，可以为执行(executor)模块在执行计算之后，生成至少一个查询子任务的子结果，并将至少一个查询子任务的子结果根据查询字段聚合生成查询任务结果。

可选的，上述根据至少一个查询子任务的子结果生成查询任务结果，可以根据至少两个查询字段的排序对至少一个查询子任务的子结果进行排序，根据排序后的至少一个查询子任务的子结果生成查询任务结果

基于该可选方式，在执行包含至少一个子任务查询时，可以提高查询的效率及准确性。

可选的，可以通过加载(loader)节点计算中间表数据和导入，中间表主要可以用在以下情形：①一个sql任务很难实现的复杂计算，需要至少两个sql任务实现，则前面生成中间表可以给后面sql任务使用；②实时计算时间等待过程，可以将计算好的数据存入中间表，便于查询；③需要来自于外部的多样性数据源与数据库内数据进行混合计算时，可以导入数据库形成中间表。此处加载(loader)节点在导入中间表数据后，可以更新分布式(zookeeper)节点上的信息，具体可以为更新分布式(zookeeper)节点上base_tables节点和rollup_tables节点的信息。

基于该可选方式，将数据信息集合并抽象成不同的数据模型，采用分布式(zookeeper)节点所包含的不同节点分别储存该数据模型中的不同类型数据信息，将基础数据和各类配置表分离，提高了数据的可拓展性，缩短了数据的开发周期，能够方便快速支持新增维度和各种自定义指标的开发。

407、计算节点将查询任务结果传输至分布式节点。

具体的，计算节点中的监听(watch)模块监控任务的进行状态，并将任务状态更新到分布式(zookeeper)节点上。

可选的，计算节点可将数据同时加载至分布式文件系统(Hadoop DistributedFile System，HDFS)。

在步骤405、406及407中，计算节点执行任务的工作流程可参见图6所示。其中，关于计算节点及其包含的模块的描述可参见上述系统构架中对应的描述，在此不赘述。

408、分布式节点将查询任务结果传输至所述代理节点。

具体的，分布式(zookeeper)节点可以记录该查询任务结果，在代理(agent)节点监听到有生成的查询任务结果记录在分布式(zookeeper)节点的情况下，从分布式(zookeeper)节点获取任务结果，并将结果记录到数据库中，可选的，分布式(zookeeper)节点在将查询任务结果传输至所述代理(agent)节点的情况下，还可以从分布式(zookeeper)节点上删除执行该任务请求所调用的节点。

409、代理节点传输查询任务结果至客户端。相应的，客户端接收来自代理节点的查询任务结果。

具体的，可以为代理(agent)节点将查询任务结果返回至前端子模块。

可选的，客户端发送查询请求至服务器时，该查询请求还可以包括查询任务结果显示类型，具体的，在发送查询任务结果时，需要按照任务结果显示类型的指示发送指定类型的任务结果至客户端，该显示类型包括但不限于各种数据计算结果，图表分析结果。例如：折线图、饼图、柱状图，等等。

基于该可选方式，用户可以自定义输出类型，使输出结果更具多元化，满足不同用户的查询需求。

410、客户端输出查询任务结果。

具体地，客户端在接收到来自代理节点的查询任务结果的情况下，输出查询任务结果，即在客户端界面中显示查询任务结果。用户输入查询指令与客户端输出查询任务结果的查询可视化界面图可分别参见图7a和图7b。其中，查询任务结果可包括：任务id，任务名称，任务类型，任务开始时间，任务状态，等等。同时也存在下载接口及其他操作接口。该查询可视化界面图可以为xx系统的客户端界面图，该xx系统可以通过本发明中的系统和方法实现，其可以服务于销售管理部、商务运营部、各媒体商业化等广告业务部门，成为商业洞察、辅助决策的重要伙伴。需要说明的是，图7b所显示的用户角色以及账户余额用于举例，并不构成对本发明实施例的限定，实际中可以不存在或存在账户余额。

可见，通过实施图4所描述的方法，用户不需要编写查询语言，只需在查询可视化界面操作生成查询指令，服务器在接收到查询任务信息后自动进行解析、执行计算及结果返回操作，提高了数据查询的高效性和实时性。

请参见图8，是本发明另一种实施例提供的数据查询方法的流程示意图，请参见图8，该数据查询方法可包括以下步骤801～809。其中：

801、客户端向代理节点发送查询请求。相应的，代理节点接收来自客户端的查询请求。

步骤801的具体实现方式可参见上述步骤402的描述，在此不赘述。

802、代理节点判断缓存数据库中是否存在与查询任务信息匹配的查询任务结果。

具体的，缓存数据库中包括至少一个已经查询的查询任务信息，及已经查询的查询信息对应的查询任务结果路径。代理(agent)节点在接收到查询请求的情况下，判断缓存数据库中是否存在与查询任务信息匹配的查询任务结果。若缓存数据库中，不存在与查询任务信息相同的目标查询任务信息，同时查询任务信息也不被包含于目标查询任务信息中，即查询任务信息不属于目标查询任务信息的子集。则确定缓存数据库中不存在与所述查询任务信息匹配的查询任务结果，则继续执行步骤803。

803、代理节点将查询任务信息传输至分布式节点。

804、分布式节点根据查询任务信息生成数据模型。

805、计算节点在监听到数据模型的情况下，根据数据模型获得至少一个查询子任务。

806、计算节点获取查询子任务的子结果，根据至少一个查询子任务的子结果生成查询任务结果。

807、计算节点将查询任务结果传输至分布式节点。

808、分布式节点将查询任务结果传输至所述代理节点。

809、代理节点传输查询任务结果至客户端。相应的，客户端接收来自代理节点的查询任务结果。

步骤803～809的具体实现方式可参见上述步骤403～409的描述，在此不赘述。

可见，通过实施图8所描述的方法，服务器可以先判断查询任务是否命中缓存，若没有命中缓存，则继续触发执行解析查询任务信息步骤，减少了不必要的资源分配，提高了数据查询的实时性和高效性。

举例来说：

用户A需要查询自己在QQ浏览器、qq阅读中的点击收入有多少，则用户A在客户端的界面的设置维度中设置了客户名称为用户A的id，勾选了QQ浏览器、qq阅读的选项，同时，将指标设置为点击、收入，勾选完成后提交任务，并将输出结果设定为柱状图。客户端将用户A的任务提交至服务器，服务器在接收到用户A的查询任务后，先判断数据库中是缓存有“用户A在QQ浏览器、qq阅读中的点击收入有多少”或者包含此查询任务，例如：“用户A在QQ浏览器、qq阅读、qq空间中的点击收入有多少”的任务结果，如果没有，则执行数据查询，查询到用户A在QQ浏览器、qq阅读中的点击收入分别为1000元和2000元，则将查询结果返回给客户端。用户A在客户端的界面中看到任务状态为计算成功，则点击下载任务结果图标，任务结果以柱状图形式展示用户A在QQ浏览器、qq阅读中的点击收入的情况。

请参见图9，是本发明又一种实施例提供的数据查询方法的流程示意图，请参见图9，该数据查询方法可包括以下步骤901～906。其中：

901、客户端接收查询指令，根据查询指令生成查询请求。

902、客户端向代理节点发送查询请求。相应的，代理节点接收来自客户端的查询请求。

步骤901～902的具体实现方式可参见上述步骤401～402的描述，在此不赘述。

903、代理节点判断缓存数据库中是否存在与查询任务信息完全相同的目标查询任务信息。

具体的，可以为代理(agent)节点判断缓存数据库中是否存在与查询任务信息完全相同的目标查询任务信息。其中，对于缓存数据库的描述可以参见上述步骤802的描述。若缓存数据库中存在与查询任务信息完全相同的目标查询任务信息，则确定缓存数据库中存在与查询任务信息匹配的查询任务结果，并执行步骤905。若不存在，则继续执行步骤904。

904、代理节点判断缓存数据库中是否存在包括查询任务信息的目标查询任务信息。

具体的，可以为代理(agent)节点判断缓存数据库中是否存在包括查询任务信息的目标查询任务信息。例如：查询任务信息所对应的查询指令为A客户在QQ浏览器中的点击收入为多少等数据，目标查询任务信息的查询指令存在有：A客户在QQ浏览器、qq阅读、qq空间中的点击收入分别为多少的查询任务结果，则也可以将提取该查询任务信息匹配的查询任务结果，并将该查询任务结果发送至客户端，即执行步骤905。若不存在，则执行上述步骤403～406。

其中，步骤903可在步骤904之前执行，或者步骤903可在步骤904之后执行，本申请实施例不做限定。

905、代理节点传输查询任务结果至客户端。相应的，客户端接收来自代理节点的查询任务结果。

906、客户端输出查询任务结果。

步骤905、906的具体实现方式可参见上述步骤409、410的描述，在此不赘述。

具体实现中，步骤901～906的整体流程示意图可参见图10所示。其中，一级缓存为与查询任务信息完全相同的目标查询任务信息所在的缓存集合，即步骤903中描述的缓存情况。二级缓存为包括查询任务信息的目标查询任务信息所在的缓存集合，即步骤904中描述的缓存情况。可选的，可以预设一级缓存及二级缓存的有效时间，当超过一级缓存及二级缓存的有效时间时，则不能在缓存数据库中查询到已超出有效时间的查询任务结果，则需要执行上述步骤403～410。从而实现了缓存数据库中数据的定期更新，避免了不需要的缓存集合占用空间，提高了数据查询的高效性和实时性。

可见，通过实施图9所描述的方法，代理(agent)节点在接收到查询任务信息后，可以先判断是否命中缓存，若命中，则直接返回结果，否则再执行查询计算，此方法能够减少不必要的计算操作，节约了服务器资源，提高了查询速度，从而提高了数据查询的高效性和实时性。

基于上述方法实施例的描述，本发明实施例还提出了一种数据查询装置。该数据查询装置可以是运行于处理设备中的计算机程序(包括程序代码)；请参见图11所示，该数据查询装置可以运行如下单元：

收发单元1101，用于接收来自客户端的查询请求，所述查询请求包括查询任务信息；

处理单元1102，用于根据所述查询任务信息生成数据模型，根据所述数据模型获得至少一个查询子任务，并获取所述查询子任务的子结果，根据所述至少一个查询子任务的子结果生成查询任务结果；

所述收发单元1101，还用于将所述查询任务结果传输至所述客户端。

在一种实施方式中，所述查询任务信息包括至少两个查询字段；所述根据所述至少一个查询子任务的子结果生成查询任务结果，处理单元1102，可用于根据所述至少两个查询字段的排序对所述至少一个查询子任务的子结果进行排序；

根据排序后的所述至少一个查询子任务的子结果生成所述查询任务结果。

再一种实施方式中，所述根据所述数据模型获得至少一个查询子任务，处理单元1102，可用于解析所述数据模型，得到任务信息数据；

调用预设的查询模型判断所述任务信息数据是否合法；

在通过预设的查询模型确定所述任务信息数据是合法的情况下，根据所述预设的查询模型对所述任务信息数据进行拆分，得到至少一个查询子任务。

再一种实施方式中，所述查询请求还包括结果显示类型；所述将所述查询任务结果传输至所述客户端，收发单元1101，可用于按照所述结果显示类型将所述查询任务结果传输至所述客户端。

再一种实施方式中，处理单元1102，可用于若缓存数据库中不存在与所述查询任务信息匹配的查询任务结果，则触发执行根据所述查询任务信息生成数据模型的步骤。

再一种实施方式中，处理单元1102，可用于若缓存数据库中存在与所述查询任务信息完全相同的目标查询任务信息，则确定所述缓存数据库中存在与所述查询任务信息匹配的查询任务结果；

或，若缓存数据库中存在包括所述查询任务信息的目标查询任务信息，则确定所述缓存数据库中存在与所述查询任务信息匹配的查询任务结果。

根据本发明的一个实施例，图4、图8及图9所示的数据查询方法所涉及的部分步骤可由数据查询装置中的各个单元来执行。例如，图4中所示的步骤404和405可由处理单元1102执行；又如，图4所示的步骤401和402可由收发单元1101执行。据本发明的另一个实施例，数据查询装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。

基于上述方法实施例的描述，本发明实施例还提出了一种数据查询装置。该数据查询装置可运行于区块链中，该数据查询装置可以是运行于处理设备中的计算机程序(包括程序代码)；请参见图12所示，该数据查询装置可以运行如下单元：

收发单元1201，用于接收查询指令；

处理单元1202，用于根据所述查询指令生成查询请求，所述查询请求包括查询任务信息；

所述收发单元1201，还用于向服务器发送所述查询请求；接收来自所述服务器的所述查询任务信息对应的查询任务结果，并输出所述查询任务结果。

需要说明的是，图12对应的实施例中未提及的内容以及各个单元执行步骤的具体实现方式可参见图4、图8及图9中所示实施例以及前述内容，这里不再赘述。

请参见图13，是本发明实施例提供的一种数据查询装置的结构示意图，该数据查询设备包括处理器1301、存储器1302以及通信接口1303，处理器1301、存储器1302以及通信接口1303通过至少一条通信总线连接，处理器1301被配置为支持处理设备执行图4、图8及图9方法中处理设备相应的功能。

存储器1302用于存放有适于被处理器加载并执行的至少一条指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。

通信接口1303用于接收数据和用于发送数据。例如，通信接口1303用于发送查询请求等。

在本发明实施例中，该处理器1301可以调用存储器1302中存储的程序代码以执行以下操作：

通过通信接口1303接收来自客户端的查询请求，所述查询请求包括查询任务信息；

根据所述查询任务信息生成数据模型；

根据所述数据模型获得至少一个查询子任务，并获取所述查询子任务的子结果，根据所述至少一个查询子任务的子结果生成查询任务结果；

通过通信接口1303将所述查询任务结果传输至所述客户端。

作为一种可选的实施方式，所述查询任务信息包括至少两个查询字段；所述根据所述至少一个查询子任务的子结果生成查询任务结果，该处理器1301还可以调用存储器1302中存储的程序代码以执行以下操作：

根据所述至少两个查询字段的排序对所述至少一个查询子任务的子结果进行排序；

作为一种可选的实施方式，所述根据所述数据模型获得至少一个查询子任务，该处理器1301还可以调用存储器1302中存储的程序代码以执行以下操作：

解析所述数据模型，得到任务信息数据；

调用预设的查询模型判断解析后的所述任务信息数据是否合法；

在通过预设的查询模型确定所述任务信息数据是合法的情况下，根据所述预设的查询模型对解析后的所述任务信息数据进行拆分，得到至少一个查询子任务。

作为一种可选的实施方式，所所述查询请求还包括结果显示类型；所述将所述查询任务结果传输至所述客户端，该处理器1301还可以调用存储器1302中存储的程序代码以执行以下操作：

通过通信接口1303按照所述结果显示类型将所述查询任务结果发送至所述客户端。

作为一种可选的实施方式，该处理器1301还可以调用存储器1302中存储的程序代码以执行以下操作：

若缓存数据库中不存在与所述查询任务信息匹配的查询任务结果，则触发执行根据所述查询任务信息生成数据模型的步骤。

若缓存数据库中存在与所述查询任务信息完全相同的目标查询任务信息，则确定所述缓存数据库中存在与所述查询任务信息匹配的查询任务结果；

进一步地，处理器1301还可以与通信接口1303相配合，执行图4、图8及图9中所示实施例中对应的操作，具体可参见方法实施例中的描述，在此不再赘述。

通过通信接口1303接收查询指令，根据所述查询指令生成查询请求，所述查询请求包括查询任务信息；

通过通信接口1303向服务器发送所述查询请求；

通过通信接口1303接收来自所述服务器的所述查询任务信息对应的查询任务结果，并输出所述查询任务结果。

本发明实施例还提供了一种计算机可读存储介质(Memory)，可以用于存储图4、图8及图9中所示实施例中处理设备所用的计算机软件指令，在该存储空间中还存放了适于被处理器加载并执行的至少一条指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。

上述计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据查询方法，其特征在于，所述方法应用于服务器，所述服务器包括代理节点、分布式节点和计算节点，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述查询任务信息包括至少两个查询字段；

所述计算节点根据所述至少一个查询子任务的子结果生成查询任务结果时，具体用于：

3.根据权利要求1所述的方法，其特征在于，所述计算节点根据所述数据模型获得至少一个查询子任务时，具体用于：

解析所述数据模型，得到任务信息数据；

4.根据权利要求1所述的方法，其特征在于，所述查询请求还包括结果显示类型；

所述代理节点将所述查询任务结果传输至所述客户端时，具体用于：

按照所述结果显示类型将所述查询任务结果传输至所述客户端。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述代理节点，具体用于若缓存数据库中不存在与所述查询任务信息匹配的查询任务结果，则将所述查询任务信息传输至所述分布式节点。

6.根据权利要求5所述的方法，其特征在于，所述代理节点，还用于：

7.一种数据查询方法，其特征在于，所述方法应用于客户端，所述方法包括：

向服务器发送所述查询请求；

8.一种数据查询系统，其特征在于，所述数据查询系统包括客户端以及服务器，所述服务器包括代理节点、分布式节点和计算节点；

所述代理节点，还用于将所述查询任务结果传输至所述客户端；

所述客户端，还用于输出所述查询任务结果。

9.根据权利要求8所述的系统，其特征在于，所述计算节点包括：元数据模块、解析模块、执行模块和监听模块；

所述元数据模块，用于监听所述数据模型的生成；

所述解析模块，用于根据所述数据模型获得至少一个查询子任务；

所述执行模块，用于获取所述查询子任务的子结果，根据所述至少一个查询子任务的子结果生成查询任务结果；

所述监听模块，用于将所述查询任务结果传输至所述分布式节点。

10.根据权利要求8所述的系统，其特征在于，所述代理节点，具体用于若缓存数据库中不存在与所述查询任务信息匹配的查询任务结果，则将所述查询任务信息传输至所述分布式节点。