CN111221883A

CN111221883A - 数据统计方法及系统

Info

Publication number: CN111221883A
Application number: CN201811439051.9A
Authority: CN
Inventors: 袁艳
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-06-02
Anticipated expiration: 2038-11-27
Also published as: CN111221883B

Abstract

本公开提供一种数据统计方法及系统，涉及数据统计技术领域。本公开提供的数据统计方法及系统，通过接收用户下发的查询条件，得到查询条件包括的多个固定字段，根据多个固定字段中的数据类型字段查询关系型数据库表中是否存在根据接收到的查询条件查询hive表的查询记录；其中，如果不存在查询记录，则判定关系型数据库表中不存在hive表，并建立第一hive表，同时获取多个固定字段对应的数据统计结果，将数据统计结果插入第一hive表中，以从第一hive表查询数据统计结果，提高数据处理的可扩展性；如果存在查询记录，则根据多个固定字段查询关系型数据库表中是否存在目标hive表，如果存在目标hive表，则从目标hive表中查询数据统计结果，提高数据统计处理效率。

Description

数据统计方法及系统

技术领域

本公开涉及数据统计技术领域，具体而言，涉及一种数据统计方法及系统。

背景技术

当前是数据的时代，各种各样的数据堆积成山，如何在这些杂乱无章的数据中找出有规律的、基于某些统计字段的统计数据显得越来越重要。统计报表数据能够为决策、研究、分析等提供重要依据。但是，目前对于数据的统计处理可扩展性较差，效率低且成本较高。

发明内容

有鉴于此，本公开提供一种数据统计方法及系统。

本公开提供一种数据统计方法，应用于数据统计系统；所述方法包括：

接收用户下发的查询条件，得到所述查询条件包括的多个固定字段，所述多个固定字段中包括数据类型字段，所述多个固定字段根据数据的属性归类整理得到。

根据所述数据类型字段查询预存的关系型数据库表中是否存在根据接收到的所述查询条件查询hive表的查询记录，所述关系型数据库表用于存储根据各查询条件查询hive表的多条查询记录。

如果不存在所述查询记录，则判定所述关系型数据库表中不存在所述hive表，并建立第一hive表，获得与所述多个固定字段对应的数据统计结果并插入所述第一hive表中，以从所述第一hive表查询数据统计结果；所述数据统计系统预存有与多个固定字段对应的数据统计结果。

如果存在所述查询记录，则根据所述多个固定字段查询所述关系型数据库表中是否存在根据用户下发的查询条件对应的目标hive表，如果存在对应的目标hive表，从所述目标hive表中查询数据统计结果。

进一步的，所述多个固定字段还包括开始时间、结束时间、报表类型以及统计字段；如果不存在所述查询记录，则判定所述关系型数据库表中不存在所述hive表，并建立第一hive表，获得所述多个固定字段对应的数据统计结果并插入所述第一hive表中，以从所述第一hive表查询数据统计结果的步骤包括：

根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成建立hive表的语句，调用hive接口，基于所述建立hive表的语句进行建表操作，得到所述第一hive表。

根据所述查询条件中的统计字段生成插入语句，获得与所述查询条件中的统计字段对应的数据统计结果，调用所述hive接口，基于所述插入语句，将所述查询条件中的统计字段对应的数据统计结果按照预设格式插入至所述第一hive表中。

将所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段以及所述第一hive表的表名按照预设表格格式存入至所述关系型数据库表中。

根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成与所述第一hive表对应的查询语句，根据所述查询语句，从所述第一hive表查询数据统计结果。

进一步的，所述统计字段包括多个子信息，如果所述查询记录存在，则根据所述多个固定字段查询所述关系型数据库表中是否存在根据用户下发的查询条件对应的目标hive表，如果存在对应的目标hive表，从所述目标hive表中查询数据统计结果的步骤包括：

从所述关系型数据库表中查询出所有与所述数据类型字段相同的数据结果。

将每一个所述数据结果中的统计字段与所述查询条件中的统计字段进行匹配。

判断所述查询条件中的统计字段的子信息的个数是否比所有的所述数据结果中的统计字段的子信息的个数多。

如果所述查询条件中的统计字段的子信息的个数比所有的所述数据结果中的统计字段的子信息的个数多，根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成建立hive表的语句，调用所述hive接口，基于所述建立hive表的语句进行建表操作，得到第二hive表。

根据所述查询条件中的统计字段生成插入语句，获取与所述查询条件中的统计字段对应的数据统计结果，调用所述hive接口，基于所述插入语句，将所述查询条件中的统计字段对应的数据统计结果按照预设格式插入至所述第二hive表中。

将所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段以及所述第二hive表的表名按照预设表格格式存入至所述关系型数据库表中。

根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成与所述第二hive表对应的查询语句，根据所述查询语句，从所述第二hive表查询数据统计结果。

进一步的，如果所述查询条件中的统计字段的子信息的个数比其中至少一个所述数据结果中的统计字段的子信息的个数少且所述查询条件中的统计字段的子信息包含于其中至少一个所述数据结果中的统计字段的子信息，所述方法还包括：

获取统计字段的子信息的个数最少且包含所述查询条件中的统计字段的子信息的数据结果对应的第三hive表的表名。

根据所述第三hive表的表名、所述查询条件中的数据类型以及报表类型字段查询所述关系型数据库表中的查询记录。

进一步的，如果根据所述第三hive表的表名、所述查询条件中的数据类型以及报表类型字段无法查询所述关系型数据库表中的查询记录，所述方法还包括：

根据所述查询条件中的开始时间、结束时间、数据类型、报表类型字段以及所述第三hive表中的统计字段，生成插入语句，调用所述hive接口，将所述第三hive表中的统计字段对应的数据统计结果按照预设格式插入到所述第三hive表中。

将所述查询条件中的开始时间、结束时间、数据类型、报表类型字段所述第三hive表中的统计字段以及所述第三hive表的表名按照预设表格格式存入至所述关系型数据库表中。

根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成与所述第三hive表对应的查询语句，根据所述查询语句，从所述第三hive表中查询数据统计结果。

进一步的，如果根据所述第三hive表的表名、所述查询条件中的数据类型以及报表类型字段查询得到所述关系型数据库表中的查询记录，所述方法还包括：

将所述查询条件中的开始时间和结束时间与每一个所述数据结果中的开始时间和结束时间进行匹配。

判断所述查询条件中的开始时间和结束时间对应的时间段是否属于所述数据结果中的开始时间和结束时间对应的时间段。

如果所述查询条件中的开始时间和结束时间对应的时间段属于所述数据结果中的开始时间和结束时间对应的时间段。

进一步的，如果所述查询条件中的开始时间和结束时间对应的时间段不属于所述数据结果中的开始时间和结束时间对应的时间段，所述方法还包括：

根据所述查询条件中的开始时间、结束时间、数据类型、报表类型字段、所述第三hive表中的统计字段以及所述查询条件中的开始时间和结束时间对应的时间段，生成插入语句，调用所述hive接口，将所述第三hive表中的统计字段对应的数据统计结果按照预设格式插入到所述第三hive表中。

将所述查询条件中的开始时间、结束时间、数据类型以及报表类型字段、所述第三hive表中的统计字段以及所述第三hive表的表名按照预设表格格式存入至所述关系型数据库表中。

进一步的，如果所述查询条件中的开始时间和结束时间对应的时间段部分属于所述数据结果中的开始时间和结束时间对应的时间段，则将所述查询条件中的开始时间和结束时间对应的时间段拆分为属于时间段和不属于时间段。

进一步的，将所述查询条件中的开始时间和结束时间对应的时间段拆分为属于时间段和不属于时间段后，所述方法还包括：

对于不属于时间段，根据所述查询条件中的开始时间、结束时间、数据类型、报表类型字段、所述第三hive表中的统计字段以及所述查询条件中的开始时间和结束时间对应的不属于时间段，生成插入语句，调用所述hive接口，将所述第三hive表中的统计字段对应的数据按照预设格式插入到所述第三hive表中。

将所述查询条件中的开始时间和结束时间对应的不属于时间段、数据类型、报表类型字段、所述第三hive表中的统计字段以及所述第三hive表的表名按照预设表格格式存入至所述关系型数据库表中。

本公开提供一种数据统计系统，所述数据统计系统包括接收模块、存储模块、处理模块以及查询模块。

所述接收模块用于接收用户下发的查询条件，得到所述查询条件包括的多个固定字段，所述多个固定字段中包括数据类型字段，所述多个固定字段根据数据的属性归类整理得到。

所述存储模块存储有关系型数据库表以及与多个固定字段对应的数据统计结果；所述关系型数据库表用于存储根据各查询条件查询hive表的多条查询记录。

所述处理模块用于根据所述数据类型字段查询预存的关系型数据库表中是否存在根据接收到的所述查询条件查询hive表的查询记录。

如果所述查询记录不存在，所述处理模块用于判定所述关系型数据库表中不存在所述hive表，并建立第一hive表，获得与所述多个固定字段对应的数据统计结果并插入所述第一hive表中，以使所述查询模块从所述第一hive表查询数据统计结果。

如果所述查询记录存在，所述处理模块用于根据所述多个固定字段查询所述关系型数据库表中是否存在根据用户下发的查询条件对应的目标hive表，如果存在对应的目标hive表，所述查询模块用于从所述目标hive表中查询数据统计结果。

本公开提供的数据统计方法及系统，通过接收用户下发的查询条件，得到查询条件包括的多个固定字段，根据多个固定字段中的数据类型字段查询预存的关系型数据库表中是否存在根据接收到的查询条件查询hive表的查询记录；其中，如果不存在查询记录，则判定关系型数据库表中不存在hive表，并建立第一hive表，同时获取多个固定字段对应的数据统计结果，将数据统计结果插入第一hive表中，以从第一hive表查询数据统计结果，提高数据的处理效率及可扩展性；如果存在查询记录，则根据多个固定字段查询关系型数据库表中是否存在根据用户下发的查询条件对应的目标hive表，如果存在对应的目标hive表，则从目标hive表中查询数据统计结果，进而降低数据统计处理的成本以及提高数据统计处理的效率。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开所提供的数据统计系统的方框示意图。

图2为本公开所提供的数据统计方法的一种流程示意图。

图3为本公开所提供的数据统计方法的另一种流程示意图。

图4为本公开所提供的数据统计方法的又一种流程示意图。

图5为本公开所提供的数据统计方法的又一种流程示意图。

图6为本公开所提供的数据统计方法的又一种流程示意图。

图7为本公开所提供的数据统计方法的又一种流程示意图。

图8为本公开所提供的数据统计方法的又一种流程示意图。

图标：100-数据统计系统；10-接收模块；20-存储模块；30-处理模块；40-查询模块。

具体实施方式

下面将结合本公开中附图，对本公开中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

当前是数据的时代，各种各样的数据堆积成山，如何在这些杂乱无章的数据中找出有规律的、基于某些统计字段的统计数据显得越来越重要。统计报表数据能够为决策、研究、分析等提供重要依据。

目前，对数据的统计处理大多先从历史数据中一段时间一段时间的查询出所有数据，然后将每条数据根据如下表格式插入临时表中，效率低，且成本高。以过车数据为例，先从历史数据中一段时间一段时间的查询出所有数据，然后将每条数据根据如下表格式插入临时表Table1中，即每条数据按照卡口编码+车道+车辆类型的格式插入临时表Table1中，timestamp是直接用每条数据的过车时间，value是用每条数据的车辆速度。

其中，tollgate_code表示卡口编码；lane_index表示车道；vehicle_type表示车辆类型；timestamp表示时间戳；vehicle_speed表示车辆速度。

如果需要统计小时报表，则上一步中的一段时间为一个小时，然后将临时表Table1中的数据进行一小时一小时的汇总，然后插入到表Table2中，表Table2中每条数据仍按照卡口编码+车道+车辆类型的格式插入，timestamp是整小时的时间点，value value是这一小时内的所有过车数据速度的平均值和过车数据的总数量的组合值。Table2如下：

其中，tollgate_code表示卡口编码；lane_index表示车道；vehicle_type表示车辆类型；timestamp表示时间戳；average_speed表示车辆平均速度。

Table1和Table2的区别在于Table1的timestamp是直接用每条数据的过车时间，value是用每条数据的车辆速度；而Table2的timestamp是整小时的时间点，value是这一小时内的所有过车数据速度的平均值和过车数据的总数量的组合值。

如果还需要统计日报、周报、月报、年报等，就需要再新建表，然后把表Table1的数据进行相应汇总再插入到对应的表中。流程需要重新开发，运行时对系统的开销也大，成本较高。除此之外，上述整个统计流程中除了卡口编码和车道号，只能对车辆类型的数据进行统计。如果还需要对车牌颜色、违法类型等进行统计，就需要将上述流程重新走一遍，表也要新建，开发量较大，也影响系统的性能。

上述整个统计流程的主要存在三个缺点，一是可扩展性差，不管是报表维度上的时报、日报、周报、月报、年报等，还是统计字段维度上的车辆类型、车牌颜色、违法类型等，都是需要重新建表，重新启进程或线程去做，这对系统的计算和内存的开销都比较大。而且不管是报表维度还是统计字段维度，都做不到任意化，都是固定的，如果需要增加一个新的报表类型或者统计字段，都需要重新开发，工作量极大。二是实时性差，由于上述整个统计流程是用定时任务从大量历史数据中查询出需要时间段的数据，然后先存入临时表，再从临时表将数据汇总到需要的报表。定时任务来定时的做统计数据决定了这种方案的实时性不高。三是开销大、成本高，如果在报表维度的报表类型和统计字段维度上的统计字段都比较多时，由于这个流程会做大量的重复工作，所以对系统的开销会比较大。而且，是由于使用定时任务事先将统计数据做好，再从这些统计数据中查询统计结果，这也会增加系统的开销。

基于上述研究，本公开提供一种数据统计方法及系统，以改善上述问题。

请结合参阅图1，本公开所提供的数据统计方法应用于图1所示的数据统计系统100，所述数据统计系统100包括接收模块10、存储模块20、处理模块30以及查询模块40。

所述接收模块10用于接收用户下发的查询条件，得到所述查询条件包括的多个固定字段，所述多个固定字段中包括数据类型字段，所述多个固定字段根据数据的属性归类整理得到。

所述存储模块20存储有关系型数据库表以及与多个固定字段对应的数据统计结果；所述关系型数据库表用于存储根据各查询条件查询hive表的多条查询记录。

所述处理模块30用于根据所述数据类型字段查询预存的关系型数据库表中是否存在根据接收到的所述查询条件查询hive表的查询记录。

如果所述查询记录不存在，所述处理模块30用于判定所述关系型数据库表中不存在所述hive表，并建立第一hive表，获得所述多个固定字段对应的数据统计结果并插入所述第一hive表中，以使所述查询模块40从所述第一hive表查询数据统计结果。

如果所述查询记录存在，所述处理模块30用于根据所述多个固定字段查询所述关系型数据库表中是否存在根据用户下发的查询条件对应的目标hive表，如果存在对应的目标hive表，所述查询模块40用于从所述目标hive表中查询数据统计结果。

请结合参阅图2，图2为本公开所提供的数据统计方法的流程示意图。下面对图2所示的流程示意图进行具体阐述。

步骤S10：接收用户下发的查询条件，得到所述查询条件包括的多个固定字段。

其中，所述查询条件由用户下发，所述查询条件包括多个固定字段，所述多个固定字段中包括数据类型字段，所述多个固定字段根据数据的属性归类整理得到。通过所述数据类型字段在查询数据统计结果时，可在用户下发的查询条件中动态设置，因此，通用性较高，不需要对新加的数据类型做过多的统计相关的处理，包括重新开发统计流程，建立统计相关的表等操作。

步骤S20：根据所述数据类型字段查询预存的关系型数据库表中是否存在根据接收到的所述查询条件查询hive表的查询记录，如果不存在所述查询记录，执行步骤S30；如果存在所述查询记录，执行步骤S40。

其中，所述关系型数据库表用于存储根据各查询条件查询hive表的多条查询记录。所述关系型数据库表中存储的根据各查询条件查询hive表的多条查询记录，每条记录包括了查询hive表的查询条件以及hive表的表名。所述关系型数据库表的存储格式如下：

步骤S30：判定所述关系型数据库表中不存在所述hive表，并建立第一hive表，获得与所述多个固定字段对应的数据统计结果并插入所述第一hive表中，以从所述第一hive表查询数据统计结果。

其中，所述数据统计系统100预存有与多个固定字段对应的数据统计结果，如果根据用户下发的查询条件中的数据类型字段无法查询到hive表的查询记录，则判定所述关系型数据库表中不存在根据该查询条件查询过的hive表，并建立第一hive表，然后在所述数据统计系统100中获取所述多个固定字段对应的数据统计结果，在获取所述多个固定字段对应的数据统计结果后，将所述多个固定字段对应的数据统计结果插入所述第一hive表中，以从所述第一hive表直接查询数据统计结果，提高数据的处理可扩展性以及查询效率。

步骤S40：根据所述多个固定字段查询所述关系型数据库表中是否存在根据用户下发的查询条件对应的目标hive表。

其中，如果所述查询记录存在，则所述关系型数据库表中存在hive表，但是根据所述数据类型字段在所述关系型数据库表中查询得到的hive表可能是一个或多个，可能不是需要的目标hive表，因此还需要根据所述多个固定字段查询所述关系型数据库表中是否存在根据用户下发的查询条件对应的目标hive表，在根据所述多个固定字段在所述关系型数据库表中查询匹配到对应的目标hive表，则从所述目标hive表中查询数据统计结果，提高查询速度，降低系统开销及成本。

进一步的，请结合参阅图3，所述多个固定字段还包括开始时间、结束时间、报表类型以及统计字段；如果不存在所述查询记录，则判定所述关系型数据库表中不存在所述hive表，并建立第一hive表，获得所述多个固定字段对应的数据统计结果并插入所述第一hive表中，以从所述第一hive表查询数据统计结果的步骤包括以下步骤。

步骤S31：根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成建立hive表的语句，调用hive接口，基于所述建立hive表的语句进行建表操作，得到所述第一hive表。

其中，在判定所述关系型数据库表中不存在所述hive表后，根据用户下发的查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成建立hive表的语句，调用hive接口，进行建表操作，得到所述第一hive表以及所述第一hive表的表名。

步骤S32：根据所述查询条件中的统计字段生成插入语句，获得与所述查询条件中的统计字段对应的数据统计结果，调用所述hive接口，基于所述插入语句，将所述查询条件中的统计字段对应的数据统计结果按照预设格式插入至所述第一hive表中。

其中，在根据所述查询条件中的统计字段生成插入语句后，查询并获取所述查询条件中的统计字段对应的数据统计结果，调用所述hive接口，将所述查询条件中的统计字段对应的数据统计结果按照预设格式插入至所述第一hive表中，所述预设格式可根据用户实际情况而设定，例如，在本公开中，以过车数据为例，统计字段可以为卡口编码+车辆类型，那么统计字段对应数据统计结果则按卡口编码+车辆类型的格式插入至所述第一hive表中；再例如，在本公开中，统计字段为车道+车辆类型，那么统计字段对应数据统计结果则按车道+车辆类型的格式插入至所述第一hive表中。

通过所述统计字段在查询数据统计结果时，可在用户下发的查询条件中动态设置，因此，灵活性较高，不依赖于配置或者需要事先做出该统计字段的统计结果数据。

步骤S33：将所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段以及所述第一hive表的表名按照预设表格格式存入至所述关系型数据库表中。

其中，将用户下发的查询条件中的多个字段(包括开始时间、结束时间、数据类型、统计字段以及报表类型字段)以及所述第一hive表的表名按照预设的表格格式存入至所述关系型数据库表中后，则将本次根据用户下发的查询条件查询所述第一hive表的查询记录保存在所述关系型数据库表中，下一次查询数据统计结果时，若下发的查询条件一致，则直接可在所述关系型数据表中查询到该记录，然后根据该记录直接从所述第一hive表查询数据统计结果，提高查询速度以及处理速度，并降低成本。

步骤S34：根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成与所述第一hive表对应的查询语句，根据所述查询语句，从所述第一hive表查询数据统计结果。

其中，将用户下发的查询条件中的多个字段(包括开始时间、结束时间、数据类型、统计字段以及报表类型字段)以及所述第一hive表的表名按照预设的表格格式存入至所述关系型数据库表中后，则将本次根据用户下发的查询条件查询所述第一hive表的查询记录保存在所述关系型数据库表中，之后，则可根据用户下发的查询条件中的多个字段(包括开始时间、结束时间、数据类型、统计字段以及报表类型字段)生成与所述第一hive表对应的查询语句，直接从所述第一hive表查询数据统计结果，并返回查询结果。所述查询语句为结构化查询语言(Structured Query Language，SQL)，即SQL查询语句。

进一步的，请结合参阅图4，所述统计字段包括多个子信息，如果所述查询记录存在，则根据所述多个固定字段查询所述关系型数据库表中是否存在根据用户下发的查询条件对应的目标hive表，如果存在对应的目标hive表，从所述目标hive表中查询数据统计结果的步骤包括以下步骤。

步骤S41：从所述关系型数据库表中查询出所有与所述数据类型字段相同的数据结果。

其中，如果所述查询记录存在，则所述关系型数据库表中存在hive表，但是根据所述数据类型字段在所述关系型数据库表中查询得到的hive表可能是一个或多个，也可能不是需要的目标hive表，因此还需要根据所述多个固定字段进一步的从所述关系型数据库表中查询是否存在根据用户下发的查询条件对应的目标hive表，进而在所述关系型数据库表中查询出与用户下发的查询条件中的数据类型字段相同的所有数据结果。

步骤S42：将每一个所述数据结果中的统计字段与所述查询条件中的统计字段进行匹配。

其中，若存在多个数据结果的数据类型与所述查询条件中的数据类型字段相同，则将每一个数据结果的统计字段与所述查询条件中的统计字段进行匹配。在本公开中，统计字段为数据统计结果中的关键字段，在统计时需要根据这些字段对原始数据进行分组查询，获取数据统计结果，例如，以过车数据为例，则统计字段中的子信息可以为卡口编码、车道以及车辆类型等关键字段。

步骤S43：判断所述查询条件中的统计字段的子信息的个数是否比所有的所述数据结果中的统计字段的子信息的个数多；如果所述查询条件中的统计字段的子信息的个数比所有的所述数据结果中的统计字段的子信息的个数多，执行步骤S431至步骤S434；如果所述查询条件中的统计字段的子信息的个数比其中至少一个所述数据结果中的统计字段的子信息的个数少且所述查询条件中的统计字段的子信息包含于其中至少一个所述数据结果中的统计字段的子信息，执行步骤S44至步骤S45。

其中，如果所述查询条件中的统计字段的子信息的个数比所有的所述数据结果中的统计字段的子信息的个数多，则存在用户下发的查询条件中的统计字段的子信息未被用于查询过，因此不存在根据该查询条件中的统计字段的子信息查询过的hive表，进而需要重新建立一个hive表，并将该查询条件中的统计字段的对应的数据统计结果插入重新建立的hive表，以从重新建立的hive表查询数据统计结果。

步骤S431：根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成建立hive表的语句，调用所述hive接口，基于所述建立hive表的语句进行建表操作，得到第二hive表。

步骤S432：根据所述查询条件中的统计字段生成插入语句，获取与所述查询条件中的统计字段对应的数据统计结果，调用所述hive接口，基于所述插入语句，将所述查询条件中的统计字段对应的数据统计结果按照预设格式插入至所述第二hive表中。

步骤S433：将所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段以及所述第二hive表的表名按照预设表格格式存入至关系型数据库表中。

步骤S434：根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成与所述第二hive表对应的查询语句，根据所述查询语句，从所述第二hive表查询数据统计结果。

其中，步骤S431至步骤S434为重新建表的过程，其具体过程可参照上述步骤S31至步骤S34。

进一步的，请结合参阅图5，如果所述查询条件中的统计字段的子信息的个数比其中至少一个所述数据结果中的统计字段的子信息的个数少且所述查询条件中的统计字段的子信息包含于其中至少一个所述数据结果中的统计字段的子信息，所述方法还包括以下步骤。

步骤S44：获取统计字段的子信息的个数最少且完全包含所述查询条件中的统计字段的子信息的数据结果对应的第三hive表的表名。

其中，在所述关系型数据库表中查询出的所有与用户下发的查询条件中的数据类型字段相同的数据结果中，若存在一个或多个数据结果中的统计字段的子信息的个数比用户下发的查询条件中的统计字段的子信息的个数多，则选取其中统计字段的子信息个数最少且包含用户下发的查询条件中的统计字段的子信息的数据结果，并获取该数据结果对应的第三hive表的表名。选取的数据结果中的统计字段的子信息的个数大于等于用户下发的查询条件中的统计字段的子信息的个数且选取的数据结果中的统计字段的子信息包含用户下发的查询条件中的统计字段的子信息，但是在所有数据类型相同的数据结果中，选取的数据结果中统计字段的子信息的个数最少。

步骤S45：根据所述第三hive表的表名、所述查询条件中的数据类型以及报表类型字段查询所述关系型数据库表中的查询记录。

其中，在获取所述第三hive表的表名后，根据所述第三hive表的表名以及用户下发的查询条件中的数据类型以及报表类型字段查询所述关系型数据库表中的查询记录。所述报表类型字段在查询数据统计结果时，可在查询条件中动态设置，因此，灵活性较高，不依赖于已有的统计报表数据。可选的，所述报表类型设置为分钟报，例如，所述报表类型设置为一分钟，进而可以统计出比当前时间慢一分钟的数据，实时性较高。

进一步的，请结合参阅图6，如果根据所述第三hive表的表名、所述查询条件中的数据类型以及报表类型字段无法查询所述关系型数据库表中的查询记录，所述方法还包括步骤S451至步骤S453。

步骤S451：根据所述查询条件中的开始时间、结束时间、数据类型、报表类型字段以及所述第三hive表中的统计字段，生成插入语句，调用所述hive接口，将所述第三hive表中的统计字段对应的数据统计结果按照预设格式插入到所述第三hive表中。

其中，根据用户下发的查询条件中的开始时间、结束时间、数据类型、报表类型字段以及所述第三hive表中的统计字段，生成插入语句后，查询并获取所述第三hive表中的统计字段对应的数据统计结果，调用所述hive接口，将所述第三hive表中的统计字段对应的数据统计结果按照预设格式插入到所述第三hive表中。

步骤S452：将所述查询条件中的开始时间、结束时间、数据类型、报表类型字段、所述第三hive表中的统计字段以及所述第三hive表的表名按照预设表格格式存入至所述关系型数据库表中。

其中，将用户下发的查询条件中的多个字段(包括开始时间、结束时间、数据类型以及报表类型字段)以及所述第三hive表中的统计字段按照预设的表格格式存入至所述关系型数据库表中后，则将本次根据用户下发的查询条件查询所述第三hive表的查询记录保存在所述关系型数据库表中，下一次查询数据统计结果时，若下发的查询条件一致，则直接可在所述关系型数据表中查询到该记录，然后根据该记录直接从所述第三hive表查询数据统计结果，提高查询速度以及处理速度，并降低成本。

步骤S453：根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成与所述第三hive表对应的查询语句，根据所述查询语句，从所述第三hive表中查询数据统计结果。

其中，在将所述查询条件中的开始时间、结束时间、数据类型、报表类型字段以及所述第三hive表中的统计字段按照预设表格格式存入至所述关系型数据库表中后，根据用户下发的查询条件中的多个字段(包括开始时间、结束时间、数据类型、统计字段以及报表类型字段)生成与所述第一hive表对应的查询语句，直接从所述第三hive表查询数据统计结果，并返回查询结果。所述查询语句为结构化查询语言(Structured Query Language，SQL)，即SQL查询语句。

进一步的，请结合参阅图7，如果根据所述第三hive表的表名、所述查询条件中的数据类型以及报表类型字段查询得到所述关系型数据库表中的查询记录，所述方法还包括步骤S46至步骤S47。

步骤S46：将所述查询条件中的开始时间和结束时间与每一个所述数据结果中的开始时间和结束时间进行匹配。

其中，如果根据所述第三hive表的表名、所述查询条件中的数据类型以及报表类型字段查询得到所述hive表中的数据统计结果，将用户下发的查询条件中的开始时间和结束时间字段与每一个所述数据结果中的开始时间和结束时间字段进行匹配。

步骤S47：判断所述查询条件中的开始时间和结束时间对应的时间段是否属于所述数据结果中的开始时间和结束时间对应的时间段。

其中，如果所述查询条件中的开始时间和结束时间对应的时间段属于所述数据结果中的开始时间和结束时间对应的时间段，执行步骤S471；如果所述查询条件中的开始时间和结束时间对应的时间段不属于所述数据结果中的开始时间和结束时间对应的时间段，执行步骤S472至步骤S474。

步骤S471：根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成与所述第三hive表对应的查询语句，根据所述查询语句，从所述第三hive表中查询数据统计结果。

进一步的，请结合参阅图8，如果所述查询条件中的开始时间和结束时间对应的时间段不属于所述数据结果中的开始时间和结束时间对应的时间段，所述方法还包括步骤S472至步骤S474。

步骤S472：根据所述查询条件中的开始时间、结束时间、数据类型、报表类型字段、所述第三hive表中的统计字段以及所述查询条件中的开始时间和结束时间对应的时间段，生成插入语句，调用所述hive接口，将所述第三hive表中的统计字段对应的数据统计结果按照预设格式插入到所述第三hive表中。

其中，根据用户下发的查询条件中的开始时间、结束时间、数据类型、报表类型字段、所述第三hive表中的统计字段以及所述查询条件中的开始时间和结束时间对应的时间段，生成插入语句后，查询并获取所述第三hive表中的统计字段对应的数据统计结果，调用所述hive接口，将所述第三hive表中的统计字段对应的数据统计结果按照预设格式插入到所述第三hive表中。

步骤S473：将所述查询条件中的开始时间、结束时间、数据类型以及报表类型字段、所述第三hive表中的统计字段以及所述第三hive表的表名按照预设表格格式存入至所述关系型数据库表中。

步骤S474：根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成与所述第三hive表对应的查询语句，根据所述查询语句，从所述第三hive表中查询数据统计结果。

其中，步骤S473至步骤S474的具体过程可参照上述步骤S452至步骤S453。

进一步的，将所述查询条件中的开始时间和结束时间对应的时间段拆分为属于时间段和不属于时间段后，对于不属于时间段，根据所述查询条件中的开始时间、结束时间、数据类型、报表类型字段、所述第三hive表中的统计字段以及所述查询条件中的开始时间和结束时间对应的不属于时间段，生成插入语句，调用所述hive接口，将所述第三hive表中的统计字段对应的数据按照预设格式插入到所述第三hive表中。

将所述查询条件中的开始时间和结束时间对应的不属于时间段、数据类型、报表类型、所述第三hive表中的统计字段以及所述第三hive表的表名按照预设表格格式存入至所述关系型数据库表中。

对于不属于时间段，其具体过程可参照上述步骤S472至步骤S474。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的数据统计系统100的具体工作过程，可以参照上述方法中的对应过程，因此对上述数据统计系统100的具体工作过程不再过多的赘述。

综上，本公开所提供的数据统计方法及系统，通过接收用户下发的查询条件，得到查询条件包括的多个固定字段，根据多个固定字段中的数据类型字段查询预存的关系型数据库表中是否存在根据接收到的查询条件查询hive表的查询记录；其中，如果不存在查询记录，则判定关系型数据库表中不存在hive表，并建立第一hive表，同时并获取多个固定字段对应的数据统计结果，将数据统计结果插入第一hive表中，以从第一hive表查询数据统计结果，提高数据的处理效率及可扩展性；如果存在查询记录，则根据多个固定字段查询关系型数据库表中是否存在根据用户下发的查询条件对应的目标hive表，如果存在对应的目标hive表，则从目标hive表中查询数据统计结果，进而提高数据统计处理的效率。

除此之外，本公开所提供的数据统计方法及系统，将查询条件归类整理为多个固定的字段，根据多个固定字段从预存的关系型数据库表中查询是否存在查询hive表的查询记录，进而判定是否存在目标hive表，若存在目标hive表，则直接在目标hive表中查询数据统计结果，若不存在，则重新建立hive表，以从重新建立的hive表中查询数据，在多次查询数据统计结果后，查询速度会明显提高，同时，本公开利用SQL查询语句的优势，对统计字段采用最小子集匹配算法，提高了查询速度以及命中率，并且本公开不使用定时任务或独立进程事先将统计数据做好，再从这些统计数据中查询数据统计结果，减少了系统开销以及降低数据统计处理的成本。

在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

以上所述仅为本公开的可选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种数据统计方法，其特征在于，应用于数据统计系统；所述方法包括：

接收用户下发的查询条件，得到所述查询条件包括的多个固定字段，所述多个固定字段中包括数据类型字段，所述多个固定字段根据数据的属性归类整理得到；

根据所述数据类型字段查询预存的关系型数据库表中是否存在根据接收到的所述查询条件查询hive表的查询记录，所述关系型数据库表用于存储根据各查询条件查询hive表的多条查询记录；

如果不存在所述查询记录，则判定所述关系型数据库表中不存在所述hive表，并建立第一hive表，获得与所述多个固定字段对应的数据统计结果并插入所述第一hive表中，以从所述第一hive表查询数据统计结果；所述数据统计系统预存有与多个固定字段对应的数据统计结果；

2.根据权利要求1所述的数据统计方法，其特征在于，所述多个固定字段还包括开始时间、结束时间、报表类型以及统计字段；如果不存在所述查询记录，则判定所述关系型数据库表中不存在所述hive表，并建立第一hive表，获得所述多个固定字段对应的数据统计结果并插入所述第一hive表中，以从所述第一hive表查询数据统计结果的步骤包括：

根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成建立hive表的语句，调用hive接口，基于所述建立hive表的语句进行建表操作，得到所述第一hive表；

根据所述查询条件中的统计字段生成插入语句，获得与所述查询条件中的统计字段对应的数据统计结果，调用所述hive接口，基于所述插入语句，将所述查询条件中的统计字段对应的数据统计结果按照预设格式插入至所述第一hive表中；

将所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段以及所述第一hive表的表名按照预设表格格式存入至所述关系型数据库表中；

3.根据权利要求2所述的数据统计方法，其特征在于，所述统计字段包括多个子信息，如果所述查询记录存在，则根据所述多个固定字段查询所述关系型数据库表中是否存在根据用户下发的查询条件对应的目标hive表，如果存在对应的目标hive表，从所述目标hive表中查询数据统计结果的步骤包括：

从所述关系型数据库表中查询出所有与所述数据类型字段相同的数据结果；

将每一个所述数据结果中的统计字段与所述查询条件中的统计字段进行匹配；

判断所述查询条件中的统计字段的子信息的个数是否比所有的所述数据结果中的统计字段的子信息的个数多；

如果所述查询条件中的统计字段的子信息的个数比所有的所述数据结果中的统计字段的子信息的个数多，根据所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段生成建立hive表的语句，调用所述hive接口，基于所述建立hive表的语句进行建表操作，得到第二hive表；

根据所述查询条件中的统计字段生成插入语句，获取与所述查询条件中的统计字段对应的数据统计结果，调用所述hive接口，基于所述插入语句，将所述查询条件中的统计字段对应的数据统计结果按照预设格式插入至所述第二hive表中；

将所述查询条件中的开始时间、结束时间、数据类型、统计字段以及报表类型字段以及所述第二hive表的表名按照预设表格格式存入至所述关系型数据库表中；

4.根据权利要求3所述的数据统计方法，其特征在于，如果所述查询条件中的统计字段的子信息的个数比其中至少一个所述数据结果中的统计字段的子信息的个数少且所述查询条件中的统计字段的子信息包含于其中至少一个所述数据结果中的统计字段的子信息，所述方法还包括：

获取统计字段的子信息的个数最少且完全包含所述查询条件中的统计字段的子信息的数据结果对应的第三hive表的表名；

5.根据权利要求4所述的数据统计方法，其特征在于，如果根据所述第三hive表的表名、所述查询条件中的数据类型以及报表类型字段无法查询所述关系型数据库表中的查询记录，所述方法还包括：

根据所述查询条件中的开始时间、结束时间、数据类型、报表类型字段以及所述第三hive表中的统计字段，生成插入语句，调用所述hive接口，将所述第三hive表中的统计字段对应的数据统计结果按照预设格式插入到所述第三hive表中；

将所述查询条件中的开始时间、结束时间、数据类型、报表类型字段、所述第三hive表中的统计字段以及所述第三hive表的表名按照预设表格格式存入至所述关系型数据库表中；

6.根据权利要求4所述的数据统计方法，其特征在于，如果根据所述第三hive表的表名、所述查询条件中的数据类型以及报表类型字段查询得到所述关系型数据库表中的查询记录，所述方法还包括：

将所述查询条件中的开始时间和结束时间与每一个所述数据结果中的开始时间和结束时间进行匹配；

判断所述查询条件中的开始时间和结束时间对应的时间段是否属于所述数据结果中的开始时间和结束时间对应的时间段；

如果所述查询条件中的开始时间和结束时间对应的时间段属于所述数据结果中的开始时间和结束时间对应的时间段；

7.根据权利要求6所述的数据统计方法，其特征在于，如果所述查询条件中的开始时间和结束时间对应的时间段不属于所述数据结果中的开始时间和结束时间对应的时间段，所述方法还包括：

根据所述查询条件中的开始时间、结束时间、数据类型、报表类型字段、所述第三hive表中的统计字段以及所述查询条件中的开始时间和结束时间对应的时间段，生成插入语句，调用所述hive接口，将所述第三hive表中的统计字段对应的数据统计结果按照预设格式插入到所述第三hive表中；

将所述查询条件中的开始时间、结束时间、数据类型以及报表类型字段、所述第三hive表中的统计字段以及所述第三hive表的表名按照预设表格格式存入至所述关系型数据库表中；

8.根据权利要求6所述的数据统计方法，其特征在于，如果所述查询条件中的开始时间和结束时间对应的时间段部分属于所述数据结果中的开始时间和结束时间对应的时间段，则将所述查询条件中的开始时间和结束时间对应的时间段拆分为属于时间段和不属于时间段。

9.根据权利要求8所述的数据统计方法，其特征在于，将所述查询条件中的开始时间和结束时间对应的时间段拆分为属于时间段和不属于时间段后，所述方法还包括：

对于不属于时间段，根据所述查询条件中的开始时间、结束时间、数据类型、报表类型字段、所述第三hive表中的统计字段以及所述查询条件中的开始时间和结束时间对应的不属于时间段，生成插入语句，调用所述hive接口，将所述第三hive表中的统计字段对应的数据按照预设格式插入到所述第三hive表中；

将所述查询条件中的开始时间和结束时间对应的不属于时间段、数据类型、报表类型、所述第三hive表中的统计字段以及所述第三hive表的表名按照预设表格格式存入至所述关系型数据库表中；

10.一种数据统计系统，其特征在于，所述数据统计系统包括接收模块、存储模块、处理模块以及查询模块；

所述接收模块用于接收用户下发的查询条件，得到所述查询条件包括的多个固定字段，所述多个固定字段中包括数据类型字段，所述多个固定字段根据数据的属性归类整理得到；

所述存储模块存储有关系型数据库表以及与多个固定字段对应的数据统计结果；所述关系型数据库表用于存储根据各查询条件查询hive表的多条查询记录；

所述处理模块用于根据所述数据类型字段查询预存的关系型数据库表中是否存在根据接收到的所述查询条件查询hive表的查询记录；

如果所述查询记录不存在，所述处理模块用于判定所述关系型数据库表中不存在所述hive表，并建立第一hive表，获得与所述多个固定字段对应的数据统计结果并插入所述第一hive表中，以使所述查询模块从所述第一hive表查询数据统计结果；