CN105630934A

CN105630934A - 一种数据统计方法及系统

Info

Publication number: CN105630934A
Application number: CN201510975554.8A
Authority: CN
Inventors: 臧勇真; 赵明超; 周正德; 牛硕; 刘安
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2016-06-01

Abstract

本发明提供一种数据统计方法及系统，方法包括：预先创建数据抽取记录表，以及预先设置目标条件，监测与大数据平台相连接的至少一个关系型数据库；在满足所述目标条件时，将具有增量数据的关系型数据库中的增量数据抽取到大数据平台中；更新所述数据抽取记录表；在获取到统计指令时，根据所述数据抽取记录表响应所述统计指令。根据本方案，在将关系型数据库中的数据抽取到大数据平台之后，对数据抽取记录表进行更新，在对大数据平台中的数据进行统计时，可以利用该数据抽取记录表进行响应，无需对大数据平台中所有数据进行遍历，从而可以提高统计效率，节省了大量的计算、网络资源。

Description

一种数据统计方法及系统

技术领域

本发明涉及大数据处理技术领域，特别涉及一种数据统计方法及系统。

背景技术

目前，分布式集群已经成为国内外云计算研究的热点。分布式集群具有良好的读写能力，能够支持大数据量的表格，且适用于简单业务、数据量巨大的在线数据库及数据仓库。由于分布式集群不适合作业务数据库，一般业务数据库往往由关系型数据库来担任，分布式集群负责汇集各个关系型数据库中的数据。对于分布式集群这样的大数据平台，数据量的情况是一项重要指标。

现有技术中，可以通过MapReduce程序，遍历大数据平台中存储的所有数据，并利用时间戳字段对遍历到的满足该时间戳字段的数据进行统计，以实现对数据量或数据总量的统计。

然而，对于大数据平台中存储的数据量非常大，表格的数量也非常多，因此，统计效率较低，且需要耗费大量的计算、网络资源。

发明内容

有鉴于此，本发明提供一种数据统计方法及系统，以实现对大数据平台中数据量的统计。

第一方面，本发明提供了一种数据统计方法，预先创建数据抽取记录表，以及预先设置目标条件，包括：

监测与大数据平台相连接的至少一个关系型数据库；

在满足所述目标条件时，将具有增量数据的关系型数据库中的增量数据抽取到大数据平台中；

更新所述数据抽取记录表；

在获取到统计指令时，根据所述数据抽取记录表响应所述统计指令。

优选地，所述满足所述目标条件，包括：到达设定时间段，和/或，所述至少一个关系型数据库中任意一个或多个关系型数据库中具有目标数据量的增量数据。

优选地，所述数据抽取记录表包括：rowkey项以及该rowkey项对应的数据量；其中，所述rowkey项包括：{表名字}、{表名字}间隔符{时间}、{时间}间隔符{表名字}中的任意一项或多项。

优选地，所述根据所述数据抽取记录表响应所述统计指令，包括：根据所述数据抽取记录表中的rowkey项，统计至少一个表名字的数据量、至少一个表名字在第一时间段内的数据量、在第二时间段内至少一个表名字的数据量，以实现对所述统计指令的响应。

优选地，执行所述将目标关系型数据库中的增量数据抽取到大数据平台中的工具包括：Sqoop工具、Kettle工具、Flume工具或Chuwa工具。

第二方面，本发明还提供了一种数据统计系统，包括：

创建单元，用于创建数据抽取记录表，并将所述数据抽取记录表发送给更新单元；

存储单元，用于存储目标条件，并将所述目标条件发送给抽取工具；

监测单元，用于监测与大数据平台相连接的至少一个关系型数据库，并将监测信息发送给所述抽取工具；

所述抽取工具，用于在满足所述目标条件时，将具有增量数据的关系型数据库中的增量数据抽取到大数据平台中，并将抽取信息发送给所述更新单元；

所述更新单元，用于更新所述数据抽取记录表，并将更新后的所述数据抽取记录表发送给响应单元；

所述响应单元，用于在获取到统计指令时，根据所述数据抽取记录表响应所述统计指令。

优选地，所述响应单元，具体用于根据所述数据抽取记录表中的rowkey项，统计至少一个表名字的数据量、至少一个表名字在第一时间段内的数据量、在第二时间段内至少一个表名字的数据量，以实现对所述统计指令的响应。

优选地，所述抽取工具包括：Sqoop工具、Kettle工具、Flume工具或Chuwa工具。

本发明实施例提供了一种数据统计方法及系统，在将关系型数据库中的数据抽取到大数据平台之后，对数据抽取记录表进行更新，在对大数据平台中的数据进行统计时，可以利用该数据抽取记录表进行响应，无需对大数据平台中所有数据进行遍历，从而可以提高统计效率，节省了大量的计算、网络资源。

附图说明

图1是本发明实施例提供的方法流程图；

图2是本发明实施例提供的另一方法流程图；

图3是本发明实施例提供的数据统计系统硬件架构图；

图4是本发明实施例提供的数据统计系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种数据统计方法，该方法可以包括以下步骤：

步骤101：预先创建数据抽取记录表，以及预先设置目标条件。

步骤102：监测与大数据平台相连接的至少一个关系型数据库。

步骤103：在满足所述目标条件时，将具有增量数据的关系型数据库中的增量数据抽取到大数据平台中。

步骤104：更新所述数据抽取记录表。

步骤105：在获取到统计指令时，根据所述数据抽取记录表响应所述统计指令。

根据本方案，在将关系型数据库中的数据抽取到大数据平台之后，对数据抽取记录表进行更新，在对大数据平台中的数据进行统计时，可以利用该数据抽取记录表进行响应，无需对大数据平台中所有数据进行遍历，从而可以提高统计效率，节省了大量的计算、网络资源。

在本发明一个优选实施例中，由于各个关系型数据库几乎每天都会产生增量数据，且需要将产生的增量数据抽取到大数据平台中，可以通过如下目标条件，来启动该抽取操作，到达设定时间段，和/或，所述至少一个关系型数据库中任意一个或多个关系型数据库中具有增量数据。

在本发明一个优选实施例中，为了能够利用该数据抽取记录表来实现对大数据平台中数据量的统计，需要对数据抽取记录表中所记录的信息进行设计，由于大数据平台是HBase数据库，因此对于大数据平台中该数据抽取记录表的设计可以包括：rowkey项以及该rowkey项对应的数据量。其中，对于rowkey(行主键)的设计可以包括：{表名字}、{表名字}间隔符{时间}、{时间}间隔符{表名字}中的任意一项或多项。

为使本发明的目的、技术方案和优点更加清楚，下面结合附图及具体实施例对本发明作进一步地详细描述。

如图2所示，本发明实施例提供了一种数据统计方法，该方法可以包括以下步骤：

步骤201：确定数据抽取工具。

由于数据量的不断增长，传统的关系型数据库(例如mysql、oracle等)已经不能够支撑庞大的统计分析工作，因此，大数据平台(例如hbase)应运而生，但是大数据平台也有其局限性，不能很好的支持在线事务。传统的关系型数据库支撑在线系统与大数据平台处理线下统计分析将会长期并存。在这个两个系统中，需要一种数据抽取工具担任桥梁的角色，负责数据的传递。

在本实施例中，该数据抽取工具可以包括Sqoop工具、Kettle工具、Flume工具或Chuwa工具。

本实施例可以选用Sqoop工具，其中，Sqoop工具是一款开源的工具，主要用于在hbase与传统的关系型数据库数据库(mysql、oracle等)之间进行数据的传递。

步骤202：创建数据抽取记录表，设置目标条件。

在某些场景下，数据量的情况是一项重要指标。在时间维度上有每天、每周、每月、每年的数据增量；在表维度上有每张表的数据增量，整体需求体现为所有表的数据总量、所有表每天的数据增量、所有表每月的数据增量、每张表每天的数据增量、每张表每月的数据增量……

在本实施例中，为了保证在对大数据平台中的数据进行统计时，可以利用该数据抽取记录表进行统计，可以对Sqoop工具的源码进行改造，以使该Sqoop工具在执行每次的数据抽取任务时，可以将该抽取到的数据情况记录到一张hbase表中，这张表称为数据抽取记录表，该数据抽取记录表中记录所有抽取到大数据平台中数据表的数据量情况。

为了满足数据抽取记录表在表维度和时间维度上对数据量情况的需求，需要对数据抽取记录表进行rowkey的设计，才能满足对数据量情况按表、按时间的组合查询。其中，该数据抽取记录表的设计可以如下表1所示：

表1：

序号	rowkey	rowkey举例	qualifier
				1	{表名字}	person_info	数据量
2	{表名字}间隔符{时间}	person_info20150604	数据量
				3	{时间}间隔符{表名字}	20150604person_info	数据量

其中，rowkey中的表名字均是指从关系型数据库中抽取的数据表的名字。该间隔符可以是任意的一个用于对表名字和时间起到间隔作用的符号，例如，、#、￥、％等。

在rowkey项包括{表名字}时对应的qualifier中，数据量表示该{表名字}的数据总量，利用该项对某张数据表的数据总量可以实现快速查询。

在rowkey项包括{表名字}间隔符{时间}时对应的qualifier中，数据量表示该{表名字}在该{时间}内产生的数据增量。利用该项对某张数据表做scan操作时，即可得到这张表在某段时间内的数据增量情况。scan操作中startkey＝{表名字}间隔符{开始时间}，stopkey＝{表名字}间隔符{结束时间}。

在rowkey项包括{时间}间隔符{表名字}时对应的qualifier中，数据量表示该{时间}内至少一个{表名字}对应的数据增量。利用该项对某张数据表做scan操作时，即可获取到一段时间内所有表数据增量的需求。scan操作中startKey＝{开始时间}间隔符至少一个{表名字}，stopkey＝{结束时间}间隔符至少一个{表名字}。

在本实施例中，为了启动该Sqoop工具的抽取操作，可以预先设置目标条件，以实现在满足该目标条件时触发对Sqoop工具的抽取操作。

其中，该目标条件可以至少包括以下几种：到达设定时间段；例如，该设定时间段可以为1天，同时可以设置启动抽取操作的具体时间点，例如，每天00:00，在到达该时间点时，启动该抽取操作。和/或，所述至少一个关系型数据库中任意一个或多个关系型数据库中具有目标数据量的增量数据；例如，该目标数据量为500MB，当监测到某一个关系型数据库中具有500MB的增量数据时，启动该抽取操作。

下面以设定的目标条件为到达每天的00:00时启动该抽取操作为例，对本实施例进行说明。

步骤203：监测与大数据平台相连接的至少一个关系型数据库。

在一般情况下，企业的各个部门可以使用关系型数据库为其存储数据或数据表，每一个部门每天会产生大量的增量数据，为了实现对各个关系型数据库中大数据的处理，可以将各个关系型数据库中存储的数据抽取到大数据平台中，以及在后续过程中，各个关系型数据库每产生了增量数据，则会将这些增量数据抽取到大数据平台中。

假设，与大数据平台相连接的关系型数据库包括数据库1、数据库2和数据库3。

步骤204：在满足所述目标条件时，将具有增量数据的关系型数据库中的增量数据抽取到大数据平台中。

在本实施例中，当监测到当前的时间点为00:00时，确定此时的时间点满足步骤202中设定的目标条件，因此启动抽取操作。

假设此时数据库1中具有增量数据，且此时的时间点为：2015年1月2日00:00，那么该Sqoop工具需要将该数据库1中在2015年1月1日00:00-2015年1月2日00:00之间产生的增量数据抽取到大数据平台中。

具体地，Sqoop工具可以利用时间戳字段，通过sql语句，在该数据库1中查询大于2015年1月1日00:00且小于2015年1月2日00:00的数据，并将查询到的数据作为该数据库1的增量数据抽取到大数据平台中。

步骤205：更新数据抽取记录表。

在本实施例中，可以根据对各个关系型数据库中增量数据的抽取操作，对数据抽取记录表进行更新。

请参考表2为更新前数据抽取记录表所包括的内容：

表2：

rowkey	qualifier
		{person_info_a}	300MB
{person_info_b}	850MB
		……	……
person_info_a20141231	50MB
		person_info_b20141231	20MB
……	……
		20141231person_info	70MB
……	……

假设在数据库1中抽取到增量数据之后，对数据抽取记录表的更新如下表3所示：

表3：

rowkey	qualifier
		{person_info_a}	350MB
{person_info_b}	920MB
		……	……
person_info_a20141231	50MB
		person_info_b20141231	20MB
person_info_a20150101	50MB
		person_info_b20150101	70MB
……	……
		20141231person_info	70MB
20150101person_info	120MB
		……	……

步骤206：在获取到统计指令时，根据该数据抽取记录表响应该统计指令。

例如，该统计指令用于统计当前大数据平台中person_info_a数据表的数据量，根据表3可知该person_info_a数据表的数据量为350MB。

再如，该统计指令用于统计当前大数据平台中在2015年1月1日person_info_a和person_info_b的数据增量，根据表3可知该20150101person_info为120MB。

根据上述方案，若使用mapreduce任务，每天对大数据平台中的所有数据进行扫描来统计数据量的情况，在几百亿数据量的情况下，每天要花费4-5个小时来统计数据情况，这期间大数据集群计算、网络资源消耗严重，而利用本方案在数据抽取的过程中，将增量情况记录下来，不需要花费时间，也几乎不消耗任何计算、网络资源。

如图3、图4所示，本发明实施例提供了一种数据统计系统。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图3所示，为本发明实施例一种数据统计系统所在设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图4所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种数据统计系统包括：

创建单元401，用于创建数据抽取记录表，并将所述数据抽取记录表发送给更新单元；

存储单元402，用于存储目标条件，并将所述目标条件发送给抽取工具；

监测单元403，用于监测与大数据平台相连接的至少一个关系型数据库，并将监测信息发送给所述抽取工具；

所述抽取工具404，用于在满足所述目标条件时，将具有增量数据的关系型数据库中的增量数据抽取到大数据平台中，并将抽取信息发送给所述更新单元；

所述更新单元405，用于更新所述数据抽取记录表，并将更新后的所述数据抽取记录表发送给响应单元；

所述响应单元406，用于在获取到统计指令时，根据所述数据抽取记录表响应所述统计指令。

进一步地，

所述满足所述目标条件，包括：到达设定时间段，和/或，所述至少一个关系型数据库中任意一个或多个关系型数据库中具有目标数据量的增量数据。

进一步地，

所述数据抽取记录表包括：rowkey项以及该rowkey项对应的数据量；其中，所述rowkey项包括：{表名字}、{表名字}间隔符{时间}、{时间}间隔符{表名字}中的任意一项或多项。

进一步地，所述响应单元，具体用于根据所述数据抽取记录表中的rowkey项，统计至少一个表名字的数据量、至少一个表名字在第一时间段内的数据量、在第二时间段内至少一个表名字的数据量，以实现对所述统计指令的响应。

进一步地，

所述抽取工具包括：Sqoop工具、Kettle工具、Flume工具或Chuwa工具。

综上，本发明实施例至少可以实现如下有益效果：

1、在本发明实施例中，在将关系型数据库中的数据抽取到大数据平台之后，对数据抽取记录表进行更新，在对大数据平台中的数据进行统计时，可以利用该数据抽取记录表进行响应，无需对大数据平台中所有数据进行遍历，从而可以提高统计效率，节省了大量的计算、网络资源。

2、在本发明实施例中，为了能够利用该数据抽取记录表来实现对大数据平台中数据量的统计，需要对数据抽取记录表中所记录的信息进行设计，由于大数据平台是HBase数据库，因此对于大数据平台中该数据抽取记录表的设计可以包括：rowkey项以及该rowkey项对应的数据量。其中，对于rowkey(行主键)的设计可以包括：{表名字}、{表名字}间隔符{时间}、{时间}间隔符{表名字}中的任意一项或多项。

上述设备内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个〃〃〃〃〃〃”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据统计方法，其特征在于，预先创建数据抽取记录表，以及预先设置目标条件，包括：

监测与大数据平台相连接的至少一个关系型数据库；

更新所述数据抽取记录表；

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，所述根据所述数据抽取记录表响应所述统计指令，包括：根据所述数据抽取记录表中的rowkey项，统计至少一个表名字的数据量、至少一个表名字在第一时间段内的数据量、在第二时间段内至少一个表名字的数据量，以实现对所述统计指令的响应。

5.根据权利要求1-4中任一所述的方法，其特征在于，

执行所述将目标关系型数据库中的增量数据抽取到大数据平台中的工具包括：Sqoop工具、Kettle工具、Flume工具或Chuwa工具。

6.一种数据统计系统，其特征在于，包括：

7.根据权利要求6所述的数据统计系统，其特征在于，

8.根据权利要求7所述的数据统计系统，其特征在于，

9.根据权利要求8所述的数据统计系统，其特征在于，所述响应单元，具体用于根据所述数据抽取记录表中的rowkey项，统计至少一个表名字的数据量、至少一个表名字在第一时间段内的数据量、在第二时间段内至少一个表名字的数据量，以实现对所述统计指令的响应。

10.根据权利要求6-9中任一所述的数据统计系统，其特征在于，