CN101533406A

CN101533406A - 一种海量数据查询方法

Info

Publication number: CN101533406A
Application number: CN200910081509A
Authority: CN
Inventors: 储院生
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2009-04-10
Filing date: 2009-04-10
Publication date: 2009-09-16
Anticipated expiration: 2029-04-10
Also published as: CN101533406B

Abstract

本发明公开了一种海量数据查询方法，属于信息技术领域。本发明方法包括：a)对海量数据实体表按设定的时间间隔进行分区；b)建立所述实体表中属性名称的二维统计表，其中一维表示设定的时间区间内的各个时间间隔，另一维表示属性名称的属性列中的属性数据，统计表中的内容表示在某个时间间隔内存在某个属性数据的实体表的名称；c)查询时，若查询条件中包括经统计的属性名称，则根据该属性名称的统计表和查询条件中设定的时间区间获得在该时间区间内的实体表分区的集合；d)根据该集合缩小海量数据查询范围再进行查询。本发明方法可用于诸如电信行业的计费查询系统、大型网站交易平台等大型系统中的海量数据查询。

Description

一种海量数据查询方法

技术领域

本发明涉及数据库数据查询，尤其涉及一种提高了查询性能的海量数据查询方法，属于信息技术领域。

背景技术

查询是用户从数据库获取信息的唯一方式，也是一般应用系统的主要功能，而系统的查询效率也是衡量其实用性的关键指标之一。在电信和互联网等行业里，随着信息化的发展，企业要处理的数据爆炸式的增长，数据量都达到了TB级、PB级，随着数据量增多，系统的负载越来越大，在不增加硬件成本的情况下，用户查询数据性能随之下降。如何发挥已有系统的最大性能，使查询速度能满足实用的要求是许多企业面对的难题，目前常用的传统方法有：

(1)建立合理的索引

(2)使用分区技术

(3)使用分布式数据库

(4)使用HINT暗示，使用PL/SQL

(5)基于物化视图的查询重写

(6)基于缓存技术

上述方法采用的手段归根结底都是通过减少IO磁盘的访问来提高查询性能。比如，系统中都使用按时间分区的技术，当用户查询条件有时间范围的时候，只需要查询包含这段时间的数据分区而不用查询所有的分区，这样就可以减少IO磁盘访问。建立合理的索引也是如此，根据用户查询的条件，先从包含这些条件的索引中找到满足条件的ROWID，再根据ROWID去查询实际的数据来避免直接从表中查询数据。再如，使用物化视图和缓存把经常查询的数据提前装载在内存里，用户查询时就不用再去读磁盘了。

上述方法在某些条件下都能减少磁盘IO访问，也能达到提高查询性能的目的，但是提高的范围仍有一定限度。当数据量大到一定程度，并且不使用大型存储时，很多数据查询IO磁盘访问花费时间还是很长，常超出用户的承受范围。比如某一系统一个月的数据就达到1TB，使用了RANGE分区技术，按天创建了分区，在常用查询列上都建立了并且建了LOCAL索引。比如：用户在这个系统上查询最近一个月满足某一条件的数据，系统最少要读取这一个月约30个分区的本地索引才能得到实际数据，这些索引的大小往往超过几个GB，所以即使使用了这些技术，花费的时间往往也达到分钟级。特殊情况下，如果满足这个用户查询条件的数据非常少或者没有，查询的范围就会加大，不但返回时间很长而且还没有结果。这会使用户觉得这个系统的实用性不好，同时也大大降低了用户的工作效率。

此时，如果要让系统性能提高或许只能考虑购买性能更好的服务器。本专利的技术则针对上述实际问题，通过统计等技术找到一个有效解决问题的办法，提高系统的查询性能。

和一般应用数据库不同，海量数据库系统具有以下特点：

(1)数据有一定的时效性，且数据量随着时间在不停增加。

(2)查询往往有一定的时间范围，并且在数据上进行修改的操作非常少。

(3)相对来说系统查询时间大都花费在磁盘IO上，CPU使用所花费的时间可忽略不计。

(4)实体表的很多列上数据重复率很高。

实际中像电信行业的计费查询系统、大型网站交易平台等系统，他们的数据量都随着时间的推移，每天都在大量增加，而信息一旦录入数据库，修改的就非常少。系统查询时都有一定的时间范围，数据超过一定时间就会删除或者转存其他系统。

另外一个特点是，常用查询列上有很高的重复率。比如，电信计费系统的用户手机号，交易平台交易双方的ID等。

本专利适用于具有上述特点的海量数据库的查询中。

发明内容

本方法针对海量数据查询中传统方法已经无法满足性能要求的情况，有效地利用系统的空闲时间对需要查询的数据进行统计，最大限度地减少查询时磁盘IO访问以提高查询速度。在系统不增加硬件成本的条件下，使查询性能提高几倍或者几十倍。

本发明针对以上背景资料中提到的实际问题，提出了一种利用数据库系统的空闲时间，针对背景资料中提到的，用户查询常用的查询中常用到的，并且数据有一定的重复率的列，进行统计，在实际查询的时候，利用这个统计结果缩小查询范围再作查询，以减少磁盘读取，提高海量数据查询效率。

具体来说，本发明包括下列步骤：

a)进行海量数据查询前，对于一个或多个海量数据实体表，按照设定的时间间隔(比如，天或者小时)对每个实体表进行分区，得到各个实体表的多个实体表分区；并优选在经常被当做查询条件的属性名称(比如用户ID等)的属性列上，建立BITMAP本地索引。

b)建立所述实体表中一个或多个属性名称的独立的一个或多个统计表，每个属性名称的每个统计表均为二维统计表，其中一维表示设定的时间区间(比如，月)内的各个时间间隔(和步骤a时间间隔相同)，另一维表示所述属性名称的属性列中的各个属性数据，统计表中的内容表示在某个时间间隔内存在某个属性数据的实体表的名称；

换言之，在本步骤中，以一段时间为单位，把这段时间内需要统计的属性名称的列数据统计在一个表里。一般情况下，对一个实体表进行统计，如果多个实体表有相同的属性列，而且查询的时候，用户有可能对多个表同时一起查询的话，可以把多个实体表的相同属性列的数据统计到同一个表中。以按月统计为例，统计表的命名可以是：属性名+年月，比如某一列上的统计表名为：CSTAT0903，表示2009年3月份的统计结果。CSTAT0903表共有32列，第一列是要统计的属性列，比如为CustomID(下面以此列为例，进行说明)、第2到32列，分别表示这一个月的每一天对应的分区。列名为D1、D2…D31。可设定在每天的某个具体时间(比如晚1时)，对前一天的数据进行统计，最终的结果上，CustomID列保存这所有统计过的CutomID，如果某分区里包含了这个CustomID的话，其相应的行就保存对应的实体表名。

步骤b优选在海量数据查询空闲期间进行。

c)进行海量数据查询时，若查询条件中包括经过步骤b统计的属性名称，则先查询所述属性名称的统计表，并根据该统计表和查询条件中设定的时间区间获得在该时间区间内的实体表分区的集合；若查询条件中包括多个经过步骤b统计的属性名称，则依次获得实体表分区集合后取交集；

参照步骤b所述实例，若海量查询时的查询条件中包含CustomID，则首先查询CustomID的统计表，查找CSTAT090N(N表示月份，N＝1，2，…，12)的统计表，查找查询条件中指定的时间范围内包含这个CustomID的分区集合(若以列表的形式展示该集合，则可称为分区列表)，把查询范围缩小到这些分区内。如果查询条件还包含其他经统计的属性名称，则同样取得其分区集合，取这几个分区集合的交集。

d)根据步骤c获得的实体表分区集合或实体表分区集合的交集缩小海量数据查询范围，并根据所述集合或交集中的实体表分区进行海量数据查询。

一般系统都采用分页显示，为了快速把结果返回结果，不是一次把所有的数据都查询出来，再返回结果，而是把分区列表根据其数据的时间按照指定的顺序进行排序，然后依次查询这些分区，如果查询第一个分区里的记录条数大于要求的第一页的条数，就先返回这些结果，如果不足，继续查询下一个分区，直到满足条数，再返回结果。

与现有技术相比，本发明的有益效果是：

在不使用本专利的情况下，在海量数据库中查询，满足查询条件的结果非常少，那就需要进行很多的磁盘IO读取，才能得到结果，使用本发明的方法，那就可以先通过一个统计表得到包含本数据的分区列表，再到这些分区列表里分区进行读取，这样即使满足查询条件的记录很少，也能先得到哪些分区包含这些数据，查询的范围也比较少，也能快速返回结果，反之，如果满足查询条件的记录非常多，也只要查几个分区就能得到结果。

这个统计表的上的索引，是所有的数据的唯一值，相对于原有的这列上的索引的大小来说，只有原来的几十分之一，因此，能够很好的利用系统空闲时间进行统计，查询的时候，只要花费很小的代价，就能避免在没有数据的分区里进行查询，大大提高整体查询性能。

另外，通过本专利技术可以将系统空闲时间有效的利用起来，最大限度的使用已有的系统，通过服务器空闲时间，对前一天的数据进行统计，在实际进行查询的时候，通过很少的IO读取高效准确的找到包含需要查询的数据所在的分区，然后在一个分区接着一个分区的读数据，进行排序，又最大限度的减少需要排序的数据。使系统消耗最少的资源，最快的返回查询结果，和以前传统的优化方法相比，查询效率会大幅提高，本技术的使用范围很广，随着信息化的发展，许多应用都建立在海量数据之上，只要数据有一定的重复率，都是可以应该本专利的，比如，网络交易系统，电信行业的计费系统等。该方法已应用在北京锐安科技有限公司的分布式海量数据处理产品中，并解决了实际遇到的查询慢的问题。

下面是发明人在具体的海量数据平台上的实际应用测试效果：

环境：30台分布式的数据库，15个实体表，一个月的数据共84亿多条记录。

查询条件：对这15个实体表的共有属性列，时间一个月。

总的记录范围：124亿。

	没有查询结果	查询结果很多	查询结果很少(<100条)
	没有查询结果	查询结果很多	查询结果很少(<100条)	旧的算法	2分40秒	10秒	30秒
专利方法	5秒	8秒	10秒	旧的算法	2分40秒	10秒	30秒

可以看到，没有查询结果的时候，或者查询结果很少的时候，使用本发明方法，查询性能有很大的提升效果。

附图说明

图1表示本发明实施例涉及客户ID的查询步骤；

图2表示本发明实施例涉及客户ID和销售商ID的查询步骤；

具体实施方式

下面通过具体实施例结合附图对本发明作进一步说明。

假设本实施例系统中存在如下三个海量数据实体表，名称分别是Food，Clothes和Device，这三个实体表的数据结构如下表1-3所示：

表1：Food——食品类

交易ID	商品ID	客户ID	交易时间	价格	数量	销售商ID	其他	生产日期	保质期	其他
交易ID	商品ID	客户ID	交易时间	价格	数量	销售商ID	其他	生产日期	保质期	其他	...	...	...	...	...	...	...	...	...	...	...

表2：Clothes——衣服类

交易ID	商品ID	客户ID	交易时间	价格	数量	销售商ID	生产地	大小	颜色	其他
交易ID	商品ID	客户ID	交易时间	价格	数量	销售商ID	生产地	大小	颜色	其他	...	...	...	...	...	...	...	...	...	...	...

表3：Device——电器类

交易ID	商品ID	客户ID	交易时间	价格	数量	销售商ID	类型	生产商	保修时间	其他
交易ID	商品ID	客户ID	交易时间	价格	数量	销售商ID	类型	生产商	保修时间	其他	...	...	...	...	...	...	...	...	...	...	...

上面三个实体表记录了网络交易信息。

一般情况下，对于单个系统，提供用户查询的接口条件是有限个数的，统计用户常用的查询条件，得到的结果是80％以上的查询都是某几个特定的查询条件。

比如上述模型系统中，常用的查询条件(属性名称)有：

(1)交易时间

(2)客户ID

(3)销售商ID

本实施例方法包括下列步骤：

步骤一：进行海量数据查询前，对于上述三个海量数据实体表，按照交易时间按天对每个实体表进行分区，则每个实体表均得到多个实体表分区；

同时，在客户ID，销售商ID等常用属性名称上建立本地索引，索引类型为BITMAP，并在交易ID上建B树的索引。另外，为了降低系统压力，把数据按照购客户ID和销售商ID进行HASH，平均分布到多个数据库上。

步骤二：建立上述实体表中客户ID的多个统计表；

在本实施例系统中，客户ID这一列是一个重复率很高的列。整个系统在一段时间内总的客户ID的数量是一定的，如果把这个信息进行统计，统计每一个客户ID发生交易的是哪些时间，这样在查询的时候，就能根据这个统计结果来确定需要查询的时间范围，而且只在这些时间范围内查询，从而大大的减少磁盘的IO了。

在本步骤中，将每一个月的信息统计到一个表中，因为客户ID的信息，每间隔一段时间会有增有减，而在一个月范围内，总的客户ID数量是固定的，所以采用每一个月为单位，进行统计。

创建一个客户ID的统计表，按照所统计的月份来命名，比如：customStat0903，其中第一列是客户ID这一属性列中的各个属性数据，即这个月交易的所有的客户ID，而且这一列只保留这一列的唯一值，在这一列上建一个唯一索引(B树)，命令为PK_customStat0903。

在统计表customStat0903上，有另外31个列：D1、D2...D30、D31，分别表示这个月的每一天，而表中的内容则表示在某天内存在某个客户ID的实体表的名称，如下表4所示。

表4：客户ID的3月份统计表——customStat0903

客户ID	D1	D2	D3	...	D29	D30	D31
客户ID	D1	D2	D3	...	D29	D30	D31	101	F¹，C²，D³	C
999		C	D				D	101	F¹，C²，D³	C
999		C	D				D	...
100000			F			F		...

¹：F＝Food，下同；²：C＝Clothes，下同；³：D＝Device，下同。

由于数据按天分区，所以每天进行一次统计。由于交易时间是实际时间，每天到了24时以后，就不会有当天的数据生成了，而且大部分查询在白天系统压力较大时进行，深夜1时以后，压力较小，所以本实施例设定在每天1时开始统计前一天的数据。

本实施例进行上述统计所使用的SQL语句如下(以统计FOOD表2009年3月1日的客户ID为例)：

merge into runvista.Stat0903 s

USING(select distinct客户ID from Food partition(P090301)t)

ON(s.客户ID＝t.客户ID)

WHEN MATCHED THEN

UPDATE SET S.D1＝S.D1‖′food′

WHEN NOT MATCHED THEN

insert(客户ID，D1)values(t.srcip，′food′)；

对于客户ID的其他统计表，其SQL语句类似。由于本实施例在每个实体表中的客户ID列上均建立了BITMAP本地索引，所以select distinct客户ID from Foodpartition(P090301)，直接从索引中就能得到结果，都不需要排序，整个统计也不需要很多时间。

类似地，对销售商ID按月进行统计，得到销售商ID的多个统计表，其中一个统计表如下表5所示：

表5：销售商ID的3月份统计表——SaleStat0903(PK_SaleStat0903是销售商ID列上唯一索引)

销售商ID	D1	D2	D3	...	D29	D30	D31
销售商ID	D1	D2	D3	...	D29	D30	D31	2001	F，C，D	C
2999		C	D				D	2001	F，C，D	C
2999		C	D				D	...
200000			F			F		...

步骤三：查询某客户最近三个月的购物记录(2009-01-01—2009-3-31)，并且按旧到新排序输出。

如果不使用本发明方法，那么系统得到所需数据需要读取的IO是三个实体表三个月共约90个分区的客户ID属性列上的索引。其存在下列缺点：

√要读的IO为90个分区索引，非常多

√如果返回的数据非常多，排序时也占到很多时间

√如果返回的数据非常少，或者没有，需要查询完90个分区才能得到结果，也需要不少时间

按照本发明方法进行查询则按照下列步骤进行，如图1所示：

由于查询条件包括经统计的属性名称—客户ID，因此先读取客户ID的统计表，由于查询的时间为2009年1月-3月，因此读取customStat0901，customStat0902，customStat0903这三个月的统计表，如果有客户ID的数据，加到分区列表中。

此处，如果查询的时间区间包含查询当天，则由于当天的数据未经统计，所以可直接从当天的分区中去找，如果有，把当天的分区也加到分区列表中去。

如果分区列表中，没有数据，说明这个客户没有记录，流程结束。

根据分区列表的时间先后顺序，查询分区的数据，并统计结果，如果统计数大于结果要求的条数，直接把结果排序输出，如果没有达到结果要求的条数，继续下一个分区，直到满足为之，再排序输出，这样处理可以减少排序带来的IO磁盘读取。

进一步，如果查询条件涉及多个经统计的属性名称，则对每个属性名称均按上述方法得到各自分区列表，对分区列表取交集，再在交集中的分区的基础上，根据剩下的条件进行查询。

比如下列应用：要查询一个客户A最近一个月从销售商B购买了大于100元的清单。这是一个相对比较复杂的查询，由于查询的条件都是AND条件，而且统计系统中已经把客户ID，销售商ID的存在信息都进行了统计，所以可以先查客户A的客户ID得到分区列表LIST1，再查销售商B的销售商ID得到分区列表LIST2，然后在LIST1和LIST2这两个列表中取交集，在交集的分区里找到大于100元的清单，如图2所示。

关于分页输出，再作如下说明：

通过统计的信息可以得到包含数据的分区列表，如果把所有的数据都查询出来，再排序分页输出，这样数据库要读的IO，包含所有分区的数据的读取，以及大数据量排序需要的IO，为了加快这部分的性能，可能先将得到的查询列表按照时间排序，然后一个分区一个分的取得结果，在这个分区里进行排序，依次保存在集合类型的里，如果此时查询的记录大于要求的条数就结束，如果不足，继续读下一个分区，输出结果的时候，直接从集合里查询就可以了。

翻页的时候，再根据前一页得到的结果的最小时间为查询条件，以及主键，再次查询其他的分区列表，根据传入的时间和主键值，再次查询后面的分区列表，并确保数据在传入的时间和主键值之后，这样就不会返回重复的数据。再次翻页查询的时候，算法同第一页查询。

Claims

1.一种海量数据查询方法，其特征在于，包括下列步骤：

a)进行海量数据查询前，对于一个或多个海量数据实体表，按照设定的时间间隔对每个实体表进行分区，得到各个实体表的多个实体表分区；

b)建立所述实体表中一个或多个属性名称的独立的一个或多个统计表，每个属性名称的每个统计表均为二维统计表，其中一维表示设定的时间区间内的各个时间间隔，另一维表示所述属性名称的属性列中的各个属性数据，统计表中的内容表示在某个时间间隔内存在某个属性数据的实体表的名称；

c)进行海量数据查询时，若查询条件中包括经过步骤b统计的属性名称，则获得所述属性名称的统计表，并根据该统计表和查询条件中设定的时间区间获得在该时间区间内的实体表分区的集合；

d)根据步骤c获得的实体表分区集合缩小海量数据查询范围，并根据所述集合中的实体表分区进行海量数据查询。

2.如权利要求1所述的海量数据查询方法，其特征在于，在步骤c中，若查询条件中包括多个经过步骤b统计的属性名称，则根据各个属性名称依次获得实体表分区集合后取交集，且步骤d根据该交集中的实体表分区进行海量数据查询。

3.如权利要求1所述的海量数据查询方法，其特征在于，在海量数据查询空闲期间按步骤b所述建立统计表。

4.如权利要求1或2所述的海量数据查询方法，其特征在于，步骤a和步骤b所述时间间隔均为天或者小时。

5.如权利要求1或2所述的海量数据查询方法，其特征在于，步骤b所述时间区间为月。

6.如权利要求1或2所述的海量数据查询方法，其特征在于，步骤a对实体表进行分区后，在所述实体表中一个或多个属性名称的属性列上建立BITMAP本地索引。

7.如权利要求1或2所述的海量数据查询方法，其特征在于，步骤d进行海量数据查询时，分页显示查询结果。

8.如权利要求6所述的海量数据查询方法，其特征在于，步骤d根据所述实体表分区的时间先后按照设定的顺序依次查询所述分区，当在已有查询结果的基础上加上当前分区的查询结果满足分页显示数量要求时，先显示结果再查询下一分区；当不满足分页显示数量要求时，先查询下一分区直至满足要求再显示结果。