CN101510203A

CN101510203A - 基于拆分机制并行处理实现大数据量高性能处理的方法

Info

Publication number: CN101510203A
Application number: CNA2009100246706A
Authority: CN
Inventors: 沈小军; 庞海东; 赵懿敏; 李捷; 曹晓华
Original assignee: LINKAGE SYSTEM INTEGRATION CO Ltd
Current assignee: LINKAGE SYSTEM INTEGRATION CO Ltd
Priority date: 2009-02-25
Filing date: 2009-02-25
Publication date: 2009-08-19
Anticipated expiration: 2029-02-25
Also published as: CN101510203B

Abstract

基于拆分机制并行处理实现大数据量高性能处理的方法，对于电信的话单海量数据通过设置拆分规则，将需要处理的海量数据，平均地拆分成多个文件，并利用文件处理系统的多线程和多CPU并行处理，快速处理海量数据：在文件处理系统中并行处理的过程是模拟数据库sql算法进行计算；通过先罗列出每个汇总表所需要的维度和指标字段，再取并集的方法，制定出一个抽取海量数据源表的SQL语句，读完所有后续海量数据汇总表所需要的信息；组装入库：平均地拆分成多个文件中的形成的小文件汇总工作都完成之后，将所有的结果文件按照目标表类型分别拼接成大文件，然后装载进汇总表；这部分工作可以利用数据库特有的快速入库命令来完成。

Description

基于拆分机制并行处理实现大数据量高性能处理的方法

技术领域

本发明属于电信运营商海量数据库数据处理应用技术范畴，尤其是并行处理实现大数据量高性能处理的方法。

背景技术

一般来说，电信运营商的业务清单数据常常都是海量级的，尤其是需要进行汇总统计的清单数据，每天处理的的记录数均达到千万级。通常的做法是在数据库中通过一个或多个较复杂的sql语句，并提交给数据库完成，这样的工作都占用了很多时间和数据库资源。

比如，针对每天产生的日清单数据，需要先对日清单表的记录按照指定条件进行汇总，然后更新入汇总表，更新方法是：如果汇总表已经有了相同指定约束条件的，则将相关指标值累加并更新；否则直接插入，形成新的记录。

每次汇总过程都需要执行一次较复杂的sql语句。有多少种不同的汇总目标表，就需要执行多少次sql语句。其所要花费的时间完全取决于数据库的处理性能。而通常情况下效率都非常的低。

发明内容

本发明目的是提出一种基于拆分机制并行处理实现大数据量高性能处理的方法，针对每次汇总过程都需要执行一次较复杂的sql语句。有多少种不同的汇总目标表，就需要执行多少次sql语句，所要花费的时间多的不足。

基于拆分机制并行处理实现大数据量高性能处理的方法，对于电信的话单海量数据通过设置拆分规则，将需要处理的海量数据，平均地拆分成多个文件，并利用文件处理系统的多线程和多CPU并行处理，快速处理海量数据：在文件处理系统中并行处理的过程是模拟数据库sql算法进行计算，充分利用文件处理系统的资源；

一次性读取所有后续海量数据汇总表所需要的信息：通过先罗列出每个汇总表所需要的维度和指标字段，再取并集的方法，制定出一个抽取海量数据源表的SQL语句，读完所有后续海量数据汇总表所需要的信息；

同步拆分：为了充分利用多线程和多进程的并行处理优势，对数据进行一定条件拆分：所述拆分条件是按照电话号码，通过合理指定电话号码的位进行拆分，将所有抽取的记录，比较平均地分布在抽取出的文件中；拆分的文件数和拆分位数关系是“10的幂”，也就是说如果按1位进行拆分，那么可拆分出10个文件；如果按两位进行拆分，那么可拆分出100个文件，如果按3位拆分，那么可拆分出1000个文件；依次类推；

根据拆分条件的规则，就形成了一些“处理文件对”，处理文件对中汇总的条件不可能在别的文件中出现，这样通过多线程或多进程的方式分别进行小范围内的文件汇总统计，并将汇总结果文件输出到新的文件中，模拟完成数据库操作；

组装入库：平均地拆分成多个文件中的形成的小文件汇总工作都完成之后，将所有的结果文件按照目标表类型分别拼接成大文件，然后装载进汇总表；这部分工作可以利用数据库特有的快速入库命令来完成。

本发明有益效果是：本发明针对完全通过数据库来进行类似的工作所存在的多次访问同一海量数据源、处理速度完全依赖数据库、性能无法掌控等问题而设计的。本发明主要优势在于：

1、无论有多少种汇总，只需一次性访问海量数据源，最大限度地减少数据库压力。

2、在文件系统中模拟数据库sql算法进行计算，充分利用文件系统的资源。

3、对数据库的性能依赖小，投资少，且便于移植。

通过一次性读取所有汇总表所需要的内容，并根据预设的拆分规则，分成若干小文件存储到文件系统中，然后利用多进程和多线程技术对这些文件进行数据库仿真运算，处理的结果文件最终再拼接，统一快速入库，从而完成模拟执行sql的过程。

4、对数据库的性能依赖小，投资少，且便于移植。一般主机资源投入比数据库的投入要小许多，因此提升同样的系统性能，更新数据库要比更新主机系统更费资金，更费事，充分利用文件系统能达到低投入，高产出的最终目的。

在江苏电信经营分析系统的使用情况表明，数据库海量数据的文件系统处理算法，能明显提高效率2倍以上，而且当汇总表个数增加的情况下，其优势将更为明显，测试结果如下：

可见通过文件系统的并行处理，性能提高了一倍，而且可以推断出，当目标汇总表个数增加的时候，通过sql处理的时间是线性增加的，而通过文件系统模拟数据库处理，其花费的时间是非线性、缓慢地增长的。

测试结论：基于拆分机制并行处理实现大数据量高性能处理的方法来模拟数据库处理，能明显提高其处理性能(至少2倍以上)。当汇总结果表个数为多个的时候，其性能提升尤为明显。

附图说明

图1为从源表至目标表的数据流处理过程示意图

具体实施方式

可通过指定一通用接口，供原系统进行方便调用，从而达到替换原数据库内处理的功能，在显著提高系统执行效率的同时，做到跟原系统无缝衔接。

实施过程中的几项关键技术如下：

一次性读取：为了达到减少访问海量数据源表的目的，需要一次性读取所有后续汇总表所需要的信息。可通过先罗列出每个汇总表所需要的维度和指标字段，再取并集的方法，制定出一个抽取海量源表的SQL语句。无论有多少种汇总，只需一次性访问海量数据源，最大限度地减少数据库压力。为了达到减少访问海量数据源表的目的，需要一次性读取所有后续汇总表所需要的信息。可通过先罗列出每个汇总表所需要的维度和指标字段，再取并集的方法，制定出一个抽取海量源表的SQL语句。并根据实际情况进行，通常是按照电话号码，通过合理指定电话号码的某些位进行拆分，理论上可以将所有抽取的记录，比较平均地分布在抽取出的文件中。

通过先罗列出每个汇总表所需要的维度和指标字段，再取并集的方法，制定出一个抽取海量数据源表的SQL语句，读完所有后续海量数据汇总表所需要的信息。

同步拆分：为了接下来能充分利用多线程和多进程的并行处理优势，需要对数据进行一定条件的拆分。拆分条件可以根据实际情况进行，通常是按照电话号码，通过合理指定电话号码的某些位进行拆分，理论上可以将所有抽取的记录，比较平均地分布在抽取出的文件中。拆分的文件数和拆分位数关系是“10的幂”，也就是说如果按1位进行拆分，那么可拆分出10个文件；如果按两位进行拆分，那么可拆分出100个文件，如果按3位拆分，那么可拆分出1000个文件；依次类推。

并行处理：因为拆分条件的限定，就形成了“处理文件对”，一对文件中汇总的条件不可能在别的文件中出现，也就是说需要进行比较的条件范围缩小了。在文件系统中模拟数据库sql算法进行计算，充分利用文件系统的资源。这时，可以通过多线程或多进程的方式分别进行小范围内的文件汇总统计，并将汇总结果文件输出到新的文件中。模拟完成数据库操作。

组装入库：当所有的小文件汇总工作都完成之后，需要将所有的结果文件按照目标表类型分别拼接成大文件，然后装载进汇总表。这部分工作可以利用数据库特有的快速入库命令来完成，最大程度地减少入库时间。可参见图1所示。

Claims

1、基于拆分机制并行处理实现大数据量高性能处理的方法，其特征是对于电信的话单海量数据通过设置拆分规则，将需要处理的海量数据，平均地拆分成多个文件，并利用文件处理系统的多线程和多CPU并行处理，快速处理海量数据：在文件处理系统中并行处理的过程是模拟数据库sq1算法进行计算，充分利用文件处理系统的资源；

同步拆分：为了充分利用多线程和多进程的并行处理优势，对数据进行一定条件拆分：所述拆分条件是按照电话号码，通过合理指定电话号码的位进行拆分，将所有抽取的记录，比较平均地分布在抽取出的文件中；拆分的文件数和拆分位数关系是“10的幂”；