CN101770461B

CN101770461B - 数据处理方法及处理系统

Info

Publication number: CN101770461B
Application number: CN 200810187997
Authority: CN
Inventors: 孟繁力; 刘刚; 王雅文; 焦丽红
Original assignee: China Mobile Group Heilongjiang Co Ltd
Current assignee: China Mobile Group Heilongjiang Co Ltd
Priority date: 2008-12-31
Filing date: 2008-12-31
Publication date: 2013-09-25
Anticipated expiration: 2028-12-31
Also published as: CN101770461A

Abstract

本发明公开了一种数据处理方法及处理系统。其中数据处理方法包括：根据预设的配置文件从数据源抽取数据；在内存中对抽取的数据进行第一转换；将第一转换后的数据载入到数据仓库中；根据预设的任务对数据仓库中的数据进行第二转换。本发明的数据处理方法及处理系统，根据转换的数据量和特性，通过将转换效率较高、系统资源消耗小的第一转换在内存中执行，而将其他转换效率低且系统资源消耗较大的转换在数据仓库中进行，大大减少了内存中处理数据的切换，降低了主机I/O资源吞吐，并且，利用数据库的索引技术，使得海量数据的关联转换效率大幅度提高。

Description

数据处理方法及处理系统

技术领域

本发明涉及一种移动经营分析管理技术，尤其涉及一种数据处理方法及处理系统。

背景技术

随着经营分析系统在经营决策和营销管理方面起着越来越重要的作用，其所承载的应用也日趋丰富，随之而来的是系统处理数据的压力不断增大，现有的数据处理技术暴露出很多问题。

现有的经营分析系统，数据处理技术是传统的基于文件系统的ETL技术。ETL是英文Extract-Transform-Load的缩写，用来描述将资料从来源端经过抽取(extract)、转换(transform)、载入(load)至目的端的过程。ETL是数据仓库理论中数据处理的核心环节。

传统的数据仓库ETL技术就是对数据源的数据做抽取，在文件系统中做转换，之后再加载到数据仓库。现有的抽取技术是基于数据库的直接文本导出，导出的文件放到主机的文件系统中；现有的转化技术是将基于文件系统的文件做行级别的字段拆分和文件级别的关联计算，将转换的结果再次生成文本文件放到文件系统中，由装载程序将转换的结果装载到数据仓库。

现有技术的缺陷主要有以下几点：

1、转换效率低，系统资源消耗严重

现有的处理技术把大量的计算全部集中在转换环节，虽然基于文件系统的转换算法相对简单，只是对字符串的拆分和关联处理，但是，当处理海量数据时，会对磁盘数据进行频繁读写，IO吞吐过大，常常因为系统资源消耗过大而任务运行失败，计算效率较低，而且系统资源消耗严重。

2、转化计算压力集中，造成资源拥塞现象

现有的数据处理流程是抽取、转换、装载，转换完全集中在一个环节完成，特别是基于话单和账单的转换，由于数据计算量过大，而基于文件系统的转换处理无法利用索引技术，因此在关联运算时效率很低。

3、不支持多任务集群调度

现有的任务管理方式是定时启动模式，这种方式在多任务集群调度时存在着问题，无法动态根据任务的优先级和系统资源利用情况调整任务的执行顺序和资源分配。

发明内容

本发明的第一目的在于，针对现有技术中数据处理转换效率低、系统资源消耗严重的缺陷，提供一种转换效率较高且能够节约系统资源的数据处理方法。

本发明的第二目的在于，针对现有技术中数据处理转换效率低、系统资源消耗严重的缺陷，提供一种转换效率较高且能够节约系统资源的数据处理系统。

根据本发明的第一目的，提供一种数据处理方法，包括：

根据预设的配置文件从数据源抽取数据；

根据转换的数据量和特性，在内存中对所述抽取的数据进行行级转换、时间字段类型转换和空值转换中至少一个转换；

将所述转换后的数据载入到数据仓库中；

根据预设的任务对所述数据仓库中的数据进行关联转换。

根据本发明的第二目的，提供一种数据处理系统，包括位于内存中的抽取装置、第一转换装置和载入装置，及位于数据仓库侧的第二转换装置，其中，

抽取装置，用于根据预设的配置文件从数据源抽取数据；

第一转换装置，用于根据转换的数据量和特性，对所述抽取的数据进行行级转换、时间字段类型转换和空值转换中至少一个转换；

载入装置，用于将所述第一转换装置转换后的数据载入到数据仓库中；

第二转换装置，用于根据预设的任务对所述数据仓库中的数据进行关联转换。

本发明的数据处理方法及处理系统，根据转换的数据量和特性，通过将转换效率较高、系统资源消耗小的第一转换在内存中执行，而将其他转换效率低且系统资源消耗较大的转换在数据仓库中进行，大大减少了内存中处理数据的切换，降低了主机I/O资源吞吐，并且，利用数据库的索引技术，使得海量数据的关联转换效率大幅度提高。

附图说明

图1是本发明第一实施例数据处理系统的结构图；

图2是本发明第一实施例数据处理方法的流程图；

图3是本发明第二实施例数据处理系统的结构图；

图4是新旧技术系统资源消耗对比图。

具体实施方式

以下结合附图对本发明进行详细说明。

如图1所示，本发明第一实施例的数据处理系统包括位于内存40中的：抽取装置402，根据预设的配置文件从数据源20抽取数据；第一转换装置404，对抽取的数据进行第一转换；载入装置406，将第一转换后的数据载入到数据仓库60中；位于数据仓库中的第二转换装置80，根据预设的任务对数据仓库中的数据进行第二转换。优选地，本发明第一实施例的数据处理系统还包括位于内存中的：内存计数器408，分别对抽取数据的个数、转换数据的个数和载入数据的个数进行计数，分别得到第一计数值、第二计数值和第三计数值中至少一个；比较器410，将配置文件中待处理数据的个数分别与第一计数值、第二计数值和第三计数值进行比较。

本发明第一实施例中，配置文件中包括：各个任务对应的数据源名称、需要处理数据的个数、所要处理的数据在数据源中的位置等等信息。

如图2所示，本发明第二实施例的数据处理方法包括：

步骤802，开始；

步骤804，根据配置文件抽取数据；

步骤812，在内存中对抽取后的数据进行第一转换；

步骤820，将第一转换后的数据载入到数据仓库中。

优选地，步骤804之后还包括：

步骤806，对抽取数据的个数进行计数，得到第一计数值；

步骤808，比较第一计数值与配置文件中该任务待处理数据的个数是否相等，如果是，执行步骤810，如果否，执行步骤804；

步骤810，抽取完成。

优选地，步骤812之后还包括：

步骤814，对转换数据的个数进行计数，得到第二计数值；

步骤816，比较第二计数值与配置文件中该任务待处理数据的个数是否相等，如果是，执行步骤818，如果否，执行步骤812；

步骤818，转换完成。

优选地，步骤820之后还包括：

步骤822，对载入数据的个数进行计数，得到第三计数值；

步骤824，比较第三计数值与配置文件中该任务待处理数据的个数是否相等，如果是，执行步骤826，如果否，执行步骤820；

步骤826，载入完成；

步骤828，根据预设的任务对数据仓库中的数据进行第二转换。

其中，第一实施例中，步骤812中的第一转换为行级转换，即对单行数据的拆分和字段类型转换。将行级转换放到内存中进行，是由于内存的转换算法处理行级转换效率非常高，这样会提高整个数据处理过程的转换效率。

除了行级转换之外，还有时间字段类型转换和空值转换等转换在内存中进行，这些转换在内存中处理效率高。时间字段类型转换，如把“年-月-日-小时-分”转换成“年月日”格式；空值转换，如数据中某一字段为空，那么用特点字符代替该空值。

另外，第一实施例中，并不是在所有的数据抽取完成后才进行转换，而是在抽取的同时，对已抽取的数据进行第一转换。实际操作时可以设置一个数值，当抽取的数据到达这一数值时，就开始对该部分数据进行第一转换。同理，在转换数据的同时，也可以将已转换的数据载入到数据仓库中。这样，加快数据处理的过程，节约了数据处理的时间。

第一实施例中，第二转换主要为关联转换，即表级转换，为大量数据的相互关联运算，转换完成后生成相应的结果表和日志表。由于关联转换的数据计算量庞大，因此在将数据载入到数据仓库60后进行。

本发明的第一实施例，根据转换的数据量和特性，将转换效率较高、系统资源消耗小的行级转换在内存中执行，而将其他转换效率低且系统资源消耗较大的转换在数据仓库中进行，这样，大大减少了内存中处理数据的切换，降低了主机I/O资源吞吐，并且，利用数据库的索引技术，使得海量数据的关联转换效率大幅度提高。

如图4所示，本发明第二实施例，数据处理系统还包括：任务排序装置412和资源分配装置414中至少一个，

任务排序装置412，根据配置文件中各个任务的优先级对各个任务进行排序；抽取装置402，根据任务排序结果进行各个任务数据抽取，即先执行优先级较高的任务。

资源分配装置414，根据当前系统的空余资源、任务的历史资源消耗、任务的优先级以及当前任务的运行情况为任务分配资源。例如，当前系统空余资源为40％，新加入任务A、B，任务A的优先级高于任务B，且任务A的历史资源消耗高于任务B，由于要为系统本身运行留有20％的资源，则为任务A分配15％的资源，而为任务B分配5％的资源；当前正在运行的任务C，历史运行时间为1小时，已经运行了55分钟，其占用资源为15％，因此，资源分配装置414设定5分钟后，将空余出来的15％的资源，给任务A再分配10％的资源，给任务B再分配5％的资源。

本发明第二实施例的数据处理方法，在步骤804之前还包括：

步骤a1，根据各个新任务的优先级对任务进行排序；

步骤a2，根据当前系统的空余资源、所述新任务的历史资源消耗、所述新任务的优先级以及当前任务的执行情况为所述新任务分配资源。

步骤804具体包括：根据任务排序结果和资源分配情况进行数据抽取。

本发明第二实施例中，可以对任务做优先级管理，同事并发的任务会根据优先级的高低进行队列管理。而且可以根据任务资源消耗情况做智能分析，对优先级高的任务做资源倾斜。通过动态根据任务的优先级和系统资源利用情况调整任务的执行顺序和资源分配，使得重要任务能够安全、快速的执行，避免了系统资源分配不合理，忙时过忙，闲时过闲的问题，大大降低了维护工作量和因为任务安排不合理带来的系统资源浪费和数据错误。

本发明的主要优点有以下几点：

(1)在数据处理效率方面

经实验，数据处理效率大大提升，日处理的时间提前了3个小时以上，数据量提升超过30％，大大缓解了由数据量扩充带来的处理效率降低的问题；

(2)在系统资源消耗方面

如图4所示，新技术的上线，使得系统的主机和内存资源消耗情况明显降低，系统主机资源降低30％以上，解决了系统资源频频告急的情况。

(3)在任务管理方面

通过使用本发明的数据处理方法和处理系统，使得重要任务得到了资源的倾斜，避免了任务因为资源消耗过大而报错的情况，经实验，经营分析系统的重要指标展现时间可提前近3.5个小时。

应说明的是：以上实施例仅用以说明本发明而非限制，本发明也并不仅限于上述举例，一切不脱离本发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围中。

Claims

1.一种数据处理方法，其特征在于，包括：

根据预设的配置文件从数据源抽取数据，具体包括：根据所述配置文件获得各个任务待处理数据的个数；从所述数据源抽取数据，同时对所述抽取数据的个数进行计数，得到第一计数值；比较所述第一计数值与所述待处理数据的个数，当所述第一计数值与所述待处理数据的个数相等时，执行后续操作步骤；

根据转换的数据量和特性，在内存中对所述抽取的数据进行第一转换，所述第一转换为行级转换、时间字段类型转换和空值转换中至少一个转换，具体包括：对所述数据进行转换的同时，对转换数据的个数进行计数，得到第二计数值；比较所述第二计数值与所述待处理数据的个数，当所述第二计数值与所述待处理数据的个数相等时，执行后续操作步骤；

将所述转换后的数据载入到数据仓库中，具体包括：将所述第一转换后的数据载入到数据仓库，同时对载入数据的个数进行计数，得到第三计数值；比较所述第三计数值与所述待处理数据的个数，当所述第三计数值与所述待处理数据的个数相等时，执行后续操作步骤；

在数据仓库中根据预设的任务对所述数据仓库中的数据进行关联转换。

2.根据权利要求1所述的数据处理方法，其特征在于，所述根据预设的配置文件从数据源抽取数据的操作具体还包括：

根据各个新任务的优先级对所述新任务进行排序；

根据任务排序结果进行数据抽取。

3.根据权利要求2所述的数据处理方法，其特征在于，所述根据各个新任务的优先级对所述新任务进行排序的操作之后还包括：

根据当前系统的空余资源、所述新任务的历史资源消耗、所述新任务的优先级以及当前任务的执行情况为所述新任务分配资源；

根据所述任务排序结果和任务资源分配结果进行数据抽取。

4.一种数据处理系统，其特征在于，包括位于内存中的抽取装置、第一转换装置和载入装置，及位于数据仓库中的第二转换装置，其中，

抽取装置，用于根据预设的配置文件从数据源抽取数据；

第二转换装置，用于根据预设的任务对所述数据仓库中的数据进行关联转换；

还包括位于内存中的：

内存计数器，用于分别对抽取数据的个数、转换数据的个数及载入数据的个数中进行计数，分别得到第一计数值、第二计数值和第三计数值中至少一个；

比较器，用于将所述配置文件中待处理数据的个数分别与所述第一计数值、第二计数值和第三计数值进行比较；

所述第一转换装置，当第一计数值与所述待处理数据的个数相等时，开始对所述抽取的数据进行行级转换、时间字段类型转换和空值转换中至少一个转换；

所述载入装置，当所述第二计数值与所述待处理数据的个数相等时，开始将所述第一转换装置转换后的数据载入到所述数据仓库；

所述第二转换装置，当所述第三计数值与所述待处理数据的个数相等时，开始根据预设的任务对所述数据仓库中的数据进行关联转换。

5.根据权利要求4所述的数据处理系统，其特征在于，还包括位于内存中的：

任务排序装置，用于根据配置文件中各个任务的优先级对所述任务进行排序；

所述抽取装置，进一步用于根据任务排序结果进行各个任务数据抽取。

6.根据权利要求5所述的数据处理系统，其特征在于，还包括位于内存中的：

资源分配装置，用于根据当前系统的空余资源、新任务的历史资源消耗、所述新任务的优先级以及当前任务执行情况为所述新任务分配资源；

所述抽取装置，根据所述任务资源分配结果进行数据抽取。