CN106897293B

CN106897293B - 一种数据处理方法和装置

Info

Publication number: CN106897293B
Application number: CN201510957339.5A
Authority: CN
Inventors: 陈洪岭
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2020-09-11
Anticipated expiration: 2035-12-17
Also published as: CN106897293A

Abstract

本发明实施例公开了一种数据处理方法，包括获取样本数据；按照存储的各个挖掘工具，分别处理所述样本数据，得到所述各个挖掘工具的处理结果；根据所述各个挖掘工具的处理结果，确定成本最低的挖掘工具。本发明实施里还同时公开了一种数据处理装置。

Description

一种数据处理方法和装置

技术领域

本发明涉及数据仓库的数据挖掘技术，尤其涉及一种数据处理方法和装置。

背景技术

随着信息技术的发展，企业需要分析处理的数据量也越来越大，数据仓库产品也层出不穷。

目前主流的商用数据仓库产品举例如下：

甲骨文公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统，它能够提供一系列的数据仓库工具集和服务。它具有多用户数据仓库管理能力，多种分区方式，较强的与联机分析处理(Online Analytical Processing，OLAP)工具的交互能力，及快速和便捷的数据移动机制等特性。

国际商业机器公司提供了一套基于可视数据仓库的商业智能解决方案，具有集成能力强，高级面向对象等特性。

赛贝斯公司提供的数据仓库解决方案以能够支持多种关系型数据库而受到业界推崇。它能够同时处理几十个即席查询，其垂直数据存储技术使系统只访问特定的少量数据，使得查询速度比传统的关系型数据库管理系统快100倍。

但是，需要分析处理的数据的类型往往是非常多的，一种数据仓库无法满足所有的需求。由于数据类型复杂，无法快速定位哪种数据仓库的挖掘工具最为符合要求。

发明内容

为解决上述技术问题，本发明实施例期望提供一种数据处理方法和装置，能够从多个数据挖掘规则中选择最适合。

本发明的技术方案是这样实现的：

第一方面，提供一种数据处理方法，所述方法包括：

获取样本数据；

按照存储的各个挖掘工具，分别处理所述样本数据，得到所述各个挖掘工具的处理结果；

根据所述各个挖掘工具的处理结果，确定成本最低的挖掘工具。

可选的，所述获取样本数据包括：

接收原始数据；

按照预设的数据处理装置的承载量，从所述原始数据中获取所述样本数据。

可选的，所述按照存储的各个挖掘工具，分别处理所述样本数据包括：

将所述样本数据和所述原始数据的规模比例作为CPU收缩比例和内存收缩比例；

根据所述CPU收缩比例、所述内存收缩比例和所述各个挖掘工具，分别处理所述样本数据。

可选的，所述处理结果包括所述样本数据的数据分析时间和数据加载时间；

所述根据所述各个挖掘工具的处理结果，确定成本最低的数据挖掘规则包括：

根据成本评测公式，确定所述各个挖掘工具的成本，所述成本评测公式为：

Y＝C*N*F*J；

其中，所述Y是所述成本；所述C是所述CPU收缩比例，所述N是所述内存收缩比例；所述F是所述数据分析时间；所述J是所述数据加载时间；

从所述各个挖掘工具的成本中，确定所述成本最低的挖掘工具。

可选的，所述根据所述各个挖掘工具的处理结果，确定成本最低的挖掘工具之后，所述方法还包括：

将所述CPU收缩比例和所述内存收缩比例增大N倍，得到新的CPU收缩比例和新的内存收缩比例，所述N是正整数；

按照所述新的CPU收缩比例、所述新的内存收缩比例和所述成本最低的挖掘工具，处理所述样本数据，得到新的处理结果；

当所述新的处理结果和所述成本最低的挖掘工具的处理结果满足线性增长时，将所述N加1；

当所述新的处理结果和所述成本最低的挖掘工具的处理结果不满足线性增长时，将所述CPU收缩比例和所述内存收缩比例增大N-1倍的结果，作为最终的CPU收缩比例和最终的内存收缩比例。

第二方面，提供一种数据处理装置，所述装置包括：

获取单元，用于获取样本数据；

处理单元，用于按照存储的各个挖掘工具，分别处理所述样本数据，得到所述各个挖掘工具的处理结果；

确定单元，用于根据所述各个挖掘工具的处理结果，确定成本最低的挖掘工具。

可选的，所述获取单元具体用于：

接收原始数据；

可选的，所述处理单元具体用于：

所述确定单元具体用于：

Y＝C*N*F*J；

可选的，所述装置还包括：

增大单元，用于将所述CPU收缩比例和所述内存收缩比例增大N倍，得到新的CPU收缩比例和新的内存收缩比例，所述N是正整数；

所述处理单元，还用于按照所述新的CPU收缩比例、所述新的内存收缩比例和所述成本最低的挖掘工具，处理所述样本数据，得到新的处理结果；

所述增大单元，还用于当所述新的处理结果和所述成本最低的挖掘工具的处理结果满足线性增长时，将所述N加1；当所述新的处理结果和所述成本最低的挖掘工具的处理结果不满足线性增长时，将所述CPU收缩比例和所述内存收缩比例增大N-1倍的结果，作为最终的CPU收缩比例和最终的内存收缩比例。

本发明实施例提供了一种数据处理方法和装置，先获取样本数据；再按照存储的各个挖掘工具，分别处理样本数据，得到各个挖掘工具的处理结果；之后，根据各个挖掘工具的处理结果，确定成本最低的挖掘工具。这样一来，该方法可以将多种数据仓库存储在一起，并根据各种数据仓库的处理结果，选择出成本最低的挖掘工具，因此，解决了一种挖掘工具无法满足所有的要求和无法确定哪一种挖掘工具最符合要求的问题。

附图说明

图1为本发明实施例提供的一种数据处理方法的流程图；

图2为本发明实施例提供的一种数据处理装置的示意图；

图3为本发明实施例提供的另一种数据处理方法的流程图；

图4为本发明实施例提供的一种数据仓库模块的示意图；

图5为本发明实施例提供的一种数据处理装置的结构示意图；

图6为本发明实施例提供的另一种数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

本发明实施例提供一种数据处理方法，该方法应用于数据处理装置，该装置可以是一个独立的装置，可以是处理器的一部分。如图1所示，该方法可以包括：

步骤101、获取样本数据。

这里，样本数据是按照一定规则对原始数据采样结果，该规则可以是用户预先设定的；样本数据的数据量是处理装置的承载量。

具体的，接收原始数据；按照预设的数据处理装置的承载量，获取样本数据。这里，承载量是指数据处理装置一次性能够处理的最多数据量。

数据仓库是以关系数据库为依托，以数据仓库理论为指导、以联机分析处理为多层次多视角分析，以数据仓库的挖掘工具进行数据集成、整合、清洗、加载转换，以前端工具进行前端报表展现浏览，以反复叠代验证为生命周期的综合处理过程。挖掘工具是基于一种数据挖掘算法的程序包，优选的，挖掘工具可以包括hive、spark和impala。

例如，hive是建立在海杜普(Hadoop)上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive定义了简单的类结构化查询语言(Structured Query Language，SQL)查询语言，称为查询语言(Hibernate Query Language，HQL)，它允许熟悉SQL的用户查询数据。

步骤102、按照存储的各个挖掘工具，分别处理样本数据，得到各个挖掘工具的处理结果。

具体的，将样本数据和原始数据的规模比例作为CPU收缩比例和内存收缩比例；根据CPU收缩比例、内存收缩比例和各个挖掘工具，分别处理所述样本数据。也就是说，通过各个挖掘工具，按照CPU收缩比例、内存收缩比例计算样本数据。

步骤103、根据各个挖掘工具的处理结果，确定成本最低的挖掘工具。

这里，本实施例中的成本是指运行效率成本。

当处理结果包括样本数据的数据分析时间和数据加载时间，根据成本评测公式，确定各个挖掘工具的成本，所述成本评测公式为：

Y＝C*N*F*J；

其中，所述Y是成本；所述C是所述CPU收缩比例，所述N是所述内存收缩比例；所述F是所述数据分析时间；所述J是所述数据加载时间；

从所述各个挖掘工具的成本中，将成本最低的数据仓库作为成本最低的挖掘工具。这样一来，该方法可以将多种数据仓库存储在一起，并根据各种数据仓库的处理结果，选择出成本最低的挖掘工具，因此，解决了一种挖掘工具无法满足所有的要求和无法确定哪一种挖掘工具最符合要求的问题。

进一步的，为了满足处理结果的线性变换，还需要确定出合适的CPU收缩比例和内存收缩比例，在步骤103之后，所述方法还包括：将CPU收缩比例和内存收缩比例增大N倍，得到新的CPU收缩比例和新的内存收缩比例，所述N是正整数；按照新的CPU收缩比例、新的内存收缩比例和成本最低的挖掘工具，处理样本数据，得到新的处理结果；当新的处理结果和成本最低的挖掘工具的处理结果满足线性增长时，将N加1，继续上述循环过程，新的处理结果和成本最低的挖掘工具的处理结果不满足线性增长时，将CPU收缩比例和内存收缩比例增大N-1倍的结果，作为最终的CPU收缩比例和最终的内存收缩比例；当新的处理结果和成本最低的挖掘工具的处理结果不满足线性增长时，将CPU收缩比例和内存收缩比例增大N-1倍的结果，作为最终的CPU收缩比例和最终的内存收缩比例。

实施例二

本发明实施例提供一种数据处理方法，该方法应用于数据处理装置。如图2所示，该装置可以包括日志数据管理模块、数据仓库模块、数据仓库规则库、控制模块、性能评估模块和配置模块。如图3所示，该方法包括：

步骤201、配置模块确定采样数据的规模，原始数据的规模，数据分析SQL语句，预期执行时间，内存上限，CPU上限。

假设该装置的容量是10T，原始数据是100T，那么，采样数据就是10T。具体的采样方法本实施例不做限制。

这里，数据分析SQL语句相当于是运行脚本。

步骤202、日志数据管理模块将原始数据通过文件传输协议等方式装载到文件系统。

步骤203、日志数据管理模块将原始数据按需求进行采样，得到10T的采样数据。

步骤204、控制模块将样本数据和原始数据的规模比例作为CPU收缩比例和内存收缩比例。

步骤205、控制模块按照CPU收缩比例和内存收缩比例，将该装置的CPU、内存按对应的比例收缩。

本实施例的收缩方法是将配置linux操作系统的limits.conf文件。

步骤206、控制模块将样本数据加载到数据仓库模块的各个挖掘工具中，按照数据仓库规则库的规则计算各个挖掘工具的数据分析时间和数据加载时间。

这里，数据仓库模块的功能架构如图4所示。模块包括接口、spark、impala、hive和imfomix等多个挖掘工具。

值得说明的是，当该装置再多次数据处理之后，总结出一些规则，这样，当原始数据属于某一规则时，无需使用所有的挖掘工具，直接选择某一挖掘。例如，数据仓库规则库提供的规则有如下几种：原始数据大于或等于内存的总量1.5倍的，选择hive。原始数据小于内存1.5倍，且大于或等于内存时，选择spark。原始数据小于内存的，选择impala。

步骤207、性能评估模块根据成本评测公式，确定各个挖掘工具的成本。

这里，该成本评测公式为：Y＝C*N*F*J；

其中，所述Y是成本；所述C是所述CPU收缩比例，所述N是所述内存收缩比例；所述F是所述数据分析时间；所述J是所述数据加载时间。

步骤208、控制模块从各个挖掘工具的成本中，确定成本最低的挖掘工具。

在步骤208之后，将CPU收缩比例和内存收缩比例增大1倍，按照增大1倍的CPU收缩比例、增大1倍的内存收缩比例和成本最低的挖掘工具，处理所本数据，得到新的处理结果，当新的处理结果和成本最低的挖掘工具的处理结果满足线性增长时，则将CPU收缩比例和内存收缩比例增大2倍，以此类推，直到CPU收缩比例和内存收缩比例增大N倍，新的处理结果和成本最低的挖掘工具的处理结果不满足线性增长，将N倍的CPU收缩比例和内存收缩比例作为最终的CPU收缩比例和最终的内存收缩比例。

实施例三

本发明实施例提供一种数据处理装置30，如图5所示，所述装置30包括：

获取单元301，用于获取样本数据。

处理单元302，用于按照存储的各个挖掘工具，分别处理所述样本数据，得到所述各个挖掘工具的处理结果。

确定单元303，用于根据所述各个挖掘工具的处理结果，确定成本最低的挖掘工具。

这样一来，该方法可以将多种数据仓库存储在一起，并根据各种数据仓库的处理结果，选择出成本最低的挖掘工具，因此，解决了一种挖掘工具无法满足所有的要求和无法确定哪种挖掘工具最符合要求的问题。

进一步的，所述获取单元301具体用于：

接收原始数据；

进一步的，所述处理单元302具体用于：

进一步的，所述处理结果包括所述样本数据的数据分析时间和数据加载时间；所述确定单元303具体用于：

Y＝C*N*F*J；

进一步的，如图6所示，所述装置30还包括：

增大单元304，用于将所述CPU收缩比例和所述内存收缩比例增大N倍，得到新的CPU收缩比例和新的内存收缩比例，所述N是正整数；

所述处理单元302，还用于按照所述新的CPU收缩比例、所述新的内存收缩比例和所述成本最低的挖掘工具，处理所述样本数据，得到新的处理结果；

所述增大单元304，还用于当所述新的处理结果和所述成本最低的挖掘工具的处理结果满足线性增长时，将所述N加1；当所述新的处理结果和所述成本最低的挖掘工具的处理结果不满足线性增长时，将所述CPU收缩比例和所述内存收缩比例增大N-1倍的结果，作为最终的CPU收缩比例和最终的内存收缩比例。

在实际应用中，所述获取单元301、处理单元302、确定单元303和增大单元304均可由位于装置30中的中央处理器(Central Processing Unit，CPU)、微处理器(MicroProcessor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)、或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取样本数据；

按照存储的各个挖掘工具，分别处理所述样本数据，得到所述各个挖掘工具的处理结果；其中，所述处理结果包括所述样本数据的数据分析时间和数据加载时间；

所述按照存储的各个挖掘工具，分别处理所述样本数据包括：将所述样本数据和原始数据的规模比例作为CPU收缩比例和内存收缩比例；根据所述CPU收缩比例、所述内存收缩比例和所述各个挖掘工具，分别处理所述样本数据；

2.根据权利要求1所述的方法，其特征在于，所述获取样本数据包括：

接收原始数据；

3.根据权利要求2所述的方法，其特征在于，所述根据所述各个挖掘工具的处理结果，确定成本最低的数据挖掘规则包括：

Y＝C*N*F*J；

4.根据权利要求3所述的方法，其特征在于，所述根据所述各个挖掘工具的处理结果，确定成本最低的挖掘工具之后，所述方法还包括：

5.一种数据处理装置，其特征在于，所述装置包括：

获取单元，用于获取样本数据；

处理单元，用于按照存储的各个挖掘工具，分别处理所述样本数据，得到所述各个挖掘工具的处理结果；其中，所述处理结果包括所述样本数据的数据分析时间和数据加载时间；所述处理单元具体用于：将所述样本数据和原始数据的规模比例作为CPU收缩比例和内存收缩比例；根据所述CPU收缩比例、所述内存收缩比例和所述各个挖掘工具，分别处理所述样本数据；

6.根据权利要求5所述的装置，其特征在于，所述获取单元具体用于：

接收原始数据；

7.根据权利要求6所述的装置，其特征在于，所述确定单元具体用于：

Y＝C*N*F*J；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：