CN106897293B - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN106897293B
CN106897293B CN201510957339.5A CN201510957339A CN106897293B CN 106897293 B CN106897293 B CN 106897293B CN 201510957339 A CN201510957339 A CN 201510957339A CN 106897293 B CN106897293 B CN 106897293B
Authority
CN
China
Prior art keywords
data
tool
cpu
processing
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510957339.5A
Other languages
English (en)
Other versions
CN106897293A (zh
Inventor
陈洪岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201510957339.5A priority Critical patent/CN106897293B/zh
Publication of CN106897293A publication Critical patent/CN106897293A/zh
Application granted granted Critical
Publication of CN106897293B publication Critical patent/CN106897293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种数据处理方法,包括获取样本数据;按照存储的各个挖掘工具,分别处理所述样本数据,得到所述各个挖掘工具的处理结果;根据所述各个挖掘工具的处理结果,确定成本最低的挖掘工具。本发明实施里还同时公开了一种数据处理装置。

Description

一种数据处理方法和装置
技术领域
本发明涉及数据仓库的数据挖掘技术,尤其涉及一种数据处理方法和装置。
背景技术
随着信息技术的发展,企业需要分析处理的数据量也越来越大,数据仓库产品也层出不穷。
目前主流的商用数据仓库产品举例如下:
甲骨文公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,它能够提供一系列的数据仓库工具集和服务。它具有多用户数据仓库管理能力,多种分区方式,较强的与联机分析处理(Online Analytical Processing,OLAP)工具的交互能力,及快速和便捷的数据移动机制等特性。
国际商业机器公司提供了一套基于可视数据仓库的商业智能解决方案,具有集成能力强,高级面向对象等特性。
赛贝斯公司提供的数据仓库解决方案以能够支持多种关系型数据库而受到业界推崇。它能够同时处理几十个即席查询,其垂直数据存储技术使系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统快100倍。
但是,需要分析处理的数据的类型往往是非常多的,一种数据仓库无法满足所有的需求。由于数据类型复杂,无法快速定位哪种数据仓库的挖掘工具最为符合要求。
发明内容
为解决上述技术问题,本发明实施例期望提供一种数据处理方法和装置,能够从多个数据挖掘规则中选择最适合。
本发明的技术方案是这样实现的:
第一方面,提供一种数据处理方法,所述方法包括:
获取样本数据;
按照存储的各个挖掘工具,分别处理所述样本数据,得到所述各个挖掘工具的处理结果;
根据所述各个挖掘工具的处理结果,确定成本最低的挖掘工具。
可选的,所述获取样本数据包括:
接收原始数据;
按照预设的数据处理装置的承载量,从所述原始数据中获取所述样本数据。
可选的,所述按照存储的各个挖掘工具,分别处理所述样本数据包括:
将所述样本数据和所述原始数据的规模比例作为CPU收缩比例和内存收缩比例;
根据所述CPU收缩比例、所述内存收缩比例和所述各个挖掘工具,分别处理所述样本数据。
可选的,所述处理结果包括所述样本数据的数据分析时间和数据加载时间;
所述根据所述各个挖掘工具的处理结果,确定成本最低的数据挖掘规则包括:
根据成本评测公式,确定所述各个挖掘工具的成本,所述成本评测公式为:
Y=C*N*F*J;
其中,所述Y是所述成本;所述C是所述CPU收缩比例,所述N是所述内存收缩比例;所述F是所述数据分析时间;所述J是所述数据加载时间;
从所述各个挖掘工具的成本中,确定所述成本最低的挖掘工具。
可选的,所述根据所述各个挖掘工具的处理结果,确定成本最低的挖掘工具之后,所述方法还包括:
将所述CPU收缩比例和所述内存收缩比例增大N倍,得到新的CPU收缩比例和新的内存收缩比例,所述N是正整数;
按照所述新的CPU收缩比例、所述新的内存收缩比例和所述成本最低的挖掘工具,处理所述样本数据,得到新的处理结果;
当所述新的处理结果和所述成本最低的挖掘工具的处理结果满足线性增长时,将所述N加1;
当所述新的处理结果和所述成本最低的挖掘工具的处理结果不满足线性增长时,将所述CPU收缩比例和所述内存收缩比例增大N-1倍的结果,作为最终的CPU收缩比例和最终的内存收缩比例。
第二方面,提供一种数据处理装置,所述装置包括:
获取单元,用于获取样本数据;
处理单元,用于按照存储的各个挖掘工具,分别处理所述样本数据,得到所述各个挖掘工具的处理结果;
确定单元,用于根据所述各个挖掘工具的处理结果,确定成本最低的挖掘工具。
可选的,所述获取单元具体用于:
接收原始数据;
按照预设的数据处理装置的承载量,从所述原始数据中获取所述样本数据。
可选的,所述处理单元具体用于:
将所述样本数据和所述原始数据的规模比例作为CPU收缩比例和内存收缩比例;
根据所述CPU收缩比例、所述内存收缩比例和所述各个挖掘工具,分别处理所述样本数据。
可选的,所述处理结果包括所述样本数据的数据分析时间和数据加载时间;
所述确定单元具体用于:
根据成本评测公式,确定所述各个挖掘工具的成本,所述成本评测公式为:
Y=C*N*F*J;
其中,所述Y是所述成本;所述C是所述CPU收缩比例,所述N是所述内存收缩比例;所述F是所述数据分析时间;所述J是所述数据加载时间;
从所述各个挖掘工具的成本中,确定所述成本最低的挖掘工具。
可选的,所述装置还包括:
增大单元,用于将所述CPU收缩比例和所述内存收缩比例增大N倍,得到新的CPU收缩比例和新的内存收缩比例,所述N是正整数;
所述处理单元,还用于按照所述新的CPU收缩比例、所述新的内存收缩比例和所述成本最低的挖掘工具,处理所述样本数据,得到新的处理结果;
所述增大单元,还用于当所述新的处理结果和所述成本最低的挖掘工具的处理结果满足线性增长时,将所述N加1;当所述新的处理结果和所述成本最低的挖掘工具的处理结果不满足线性增长时,将所述CPU收缩比例和所述内存收缩比例增大N-1倍的结果,作为最终的CPU收缩比例和最终的内存收缩比例。
本发明实施例提供了一种数据处理方法和装置,先获取样本数据;再按照存储的各个挖掘工具,分别处理样本数据,得到各个挖掘工具的处理结果;之后,根据各个挖掘工具的处理结果,确定成本最低的挖掘工具。这样一来,该方法可以将多种数据仓库存储在一起,并根据各种数据仓库的处理结果,选择出成本最低的挖掘工具,因此,解决了一种挖掘工具无法满足所有的要求和无法确定哪一种挖掘工具最符合要求的问题。
附图说明
图1为本发明实施例提供的一种数据处理方法的流程图;
图2为本发明实施例提供的一种数据处理装置的示意图;
图3为本发明实施例提供的另一种数据处理方法的流程图;
图4为本发明实施例提供的一种数据仓库模块的示意图;
图5为本发明实施例提供的一种数据处理装置的结构示意图;
图6为本发明实施例提供的另一种数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例一
本发明实施例提供一种数据处理方法,该方法应用于数据处理装置,该装置可以是一个独立的装置,可以是处理器的一部分。如图1所示,该方法可以包括:
步骤101、获取样本数据。
这里,样本数据是按照一定规则对原始数据采样结果,该规则可以是用户预先设定的;样本数据的数据量是处理装置的承载量。
具体的,接收原始数据;按照预设的数据处理装置的承载量,获取样本数据。这里,承载量是指数据处理装置一次性能够处理的最多数据量。
数据仓库是以关系数据库为依托,以数据仓库理论为指导、以联机分析处理为多层次多视角分析,以数据仓库的挖掘工具进行数据集成、整合、清洗、加载转换,以前端工具进行前端报表展现浏览,以反复叠代验证为生命周期的综合处理过程。挖掘工具是基于一种数据挖掘算法的程序包,优选的,挖掘工具可以包括hive、spark和impala。
例如,hive是建立在海杜普(Hadoop)上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive定义了简单的类结构化查询语言(Structured Query Language,SQL)查询语言,称为查询语言(Hibernate Query Language,HQL),它允许熟悉SQL的用户查询数据。
步骤102、按照存储的各个挖掘工具,分别处理样本数据,得到各个挖掘工具的处理结果。
具体的,将样本数据和原始数据的规模比例作为CPU收缩比例和内存收缩比例;根据CPU收缩比例、内存收缩比例和各个挖掘工具,分别处理所述样本数据。也就是说,通过各个挖掘工具,按照CPU收缩比例、内存收缩比例计算样本数据。
步骤103、根据各个挖掘工具的处理结果,确定成本最低的挖掘工具。
这里,本实施例中的成本是指运行效率成本。
当处理结果包括样本数据的数据分析时间和数据加载时间,根据成本评测公式,确定各个挖掘工具的成本,所述成本评测公式为:
Y=C*N*F*J;
其中,所述Y是成本;所述C是所述CPU收缩比例,所述N是所述内存收缩比例;所述F是所述数据分析时间;所述J是所述数据加载时间;
从所述各个挖掘工具的成本中,将成本最低的数据仓库作为成本最低的挖掘工具。这样一来,该方法可以将多种数据仓库存储在一起,并根据各种数据仓库的处理结果,选择出成本最低的挖掘工具,因此,解决了一种挖掘工具无法满足所有的要求和无法确定哪一种挖掘工具最符合要求的问题。
进一步的,为了满足处理结果的线性变换,还需要确定出合适的CPU收缩比例和内存收缩比例,在步骤103之后,所述方法还包括:将CPU收缩比例和内存收缩比例增大N倍,得到新的CPU收缩比例和新的内存收缩比例,所述N是正整数;按照新的CPU收缩比例、新的内存收缩比例和成本最低的挖掘工具,处理样本数据,得到新的处理结果;当新的处理结果和成本最低的挖掘工具的处理结果满足线性增长时,将N加1,继续上述循环过程,新的处理结果和成本最低的挖掘工具的处理结果不满足线性增长时,将CPU收缩比例和内存收缩比例增大N-1倍的结果,作为最终的CPU收缩比例和最终的内存收缩比例;当新的处理结果和成本最低的挖掘工具的处理结果不满足线性增长时,将CPU收缩比例和内存收缩比例增大N-1倍的结果,作为最终的CPU收缩比例和最终的内存收缩比例。
实施例二
本发明实施例提供一种数据处理方法,该方法应用于数据处理装置。如图2所示,该装置可以包括日志数据管理模块、数据仓库模块、数据仓库规则库、控制模块、性能评估模块和配置模块。如图3所示,该方法包括:
步骤201、配置模块确定采样数据的规模,原始数据的规模,数据分析SQL语句,预期执行时间,内存上限,CPU上限。
假设该装置的容量是10T,原始数据是100T,那么,采样数据就是10T。具体的采样方法本实施例不做限制。
这里,数据分析SQL语句相当于是运行脚本。
步骤202、日志数据管理模块将原始数据通过文件传输协议等方式装载到文件系统。
步骤203、日志数据管理模块将原始数据按需求进行采样,得到10T的采样数据。
步骤204、控制模块将样本数据和原始数据的规模比例作为CPU收缩比例和内存收缩比例。
步骤205、控制模块按照CPU收缩比例和内存收缩比例,将该装置的CPU、内存按对应的比例收缩。
本实施例的收缩方法是将配置linux操作系统的limits.conf文件。
步骤206、控制模块将样本数据加载到数据仓库模块的各个挖掘工具中,按照数据仓库规则库的规则计算各个挖掘工具的数据分析时间和数据加载时间。
这里,数据仓库模块的功能架构如图4所示。模块包括接口、spark、impala、hive和imfomix等多个挖掘工具。
值得说明的是,当该装置再多次数据处理之后,总结出一些规则,这样,当原始数据属于某一规则时,无需使用所有的挖掘工具,直接选择某一挖掘。例如,数据仓库规则库提供的规则有如下几种:原始数据大于或等于内存的总量1.5倍的,选择hive。原始数据小于内存1.5倍,且大于或等于内存时,选择spark。原始数据小于内存的,选择impala。
步骤207、性能评估模块根据成本评测公式,确定各个挖掘工具的成本。
这里,该成本评测公式为:Y=C*N*F*J;
其中,所述Y是成本;所述C是所述CPU收缩比例,所述N是所述内存收缩比例;所述F是所述数据分析时间;所述J是所述数据加载时间。
步骤208、控制模块从各个挖掘工具的成本中,确定成本最低的挖掘工具。
在步骤208之后,将CPU收缩比例和内存收缩比例增大1倍,按照增大1倍的CPU收缩比例、增大1倍的内存收缩比例和成本最低的挖掘工具,处理所本数据,得到新的处理结果,当新的处理结果和成本最低的挖掘工具的处理结果满足线性增长时,则将CPU收缩比例和内存收缩比例增大2倍,以此类推,直到CPU收缩比例和内存收缩比例增大N倍,新的处理结果和成本最低的挖掘工具的处理结果不满足线性增长,将N倍的CPU收缩比例和内存收缩比例作为最终的CPU收缩比例和最终的内存收缩比例。
实施例三
本发明实施例提供一种数据处理装置30,如图5所示,所述装置30包括:
获取单元301,用于获取样本数据。
处理单元302,用于按照存储的各个挖掘工具,分别处理所述样本数据,得到所述各个挖掘工具的处理结果。
确定单元303,用于根据所述各个挖掘工具的处理结果,确定成本最低的挖掘工具。
这样一来,该方法可以将多种数据仓库存储在一起,并根据各种数据仓库的处理结果,选择出成本最低的挖掘工具,因此,解决了一种挖掘工具无法满足所有的要求和无法确定哪种挖掘工具最符合要求的问题。
进一步的,所述获取单元301具体用于:
接收原始数据;
按照预设的数据处理装置的承载量,从所述原始数据中获取所述样本数据。
进一步的,所述处理单元302具体用于:
将所述样本数据和所述原始数据的规模比例作为CPU收缩比例和内存收缩比例;
根据所述CPU收缩比例、所述内存收缩比例和所述各个挖掘工具,分别处理所述样本数据。
进一步的,所述处理结果包括所述样本数据的数据分析时间和数据加载时间;所述确定单元303具体用于:
根据成本评测公式,确定所述各个挖掘工具的成本,所述成本评测公式为:
Y=C*N*F*J;
其中,所述Y是成本;所述C是所述CPU收缩比例,所述N是所述内存收缩比例;所述F是所述数据分析时间;所述J是所述数据加载时间;
从所述各个挖掘工具的成本中,确定所述成本最低的挖掘工具。
进一步的,如图6所示,所述装置30还包括:
增大单元304,用于将所述CPU收缩比例和所述内存收缩比例增大N倍,得到新的CPU收缩比例和新的内存收缩比例,所述N是正整数;
所述处理单元302,还用于按照所述新的CPU收缩比例、所述新的内存收缩比例和所述成本最低的挖掘工具,处理所述样本数据,得到新的处理结果;
所述增大单元304,还用于当所述新的处理结果和所述成本最低的挖掘工具的处理结果满足线性增长时,将所述N加1;当所述新的处理结果和所述成本最低的挖掘工具的处理结果不满足线性增长时,将所述CPU收缩比例和所述内存收缩比例增大N-1倍的结果,作为最终的CPU收缩比例和最终的内存收缩比例。
在实际应用中,所述获取单元301、处理单元302、确定单元303和增大单元304均可由位于装置30中的中央处理器(Central Processing Unit,CPU)、微处理器(MicroProcessor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)、或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种数据处理方法,其特征在于,所述方法包括:
获取样本数据;
按照存储的各个挖掘工具,分别处理所述样本数据,得到所述各个挖掘工具的处理结果;其中,所述处理结果包括所述样本数据的数据分析时间和数据加载时间;
所述按照存储的各个挖掘工具,分别处理所述样本数据包括:将所述样本数据和原始数据的规模比例作为CPU收缩比例和内存收缩比例;根据所述CPU收缩比例、所述内存收缩比例和所述各个挖掘工具,分别处理所述样本数据;
根据所述各个挖掘工具的处理结果,确定成本最低的挖掘工具。
2.根据权利要求1所述的方法,其特征在于,所述获取样本数据包括:
接收原始数据;
按照预设的数据处理装置的承载量,从所述原始数据中获取所述样本数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述各个挖掘工具的处理结果,确定成本最低的数据挖掘规则包括:
根据成本评测公式,确定所述各个挖掘工具的成本,所述成本评测公式为:
Y=C*N*F*J;
其中,所述Y是所述成本;所述C是所述CPU收缩比例,所述N是所述内存收缩比例;所述F是所述数据分析时间;所述J是所述数据加载时间;
从所述各个挖掘工具的成本中,确定所述成本最低的挖掘工具。
4.根据权利要求3所述的方法,其特征在于,所述根据所述各个挖掘工具的处理结果,确定成本最低的挖掘工具之后,所述方法还包括:
将所述CPU收缩比例和所述内存收缩比例增大N倍,得到新的CPU收缩比例和新的内存收缩比例,所述N是正整数;
按照所述新的CPU收缩比例、所述新的内存收缩比例和所述成本最低的挖掘工具,处理所述样本数据,得到新的处理结果;
当所述新的处理结果和所述成本最低的挖掘工具的处理结果满足线性增长时,将所述N加1;
当所述新的处理结果和所述成本最低的挖掘工具的处理结果不满足线性增长时,将所述CPU收缩比例和所述内存收缩比例增大N-1倍的结果,作为最终的CPU收缩比例和最终的内存收缩比例。
5.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取样本数据;
处理单元,用于按照存储的各个挖掘工具,分别处理所述样本数据,得到所述各个挖掘工具的处理结果;其中,所述处理结果包括所述样本数据的数据分析时间和数据加载时间;所述处理单元具体用于:将所述样本数据和原始数据的规模比例作为CPU收缩比例和内存收缩比例;根据所述CPU收缩比例、所述内存收缩比例和所述各个挖掘工具,分别处理所述样本数据;
确定单元,用于根据所述各个挖掘工具的处理结果,确定成本最低的挖掘工具。
6.根据权利要求5所述的装置,其特征在于,所述获取单元具体用于:
接收原始数据;
按照预设的数据处理装置的承载量,从所述原始数据中获取所述样本数据。
7.根据权利要求6所述的装置,其特征在于,所述确定单元具体用于:
根据成本评测公式,确定所述各个挖掘工具的成本,所述成本评测公式为:
Y=C*N*F*J;
其中,所述Y是所述成本;所述C是所述CPU收缩比例,所述N是所述内存收缩比例;所述F是所述数据分析时间;所述J是所述数据加载时间;
从所述各个挖掘工具的成本中,确定所述成本最低的挖掘工具。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
增大单元,用于将所述CPU收缩比例和所述内存收缩比例增大N倍,得到新的CPU收缩比例和新的内存收缩比例,所述N是正整数;
所述处理单元,还用于按照所述新的CPU收缩比例、所述新的内存收缩比例和所述成本最低的挖掘工具,处理所述样本数据,得到新的处理结果;
所述增大单元,还用于当所述新的处理结果和所述成本最低的挖掘工具的处理结果满足线性增长时,将所述N加1;当所述新的处理结果和所述成本最低的挖掘工具的处理结果不满足线性增长时,将所述CPU收缩比例和所述内存收缩比例增大N-1倍的结果,作为最终的CPU收缩比例和最终的内存收缩比例。
CN201510957339.5A 2015-12-17 2015-12-17 一种数据处理方法和装置 Active CN106897293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510957339.5A CN106897293B (zh) 2015-12-17 2015-12-17 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510957339.5A CN106897293B (zh) 2015-12-17 2015-12-17 一种数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN106897293A CN106897293A (zh) 2017-06-27
CN106897293B true CN106897293B (zh) 2020-09-11

Family

ID=59188766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510957339.5A Active CN106897293B (zh) 2015-12-17 2015-12-17 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN106897293B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000624A (zh) * 2007-01-10 2007-07-18 华为技术有限公司 实现数据挖掘模型转换和应用的方法、系统及装置
CN101046820A (zh) * 2006-03-29 2007-10-03 国际商业机器公司 在web爬取过程期间给网站排优先级的系统和方法
CN101799810A (zh) * 2009-02-06 2010-08-11 中国移动通信集团公司 一种关联规则挖掘方法及其系统
CN102508860A (zh) * 2011-09-29 2012-06-20 广州中浩控制技术有限公司 一种基于xbrl实例文档的数据挖掘方法
CN102592223A (zh) * 2011-01-18 2012-07-18 卓望数码技术(深圳)有限公司 一种商品推荐方法和商品推荐系统
CN102663114A (zh) * 2012-04-17 2012-09-12 中国人民大学 面向并发olap的数据库查询处理方法
CN103425772A (zh) * 2013-08-13 2013-12-04 东北大学 一种具有多维信息的海量数据查询方法
CN103955502A (zh) * 2014-04-24 2014-07-30 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
CN104298771A (zh) * 2014-10-30 2015-01-21 南京信息工程大学 一种海量web日志数据查询与分析方法
CN104978604A (zh) * 2014-04-04 2015-10-14 中国移动通信集团福建有限公司 一种基于业务能力模型的模拟仿真方法和装置
CN105095224A (zh) * 2014-04-25 2015-11-25 阿尔卡特朗讯 一种在移动通信网络中进行olap分析的方法、装置和系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046820A (zh) * 2006-03-29 2007-10-03 国际商业机器公司 在web爬取过程期间给网站排优先级的系统和方法
CN101000624A (zh) * 2007-01-10 2007-07-18 华为技术有限公司 实现数据挖掘模型转换和应用的方法、系统及装置
CN101799810A (zh) * 2009-02-06 2010-08-11 中国移动通信集团公司 一种关联规则挖掘方法及其系统
CN102592223A (zh) * 2011-01-18 2012-07-18 卓望数码技术(深圳)有限公司 一种商品推荐方法和商品推荐系统
CN102508860A (zh) * 2011-09-29 2012-06-20 广州中浩控制技术有限公司 一种基于xbrl实例文档的数据挖掘方法
CN102663114A (zh) * 2012-04-17 2012-09-12 中国人民大学 面向并发olap的数据库查询处理方法
CN103425772A (zh) * 2013-08-13 2013-12-04 东北大学 一种具有多维信息的海量数据查询方法
CN104978604A (zh) * 2014-04-04 2015-10-14 中国移动通信集团福建有限公司 一种基于业务能力模型的模拟仿真方法和装置
CN103955502A (zh) * 2014-04-24 2014-07-30 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
CN105095224A (zh) * 2014-04-25 2015-11-25 阿尔卡特朗讯 一种在移动通信网络中进行olap分析的方法、装置和系统
CN104298771A (zh) * 2014-10-30 2015-01-21 南京信息工程大学 一种海量web日志数据查询与分析方法

Also Published As

Publication number Publication date
CN106897293A (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
CN102799622B (zh) 基于MapReduce扩展框架的分布式SQL查询方法
US8086593B2 (en) Dynamic filters for relational query processing
CN109815283B (zh) 一种异构数据源可视化查询方法
CN102033748A (zh) 一种数据处理流程代码的生成方法
Giannakouris et al. MuSQLE: Distributed SQL query execution over multiple engine environments
CN107291770B (zh) 一种分布式系统中海量数据的查询方法及装置
CN106611044A (zh) 一种sql优化方法及设备
CN106599052A (zh) 一种基于ApacheKylin的数据查询系统及其方法
EP3717997A1 (en) Cardinality estimation in databases
Li et al. Performance comparison of hive, impala and spark sql
Swarna et al. Apache Pig-a data flow framework based on Hadoop Map Reduce
CN112347071A (zh) 一种配电网云平台数据融合方法及配电网云平台
CN114817243A (zh) 数据库联合索引的建立方法、装置、设备及存储介质
CN113918605A (zh) 数据查询方法、装置、设备以及计算机存储介质
CN113806429A (zh) 基于大数据流处理框架的画布式日志分析方法
CN103823881B (zh) 分布式数据库的性能优化的方法及装置
CN108509447A (zh) 数据处理方法及装置
CN108319604B (zh) 一种hive中大小表关联的优化方法
CN106897293B (zh) 一种数据处理方法和装置
Feng et al. Research on improved Apriori algorithm based on MapReduce and HBase
Liu et al. Performance evaluation and optimization of multi-dimensional indexes in hive
CN113535758B (zh) 一种把传统数据库脚本批量转换上云的大数据系统和方法
CN107506365B (zh) 一种对输出列进行合并计算的方法
Soussi Big-Parallel-ETL: New ETL for Multidimensional NoSQL Graph Oriented Data
Moussa Tpc-h benchmarking of pig latin on a hadoop cluster

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant