CN107491553A

CN107491553A - 一种数据挖掘方法及系统

Info

Publication number: CN107491553A
Application number: CN201710773802.XA
Authority: CN
Inventors: 姜益民; 童浩; 谢邵虎; 姜泉; 黄成�
Original assignee: Wuhan Optics Valley Information Technologies Co Ltd
Current assignee: Wuhan Optics Valley Information Technologies Co Ltd
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2017-12-19

Abstract

本发明涉及一种数据挖掘方法及系统，包括：基于内存的SQL查询引擎根据查询指令，从大数据仓库中的源数据中进行查询和分析，并保存分析结果。数据探查和可视化工具对查询结果进行探查及可视化展示。本方法通过基于内存的SQL查询引擎从大数据库中查询分析数据，极大地提高了数据查询速度，解决了对大数据库中海量数据进行快速的探查和可视化的问题，性能优异，用户体验感强。

Description

一种数据挖掘方法及系统

技术领域

本发明涉及数据探查技术领域，特别涉及一种数据挖掘方法及系统。

背景技术

Hive是Hadoop生态圈中的一个数据仓库，可以存储海量数据，并将结构化的数据文件映射为一张数据库表，还可以提供简单的SQL查询功能。虽然，Hive的学习成本比较低，并且可以通过类SQL语句实现简单的MapReduce统计，但是，Hive是将SQL语句转换为MapReduce任务进行运行，而MapReduce会不断的访问磁盘IO，所以Hive在海量数据的查询和分析的性能方面会比较差。

发明内容

本发明提供了一种数据挖掘方法及系统，以解决从大数据库中查询数据慢的问题。

本发明解决上述技术问题的技术方案如下：一种数据挖掘方法，包括以下步骤：

步骤1、基于内存的SQL查询引擎根据查询指令，从大数据仓库中的源数据中进行查询和分析，并保存分析结果；

步骤2、数据探查和可视化工具对所述分析结果进行探查及可视化展示。

本发明的有益效果是：本方法通过基于内存的SQL查询引擎从大数据库中查询分析数据，极大地提高了数据查询速度，解决了对大数据库中海量数据进行快速的探查和可视化的问题，性能优异，用户体验感强。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述基于内存的SQL查询引擎为Presto查询引擎；所述大数据仓库为Hive数据库；所述数据探查和可视化工具为Superset工具。

本发明的进一步有益效果是：通过Presto连接Hive极大的提高了查询速度，十几亿的数据进行group by等聚合操作，基本上在20s内可以反馈结果，极大地提高了数据查询速度，进而提高了Superset工具对数据的探查和可视化的速度，且Superset工具可直观的、多维度的展示分析数据。

进一步，所述步骤1之前，所述方法还包括：

步骤3、所述大数据仓库从分布式文件系统获取所述源数据并保存，并执行步骤1。

进一步，所述步骤1包括：

步骤1.1、基于内存的SQL查询引擎接收用户输入的所述查询指令；

步骤1.2、根据所述查询指令，从大数据仓库中的源数据中进行查询和分析，并得到分析结果；

步骤1.3、将所述分析结果以数据表的形式保存。

进一步，所述步骤2包括：

步骤2.1、所述数据探查和可视化工具对所述数据表进行探查，得到探查结果；

步骤2.2、将所述探查结果映射为结构化的数据；

步骤2.3、根据预设图表类型、预设维度和预设度量，将所述结构化的数据创建为多个数据切片；

步骤2.4、将所述多个数据切片组织成一个仪表板进行可视化的展示。

本发明的进一步有益效果是：通过Superset工具可直观的、多维度的展示分析数据。

为解决本发明的技术问题，还提供了一种数据挖掘系统，包括：

基于内存的SQL查询引擎，用于根据查询指令，从大数据仓库中的源数据中进行查询和分析，并保存分析结果；

数据探查和可视化工具，用于对所述基于内存的SQL查询引擎保存的所述分析结果进行探查及可视化展示。

进一步，所述系统还包括大数据仓库，用于从分布式文件系统获取所述源数据并保存。

进一步，所述基于内存的SQL查询引擎具体用于：

接收查询指令；根据所述查询指令，从大数据仓库中的源数据中进行查询和分析，并得到分析结果；将所述分析结果以数据表的形式保存。

进一步，所述数据探查和可视化工具具体用于：

对所述基于内存的SQL查询引擎保存的所述数据表进行探查，得到探查结果；将所述探查结果映射为结构化的数据；根据预设图表类型、预设维度和预设度量，将所述结构化的数据创建为多个数据切片；将所述多个数据切片组织成一个仪表板进行可视化的展示。

附图说明

图1为本发明一个实施例提供的一种数据挖掘方法的流程示意图；

图2为本发明另一个实施例提供的一种数据挖掘方法的流程示意图；

图3为本发明另一个实施例提供的一种数据挖掘方法中步骤110的流程示意图；

图4为本发明另一个实施例提供的一种数据挖掘方法中步骤120的流程示意图；

图5为本发明一个实施例提供的一种数据挖掘系统的示意性结构图；

图6为本发明另一个实施例提供的一种数据挖掘系统的示意性结构图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例一

一种数据挖掘方法100，如图1所示，包括以下步骤：

步骤110、基于内存的SQL查询引擎根据查询指令，从大数据仓库中的源数据中进行查询和分析，并保存分析结果。

步骤120、数据探查和可视化工具对分析结果进行探查及可视化展示。

基于内存的SQL查询引擎接收查询指令，并根据查询指令，从大数据仓库中查询、分析数据，并将查询结果存储至所述SQL查询引擎的内存中。

目前在数据的探查和可视化方面，大部分企业选择自主研发，其在丰富的可视化及灵活的数据建模方面有极大的挑战，并且开发周期比较长、成本比较高。

而本实施例通过基于内存的SQL查询引擎从大数据库中查询分析数据，极大地提高了数据查询速度，解决了对大数据库中海量数据进行快速的探查和可视化的问题，性能优异，用户体验感强。

实施例二

在实施例一的基础上，基于内存的SQL查询引擎为Presto查询引擎，大数据仓库为Hive数据库，数据探查和可视化工具为Superset工具。

需要说明的是，Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。Presto是一个分布式的基于内存的SQL查询引擎，它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL，包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。Presto中所有的数据处理都是在内存中进行的，不同的处理端通过网络组成处理的流水线，这样会避免不必要的磁盘读写和额外的延迟。这种流水线式的执行模型会在同一时间运行多个数据处理段，一旦数据可用的时候就会将数据从一个处理段传入到下一个处理段。这样的方式会大大的减少各种查询的端到端响应时间。

当对Hive中存储的数据进行查询和分析时，在要查询和分析的数据量达到千万级别以上时，其性能会比较的差，且目前比较传统成熟的数据探查和可视化工具无法支持海量数据的存储和分析。

Superset是airbnb开源的一款数据可视化工具，目前已经被Apache基金会孵化，即将成为Apache基金会的一个顶级项目。Superset通过配置SQLAlchemy的URI就可以连接数据库；能够快速创建可交互的、直观形象的数据集合；有丰富的可视化方法来分析数据，且具有灵活的扩展能力。通过Superset可以快速、便捷的连接Presto进行灵活的数据建模，并且创建丰富的可视化图表。

通过Presto连接Hive极大的提高了查询速度，十几亿的数据进行group by等聚合操作，基本上在20s内可以反馈结果，极大地提高了数据查询速度，进而提高了Superset工具对数据的探查和可视化的速度，且Superset工具可直观的、多维度的展示分析数据。

实施例三

在实施例二的基础上，如图2所示，方法100还包括：

步骤130、大数据仓库从分布式文件系统获取所述源数据并保存，并执行步骤110。

实施例四

在实施例三的基础上，如图3所示，步骤110包括：

步骤111、基于内存的SQL查询引擎接收用户输入的查询指令。

步骤112、根据查询指令，从大数据仓库中的源数据中进行查询和分析，并得到分析结果。

步骤113、将分析结果以数据表的形式保存。

另外，如图4所示，步骤120包括：

步骤121、数据探查和可视化工具对数据表进行探查，得到探查结果。

步骤122、将探查结果映射为结构化的数据。

步骤123、根据预设图表类型、预设维度和预设度量，将结构化的数据创建为多个数据切片。

步骤124、将多个数据切片组织成一个仪表板进行可视化的展示。

通过Superset工具(数据探查和可视化工具)可直观的、多维度的展示分析数据。

实施例五

一种数据挖掘系统200，如图5所示，包括：

基于内存的SQL查询引擎，用于根据查询指令，从大数据仓库中的源数据中进行查询和分析，并保存分析结果。

数据探查和可视化工具，用于对基于内存的SQL查询引擎保存的分析结果进行探查及可视化展示。

实施例六

在实施例五的基础上，如图6所示，基于内存的SQL查询引擎为Presto查询引擎；大数据仓库为Hive数据库；数据探查和可视化工具为Superset工具。

实施例七

在实施例六的基础上，如图6所示，系统200还包括大数据仓库，用于从分布式文件系统获取源数据并保存。

实施例八

在实施例七的基础上，基于内存的SQL查询引擎具体用于：接收查询指令；根据查询指令，从大数据仓库中的源数据中进行查询和分析，并得到分析结果。将分析结果以数据表的形式保存。

数据探查和可视化工具具体用于：对基于内存的SQL查询引擎保存的数据表进行探查，得到探查结果；将探查结果映射为结构化的数据；根据预设图表类型、预设维度和预设度量，将结构化的数据创建为多个数据切片；将多个数据切片组织成一个仪表板进行可视化的展示。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据挖掘方法，其特征在于，包括：

步骤2、数据探查和可视化工具对所述查询结果进行探查及可视化展示。

2.根据权利要求1所述的一种数据挖掘方法，其特征在于，所述基于内存的SQL查询引擎为Presto查询引擎；所述大数据仓库为Hive数据库；所述数据探查和可视化工具为Superset工具。

3.根据权利要求2所述的一种数据挖掘方法，其特征在于，在步骤1之前，所述方法还包括：

步骤3、所述大数据仓库从分布式文件系统获取所述源数据并保存。

4.根据权利要求1至3任一项所述的一种数据挖掘方法，其特征在于，所述步骤1包括：

步骤1.3、将所述分析结果以数据表的形式保存。

5.根据权利要求4所述的一种数据挖掘方法，其特征在于，所述步骤2包括：

步骤2.2、将所述探查结果映射为结构化的数据；

6.一种数据挖掘系统，其特征在于，包括：

7.根据权利要求6所述的一种数据挖掘系统，其特征在于，所述基于内存的SQL查询引擎为Presto查询引擎；所述大数据仓库为Hive数据库；所述数据探查和可视化工具为Superset工具。

8.根据权利要求7所述的一种数据挖掘系统，其特征在于，所述系统还包括大数据仓库，用于从分布式文件系统获取所述源数据并保存。

9.根据权利要求6至8任一项所述的一种数据挖掘系统，其特征在于，所述基于内存的SQL查询引擎具体用于：

10.根据权利要求9所述的一种数据挖掘系统，其特征在于，所述数据探查和可视化工具具体用于：