CN107491553A - 一种数据挖掘方法及系统 - Google Patents

一种数据挖掘方法及系统 Download PDF

Info

Publication number
CN107491553A
CN107491553A CN201710773802.XA CN201710773802A CN107491553A CN 107491553 A CN107491553 A CN 107491553A CN 201710773802 A CN201710773802 A CN 201710773802A CN 107491553 A CN107491553 A CN 107491553A
Authority
CN
China
Prior art keywords
data
internal memory
query
sql query
exploration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710773802.XA
Other languages
English (en)
Inventor
姜益民
童浩
谢邵虎
姜泉
黄成�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Optics Valley Information Technologies Co Ltd
Original Assignee
Wuhan Optics Valley Information Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Optics Valley Information Technologies Co Ltd filed Critical Wuhan Optics Valley Information Technologies Co Ltd
Priority to CN201710773802.XA priority Critical patent/CN107491553A/zh
Publication of CN107491553A publication Critical patent/CN107491553A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据挖掘方法及系统,包括:基于内存的SQL查询引擎根据查询指令,从大数据仓库中的源数据中进行查询和分析,并保存分析结果。数据探查和可视化工具对查询结果进行探查及可视化展示。本方法通过基于内存的SQL查询引擎从大数据库中查询分析数据,极大地提高了数据查询速度,解决了对大数据库中海量数据进行快速的探查和可视化的问题,性能优异,用户体验感强。

Description

一种数据挖掘方法及系统
技术领域
本发明涉及数据探查技术领域,特别涉及一种数据挖掘方法及系统。
背景技术
Hive是Hadoop生态圈中的一个数据仓库,可以存储海量数据,并将结构化的数据文件映射为一张数据库表,还可以提供简单的SQL查询功能。虽然,Hive的学习成本比较低,并且可以通过类SQL语句实现简单的MapReduce统计,但是,Hive是将SQL语句转换为MapReduce任务进行运行,而MapReduce会不断的访问磁盘IO,所以Hive在海量数据的查询和分析的性能方面会比较差。
发明内容
本发明提供了一种数据挖掘方法及系统,以解决从大数据库中查询数据慢的问题。
本发明解决上述技术问题的技术方案如下:一种数据挖掘方法,包括以下步骤:
步骤1、基于内存的SQL查询引擎根据查询指令,从大数据仓库中的源数据中进行查询和分析,并保存分析结果;
步骤2、数据探查和可视化工具对所述分析结果进行探查及可视化展示。
本发明的有益效果是:本方法通过基于内存的SQL查询引擎从大数据库中查询分析数据,极大地提高了数据查询速度,解决了对大数据库中海量数据进行快速的探查和可视化的问题,性能优异,用户体验感强。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述基于内存的SQL查询引擎为Presto查询引擎;所述大数据仓库为Hive数据库;所述数据探查和可视化工具为Superset工具。
本发明的进一步有益效果是:通过Presto连接Hive极大的提高了查询速度,十几亿的数据进行group by等聚合操作,基本上在20s内可以反馈结果,极大地提高了数据查询速度,进而提高了Superset工具对数据的探查和可视化的速度,且Superset工具可直观的、多维度的展示分析数据。
进一步,所述步骤1之前,所述方法还包括:
步骤3、所述大数据仓库从分布式文件系统获取所述源数据并保存,并执行步骤1。
进一步,所述步骤1包括:
步骤1.1、基于内存的SQL查询引擎接收用户输入的所述查询指令;
步骤1.2、根据所述查询指令,从大数据仓库中的源数据中进行查询和分析,并得到分析结果;
步骤1.3、将所述分析结果以数据表的形式保存。
进一步,所述步骤2包括:
步骤2.1、所述数据探查和可视化工具对所述数据表进行探查,得到探查结果;
步骤2.2、将所述探查结果映射为结构化的数据;
步骤2.3、根据预设图表类型、预设维度和预设度量,将所述结构化的数据创建为多个数据切片;
步骤2.4、将所述多个数据切片组织成一个仪表板进行可视化的展示。
本发明的进一步有益效果是:通过Superset工具可直观的、多维度的展示分析数据。
为解决本发明的技术问题,还提供了一种数据挖掘系统,包括:
基于内存的SQL查询引擎,用于根据查询指令,从大数据仓库中的源数据中进行查询和分析,并保存分析结果;
数据探查和可视化工具,用于对所述基于内存的SQL查询引擎保存的所述分析结果进行探查及可视化展示。
进一步,所述基于内存的SQL查询引擎为Presto查询引擎;所述大数据仓库为Hive数据库;所述数据探查和可视化工具为Superset工具。
进一步,所述系统还包括大数据仓库,用于从分布式文件系统获取所述源数据并保存。
进一步,所述基于内存的SQL查询引擎具体用于:
接收查询指令;根据所述查询指令,从大数据仓库中的源数据中进行查询和分析,并得到分析结果;将所述分析结果以数据表的形式保存。
进一步,所述数据探查和可视化工具具体用于:
对所述基于内存的SQL查询引擎保存的所述数据表进行探查,得到探查结果;将所述探查结果映射为结构化的数据;根据预设图表类型、预设维度和预设度量,将所述结构化的数据创建为多个数据切片;将所述多个数据切片组织成一个仪表板进行可视化的展示。
附图说明
图1为本发明一个实施例提供的一种数据挖掘方法的流程示意图;
图2为本发明另一个实施例提供的一种数据挖掘方法的流程示意图;
图3为本发明另一个实施例提供的一种数据挖掘方法中步骤110的流程示意图;
图4为本发明另一个实施例提供的一种数据挖掘方法中步骤120的流程示意图;
图5为本发明一个实施例提供的一种数据挖掘系统的示意性结构图;
图6为本发明另一个实施例提供的一种数据挖掘系统的示意性结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例一
一种数据挖掘方法100,如图1所示,包括以下步骤:
步骤110、基于内存的SQL查询引擎根据查询指令,从大数据仓库中的源数据中进行查询和分析,并保存分析结果。
步骤120、数据探查和可视化工具对分析结果进行探查及可视化展示。
基于内存的SQL查询引擎接收查询指令,并根据查询指令,从大数据仓库中查询、分析数据,并将查询结果存储至所述SQL查询引擎的内存中。
目前在数据的探查和可视化方面,大部分企业选择自主研发,其在丰富的可视化及灵活的数据建模方面有极大的挑战,并且开发周期比较长、成本比较高。
而本实施例通过基于内存的SQL查询引擎从大数据库中查询分析数据,极大地提高了数据查询速度,解决了对大数据库中海量数据进行快速的探查和可视化的问题,性能优异,用户体验感强。
实施例二
在实施例一的基础上,基于内存的SQL查询引擎为Presto查询引擎,大数据仓库为Hive数据库,数据探查和可视化工具为Superset工具。
需要说明的是,Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto是一个分布式的基于内存的SQL查询引擎,它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。Presto中所有的数据处理都是在内存中进行的,不同的处理端通过网络组成处理的流水线,这样会避免不必要的磁盘读写和额外的延迟。这种流水线式的执行模型会在同一时间运行多个数据处理段,一旦数据可用的时候就会将数据从一个处理段传入到下一个处理段。这样的方式会大大的减少各种查询的端到端响应时间。
当对Hive中存储的数据进行查询和分析时,在要查询和分析的数据量达到千万级别以上时,其性能会比较的差,且目前比较传统成熟的数据探查和可视化工具无法支持海量数据的存储和分析。
Superset是airbnb开源的一款数据可视化工具,目前已经被Apache基金会孵化,即将成为Apache基金会的一个顶级项目。Superset通过配置SQLAlchemy的URI就可以连接数据库;能够快速创建可交互的、直观形象的数据集合;有丰富的可视化方法来分析数据,且具有灵活的扩展能力。通过Superset可以快速、便捷的连接Presto进行灵活的数据建模,并且创建丰富的可视化图表。
通过Presto连接Hive极大的提高了查询速度,十几亿的数据进行group by等聚合操作,基本上在20s内可以反馈结果,极大地提高了数据查询速度,进而提高了Superset工具对数据的探查和可视化的速度,且Superset工具可直观的、多维度的展示分析数据。
实施例三
在实施例二的基础上,如图2所示,方法100还包括:
步骤130、大数据仓库从分布式文件系统获取所述源数据并保存,并执行步骤110。
实施例四
在实施例三的基础上,如图3所示,步骤110包括:
步骤111、基于内存的SQL查询引擎接收用户输入的查询指令。
步骤112、根据查询指令,从大数据仓库中的源数据中进行查询和分析,并得到分析结果。
步骤113、将分析结果以数据表的形式保存。
另外,如图4所示,步骤120包括:
步骤121、数据探查和可视化工具对数据表进行探查,得到探查结果。
步骤122、将探查结果映射为结构化的数据。
步骤123、根据预设图表类型、预设维度和预设度量,将结构化的数据创建为多个数据切片。
步骤124、将多个数据切片组织成一个仪表板进行可视化的展示。
通过Superset工具(数据探查和可视化工具)可直观的、多维度的展示分析数据。
实施例五
一种数据挖掘系统200,如图5所示,包括:
基于内存的SQL查询引擎,用于根据查询指令,从大数据仓库中的源数据中进行查询和分析,并保存分析结果。
数据探查和可视化工具,用于对基于内存的SQL查询引擎保存的分析结果进行探查及可视化展示。
实施例六
在实施例五的基础上,如图6所示,基于内存的SQL查询引擎为Presto查询引擎;大数据仓库为Hive数据库;数据探查和可视化工具为Superset工具。
实施例七
在实施例六的基础上,如图6所示,系统200还包括大数据仓库,用于从分布式文件系统获取源数据并保存。
实施例八
在实施例七的基础上,基于内存的SQL查询引擎具体用于:接收查询指令;根据查询指令,从大数据仓库中的源数据中进行查询和分析,并得到分析结果。将分析结果以数据表的形式保存。
数据探查和可视化工具具体用于:对基于内存的SQL查询引擎保存的数据表进行探查,得到探查结果;将探查结果映射为结构化的数据;根据预设图表类型、预设维度和预设度量,将结构化的数据创建为多个数据切片;将多个数据切片组织成一个仪表板进行可视化的展示。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据挖掘方法,其特征在于,包括:
步骤1、基于内存的SQL查询引擎根据查询指令,从大数据仓库中的源数据中进行查询和分析,并保存分析结果;
步骤2、数据探查和可视化工具对所述查询结果进行探查及可视化展示。
2.根据权利要求1所述的一种数据挖掘方法,其特征在于,所述基于内存的SQL查询引擎为Presto查询引擎;所述大数据仓库为Hive数据库;所述数据探查和可视化工具为Superset工具。
3.根据权利要求2所述的一种数据挖掘方法,其特征在于,在步骤1之前,所述方法还包括:
步骤3、所述大数据仓库从分布式文件系统获取所述源数据并保存。
4.根据权利要求1至3任一项所述的一种数据挖掘方法,其特征在于,所述步骤1包括:
步骤1.1、基于内存的SQL查询引擎接收用户输入的所述查询指令;
步骤1.2、根据所述查询指令,从大数据仓库中的源数据中进行查询和分析,并得到分析结果;
步骤1.3、将所述分析结果以数据表的形式保存。
5.根据权利要求4所述的一种数据挖掘方法,其特征在于,所述步骤2包括:
步骤2.1、所述数据探查和可视化工具对所述数据表进行探查,得到探查结果;
步骤2.2、将所述探查结果映射为结构化的数据;
步骤2.3、根据预设图表类型、预设维度和预设度量,将所述结构化的数据创建为多个数据切片;
步骤2.4、将所述多个数据切片组织成一个仪表板进行可视化的展示。
6.一种数据挖掘系统,其特征在于,包括:
基于内存的SQL查询引擎,用于根据查询指令,从大数据仓库中的源数据中进行查询和分析,并保存分析结果;
数据探查和可视化工具,用于对所述基于内存的SQL查询引擎保存的所述分析结果进行探查及可视化展示。
7.根据权利要求6所述的一种数据挖掘系统,其特征在于,所述基于内存的SQL查询引擎为Presto查询引擎;所述大数据仓库为Hive数据库;所述数据探查和可视化工具为Superset工具。
8.根据权利要求7所述的一种数据挖掘系统,其特征在于,所述系统还包括大数据仓库,用于从分布式文件系统获取所述源数据并保存。
9.根据权利要求6至8任一项所述的一种数据挖掘系统,其特征在于,所述基于内存的SQL查询引擎具体用于:
接收查询指令;根据所述查询指令,从大数据仓库中的源数据中进行查询和分析,并得到分析结果;将所述分析结果以数据表的形式保存。
10.根据权利要求9所述的一种数据挖掘系统,其特征在于,所述数据探查和可视化工具具体用于:
对所述基于内存的SQL查询引擎保存的所述数据表进行探查,得到探查结果;将所述探查结果映射为结构化的数据;根据预设图表类型、预设维度和预设度量,将所述结构化的数据创建为多个数据切片;将所述多个数据切片组织成一个仪表板进行可视化的展示。
CN201710773802.XA 2017-08-31 2017-08-31 一种数据挖掘方法及系统 Pending CN107491553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710773802.XA CN107491553A (zh) 2017-08-31 2017-08-31 一种数据挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710773802.XA CN107491553A (zh) 2017-08-31 2017-08-31 一种数据挖掘方法及系统

Publications (1)

Publication Number Publication Date
CN107491553A true CN107491553A (zh) 2017-12-19

Family

ID=60646226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710773802.XA Pending CN107491553A (zh) 2017-08-31 2017-08-31 一种数据挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN107491553A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170770A (zh) * 2017-12-26 2018-06-15 山东联科云计算股份有限公司 一种基于大数据的分析训练平台
CN109272155A (zh) * 2018-09-11 2019-01-25 郑州向心力通信技术股份有限公司 一种基于大数据的企业行为分析系统
CN111127196A (zh) * 2019-12-31 2020-05-08 中信百信银行股份有限公司 信贷风控特征变量管理的方法及系统
CN111581431A (zh) * 2020-04-28 2020-08-25 厦门市美亚柏科信息股份有限公司 基于动态评估的数据探查方法和装置
CN112800146A (zh) * 2021-02-02 2021-05-14 北京互金新融科技有限公司 风控数据的回溯方法及装置、存储介质和处理器
CN113204589A (zh) * 2021-05-28 2021-08-03 平安科技(深圳)有限公司 存储对象处理系统、请求处理方法、网关和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573071A (zh) * 2015-01-26 2015-04-29 湖南大学 一种基于大数据技术的校情智能分析系统及方法
CN105224658A (zh) * 2015-09-30 2016-01-06 北京京东尚科信息技术有限公司 一种大数据的实时查询方法和系统
CN105512868A (zh) * 2016-02-26 2016-04-20 广州品唯软件有限公司 一种管控平台
CN105787119A (zh) * 2016-03-25 2016-07-20 盛趣信息技术(上海)有限公司 基于混合引擎的大数据处理方法及系统
CN105808656A (zh) * 2016-02-26 2016-07-27 广州品唯软件有限公司 一种用于自助取数的处理架构及其取数方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573071A (zh) * 2015-01-26 2015-04-29 湖南大学 一种基于大数据技术的校情智能分析系统及方法
CN105224658A (zh) * 2015-09-30 2016-01-06 北京京东尚科信息技术有限公司 一种大数据的实时查询方法和系统
CN105512868A (zh) * 2016-02-26 2016-04-20 广州品唯软件有限公司 一种管控平台
CN105808656A (zh) * 2016-02-26 2016-07-27 广州品唯软件有限公司 一种用于自助取数的处理架构及其取数方法
CN105787119A (zh) * 2016-03-25 2016-07-20 盛趣信息技术(上海)有限公司 基于混合引擎的大数据处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何雪莹: ""探索性数据可视化分析系统的设计与实现"", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170770A (zh) * 2017-12-26 2018-06-15 山东联科云计算股份有限公司 一种基于大数据的分析训练平台
CN109272155A (zh) * 2018-09-11 2019-01-25 郑州向心力通信技术股份有限公司 一种基于大数据的企业行为分析系统
CN109272155B (zh) * 2018-09-11 2021-07-06 郑州向心力通信技术股份有限公司 一种基于大数据的企业行为分析系统
CN111127196A (zh) * 2019-12-31 2020-05-08 中信百信银行股份有限公司 信贷风控特征变量管理的方法及系统
CN111581431A (zh) * 2020-04-28 2020-08-25 厦门市美亚柏科信息股份有限公司 基于动态评估的数据探查方法和装置
CN111581431B (zh) * 2020-04-28 2022-05-20 厦门市美亚柏科信息股份有限公司 基于动态评估的数据探查方法和装置
CN112800146A (zh) * 2021-02-02 2021-05-14 北京互金新融科技有限公司 风控数据的回溯方法及装置、存储介质和处理器
CN112800146B (zh) * 2021-02-02 2024-05-14 北京互金新融科技有限公司 风控数据的回溯方法及装置、存储介质和处理器
CN113204589A (zh) * 2021-05-28 2021-08-03 平安科技(深圳)有限公司 存储对象处理系统、请求处理方法、网关和存储介质
WO2022247316A1 (zh) * 2021-05-28 2022-12-01 平安科技(深圳)有限公司 存储对象处理系统、请求处理方法、网关和存储介质

Similar Documents

Publication Publication Date Title
CN107491553A (zh) 一种数据挖掘方法及系统
CN107256265B (zh) 一种搜索引擎结果数据可视化展示方法及系统
US20190325329A1 (en) Knowledge graph data structures and uses thereof
Garbis et al. Geographica: A benchmark for geospatial rdf stores (long version)
Heer et al. Interactive analysis of big data
CN103970902B (zh) 一种大量数据情况下的可靠即时检索方法及系统
WO2017170459A1 (ja) 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
US11687544B2 (en) Adaptive analytics user interfaces
US8745021B2 (en) Transformation of complex data source result sets to normalized sets for manipulation and presentation
US20120047123A1 (en) System and method for document analysis, processing and information extraction
US20230401227A1 (en) Interactive data exploration
CN104933115B (zh) 一种多维分析方法和系统
CN108804576B (zh) 一种基于链接分析的域名层级结构探测方法
US11093473B2 (en) Hierarchical tree data structures and uses thereof
US11442915B2 (en) Methods and systems for extracting and visualizing patterns in large-scale data sets
US20200192883A1 (en) Methods and systems for biodirectional indexing
US10901811B2 (en) Creating alerts associated with a data storage system based on natural language requests
Bajaber et al. Benchmarking big data systems: A survey
US20220318241A1 (en) Selection Query Language Methods And Systems
Hung et al. QUBLE: towards blending interactive visual subgraph search queries on large networks
JP6159908B6 (ja) 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
CN113806429B (zh) 基于大数据流处理框架的画布式日志分析方法
CN104484392A (zh) 数据库查询语句生成方法及装置
KR101255639B1 (ko) 컬럼 기반 데이터베이스 시스템 및 데이터베이스 시스템의 조인 인덱스를 이용한 조인 처리 방법
EP3007078A1 (en) Multivariate insight discovery approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171219

RJ01 Rejection of invention patent application after publication