CN106649426A - 一种数据分析方法和数据分析平台以及服务器 - Google Patents

一种数据分析方法和数据分析平台以及服务器 Download PDF

Info

Publication number
CN106649426A
CN106649426A CN201610634614.4A CN201610634614A CN106649426A CN 106649426 A CN106649426 A CN 106649426A CN 201610634614 A CN201610634614 A CN 201610634614A CN 106649426 A CN106649426 A CN 106649426A
Authority
CN
China
Prior art keywords
data
data analysis
analysis platform
modules
elasticsearch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610634614.4A
Other languages
English (en)
Inventor
柳廷娜
王茂帅
高峰
甄教明
王明君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201610634614.4A priority Critical patent/CN106649426A/zh
Publication of CN106649426A publication Critical patent/CN106649426A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据分析方法和数据分析平台以及服务器,该数据分析平台包括:数据源,与数据源连接的Elasticsearch索引模块以及与Elasticsearch索引模块连接的Spark SQL处理模块和与Spark SQL处理模块连接的数据呈现模块,其中,数据源,用于提供数据;Elasticsearch索引模块,用于通过数据搜索接口从数据源获取搜索的数据,并对数据进行预处理,并将预处理后的数据发送至Spark SQL处理模块;Spark SQL处理模块,用于对预处理后的数据进行数据分析,并将数据分析后的数据发送至数据呈现模块;数据呈现模块,用于呈现数据分析后的数据。本申请能够解决现有数据分析平台在进行数据分析时实现较为复杂的问题。

Description

一种数据分析方法和数据分析平台以及服务器
技术领域
本申请涉及数据处理领域,尤其涉及一种数据分析方法和数据分析平台以及服务器。
背景技术
在海量数据处理中,数据的实时处理一直是业界聚焦的重点。数据的处理不仅仅在于数据的计算,更要考虑诸如数据存储能力、数据计算能力、水平扩展能力等多个方面。
在大数据存储方面,如何存储海量数据是目前较为前言的一个问题。HDFS等分布式文件系统以及HBase分布式数据库等技术的发展,在一定程度上很好地解决了这个问题,但基于Hadoop生态环境的分布式存储在部署、管理上较为复杂,在数据计算方面,Hadoop生态环境提出了MapReduce等分布式计算框架,但其编程较为复杂,因此,可以看出,现有的数据分析平台在进行数据分析时,实现较为复杂。
发明内容
有鉴于此,本申请提供一种数据分析方法和数据分析平台以及服务器,能够解决现有数据分析平台在进行数据分析时实现较为复杂的问题。
具体地,本申请是通过如下技术方案实现的:
一方面,提供一种数据分析平台,包括:数据源,与所述数据源连接的Elasticsearch索引模块以及与所述Elasticsearch索引模块连接的Spark SQL处理模块和与所述Spark SQL处理模块连接的数据呈现模块,其中,所述数据源,用于提供数据;所述Elasticsearch索引模块,用于通过数据搜索接口从所述数据源获取搜索的数据,并对所述数据进行预处理,并将预处理后的数据发送至所述Spark SQL处理模块;所述Spark SQL处理模块,用于对所述预处理后的数据进行数据分析,并将数据分析后的数据发送至所述数据呈现模块;所述数据呈现模块,用于呈现所述数据分析后的数据。
另一方面,提供一种数据分析方法,应用于数据分析平台,所述数据分析平台包括数据源,与所述数据源连接的Elasticsearch索引模块以及与所述Elasticsearch索引模块连接的Spark SQL处理模块和与所述Spark SQL处理模块连接的数据呈现模块,所述方法包括:所述数据分析平台中的所述Elasticsearch索引模块通过数据搜索接口从所述数据源获取搜索的数据,并对所述数据进行预处理,并将预处理后的数据发送至所述数据分析平台中的Spark SQL处理模块;所述数据分析平台中的Spark SQL处理模块对所述预处理后的数据进行数据分析,并将数据分析后的数据发送至所述数据分析平台中的数据呈现模块;所述数据分析平台中的数据呈现模块,用于呈现所述数据分析后的数据。
又一方面,提供一种服务器,包括上述数据分析平台。
采用本申请提供的数据分析方法和数据分析平台以及服务器,该数据分析平台包括数据源,与该数据源连接的Elasticsearch索引模块以及与该Elasticsearch索引模块连接的Spark SQL处理模块和与该Spark SQL处理模块连接的数据呈现模块,其中,该数据源,用于提供数据;该Elasticsearch索引模块,用于通过数据搜索接口从该数据源获取搜索的数据,并对该数据进行预处理,并将预处理后的数据发送至该Spark SQL处理模块;该SparkSQL处理模块,用于对该预处理后的数据进行数据分析,并将数据分析后的数据发送至该数据呈现模块;该数据呈现模块,用于呈现该数据分析后的数据。这样,本申请通过Elasticsearch作为数据的存储媒介,提供了丰富的访问和搜索数据的接口,并利用SparkSQL强大的内存计算能力可以完成复杂的数据计算。两者相互配合完成数据的预处理、存储、容错、计算等一系列数据分析过程,实现简单,从而解决了现有数据分析平台在进行数据分析时实现较为复杂的问题。
附图说明
图1是本申请一示例性实施例示出的一种数据分析平台的结构示意图;
图2是本申请一示例性实施例示出的一种数据分析框架的结构示意图;
图3是本申请一示例性实施例示出的一种数据分析方法的流程示意图;
图4是本申请一示例性实施例示出的一种服务器的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请提供的数据分析平台通过Spark SQL计算模块的高计算性能和Elasticsearch搜索模块的实时搜索功能,进行准确实时的数据分析,Elasticsearch作为数据的存储媒介,提供了丰富的访问和搜索数据的接口;Spark SQL强大的内存计算能力可以完成复杂的数据计算。两者相互配合完成数据的预处理、存储、容错、计算等一系列数据分析过程。
下面通过以下实施例对本申请进行详细说明。
图1为本申请实施例提供的一种数据分析平台,如图1所示,该数据分析平台包括数据源101,与该数据源101连接的Elasticsearch索引模块102以及与该Elasticsearch索引模块102连接的Spark SQL处理模块103和与该Spark SQL处理模块103连接的数据呈现模块104,其中,
该数据源101,用于提供数据;
该Elasticsearch索引模块102,用于通过数据搜索接口从该数据源获取搜索的数据,并对该数据进行预处理,并将预处理后的数据发送至该Spark SQL处理模块103;
该Spark SQL处理模块103,用于对该预处理后的数据进行数据分析,并将数据分析后的数据发送至该数据呈现模块104;
该数据呈现模块104,用于呈现该数据分析后的数据。
在本申请一种可能的实现方式中,该Elasticsearch索引模块与该Spark SQL处理模块通过JSON结构进行数据交互。
其中,该Elasticsearch索引模块对数据的预处理可以是对数据进行生成倒排索引、进行中文分词、完成自动分布式存储和备份等处理,这样,不但保证了数据的安全性和可访问性,更加快了数据的方位速度、丰富了数据方位接口。另外,通过使用Spark SQL的计算能力,Spark SQL不仅支持结构化数据的操作,还支持从RDD、parquet文件、JSON文件中获取数据,并通过Web页面的方式或者使用移动终端的方式进行数据的展现。
在本申请实施例中,该数据分析平台的数据分析框架可以是如图2所示的数据分析框架,如图2所示,该数据分析框架包括位于框架最低层的数据源,该数据源支持HBASE、HIVE、HDFS以及MYSOL等构架,在数据源上一层为搜索框架,该搜索框架由Elasticsearch搜索模块完成数据搜索,该Elasticsearch搜索模块提供数据搜索接口,用于搜索数据并从数据源获取数据,在搜索框架上一层为计算框架,该计算框架由Spark SQL计算模块以及APACHE SPARK、MLlib、GRAPHX完成对从Elasticsearch搜索模块传输的数据的计算处理,该计算框架的上一层,也即该数据分析框架的最上层为数据呈现框架,该数据呈现框架通过WEB APP和MOBLIE APP对计算框架传输的数据进行呈现。
采用上述数据分析平台,通过Elasticsearch作为数据的存储媒介,提供了丰富的访问和搜索数据的接口,并利用Spark SQL强大的内存计算能力可以完成复杂的数据计算。两者相互配合完成数据的预处理、存储、容错、计算等一系列数据分析过程,实现简单,从而解决了现有数据分析平台在进行数据分析时实现较为复杂的问题。
图3为本申请实施例提供的一种数据分析方法,如图3所示,该方法应用于上述数据分析平台,所述数据分析平台包括数据源,与所述数据源连接的Elasticsearch索引模块以及与所述Elasticsearch索引模块连接的Spark SQL处理模块和与所述Spark SQL处理模块连接的数据呈现模块,所述方法包括:
S301、该数据分析平台中的该Elasticsearch索引模块通过数据搜索接口从该数据源获取搜索的数据,并对该数据进行预处理,并将预处理后的数据发送至该数据分析平台中的Spark SQL处理模块。
可选地,该数据分析平台中的该Elasticsearch索引模块对该数据进行生成倒排索引、进行中文分词、完成自动分布式存储和备份。
S302、该数据分析平台中的Spark SQL处理模块对该预处理后的数据进行数据分析,并将数据分析后的数据发送至该数据分析平台中的数据呈现模块。
可选地,该数据分析平台中的该Elasticsearch索引模块将预处理后的数据通过JSON结构发送至该数据分析平台中的Spark SQL处理模块。
S303、该数据分析平台中的数据呈现模块,用于呈现该数据分析后的数据。
上述方法中各步骤的实现过程具体详见上述数据分析平台中各模块的实现过程,在此不再赘述。
采用上述数据分析方法,通过Elasticsearch作为数据的存储媒介,提供了丰富的访问和搜索数据的接口,并利用Spark SQL强大的内存计算能力可以完成复杂的数据计算。两者相互配合完成数据的预处理、存储、容错、计算等一系列数据分析过程,实现简单,从而解决了现有数据分析平台在进行数据分析时实现较为复杂的问题。
图4为本申请实施例提供的一种服务器,如图4所示,该服务器包括上述图1所示的数据分析平台。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (7)

1.一种数据分析平台,其特征在于,包括:数据源,与所述数据源连接的Elasticsearch索引模块以及与所述Elasticsearch索引模块连接的Spark SQL处理模块和与所述SparkSQL处理模块连接的数据呈现模块,其中,
所述数据源,用于提供数据;
所述Elasticsearch索引模块,用于通过数据搜索接口从所述数据源获取搜索的数据,并对所述数据进行预处理,并将预处理后的数据发送至所述Spark SQL处理模块;
所述Spark SQL处理模块,用于对所述预处理后的数据进行数据分析,并将数据分析后的数据发送至所述数据呈现模块;
所述数据呈现模块,用于呈现所述数据分析后的数据。
2.根据权利要求1所述的数据分析平台,其特征在于,所述Elasticsearch索引模块与所述Spark SQL处理模块通过JSON结构进行数据交互。
3.根据权利要求1或2所述的数据分析平台,其特征在于,所述Elasticsearch索引模块,用于生成倒排索引、进行中文分词、完成自动分布式存储和备份。
4.一种数据分析方法,其特征在于,应用于数据分析平台,所述数据分析平台包括数据源,与所述数据源连接的Elasticsearch索引模块以及与所述Elasticsearch索引模块连接的Spark SQL处理模块和与所述Spark SQL处理模块连接的数据呈现模块,所述方法包括:
所述数据分析平台中的所述Elasticsearch索引模块通过数据搜索接口从所述数据源获取搜索的数据,并对所述数据进行预处理,并将预处理后的数据发送至所述数据分析平台中的Spark SQL处理模块;
所述数据分析平台中的Spark SQL处理模块对所述预处理后的数据进行数据分析,并将数据分析后的数据发送至所述数据分析平台中的数据呈现模块;
所述数据分析平台中的数据呈现模块,用于呈现所述数据分析后的数据。
5.根据权利要求4所述的方法,其特征在于,所述数据分析平台中的所述Elasticsearch索引模块将预处理后的数据发送至所述数据分析平台中的Spark SQL处理模块包括:
所述数据分析平台中的所述Elasticsearch索引模块将预处理后的数据通过JSON结构发送至所述数据分析平台中的Spark SQL处理模块。
6.根据权利要求4或5所述的方法,其特征在于,所述数据分析平台中的所述Elasticsearch索引模块对所述数据进行预处理包括:
所述数据分析平台中的所述Elasticsearch索引模块对所述数据进行生成倒排索引、进行中文分词、完成自动分布式存储和备份。
7.一种服务器,其特征在于,包括上述权利要求1至3任一项所述的数据分析平台。
CN201610634614.4A 2016-08-05 2016-08-05 一种数据分析方法和数据分析平台以及服务器 Pending CN106649426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610634614.4A CN106649426A (zh) 2016-08-05 2016-08-05 一种数据分析方法和数据分析平台以及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610634614.4A CN106649426A (zh) 2016-08-05 2016-08-05 一种数据分析方法和数据分析平台以及服务器

Publications (1)

Publication Number Publication Date
CN106649426A true CN106649426A (zh) 2017-05-10

Family

ID=58851469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610634614.4A Pending CN106649426A (zh) 2016-08-05 2016-08-05 一种数据分析方法和数据分析平台以及服务器

Country Status (1)

Country Link
CN (1) CN106649426A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992949A (zh) * 2017-11-09 2018-05-04 北京许继电气有限公司 工业数据分析方法和系统
CN108009296A (zh) * 2017-12-27 2018-05-08 北京中关村科金技术有限公司 一种基于Hbase的SQL查询方法、系统及相关装置
CN109086409A (zh) * 2018-08-02 2018-12-25 泰康保险集团股份有限公司 微服务数据处理方法、装置、电子设备及计算机可读介质
CN109783535A (zh) * 2018-12-26 2019-05-21 航天恒星科技有限公司 基于ElasticSearch和Hbase技术的网络传输数据检索系统
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN109857729A (zh) * 2018-12-29 2019-06-07 电大在线远程教育技术有限公司 数据服务方法和装置
CN110096478A (zh) * 2019-05-09 2019-08-06 中国联合网络通信集团有限公司 文档索引生成方法及设备
CN111198898A (zh) * 2018-11-16 2020-05-26 浙江宇视科技有限公司 大数据查询方法及大数据查询装置
CN112100197A (zh) * 2020-07-31 2020-12-18 紫光云(南京)数字技术有限公司 基于Elasticsearch的准实时日志数据分析与统计方法
CN112131295A (zh) * 2020-09-27 2020-12-25 平安医疗健康管理股份有限公司 基于Elasticsearch的数据处理方法及设备
CN113656469A (zh) * 2020-05-12 2021-11-16 北京市天元网络技术股份有限公司 大数据处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100257156A1 (en) * 2009-04-07 2010-10-07 Kazushige Hiroi Moving picture indexing method and moving picture reproducing device
CN104598631A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 分布式数据处理平台

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100257156A1 (en) * 2009-04-07 2010-10-07 Kazushige Hiroi Moving picture indexing method and moving picture reproducing device
CN104598631A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 分布式数据处理平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王家林等: "《Spark核心源码分析与开发实战》", 30 April 2016, 机械工业出版社 *
高凯: "《实战Elasticsearch、Logstash、Kibana—分布式大数据搜索与日志挖掘及可视化解决方案》", 30 June 2015, 清华大学出版社 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992949A (zh) * 2017-11-09 2018-05-04 北京许继电气有限公司 工业数据分析方法和系统
CN108009296B (zh) * 2017-12-27 2020-10-16 北京中关村科金技术有限公司 一种基于Hbase的SQL查询方法、系统及相关装置
CN108009296A (zh) * 2017-12-27 2018-05-08 北京中关村科金技术有限公司 一种基于Hbase的SQL查询方法、系统及相关装置
CN109086409B (zh) * 2018-08-02 2021-10-08 泰康保险集团股份有限公司 微服务数据处理方法、装置、电子设备及计算机可读介质
CN109086409A (zh) * 2018-08-02 2018-12-25 泰康保险集团股份有限公司 微服务数据处理方法、装置、电子设备及计算机可读介质
CN111198898A (zh) * 2018-11-16 2020-05-26 浙江宇视科技有限公司 大数据查询方法及大数据查询装置
CN111198898B (zh) * 2018-11-16 2023-10-27 浙江宇视科技有限公司 大数据查询方法及大数据查询装置
CN109783535A (zh) * 2018-12-26 2019-05-21 航天恒星科技有限公司 基于ElasticSearch和Hbase技术的网络传输数据检索系统
CN109857729A (zh) * 2018-12-29 2019-06-07 电大在线远程教育技术有限公司 数据服务方法和装置
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN109815219B (zh) * 2019-02-18 2021-11-23 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN110096478A (zh) * 2019-05-09 2019-08-06 中国联合网络通信集团有限公司 文档索引生成方法及设备
CN110096478B (zh) * 2019-05-09 2021-06-29 中国联合网络通信集团有限公司 文档索引生成方法及设备
CN113656469A (zh) * 2020-05-12 2021-11-16 北京市天元网络技术股份有限公司 大数据处理方法及装置
CN113656469B (zh) * 2020-05-12 2024-01-05 北京市天元网络技术股份有限公司 大数据处理方法及装置
CN112100197B (zh) * 2020-07-31 2022-10-28 紫光云(南京)数字技术有限公司 基于Elasticsearch的准实时日志数据分析与统计方法
CN112100197A (zh) * 2020-07-31 2020-12-18 紫光云(南京)数字技术有限公司 基于Elasticsearch的准实时日志数据分析与统计方法
CN112131295A (zh) * 2020-09-27 2020-12-25 平安医疗健康管理股份有限公司 基于Elasticsearch的数据处理方法及设备

Similar Documents

Publication Publication Date Title
CN106649426A (zh) 一种数据分析方法和数据分析平台以及服务器
US11386128B2 (en) Automatic feature learning from a relational database for predictive modelling
US20190163756A1 (en) Hierarchical question answering system
CN105938477B (zh) 用于整合和格式化搜索结果的方法和系统
US10997249B2 (en) Search query intent
CN107257390B (zh) 一种url地址的解析方法和系统
CN108090351B (zh) 用于处理请求消息的方法和装置
US11048505B2 (en) Approach to summarize code usage
US9282155B2 (en) Smart posting with data analytics and semantic analysis to improve a message posted to a social media service
US20170053023A1 (en) System to organize search and display unstructured data
CN110362663A (zh) 自适应多感知相似度检测和解析
US20190354525A1 (en) Generating multilingual queries
US10268779B2 (en) Sharing server conversational context between multiple cognitive engines
US20160299972A1 (en) Providing app store search results
US20210004406A1 (en) Method and apparatus for storing media files and for retrieving media files
CN113343312B (zh) 基于前端埋点技术的页面防篡改方法及系统
US11361031B2 (en) Dynamic linguistic assessment and measurement
Xu et al. DivLog: Log Parsing with Prompt Enhanced In-Context Learning
US11080249B2 (en) Establishing industry ground truth
CN116467607B (zh) 信息匹配方法和存储介质
US20160283522A1 (en) Matching untagged data sources to untagged data analysis applications
US20230418859A1 (en) Unified data classification techniques
Venkatesan et al. Analysis of real-time data with spark streaming
US9286348B2 (en) Dynamic search system
CN115759292A (zh) 模型的训练方法及装置、语义识别方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication