CN113656469B

CN113656469B - 大数据处理方法及装置

Info

Publication number: CN113656469B
Application number: CN202010398731.1A
Authority: CN
Inventors: 张风祥
Original assignee: Beijing MetarNet Technologies Co Ltd
Current assignee: Beijing MetarNet Technologies Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2024-01-05
Anticipated expiration: 2040-05-12
Also published as: CN113656469A

Abstract

本发明实施例提供一种大数据处理方法及装置，其中方法包括：接收应用上传的数据获取请求；根据数据获取请求，从预先创建Elasticsearch数据库中搜索目标数据，将搜索到的目标数据下发至应用；Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。本发明采用Hadoop集群存储原始数据实现数据湖功能，Hadoop集群实现任意规模的结构化和非结构化数据的存储，从而在使用较少的初始工作的情况下提供更大的灵活性，配合Spark处理框架以及Elasticsearch数据库，以较低的代价为用户提供一种基于大数据处理的快速响应系统架构模型。

Description

大数据处理方法及装置

技术领域

本发明涉及大数据技术领域，更具体地，涉及大数据处理方法及装置。

背景技术

传统使用存储的大数据需要进行建模，存储的是结构化数据，在将数据加载到数据库之前，还需要对数据进行清理与转换、定义架构等等，灵活性较差，而且后期维护较麻烦。

此外，在现有技术中，最终下发至应用的数据，也即汇总后数据，需要存储到关系型数据库或者hbase数据库中，但关系型数据库和hbase数据库对于大量数据查询比较慢，而且需要开发接口，因此存在查询效率低、开发的成本高的问题。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的大数据处理方法及装置。

第一个方面，本发明实施例提供一种大数据处理方法，包括：

接收应用上传的数据获取请求；

根据所述数据获取请求，从预先创建的Elasticsearch数据库中搜索目标数据，将搜索到的所述目标数据下发至所述应用；

其中，所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。

优选地，所述接收应用上传的数据获取请求，之前还包括：

创建所述Hadoop集群和所述Spark处理框架；

将原始数据存储至所述Hadoop集群，通过所述Spark处理框架，根据预设处理规则对所述原始数据进行处理，将所述处理后的数据存储在所述Elasticsearch数据库中。

优选地，所述Hadoop集群和Spark处理框架通过Clouder Manager工具进行创建。

优选地，所述通过所述Spark处理框架，根据预设处理规则对所述原始数据进行处理，将所述处理后的数据存储在所述Elasticsearch数据库中，具体为：

编写数据处理程序，通过所述数据处理程序从Hadoop集群中读取原始数据，结合SparkSQL或SparkStream对提取的原始数据进行处理，将所述处理后的数据存储在所述Elasticsearch数据库；

将所述数据处理程序通过Spark-submit脚本和yarn管理器提交到Spark集群环境运行。

优选地，所述将所述处理后的数据存储在所述Elasticsearch数据库中，具体为：

根据预设规则，对处理后的原始数据设置索引和类型，将处理后的原始数据的数据内容根据索引和类型存储在所述Elasticsearch数据库中；

相应地，所述数据获取请求中记录待获取的数据的索引、类型和数据内容。

第二个方面，本发明实施例提供一种大数据处理装置，包括：

请求获取模块，用于接收应用上传的数据获取请求；

数据下发模块，用于根据所述数据获取请求，从预先创建的Elasticsearch数据库中搜索目标数据，将搜索到的所述目标数据下发至所述应用；

优选地，所述大数据处理装置还包括：

创建模块，用于创建所述Hadoop集群和所述Spark处理框架；

处理模块，用于将原始数据存储至所述Hadoop集群，通过所述Spark处理框架，根据预设处理规则对所述原始数据进行处理，将所述处理后的数据存储在所述Elasticsearch数据库中。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的大数据处理方法及装置，采用Hadoop集群存储原始数据实现数据湖功能，Hadoop集群实现任意规模的结构化和非结构化数据的存储，从而在使用较少的初始工作的情况下提供更大的灵活性，配合Spark处理框架以及Elasticsearch数据库，以较低的代价为用户提供一种基于大数据处理的快速响应系统架构模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的大数据处理方法的流程示意图；

图2为本发明实施例提供的大数据处理装置的结构示意图；

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术的上述问题，本发明实施例的发明构思为：。

图1为本发明实施例的大数据处理方法的流程示意图，如图1所示，包括：

S101、接收应用上传的数据获取请求；

可以理解的是，本发明实施例的数据获取请求中携带应用待获取的数据的一些必要信息，例如可以是待获取的数据的唯一标识，或者待获取数据的存储。

S102、根据所述数据获取请求，从预先创建的Elasticsearch数据库中搜索目标数据，将搜索到的所述目标数据下发至所述应用；

Elasticsearch是一种非关系型数据库，也是一个接近实时的搜索平台，从索引文档到文档能够被搜索到，只有一个轻微的延迟，更是采用Restful API标准的可扩展和高可用的实时数据分析的全文搜索工具。其具有可拓展优势：支持一主多从且扩容简易，只要cluster.name一致且在同一个网络中就能自动加入当前集群；本身就是开源软件，也支持很多开源的第三方插件；还具有高可用优势：在一个集群的多个节点中进行分布式存储，索引支持shards和复制，即使部分节点down掉，也能自动进行数据恢复和主从切换。

Hadoop集群是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。Hadoop集群实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上；而且它提供高吞吐量(high throughput)来访问应用程序的数据，适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求，可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

Spark处理框架是一个围绕速度、易用性和复杂分析构建的大数据处理框架，Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。经验证Spark处理框架可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍。

需要说明的是，本发明实施例采用Hadoop集群存储原始数据实现数据湖功能，Hadoop集群实现任意规模的结构化和非结构化数据的存储，从而在使用较少的初始工作的情况下提供更大的灵活性，配合Spark处理框架以及Elasticsearch数据库，以较低的代价为用户提供一种基于大数据处理的快速响应系统架构模型。

在上述各实施例的基础上，作为一种可选实施例，所述接收应用上传的数据获取请求，之前还包括：

创建所述Hadoop集群和所述Spark处理框架；

数据湖是一个存储企业的各种各样原始数据的大型仓库，其中的数据可供存取、处理、分析及传输，即任何对企业有价值的数据都可以先存储在数据湖中，本发明实施例将Hadoop集群作为数据湖。

当应用的具体业务场景确定后，Spark处理框架根据应用的需要，解析Hadoop集群中的原始数据，这样就实现了先数据存储后定义架构的目的，而传统的数据库一般都是存储的结构化数据，需要先定义好数据结构，再根据数据格式进行存储，相当于先对于原始数据进行一次处理后再存储，而本发明实施例用Hadoop集群实现的数据湖可以先存储结构化或非机构化的原始数据。

Spark处理框架具体的处理规则与应用的需求有关，比如原始数据为日志数据，应用的需求是统计某一天的数据，Spark处理框架的处理规则为以天为单位收集日志数据，放入Elasticsearch数据库。本发明实施例中应用的需求是预先确定的，因此可以根据应用的需求对应设置好Spark处理框架的处理规则。

在上述各实施例的基础上，作为一种可选实施例，所述Hadoop集群和Spark处理框架通过Clouder Manager工具进行创建。

Clouder Manager工具是一种CDH(大数据平台，Cloudera’s DistributionIncluding Apache Hadoop)管理软件，用于管理安装软件、配置、启动和停止服务，以及集群UI页面展示。本发明实施例借助Clouder Manager工具对Hadoop集群和Spark处理框架进行管理，减少了后续维护工作。

在上述各实施例的基础上，作为一种可选实施例，所述通过所述Spark处理框架，根据预设处理规则对所述原始数据进行处理，将所述处理后的数据存储在所述Elasticsearch数据库中，具体为：

需要说明的是，本发明实施例在对Hadoop集群中的数据处理时需要创建数据处理程序，该程序具体用于：从Hadoop集群中读取原始数据，结合SparkSQL或SparkStream对提取的原始数据进行处理，将所述处理后的数据存储在所述Elasticsearch数据库。

SparkSQL是Spark用来处理结构化的一个模块，它提供一个抽象的数据集DataFrame,并且是作为分布式SQL查询引擎的应用。

SparkStream是一个准流式计算框架，SparkStream是准实时流计算框架，是微批处理，所以延迟度要比storm高，但吞吐量也比storm高，SparkStream支持动态调整资源，支持复杂的业务逻辑。

Spark-submit是在Spark安装目录中bin目录下的一个shell脚本文件，用于在集群中启动应用程序。Yarn是一个快速、可靠、安全的依赖管理工具。

通过将所述数据处理程序通过Spark-submit脚本和yarn管理器提交到Spark集群环境运行，数据处理程序会源源不断提供处理后数据到Elasticsearch数据库中。

在上述各实施例的基础上，作为一种可选实施例，将所述处理后的数据存储在所述Elasticsearch数据库中，具体为：

根据预设规则，对处理后的原始数据设置索引和类型，将处理后的原始数据的数据内容根据索引和类型存储在所述Elasticsearch数据库中。

索引和类型是Elasticsearch中的概念，index索引，可以理解为数据库；type类型可以理解成数据库的表，document可以理解为数据库的记录，是具体的数据内容。本发明实施例对存储在Elasticsearch数据库中的处理后的数据，预设确定对应的索引和类型的规则。

Elasticsearch数据库提供了一个基于RESTful web接口分布式多用户能力的全文搜索引擎，并且提供类似数据库SQL的query DSL(查询语言)，可以在应用中直接通过GET、POST等形式基于index、type进行查询数据。比如获取一条特定数据：

http://127.0.0.1:9200/index1/type1/zt4EZ2kBd1GQfVSvgXBJ，其中index1即是根据预设规则预先定义好的index，type1也是预先定义好的type，zt4EZ2kBd1GQfVSvgXBJ是动态增长的记录，每条记录会生成一个唯一的id字段，这只是其中一种数据获取方式。

在RESTful架构中，应用使用POST，DELETE，PUT和GET四种请求方式分别对数据进行增删改查操作。

图2为本发明实施例提供的大数据处理装置的结构示意图，如图2所示，大数据处理装置包括请求获取模块201和数据下发模块202，具体的：

请求获取模块201，用于接收应用上传的数据获取请求；

数据下发模块202，用于根据所述数据获取请求，从预先创建的Elasticsearch数据库中搜索目标数据，将搜索到的所述目标数据下发至所述应用；

其中，所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得

本发明实施例提供的大数据处理装置，具体执行上述方法实施例流程，具体请详见上述大数据处理方法实施例的内容，在此不再赘述。本发明实施例提供的大数据处理装置，本发明实施例采用Hadoop集群存储原始数据实现数据湖功能，Hadoop集群实现任意规模的结构化和非结构化数据的存储，从而在使用较少的初始工作的情况下提供更大的灵活性，配合Spark处理框架以及Elasticsearch数据库，以较低的代价为用户提供一种基于大数据处理的快速响应系统架构模型。

在上述各实施例的基础上，作为一种可选实施例，大数据处理装置还包括：

创建模块，用于创建所述Hadoop集群和所述Spark处理框架；

图3为本发明实施例提供的电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序，以执行上述各实施例提供的大数据处理方法，例如包括：接收应用上传的数据获取请求；根据所述数据获取请求，从预先创建Elasticsearch数据库中搜索目标数据，将搜索到的所述目标数据下发至所述应用；其中，所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的大数据处理方法，例如包括：接收应用上传的数据获取请求；根据所述数据获取请求，从预先创建Elasticsearch数据库中搜索目标数据，将搜索到的所述目标数据下发至所述应用；其中，所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种大数据处理方法，其特征在于，包括：

创建Hadoop集群和Spark处理框架；

将原始数据存储至所述Hadoop集群，通过所述Spark处理框架，根据预设处理规则对所述原始数据进行处理，将所述处理后的数据存储在Elasticsearch数据库中；

接收应用上传的数据获取请求；

2.根据权利要求1所述的大数据处理方法，其特征在于，所述Hadoop集群和Spark处理框架通过Clouder Manager工具进行创建。

3.根据权利要求1或2所述的大数据处理方法，其特征在于，所述通过所述Spark处理框架，根据预设处理规则对所述原始数据进行处理，将所述处理后的数据存储在Elasticsearch数据库中，具体为：

4.根据权利要求1所述的大数据处理方法，其特征在于，所述将所述处理后的数据存储在Elasticsearch数据库中，具体为：

5.一种大数据处理装置，其特征在于，包括：

创建模块，用于创建Hadoop集群和Spark处理框架；

处理模块，用于将原始数据存储至所述Hadoop集群，通过所述Spark处理框架，根据预设处理规则对所述原始数据进行处理，将所述处理后的数据存储在Elasticsearch数据库中；

请求获取模块，用于接收应用上传的数据获取请求；

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述大数据处理方法的步骤。

7.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至4中任意一项所述的大数据处理方法的步骤。