CN113342806A

CN113342806A - 大数据处理方法、装置、存储介质及处理器

Info

Publication number: CN113342806A
Application number: CN202110537330.4A
Authority: CN
Inventors: 万人俊
Original assignee: Hubei Zhuozhou Network Technology Co ltd
Current assignee: Hubei Zhuozhou Network Technology Co ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-09-03

Abstract

本发明实施例提供一种大数据处理方法、装置、处理器及存储介质。方法包括：创建列式数据库集群，列式数据库为clickhouse；启动列式数据库的服务，并对集群进行部署配置；将产生的业务数据通过列式数据库集群的预设通道发送至对应的服务器；获取各个列式数据库的地址；根据预设业务规则在列式数据库中分别建立对应的数据表；根据地址将服务器上的业务数据分别存储至与地址对应的列式数据库的数据表中，能够实现动态的，实时的秒级别查询海量数据，同时保证大数据量分析不影响各类服务设备的正常运行，并能够及时的进行数据监控。

Description

大数据处理方法、装置、存储介质及处理器

技术领域

本发明涉及计算机技术领域，具体地涉及一种大数据处理方法、装置、存储介质及处理器。

背景技术

目前各行各业数据量日益剧增，数据存储的格式、设备等多种多样。然而，传统的数据管理存储方式已无法满足现在海量数据的读取和分析要求，也无法对海量数据进行数据分析。

发明内容

本发明实施例的目的是提供一种大数据处理方法、装置、存储介质及处理器。

为了实现上述目的，本发明第一方面提供一种大数据处理方法，包括：

创建列式数据库集群，所述列式数据库为clickhouse；

启动所述列式数据库的服务，并对所述集群进行部署配置；

将产生的业务数据通过所述列式数据库集群的预设通道发送至对应的服务器；

获取各个列式数据库的地址；

根据预设业务规则在所述列式数据库中分别建立对应的数据表；

根据所述地址将所述服务器上的业务数据分别存储至与所述地址对应的列式数据库的数据表中。

在本发明的实施例中，创建列式数据库集群包括：获取多个集群节点的节点信息；根据所述节点信息搭建完全分布式系统和分布式消息系统；对所述完全分布式系统和分布式消息系统进行环境配置。

在本发明的实施例中，将产生的业务数据通过所述列式数据库集群的预设通道发送至对应的服务器包括：获取所述业务数据的数量；根据所述业务数据的数量确定所述预设通道的开启数量。

在本发明的实施例中，方法还包括：在所述启动所述列式数据库的服务，并对所述集群进行部署配置之后，通过分布式处理引擎对所述业务数据进行数据消费，所述数据消费包括过滤算子、数据加工算子和写入算子中的至少一种。

在本发明的实施例中，获取各个列式数据库的地址包括：获取域名链接分布式表以获取到各个列式数据库的地址；或通过Nginx进程获取所述列式数据库集群的IP列表，以获取到各个列式数据库的地址。

在本发明的实施例中，根据所述地址分别将所述服务器上的业务数据存储至与所述地址对应的列式数据库的数据表中包括：将所述服务器上的业务数据存储至临时分区目录；将所述业务数据从所述临时分区目录中批量写入与所述地址对应的列式数据库的数据表中。

在本发明的实施例中，方法还包括：根据业务流程确定所述业务数据的查询规则；根据所述查询规则设置所述业务数据的排序字段；所述根据所述地址将所述服务器上的业务数据分别存储至与所述地址对应的列式数据库的数据表中包括：根据所述地址分别将所述服务器上的业务数据按照所述排序字段的先后顺序存储至与所述地址对应的列式数据库的数据表中。

本发明第二方面提供一种大数据处理装置，包括：

集群创建模块，用于创建列式数据库集群，所述列式数据库为clickhouse；启动所述列式数据库的服务，并对所述集群进行部署配置；

第一数据模块，用于将产生的业务数据通过所述列式数据库集群的预设通道发送至对应的服务器；获取各个列式数据库的地址；

数据表建立模块，用于根据预设业务规则在所述列式数据库中分别建立对应的数据表；

第二数据模块，用于根据所述地址分别将所述服务器上的业务数据存储至与所述地址对应的列式数据库的数据表中。

本发明第三方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令在被处理器执行时使得所述处理器被配置成执行上述的大数据处理方法。

本发明第四方面提供一种处理器，被配置成执行上述的大数据处理方法。

上述大数据处理方法，通过创建列式数据库集群，列式数据库为clickhouse；启动列式数据库的服务，并对集群进行部署配置；将产生的业务数据通过列式数据库集群的预设通道发送至对应的服务器；获取各个列式数据库的地址；根据预设业务规则在列式数据库中分别建立对应的数据表；根据地址将服务器上的业务数据分别存储至与地址对应的列式数据库的数据表中。能够在企业适合的场景下能够实现动态的，实时的秒级别查询海量数据，同时保证大数据量分析不影响各类服务设备的正常运行，并能够及时的进行数据监控。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1示意性示出了根据本发明实施例的大数据处理方法的流程示意图；

图2示意性示出了根据本发明实施例的大数据处理装置的结构框图；

图3示意性示出了根据本发明实施例的计算机设备的内部结构图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1示意性示出了根据本发明实施例的大数据处理方法的流程示意图。如图1所示，在本发明一实施例中，提供了一种大数据处理方法，包括以下步骤：

步骤101，创建列式数据库集群，列式数据库为clickhouse。

步骤102，启动列式数据库的服务，并对集群进行部署配置。

步骤103，将产生的业务数据通过列式数据库集群的预设通道发送至对应的服务器。

步骤104，获取各个列式数据库的地址。

步骤105，根据预设业务规则在列式数据库中分别建立对应的数据表。

步骤106，根据地址将服务器上的业务数据分别存储至与地址对应的列式数据库的数据表中。

在本实施例中，可以先创建列式数据库集群，列式数据库集群可以为clickhouse集群。ClickHouse是一个快速的开源OLAP数据库管理系统,它是面向列的，并允许使用SQL查询实时生成分析报告，ClickHouse也是一个新的开源列式数据库。

在一个实施例中，创建列式数据库集群包括：获取多个集群节点的节点信息；根据节点信息搭建完全分布式系统和分布式消息系统；对完全分布式系统和分布式消息系统进行环境配置。

创建Clickhouse集群需要至少准备三台机器设备搭建三个集群节点。首先，可以先获取到集群节点信息，即获取到至少三个集群节点的节点信息。例如，三个集群节点分别为ch201、ch202、ch203。可以在三个集群节点搭建分布式系统和分布式消息系统。其中，分布式系统可以是zookeeper，分布式消息系统可以是kafka。ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

具体地，针对每一个集群节点，搭建ZooKeeper集群时都进行以下操作和配置：

1、下载zookeeper-3.4.12.tar.gz安装包，放置到上面三台服务器一个目录下(/apps/)；

2、进入到/apps/目录下，解压tar包，tar-zxvf zookeeper-3.4.12.tar.gz；

3、进入zookeeper的conf目录，拷贝zoo_sample.cfg为zoo.cfg，cp zoo_sample.cfg zoo.cfg修改zoo.cfg文件:

tickTime＝2000

initLimit＝10

syncLimit＝5

dataDir＝/apps/zookeeper-3.4.13/data/zookeeper

dataLogDir＝/apps/zookeeper-3.4.13/log/zookeeper

clientPort＝2182

autopurge.purgeInterval＝0

globalOutstandingLimit＝200

server.1＝ch201:2888:3888

server.2＝ch202:2888:3888

server.3＝ch203:2888:3888

4、创建需要目录，配置完成后江当前的zookeeper目录scp导其他两个节点；

5、设置myid；

$:vim/data/zookeeper/myid#ch201为1，ch202为2，ch203为3；

6、进入zookeeper的bin目录，启动zookeeper服务，每个节点都需要启动；

7、启动后查看每个节点的状态；

8、测试zookeeper集群。

在zookeeper集群的测试通过后，就表明集群节点的zookeeper集群搭建完毕。同样地，针对每个集群节点也需要搭建kafka集群环境并进行相应地配置。然后可以启动clickhouse-server服务，进行集群部署配置。在启动列式数据库的服务，并对集群进行部署配置之后，可以将产生的业务数据通过列式数据库集群的预设通道发送至对应的服务器。

在一个实施例中，将产生的业务数据通过列式数据库集群的预设通道发送至对应的服务器包括：获取业务数据的数量；根据业务数据的数量确定预设通道的开启数量。

在将产生的业务数据发送至服务器之前，可以先获取到业务数据的数量，然后根据业务数据的数量来确定预设通道的开启数量。其中，预设通道可以是kafka通道。

在一个实施例中，方法还包括：在启动列式数据库的服务，并对集群进行部署配置之后，通过分布式处理引擎对业务数据进行数据消费，数据消费包括过滤算子、数据加工算子和写入算子中的至少一种。

具体地，可以创建flink任务对各个业务的kafka数据进行消费。其中，Flink中的数据主要分为两类：有界数据流(Bounded streams)和无界数据流(Unbounded streams)。顾名思义，无界数据流就是指有始无终的数据，数据一旦开始生成就会持续不断的产生新的数据，即数据没有时间边界。无界数据流需要持续不断地处理。相对而言，有界数据流就是指输入的数据有始有终。例如数据可能是一分钟或者一天的交易数据等等。处理这种有界数据流的方式也被称之为批处理。

在一个实施例中，获取各个列式数据库的地址包括：获取域名链接分布式表以获取到各个列式数据库的地址；或通过Nginx进程获取列式数据库集群的IP列表，以获取到各个列式数据库的地址。

在将业务数据写入数据库的表里之前，可以先获取到域名链接分布式表，从而可以获取到各个列式数据库的地址。还可以通过Nginx进程获取列式数据库集群的IP列表，以获取到各个列式数据库的地址。其中，nginx是一个高性能的HTTP和反向代理服务器，其特点是占用内存少，并发能力强。通过nginx进程掌握一份集群机器IP列表，每个nginx进程自己轮询，均衡写入集群的每台机器。但需要保证写入Clickhouse的QPS不能太小，防止出现写入不均衡的情况。离线数据建立定时任务，将hive或mysql等数据加工好，通过建立mapReduce定时任务，将加工后的数据写入Clickhouse。

在一个实施例中，根据地址分别将服务器上的业务数据存储至与地址对应的列式数据库的数据表中包括：将服务器上的业务数据存储至临时分区目录；将业务数据从临时分区目录中批量写入与地址对应的列式数据库的数据表中。

每次数据写入都会产生临时分区目录，后续会异步的将相同分区的目录进行合并。写入过程会消耗集群的资源，所以一定采用批量写入方式，每次写入条数看集群何数量的情况，一版以1万、5万、10万作为写入单位。

在一个实施例中，会根据预设业务规则在所述列式数据库中分别建立对应的数据。在开始建表前，可以对业务数据及业务流程充分理解，了解集群数据的查询场景，在建表时规划好分区字段和排序规则，这个过程非常重要，是集群查询性能和设备支撑的良好的基础。例如，企业电商app每个点击按钮聚合PV和UV需要去重，按天或者小时聚合计算，在进行聚合计算时，肯定对整个集群的查询性能和设备的IO读取有影响。

在一个实施例中，方法还包括：根据业务流程确定业务数据的查询规则；根据查询规则设置业务数据的排序字段；根据地址将服务器上的业务数据分别存储至与地址对应的列式数据库的数据表中包括：根据地址分别将服务器上的业务数据按照排序字段的先后顺序存储至与地址对应的列式数据库的数据表中。

数据会按照设置的排序字段先后顺序来进行存储，在进行聚合计算时也会按照聚合条件对相邻数据进行计算，但如果聚合条件不在排序字段里，集群会对当前分区的所有数据扫描一遍，这种查询就会慢很多，大量消耗集群的内存、CPU资源。我们应该避免这种情况出现，设置合理的排序规则才能以最快的速度聚合出我们想要的结果。

在一个实施例中，大数据分析系统建设完成，需要完善监控体系，可利用Grafana查询系统监控设备读取的情况。如：CPU、内存、硬盘的使用情况。可利用大SQL监控，查询耗时SQL和没有分区和排序的字段。通过建立一套基于Clickhouse的大数据分析、系统、设备及可读存储介质，来进行海量数据的处理，并且对设备的资源消耗压力可实时监控。

在一个实施例中，如图2所示，提供了一种大数据处理装置，包括：

集群创建模块201，用于创建列式数据库集群，列式数据库为clickhouse；启动列式数据库的服务，并对集群进行部署配置。

第一数据模块202，用于将产生的业务数据通过列式数据库集群的预设通道发送至对应的服务器；获取各个列式数据库的地址。

数据表建立模块203，用于根据预设业务规则在列式数据库中分别建立对应的数据表。

第二数据模块204，用于根据地址分别将服务器上的业务数据存储至与地址对应的列式数据库的数据表中。

在一个实施例中，集群创建模块201还用于获取多个集群节点的节点信息；根据所述节点信息搭建完全分布式系统和分布式消息系统；对所述完全分布式系统和分布式消息系统进行环境配置。

在一个实施例中，第一数据模块202还用于获取所述业务数据的数量；根据所述业务数据的数量确定所述预设通道的开启数量。

在一个实施例中，第一数据模块202还用于通过分布式处理引擎对所述业务数据进行数据消费，所述数据消费包括过滤算子、数据加工算子和写入算子中的至少一种。

在一个实施例中，第一数据模块202还用于获取域名链接分布式表以获取到各个列式数据库的地址；或通过Nginx进程获取所述列式数据库集群的IP列表，以获取到各个列式数据库的地址。

在一个实施例中，第二数据模块204还用于将所述服务器上的业务数据存储至临时分区目录；将所述业务数据从所述临时分区目录中批量写入与所述地址对应的列式数据库的数据表中。

在一个实施例中，第二数据模块204还用于根据业务流程确定所述业务数据的查询规则；根据所述查询规则设置所述业务数据的排序字段；根据所述地址分别将所述服务器上的业务数据按照所述排序字段的先后顺序存储至与所述地址对应的列式数据库的数据表中。

所述大数据处理装置包括处理器和存储器，上述集群创建模块、第一数据模块、数据表建立模块和第二数据模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序模块中实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现上述的大数据处理方法。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述大数据处理方法。

本发明实施例提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述大数据处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、存储器(图中未示出)和数据库(图中未示出)。其中，该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A04。该非易失性存储介质A04存储有操作系统B01、计算机程序B02和数据库(图中未示出)。该内存储器A03为非易失性存储介质A04中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的数据库用于存储业务数据等。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序B02被处理器A01执行时以实现一种大数据处理方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：创建列式数据库集群，列式数据库为clickhouse；启动列式数据库的服务，并对集群进行部署配置；将产生的业务数据通过列式数据库集群的预设通道发送至对应的服务器；获取各个列式数据库的地址；根据预设业务规则在列式数据库中分别建立对应的数据表；根据地址将服务器上的业务数据分别存储至与地址对应的列式数据库的数据表中。

在一个实施例中，步骤还包括：在启动列式数据库的服务，并对集群进行部署配置之后，通过分布式处理引擎对业务数据进行数据消费，数据消费包括过滤算子、数据加工算子和写入算子中的至少一种。

在一个实施例中，步骤还包括：根据业务流程确定业务数据的查询规则；根据查询规则设置业务数据的排序字段；根据地址将服务器上的业务数据分别存储至与地址对应的列式数据库的数据表中包括：根据地址分别将服务器上的业务数据按照排序字段的先后顺序存储至与地址对应的列式数据库的数据表中。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：创建列式数据库集群，列式数据库为clickhouse；启动列式数据库的服务，并对集群进行部署配置；将产生的业务数据通过列式数据库集群的预设通道发送至对应的服务器；获取各个列式数据库的地址；根据预设业务规则在列式数据库中分别建立对应的数据表；根据地址将服务器上的业务数据分别存储至与地址对应的列式数据库的数据表中。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种大数据处理方法，其特征在于，包括：

创建列式数据库集群，所述列式数据库为clickhouse；

启动所述列式数据库的服务，并对所述集群进行部署配置；

获取各个列式数据库的地址；

2.根据权利要求1所述的大数据处理方法，其特征在于，所述创建列式数据库集群包括：

获取多个集群节点的节点信息；

根据所述节点信息搭建完全分布式系统和分布式消息系统；

对所述完全分布式系统和分布式消息系统进行环境配置。

3.根据权利要求1所述的大数据处理方法，其特征在于，所述将产生的业务数据通过所述列式数据库集群的预设通道发送至对应的服务器包括：

获取所述业务数据的数量；

根据所述业务数据的数量确定所述预设通道的开启数量。

4.根据权利要求1所述的大数据处理方法，其特征在于，所述方法还包括：

在所述启动所述列式数据库的服务，并对所述集群进行部署配置之后，通过分布式处理引擎对所述业务数据进行数据消费，所述数据消费包括过滤算子、数据加工算子和写入算子中的至少一种。

5.根据权利要求1所述的大数据处理方法，其特征在于，所述获取各个列式数据库的地址包括：

获取域名链接分布式表以获取到各个列式数据库的地址；或

通过Nginx进程获取所述列式数据库集群的IP列表，以获取到各个列式数据库的地址。

6.根据权利要求1所述的大数据处理方法，其特征在于，所述根据所述地址分别将所述服务器上的业务数据存储至与所述地址对应的列式数据库的数据表中包括：

将所述服务器上的业务数据存储至临时分区目录；

将所述业务数据从所述临时分区目录中批量写入与所述地址对应的列式数据库的数据表中。

7.根据权利要求1所述的大数据处理方法，其特征在于，所述方法还包括：

根据业务流程确定所述业务数据的查询规则；

根据所述查询规则设置所述业务数据的排序字段；

所述根据所述地址将所述服务器上的业务数据分别存储至与所述地址对应的列式数据库的数据表中包括：

根据所述地址分别将所述服务器上的业务数据按照所述排序字段的先后顺序存储至与所述地址对应的列式数据库的数据表中。

8.一种大数据处理装置，其特征在于，包括：

9.一种机器可读存储介质，该机器可读存储介质上存储有指令，其特征在于，该指令在被处理器执行时使得所述处理器被配置成执行根据权利要求1至7中任一项所述的大数据处理方法。

10.一种处理器，其特征在于，被配置成执行根据权利要求1至7中任意一项所述的大数据处理方法。