CN112100197A

CN112100197A - 基于Elasticsearch的准实时日志数据分析与统计方法

Info

Publication number: CN112100197A
Application number: CN202010756301.2A
Authority: CN
Inventors: 娄景贤
Original assignee: Unicloud Nanjing Digital Technology Co Ltd
Current assignee: Unicloud Nanjing Digital Technology Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-12-18
Anticipated expiration: 2040-07-31
Also published as: CN112100197B

Abstract

本发明公开了基于Elasticsearch的准实时日志数据分析与统计方法，包括S1、将Elasticsearch集群进行分布式储存；S2、采用Elasticsearch集群进行写数据；S3、采用Elasticsearch集群对数据进行读取。有益效果：本发明能够分片式储存、高效的查询，能够支持接近实时的搜索，同时，分布式不熟不需要其他组件，与横向的扩展，也支持插件开发模式，具有丰富的开源插件库，随着数据量的增加，也不会降低查询的效率，能够适用于数据实时搜索，实时变化更新等场景下的数据统计与查询。

Description

基于Elasticsearch的准实时日志数据分析与统计方法

技术领域

本发明涉及Elasticsearch的准实时日志数据分析与统计方法领域，具体来说，涉及基于Elasticsearch的准实时日志数据分析与统计方法。

背景技术

随着移动互联网、云计算、移动通信、物联网等新兴信息通信技术的飞速发展，导致数据流量爆炸式增长，数据结构也日趋复杂化，信息社会进入了网络化的大数据时代，社交网络、电子商务、移动通信、物联网技术等商业应用产生了交易数据、交互数据、传感数据与日志数据等多样化的数据，这些数据具有海量、类型繁多、增长迅速、价值巨大等特征，同时，又具有很高的复杂性，并且充满变化。如果对海量的数据进行分析处理，将数据中的离散信息进行聚合分析统计，发掘数据的潜在价值，成为了当今时代我们必须面对的问题。

本发明是基于Elasticsearch(弹性搜索，简称为ES)的实时日志数据分析与统计方法，与该技术相近的就是基于solr的搜索引擎技术，solr目前在实时建立索引时，会产生IO阻塞，实时查询效率较低，而且随着数据量的增加solr的查询效率还会降低，不能适用于数据实时搜索，实时变化更新等场景下进行数据统计分析与查询。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出基于Elasticsearch的准实时日志数据分析与统计方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

基于Elasticsearch的准实时日志数据分析与统计方法，包括：

S1、将Elasticsearch集群进行分布式储存；

S2、采用Elasticsearch集群进行写数据；

S3、采用Elasticsearch集群对数据进行读取。

进一步的，将Elasticsearch集群进行分布式储存的步骤还包括：

S11、系统访问日志的采集；

S12、将日志通过采集程序采集的所有的边缘的CDN(Content DeliveryNetwork，即内容分发网络)缓存节点保存至输出目录中；

S13、日志数据进入异步队列；

S14、通过日志服务器，将在S102目录中获取的压缩日志文件复制到解压目录；

S15、将压缩日志文件进行解压的同时，读取日志文件内容；

S16、将日志文件进行解压及读取的信息发送到消息队列集群；

S16、通过SPARK STREAM(火花流)以五分钟为时间节点进行集群运算。

进一步的，将日志通过采集程序采集的所有CDN缓存节点保存至输出目录中的步骤还包括：

S121、将日志通过采集程序采集的所有的边缘的CDN缓存节点汇集至日志接收服务器；

S122、将日志接收服务器接收的CDN缓存节点以压缩文件的形式保存至输出目录。

进一步的，通过SPARK STREAM以五分钟为时间节点进行集群运算的步骤还包括：

将消息队列中获取的未经处理的原始数据，按照原始日志的时间进行排序、打包及压缩，并以五分钟为一个数据文件存储至HDFS(高密度光纤)集群中；

其中，消息队列可保存三天的数据量；

将待写入Elasticsearch集群的数据使用SPARK进行聚集运算，并依据业务类型的需要，将时间节点中的日志以不同维度进行聚集统计。

进一步的，采用Elasticsearch集群进行写数据的步骤还包括：

S21、依据业务类型的需要，将待写入Elasticsearch集群的数据进行命名Elasticsearch索引并创建；

S22、将S16中对时间节点的日志进行不同维度的聚集统计的数据对应S21中的索引名称，选择Elasticsearch的集群中的一个节点写入；

S23、Elasticsearch集群数据更新。

进一步的，依据业务类型的需要，将待写入Elasticsearch集群的数据进行命名Elasticsearch索引并创建的步骤还包括：

Elasticsearch将数据存储于一个或多个索引中；

一个Elasticsearch集群可依据需要创建任意数目的索引，且索引名称必须采用全小写字符进行标识；

通过引用上述的全小写字符完成文档的创建、搜索、更新及删除。

进一步的，将S16中对时间节点的日志进行不同维度的聚集统计的数据对应S21中的索引名称，选择Elasticsearch的集群中的一个节点写入的步骤还包括：

将Elasticsearch的集群中的一个写入节点变为协调节点；

通过将数据路由置对应经过哈希算法计算的各个数据所属分片写入主分片；

将主分片数据同步至其他节点副本分片中。

进一步的，Elasticsearch集群数据更新的步骤还包括：通过SPARK根据日志时间、域名、客户ID信息，在日志上传后，拼接key值，写入Elasticsearch集群的方式，解决五分钟时间节点延时造成的部分节点数据未及时上传而引起的计费数据缺失的问题。

进一步的，采用Elasticsearch集群对数据进行读取的步骤还包括：

S31、用户通过WEB界面输入查询条件；

S32、后台程序将接收的客户的查询条件传送给Elasticsearch集群；

S33、Elasticsearch集群通过查询条件进行结构化查询；

S34、将客户端选择的一个节点发送的搜索条件中的节点变为协调节点；

S35、将搜索内容分发至所有分片，且轮询选择主分片或者副本分片；

S36、每个分片查询本分片中符合条件的数据，并将查询结果返回至协调节点，且查询结果主要为文档ID；

S37、协调节点将返回数据进行汇总、排序及分页后，依据文档ID取各节点分片拉取的实时数据返回至后台程序；

S38、后台程序将接收的数据进行筛选组合并重新排序后，返回至WEB终端。

进一步的，查询条件包括精确查询条件、范围查询条件及聚合查询条件。

本发明的有益效果为：

1、与现有的solr相比，本发明能够分片式储存、高效的查询，能够支持接近实时的搜索，同时，分布式不熟不需要其他组件，与横向的扩展，也支持插件开发模式，具有丰富的开源插件库，随着数据量的增加，也不会降低查询的效率，能够适用于数据实时搜索，实时变化更新等场景下的数据统计与查询。

2、本发明通过设置分布式日志的采集与汇总计算，解决了分布式实时体质数据在时间窗口内缺失的问题。一方面支持DSL语句查询，可扩展实现类似SQL语法的查询，另一方面支持ES集群实现接近实时的复杂查询，集群分片储存相互备份，提供副本机制，一个分片可以设置多个副本，个别服务器宕机不会影响集群工作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的基于Elasticsearch的准实时日志数据分析与统计方法的流程图；

图2是根据本发明实施例的基于Elasticsearch的准实时日志数据分析与统计方法的ES集群分布式储存流程图；

图3是根据本发明实施例的基于Elasticsearch的准实时日志数据分析与统计方法的ES集群写数据流程图；

图4是根据本发明实施例的基于Elasticsearch的准实时日志数据分析与统计方法的ES集群读取数据流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了基于Elasticsearch的准实时日志数据分析与统计方法。

现结合附图和具体实施方式对本发明进一步说明，如图1-4所示，根据本发明实施例的基于Elasticsearch的准实时日志数据分析与统计方法，包括：

S1、将Elasticsearch集群进行分布式储存；

S2、采用Elasticsearch集群进行写数据；

S3、采用Elasticsearch集群对数据进行读取。

在一个实例中，将Elasticsearch集群进行分布式储存的步骤还包括：

S11、系统访问日志的采集；

S12、将日志通过采集程序采集的所有的边缘的CDN缓存节点保存至输出目录中；

S13、日志数据进入异步队列；

S15、将压缩日志文件进行解压的同时，读取日志文件内容；

S16、通过SPARK STREAM以五分钟为时间节点进行集群运算。

在一个实例中，将日志通过采集程序采集的所有CDN缓存节点保存至输出目录中的步骤还包括：

在一个实例中，通过SPARK STREAM以五分钟为时间节点进行集群运算的步骤还包括：

将消息队列中获取的未经处理的原始数据，按照原始日志的时间进行排序、打包及压缩，并以五分钟为一个数据文件存储至HDFS集群中；

其中，消息队列可保存三天的数据量；

在一个实例中，采用Elasticsearch集群进行写数据的步骤还包括：

S23、Elasticsearch集群数据更新。

在一个实例中，依据业务类型的需要，将待写入Elasticsearch集群的数据进行命名Elasticsearch索引并创建的步骤还包括：

Elasticsearch将数据存储于一个或多个索引中；

在一个实例中，将S16中对时间节点的日志进行不同维度的聚集统计的数据对应S21中的索引名称，选择Elasticsearch的集群中的一个节点写入的步骤还包括：

将Elasticsearch的集群中的一个写入节点变为协调节点；

将主分片数据同步至其他节点副本分片中。

在一个实例中，Elasticsearch集群数据更新的步骤还包括：通过SPARK根据日志时间、域名、客户ID信息，在日志上传后，拼接key值，写入Elasticsearch集群的方式，解决五分钟时间节点延时造成的部分节点数据未及时上传而引起的计费数据缺失的问题。

在一个实例中，采用Elasticsearch集群对数据进行读取的步骤还包括：

S31、用户通过WEB界面输入查询条件；

S33、Elasticsearch集群通过查询条件进行结构化查询；

在一个实例中，查询条件包括精确查询条件、范围查询条件及聚合查询条件。

综上所述，借助于本发明的上述技术方案，与现有的solr相比，本发明能够分片式储存、高效的查询，能够支持接近实时的搜索，同时，分布式不熟不需要其他组件，与横向的扩展，也支持插件开发模式，具有丰富的开源插件库，随着数据量的增加，也不会降低查询的效率，能够适用于数据实时搜索，实时变化更新等场景下的数据统计与查询。本发明通过设置分布式日志的采集与汇总计算，解决了分布式实时体质数据在时间窗口内缺失的问题。一方面支持DSL语句查询，可扩展实现类似SQL语法的查询，另一方面支持ES集群实现接近实时的复杂查询，集群分片储存相互备份，提供副本机制，一个分片可以设置多个副本，个别服务器宕机不会影响集群工作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于Elasticsearch的准实时日志数据分析与统计方法，其特征在于，包括：

S1、将Elasticsearch集群进行分布式储存；

S2、采用Elasticsearch集群进行写数据；

S3、采用Elasticsearch集群对数据进行读取。

2.根据权利要求1所述的基于Elasticsearch的准实时日志数据分析与统计方法，其特征在于，所述将Elasticsearch集群进行分布式储存的步骤还包括：

S11、系统访问日志的采集；

S13、日志数据进入异步队列；

S15、将压缩日志文件进行解压的同时，读取日志文件内容；

S16、通过SPARK STREAM以五分钟为时间节点进行集群运算。

3.根据权利要求2所述的基于Elasticsearch的准实时日志数据分析与统计方法，其特征在于，所述将日志通过采集程序采集的所有CDN缓存节点保存至输出目录中的步骤还包括：

4.根据权利要求2所述的基于Elasticsearch的准实时日志数据分析与统计方法，其特征在于，所述通过SPARK STREAM以五分钟为时间节点进行集群运算的步骤还包括：

其中，所述消息队列可保存三天的数据量；

5.根据权利要求4所述的基于Elasticsearch的准实时日志数据分析与统计方法，其特征在于，所述采用Elasticsearch集群进行写数据的步骤还包括：

S23、Elasticsearch集群数据更新。

6.根据权利要求5所述的基于Elasticsearch的准实时日志数据分析与统计方法，其特征在于，所述依据业务类型的需要，将待写入Elasticsearch集群的数据进行命名Elasticsearch索引并创建的步骤还包括：

Elasticsearch将数据存储于一个或多个索引中；

7.根据权利要求5所述的基于Elasticsearch的准实时日志数据分析与统计方法，其特征在于，所述将S16中对时间节点的日志进行不同维度的聚集统计的数据对应S21中的索引名称，选择Elasticsearch的集群中的一个节点写入的步骤还包括：

将Elasticsearch的集群中的一个写入节点变为协调节点；

将主分片数据同步至其他节点副本分片中。

8.根据权利要求5所述的基于Elasticsearch的准实时日志数据分析与统计方法，其特征在于，所述Elasticsearch集群数据更新的步骤还包括：通过SPARK根据日志时间、域名、客户ID信息，在日志上传后，拼接key值，写入Elasticsearch集群的方式，解决五分钟时间节点延时造成的部分节点数据未及时上传而引起的计费数据缺失的问题。

9.根据权利要求1所述的基于Elasticsearch的准实时日志数据分析与统计方法，其特征在于，所述采用Elasticsearch集群对数据进行读取的步骤还包括：

S31、用户通过WEB界面输入查询条件；

S33、Elasticsearch集群通过查询条件进行结构化查询；

10.根据权利要求9所述的基于Elasticsearch的准实时日志数据分析与统计方法，其特征在于，所述查询条件包括精确查询条件、范围查询条件及聚合查询条件。