CN114860932A

CN114860932A - 一种日志信息获取和监控方法

Info

Publication number: CN114860932A
Application number: CN202210453676.0A
Authority: CN
Inventors: 张雄明
Original assignee: Fujian Caitong Information Technology Co ltd
Current assignee: Fujian Caitong Information Technology Co ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-08-05

Abstract

本发明涉及数据监测处理技术领域，具体公开了一种日志信息获取和监控方法，所述方法包括建立与日志源的连接通道，实时获取日志数据；对所述日志数据进行日志压缩、日志切割、格式整理、数据过滤及日志分类，得到冷数据和热数据；对所述冷数据存入MinIO分布式文件存储系统，将热数据存入ElasticSearch分布式搜索引擎；将ElasticSearch分布式搜索引擎中的日志数据进行冷却处理，将冷却处理后的日志数据搬迁至MinIO分布式文件存储系统。本发明能够高效对多个日志源进行采集，不丢失数据，提高日志检索的效率；通过分布式存储可以对海量数据进行存储，降低内存压力；能够对冷热数据进行及时处理，降低日志数据在检索系统上的数据，更好的提高日志检索分析效率。

Description

一种日志信息获取和监控方法

技术领域

本发明涉及数据监测处理技术领域，具体是一种日志信息获取和监控方法。

背景技术

随着云计算、移动互联网、物联网的崛起与发展，大数据的时代已经来临。大多数互联网公司每天产生的日志数据量能达到数亿这个级别，如何高效收集、管理、分析日常各项业务产生的海量数据已经成为当前急需解决的问题。

现有的海量数据处理方式主要是分布式的日志系统，这些日志系统大部分采用ELK架构，所谓ELK架构就是基于ElasticSearch、Logstash、Kibana形成的系统。其中ElasticSearch是一个开源分布式搜索引擎，提供搜集、分析、存储数据三大功能，Logstash是用来进行日志搜集、分析、过滤的工具，为一个动态数据的收集管道，Kibana是一个开源工具，可以作为ELK架构的分布式日志系统的用户界面，它将收集的数据进行可视化展示，并提供配置、管理ELK架构的界面。

但是，ELK架构没有消息队列缓存，存在数据丢失的隐患，随着系统建设，日志量将越来越多，大量的日志数据存储对磁盘资源带来了很大的挑战，现有的分布式日志都是存储在ElasticSearch内存中，这种方式虽然方便日志检索分析，但是需要很大的内存。

发明内容

本发明的目的在于提供一种日志信息获取和监控方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种日志信息获取和监控方法，所述方法包括：

建立与日志源的连接通道，实时获取日志数据；

对所述日志数据进行日志压缩、日志切割、格式整理、数据过滤及日志分类，得到冷数据和热数据；

对所述冷数据存入MinIO分布式文件存储系统，将热数据存入ElasticSearch分布式搜索引擎；

将ElasticSearch分布式搜索引擎中的日志数据进行冷却处理，将冷却处理后的日志数据搬迁至MinIO分布式文件存储系统。

作为本发明进一步的方案：所述日志源中日志数据的生成方式采用Logback异步的方式；根据logback.xml配置文件指定日志的输出级别、日志输出格式化、日志输出大小的设置。

作为本发明进一步的方案：所述日志压缩为对日志文件按预设的格式进行压缩保存；所述预设的格式包括zip格式和gz格式；

所述日志切割是对日志文件按预设的时间进行分类切割保存；所述预设的时间包括天和小时；

所述格式整理是对日志数据的输出格式进行格式化输出；

所述数据过滤是根据预设的日志过滤规则对日志数据进行过滤；

所述日志分类是基于预设的分类指标将日志数据分为冷数据和热数据；所述预设的分类指标包括时间和日志级别。

作为本发明进一步的方案：当所述分类指标为时间时，时间阈值包括最近一天、最近一周、最近一个月和最近三个月；

当所述分类指标为日志级别时，所述日志级别为预设值，按优先级从高到低依次为：OFF、FATAL、ERROR、WARN、INFO、DEBUG、TRACE和ALL。

作为本发明进一步的方案：所述ElasticSearch分布式搜索引擎基于内存的方式存储数据；根据系统预设的监控时间将过期的日志数据迁移至分布式存储系统；所述预设的监控时间包括最近10分钟、最近三十分钟、最近一小时、最近一天、最近一周和最近一个月；所述将ElasticSearch分布式搜索引擎中的日志数据进行冷却处理的步骤包括：

对Elasticsearch集群进行tag标识的设置；设置的标签包括hot和cool；

对Elasticsearch的热集群根据预设值进行配置；

定时器对热数据集群索引标记为cool；

将冷数据集群中的数据同步到minIO分布式存储中；

同步成功后将Elasticsearch的冷数据进行删除。

作为本发明进一步的方案：，所述方法还包括对ElasticSearch分布式搜索引擎中的热数据进行数据查询，并展示所述数据查询结果；所述数据查询的步骤包括根据预设的语法规则对Elasticsearch中的数据进行搜索查询；所述预设的语法规则包括语法关键字、查询词、查询域、通配符查询、模糊查询、临近查询和区间查询语法规则。

作为本发明进一步的方案：所述对ElasticSearch分布式搜索引擎中的热数据进行数据查询，并展示所述数据查询结果的步骤包括：

根据预设的语法规则所述热数据进行数据转换，得到特征信息；

将所述特征信息输入搜索引擎，获取搜索引擎反馈的搜索信息；

对所述搜索信息进行信息过滤，得到目标信息；

基于预设的展示格式对所述目标信息进行展示；其中，所述预设的展示格式包括图表、表格及地图。

作为本发明进一步的方案：所述根据预设的语法规则所述热数据进行数据转换，得到特征信息的步骤包括：

读取ElasticSearch分布式搜索引擎中的热数据，将所述热数据输入训练好的词性分析模型，得到含有词性标记的查询内容；

将所述含有词性标记的查询内容输入训练好的敏感分析模型，根据敏感分析结果对所述查询内容进行内容转换；

提取内容转换后的查询内容中的关键词，作为特征信息。

作为本发明进一步的方案：所述对所述搜索信息进行信息过滤，得到目标信息的步骤包括：

读取搜索引擎反馈的搜索信息，将所述搜索信息转换为图像数据；其中，所述图像数据与所述搜索信息之间存在映射关系；

遍历所述图像数据的所有像素点，对所述像素点进行色值归纳，得到不同色值范围对应的位置数组；

获取搜索引擎中预设的色值标记规则，基于所述色值标记规则确定待过滤色值范围；

读取所述待过滤色值范围对应的位置数组，基于所述位置数据对所述图像数据进行填充；

基于填充后的图像数据确定目标信息。

作为本发明进一步的方案：所述基于预设的展示格式对所述目标信息进行展示的步骤包括：

读取所述目标信息及其图像数据；

基于所述图像数据接收用户的指令信息，根据所述指令信息对所述图像数据进行内容标记；

基于映射关系根据含有标记内容的图像数据对所述目标信息进行分类；

将分类后的目标信息输入训练好的展示模型，得到展示文件。

与现有技术相比，本发明的有益效果是：本发明能够高效对多个日志源进行采集，不丢失数据，提高日志检索的效率；通过分布式存储可以对海量数据进行存储，降低内存压力；能够对冷热数据进行及时处理，降低日志数据在检索系统上的数据，更好的提高日志检索分析效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为日志信息获取和监控方法的流程框图。

图2为分布式日志系统的结构示意图。

图3为分布式日志系统的冷热数据迁移结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

随着云计算、移动互联网、物联网的崛起与发展，大数据的时代已经来临。有很多互联网公司每天产生的日志数据量能够达到数亿这个级别，是如何高效收集、管理、分析日常各项业务产生的海量数据已经成为当前急需解决的问题。

现有技术的分布式日志系统大部分采用ELK架构，所谓ELK架构就是基于ElasticSearch、Logstash、Kibana形成的系统。

其中，ElasticSearch是一个开源分布式搜索引擎，提供搜集、分析、存储数据三大功能；

Logstash是用来进行日志搜集、分析、过滤的工具，为一个动态数据的收集管道；

Kibana是一个开源工具，可以作为ELK架构的分布式日志系统的用户界面，它将收集的数据进行可视化展示，并提供配置、管理ELK架构的界面。

ELK架构没有消息队列缓存，存在数据丢失的隐患，随着系统建设，日志量将越来越多，大量的日志数据存储对磁盘资源带来了很大的挑战，现有的分布式日志都是存储在ElasticSearch内存中，方便日志检索分析，但需要很大的内存，没有对冷数据进行处理存储到分布式存储中，所谓冷数据就是不需要分析或者过期的日志数据。

请参阅图1至图3，本发明实施例中，一种日志信息获取和监控方法，所述方法包括：

步骤S100：建立与日志源的连接通道，实时获取日志数据；

所述日志源是日志产生的原始数据，通常会用Logback异步的方式来生成日志数据。根据logback.xml配置文件指定日志的输出级别、日志输出格式化、日志输出大小的设置。

步骤S200：对所述日志数据进行日志压缩、日志切割、格式整理、数据过滤及日志分类，得到冷数据和热数据；

步骤S200由日志采集模块完成，所述日志采集模块是与多个日志源连接的，对多个日志源进行日志压缩、日志切割、格式整理，数据过滤，及日志分类，所述日志压缩，是对日志文件按zip或者gz压缩保存；所述日志切割是对日志文件按天或者按小时时间分类切割保存；所述格式整理是对日志数据的输出格式进行格式化输出；所述数据过滤是根据日志级别或者日志过滤规则对日志进行过滤，减少垃圾及不必要的日志输出；所述日志分类，用于将日志分为冷数据和热数据；采用开源的ApacheKafka集群。

步骤S300：对所述冷数据存入MinIO分布式文件存储系统，将热数据存入ElasticSearch分布式搜索引擎；

步骤S300由日志存储模块完成，所述日志存储模块是接收来日志采集传输过来的数据，将冷数据存入MinIO分布式文件存储系统，将热数据存入ElasticSearch分布式搜索引擎。还包括述日志搬迁模块，用于将分布式搜索引擎中冷却的日志搬迁到分布式文件存储系统中。

步骤S400：将ElasticSearch分布式搜索引擎中的日志数据进行冷却处理，将冷却处理后的日志数据搬迁至MinIO分布式文件存储系统；

步骤S400由日志搬迁模块完成，所述日志搬迁模块(存储模块)是指分布式搜索引擎的数据搬迁到分布式存储系统中；ElasticSearch分布式搜索引擎是基于内存的方式存储数据的，当日志数据越来越多的时间，就要根据系统预设的监控数据，对过期的日志数据迁移到分布式存储系统中，所述预设值是根据监控时段来的，可以为最近10分钟、最近三十分钟、最近一小时、最近一天、最近一周、最近一个月及自定义来将分布式搜索引擎的热数据进行冷数据处理。

作为本发明技术方案的一个优选实施例，所述日志压缩为对日志文件按预设的格式进行压缩保存；所述预设的格式包括zip格式和gz格式；

所述格式整理是对日志数据的输出格式进行格式化输出；

进一步的，当所述分类指标为时间时，时间阈值包括最近一天、最近一周、最近一个月和最近三个月；

其中，各级别含义如下：

ALL：最低等级的，用于打开所有日志记录。

TRACE：很低的日志级别，一般不会使用。

DEBUG：指出细粒度信息事件对调试应用程序是非常有帮助的，主要用于开发过程中打印一些运行信息。

INFO：消息在粗粒度级别上突出强调应用程序的运行过程。打印一些你感兴趣的或者重要的信息，这个可以用于生产环境中输出程序运行的一些重要信息，但是不能滥用，避免打印过多的日志。

WARN：表明会出现潜在错误的情形，有些信息不是错误信息，但是也要给程序员的一些提示。

ERROR：指出虽然发生错误事件，但仍然不影响系统的继续运行。打印错误和异常信息，如果不想输出太多的日志，可以使用这个级别。

FATAL：指出每个严重的错误事件将会导致应用程序的退出。这个级别比较高了。重大错误，这种级别你可以直接停止程序了。

OFF：最高等级的，用于关闭所有日志记录。

作为本发明技术方案的一个优选实施例，所述ElasticSearch分布式搜索引擎基于内存的方式存储数据；根据系统预设的监控时间将过期的日志数据迁移至分布式存储系统；所述预设的监控时间包括最近10分钟、最近三十分钟、最近一小时、最近一天、最近一周和最近一个月；所述将ElasticSearch分布式搜索引擎中的日志数据进行冷却处理的步骤包括：

对Elasticsearch的热集群根据预设值进行配置；

定时器对热数据集群索引标记为cool；

将冷数据集群中的数据同步到minIO分布式存储中；

同步成功后将Elasticsearch的冷数据进行删除。

实施例2

如图1所示，与实施例1不同的是，本发明实施例中，一种日志信息获取和监控方法，所述方法还包括对ElasticSearch分布式搜索引擎中的热数据进行数据查询，并展示所述数据查询结果；所述数据查询的步骤包括根据预设的语法规则对Elasticsearch中的数据进行搜索查询；所述预设的语法规则包括语法关键字、查询词、查询域、通配符查询、模糊查询、临近查询和区间查询语法规则。

上述内容由日志分析模块完成，所述日志分析模块是对Elasticsearch中的数据进行语法关键字、查询词、查询域、通配符查询、模糊查询、临近查询、区间查询等语法规则进行搜索查询。您可以很方便的通过Kibana利用图表、表格及地图对数据进行多元化的分析和呈现。

作为本发明技术方案的一个优选实施例，所述对ElasticSearch分布式搜索引擎中的热数据进行数据查询，并展示所述数据查询结果的步骤包括：

对所述搜索信息进行信息过滤，得到目标信息；

上述内容提供了一种具体的数据查询技术方案，首先，提取热数据中的“重点”，也就是特征信息，然后借助搜索引擎对所述特征信息进行搜索，得到搜索引擎反馈的搜索信息，对所述搜索信息进行过滤，可以得到目标信息；最后，展示的内容就是所述目标信息。

进一步的，所述根据预设的语法规则所述热数据进行数据转换，得到特征信息的步骤包括：

提取内容转换后的查询内容中的关键词，作为特征信息。

对热数据进行数据转换的过程是基于预设的语法规则的，值得一提的是，在这一过程中，增设了敏感分析过程，主要目的是剔除热数据中的一些违规数据，这些数据不具备搜索价值。敏感分析的步骤首先是对热数据进行词性分析，词性分析只是对某个词进行归类，不同类的词对应的参考敏感库是不同的，经过分类之后，可以有效提高敏感分析效率。

具体的，所述对所述搜索信息进行信息过滤，得到目标信息的步骤包括：

基于填充后的图像数据确定目标信息。

上述内容对信息过滤的过程进行了具体的限定，将搜索引擎反馈的搜索信息转换为图像数据，现有的搜索引擎(浏览器搜索引擎)对于不同格式的内容都会用不同的色值进行标记，因此，对所述图像数据进行色值识别，即可对不同内容进行有效区分。具体的区分过程为：

读取搜索引擎中预设的色值标记规则，对色值标记规则进行色值扩充，得到一个色值范围，根据所述色值范围可以在所述搜索引擎中确定不同色值范围对应的像素点，也就是位置数据，基于位置数据对所述图像数据进行填充的具体实施方式有很多，比如，对于一些广告内容，可以直接用背景色进行填充，这就实现了广告过滤的功能。

对于填充后的图像数据，还要再次转换为搜索信息，由于填充过程并不复杂，由图像数据转换为搜索信息的过程仅需要考虑填充部分即可，以背景填充的填充方式为例，只需在搜索信息中删除填充区域对应的内容即可。

作为本发明技术方案的一个优选实施例，所述基于预设的展示格式对所述目标信息进行展示的步骤包括：

读取所述目标信息及其图像数据；

上述内容对展示过程进行了具体的限定，展示过程并不复杂，核心思想就是基于用户的指令对图像数据进行标记，根据标记结果对目标信息进行分类，不同类的目标信息，展示的方式自然是不同的。

更进一步的，用户的指令信息可以是触屏信息，根据触屏信息生成标记区域的过程如下：

实时获取图像，接收用户触屏信号，获取第一触屏点；

获取第二触屏点，基于第二触屏点和第一触屏点计算区域半径；

基于所述第一触屏点和所述区域半径获取成圆像素点；

基于所述成圆像素点确认核心区域，并生成区域标记。

上述内容中，确定的核心区域是圆形的，圆形区域是最简单，最易实现的一种区域；圆心确认的要素正常来说是三点，但是如果知道一点是圆心的话，两点即可。

基于第二触屏点和第一触屏点可以计算出区域半径，进而可以确定一个圆，其中，需要获取两个点，两个点获取的具体实现有很多，甚至是用户的手在屏幕上划动一下，截取首尾两点两点来确定核心区域也是可行的技术方案。

所述日志信息获取和监控方法所能实现的功能均由计算机设备完成，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现所述日志信息获取和监控方法的功能。

处理器从存储器中逐条取出指令、分析指令，然后根据指令要求完成相应操作，产生一系列控制命令，使计算机各部分自动、连续并协调动作，成为一个有机的整体，实现程序的输入、数据的输入以及运算并输出结果，这一过程中产生的算术运算或逻辑运算均由运算器完成；所述存储器包括只读存储器(Read－Only Memory，ROM)，所述只读存储器用于存储计算机程序，所述存储器外部设有保护装置。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

本领域技术人员可以理解，上述服务设备的描述仅仅是示例，并不构成对终端设备的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，上述处理器是上述终端设备的控制中心，利用各种接口和线路连接整个用户终端的各个部分。

上述存储器可用于存储计算机程序和/或模块，上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等；存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例系统中的全部或部分模块/单元，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个系统实施例的功能。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read－Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种日志信息获取和监控方法，其特征在于，所述方法包括：

建立与日志源的连接通道，实时获取日志数据；

2.根据权利要求1所述的日志信息获取和监控方法，其特征在于，所述日志源中日志数据的生成方式采用Logback异步的方式；根据logback.xml配置文件指定日志的输出级别、日志输出格式化、日志输出大小的设置。

3.根据权利要求1所述的日志信息获取和监控方法，其特征在于，所述日志压缩为对日志文件按预设的格式进行压缩保存；所述预设的格式包括zip格式和gz格式；

所述格式整理是对日志数据的输出格式进行格式化输出；

4.根据权利要求1所述的日志信息获取和监控方法，其特征在于，当所述分类指标为时间时，时间阈值包括最近一天、最近一周、最近一个月和最近三个月；

5.根据权利要求1所述的日志信息获取和监控方法，其特征在于，所述ElasticSearch分布式搜索引擎基于内存的方式存储数据；根据系统预设的监控时间将过期的日志数据迁移至分布式存储系统；所述预设的监控时间包括最近10分钟、最近三十分钟、最近一小时、最近一天、最近一周和最近一个月；所述将ElasticSearch分布式搜索引擎中的日志数据进行冷却处理的步骤包括：

对Elasticsearch的热集群根据预设值进行配置；

定时器对热数据集群索引标记为cool；

将冷数据集群中的数据同步到minIO分布式存储中；

同步成功后将Elasticsearch的冷数据进行删除。

6.根据权利要求1所述的日志信息获取和监控方法，其特征在于，所述方法还包括对ElasticSearch分布式搜索引擎中的热数据进行数据查询，并展示所述数据查询结果；所述数据查询的步骤包括根据预设的语法规则对Elasticsearch中的数据进行搜索查询；所述预设的语法规则包括语法关键字、查询词、查询域、通配符查询、模糊查询、临近查询和区间查询语法规则。

7.根据权利要求6所述的日志信息获取和监控方法，其特征在于，所述对ElasticSearch分布式搜索引擎中的热数据进行数据查询，并展示所述数据查询结果的步骤包括：

对所述搜索信息进行信息过滤，得到目标信息；

8.根据权利要求7所述的日志信息获取和监控方法，其特征在于，所述根据预设的语法规则所述热数据进行数据转换，得到特征信息的步骤包括：

提取内容转换后的查询内容中的关键词，作为特征信息。

9.根据权利要求7所述的日志信息获取和监控方法，其特征在于，所述对所述搜索信息进行信息过滤，得到目标信息的步骤包括：

基于填充后的图像数据确定目标信息。

10.根据权利要求9所述的日志信息获取和监控方法，其特征在于，所述基于预设的展示格式对所述目标信息进行展示的步骤包括：

读取所述目标信息及其图像数据；