CN113064791A - 基于海量日志数据实时监控的分散标签特征提取方法 - Google Patents

基于海量日志数据实时监控的分散标签特征提取方法 Download PDF

Info

Publication number
CN113064791A
CN113064791A CN202110318883.0A CN202110318883A CN113064791A CN 113064791 A CN113064791 A CN 113064791A CN 202110318883 A CN202110318883 A CN 202110318883A CN 113064791 A CN113064791 A CN 113064791A
Authority
CN
China
Prior art keywords
log data
mass
data
monitoring
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110318883.0A
Other languages
English (en)
Inventor
王建宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bailei Technology Co ltd
Original Assignee
Shanghai Bailei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bailei Technology Co ltd filed Critical Shanghai Bailei Technology Co ltd
Priority to CN202110318883.0A priority Critical patent/CN113064791A/zh
Publication of CN113064791A publication Critical patent/CN113064791A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了基于海量日志数据实时监控的分散标签特征提取方法,包括以下步骤:S1.建立规范化的海量日志数据;S2.对海量日志数据进行处理;S3.对处理后的海量日志数据进行划分;S4.通过划分后的日志数据进行监控;S5.根据日志数据构建标签特征;S6.将标签特征中关键信息的字符串转换为正则表达式;S7.提取标签特征。本发明的提取方法,能够通过海量日志数据进行实时监控,保证了数据信息的实时性和有效性,有利于数据信息的高效检索及查询,同时基于海量日志数据,建立了软件运行中正确的标签特征,便于维护人员的人工的检查和理解,减少人工特征定义的失误,降低频繁修改的人力和时间成本。

Description

基于海量日志数据实时监控的分散标签特征提取方法
技术领域
本发明属于数据处理技术领域,具体涉及基于海量日志数据实时监控的分散标签特征提取方法。
背景技术
现代软件日益复杂,规模日益庞大,导致软件维护成本攀升。分布式及异构软件系统的广泛使用,使得人工的监控软件运行状态和发现运行故障变得极为困难。日志是软件运行时不可或缺的输出形式。为了尽早发现分布式系统的故障所在,减少潜在的宕机风险,大量的分布式系统通过实时的日志输出保存运行时软件状态,为维护人员提供数据基础,然而市面上各种的基于海量日志数据实时监控的分散标签特征提取方法仍存在各种各样的问题。
如授权公告号为CN111259917A所公开的一种基于局部近邻成分分析的图像特征提取方法,其虽然实现了可以使得同类样本的特征向量在低维空间中聚集,不同类样本的特征向量在低维空间中分散,从而使得原始数据在低维空间中具备明显的聚类结构,能够更加有效地用于图像聚类和图像检索,但是并未解决现有的基于海量日志数据实时监控的分散标签特征提取方法还存在一些问题:不能保证日志数据信息的实时性和有效性,同时不方便进行检查,为此我们提出基于海量日志数据实时监控的分散标签特征提取方法。
发明内容
本发明的目的在于提供基于海量日志数据实时监控的分散标签特征提取方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于海量日志数据实时监控的分散标签特征提取方法,包括以下步骤:
S1.建立规范化的海量日志数据;
S2.对海量日志数据进行处理;
S3.对处理后的海量日志数据进行划分;
S4.通过划分后的日志数据进行监控;
S5.根据日志数据构建标签特征;
S6.将标签特征中关键信息的字符串转换为正则表达式;
S7.提取标签特征。
优选的,所述S1中建立规范化的海量日志数据包括对于不符合格式要求的日志数据使用正则表达式进行处理和建立日志数据监控服务。
优选的,所述S1中建立规范化的海量日志数据还包括对利用Hadoop对日志数据进行数据清洗,筛选出原始数据和对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取。
优选的,所述S2中对海量日志数据进行处理的方法包括以下步骤:
S101.获取设定时间段内的日志文件,所述日志文件包括非结构化日志数据;
S102.对所述非结构化日志数据进行识别,确定与所述非结构化日志数据对应的特征值;
S103.从所述非结构化日志数据中确定出有效的非结构化日志数据;
S104.根据所述特征值,对所述有效的非结构化日志数据进行聚类,转换成M个结构化日志数据,所述M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值,其中,M为正整数。
优选的,所述S2中对海量日志数据进行处理的方法还包括:根据所述结构化日志数据中的时间戳信息,对所述M个结构化日志数据进行聚合运算,确定所述结构化数据的时序化指标,所述时序化指标用于反映所述结构化数据在单位时间内的特征。
优选的,所述S4中通过划分后的日志数据进行监控的方法包括建立采集模块、处理模块和数据监管模块,所述采集模块用于对海量日志数据进行获取,所述处理模块用于从获取的海量日志数据中提取信息,进行监控,所述数据监管模块用于启动分发任务流程、设置单独的线程进行异常问题检查、在发现设备异常时将相应任务调度至其他同级,同时利用MySQL服务机制实现分布式锁,在任务调度过程中利用获取锁提高调度效率,降低设备传输存储的资源消耗。
优选的,所述S4中通过划分后的日志数据进行监控的方法还包括建立确定模块,所述确定模块用于对获取的海量日志数据进行确定,避免数据的损失。
优选的,所述S6中将标签特征中关键信息的字符串转换为正则表达式的具体包括将所有的字符串中的字符转换成正则表达式,所有的正则表达式转变成更短的正则表达式;使用贪心算法将程序同一个状态的状态信息的正则表达式提取出最短的正则表达式。
优选的,所述S7中提取标签特征的方法包括将序列规则输出到JSON文件,JSON文件用于新的日志文件;如果当前的日志信息匹配JSON文件中的某一项,则日志对应的软件处于正常运行状态,否则认为软件出现故障或存在潜在风险。
与现有技术相比,本发明的有益效果是:本发明的提取方法,能够通过海量日志数据进行实时监控,保证了数据信息的实时性和有效性,有利于数据信息的高效检索及查询,同时基于海量日志数据,建立了软件运行中正确的标签特征,便于维护人员的人工的检查和理解,减少人工特征定义的失误,降低频繁修改的人力和时间成本。
附图说明
图1为本发明的流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,本发明提供一种技术方案:基于海量日志数据实时监控的分散标签特征提取方法,包括以下步骤:
S1.建立规范化的海量日志数据;
S2.对海量日志数据进行处理;
S3.对处理后的海量日志数据进行划分;
S4.通过划分后的日志数据进行监控;
S5.根据日志数据构建标签特征;
S6.将标签特征中关键信息的字符串转换为正则表达式;
S7.提取标签特征。
本实施例中,优选的,所述S1中建立规范化的海量日志数据包括对于不符合格式要求的日志数据使用正则表达式进行处理和建立日志数据监控服务。
本实施例中,优选的,所述S1中建立规范化的海量日志数据还包括对利用Hadoop对日志数据进行数据清洗,筛选出原始数据和对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取。
本实施例中,优选的,所述S2中对海量日志数据进行处理的方法包括以下步骤:
S101.获取设定时间段内的日志文件,所述日志文件包括非结构化日志数据;
S102.对所述非结构化日志数据进行识别,确定与所述非结构化日志数据对应的特征值;
S103.从所述非结构化日志数据中确定出有效的非结构化日志数据;
S104.根据所述特征值,对所述有效的非结构化日志数据进行聚类,转换成M个结构化日志数据,所述M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值,其中,M为正整数。
本实施例中,优选的,所述S2中对海量日志数据进行处理的方法还包括:根据所述结构化日志数据中的时间戳信息,对所述M个结构化日志数据进行聚合运算,确定所述结构化数据的时序化指标,所述时序化指标用于反映所述结构化数据在单位时间内的特征。
本实施例中,优选的,所述S4中通过划分后的日志数据进行监控的方法包括建立采集模块、处理模块和数据监管模块,所述采集模块用于对海量日志数据进行获取,所述处理模块用于从获取的海量日志数据中提取信息,进行监控,所述数据监管模块用于启动分发任务流程、设置单独的线程进行异常问题检查、在发现设备异常时将相应任务调度至其他同级,同时利用MySQL服务机制实现分布式锁,在任务调度过程中利用获取锁提高调度效率,降低设备传输存储的资源消耗。
本实施例中,优选的,所述S4中通过划分后的日志数据进行监控的方法还包括建立确定模块,所述确定模块用于对获取的海量日志数据进行确定,避免数据的损失。
本实施例中,优选的,所述S6中将标签特征中关键信息的字符串转换为正则表达式的具体包括将所有的字符串中的字符转换成正则表达式,所有的正则表达式转变成更短的正则表达式;使用贪心算法将程序同一个状态的状态信息的正则表达式提取出最短的正则表达式。
本实施例中,优选的,所述S7中提取标签特征的方法包括将序列规则输出到JSON文件,JSON文件用于新的日志文件;如果当前的日志信息匹配JSON文件中的某一项,则日志对应的软件处于正常运行状态,否则认为软件出现故障或存在潜在风险。
实施例2
请参阅图1,本发明提供一种技术方案:基于海量日志数据实时监控的分散标签特征提取方法,包括以下步骤:
S1.建立规范化的海量日志数据;
S2.对海量日志数据进行处理;
S3.对处理后的海量日志数据进行划分;
S4.通过划分后的日志数据进行监控;
S5.根据日志数据构建标签特征;
S6.将标签特征中关键信息的字符串转换为正则表达式;
S7.提取标签特征。
本实施例中,优选的,所述S1中建立规范化的海量日志数据包括对于不符合格式要求的日志数据使用正则表达式进行处理和建立日志数据监控服务。
本实施例中,优选的,所述S1中建立规范化的海量日志数据还包括对利用Hadoop对日志数据进行数据清洗,筛选出原始数据和对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取。
本实施例中,优选的,所述S2中对海量日志数据进行处理的方法包括以下步骤:
S101.获取设定时间段内的日志文件,所述日志文件包括非结构化日志数据;
S102.对所述非结构化日志数据进行识别,确定与所述非结构化日志数据对应的特征值;
S103.从所述非结构化日志数据中确定出有效的非结构化日志数据;
S104.根据所述特征值,对所述有效的非结构化日志数据进行聚类,转换成M个结构化日志数据,所述M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值,其中,M为正整数。
本实施例中,优选的,所述S4中通过划分后的日志数据进行监控的方法包括建立采集模块、处理模块和数据监管模块,所述采集模块用于对海量日志数据进行获取,所述处理模块用于从获取的海量日志数据中提取信息,进行监控,所述数据监管模块用于启动分发任务流程、设置单独的线程进行异常问题检查、在发现设备异常时将相应任务调度至其他同级,同时利用MySQL服务机制实现分布式锁,在任务调度过程中利用获取锁提高调度效率,降低设备传输存储的资源消耗。
本实施例中,优选的,所述S4中通过划分后的日志数据进行监控的方法还包括建立确定模块,所述确定模块用于对获取的海量日志数据进行确定,避免数据的损失。
本实施例中,优选的,所述S6中将标签特征中关键信息的字符串转换为正则表达式的具体包括将所有的字符串中的字符转换成正则表达式,所有的正则表达式转变成更短的正则表达式;使用贪心算法将程序同一个状态的状态信息的正则表达式提取出最短的正则表达式。
实施例3
与实施例1的不同之处在于,所述S2中对海量日志数据进行处理的方法还包括以下步骤:
S201.对海量日志数据进行实时更新;
S202.获取待更新的海量日志数据,将所述海量日志数据以json格式发送到分布式消息处理系统;
S203.分布式计算系统的每个节点从分布式消息处理系统中获取所述海量日志数据;
S204.遍历获取所述海量日志数据的json格式的数据中的key值和value值;
S205.根据S204中获取的每一key值从所述对应关系表中查找相应的数据库以及数据表;
S206.链接到S205中查找到的数据库,在相应的数据表中以S204中获取的value值作为检索条件查找获取相应的数据;
S207.将查找到的数据内容以key-value为名称重新封装成json格式的数据,将封装后的数据与所述海量日志数据的原始数据组合;
S208.将组合后的数据存储到一网络日志信息检索系统中。
本发明的工作原理及优点:本发明的提取方法,能够通过海量日志数据进行实时监控,保证了数据信息的实时性和有效性,有利于数据信息的高效检索及查询,同时基于海量日志数据,建立了软件运行中正确的标签特征,便于维护人员的人工的检查和理解,减少人工特征定义的失误,降低频繁修改的人力和时间成本。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.基于海量日志数据实时监控的分散标签特征提取方法,其特征在于:包括以下步骤:
S1.建立规范化的海量日志数据;
S2.对海量日志数据进行处理;
S3.对处理后的海量日志数据进行划分;
S4.通过划分后的日志数据进行监控;
S5.根据日志数据构建标签特征;
S6.将标签特征中关键信息的字符串转换为正则表达式;
S7.提取标签特征。
2.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法,其特征在于:所述S1中建立规范化的海量日志数据包括对于不符合格式要求的日志数据使用正则表达式进行处理和建立日志数据监控服务。
3.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法,其特征在于:所述S1中建立规范化的海量日志数据还包括对利用Hadoop对日志数据进行数据清洗,筛选出原始数据和对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取。
4.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法,其特征在于:所述S2中对海量日志数据进行处理的方法包括以下步骤:
S101.获取设定时间段内的日志文件,所述日志文件包括非结构化日志数据;
S102.对所述非结构化日志数据进行识别,确定与所述非结构化日志数据对应的特征值;
S103.从所述非结构化日志数据中确定出有效的非结构化日志数据;
S104.根据所述特征值,对所述有效的非结构化日志数据进行聚类,转换成M个结构化日志数据,所述M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值,其中,M为正整数。
5.根据权利要求4所述的基于海量日志数据实时监控的分散标签特征提取方法,其特征在于:所述S2中对海量日志数据进行处理的方法还包括:根据所述结构化日志数据中的时间戳信息,对所述M个结构化日志数据进行聚合运算,确定所述结构化数据的时序化指标,所述时序化指标用于反映所述结构化数据在单位时间内的特征。
6.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法,其特征在于:所述S4中通过划分后的日志数据进行监控的方法包括建立采集模块、处理模块和数据监管模块,所述采集模块用于对海量日志数据进行获取,所述处理模块用于从获取的海量日志数据中提取信息,进行监控,所述数据监管模块用于启动分发任务流程、设置单独的线程进行异常问题检查、在发现设备异常时将相应任务调度至其他同级,同时利用MySQL服务机制实现分布式锁,在任务调度过程中利用获取锁提高调度效率,降低设备传输存储的资源消耗。
7.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法,其特征在于:所述S4中通过划分后的日志数据进行监控的方法还包括建立确定模块,所述确定模块用于对获取的海量日志数据进行确定,避免数据的损失。
8.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法,其特征在于:所述S6中将标签特征中关键信息的字符串转换为正则表达式的具体包括将所有的字符串中的字符转换成正则表达式,所有的正则表达式转变成更短的正则表达式;使用贪心算法将程序同一个状态的状态信息的正则表达式提取出最短的正则表达式。
9.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法,其特征在于:所述S7中提取标签特征的方法包括将序列规则输出到JSON文件,JSON文件用于新的日志文件;如果当前的日志信息匹配JSON文件中的某一项,则日志对应的软件处于正常运行状态,否则认为软件出现故障或存在潜在风险。
CN202110318883.0A 2021-03-25 2021-03-25 基于海量日志数据实时监控的分散标签特征提取方法 Withdrawn CN113064791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110318883.0A CN113064791A (zh) 2021-03-25 2021-03-25 基于海量日志数据实时监控的分散标签特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110318883.0A CN113064791A (zh) 2021-03-25 2021-03-25 基于海量日志数据实时监控的分散标签特征提取方法

Publications (1)

Publication Number Publication Date
CN113064791A true CN113064791A (zh) 2021-07-02

Family

ID=76561851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110318883.0A Withdrawn CN113064791A (zh) 2021-03-25 2021-03-25 基于海量日志数据实时监控的分散标签特征提取方法

Country Status (1)

Country Link
CN (1) CN113064791A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146084A (zh) * 2022-07-14 2022-10-04 贵州电网有限责任公司 从非结构化数据获取设备故障及维修数据的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146084A (zh) * 2022-07-14 2022-10-04 贵州电网有限责任公司 从非结构化数据获取设备故障及维修数据的方法及装置
CN115146084B (zh) * 2022-07-14 2023-11-24 贵州电网有限责任公司 从非结构化数据获取设备故障及维修数据的方法及装置

Similar Documents

Publication Publication Date Title
CN111984499B (zh) 一种大数据集群的故障检测方法和装置
CN110928718B (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
CN108628929B (zh) 用于智能存档和分析的方法和装置
CN107943668A (zh) 计算机服务器集群日志监控方法及监控平台
CN112328425A (zh) 一种基于机器学习的异常检测方法和系统
CN113672743B (zh) 故障判别方法、装置、电子设备、存储介质及产品
CN111027615A (zh) 基于机器学习的中间件故障预警方法和系统
JP2017126282A (ja) 検知プログラム、検知方法および検知装置
CN115509797A (zh) 一种故障类别的确定方法、装置、设备及介质
CN107871055B (zh) 一种数据分析方法和装置
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN111339052A (zh) 一种非结构化日志数据处理方法及装置
CN117251414B (zh) 一种基于异构技术的数据存储及处理方法
CN113064791A (zh) 基于海量日志数据实时监控的分散标签特征提取方法
CN114461792A (zh) 告警事件关联方法、装置、电子设备、介质及程序产品
CN113190426B (zh) 一种大数据评分系统稳定性监控方法
Liu et al. Big Data architecture for IT incident management
CN110138583B (zh) 一种报警智能分析的展示方法
CN116471174A (zh) 一种日志数据监测系统、方法、装置和存储介质
CN116225848A (zh) 日志监测方法、装置、设备和介质
Korzeniowski et al. Discovering interactions between applications with log analysis
CN111897802B (zh) 数据库容器故障定位方法及系统
Peng et al. Research on data quality detection technology based on ubiquitous state grid internet of things platform
Zhu et al. MN-GAT: Incorporating Metric Names into Metric Correlation Graphs for Anomaly Detection
CN116149933B (zh) 一种异常日志数据确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210702