CN115587158A - 基于可视化配置的日志数据转换方法及系统 - Google Patents

基于可视化配置的日志数据转换方法及系统 Download PDF

Info

Publication number
CN115587158A
CN115587158A CN202211568180.4A CN202211568180A CN115587158A CN 115587158 A CN115587158 A CN 115587158A CN 202211568180 A CN202211568180 A CN 202211568180A CN 115587158 A CN115587158 A CN 115587158A
Authority
CN
China
Prior art keywords
text
log
model
effective
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211568180.4A
Other languages
English (en)
Other versions
CN115587158B (zh
Inventor
张广峰
安基海
谢勇为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Mingyang Information Technology Co ltd
Original Assignee
Guangdong Mingyang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Mingyang Information Technology Co ltd filed Critical Guangdong Mingyang Information Technology Co ltd
Priority to CN202211568180.4A priority Critical patent/CN115587158B/zh
Publication of CN115587158A publication Critical patent/CN115587158A/zh
Application granted granted Critical
Publication of CN115587158B publication Critical patent/CN115587158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数据处理技术领域,尤其涉及基于可视化配置的日志数据转换方法及系统,所述方法包括:获取待转换日志文件,构建可视化配置规则数据库;将待转换日志文件通过不同的文本读取软件打开,提取待识别文本,根据待识别文本确定有效日志文本;对有效日志文本进行字符提取和文字提取,构建可视化文本模型;检索可视化配置规则数据库,调取对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。本发明根据文字与字符识别当前日志的格式与内容,查询预设的可视化配置规则,根据对应的可视化配置规则对有效日志文本进行结构化处理,得到结构化日志文本,实现了日志数据的格式统一。

Description

基于可视化配置的日志数据转换方法及系统
技术领域
本发明属于数据处理技术领域,尤其涉及基于可视化配置的日志数据转换方法及系统。
背景技术
日志文件是用于记录系统操作事件的记录文件或文件集合,可分为事件日志和消息日志,具有处理历史数据、诊断问题的追踪以及理解系统的活动等重要作用。
可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术,它涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。
目前为止,日志数据的格式很多,差异较大,日志内容只能通过人工识别,难以实现日志的自动化识别。
发明内容
本发明实施例的目的在于提供基于可视化配置的日志数据转换方法,旨在解决日志数据的格式很多,差异较大,日志内容只能通过人工识别,难以实现日志的自动化识别的问题。
本发明实施例是这样实现的,一种基于可视化配置的日志数据转换方法,所述方法包括:
获取待转换日志文件,构建可视化配置规则数据库;
将待转换日志文件通过不同的文本读取软件打开,提取待识别文本,根据待识别文本确定有效日志文本;
对有效日志文本进行字符提取和文字提取,构建可视化文本模型;
根据可视化文本模型检索可视化配置规则数据库,调取对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
优选的,所述将待转换日志文件通过不同的文本读取软件打开,提取待识别文本,根据待识别文本确定有效日志文本的步骤,具体包括:
将待转换日志文件通过不同的文本读取软件打开,对文本读取软件显示的文本进行复制,得到待识别文本;
从待识别文本中随机截取多个文本段落,对每个文本段落进行字符统计,得到字符统计结果,所述字符统计结果包含汉字统计结果和英文字母统计结果;
根据汉字统计结果和英文字母统计结果从待识别文本中筛选得到有效日志文本。
优选的,所述对有效日志文本进行字符提取和文字提取,构建可视化文本模型的步骤,具体包括:
对有效日志文本进行字符提取和文字提取,得到待分析词组和待分析字符串;
根据待分析词组和待分析字符串查询预设的关键字数据库,得到各个有效日志文本对应的有效关键字;
调取预设的空白模型,根据有效关键字对空白模型进行填充,得到可视化文本模型,所述可视化文本模型为由多个单元格组成的图像,每一个单元格对应一个关键字,单元格通过两种颜色进行标记。
优选的,所述根据可视化文本模型检索可视化配置规则数据库,调取对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本的步骤,具体包括:
查询可视化配置规则数据库,调取其中所有的标准模型;
计算标准模型与可视化文本模型之间的匹配度,根据匹配度对标准模型进行排序,选择匹配度最高的标准模型;
查询该标准模型对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
优选的,所述对有效日志文本进行字符提取和文字提取的步骤中,对预设字符之间的文本和字符进行提取。
优选的,所述匹配度为可视化文本模型对应的图像与标准模型对应的图像的像素重合率。
本发明实施例的另一目的在于提供一种基于可视化配置的日志数据转换系统,所述系统包括:
数据获取模块,用于获取待转换日志文件,构建可视化配置规则数据库;
文本格式识别模块,用于将待转换日志文件通过不同的文本读取软件打开,提取待识别文本,根据待识别文本确定有效日志文本;
文本模型构建模块,用于对有效日志文本进行字符提取和文字提取,构建可视化文本模型;
日志结构化模块,用于根据可视化文本模型检索可视化配置规则数据库,调取对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
优选的,所述文本格式识别模块包括:
文本提取单元,用于将待转换日志文件通过不同的文本读取软件打开,对文本读取软件显示的文本进行复制,得到待识别文本;
段落截取单元,用于从待识别文本中随机截取多个文本段落,对每个文本段落进行字符统计,得到字符统计结果,所述字符统计结果包含汉字统计结果和英文字母统计结果;
日志筛选单元,用于根据汉字统计结果和英文字母统计结果从待识别文本中筛选得到有效日志文本。
优选的,所述文本模型构建模块包括:
信息提取单元,用于对有效日志文本进行字符提取和文字提取,得到待分析词组和待分析字符串;
关键字识别单元,用于根据待分析词组和待分析字符串查询预设的关键字数据库,得到各个有效日志文本对应的有效关键字;
模型可视化单元,用于调取预设的空白模型,根据有效关键字对空白模型进行填充,得到可视化文本模型,所述可视化文本模型为由多个单元格组成的图像,每一个单元格对应一个关键字,单元格通过两种颜色进行标记。
优选的,所述日志结构化模块包括:
模型查询单元,用于查询可视化配置规则数据库,调取其中所有的标准模型;
匹配度计算单元,用于计算标准模型与可视化文本模型之间的匹配度,根据匹配度对标准模型进行排序,选择匹配度最高的标准模型;
结构化单元,用于查询该标准模型对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
本发明实施例提供的一种基于可视化配置的日志数据转换方法,通过对各种日志文件进行采集,从而对其中包含的文本内容进行分析,识别其中包含的文字与字符,根据文字与字符识别当前日志的格式与内容,查询预设的可视化配置规则,根据对应的可视化配置规则对有效日志文本进行结构化处理,得到结构化日志文本,实现了日志数据的格式统一。
附图说明
图1为本发明实施例提供的一种基于可视化配置的日志数据转换方法的流程图;
图2为本发明实施例提供的将待转换日志文件通过不同的文本读取软件打开,提取待识别文本,根据待识别文本确定有效日志文本的步骤的流程图;
图3为本发明实施例提供的对有效日志文本进行字符提取和文字提取,构建可视化文本模型的步骤的流程图;
图4为本发明实施例提供的根据可视化文本模型检索可视化配置规则数据库,调取对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本的步骤的流程图;
图5为本发明实施例提供的一种基于可视化配置的日志数据转换系统的架构图;
图6为本发明实施例提供的一种文本格式识别模块的架构图;
图7为本发明实施例提供的一种文本模型构建模块的架构图;
图8为本发明实施例提供的一种日志结构化模块的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如图1所示,为本发明实施例提供的一种基于可视化配置的日志数据转换方法的流程图,所述方法包括:
S100,获取待转换日志文件,构建可视化配置规则数据库。
在本步骤中,获取待转换日志文件,在得到待转换日志文件时,由于不同软件或者系统产生的日志文件格式不同,因此无法直接通过机器识别其中包含的实际内容,需要对其进行格式统一处理,才能通过机器对其进行识别,换言之,日志文件中的文本是用于工作人员进行查看的,而并非机器语言,因此要想让机器能够识别日志内容,则需要对其进行转换,构建可视化配置规则数据库,在可视化配置规则数据库中则记录了不同格式之间的转化规则,因此,在确定日志文本的内容之后,可以根据转化规则进行转换,将日志文本进行结构化处理。
S200,将待转换日志文件通过不同的文本读取软件打开,提取待识别文本,根据待识别文本确定有效日志文本。
在本步骤中,将待转换日志文件通过不同的文本读取软件打开,对于同一个待转换日志文件,其通过不同的软件打开可能存在不同的显示结果,为了保证提取得到的文本是正确的,需要选择正确的软件对其进行显示,具体的,将待转换日志文件同时导入到多个文本读取软件中,提取待识别文本,根据待识别文本中文字以及字符内容确定文本是否正确,是否存在乱码的情况,如文字中出现非常见文字,非常见字符,对于常见字符和常见汉字进行划分,因此,可以根据文字以及字符内容进行查询,若其包含在常见字符和常见汉字中,则为显示正常,此时即得到有效日志文本,反之,文本中文字以及字符内容杂乱,且以非常见文字,非常见字符为主,并且文本无实际意义,则将其划分为无效文本。
S300,对有效日志文本进行字符提取和文字提取,构建可视化文本模型。
在本步骤中,对有效日志文本进行字符提取和文字提取,在经过对文本进行识别之后,可以确定当前文本显示正常,因此需要进一步确定该文本中日志记载的格式,具体的,可以构建空白模型,空白模型为空白图片,其由多个空白的单元格构成,对有效日志文本进行关键字提取,从而根据出现的关键字对各个空白的单元格进行填充,从而得到具体的可视化文本模型。
S400,根据可视化文本模型检索可视化配置规则数据库,调取对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
在本步骤中,根据可视化文本模型检索可视化配置规则数据库,在可视化配置规则数据库中,针对所有类型的日志文本格式均设置有对应的文本转换规则,据此可以实现日志文本的结构化处理,根据可视化文本模型进行检索,检索得到对应的标准模型,每一个标准模型对应有一个转化规则,因此通过计算标准模型与可视化文本模型之间的匹配关系即可确定可视化文本模型与转化规则之间的对应关系,确定转换规则之后,对有效日志文本进行转化,得到结构化日志文本。
如图2所示,作为本发明的一个优选实施例,所述将待转换日志文件通过不同的文本读取软件打开,提取待识别文本,根据待识别文本确定有效日志文本的步骤,具体包括:
S201,将待转换日志文件通过不同的文本读取软件打开,对文本读取软件显示的文本进行复制,得到待识别文本。
在本步骤中,将待转换日志文件通过不同的文本读取软件打开,每打开一个文本读取软件,对改文本读取软件显示的文本进行复制,将其复制到单独的文本当中,以得到待识别文本。
S202,从待识别文本中随机截取多个文本段落,对每个文本段落进行字符统计,得到字符统计结果,所述字符统计结果包含汉字统计结果和英文字母统计结果。
在本步骤中,从待识别文本中随机截取多个文本段落,每个文本段落中包含的字符数量大于预设值,如每个文本段落中至少包含500个字节的字符,进而统计其中包含的汉字以及英文字母。
S203,根据汉字统计结果和英文字母统计结果从待识别文本中筛选得到有效日志文本。
在本步骤中,根据汉字统计结果和英文字母统计结果进行判别,提取其中包含的汉字,判定汉字是否为常见字符,若汉字为常见字符的比例超过预设值,且有英文子母组成的词组能够被识别的比例超过预设值,则判定该待识别文本为有效日志文本,如汉字统计结果包含100个汉字,其中98个汉字为常见字符,则对应的比例为98%,而英文字母统计结果中组成的词组数量为100个,其中仅有95个具有具体含义,则对应的比例为95%,若上述两组预设值均为90%,则该该待识别文本为有效日志文本。
如图3所示,作为本发明的一个优选实施例,所述对有效日志文本进行字符提取和文字提取,构建可视化文本模型的步骤,具体包括:
S301,对有效日志文本进行字符提取和文字提取,得到待分析词组和待分析字符串。
在本步骤中,对有效日志文本进行字符提取和文字提取,其中字符包括英文字母、常见符号(如句号“。”,逗号“,”等)、特殊符号(如回车符号,竖线“|”等)以及汉字,通过常见符号和特殊符号对有效日志文本中的文本进行划分,得到待分析词组和待分析字符串,待分析词组为汉字词组,待分析字符串则为英文词组。
S302,根据待分析词组和待分析字符串查询预设的关键字数据库,得到各个有效日志文本对应的有效关键字。
在本步骤中,根据待分析词组和待分析字符串查询预设的关键字数据库,在关键字数据库中,对所有类型格式的日志文件会使用到的文本关键字进行记录,如在debug日志文件中,包含“ERROR”、“Display”、“WARNING”……等关键词,当有效日志文本中存在与该关键字数据库中关键字重合的词组时,对其进行记录,从而得到有效日志文本对应的有效关键字。
S303,调取预设的空白模型,根据有效关键字对空白模型进行填充,得到可视化文本模型,所述可视化文本模型为由多个单元格组成的图像,每一个单元格对应一个关键字,单元格通过两种颜色进行标记。
在本步骤中,调取预设的空白模型,空白模型为由多个空白单元格组成得以预设尺寸的空白像素矩阵,每一个空白像素对应关键字数据库中的一个关键字,且空白模型中各个像素的位置是固定的, 进而根据有效关键字对空白模型进行填充,如第一行第一列的空白像素对应的关键词为“ERROR”,而有效关键词中包含“ERROR”,则以特定颜色对该空白像素进行填充,如空白像素的原始颜色为红色,填充之后则为绿色,用以对两者进行区分,对所有有效关键字进行识别之后,即可得到可视化文本模型。
如图4所示,作为本发明的一个优选实施例,所述根据可视化文本模型检索可视化配置规则数据库,调取对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本的步骤,具体包括:
S401,查询可视化配置规则数据库,调取其中所有的标准模型。
S402,计算标准模型与可视化文本模型之间的匹配度,根据匹配度对标准模型进行排序,选择匹配度最高的标准模型。
在本步骤中,查询可视化配置规则数据库,调取其中所有的标准模型,标准模型也是以图像进行表示,不同的日志类型对应了不同的填充内容的图像,那么计算标准模型与可视化文本模型之间的匹配情况,将所有像素进行逐个比对,计算重合的像素数量以及其占据总像素数量的比例,根据匹配度对标准模型进行排序,选择匹配度最高的标准模型。
S403,查询该标准模型对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
在本步骤中,查询该标准模型对应的文本转换规则,每一个标准模型对应一个文本转换规则,根据该文本转换规则对有效日志文本进行转换,得到结构化日志文本。
如图5所示,为本发明实施例提供的一种基于可视化配置的日志数据转换系统,所述系统包括:
数据获取模块100,用于获取待转换日志文件,构建可视化配置规则数据库。
在本系统中,数据获取模块100获取待转换日志文件,在得到待转换日志文件时,由于不同软件或者系统产生的日志文件格式不同,因此无法直接通过机器识别其中包含的实际内容,需要对其进行格式统一处理,才能通过机器对其进行识别,换言之,日志文件中的文本是用于工作人员进行查看的,而并非机器语言,因此要想让机器能够识别日志内容,则需要对其进行转换,构建可视化配置规则数据库,在可视化配置规则数据库中则记录了不同格式之间的转化规则,因此,在确定日志文本的内容之后,可以根据转化规则进行转换,将日志文本进行结构化处理。
文本格式识别模块200,用于将待转换日志文件通过不同的文本读取软件打开,提取待识别文本,根据待识别文本确定有效日志文本。
在本系统中,文本格式识别模块200将待转换日志文件通过不同的文本读取软件打开,对于同一个待转换日志文件,其通过不同的软件打开可能存在不同的显示结果,为了保证提取得到的文本是正确的,需要选择正确的软件对其进行显示,具体的,将待转换日志文件同时导入到多个文本读取软件中,提取待识别文本,根据待识别文本中文字以及字符内容确定文本是否正确,是否存在乱码的情况,如文字中出现非常见文字,非常见字符,对于常见字符和常见汉字进行划分,因此,可以根据文字以及字符内容进行查询,若其包含在常见字符和常见汉字中,则为显示正常,此时即得到有效日志文本,反之,文本中文字以及字符内容杂乱,且以非常见文字,非常见字符为主,并且文本无实际意义,则将其划分为无效文本。
文本模型构建模块300,用于对有效日志文本进行字符提取和文字提取,构建可视化文本模型。
在本系统中,文本模型构建模块300对有效日志文本进行字符提取和文字提取,在经过对文本进行识别之后,可以确定当前文本显示正常,因此需要进一步确定该文本中日志记载的格式,具体的,可以构建空白模型,空白模型为空白图片,其由多个空白的单元格构成,对有效日志文本进行关键字提取,从而根据出现的关键字对各个空白的单元格进行填充,从而得到具体的可视化文本模型。
日志结构化模块400,用于根据可视化文本模型检索可视化配置规则数据库,调取对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
在本系统中,日志结构化模块400根据可视化文本模型检索可视化配置规则数据库,在可视化配置规则数据库中,针对所有类型的日志文本格式均设置有对应的文本转换规则,据此可以实现日志文本的结构化处理,根据可视化文本模型进行检索,检索得到对应的标准模型,每一个标准模型对应有一个转化规则,因此通过计算标准模型与可视化文本模型之间的匹配关系即可确定可视化文本模型与转化规则之间的对应关系,确定转换规则之后,对有效日志文本进行转化,得到结构化日志文本。
如图6所示,作为本发明的一个优选实施例,所述文本格式识别模块200包括:
文本提取单元201,用于将待转换日志文件通过不同的文本读取软件打开,对文本读取软件显示的文本进行复制,得到待识别文本。
在本模块中,文本提取单元201将待转换日志文件通过不同的文本读取软件打开,每打开一个文本读取软件,对改文本读取软件显示的文本进行复制,将其复制到单独的文本当中,以得到待识别文本。
段落截取单元202,用于从待识别文本中随机截取多个文本段落,对每个文本段落进行字符统计,得到字符统计结果,所述字符统计结果包含汉字统计结果和英文字母统计结果。
在本模块中,段落截取单元202从待识别文本中随机截取多个文本段落,每个文本段落中包含的字符数量大于预设值,如每个文本段落中至少包含500个字节的字符,进而统计其中包含的汉字以及英文字母。
日志筛选单元203,用于根据汉字统计结果和英文字母统计结果从待识别文本中筛选得到有效日志文本。
在本模块中,日志筛选单元203根据汉字统计结果和英文字母统计结果进行判别,提取其中包含的汉字,判定汉字是否为常见字符,若汉字为常见字符的比例超过预设值,且有英文子母组成的词组能够被识别的比例超过预设值,则判定该待识别文本为有效日志文本,如汉字统计结果包含100个汉字,其中98个汉字为常见字符,则对应的比例为98%,而英文字母统计结果中组成的词组数量为100个,其中仅有95个具有具体含义,则对应的比例为95%,若上述两组预设值均为90%,则该该待识别文本为有效日志文本。
如图7所示,作为本发明的一个优选实施例,所述文本模型构建模块300包括:
信息提取单元301,用于对有效日志文本进行字符提取和文字提取,得到待分析词组和待分析字符串。
在本模块中,信息提取单元301对有效日志文本进行字符提取和文字提取,其中字符包括英文字母、常见符号(如句号“。”,逗号“,”等)、特殊符号(如回车符号,竖线“|”等)以及汉字,通过常见符号和特殊符号对有效日志文本中的文本进行划分,得到待分析词组和待分析字符串,待分析词组为汉字词组,待分析字符串则为英文词组。
关键字识别单元302,用于根据待分析词组和待分析字符串查询预设的关键字数据库,得到各个有效日志文本对应的有效关键字。
在本模块中,关键字识别单元302根据待分析词组和待分析字符串查询预设的关键字数据库,在关键字数据库中,对所有类型格式的日志文件会使用到的文本关键字进行记录,如在debug日志文件中,包含“ERROR”、“Display”、“WARNING”……等关键词,当有效日志文本中存在与该关键字数据库中关键字重合的词组时,对其进行记录,从而得到有效日志文本对应的有效关键字。
模型可视化单元303,用于调取预设的空白模型,根据有效关键字对空白模型进行填充,得到可视化文本模型,所述可视化文本模型为由多个单元格组成的图像,每一个单元格对应一个关键字,单元格通过两种颜色进行标记。
在本模块中,模型可视化单元303调取预设的空白模型,空白模型为由多个空白单元格组成得以预设尺寸的空白像素矩阵,每一个空白像素对应关键字数据库中的一个关键字,且空白模型中各个像素的位置是固定的, 进而根据有效关键字对空白模型进行填充,如第一行第一列的空白像素对应的关键词为“ERROR”,而有效关键词中包含“ERROR”,则以特定颜色对该空白像素进行填充,如空白像素的原始颜色为红色,填充之后则为绿色,用以对两者进行区分,对所有有效关键字进行识别之后,即可得到可视化文本模型。
如图8所示,作为本发明的一个优选实施例,所述日志结构化模块400包括:
模型查询单元401,用于查询可视化配置规则数据库,调取其中所有的标准模型。
匹配度计算单元402,用于计算标准模型与可视化文本模型之间的匹配度,根据匹配度对标准模型进行排序,选择匹配度最高的标准模型。
在本模块中,查询可视化配置规则数据库,调取其中所有的标准模型,标准模型也是以图像进行表示,不同的日志类型对应了不同的填充内容的图像,那么计算标准模型与可视化文本模型之间的匹配情况,将所有像素进行逐个比对,计算重合的像素数量以及其占据总像素数量的比例,根据匹配度对标准模型进行排序,选择匹配度最高的标准模型。
结构化单元403,用于查询该标准模型对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
在本模块中,查询该标准模型对应的文本转换规则,每一个标准模型对应一个文本转换规则,根据该文本转换规则对有效日志文本进行转换,得到结构化日志文本。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于可视化配置的日志数据转换方法,其特征在于,所述方法包括:
获取待转换日志文件,构建可视化配置规则数据库;
将待转换日志文件通过不同的文本读取软件打开,提取待识别文本,根据待识别文本确定有效日志文本;
对有效日志文本进行字符提取和文字提取,构建可视化文本模型;
根据可视化文本模型检索可视化配置规则数据库,调取对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
2.根据权利要求1所述的基于可视化配置的日志数据转换方法,其特征在于,所述将待转换日志文件通过不同的文本读取软件打开,提取待识别文本,根据待识别文本确定有效日志文本的步骤,具体包括:
将待转换日志文件通过不同的文本读取软件打开,对文本读取软件显示的文本进行复制,得到待识别文本;
从待识别文本中随机截取多个文本段落,对每个文本段落进行字符统计,得到字符统计结果,所述字符统计结果包含汉字统计结果和英文字母统计结果;
根据汉字统计结果和英文字母统计结果从待识别文本中筛选得到有效日志文本。
3.根据权利要求1所述的基于可视化配置的日志数据转换方法,其特征在于,所述对有效日志文本进行字符提取和文字提取,构建可视化文本模型的步骤,具体包括:
对有效日志文本进行字符提取和文字提取,得到待分析词组和待分析字符串;
根据待分析词组和待分析字符串查询预设的关键字数据库,得到各个有效日志文本对应的有效关键字;
调取预设的空白模型,根据有效关键字对空白模型进行填充,得到可视化文本模型,所述可视化文本模型为由多个单元格组成的图像,每一个单元格对应一个关键字,单元格通过两种颜色进行标记。
4.根据权利要求1所述的基于可视化配置的日志数据转换方法,其特征在于,所述根据可视化文本模型检索可视化配置规则数据库,调取对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本的步骤,具体包括:
查询可视化配置规则数据库,调取其中所有的标准模型;
计算标准模型与可视化文本模型之间的匹配度,根据匹配度对标准模型进行排序,选择匹配度最高的标准模型;
查询该标准模型对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
5.根据权利要求1所述的基于可视化配置的日志数据转换方法,其特征在于,所述对有效日志文本进行字符提取和文字提取的步骤中,对预设字符之间的文本和字符进行提取。
6.根据权利要求4所述的基于可视化配置的日志数据转换方法,其特征在于,所述匹配度为可视化文本模型对应的图像与标准模型对应的图像的像素重合率。
7.一种基于可视化配置的日志数据转换系统,其特征在于,所述系统包括:
数据获取模块,用于获取待转换日志文件,构建可视化配置规则数据库;
文本格式识别模块,用于将待转换日志文件通过不同的文本读取软件打开,提取待识别文本,根据待识别文本确定有效日志文本;
文本模型构建模块,用于对有效日志文本进行字符提取和文字提取,构建可视化文本模型;
日志结构化模块,用于根据可视化文本模型检索可视化配置规则数据库,调取对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
8.根据权利要求7所述的基于可视化配置的日志数据转换系统,其特征在于,所述文本格式识别模块包括:
文本提取单元,用于将待转换日志文件通过不同的文本读取软件打开,对文本读取软件显示的文本进行复制,得到待识别文本;
段落截取单元,用于从待识别文本中随机截取多个文本段落,对每个文本段落进行字符统计,得到字符统计结果,所述字符统计结果包含汉字统计结果和英文字母统计结果;
日志筛选单元,用于根据汉字统计结果和英文字母统计结果从待识别文本中筛选得到有效日志文本。
9.根据权利要求7所述的基于可视化配置的日志数据转换系统,其特征在于,所述文本模型构建模块包括:
信息提取单元,用于对有效日志文本进行字符提取和文字提取,得到待分析词组和待分析字符串;
关键字识别单元,用于根据待分析词组和待分析字符串查询预设的关键字数据库,得到各个有效日志文本对应的有效关键字;
模型可视化单元,用于调取预设的空白模型,根据有效关键字对空白模型进行填充,得到可视化文本模型,所述可视化文本模型为由多个单元格组成的图像,每一个单元格对应一个关键字,单元格通过两种颜色进行标记。
10.根据权利要求7所述的基于可视化配置的日志数据转换系统,其特征在于,所述日志结构化模块包括:
模型查询单元,用于查询可视化配置规则数据库,调取其中所有的标准模型;
匹配度计算单元,用于计算标准模型与可视化文本模型之间的匹配度,根据匹配度对标准模型进行排序,选择匹配度最高的标准模型;
结构化单元,用于查询该标准模型对应的文本转换规则,对有效日志文本进行转换,得到结构化日志文本。
CN202211568180.4A 2022-12-08 2022-12-08 基于可视化配置的日志数据转换方法及系统 Active CN115587158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211568180.4A CN115587158B (zh) 2022-12-08 2022-12-08 基于可视化配置的日志数据转换方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211568180.4A CN115587158B (zh) 2022-12-08 2022-12-08 基于可视化配置的日志数据转换方法及系统

Publications (2)

Publication Number Publication Date
CN115587158A true CN115587158A (zh) 2023-01-10
CN115587158B CN115587158B (zh) 2023-04-25

Family

ID=84783253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211568180.4A Active CN115587158B (zh) 2022-12-08 2022-12-08 基于可视化配置的日志数据转换方法及系统

Country Status (1)

Country Link
CN (1) CN115587158B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341257A (zh) * 2016-08-18 2017-01-18 陈琛 一种自定义日志解析规则并自动解析日志的方法和工具
CN106547470A (zh) * 2015-09-16 2017-03-29 伊姆西公司 日志存储优化方法和设备
CN106777079A (zh) * 2016-12-13 2017-05-31 苏州蜗牛数字科技股份有限公司 一种日志数据可视化分析系统及方法
CN108170538A (zh) * 2017-12-08 2018-06-15 北京奇艺世纪科技有限公司 一种信息处理方法、装置以及电子设备
CN110162445A (zh) * 2019-05-23 2019-08-23 中国工商银行股份有限公司 基于主机日志及性能指标的主机健康评价方法及装置
CN111400361A (zh) * 2020-02-13 2020-07-10 中国平安人寿保险股份有限公司 数据实时存储方法、装置、计算机设备和存储介质
CN112311803A (zh) * 2020-11-06 2021-02-02 杭州安恒信息技术股份有限公司 一种规则库更新方法、装置、电子设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547470A (zh) * 2015-09-16 2017-03-29 伊姆西公司 日志存储优化方法和设备
CN106341257A (zh) * 2016-08-18 2017-01-18 陈琛 一种自定义日志解析规则并自动解析日志的方法和工具
CN106777079A (zh) * 2016-12-13 2017-05-31 苏州蜗牛数字科技股份有限公司 一种日志数据可视化分析系统及方法
CN108170538A (zh) * 2017-12-08 2018-06-15 北京奇艺世纪科技有限公司 一种信息处理方法、装置以及电子设备
CN110162445A (zh) * 2019-05-23 2019-08-23 中国工商银行股份有限公司 基于主机日志及性能指标的主机健康评价方法及装置
CN111400361A (zh) * 2020-02-13 2020-07-10 中国平安人寿保险股份有限公司 数据实时存储方法、装置、计算机设备和存储介质
CN112311803A (zh) * 2020-11-06 2021-02-02 杭州安恒信息技术股份有限公司 一种规则库更新方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN115587158B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
US6424971B1 (en) System and method for interactive classification and analysis of data
US5875263A (en) Non-edit multiple image font processing of records
US10482174B1 (en) Systems and methods for identifying form fields
US5923792A (en) Screen display methods for computer-aided data entry
US8005300B2 (en) Image search system, image search method, and storage medium
US5444840A (en) Multiple image font processing
EP0567834A2 (en) Advanced data capture architecture data processing system and method for scanned images of document forms
US20240012846A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US20200125954A1 (en) Systems and methods for selecting and generating log parsers using neural networks
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN112016481B (zh) 基于ocr的财务报表信息检测和识别方法
CN115240213A (zh) 表格图像识别方法、装置、电子设备及存储介质
CN111291535B (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN115587158B (zh) 基于可视化配置的日志数据转换方法及系统
CN112800771A (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法
CN115795079A (zh) 一种工程造价分析数据采集与处理方法、系统
CN113177233A (zh) 一种敏感数据识别方法及装置
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN115880682A (zh) 图像文本识别方法、装置、设备、介质和产品
JPH0743718B2 (ja) マルチメディア文書構造化方式
JP3081622B2 (ja) 電話番号定型化装置及び電話番号定型化方法
EP0538812A2 (en) Multiple editing and non-edit approaches for image font processing of records

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant