CN115544975B - 一种日志格式转换方法及设备 - Google Patents
一种日志格式转换方法及设备 Download PDFInfo
- Publication number
- CN115544975B CN115544975B CN202211545583.7A CN202211545583A CN115544975B CN 115544975 B CN115544975 B CN 115544975B CN 202211545583 A CN202211545583 A CN 202211545583A CN 115544975 B CN115544975 B CN 115544975B
- Authority
- CN
- China
- Prior art keywords
- data
- filling
- converted
- text
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请实施例公开了一种日志格式转换方法及设备。属于电数字数据处理技术领域。获取待转换的日志数据与目标数据格式,并确定出与目标数据格式相对应的数据填充模板;基于开始标识与结束标识确定出日志数据中的多个待转换数据;基于预置分词树,依次对待转换数据中的多个字符进行字义检测,根据检测后的字义对多个待转换数据进行分类,得到多个数据集群;基于多个数据集群的类型,在数据填充模板中确定出相应的填充位置,并基于实际填充数据的大小,得到多个数据集群分别对应的参考地址,以将多个数据集群与参考地址进行映射;基于映射关系,对存在错误的数据进行重新填充,以完成数据格式转换。通过上述方法,对系统出现的问题及时进行检测。
Description
技术领域
本申请涉及电数字数据处理技术领域,尤其涉及一种日志格式转换方法及设备。
背景技术
系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
对于软件系统,日志是非常重要的,但是当前往往通过记录文本文件方式,采用记事本、写字板等工具对日志进行记录,且记录文本时没有规范,浏览工具显示单一、难懂。对于没有软件开发基础的人而言,查看日志不直观,日志可读性比较差,对于开发人员而言查看日志效率较低,以致增加日志查看时间,难以对系统出现的问题及时进行解决。
发明内容
本申请实施例提供了一种日志格式转换方法及设备,用于解决如下技术问题:现有技术中开发人员对日志的查看所需的时间较长,以致难以对系统出现的问题进行及时解决。
本申请实施例采用下述技术方案:
本申请实施例提供一种日志格式转换方法。包括,获取待转换的日志数据与目标数据格式,并在数据库中确定出与目标数据格式相对应的数据填充模板;确定日志数据中的开始标识与结束标识,基于开始标识与结束标识确定出日志数据中的多个待转换数据;基于预置分词树,依次对待转换数据中的多个字符进行字义检测,根据检测后的字义对多个待转换数据进行分类,得到多个数据集群;其中,同一个数据集群中的数据,按照在待转换数据中的先后顺序进行排列;基于多个数据集群的类型,在数据填充模板中确定出相应的填充位置,以将多个数据集群中的待转换数据填充至相应的填充位置,并基于实际填充数据的大小,得到多个数据集群分别对应的参考地址,以将多个数据集群与参考地址进行映射;在填充数据存在错误的情况下,基于多个数据集群与参考地址之间的映射关系,对存在错误的数据进行重新填充,以完成数据格式转换。
本申请实施例通过确定日志数据中的开始标识与结束标识,能够将日志数据进行划分,确定出需要进行数据转换的数据,能够使得转换后的数据清晰有条理。其次,本申请实施例通过对待转换数据进行字义检测,能够将待转换数据进行分类,从而根据字义类型将不同的待转换数据填充至相应的位置,以完成日志数据的格式转换。从而解决现有记录文本文件的方式不直观,以致开发人员需要花费较多时间进行查看的问题。
在本申请的一种实现方式中,基于预置分词树,依次对待转换数据中的多个字符进行字义检测之前,方法还包括:获取待转换数据中的文本数据,对文本数据进行文本拆分,以得到中文文本与数字文本;确定中文文本对应的字义类型,以及基于数字文本之前和/或之后的中文文本确定数字文本对应的字义类型,以根据不同的字义类型,对待转换数据进行分类,以建立多个数据集群。
在本申请的一种实现方式中,确定中文文本对应的字义类型,具体包括:将中文文本中的待识别字符与预置分词树进行比对;在预置分词树中确定出当前待识别字符,并确定出待识别字符所对应的预置词语集;获取待识别字符在中文文本中相邻的若干个字符,将相邻的若干个字符与待识别字符组成待识别词语;在待识别词语存在于预置词语集的情况下,将待识别词语作为一个分词;基于预置分词树中的预置字义类型,确定出待转换数据的字义类型。
在本申请的一种实现方式中,基于预置分词树中的预置字义类型,确定出待转换数据的字义类型,具体包括:确定出待转换数据所对应的多个分词;基于多个分词分别对应的字义对多个分词进行分组;根据预置字义类型对应的预置权重,对每一个组对应的多个分词进行权重计算;将每一个组分别对应的计算后的权重结果进行比对,以根据比对结果确定出待转换数据的字义类型。
在本申请的一种实现方式中,基于数字文本之前和/或之后的中文文本确定数字文本对应的字义类型,具体包括:在字义类型对应为数字文本的情况下,确定位于数字文本之前和/或之后的中文文本;将数字文本之前和/或之后的中文文本与预置分词树进行比对;基于预置分词树,确定出数字文本之前和/或之后的中文文本所对应的分词集,以及基于预置分词树中的预置字义类型,确定出分词集中各分词的语义;将数量最多的语义作为数字文本的字义类型。
在本申请的一种实现方式中,在数据填充模板中确定出相应的填充位置,以将多个数据集群中的待转换数据填充至相应的填充位置,并基于实际填充数据的大小,得到多个数据集群分别对应的参考地址,以将多个数据集群与参考地址进行映射,具体包括:根据预设标识模板库,对多个数据集群进行不同的标识标注;在数据填充模板中,确定出与多个数据集群的标识一致的多个填充位置,作为参考填充位置;对数据集群中的待转换数据进行数据划分,得到各数据集群分别对应的多个划分后数据,并根据划分后的数据在数据集群中的位置先后顺序,对各数据集群分别对应的多个划分后的数据进行标号;其中,相邻的开始标识与结束标识之间的数据作为一条划分后的数据;将划分后的数据按照标号顺序依次转换至参考填充位置;其中,参考填充位置包括多个空白行,且每一个空白行对应填充一条划分后的数据;基于参考填充位置对应的实际填充数据的大小,获取参考填充位置对应的起始存储地址与结束存储地址,基于每个参考填充位置分别对应的起始存储地址与结束存储地址,建立每个参考填充位置分别对应的参考地址;将每个数据集群与参考地址进行映射,以确定出每个数据集群对应的填充位置。
在本申请的一种实现方式中,将多个数据集群中的待转换数据填充至相应的填充位置之后,方法还包括:获取每个填充位置分别对应的第一字符数量,以及获取与每个填充位置分别对应的数据集群中的第二字符数量;获取每个填充位置分别对应的转换后的文本数据的填充序号,以及获取转换后的文本数据在数据集群中的位置序号;将第一字符数量与第二字符数量进行比对,以及将填充序号与位置序号进行比对;在第一字符数量与第二字符数量相同,且填充序号与位置序号一致的情况下,确定数据格式转换正确。
本申请实施例通过对转换后的文本数据进行字符数量与位置序号的比对,能够确定转换后的数据是否出现遗漏或者重复转换的情况,以及是否出现位置填充错误的情况。从而能够及时发现日志转换过程中出现的问题,及时对其进行更改,以确保日志格式转换的稳定运行。
在本申请的一种实现方式中,在填充数据存在错误的情况下,基于多个数据集群与参考地址之间的映射关系,对存在错误的数据进行重新填充,具体包括:在第一字符数量与第二字符数量不一致,和/或填充序号与位置序号不一致的情况下,基于出现错误的填充位置所对应的参考地址,确定出有映射关系的数据集群;将出现错误的填充位置所对应的转换后的文本数据进行删除处理,并将有映射关系的数据集群中的文本数据重新转换至出现错误的填充位置;对出现错误的填充位置所对应的转换后的文本数据进行重新检测,若连续出现错误的次数大于预设错误阈值,则发出警报提醒。
在本申请的一种实现方式中,确定日志数据中的开始标识与结束标识,基于开始标识与结束标识确定出日志数据中的多个待转换数据,具体包括:确定日志数据中的开始标识;其中,日志数据包括多条文本数据,开始标识设置于每一条文本数据的开始端;以及确定位于开始标识之后的第一个结束标识;其中,结束标识设置于每一条文本数据的结束端;将开始标识与结束标识之间的文本数据作为待转换数据。
本申请实施例通过在每一条文本数据的开始端设置开始标识,以及在每一条文本数据的结束端设置结束标识,能够将大段的文本数据进行划分。从而在进行日志格式转换时,按照文本数据的放置顺序一条一条对其进行格式转换。从而使得转换后的文本数据清晰明了,易于研发人员的阅读,进而减少对系统故障日志查阅的时间,以及时对系统故障进行处理。
本申请实施例提供一种日志格式转换设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:获取待转换的日志数据与目标数据格式,并在数据库中确定出与目标数据格式相对应的数据填充模板;确定日志数据中的开始标识与结束标识,基于开始标识与结束标识确定出日志数据中的待转换数据;基于预置分词树,依次对待转换数据中的多个字符进行字义检测,根据检测后的字义对待转换数据进行分类,得到多个数据集群;其中,同一个数据集群中的数据,按照在待转换数据中的先后顺序进行排列;基于多个数据集群的类型,在数据填充模板中确定出相应的填充位置,以将多个数据集群中的待转换数据填充至相应的填充位置,并基于实际填充数据的大小,得到多个数据集群分别对应的参考地址,以将多个数据集群与参考地址进行映射;在填充数据存在错误的情况下,基于多个数据集群与参考地址之间的映射关系,对存在错误的数据进行重新填充,以完成数据格式转换。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:本申请实施例通过确定日志数据中的开始标识与结束标识能够将日志数据进行划分,确定出需要进行数据转换的数据,能够使得转换后的数据清晰有条理。其次,本申请实施例通过对待转换数据进行字义检测,能够将待转换数据进行分类,从而根据字义类型将不同的待转换数据填充至相应的位置,以完成日志数据的格式转换。从而解决现有记录文本文件的方式不直观,以致开发人员需要花费较多时间进行查看的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施例提供的一种日志格式转换方法流程图;
图2为本申请实施例提供的一种日志格式转换设备的结构示意图;
附图标记:
200日志格式转换设备,201处理器,202存储器。
具体实施方式
本申请实施例提供一种日志格式转换方法及设备。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
对于软件系统,日志是非常重要的,但是当前往往通过记录文本文件方式,采用记事本、写字板等工具对日志进行记录,且记录文本时没有规范,浏览工具显示单一、难懂。对于没有软件开发基础的人而言,查看日志不直观,日志可读性比较差,对于开发人员而言查看日志效率较低,以致增加日志查看时间,难以对系统出现的问题及时进行解决。
为了解决上述问题,本申请实施例提供一种日志格式转换方法及设备。通过确定日志数据中的开始标识与结束标识,能够将日志数据进行划分,确定出需要进行数据转换的数据,能够使得转换后的数据清晰有条理。其次,本申请实施例通过对待转换数据进行字义检测,能够将待转换数据进行分类,从而根据字义类型将不同的待转换数据填充至相应的位置,以完成日志数据的格式转换。从而解决现有记录文本文件的方式不直观,以致开发人员需要花费较多时间进行查看的问题。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的一种日志格式转换方法流程图。如图1所示,日志格式转换方法包括如下步骤:
步骤101、日志格式转换设备获取待转换的日志数据与目标数据格式,并在数据库中确定出与目标数据格式相对应的数据填充模板。
在本申请的一个实施例中,日志格式转换设备获取待转换的日志数据,本申请实施例可以利用Python对相关日志TXT文件进行数据抽取。同时确定出转换后的日志格式,执行相关脚本语言或程序代码时,设置转换后的日志格式,即,目标数据格式。根据设置的目标数据格式,在数据库中查找相应的数据填充模板。本申请实施例中的目标数据格式可以为Excel文件,因此,需要在数据库中查找Excel文件对应的数据填充模板。需要说明的是,数据库中设置有多种不同文件格式分别对应的数据填充模板,且不同数据填充模板设置有相应的名称,通过名称可以在数据库中查询到与当前目标数据格式相对应的数据填充模板。
步骤102、日志格式转换设备确定日志数据中的开始标识与结束标识,基于开始标识与结束标识确定出日志数据中的多个待转换数据。
在本申请的一个实施例中,确定日志数据中的开始标识,其中,日志数据包括多条文本数据,开始标识设置于每一条文本数据的开始端;以及确定位于开始标识之后的第一个结束标识,其中,结束标识设置于每一条文本数据的结束端。将开始标识与结束标识之间的文本数据作为待转换数据。
具体地,日志格式转换设备对日志数据中的开始标识进行确定。开始标识为日志数据中每一条数据的开始端预先设置的标识。日志格式转换设备在检测到开始标识时,开始对开始标识后面的文本数据进行采集。日志数据中每一条数据的结束端预先设置有结束标识,日志格式转换设备在检测到结束标识时,会停止对当前日志文本的采集。
进一步地,当日志格式转换设备重新检测到开始标识时,会重新对该开始标识后面的文本数据进行采集,在检测到与开始标识对应的结束标识时,会停止对日志文本数据的采集。通过该种方式,以对日志数据进行划分,将其划分为多条数据,并对多条数据一一进行采集,从而使得数据采集过程清晰明了。
进一步地,日志格式转换设备将采集到的需要进行格式转换的文本数据存储至预设存储模块,以对预设存储模块中的文本数据进行进一步调整。
步骤103、日志格式转换设备基于预置分词树,依次对待转换数据中的多个字符进行字义检测,根据检测后的字义对多个待转换数据进行分类,得到多个数据集群。其中,同一个数据集群中的数据,按照在待转换数据中的先后顺序进行排列。
在本申请的一个实施例中,获取所述待转换数据中的文本数据,对文本数据进行文本拆分,以得到中文文本与数字文本。确定中文文本对应的字义类型,以及基于数字文本之前和/或之后的中文文本确定数字文本对应的字义类型,以根据不同的字义类型,对待转换数据进行分类,以建立多个数据集群。
具体地,待转换的数据可以有中文文本与数字文本,在对日志数据进行转换时,先对日志数据中的中文文本与数字文本进行拆分。并对中文文本与数字文本分别进行字义类型确定,以根据字义类型,对中文文本与数字文本进行分类。根据分类结果建立多个数据集群,其中,同一个数据集群中的数据类型相同,且同一个数据集群中的数据,按照在所述待转换数据中的先后顺序进行排列,从而实现对日志数据的分类。
在本申请的一个实施例中,将中文文本中的待识别字符与预置分词树进行比对。在预置分词树中确定出当前待识别字符,并确定出待识别字符所对应的预置词语集,获取待识别字符在中文文本中相邻的若干个字符,将相邻的若干个字符与待识别字符组成待识别词语。在待识别词语存在于预置词语集的情况下,将待识别词语作为一个分词。基于预置分词树中的预置字义类型,确定出待转换数据的字义类型。
具体地,在字义类型为中文文本的情况下,可以对中文文本进行字义分析。在字义类型为数字文本的情况下,难以根据数字文本对其进行字义分析,因此需要确定出该数字文本之前的中文文本,根据中文文本确定出相应的字义类型。
进一步地,在字义类型为中文文本的情况下,将该中文文本的第一个字与预置分词树进行比对,其中,预置分词树中包括有多个不同的词语。在该预置分词树中确定出含有当前第一个字的词语,并将确定出的词语组成预置词语集。在该中文文本中获取当前第一个字的下一个字,并在预置词语集中确定出是否有同时存在该第一个字与第二个字的词语,若存在,则继续确定出中文文本中的第三个字,由第一个字、第二个字以及该第三个字组成待识别词语,以在该预置词语集中继续查询是否存在该待识别词语。若预置词语集中不存在该三个字的词语,则将前一步中两个字的词语作为一个分词。通过该方法,将当前的中文文本划分为多个分词。
具体地,预置分词树由多个以树状结构相连的节点组成。根据节点的位置不同,预置分词树中的节点可以分为根节点和子节点。每一个节点可以包括:单个字符、与本节点相连的下一个节点的数据信息以及用于表示字符串是否构成为词的数据信息,其中,字符串由根节点至本节点中包括的单个字符组成。具体的,单个字符可以为单个汉字,与本节点相连的下一个子节点的数据信息则可以为单个字符,其与本节点中包括的单个字符具有关联关系,即可以组成中文词组。例如:词语“手机”,在预置分词树中,“手”作为根节点中存储的单个字符,“机”则作为“手”这个节点中的与本节点相连的下一个节点的数据信息进行保存。
在本申请的一个实施例中,确定出所述待转换数据所对应的多个分词,基于所述多个分词分别对应的字义对所述多个分词进行分组。根据所述预置字义类型对应的预置权重,对每一个组对应的多个分词进行权重计算,将所述每一个组分别对应的计算后的权重结果进行比对,以根据比对结果确定出所述待转换数据的字义类型。
具体地,基于预置分词树中的预置字义类型,可以确定出待转换数据的字义类型。将当前待转换数据对应的划分后的多个分词,进行分组,可以基于每个分词分别对应的字义进行分组,每个分组中的分词所对应的字义相同。不同的字义类型对应有不同的权重,基于每个分组中词语的数量以及每个分组分别对应的权重,确定出每个分组分别对应的权重结果,以将最大的权重结果所对应的字义类型作为当前待转换数据的字义类型。
在字义类型对应为数字文本的情况下,确定位于数字文本之前和/或之后的中文文本。将数字文本之前和/或之后的中文文本与预置分词树进行比对,基于预置分词树,确定出数字文本之前和/或之后的中文文本所对应的分词集,以及基于预置分词树中的预置字义类型,确定出分词集中各分词的语义。将数量最多的语义作为数字文本的字义类型。
具体地,在字义类型为数字文本的情况下,可以确定出该数字文本所在的数据文本,以确定出该数字文本前后所对应的中文文本。将该数字文本前后所对应的中文文本与该预置分词树进行比对,从而确定出该数字文本前后所对应的中文文本的字义类型,从而将该中文文本所对应的字义类型作为该数字文本所对应的字义类型。根据待转换数据分别对应的字义类型,对多个待转换数据进行分类,从而得到多个数据集群。
进一步地,在字义类型为数字文本的情况下,可以确定出该数字文本之前的中文文本,并将该中文文本的字义类型作为该数字文本的字义类型。例如:身高170cm,此时单独对170cm进行分析,难以确定其对应的字义类型,但确定出170cm之前的中文文本身高,可以得到170cm对应的字义类型为身高。由此,可以通过数字文本之前的中文文本确定出数字文本的字义类型。
步骤104、日志格式转换设备基于多个数据集群的类型,在数据填充模板中确定出相应的填充位置,以将多个数据集群中的待转换数据填充至所述相应的填充位置,并基于实际填充数据的大小,得到多个数据集群分别对应的参考地址,以将多个数据集群与参考地址进行映射。
在本申请的一个实施例中,根据预设标识模板库,对多个数据集群进行不同的标识标注。在数据填充模板中,确定出与多个数据集群的标识一致的多个填充位置,作为参考填充位置。对数据集群中的待转换数据进行数据划分,得到各数据集群分别对应的多个划分后数据,并根据划分后的数据在数据集群中的位置先后顺序,对各数据集群分别对应的多个划分后的数据进行标号;其中,相邻的开始标识与结束标识之间的数据作为一条划分后的数据。将划分后的数据按照标号顺序依次转换至参考填充位置;其中,参考填充位置包括多个空白行,且每一个空白行对应填充一条划分后的数据。基于参考填充位置对应的实际填充数据的大小,获取参考填充位置对应的起始存储地址与结束存储地址,基于每个参考填充位置分别对应的起始存储地址与结束存储地址,建立每个参考填充位置分别对应的参考地址。将每个数据集群与参考地址进行映射,以确定出每个数据集群对应的填充位置。
具体地,每个数据集群的字义类型都不一样,因此,不同的数据集群中的内容需要填充至不同的地方。本申请实施例预设标识模板库,该模板库中包含有多个不同的标识,且不同的标识所对应的字义类型不相同。根据数据集群的字义类型,在该数据集群中确定出相应的标识,并将该相应的标识标注在该数据集群上。其次,数据填充模板中根据不同的字义类型,会设置有多个待填充位置,每个待填充位置对应不同字义类型的数据,因此,每个待填充位置会预设标注有相应的标识,通过标注的标识确定该位置所要填充的内容。
进一步地,将数据集群对应的标识与数据填充模板中对应的标识进行一一比对,从而建立数据集群与待填充位置的对应关系,将数据集群中的内容填充至相应的待填充位置。确定出每个数据集群中的数据所对应的先后位置,根据待填充内容在数据集群中的先后位置,依次将待填充内容转换至待填充位置。每个待填充位置分为多行,每一列可以填充数据集群中的一条数据,从而将数据集群中的待填充内容,填充至多行。
具体地,按照预先设定的开始标识与结束标识,将数据集群中的待转换数据进行数据划分,将其划分为多条数据。按照每一条数据在数据集群中的先后顺序,对其进行标号处理。按照标号顺序将数据集群中的待转换数据依次转换至参考填充位置。且每一个标号对应的划分后的数据,在参考填充位置占据一个空白行。因此,填充至参考填充位置的数据排列较为整齐,每一条数据放置顺序与放置位置清晰明了,从而便于检测人员对日志数据的查看,从而加快对故障信息的查询,及时对故障问题进行修复。
进一步地,将数据填充至参考填充位置后,基于当前参考填充位置对应的数据大小,确定出起始数据对应的起始存储地址,以及确定出结束数据对应的结束存储地址。从而确定出当前参考填充位置对应的实际数据的存储地址,进而确定出当前数据集群对应的参考地址,以建立当前数据集群与该参考地址之间的映射关系。
步骤105、在填充数据存在错误的情况下,基于多个数据集群与参考地址之间的映射关系,对存在错误的数据进行重新填充,以完成数据格式转换。
在本申请的一个实施例中,获取每个填充位置分别对应的第一字符数量,以及获取与每个填充位置分别对应的数据集群中的第二字符数量。获取每个填充位置分别对应的转换后的文本数据的填充序号,以及获取转换后的文本数据在数据集群中的位置序号。将第一字符数量与第二字符数量进行比对,以及将填充序号与位置序号进行比对。在第一字符数量与第二字符数量相同,且填充序号与位置序号一致的情况下,确定数据格式转换正确。
具体地,每个填充位置对应一个数据集群,因此每个填充位置填充的数据的字符数量与该数据集群中的数据字符数量相等。因此,分别获取每个填充位置分别对应的第一字符数量,以及获取每个填充位置分别对应的数据集群中的第二字符数量,将第一字符数量与第二字符数量进行比对,以确定字符数量是否相等,若不相等,则数据转换过程中可能出现了遗漏或者重复转换的问题,需要对其进行检测,并重新进行转换。其次,还需要获取待转换文本在数据集群中的位置序号,以及获取转换至填充位置的填充序号,每一条数据对应一个序号,将填充序号与位置序号进行比对,确定序号是否相同,从而对转换数据的数量进行检测,以及时确定出现错误的转换数据。
在本申请的一个实施例中,在第一字符数量与第二字符数量不一致,和/或填充序号与位置序号不一致的情况下,基于出现错误的填充位置所对应的参考地址,确定出有映射关系的数据集群。将出现错误的填充位置所对应的转换后的文本数据进行删除处理,并将有映射关系的数据集群中的文本数据重新转换至出现错误的填充位置。对出现错误的填充位置所对应的转换后的文本数据进行重新检测,若连续出现错误的次数大于预设错误阈值,则发出警报提醒。
具体地,若第一字符数量与第二字符数量不一致,和/或填充序号与位置序号不一样,则说明数据转换过程中出现了错误。此时,需要确定出现错误的填充位置,将该出现错误的填充位置中的已转换数据进行删除,并重新将待转换数据转换至该位置。重新转换完成后,重新对转换后的数据进行检测。若字符数量与序号一致,则说明转换成功,若依然出现错误,则确定重新转换的次数是否达到预设错误阈值,其中,预设错误阈值可以为3次,若已达到3次,则发出报警提醒,通知研发人员对其进行修复。
图2为本申请实施例提供的一种日志格式转换设备的结构示意图。如图2所示,日志格式转换设备200,包括:至少一个处理器201;以及,与所述至少一个处理器201通信连接的存储器202;其中,所述存储器202存储有可被所述至少一个处理器201执行的指令,所述指令被所述至少一个处理器201执行,以使所述至少一个处理器201能够:获取待转换的日志数据与目标数据格式,并在数据库中确定出与所述目标数据格式相对应的数据填充模板;确定所述日志数据中的开始标识与结束标识,基于所述开始标识与所述结束标识确定出所述日志数据中的待转换数据;基于预置分词树,依次对所述待转换数据中的多个字符进行字义检测,根据检测后的字义对所述待转换数据进行分类,得到多个数据集群;其中,同一个数据集群中的数据,按照在所述待转换数据中的先后顺序进行排列;基于所述多个数据集群的类型,在所述数据填充模板中确定出相应的填充位置,以将所述多个数据集群中的待转换数据填充至所述相应的填充位置,并基于实际填充数据的大小,得到所述多个数据集群分别对应的参考地址,以将所述多个数据集群与所述参考地址进行映射;在所述填充数据存在错误的情况下,基于所述多个数据集群与所述参考地址之间的映射关系,对存在错误的数据进行重新填充,以完成数据格式转换。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请的实施例可以有各种更改和变化。凡在本申请实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种日志格式转换方法,其特征在于,所述方法包括:
获取待转换的日志数据与目标数据格式,并在数据库中确定出与所述目标数据格式相对应的数据填充模板;
确定所述日志数据中的开始标识与结束标识,基于所述开始标识与所述结束标识确定出所述日志数据中的多个待转换数据;
基于预置分词树,依次对待转换数据中的多个字符进行字义检测,根据检测后的字义对所述多个待转换数据进行分类,得到多个数据集群;其中,同一个数据集群中的数据,按照在所述待转换数据中的先后顺序进行排列;
基于所述多个数据集群的类型,在所述数据填充模板中确定出相应的填充位置,以将所述多个数据集群中的待转换数据填充至所述相应的填充位置,并基于实际填充数据的大小,得到所述多个数据集群分别对应的参考地址,以将所述多个数据集群与所述参考地址进行映射;
在所述填充数据存在错误的情况下,基于所述多个数据集群与所述参考地址之间的映射关系,对存在错误的数据进行重新填充,以完成数据格式转换;
所述将所述多个数据集群中的待转换数据填充至所述相应的填充位置之后,所述方法还包括:
获取每个填充位置分别对应的第一字符数量,以及获取与所述每个填充位置分别对应的数据集群中的第二字符数量;
获取所述每个填充位置分别对应的转换后的文本数据的填充序号,以及获取所述转换后的文本数据在所述数据集群中的位置序号;
将所述第一字符数量与所述第二字符数量进行比对,以及将所述填充序号与所述位置序号进行比对;
在所述第一字符数量与所述第二字符数量相同,且所述填充序号与所述位置序号一致的情况下,确定所述数据格式转换正确;
所述在所述填充数据存在错误的情况下,基于所述多个数据集群与所述参考地址之间的映射关系,对存在错误的数据进行重新填充,具体包括:
在所述第一字符数量与所述第二字符数量不一致,和/或所述填充序号与所述位置序号不一致的情况下,基于出现错误的填充位置所对应的参考地址,确定出有映射关系的数据集群;
将所述出现错误的填充位置所对应的转换后的文本数据进行删除处理,并将所述有映射关系的数据集群中的文本数据重新转换至所述出现错误的填充位置;
对所述出现错误的填充位置所对应的转换后的文本数据进行重新检测,若连续出现错误的次数大于预设错误阈值,则发出警报提醒。
2.根据权利要求1所述的一种日志格式转换方法,其特征在于,所述基于预置分词树,依次对待转换数据中的多个字符进行字义检测之前,所述方法还包括:
获取所述待转换数据中的文本数据,对所述文本数据进行文本拆分,以得到中文文本与数字文本;
确定所述中文文本对应的字义类型,以及基于所述数字文本之前和/或之后的中文文本确定所述数字文本对应的字义类型,以根据不同的字义类型,对所述待转换数据进行分类,以建立所述多个数据集群。
3.根据权利要求2所述的一种日志格式转换方法,其特征在于,所述确定所述中文文本对应的字义类型,具体包括:
将所述中文文本中的待识别字符与所述预置分词树进行比对;
在所述预置分词树中确定出当前待识别字符,并确定出所述待识别字符所对应的预置词语集;
获取所述待识别字符在所述中文文本中相邻的若干个字符,将所述相邻的若干个字符与所述待识别字符组成待识别词语;
在所述待识别词语存在于所述预置词语集的情况下,将所述待识别词语作为一个分词;
基于所述预置分词树中的预置字义类型,确定出所述待转换数据的字义类型。
4.根据权利要求3所述的一种日志格式转换方法,其特征在于,所述基于所述预置分词树中的预置字义类型,确定出所述待转换数据的字义类型,具体包括:
确定出所述待转换数据所对应的多个分词;
基于所述多个分词分别对应的字义对所述多个分词进行分组;
根据所述预置字义类型对应的预置权重,对每一个组对应的多个分词进行权重计算;
将所述每一个组分别对应的计算后的权重结果进行比对,以根据比对结果确定出所述待转换数据的字义类型。
5.根据权利要求3所述的一种日志格式转换方法,其特征在于,所述基于所述数字文本之前和/或之后的中文文本确定所述数字文本对应的字义类型,具体包括:
在所述字义类型对应为数字文本的情况下,确定位于所述数字文本之前和/或之后的中文文本;
将所述数字文本之前和/或之后的中文文本与所述预置分词树进行比对;
基于所述预置分词树,确定出所述数字文本之前和/或之后的中文文本所对应的分词集;以及基于所述预置分词树中的预置字义类型,确定出所述分词集中各分词的语义;
将数量最多的语义作为所述数字文本的字义类型。
6.根据权利要求1所述的一种日志格式转换方法,其特征在于,所述在所述数据填充模板中确定出相应的填充位置,以将所述多个数据集群中的待转换数据填充至所述相应的填充位置,并基于实际填充数据的大小,得到所述多个数据集群分别对应的参考地址,以将所述多个数据集群与所述参考地址进行映射,具体包括:
根据预设标识模板库,对所述多个数据集群进行不同的标识标注;
在所述数据填充模板中,确定出与所述多个数据集群的标识一致的多个填充位置,作为参考填充位置;
对所述数据集群中的待转换数据进行数据划分,得到各数据集群分别对应的多个划分后数据,并根据所述划分后的数据在所述数据集群中的位置先后顺序,对所述各数据集群分别对应的多个划分后的数据进行标号;其中,相邻的开始标识与结束标识之间的数据作为一条所述划分后的数据;
将所述划分后的数据按照标号顺序依次转换至所述参考填充位置;其中,所述参考填充位置包括多个空白行,且每一个空白行对应填充一条所述划分后的数据;
基于所述参考填充位置对应的实际填充数据的大小,获取所述参考填充位置对应的起始存储地址与结束存储地址,基于每个所述参考填充位置分别对应的起始存储地址与结束存储地址,建立每个所述参考填充位置分别对应的参考地址;
将每个所述数据集群与所述参考地址进行映射,以确定出每个所述数据集群对应的填充位置。
7.根据权利要求1所述的一种日志格式转换方法,其特征在于,所述确定所述日志数据中的开始标识与结束标识,基于所述开始标识与所述结束标识确定出所述日志数据中的多个待转换数据,具体包括:
确定所述日志数据中的开始标识;其中,所述日志数据包括多条文本数据,所述开始标识设置于每一条文本数据的开始端;以及确定位于所述开始标识之后的第一个结束标识;其中,所述结束标识设置于所述每一条文本数据的结束端;
将所述开始标识与所述结束标识之间的文本数据作为所述待转换数据。
8.一种日志格式转换设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行权利要求1-7中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211545583.7A CN115544975B (zh) | 2022-12-05 | 2022-12-05 | 一种日志格式转换方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211545583.7A CN115544975B (zh) | 2022-12-05 | 2022-12-05 | 一种日志格式转换方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115544975A CN115544975A (zh) | 2022-12-30 |
CN115544975B true CN115544975B (zh) | 2023-03-10 |
Family
ID=84722253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211545583.7A Active CN115544975B (zh) | 2022-12-05 | 2022-12-05 | 一种日志格式转换方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115544975B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117555955B (zh) * | 2023-12-06 | 2024-06-04 | 广州此声网络科技有限公司 | 数据转换方法、数据转换装置、计算机设备、存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006350543A (ja) * | 2005-06-14 | 2006-12-28 | Mitsubishi Electric Corp | ログ分析装置 |
CN109271356A (zh) * | 2018-09-03 | 2019-01-25 | 中国平安人寿保险股份有限公司 | 日志文件格式处理方法、装置、计算机设备和存储介质 |
CN109992776A (zh) * | 2019-03-26 | 2019-07-09 | 北京博瑞彤芸文化传播股份有限公司 | 一种中文分词方法 |
CN111708860A (zh) * | 2020-06-15 | 2020-09-25 | 北京优特捷信息技术有限公司 | 信息提取方法、装置、设备及存储介质 |
CN112579707A (zh) * | 2020-12-08 | 2021-03-30 | 西安邮电大学 | 一种日志数据的知识图谱构建方法 |
CN114818643A (zh) * | 2022-06-21 | 2022-07-29 | 北京必示科技有限公司 | 一种保留特定业务信息的日志模板提取方法 |
CN115098657A (zh) * | 2022-06-27 | 2022-09-23 | 阿里云计算有限公司 | 自然语言转换数据库查询语句的方法、设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573024B (zh) * | 2015-01-12 | 2018-03-20 | 国家电网公司 | 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统 |
CN112560407A (zh) * | 2020-12-18 | 2021-03-26 | 上海中畅数据技术有限公司 | 一种在线提取计算机软件日志模板的方法 |
CN114861614A (zh) * | 2022-03-01 | 2022-08-05 | 重庆波谷信息技术有限公司 | 用于填充数据的方法及装置、电子设备、介质 |
CN114968953A (zh) * | 2022-05-19 | 2022-08-30 | 招商银行股份有限公司 | 日志的存储检索方法、系统、终端设备及介质 |
-
2022
- 2022-12-05 CN CN202211545583.7A patent/CN115544975B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006350543A (ja) * | 2005-06-14 | 2006-12-28 | Mitsubishi Electric Corp | ログ分析装置 |
CN109271356A (zh) * | 2018-09-03 | 2019-01-25 | 中国平安人寿保险股份有限公司 | 日志文件格式处理方法、装置、计算机设备和存储介质 |
CN109992776A (zh) * | 2019-03-26 | 2019-07-09 | 北京博瑞彤芸文化传播股份有限公司 | 一种中文分词方法 |
CN111708860A (zh) * | 2020-06-15 | 2020-09-25 | 北京优特捷信息技术有限公司 | 信息提取方法、装置、设备及存储介质 |
CN112579707A (zh) * | 2020-12-08 | 2021-03-30 | 西安邮电大学 | 一种日志数据的知识图谱构建方法 |
CN114818643A (zh) * | 2022-06-21 | 2022-07-29 | 北京必示科技有限公司 | 一种保留特定业务信息的日志模板提取方法 |
CN115098657A (zh) * | 2022-06-27 | 2022-09-23 | 阿里云计算有限公司 | 自然语言转换数据库查询语句的方法、设备及介质 |
Non-Patent Citations (3)
Title |
---|
An online log template extraction method based on hierarchical clustering;Ruipeng Yang et al;《EURASIP Journal on Wireless Communications & Networking》;20191231;全文 * |
日志异常检测与诊断关键技术研究;杨瑞朋;《中国博士学位论文全文数据库电子期刊 信息科技辑》;20210115;第2021年卷(第1期);全文 * |
面向云服务的日志处理系统关键技术研发;周超;《中国优秀硕士学位论文全文数据库电子期刊 信息科技辑》;20210515;第2021年卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115544975A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3846048A1 (en) | Online log analysis method, system, and electronic terminal device thereof | |
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
CN107704539B (zh) | 大规模文本信息批量结构化的方法及装置 | |
US20230161802A1 (en) | Method and device for constructing standard knowledge graph, and method and device for querying standard | |
CN115544975B (zh) | 一种日志格式转换方法及设备 | |
CN112380838A (zh) | 一种基于大数据的专利文件智能标引方法及装置 | |
KR20140053888A (ko) | 판식 파일중 구조화 정보 획득방법 및 장치 | |
CN113704667B (zh) | 一种招标公告的自动提取处理方法和装置 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN104156373B (zh) | 编码格式检测方法及装置 | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
CN115080704A (zh) | 一种基于评分机制的计算机文件保密检查方法及系统 | |
CN113360603B (zh) | 一种合同相似性及合规性检测方法及装置 | |
CN117436440A (zh) | 一种日志识别方法、系统、终端设备及存储介质 | |
CN111241096A (zh) | 一种excel文档的文本提取方法、系统、终端及存储介质 | |
CN114462383B (zh) | 建筑图纸设计说明书获取方法、系统、存储介质及设备 | |
CN112925874B (zh) | 基于案例标记的相似代码搜索方法及系统 | |
CN112347765B (zh) | 基于词典匹配的实体标注方法、模块及装置 | |
CN113343051B (zh) | 一种异常sql检测模型构建方法及检测方法 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN114220113A (zh) | 一种论文质量检测方法、装置和设备 | |
CN109344254B (zh) | 一种地址信息分类方法及装置 | |
CN113515588A (zh) | 表单数据检测方法、计算机装置及存储介质 | |
CN112417220A (zh) | 一种异构数据的整合方法 | |
CN117523590B (zh) | 一种校验生产厂商名称的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |