CN106202004A

CN106202004A - 基于正则表达及分隔符的组合式数据切割方法

Info

Publication number: CN106202004A
Application number: CN201610547584.3A
Authority: CN
Inventors: 程永新; 宋辉; 谢涛; 谭林; 罗成
Original assignee: Shanghai Qingwei Software Co Ltd
Current assignee: Shanghai Qingwei Software Co Ltd
Priority date: 2016-07-13
Filing date: 2016-07-13
Publication date: 2016-12-07
Anticipated expiration: 2036-07-13
Also published as: CN106202004B

Abstract

本发明公开了一种基于正则表达及分隔符的组合式数据切割方法，包括如下步骤：a)读取日志文件；b)按照时间戳或开始符识别并提取日志文件中的事件；c)对提取出来的事件内容按照固定分隔符或正则表达的方式进行数据提取；所述步骤b)选取多个预设字符串作为开始符，并将多个预设字符串转换为多个正则表达式，然后遍历每一行日志数据，依次匹配每一个正则表达式。本发明提供的基于正则表达及分隔符的组合式数据切割方法，根据不同的事件类型采用不同的切割方式，每种切割方式对应一个范围内的日志，通过每种方式提供的字符串操作，从而满足各种复杂日志的快速识别切割，简单易用，并具有较好的扩展性。

Description

基于正则表达及分隔符的组合式数据切割方法

技术领域

本发明涉及一种数据切割提取方法，尤其涉及一种基于正则表达及分隔符的组合式数据切割方法。

背景技术

现有的数据切割提取方法主要有如下三种方式：

1.采用自己编写程序的方式进行数据切割提取，根据不同的数据格式，编写对应的数据切割程序，在程序中控制数据的切割规则及提取、输出。针对不同的平台可以采用不同的编程语言进行程序编写。编写程序进行数据切割的灵活度非常高，基本可以满足所有的数据切割的需求。

2.采用固定分割符的方式进行数据切割提取，此方案非常适合在数据比较格式化的情况下进行，通常数据是按某种固定的分割符进行格式化的，只需按照这种分隔符进行分割，在配合预先固定的字段顺序进行一一赋值即可提取数据。且效率较高，目前按照固定分隔符格式化的数据都能进行提取。

3.采用正则表达的方式进行数据提取，在目前数据源的种类及格式是非常多样的，往往数据的输出是没有采用固定格式的，固定分隔符的切割方案往往无法满足这种，所以需要具备切割灵活度非常高的方案才能进行数据切割。正则表达式具备了高度的灵活性，不同的数据格式，都可以通过一种正则表达式进行识别提取。数据通过正则表达式的逻辑过滤，满足该逻辑的则进行数据提取。

方式1的编程代码匹配存在如下缺点：针对每种数据都要进行一次程序编写、测试，耗时较大。需要具备一定水平的编程能力及调试能力。方式2的常用分割符匹配存在如下缺点：只能切割已经格式化的数据；不能精确提取；识别内容容易错位以及灵活度低。方式2的正则表达式匹配则存在如下缺点：需要具备较高的技术水平需求；正则表达式编写非常复杂，很容易出现误操作；难以维护和修改；扩展性较差；识别速度较慢，精度不够准确；不能精确提取；识别内容容易错位。

发明内容

本发明所要解决的技术问题是提供一种基于正则表达及分隔符的组合式数据切割方法，能够满足各种复杂日志的快速识别切割，简单易用，并具有较好的扩展性。

本发明为解决上述技术问题而采用的技术方案是提供一种基于正则表达及分隔符的组合式数据切割方法，包括如下步骤：a)读取日志文件；b)按照时间戳或开始符识别并提取日志文件中的事件；c)对提取出来的事件内容按照固定分隔符或正则表达的方式进行数据提取。

上述的基于正则表达及分隔符的组合式数据切割方法，其中，所述步骤b)对日志文件中的每一行日志数据，按照时间戳识别并提取事件，具体过程如下：b1)初始化数据，将中英文的月份作为匹配时间中的月份的检索词；b2)将每一行日志数据按照字符和数字分开；b3)寻找时间中的时分秒格式，标识为time；b4)判断时间特征，寻找月份，标识为month；b5)通过下标距离计算距离时分秒最短的两位数字为日，标识为day；b6)寻找是否存在四位的整数，如果存在,则标识为year；b7)如果存在time，month，day，year或者time，month，day，则判断存在时间格式。

上述的基于正则表达及分隔符的组合式数据切割方法，其中，所述步骤b)选取多个预设字符串作为开始符，并将多个预设字符串转换为多个正则表达式，然后遍历每一行日志数据，依次匹配每一个正则表达式，如果存在一个满足匹配，则判断为事件的界限。

上述的基于正则表达及分隔符的组合式数据切割方法，其中，所述步骤c)包括：先对提取出来的事件内容按照预先定义的常用分割符号进行第一次切割，将切割出来的字段再进行二次切割；所述二次切割通过预先定义的常用分割符号再次切割或者通过鼠标滑动选中想要提取的内容；对切割出来的字段继续进行循环切割，直到划分出预定的目标结果；将切割后的内容组装成一个树形结构数据，通过转换生成正则表达式。

上述的基于正则表达及分隔符的组合式数据切割方法，其中，所述步骤c)将提取出来的事件内容划分为标识词和提取词，所述标识词在日志的开始下标记为markStartIndex，结束下标称记为markEndIndex,所述提取词在日志的开始下标记为wordStartIndex，结束下标记为wordEndIndex；所述步骤c)通过如下转换生成正则表达式：c1)获取下一个标识词，如果存在，那么通过该标识词markStartIndex和markEndIndex，得到该标识词的值，记为markValue，否则结束生成正则表达式；c2)对markValue进行字符分析，计算每个符号的个数，根据每一个符号的权值，计算出最大值权值的符号，作为标识符，根据标识符的格式动态生成正则表达式，记为markRegex；同时，记录该标识符出现在标识词最后的下标为markCharEndIndex；如果计算出没有符号权值，那么根据字符值译作为标识,也记为markRegex；c3)获取下一个提取词，通过提取词提取wordStartIndex和wordEndIndex，得到该提取词的值，记为wordValue；c4)判断wordValue左右是否有符号，如果存在符号，那么以符号标识该提取的开始和结束，记为wordRegex；如果不存在这样的符号，那么根据字符值译，标识为wordRegex；c5)通过markCharEndIndex和wordStartIndex下标获取该段的字符值，根据正则表达式值译，记为midRegex；c6)组合markRegex,midRegex和wordRegex三者的正则表示记为extractRegex，该段的动态正则表达式匹配生成结束，重复步骤c1直至为所有的事件内容生成正则表达式。

本发明对比现有技术有如下的有益效果：本发明提供的基于正则表达及分隔符的组合式数据切割方法，根据不同的事件类型采用不同的切割方式，每种切割方式对应一个范围内的日志，通过每种方式提供的字符串操作，从而满足各种复杂日志的快速识别切割，简单易用，并具有较好的扩展性。

附图说明

图1为本发明的日志文件的整体解析流程图；

图2为本发明采用开始符确定日志的event模型格式流程图；

图3为本发明基于常规分隔符的数据切割流程图；

图4为本发明通过鼠标滑动选中提取内容的数据切割流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

图1为本发明的日志文件的整体解析流程图。

请参见图1，本发明提供的基于正则表达及分隔符的组合式数据切割方法，包括Event(模型)确认和按类型切割两个步骤。Event(模型)确认方法有如下两种：

1、时间戳识别方式

该方法将每一行日志数据，通过时间识别算法判断，如果存在时间格式，那么可以判断为event的界限，否则该日志不是event的界限。时间识别算法如下：

(1)初始化数据，将中文的月份和英文的月份作为匹配时间中的月份的重要信息。

(2)将日志数据按照字符，数字，字符分开，例如[11/Nov/2015:10:56:43 35，将会分成[,11,/,Nov,/,2015,:,10,:,56,:,43,35；

(3)寻找时间中的时分秒格式，例如10:56:43可以作为判断时间的初步判断，即是时间的时分秒存在,标识为time；

(4)判断时间特征，寻找月份，例如Nov，即是时间的月份存在，标识为month；

(5)通过下标距离算法计算两位数字的到时间中的时分秒的距离，记录最短为日，月,例如11标识为day；

(6)寻找是否存在四位的整数，如果存在,那么标识为year，例如2015；

(7)如果存在time，month，day，year或者time，month，day，那么说明存在时间，否则不存在时间格式。

时间识别还可配合下标距离算法：

(1)获取下标对应的值；

(2)和时间中的时分秒进行相减的差相乘，算出来的值，作为距离的值。

2、自定义(开始符识别)

该方法将多个字符串转换为多个正则表达式，遍历每一行日志数据，依次匹配每一个正则表达式，如果存在一个满足，退出匹配，可以判断为event的界限，否则该行日志不是event的界限。通过以上两种方式先确定日志的event(模型)格式，提取出每个日志中自己想要的event(模型)，可以一个也可以多个，再针对每个模型进行切割，如图2所示。

本发明的日志切割过程包括：

1、常规分割符号

1)、先通过一些定义的常用分割符号进行第一次切割，将切割出来的字段在进行二次切割。

2)、二次切割只有两种方式：1、通过常规分割符号在次切割2、通过鼠标滑动选中想要提取的内容。

3)、切割出来的字段可以再次切割，可以无限的切割下去，直到切出自己想要的结果。

4)、切割后内容成一个树形结构数据，通过转换成正则表达式，如图3所示。

2、正则匹配

1)、通过鼠标滑动选中字段，将字段提取出来，并获取到其开始下标，结束下标。

2)、将该内容组装成树形数据结构，字段会通过转化代码生成正则表达式，如图4所示。

本发明提供的基于正则表达及分隔符的组合式数据切割方法，按照以下方式生成正则表达式：

日志数据概念说明：192.168.4.150[11/Nov/2015:10:56:43，提取其中的11/Nov/2015:10:56:43。其中的192.168.4.150称为标识词，而该词在日志的开始下标称为标识词的开始下标，记为markStartIndex，结束下标称为标识词的结束下标，记为markEndIndex,而11/Nov/2015:10:56:43成为提取词，而该词的在日志的开始下标称为提取词的开始下标，记为记为wordStartIndex，结束下标称为提取的结束下标,记为wordEndIndex。算法步骤如下：

(1)获取下一个标识词，如果存在，那么通过该标识词markStartIndex和markEndIndex，得到该标识词的值，记为markValue，否则结束生成正则表达式。

(2)对markValue进行字符分析，计算每个符号的个数，根据每一个符号的权值，计算出最大的符号权值作为标识符，根据标识符的格式动态生成正则表达式，记为markRegex。同时，记录该标识符出现在标识词最后的下标为markCharEndIndex。如果计算出没有符号权值，那么根据字符值译作为标识,也记为markRegex。

(3)获取下一个提取词，通过提取词提取wordStartIndex和wordEndIndex，得到该提取词的值，记为wordValue。

(4)判断wordValue,左右是否有符号，如果存在符号，那么以符号标识该提取的开始和结束，记为wordRegex。如果不存在这样的符号，那么根据字符值译，标识为wordRegex。

(5)通过markCharEndIndex和wordStartIndex下标获取该段的字符值，根据正则表达式值译，记为midRegex。

(6)组合markRegex,midRegex和wordRegex三者的正则表示记为extractRegex，该段的动态正则表达式匹配生成结束，重复进行步骤(1)。

综上所述，本发明提供的基于正则表达及分隔符的组合式数据切割方法，通过提取多个不同类型的event，多个不同的类型按不同时的切割方式进行切割，提取模型越多识别越精确；从而可以快速识别多行数据并自动化合成一个事件数据，满足多数据格式的多次数据切割需求，并可自由结合使用正则表达及分割符。具体优点如下：1)用户只需要对字符串进行操作，不需要特别学习正则表达式；2)可采用可视化界面，用户可以清楚的知道自己提取了什么字段；3)简单、易用；4)可以支持大部分日志；5)性能比人工写的正则要好，识别速度快；6)对于复杂的日志可以通过二次切割非常快速的提取想要的结果；7)拥有较好的扩展性。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种基于正则表达及分隔符的组合式数据切割方法，其特征在于，包括如下步骤：

a)读取日志文件；

b)按照时间戳或开始符识别并提取日志文件中的事件；

c)对提取出来的事件内容按照固定分隔符或正则表达的方式进行数据提取。

2.如权利要求1所述的基于正则表达及分隔符的组合式数据切割方法，其特征在于，所述步骤b)对日志文件中的每一行日志数据，按照时间戳识别并提取事件，具体过程如下：

b1)初始化数据，将中英文的月份作为匹配时间中的月份的检索词；

b2)将每一行日志数据按照字符和数字分开；

b3)寻找时间中的时分秒格式，标识为time；

b4)判断时间特征，寻找月份，标识为month；

b5)通过下标距离计算距离时分秒最短的两位数字为日，标识为day；

b6)寻找是否存在四位的整数，如果存在,则标识为year；

b7)如果存在time，month，day，year或者time，month，day，则判断存在时间格式。

3.如权利要求1所述的基于正则表达及分隔符的组合式数据切割方法，其特征在于，所述步骤b)选取多个预设字符串作为开始符，并将多个预设字符串转换为多个正则表达式，然后遍历每一行日志数据，依次匹配每一个正则表达式，如果存在一个满足匹配，则判断为事件的界限。

4.如权利要求1所述的基于正则表达及分隔符的组合式数据切割方法，其特征在于，所述步骤c)包括：

先对提取出来的事件内容按照预先定义的常用分割符号进行第一次切割，将切割出来的字段再进行二次切割；

所述二次切割通过预先定义的常用分割符号再次切割或者通过鼠标滑动选中想要提取的内容；

对切割出来的字段继续进行循环切割，直到划分出预定的目标结果；

将切割后的内容组装成一个树形结构数据，通过转换生成正则表达式。

5.如权利要求4所述的基于正则表达及分隔符的组合式数据切割方法，其特征在于，所述步骤c)将提取出来的事件内容划分为标识词和提取词，所述标识词在日志的开始下标记为markStartIndex，结束下标称记为markEndIndex,所述提取词在日志的开始下标记为wordStartIndex，结束下标记为wordEndIndex；所述步骤c)通过如下转换生成正则表达式：

c1)获取下一个标识词，如果存在，那么通过该标识词markStartIndex和markEndIndex，得到该标识词的值，记为markValue，否则结束生成正则表达式；

c2)对markValue进行字符分析，计算每个符号的个数，根据每一个符号的权值，计算出最大的符号权值作为标识符，根据标识符的格式动态生成正则表达式，记为markRegex；同时，记录该标识符出现在标识词最后的下标为markCharEndIndex；如果计算出没有符号权值，那么根据字符值译作为标识,也记为markRegex；

c3)获取下一个提取词，通过提取词提取wordStartIndex和wordEndIndex，得到该提取词的值，记为wordValue；

c4)判断wordValue左右是否有符号，如果存在符号，那么以符号标识该提取的开始和结束，记为wordRegex；如果不存在这样的符号，那么根据字符值译，标识为wordRegex；

c5)通过markCharEndIndex和wordStartIndex下标获取该段的字符值，根据正则表达式值译，记为midRegex；

c6)组合markRegex,midRegex和wordRegex三者的正则表示记为extractRegex，该段的动态正则表达式匹配生成结束，重复步骤c1直至为所有的事件内容生成正则表达式。