CN106598827A

CN106598827A - 提取日志数据的方法及装置

Info

Publication number: CN106598827A
Application number: CN201611178382.2A
Authority: CN
Inventors: 吴擒龙
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2017-04-26
Anticipated expiration: 2036-12-19
Also published as: CN106598827B

Abstract

本发明公开了一种提取日志数据的方法及装置，涉及数据分析技术领域，解决了现有的提取日志中特定内容准确性较低的问题。本发明的方法包括：获取目标字段；分别依据不同的生成策略生成目标字段对应的正则表达式集合；根据正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配，每个正则表达式至多匹配出一个匹配数据；计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；选择匹配值最大的匹配数据确定为待匹配日志中与目标字段同类别的数据。本发明应用于日志分析的过程中。

Description

提取日志数据的方法及装置

技术领域

本发明涉及数据分析技术领域，尤其涉及一种提取日志数据的方法及装置。

背景技术

在对大量的日志分析时，通常需要提取每条日志中的某些特定的内容，比如IP地址、生成时间等等。虽然日志内容通常遵循一定的模式，但是这种模式往往是隐晦的，是不容易直观获取到的。所以在提取某些特定的内容时，通常会根据提取的内容设计对应的正则表达式，然后依据正则表达式来提取日志中特定的内容。

通常正则表达式的准确度直接影响提取内容的准确率，因此正则表达式的生成至关重要。现有的生成正则表达式的方式主要有两种：一种是人工方式，另一种是自动化方式。其中人工方式即通过人工的手段去为每一个字段的提取编写正则表达式，这种方式有一定的技术门槛，并且日志的模式可能会变化，所以还需要不断的更新正则表达式，这样增加了正则表达式维护的难度。自动化方式即通过软件自动生成正则表达式。在实际的应用中，对于自动化生成正则表达式的生成策略有多种，比如贪婪模式、勉强模式、侵占模式等等，但是每一种生成策略得到的正则表达式在实际的应用中都有可能出现提取内容不正确或者提取不到所需要的内容的情况,因此导致提取的准确度较低。

发明内容

鉴于上述问题，本发明提供一种提取日志数据的方法及装置，用以解决现有的提取日志中特定内容准确性较低的问题。

为解决上述技术问题，第一方面，本发明提供了一种提取日志数据的方法，所述方法包括：

获取目标字段，所述目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与所述目标字段同类别的数据；

分别依据不同的生成策略生成所述目标字段对应的正则表达式集合，所述正则表达式集合中每一个正则表达式对应一种生成策略；

根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配，每个正则表达式至多匹配出一个匹配数据；

计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；

选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据。

可选的，所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据，包括：

将最大的匹配值与预设匹配阈值比较；

若大于预设匹配阈值，则将匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据；

若小于等于预设匹配阈值，则对待匹配日志的提取失败。

可选的，在所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据之后，所述方法进一步包括：

将与匹配值最大的匹配数据对应的每个正则表达式的权重得分增大，得到新的权重得分；

依据新的权重得分计算下一条待匹配日志对应的匹配数据的匹配值。

可选的，在根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配之后，所述方法进一步包括：

判断待匹配日志中是否匹配出匹配数据；

若匹配到匹配数据，则执行计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；

若没有匹配到匹配数据，则对待匹配日志的提取失败。

可选的，在所述分别依据不同的生成策略生成所述目标字段对应的正则表达式集合之后，所述方法进一步包括：

将所述正则表达式集合中的所有正则表达式输出展示；

接收修改正则表达式的修改请求，以根据所述修改请求修改对应的正则表达式。

可选的，若获取到多个目标字段，所述方法进一步包括：

分别针对每个目标字段单独执行确定所述待匹配的日志中与所述目标字段同类别的数据；

在依据最后一个目标字段执行确定所述待匹配的日志中与所述目标字段同类别的数据后，对下一条待匹配日志执行确定与所述目标字段同类别的数据。

可选的，在所述获取目标字段之后，所述方法进一步包括：

输出填写所述目标字段的字段名称的提示框，以使外部通过所述提示框输入字段名称；

接收所述字段名称，以使所述字段名称与从所有待匹配日志中提取出的与目标字段同类别的数据关联显示。

第二方面，本发明提供了一种提取日志数据的装置，所述装置包括：

获取单元，用于获取目标字段，所述目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与所述目标字段同类别的数据；

生成单元，用于分别依据不同的生成策略生成所述目标字段对应的正则表达式集合，所述正则表达式集合中每一个正则表达式对应一种生成策略；

匹配单元，用于根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配，每个正则表达式至多匹配出一个匹配数据；

计算单元，用于计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；

数据确定单元，用于选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据。

可选的，所述数据确定单元包括：

比较模块，用于将最大的匹配值与预设匹配阈值比较；

第一确定模块，用于若大于预设匹配阈值，则将匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据；

第二确定模块，用于若小于等于预设匹配阈值，则对待匹配日志的提取失败。

可选的，所述装置进一步包括：

调节单元，用于在所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据之后，将与匹配值最大的匹配数据对应的每个正则表达式的权重得分增大，得到新的权重得分；

所述计算单元，还用于依据新的权重得分计算下一条待匹配日志对应的匹配数据的匹配值。

可选的，所述装置进一步包括：

判断单元，用于在根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配之后，判断待匹配日志中是否匹配出匹配数据；

执行单元，用于若匹配到匹配数据，则执行计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；

提取失败确定单元，用于若没有匹配到匹配数据，则对待匹配日志的提取失败。

可选的，所述装置进一步包括：

展示单元，用于在所述分别依据不同的生成策略生成所述目标字段对应的正则表达式集合之后，将所述正则表达式集合中的所有正则表达式输出展示；

修改请求接收单元，用于接收修改正则表达式的修改请求，以根据所述修改请求修改对应的正则表达式。

可选的，所述数据确定单元，还用于若获取到多个目标字段，分别针对每个目标字段单独执行确定所述待匹配的日志中与所述目标字段同类别的数据；以及在依据最后一个目标字段执行确定所述待匹配的日志中与所述目标字段同类别的数据后，对下一条待匹配日志执行确定与所述目标字段同类别的数据。

可选的，所述装置进一步包括：

输出单元，用于在所述获取目标字段之后，输出填写所述目标字段的字段名称的提示框，以使外部通过所述提示框输入字段名称；

字段名称接收单元，用于接收所述字段名称，以使所述字段名称与从所有待匹配日志中提取出的与目标字段同类别的数据关联显示。

借由上述技术方案，本发明提供的提取日志数据的方法及装置，在提取日志中的目标字段对应的同类别的数据时，结合多个正则表达式匹配的结果综合确定提取结果，其中每个正则表达式对应一个正则表达式生成策略。现有技术中当通过正则表达式对日志进行目标字段对应的同类别的数据提取时，是由一个正则表达式来确定提取结果，而本发明中是将由多数个正则表达式匹配出的同样的数据作为提取结果，这样即使某一种或少数几种正则表达式匹配到不准确的内容，也不会被作为最终的提取结果，而是选择数量更多的正则表达式匹配出的同样的数据作为提取结果，这样通过使用其他的更多的正则表达式来辅助确定目标字段，使提取的结果更加准确。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种提取日志数据的方法的流程图；

图2示出了本发明实施例提供的另一种提取日志数据的方法的流程图；

图3示出了本发明实施例提供的一种提取日志数据的界面的设计以及操作的示意图；

图4示出了本发明实施例提供的又一种提取日志数据的方法的流程图；

图5示出了本发明实施例提供的一种提取日志数据的装置的组成框图；

图6示出了本发明实施例提供的另一种提取日志数据的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决现有的提取日志中特定内容准确性较低的问题，本发明实施例提供了一种提取日志数据的方法，如图1所示，该方法包括：

101、获取目标字段。

其中，目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与目标字段同类别的数据；输入设备包括鼠标键盘等。

需要说明的是，本实施例中对于日志数据，目标字段为样本日志中以及待匹配日志中都包含的同一类别的内容，比如日志中包含的网间协议(Internet Protocol，IP)地址对应的IP地址字段、日志生成的时间对应的时间字段、日志中包含的网络链接对应的链接字段以及网络端口字段等等。

本实施例中使用户通过输入设备选择目标字段的方式更加的方便和准确，提高了后续提取待匹配日志中与目标字段同类别的数据的效率。

102、分别依据不同的生成策略生成目标字段对应的正则表达式集合。

获取到目标字段后，根据目标字段以及样本日志与目标字段相邻的数据的特征生成用于匹配与目标字段同类别的数据的正则表达式。具体的，本实施例中提供多种生成正则表达式的生成策略，依据每个生成策略自动化地生成对应目标字段的正则表达式，每种生成策略得到一个正则表达式，最终每个目标字段对应得到一组正则表达式，一组正则表达式记作一个正则表达式集合。

需要说明的是，多个生成策略包括贪婪模式、勉强模式、侵占模式等等现有的可以生成正则表达式的生成策略。具体的生成策略的数量可以自由确定，通常生成策略越多，最后提取到的与目标字段同类别的数据的结果更准确。

103、根据正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配。

每个正则表达式对待匹配日志进行匹配的结果可以分为两种情况：一种是匹配到匹配数据，一种是没有匹配到匹配数据，并且若匹配到匹配数据也是一个匹配数据。

需要说明的是，本步骤中具体使用正则表达式对待匹配日志进行匹配的过程是通过现有的自动化的匹配程序完成的。

104、计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值。

每个正则表达式分配一个权重，由于在进行匹配之前无法预知哪些正则表达式的匹配结果更加准确，因此，将每个正则表达式的权重设为相等的。例如，可以将每个正则表达式的权重设为1/正则表达式的总数量。然后根据所有正则表达式的权重得分计算每个匹配数据对应的匹配值。

给出具体的示例，对计算匹配数据的匹配值进行详细说明。假设目标字段为IP字段，目标字段对应的正则表达式集合中包含5个正则表达式分别为A1、A2、A3、A4、A5，并且每个正则表达式的权重得分为1/5＝0.2，在对待匹配日志匹配后，得到的匹配结果为：A1没有匹配到匹配数据，A2、A3以及A4匹配到的匹配数据都为字符串L1，A5匹配到的匹配数据为字符串L2。

则匹配数据L1的匹配值P1＝(0.2+0.2+0.2)/1＝0.6

匹配数据L2的匹配值P1＝0.2/1＝0.2

上述计算匹配数据匹配值的方法可以用下述公式来表示：

其中，P为匹配数据的匹配值，H_i为第i个正则表达式是否匹配到该匹配数据，S_i为正则表达式集合中第i个正则表达式的权重得分。表示所有正则表达是的权重得分之和，表示当第i个正则表达式匹配到该匹配数据时，将该正则表达式的权重得分进行累加，得到所有匹配到该匹配数据的正则表达式的权重得分之和。

105、选择匹配值最大的匹配数据确定为待匹配日志中与目标字段同类别的数据。

从步骤104中计算匹配数据的匹配值的示例中可以看出，不同的匹配数据对得到的匹配值是不同的。匹配值越大表示有更多的正则表达式匹配到该匹配数据，被越多的正则表达式匹配到表示匹配的结果越准确，因此将匹配值最大的匹配数据作为待匹配日志中与目标字段同类别的数据。

本发明实施例提供的提取日志数据的方法，在提取日志中的目标字段对应的同类别的数据时，结合多个正则表达式匹配的结果综合确定提取结果，其中每个正则表达式对应一个正则表达式生成策略。现有技术中当通过正则表达式对日志进行目标字段对应的同类别的数据提取时，是由一个正则表达式来确定提取结果，而本发明中是将由多数个正则表达式匹配出的同样的数据作为提取结果，这样即使某一种或少数几种正则表达式匹配到不准确的内容，也不会被作为最终的提取结果，而是选择数量更多的正则表达式匹配出的同样的数据作为提取结果，这样通过使用其他的更多的正则表达式来辅助确定目标字段，使提取的结果更加准确。

对图1所示方法的细化及扩展，本实施例还提供了一种提取日志数据的方法，如图2所示：

201、获取目标字段。

本步骤中获取目标字段的实现方式与图1步骤101中获取目标字段的实现方式是相同的，此处不再赘述。

另外，在获取目标字段后，还会输出使用户填写目标字段的字段名称的提示框，以使用户通过提示框输入字段名称，字段名称是用户自己定义的；然后接收用户输入的字段名称，接收用户定义的字段名称是为了使字段名称与从所有待匹配日志中提取出的与目标字段同类别的数据关联显示，比如可以用表格的形式显示等。将目标字段与匹配数据关联显示也是为了方便用户查看。尤其当目标字段为多个字段的情况下，每个待匹配日志中得到的匹配数据也是多个，通过字段名称可以更快速的查看或者识别出对应不同目标字段的匹配数据。

202、分别依据不同的生成策略生成目标字段对应的正则表达式集合。

本步骤中生成目标字段对应的正则表达式集合的实现方式与图1步骤102中生成目标字段对应的正则表达式集合的实现方式是相同的，此处不再赘述。

另外，本发明实施例在生成正则表达式之后，将正则表达式集合中的所有正则表达式输出展示，为想要查看生成的正则表达式或者想要对自动化生成的正则表达式的进行修改的用户提供方便；

若用户对展示的正则表达式进行修改，则接收修改正则表达式的修改请求，以根据修改请求修改对应的正则表达式。

203、根据正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配。

因为并不能保证正则表达式集合中的正则表达式一定能够匹配到匹配数据，因此在对待匹配日志进行匹配之后，还需要判断待匹配日志中是否匹配出匹配数据；

若匹配到匹配数据，则执行步骤204中计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；

若没有匹配到匹配数据，则对待匹配日志的提取失败，继续对下一条日志的匹配。需要说明的是，没有匹配到匹配数据表示正则表达式集合中的任何一个正则表达式都没有匹配到任何数据。

204、计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值。

本步骤的实现方式与图1步骤104的实现方式相同，此处不再赘述。

205、将最大的匹配值与预设匹配阈值比较。

为了降低由更多个正则表达式得到的同样的匹配内容同样存在不准确的情况，设置了预设匹配阈值，匹配阈值是用来进一步确定最大匹配值对应的匹配数据是否可以作为最终的与目标字段同类别的数据的依据。因此需要将由步骤204中计算出的待匹配日志中匹配出的所有匹配数据的匹配值中最大的值与预设匹配阈值比较。需要说明的是，预设匹配阈值越大，匹配越严格，具体的预设匹配阈值的大小可以根据实际的提取要求自由定义。

206、若大于预设匹配阈值，则将匹配值最大的匹配数据确定为待匹配日志中与目标字段同类别的数据；

若最大的匹配值大于预设匹配阈值，则表示满足了匹配的要求，因此可以将匹配值最大的匹配数据确定为待匹配日志中与目标字段同类别的数据。

若最大的匹配值小于等于预设匹配阈值，则表示不满足匹配的要求，因此确定对待匹配日志的提取失败，即没有匹配数据。

为了进一步的提高提取待匹配日志中与目标字段同类别的数据的效率，在提取的过程中动态的调整正则表达式集合中正则表达式的权重得分，使能够正确提取到匹配内容的正则表达式的权重得分增加，对应的提取不准确的正则表达式的权重得分就会相对降低，这样可以使不准确的正则表达式在决定最终匹配结果时尽可能减少决定权。具体的动态调整正则表达式集合中正则表达式的权重得分的实现方法为：在将匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据之后，将与匹配值最大的匹配数据对应的每个正则表达式的权重得分增大，得到新的权重得分，而其他没有匹配到匹配值最大的匹配数据的正则表达式的权重得分不变；然后依据新的权重得分计算下一条待匹配日志对应的匹配数据的匹配值。其中，与匹配值最大的匹配数据对应的每个正则表达式为对待匹配日志进行匹配，匹配到该匹配数据的正则表达式。需要说明的是，在对正则表达式的权重得分增大时，具体增大的阈值可以根据实际的需求自由设定。

对于步骤201，若获取到多个目标字段，分别针对每个目标字段单独执行上述步骤201到206来确定待匹配的日志中与目标字段同类别的数据；在依据最后一个目标字段执行完步骤201到206确定待匹配的日志中与目标字段同类别的数据后，对下一条待匹配日志执行确定与多个目标字段同类别的数据。

在实际应用中，在对大量日志进行分析，根据上述图1或者图2所示的提取日志数据的方法，最终可以将日志中的不同的类别的数据分别提取出来，使非结构化的日志数据转换为结构化的数据，结构化的数据方便后续的查看和使用。

另外，对应于上述图2中的提取日志数据的方法，本发明实施例提供一种提取日志数据的界面的设计以及操作的示意图，如图3所示。其中每一个界面中包括三个部分，从上到下依次为预设日志样本展示部分、正则表达式展示部分以及待匹配日志以及对应的匹配结果展示部分。其中预设日志样本展示部分用于添加预设日志样本，并使用户对预设日志样本进行选择目标字段。正则表达式展示部分用于将根据所有生成策略生成的正则表达式进行展示，另外该部分中设计了两个组件，一个是保存，一个是编辑，编辑的功能是用户可以通过编辑功能对已经生成的正则表达式进行修改，保存的功能是将修改后的正则表达式保存，来替代修改前的正则表达式进行正则匹配。待匹配日志以及对应的匹配结果展示部分，用于将最终确定的待匹配日志中与目标字段为同类型的匹配数据在待匹配日志中突出显示。图3中三个界面分别对应不同的操作状态，第一个界面状态为用户选择完目标字段，其中目标字段为日志样本中选中的部分(图3中具体为IP地址)，用户选择完目标字段后跳转到第二个界面，输出填写目标字段名称的提示框；用户填写完目标字段的字段名称并确定后，跳转到第三个界面，生成正则表达式，并同时将最终的匹配结果在待匹配日志以及对应的匹配结果展示部分展示出来，具体在图3中的第三个界面可以看到，每个匹配日志中IP部分(选中的部分)已经被匹配出来。实际应用中，第三个界面之前还可以再添加一个界面，即相比于第三个界面未将待匹配日志以及对应的匹配结果展示部分展示出来，只显示生成的正则表达式，在用户确定匹配的正则表达式之后再输出第三个界面。

对应于上述图3中的示意图，本发明实施例给出另一种提取日志数据的方法的流程图，如图4所示：首先用户将日志输入到图3中的预设日志样本展示部分，然后用户通过鼠标选取一个或者多个目标字段，然后由提取日志数据的方法对应的后台程序根据不同的生成策略生成对应每个目标字段的正则表达式集合，正则表达式集合的生成对应于上述图2中的步骤202，生成的正则表达式集合输出展示在图3中的正则表达式展示部分，然后“用各个目标字段的正则表达式集合逐条对待匹配的日志进行提取，得到待匹配日志中与目标字段同类别的数据”该部分对应于图2步骤203至步骤206的实现过程。另外在进行提取的过程中还需要动态调整正则表达式的权重得分，具体调整对应于上述“将能够正确提取到匹配内容的正则表达式的权重得分增加”的实现。最终输出的结构化数据是指，每条日志被提取后，可以分离出独立的不同类别的数据。比如假设日志中包含IP地址、时间、网址链接、网络端口号，设定的目标字段为预设日志样本中的IP地址字段、时间字段、网址链接字段、网络端口号字段，则最终得到的结构化数据的形式为：IP地址字段-C、时间字段-D、网址链接字段-E、网络端口号字段-F。结构化的数据可以通过表格等形式展示，结构化的数据方便后续日志分析时的查看和使用。

进一步的，作为对上述各实施例的实现，本发明实施例的另一实施例还提供了一种提取日志数据的装置，用于实现上述图1以及图2所述的方法。如图5所示，该装置包括：获取单元301、生成单元302、匹配单元303、计算单元304以及数据确定单元305。

获取单元301，用于获取目标字段，目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与目标字段同类别的数据；

生成单元302，用于分别依据不同的生成策略生成目标字段对应的正则表达式集合，正则表达式集合中每一个正则表达式对应一种生成策略；

匹配单元303，用于根据正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配，每个正则表达式至多匹配出一个匹配数据；

计算单元304，用于计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；

则匹配数据L1的匹配值P1＝(0.2+0.2+0.2)/1＝0.6

匹配数据L2的匹配值P1＝0.2/1＝0.2

上述计算匹配数据匹配值的方法可以用下述公式来表示：

数据确定单元305，用于选择匹配值最大的匹配数据确定为待匹配日志中与目标字段同类别的数据。

从计算单元304中计算匹配数据的匹配值的示例中可以看出，不同的匹配数据对得到的匹配值是不同的。匹配值越大表示有更多的正则表达式匹配到该匹配数据，被越多的正则表达式匹配到表示匹配的结果越准确，因此将匹配值最大的匹配数据作为待匹配日志中与目标字段同类别的数据。

如图6所示，数据确定单元305包括：

比较模块3051，用于将最大的匹配值与预设匹配阈值比较；

为了降低由更多个正则表达式得到的同样的匹配内容同样存在不准确的情况，设置了预设匹配阈值，匹配阈值是用来进一步确定最大匹配值对应的匹配数据是否可以作为最终的与目标字段同类别的数据的依据。因此需要将由计算单元304中计算出的待匹配日志中匹配出的所有匹配数据的匹配值中最大的值与预设匹配阈值比较。需要说明的是，预设匹配阈值越大，匹配越严格，具体的预设匹配阈值的大小可以根据实际的提取要求自由定义。

第一确定模块3052，用于若大于预设匹配阈值，则将匹配值最大的匹配数据确定为待匹配日志中与目标字段同类别的数据；

第二确定模块3053，用于若小于等于预设匹配阈值，则对待匹配日志的提取失败。

如图6所示，装置进一步包括：

调节单元306，用于在选择匹配值最大的匹配数据确定为待匹配日志中与目标字段同类别的数据之后，将与匹配值最大的匹配数据对应的每个正则表达式的权重得分增大，得到新的权重得分；

计算单元304，还用于依据新的权重得分计算下一条待匹配日志对应的匹配数据的匹配值。

如图6所示，装置进一步包括：

判断单元307，用于在根据正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配之后，判断待匹配日志中是否匹配出匹配数据；

执行单元308，用于若匹配到匹配数据，则执行计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；

提取失败确定单元309，用于若没有匹配到匹配数据，则对待匹配日志的提取失败。

如图6所示，装置进一步包括：

展示单元310，用于在分别依据不同的生成策略生成目标字段对应的正则表达式集合之后，将正则表达式集合中的所有正则表达式输出展示；

修改请求接收单元311，用于接收修改正则表达式的修改请求，以根据修改请求修改对应的正则表达式。

如图6所示，数据确定单元35，还用于若获取到多个目标字段，分别针对每个目标字段单独执行确定待匹配的日志中与目标字段同类别的数据；以及在依据最后一个目标字段执行确定待匹配的日志中与目标字段同类别的数据后，对下一条待匹配日志执行确定与目标字段同类别的数据。

如图6所示，装置进一步包括：

输出单元312，用于在获取目标字段之后，输出填写目标字段的字段名称的提示框，以使外部通过提示框输入字段名称；

字段名称接收单元313，用于接收字段名称，以使字段名称与从所有待匹配日志中提取出的与目标字段同类别的数据关联显示。

在获取目标字段后，还会输出使用户填写目标字段的字段名称的提示框，以使用户通过提示框输入字段名称，字段名称是用户自己定义的；然后接收用户输入的字段名称，接收用户定义的字段名称是为了使字段名称与从所有待匹配日志中提取出的与目标字段同类别的数据关联显示，比如可以用表格的形式显示等。将目标字段与匹配数据关联显示也是为了方便用户查看。尤其当目标字段为多个字段的情况下，每个待匹配日志中得到的匹配数据也是多个，通过字段名称可以更快速的查看或者识别出对应不同目标字段的匹配数据。

本发明实施例提供的提取日志数据的装置，在提取日志中的目标字段对应的同类别的数据时，结合多个正则表达式匹配的结果综合确定提取结果，其中每个正则表达式对应一个正则表达式生成策略。现有技术中当通过正则表达式对日志进行目标字段对应的同类别的数据提取时，是由一个正则表达式来确定提取结果，而本发明中是将由多数个正则表达式匹配出的同样的数据作为提取结果，这样即使某一种或少数几种正则表达式匹配到不准确的内容，也不会被作为最终的提取结果，而是选择数量更多的正则表达式匹配出的同样的数据作为提取结果，这样通过使用其他的更多的正则表达式来辅助确定目标字段，使提取的结果更加准确。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如提取日志数据的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种提取日志数据的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据，包括：

将最大的匹配值与预设匹配阈值比较；

若小于等于预设匹配阈值，则对待匹配日志的提取失败。

3.根据权利要求1或2中任一项所述的方法，其特征在于，在所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据之后，所述方法进一步包括：

4.根据权利要求3所述的方法，其特征在于，在根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配之后，所述方法进一步包括：

判断待匹配日志中是否匹配出匹配数据；

若没有匹配到匹配数据，则对待匹配日志的提取失败。

5.根据权利要求4所述的方法，其特征在于，在所述分别依据不同的生成策略生成所述目标字段对应的正则表达式集合之后，所述方法进一步包括：

将所述正则表达式集合中的所有正则表达式输出展示；

6.根据权利要求5所述的方法，其特征在于，若获取到多个目标字段，所述方法进一步包括：

7.根据权利要求6所述的方法，其特征在于，在所述获取目标字段之后，所述方法进一步包括：

8.一种提取日志数据的装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述数据确定单元包括：

比较模块，用于将最大的匹配值与预设匹配阈值比较；

10.根据权利要求8或9中任一项所述的装置，其特征在于，所述装置进一步包括：