CN100426300C

CN100426300C - 一种管理日志的方法及系统

Info

Publication number: CN100426300C
Application number: CNB2006101241706A
Authority: CN
Inventors: 高献伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2006-12-12
Filing date: 2006-12-12
Publication date: 2008-10-15
Anticipated expiration: 2026-12-12
Also published as: CN1975725A

Abstract

本发明实施例提供一种管理日志的方法和系统，该方法包括：管理系统将具有同一关键字段的原始日志记录映射成一条合并记录作为搜索数据源；当管理系统接收到用户的查询条件时，根据所述查询条件查找到所述搜索数据源中与所述查询条件对应的合并记录，并根据所述合并记录获取与所述查询条件对应的原始日志记录。利用该方法可以解决现有技术查询结果模糊的技术问题，以实现快速、精确的日志搜索，提高系统工作性能。

Description

一种管理日志的方法及系统

技术领域

本发明涉及信息安全领域，尤其涉及一种管理日志的方法及系统。

背景技术

随着电子商务的应用，产生了大量的业务信息，需要大量的安全系统来保证业务信息的安全。而安全系统的部署将产生了大量的日志信息，这其中不仅有数据库中的关系型信息，而且还有大量的非结构化的日志文件。大量的信息资源分散在各处，按照不同的分类、格式存放，而且受到不同的安全机制所控制管理。因此，审计部门对日志信息的搜索是安全审计的重要手段。

现有的大部分审计系统是利用数据库技术，把日志导入数据库，然后利用结构化查询语言(Structured Query Language，SQL)查询。利用数据库技术，可以对大部分日志数据进行查询，并导出结果，在数据量不大的情况下，是常用的查询手段。

发明人在使用数据库查询技术的过程中发现，数据库SQL查询是基于字符串匹配，需要对查询字段进行彻底对比，导致查询效率极低，对于TB(Tera Bytes，兆兆字节)级数据的查询需要小时级的时间。数据库查询返回大量的数据，但没有按照一定的规律排序，对审计人员来说，大量无规律的结果很难找到最符合条件的记录。再则，数据库查询必须明确知道表结构，要求维护人员掌握一定的数据库知识，按照一定的语法查询，这对安全审计人员来说，查询条件太复杂，效率低下，消耗的资源将越多。

数据查询的另一技术就是搜索引擎技术，提高了查询速度，适用于大量数据的快速、模糊查询，主要应用在网站搜索方面，支持大量的用户频繁查询。发明人在实施过程中发现，搜索引擎技术搜索出来的结果比较模糊，夹杂了很多干扰信息，不利于安全审计的日志搜索。

发明内容

本发明的实施例的目的在于，提供一种管理日志的方法及系统，可以实现精确查询，提高查询效率。

为了解决上述技术问题，本发明的实施例提供了一种管理日志的方法，该方法包括：

管理系统定期搜集新产生的原始日志，将具有同一关键字段的原始日志记录映射成一条合并记录作为搜索数据源；

当管理系统接收到用户的查询条件时，根据所述查询条件查找到所述搜索数据源中与所述查询条件对应的合并记录，并根据所述合并记录获取与所述查询条件对应的原始日志记录，将所述合并记录进行拆分处理，还原成多条原始记录，从所述多条原始记录中提取与所述查询条件相对应的原始记录。

相应地，本发明的实施例还提供了一种日志管理系统，包括：

日志搜集预处理模块：用于定期搜集新产生的原始日志并进行转码处理，把具有同一关键字段的原始日志记录映射成一条合并记录，作为搜索数据源保存到数据库中；

搜索处理模块：用于根据用户的查询条件查找到所述搜索数据源中与所述查询条件对应的合并记录，并将所述合并记录进行拆分处理，还原成多条原始记录，从所述多条原始记录中提取与所述查询条件相对应的原始记录。

其中，所述系统还包括：

索引文件产生模块：与日志搜集预处理模块和搜索处理模块耦接，用于从所述数据库中获取合并记录记录信息，并对所述合并记录信息进行语法处理及分词处理，对处理后的内容进行统计，以合并记录为索引单元创建索引文件。

实施本发明，具有如下有益效果：

在本发明的实施例提供的一种管理日志的方法及系统的技术方案中，通过数据库映射将具有同一关键字段的原始日志记录映射成一条合并记录，然后经过搜索处理模块一次查询得到合并记录，将该记录拆分成多条原始记录，再经过第二次查询处理，过滤掉不符合条件的原始日志记录，得到需要原始日志记录，这样提高了查询的精度。另外，将多条具有相同关键字的原始日志记录映射成一条合并记录，并以该合并记录为索引单元创建索引文件，减少了索引记录，也即节约了大量索引空间，也减少了处理次数，可以显著提高处理速度，解决了数据库查询技术中查询速度慢的技术问题，同时，降低了部署成本，提高了系统性能。

附图说明

图1是本发明实施例的一种日志管理系统实施例的结构示意图；

图2是本发明实施例的一种日志管理系统的优选实施例的结构示意图；

图3是本发明实施例的一种管理日志的方法的主要流程图；

图4是图3中步骤S21的具体流程图；

图5是本发明实施例中生成索引文件的步骤的具体流程图；

图6是图3步骤S22的具体流程图。

具体实施方式

在本发明的实施例提供的一种管理日志的方法及系统的技术方案中，通过数据库映射将具有同一关键字段的原始日志记录映射成一条合并记录，然后经过搜索处理模块一次查询得到合并记录，将该记录拆分成多条原始记录，再经过第二次查询处理，过滤掉不符合条件的原始日志记录，得到需要的原始日志记录。

下面结合附图，具体阐述本发明具体实施例的技术方案。

参考图1，是本发明实施例的一种日志管理系统实施例的结构示意图。由该图可知，该日志管理系统包括：

日志搜集预处理模块1：用于定期搜集新产生的原始日志并进行转码处理，把具有同一关键字段(如：时间字段)的原始日志记录映射成一条合并记录，作为搜索数据源保存到数据库中；

搜索处理模块3：用于根据用户的查询条件查找到所述搜索数据源中与所述查询条件对应的合并记录，并将所述合并记录进行拆分处理，还原成多条原始记录，从所述多条原始记录中提取与所述查询条件相对应的原始记录，返回给用户端4。

为了进一步阐述本发明实施例的具体技术方案，下面给出了一种日志管理系统的一个优选实施例。

参考图2，图示了本发明实施例的一种日志管理系统的优选实施例的结构示意图。该日志管理系统包括：日志搜集预处理模块1和搜索处理模块3，

其中所述系统还包括，

索引文件产生模块2：与日志搜集预处理模块1和搜索处理模块3耦接，用于从所述数据库中获取合并记录记录信息，并对所述合并记录信息进行语法处理及分词处理，对处理后的内容进行统计，以合并记录为索引单元创建索引文件。

其中，日志搜集预处理模块1包括：

日志搜集代理101：用于定期搜集新产生的原始日志，并进行转码处理，转换成统一的数据格式；

合并记录单元102：与日志搜集代理101耦接，用于将经转码处理后的具有同一关键字段的原始日志记录映射成一条合并记录，作为搜索数据源保存到数据库103中。

在上述实施例中，如图2所示，索引文件产生模块2包括：

爬虫处理单元201：从数据库103中获取合并记录信息，并保存到专用数据库204中；

解析处理单元202：与爬虫处理单元201耦接，用于对所述合并记录信息进行解析处理，并保存到临时文件中，同时清除专用数据库204的数据；

索引创建单元203：与解析处理单元202耦接，用于对所述合并记录信息进行分词处理，然后对分词处理后的内容进行统计，以合并记录为索引单元创建索引文件。

搜索处理模块3包括：

查询单元301：用于从所述索引文件中提取与用户输入的查询条件相对应的合并记录；

记录拆分单元302：与所述查询单元301耦接，用于对合并记录进行拆分处理，还原成多条原始记录；

过滤单元303：与记录拆分单元302耦接，用于从所述多条原始记录中提取与所述查询条件对应的原始记录，返回给用户端4。

上面具体阐述了本发明实施例的一种日志管理系统的具体技术方案，下面结合附图，进一步阐述本发明实施例的一种搜索日志的方法的具体技术方案。

参考图3，是本发明实施例的一种管理日志的方法的主要流程图，该方法包括：

步骤S21，管理系统将具有同一关键字段的原始日志记录映射成一条合并记录作为搜索数据源；

步骤S22，当管理系统接收到用户的查询条件时，根据所述查询条件查找到所述搜索数据源中与所述查询条件对应的合并记录，并

根据所述合并记录获取与所述查询条件对应的原始日志记录。

如图4所示，步骤S21具体包括：

步骤S211，日志搜集代理定期搜集新产生的原始日志，并进行转码处理，具体为：

在各种日志源上部署日志搜集代理(Agent)，负责搜集新产生的日志，为了方便用户搜索时能够按照时间段查询，将所有日志的时间转换成统一的格式。

步骤S212，日志搜集代理将经过转码处理后的原始日志以单条记录的形式保存到原始记录表中，具体为：

日志搜集代理把原始日志记录传输到合并记录单元的专用日志数据库(LogDB)中，如表1所示，原始日志以单条记录的形式存放在相应的原始记录表中。

表1、原始记录表

字段	时间	IP地址	用户名	消息
字段	时间	IP地址	用户名	消息	记录1	2006-5-2512:24:38	192.168.0.2	张三	登录ftp服务器
记录2	2006-5-2512:24:38	192.168.2.36	李四	使用msn	记录1	2006-5-2512:24:38	192.168.0.2	张三	登录ftp服务器
记录2	2006-5-2512:24:38	192.168.2.36	李四	使用msn	记录3	2006-5-2512:24:39	192.168.0.2	张三	下载ftp服务器上main.cpp文件
记录4	2006-5-2512:24:39	192.168.0.2	张三	下载ftp服务器上soft.tar.gz文件	记录3	2006-5-2512:24:39	192.168.0.2	张三	下载ftp服务器上main.cpp文件

步骤S213，合并记录单元对每张原始记录表做视图映射，把具有同一关键字段的原始日志记录映射成一条合并记录，作为搜索数据源，保存到数据库中，具体包括：

对于每一张原始记录表，创建视图，其格式如表2所示，把相同时间字段映射到视图同样的字段中，并且把日期倒换成大整数，例如2006525122439，数据类型采用字符型，为了便于以后拆分记录，各个原始日志记录之间采用XML标记分隔。

视图的字段和原始记录表一样，包含相同的时间字段，但字段类型和长度要调整，根据具体记录的长度和每秒钟内的记录数，调整视图中字段大小。

表2、视图格式

字段

时间

IP地址

用户名

消息

记录1	2006525122438	<a><r>192.168.0.2</r><r>192.168.2.36</r></a>	<a><r>张三</r><r>李四</r></a>	<a><r>登录ftp服务器</r><r>使用msn</r></a>
记录1	2006525122438	<a><r>192.168.0.2</r><r>192.168.2.36</r></a>	<a><r>张三</r><r>李四</r></a>	<a><r>登录ftp服务器</r><r>使用msn</r></a>	记录2	2006525122439	<a><r>192.168.0.2</r><r>192.168.0.2</r></a>	<a><r>张三</r><r>张三</r></a>	<a><r>下载ftp服务器上main.cpp文件</r><r>下载ftp服务器上soft.tar.gz文件</r></a>

在本实施例中，一种管理日志的方法还包括生成索引文件的步骤，如图5所示，生成索引文件的步骤具体包括：

步骤S221，手工启动或定时启动数据库爬虫从所述搜索数据源中获取记录信息，并保存到专用数据库中，具体为：

爬虫处理单元连接数据库，从数据库中获取合并记录信息，提取文本内容保存在系统专用数据库中。该数据库需要保存日志原始内容(原始日志记录)，并且记录日志记录的uri地址，通过该地址标识日志。爬虫提取视图中所有信息，把每条记录保存在索引文件产生模块的数据库中，然后进入下一步处理。

步骤S222，解析处理单元对所述合并记录信息进行解析处理，并保存到临时文件中，同时清除专用数据库的数据。

步骤S223，索引创建单元对经过解析处理后的合并记录信息进行分词处理，然后对分词处理后的内容进行统计，以合并记录为索引单元创建索引文件。

其中，索引文件中包含原始日志的全部信息，以及分词索引信息。

将数据源排序存储的同时，有另一个排好序的关键词列表(字典)，用于存储关键词与记录的映射关系。

如图6所示，步骤S22具体包括：

步骤S231，管理系统根据查询语法对用户的查询条件进行解析，拆分出系统查询条件，具体为：

搜索处理模块接收到用户输入的用户查询条件之后，利用查询单元根据查询语法对用户查询条件进行解析，拆分出系统查询条件，

如：时间＜2006525122438and用户名＝“张三”。

步骤S232，查寻单元根据系统查询条件从所述索引文件中提取与该系统查询条件相对应的合并记录具体为：

查询单元判断同时满足时间是2006525122438和用户名是张三的只有合并记录1(参考表2)，因此，返回该合并记录1。返回的合并记录可以按照时间、频率等参数排序显示，并且可以返回结果数。

步骤S233，记录拆分单元将所述合并记录进行拆分处理，还原成多条原始记录，具体为：

搜索程序按照xml标记把合并记录1进行拆分，还原出多条原始记录，如表3所示。

表3、还原出来的原始记录格式

字段	时间	IP地址	用户名	消息
字段	时间	IP地址	用户名	消息	记录1	2006-5-2512:24:38	192.168.0.2	张三	登录ftp服务器
记录2	2006-5-2512:24:38	192.168.2.36	李四	使用msn	记录1	2006-5-2512:24:38	192.168.0.2	张三	登录ftp服务器

步骤S234，过滤单元从所述多条原始记录中提取与所述系统查询条件对应的原始日志记录，过滤掉不符合所述系统查询条件的其它原始日志记录，具体为：

根据查询条件，如：时间＜2006525122438and用户名＝“张三”，对每条原始日志记录再次进行查询，把最终符合条件的记录返回。因此，只有一条记录返回给用户，如表4所示。

表4、最终的搜索结果的原始日志记录

字段	时间	IP地址	用户名	消息
字段	时间	IP地址	用户名	消息	记录1	2006-5-2512:24:38	192.168.0.2	张三	登录ftp服务器

由上述可知，在索引文件中包含了完整的日志数据，所以搜索结果也包含了完整的日志记录。通过该功能，日志数据源可以只保存临时数据，当索引文件产生模块处理完数据之后，日志数据就保存在索引文件中，在此之前的数据可以清除。经过二次搜索，用户可以得到最符合条件的原始日志记录，可以选择保存方式，导出xml、csv、html等格式。

上述实施例是根据时间关键字段来进行日志管理的，但本发明实施例不限于此，还可以根据IP地址、主机名、消息字段等关键字段进行日志管理。

实施本发明的具体实施例具有以下技术效果：

在本发明的实施例提供的一种管理日志的方法及系统的技术方案中，通过数据库映射将具有同一关键字段的原始日志记录映射成一条合并记录，然后经过搜索处理模块一次查询得到合并记录，将该记录拆分成多条原始记录，再经过第二次查询处理，过滤掉不符合条件的原始日志记录，得到需要的原始日志记录，这样提高了查询的精度。另外，将多条具有相同关键字的原始日志记录映射成一条合并记录，并以该合并记录为索引单元创建索引文件，减少了索引记录，也即节约了大量索引空间，也减少了处理次数，可以显著提高查询速度，同时，降低了部署成本，提高了系统性能。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1、一种管理日志的方法，其特征在于，该方法包括：

当管理系统接收到用户的查询条件时，根据所述查询条件查找到所述搜索数据源中与所述查询条件对应的合并记录，

将所述合并记录进行拆分处理，还原成多条原始记录；

从所述多条原始记录中提取与所述查询条件相对应的原始记录。

2、如权利要求1所述的方法，其特征在于，所述管理系统将具有同一关键字段的原始日志记录映射成一条合并记录作为搜索数据源，具体包括：

a1、定期搜集新产生的原始日志，将所述原始日志以单条记录的形式保存到原始记录表中；

a2、为所述原始记录表创建视图，并将同一关键字段的原始记录映射到视图相同的字段中。

3、如权利要求1或2所述的方法，其特征在于，所述方法还包括生成索引文件的步骤：

b1、手工启动或定时启动数据库爬虫从所述搜索数据源中获取合并记录信息；

b2、对所述记录信息进行解析处理；

b3、对经过解析处理后的合并记录信息进行分词处理，然后对分词处理后的内容进行统计，以合并记录为索引单元创建索引文件。

4、一种日志管理系统，其特征在于，该系统包括：

5、如权利要求4所述的系统，其特征在于，所述系统还包括：

索引文件产生模块：与日志搜集预处理模块和搜索处理模块耦接，用于从所述数据库中获取合并记录信息，并对所述合并记录信息进行语法处理及分词处理，对处理后的内容进行统计，以合并记录为索引单元创建索引文件。

6、如权利要求4或5所述的系统，其特征在于，所述日志搜集预处理模块包括：

日志搜集代理：用于定期搜集新产生的原始日志，并进行转码处理，转换成统一编码格式；

合并记录单元：与日志搜集代理耦接，用于将经转码处理后的具有同一关键字段的原始日志记录映射成一条合并记录，作为搜索数据源存到数据库中。

7、如权利要求6所述的系统，其特征在于，所述索引文件产生模块包括：

爬虫处理单元：从所述数据库中获取合并记录信息，并保存到专用数据库中；

解析处理单元：与爬虫处理单元耦接，用于对所述合并记录信息进行语法处理，并保存到临时文件中，同时清除专用数据库的数据；

索引创建单元：与解析处理单元耦接，用于对所述合并记录信息进行分词处理，然后对分词处理后的内容进行统计，以合并记录为索引单元创建索引文件。

8、如权利要求7所述的系统，其特征在于，所述搜索处理模块包括：

查询单元：用于从所述索引文件中提取与用户输入的查询条件相对应的合并记录；

记录拆分单元：与所述查询单元耦接，用于将所述合并记录拆分还原成多条原始记录；

过滤单元：与所述记录拆分单元耦接，用于从所述多条原始记录中提取与所述查询条件相对应的原始记录。