CN111488439B

CN111488439B - 保存和分析日志数据的系统和方法

Info

Publication number: CN111488439B
Application number: CN202010192207.9A
Authority: CN
Inventors: 林元雁; 左虹
Original assignee: Hangzhou DPTech Technologies Co Ltd
Current assignee: Hangzhou DPTech Technologies Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2023-04-18
Anticipated expiration: 2040-03-18
Also published as: CN111488439A

Abstract

本公开提供一种保存和分析日志数据的系统，该系统包括：日志数据压缩转换部分，用于将日志数据中出现或使用高频次数据使用转换函数将其进行数据压缩后获得新的日志数据结构并存储；日志分析部分，利用指定算法对转换后的日志数据进行重新排列、迭代访问以及排序；以及日志数据解压缩还原部分，利用日志数据压缩转换部分所使用的算法变换的逆变换来还原原始日志数据。本公开通过一种优化存储结构，利用哈希表存储日志，可以大大减少对业务日志的处理时间，解决了大数据的查询和分析的优化问题。

Description

保存和分析日志数据的系统和方法

技术领域

本公开涉及保存和分析日志数据的系统和方法，尤其涉及以优化日志存储结构保存和分析日志数据的系统和方法。

背景技术

业务日志作为安全产品的重要组成部分，可以利用它的信息帮助我们有效地管理网络，提高网络安全性。

现有的日志基本都是数据库或者日志文件存储方式，数据库在建表中添加对应的日志字字段并通过数据库语句写入文件，日志文件通过指定的日志格式写入文件。分析日志时按照需求不断解析日志文件并加以统计。

数据库相比文件系统要复杂的多，自然开销也要大些，在大数据的情况下数据库存储的方式并不合适。在文件系统中，访问文件非常简单，相比于数据库开销小，但是在旧有的日志格式下，大数据处理日志信息加以分析效率低下。

无论是解析日志还是查询分析，每次都要重复大量的工作，且每次不同的分析需求都要重新解析查询统计，浪费性能且开销较大。

因此，需要一种技术方案来减少对业务日志的处理时间，从而解决大数据查询和分析的优化问题。

发明内容

本公开就是针对上述技术问题而提出的技术方案。本发明目的是通过一种优化存储结构，利用哈希表存储日志，以减少对业务日志的处理时间，以及大数据的查询和分析的优化问题。本公开通过将原始日志数据转换为新的数据类型，使得转换后的日志数据量减少，以便减少后续日志分析额外的转换支出，并提升对比查询的效率，并且利用多种多样的算法来在各种场景下对转换后的日志数据进行有效处理与分析。

根据本公开的一个方面，提供了一种保存和分析日志数据的系统，该系统包括：日志数据压缩转换部分，用于将日志数据中出现或使用高频次数据使用转换函数将其进行数据压缩后获得新的日志数据结构并存储；日志分析部分，利用指定算法对转换后的日志数据进行重新排列、迭代访问以及排序；以及日志数据解压缩还原部分，利用日志数据压缩转换部分所使用的算法变换的逆变换来还原原始日志数据。

根据本公开的保存和分析日志数据的系统，其中所述日志数据中出现或使用高频次数据包括IP地址或IPv地址。

根据本公开的保存和分析日志数据的系统，其中所述日志数据压缩转换部分将日志和时间统一转换为计算机时间格式，并且将其他端口或者数字直接转化成整数型。

根据本公开的保存和分析日志数据的系统，其中所述日志数据压缩转换部分对于有特定规律特定字符信息仅比较其首个字母并通过内部定义的索引号进行转换。

根据本公开的保存和分析日志数据的系统，其中所述日志数据压缩转换部分对于无规则超长字符串使用CMap将其转换为哈希值来进行索引。

根据本公开的保存和分析日志数据的系统，其中所述数据类型的选择利用函数库来驱动。

根据本公开的保存和分析日志数据的系统，其中所述日志分析部分使用算法stable sort来以指定规则重新排列指定范围内的元素，并保留相等元素之间的顺序关系；使用算法for each来用指定函数依次对指定范围内所有元素进行迭代访问；并且使用哈希表map和他的迭代器iterator统计某一列中字符串出现的次数并支持排序功能。

根据本公开的另一个方面，提供了一种保存和分析日志数据的方法，包括以下步骤：通过日志数据压缩转换部分将日志数据中出现或使用高频次数据使用转换函数将其进行数据压缩后获得新的日志数据结构并存储；通过日志分析部分利用指定算法对转换后的日志数据进行重新排列、迭代访问以及排序；以及通过日志数据解压缩还原部分利用日志数据压缩转换部分所使用的算法变换的逆变换来还原原始日志数据。

根据本公开的保存和分析日志数据的方法，其中所述日志数据中出现或使用高频次数据包括IP地址或IPv地址。

根据本公开的保存和分析日志数据的方法，其中所述转换步骤将日志和时间统一转换为计算机时间格式，并且将其他端口或者数字直接转化成整数型。

根据本公开的保存和分析日志数据的方法，其中对于有特定规律特定字符信息，所述转换步骤仅比较其首个字母并通过内部定义的索引号进行转换。

根据本公开的保存和分析日志数据的方法，其中对于无规则超长字符串，所述转换步骤使用CMap将其转换为哈希值来进行索引。

根据本公开的保存和分析日志数据的方法，其中所述数据类型的选择利用函数库来驱动。

根据本公开的保存和分析日志数据的方法，其中所述日志分析步骤使用算法stable sort来以指定规则重新排列指定范围内的元素，并保留相等元素之间的顺序关系；使用算法for each来用指定函数依次对指定范围内所有元素进行迭代访问；并且使用哈希表map和他的迭代器iterator统计某一列中字符串出现的次数并支持排序功能。

因此，本公开通过一种优化存储结构，利用哈希表存储日志，可以大大减少对业务日志的处理时间，解决了大数据的查询和分析的优化问题。通过对日志的分析可以辅助网络安全管理人员更加全面地掌握网络安全状况。

附图说明

通过结合附图对于本公开的示例性实施例进行描述，可以更好地理解本公开，在附图中：

图1示出了根据本公开的一个实施例的以优化日志存储结构保存和分析日志数据的系统的框图；以及

图2示出了根据本公开的一个实施例的以优化日志存储结构保存和分析日志数据的方法的流程图。

具体实施方式

以下将描述本公开的具体实施方式，需要指出的是，在这些实施方式的具体描述过程中，为了进行简明扼要的描述，本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是，在任意一种实施方式的实际实施过程中，正如在任意一个工程项目或者设计项目的过程中，为了实现开发者的具体目标，为了满足系统相关的或者商业相关的限制，常常会做出各种各样的具体决策，而这也会从一种实施方式到另一种实施方式之间发生改变。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本公开公开的内容相关的本领域的普通技术人员而言，在本公开揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本公开的内容不充分。

除非另作定义，权利要求书和说明书中使用的技术术语或者科学术语应当为本公开所属技术领域内具有一般技能的人士所理解的通常意义。本公开专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件，并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，也不限于是直接的还是间接的连接。

业务日志存储方式多种多样，在根据本公开的实施例中，以其中入侵防御设备业务日志为例，以日志文件的形式存储优化存储结构。

日志数据基本都由日期、时间、五元组、数字、有特定规律的字符串(type＝attack)以及无规律的字符串(host、url、msg)等。众所周知，在计算机中执行效率最高的是二进制运算和位运算，所以可以对日志数据做进一步转换处理，从而优化存储方式以提高查询分析效率。

对一些基础日志数据进行转换处理。例如，对于IP地址，因为其在日志数据中高频次出现或使用，所以可以使用一个转换函数将其进行数据压缩后再存储，并用一个逆转换函数来在显示该IP地址时还原(解压缩)其数据。例如，一个IPv4地址可通过一个转换函数来转化为一个整数类型以便压缩数据并存储，这样既减少了内存消耗，也提高了查询效率；再例如，IPv6同样如此，只不过需要4个整数来进行存储。

另外，日志和时间可以统一转换为计算机时间格式。其他端口或者数字可直接转化成整数型。

对于有特定规律特定字符信息，如type字段中attack、virus等类型，可在读入时仅比较首个字母来提高效率，通过内部定义的索引号进行转换和逆转换。

无规则超长字符串，使用CMap(CMap本质是一个哈希表)，即通过索引可以返回值。处理思路如处理“有特征规律字符串”一样，可以提高处理速度。

重新变更数据类型存储日志后减少了后续日志分析额外的转换支出，并提升对比查询的效率。建立的哈希表以通过直接定址和解决冲突来进一步优化搜索提高分析效率。

在业务日志分析中，利用函数库来驱动数据类型的选择。C++通过模板的机制允许推迟对某些类型的选择，直到真正想使用模板的时候，标准模板库就利用这一点提供了相当多的算法。

算法stable sort以指定规则重新排列指定范围内的元素，并保留相等元素之间的顺序关系；算法for each用指定函数依次对指定范围内所有元素进行迭代访问；哈希表map和他的迭代器iterator，统计某一列中字符串出现的次数，并支持排序功能。

多种多样的算法有助于日志分析的各种场景。

具体来说，图1示出了根据本公开的一个实施例的以优化日志存储结构保存和分析日志数据的系统的框图。如图1所示，该以优化日志存储结构存和分析日志数据的系统包括日志数据压缩转换部分110、日志分析部分120以及日志数据解压缩还原部分130。

根据本公开的一个实施例，日志数据压缩转换部分110对日志数据中出现或使用高频次数据，例如IP、IPv6地址，使用一个转换函数将其进行数据压缩后再存储，并用一个逆转换函数来在显示该IP地址时还原(解压缩)其数据。例如，一个IPv4地址可通过一个转换函数来转化为一个整数类型以便压缩数据并存储，这样既减少了内存消耗，也提高了查询效率；再例如，IPv6同样如此，只不过需要4个整数来进行存储。

另外，根据本公开的一个实施例，日志数据压缩转换部分110可以将日志和时间统一转换为计算机时间格式，并且将其他端口或者数字直接转化成整数型。

此外，根据本公开的一个实施例，日志数据压缩转换部分110可以对于有特定规律特定字符信息，如type字段中attack、virus等类型，在读入时仅比较首个字母来提高效率，通过内部定义的索引号进行转换和逆转换。

根据本公开的一个实施例，对于无规则超长字符串，日志数据压缩转换部分110可以使用CMap(CMap本质是一个哈希表)，即通过索引返回值进行保存。处理思路如处理“有特征规律字符串”一样，以提高处理速度。

总之，将诸如日期、时间、五元组、数字、有特定规律的字符串(type＝attack)以及无规律的字符串(host、url、msg)之类的日志数据，通过日志数据压缩转换部分110进行转换而重新变更数据类型后，使得存储的日志数据得以大量减少，以便减少后续日志分析额外的转换支出，并提升对比查询的效率，而建立的哈希表以通过直接定址和解决冲突来进一步优化搜索提高分析效率。

此外，在业务日志分析中，利用函数库来驱动数据类型的选择。C++通过模板的机制允许推迟对某些类型的选择，直到真正想使用模板的时候，标准模板库就利用这一点提供了相当多的算法。

多种多样的算法有助于日志分析部分120在各种场景下进行有效的日志分析。例如，使用算法stable sort来以指定规则重新排列指定范围内的元素，并保留相等元素之间的顺序关系；使用算法for each来用指定函数依次对指定范围内所有元素进行迭代访问；使用哈希表map和他的迭代器iterator统计某一列中字符串出现的次数并支持排序功能。

最后，对于分析后的日志数据，使用日志数据解压缩还原部分130，利用日志数据压缩转换部分110所使用的算法变换的逆变换等来还原原始日志数据，以便使用。

图2示出了根据本公开的一个实施例的以优化日志存储结构保存和分析日志数据的方法的流程图。如图2所示，在步骤S210中，将诸如日期、时间、五元组、数字、有特定规律的字符串(type＝attack)以及无规律的字符串(host、url、msg)之类的日志数据，进行转换而重新变更数据类型后，使得存储的日志数据得以大量减少，以便减少后续日志分析额外的转换支出，并提升对比查询的效率，而建立的哈希表以通过直接定址和解决冲突来进一步优化搜索提高分析效率。

例如，根据本公开的一个实施例，在步骤S210中，对日志数据中出现或使用高频次数据，例如IP、IPv6地址，使用一个转换函数将其进行数据压缩后再存储，并用一个逆转换函数来在显示该IP地址时还原(解压缩)其数据。例如，一个IPv4地址可通过一个转换函数来转化为一个整数类型以便压缩数据并存储，这样既减少了内存消耗，也提高了查询效率；再例如，IPv6同样如此，只不过需要4个整数来进行存储。

另外，根据本公开的一个实施例，在步骤S210中，可以将日志和时间统一转换为计算机时间格式，并且将其他端口或者数字直接转化成整数型。

此外，根据本公开的一个实施例，在步骤S210中，可以对于有特定规律特定字符信息，如type字段中attack、virus等类型，在读入时仅比较首个字母来提高效率，通过内部定义的索引号进行转换和逆转换。

根据本公开的一个实施例，对于无规则超长字符串，在步骤S210中，可以使用CMap(CMap本质是一个哈希表)，即通过索引返回值进行保存。处理思路如处理“有特征规律字符串”一样，以提高处理速度。

注意，在业务日志分析中，可以利用函数库来驱动数据类型的选择。C++通过模板的机制允许推迟对某些类型的选择，直到真正想使用模板的时候，标准模板库就利用这一点提供了相当多的算法。

接下来，在用于业务日志分析的步骤S220中，利用多种多样的算法在各种场景下对转换后的日志数据进行有效分析。例如，使用算法stable sort来以指定规则重新排列指定范围内的元素，并保留相等元素之间的顺序关系；使用算法for each来用指定函数依次对指定范围内所有元素进行迭代访问；使用哈希表map和他的迭代器iterator统计某一列中字符串出现的次数并支持排序功能。

接下来，在步骤S230中，对于分析后的日志数据，利用步骤S210中所使用的算法变换的逆变换等来还原原始日志数据，以便使用。

根据本公开的上述技术方案，本公开通过一种优化存储结构，利用哈希表存储日志，可以大大减少对业务日志的处理时间，解决了大数据的查询和分析的优化问题。通过对日志的分析可以辅助网络安全管理人员更加全面地掌握网络安全状况。

以上结合具体实施例描述了本公开的基本原理，但是需要指出的是，对本领域的普通技术人员而言，能够理解本公开的方法和系统的全部或者任何步骤或者部分，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本公开的说明的情况下运用他们的基本编程技能就能实现的。

因此，本公开的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本公开的目的也可以仅仅通过提供包含实现所述方法或者系统的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本公开，并且存储有这样的程序产品的存储介质也构成本公开。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本公开的系统和方法中，显然，各部分或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种保存和分析日志数据的系统，该系统包括：

日志数据压缩转换部分，用于将日志数据中出现或使用高频次数据使用转换函数将其进行数据压缩后获得新的日志数据结构并存储，其中所述日志数据压缩转换部分将日志和时间统一转换为计算机时间格式，并且将其他端口或者数字直接转化成整数型，对于有特定规律特定字符信息仅比较其首个字母并通过内部定义的索引号进行转换，以及对于无规则超长字符串使用CMap将其转换为哈希值来进行索引；

日志分析部分，利用指定算法对转换后的日志数据进行重新排列、迭代访问以及排序；以及

日志数据解压缩还原部分，利用日志数据压缩转换部分所使用的算法变换的逆变换来还原原始日志数据。

2.根据权利要求1所述的系统，其中所述日志数据中出现或使用高频次数据包括IP地址或IPv地址。

3.根据权利要求1所述的系统，其中数据类型的选择利用函数库来驱动。

4.根据权利要求1所述的系统，其中所述日志分析部分使用算法stable sort来以指定规则重新排列指定范围内的元素，并保留相等元素之间的顺序关系；使用算法for each来用指定函数依次对指定范围内所有元素进行迭代访问；并且使用哈希表map和他的迭代器iterator统计某一列中字符串出现的次数并支持排序功能。

5.一种保存和分析日志数据的方法，包括以下步骤：

通过日志数据压缩转换部分将日志数据中出现或使用高频次数据使用转换函数将其进行数据压缩后获得新的日志数据结构并存储，其中所述日志数据压缩转换部分将日志和时间统一转换为计算机时间格式，并且将其他端口或者数字直接转化成整数型，对于有特定规律特定字符信息仅比较其首个字母并通过内部定义的索引号进行转换，以及对于无规则超长字符串使用CMap将其转换为哈希值来进行索引；

通过日志分析部分利用指定算法对转换后的日志数据进行重新排列、迭代访问以及排序；以及

通过日志数据解压缩还原部分利用日志数据压缩转换部分所使用的算法变换的逆变换来还原原始日志数据。

6.根据权利要求5所述的方法，其中所述日志数据中出现或使用高频次数据包括IP地址或IPv地址。

7.根据权利要求5所述的方法，其中数据类型的选择利用函数库来驱动。

8.根据权利要求5所述的方法，其中所述日志分析部分使用算法stable sort来以指定规则重新排列指定范围内的元素，并保留相等元素之间的顺序关系；使用算法for each来用指定函数依次对指定范围内所有元素进行迭代访问；并且使用哈希表map和他的迭代器iterator统计某一列中字符串出现的次数并支持排序功能。