CN112699090B

CN112699090B - 日志审计方法、装置、电子设备及存储介质

Info

Publication number: CN112699090B
Application number: CN202011540069.5A
Authority: CN
Inventors: 林皓; 孙肇华; 白志凌
Original assignee: Beijing VRV Software Corp Ltd
Current assignee: Beijing VRV Software Corp Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2024-05-14
Anticipated expiration: 2040-12-23
Also published as: CN112699090A

Abstract

本申请提供一种日志审计方法、装置、电子设备及存储介质，其中方法包括：确定待审计的日志数据集；确定所述日志数据集对应的所有安全分类标签的报警级别和日志数量；基于任一安全分类标签的报警级别和日志数量，确定所述任一安全分类标签的风险预警值；基于每一安全分类标签的风险预警值，确定所述日志数据集的审计结果。本申请提供的方法、装置、电子设备及存储介质，提高了日志审计的效率和稳定性，减轻了日志审计人员的工作量。

Description

日志审计方法、装置、电子设备及存储介质

技术领域

本申请涉及信息安全领域，尤其涉及一种日志审计方法、装置、电子设备及存储介质。

背景技术

日志审计是指集中采集信息系统中的系统安全事件、用户访问记录、系统运行日志、系统运行状态等各类信息，经过规范化、过滤、归并和告警分析等处理后，以统一格式的日志形式进行集中存储和管理，结合丰富的日志统计汇总及关联分析功能，实现对信息系统日志的全面审计。

通过日志审计，企业管理员随时了解整个计算机网络系统的运行情况，及时发现系统异常事件；另一方面，通过事后分析回溯，管理员可以方便高效地对信息系统进行有针对性的安全审计。遇到特殊安全事件和系统故障，日志审计系统可以帮助管理员进行故障快速定位，并提供客观依据进行追查和恢复。

现有的日志审计方法，需要管理员采用人工方式对日志进行提取、分析和判定等，审计工作量大，无法实时发现网络环境中可能存在的异常日志，日志审计的效率低。

发明内容

本申请提供一种日志审计方法、装置、电子设备及存储介质，用以解决审计工作量大，日志审计的效率低的问题。

本申请提供一种日志审计方法，包括：

确定待审计的日志数据集；

确定所述日志数据集对应的所有安全分类标签的报警级别和日志数量；

基于任一安全分类标签的报警级别和日志数量，确定所述任一安全分类标签的风险预警值；

基于每一安全分类标签的风险预警值，确定所述日志数据集的审计结果。

根据本申请提供的一种日志审计方法，所述基于任一安全分类标签的报警级别和日志数量，确定所述任一安全分类标签的风险预警值，包括：

基于任一安全分类标签的报警级别和日志数量，以及权重预估决策树，确定所述任一安全分类标签的权重预估值；

基于所述任一安全分类标签的权重预估值，确定所述任一安全分类标签的风险预警值。

根据本申请提供的一种日志审计方法，所述基于所述任一安全分类标签的权重预估值，确定所述任一安全分类标签的风险预警值，包括：

将所述权重预估值的指数函数值作为所述任一安全分类标签的权重；

基于所述任一安全分类标签的权重，确定所述任一安全分类标签的风险预警值。

根据本申请提供的一种日志审计方法，所述权重预估决策树的确定方法包括：

确定日志训练集；

基于所述日志训练集中的每一样本安全分类标签的报警级别和每一样本安全分类标签的日志数量，确定每一样本安全分类标签的信息增益值；

基于每一样本安全分类标签的信息增益值的大小顺序，构造所述权重预估决策树；

其中，所述权重预估决策树的叶子节点为每一样本安全分类标签的权重预估值。

根据本申请提供的一种日志审计方法，所述确定所述日志数据集对应的所有安全分类标签的报警级别和日志数量，包括：

将所述日志数据集中每一日志的安全分类标签与预设安全分类标签库进行匹配，确定所述日志数据集对应的所有安全分类标签以及每一安全分类标签的报警级别；

所述预设安全分类标签库是基于生成所述日志数据集的操作系统确定的。

根据本申请提供的一种日志审计方法，所述确定待审计的日志数据集，包括：

基于Flume获取网络中的日志数据集，并将所述日志数据集存储至Kafka中。

本申请还提供的一种日志审计装置，包括：

日志确定单元，用于确定待审计的日志数据集；

标签确定单元，用于确定所述日志数据集对应的所有安全分类标签的报警级别和日志数量；

预警值确定单元，用于基于任一安全分类标签的报警级别和日志数量，确定所述任一安全分类标签的风险预警值；

日志审计单元，用于基于每一安全分类标签的风险预警值，确定所述日志数据集的审计结果。

本申请还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述日志审计方法的步骤。

本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述日志审计方法的步骤。

本申请实施例提供的日志审计方法、装置、电子设备及存储介质，通过确定日志数据集对应的所有安全分类标签的报警级别和日志数量，确定每一安全分类标签的风险预警值，进而确定日志数据集的审计结果，该方法实现了自动地对服务器、软件、进程的运行状况生成的日志进行审计，主动并快速地发现日志的告警信息，提高了日志审计的效率和稳定性，减轻了日志审计人员的工作量。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的日志审计方法的流程示意图之一；

图2为本申请提供的日志审计方法的流程示意图之二；

图3为本申请提供的日志审计装置的结构示意图；

图4为本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请提供的日志审计方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待审计的日志数据集。

具体地，日志是指计算机网络系统所指定对象的某些操作和其操作结果按时间有序的集合。网络设备、系统及服务程序等，在运作时都会产生日志文件。日志数据集为大量日志文件组成的数据集合。

日志数据集为服务器、工作站、防火墙和应用软件等网络资源相关活动记录必要的、有价值的信息。对日志数据集进行审计，可以随时了解整个计算机网络系统的运行情况，及时发现系统异常事件。

步骤120，确定日志数据集对应的所有安全分类标签的报警级别和日志数量。

具体地，安全分类标签为用于日志的基本信息中表征异常事件的数据项。例如，Windows系统中，日志的安全分类标签可以为Error和Timeout等。

任一安全分类标签的报警级别为任一安全分类标签对应的异常事件的警告等级。任一安全分类标签的报警级别可以根据实际需要进行设置。例如，将安全分类标签Error的报警级别设定为高，将安全分类标签Timeout的报警级别设定为低。

对日志数据集中每一日志的标签信息进行匹配和统计，可以得到所有安全分类标签以及每一安全分类标签的报警级别和日志数量。

步骤130，基于任一安全分类标签的报警级别和日志数量，确定该安全分类标签的风险预警值。

具体地，风险预警值用于表征安全分类标签对应的异常事件可能对计算机网络系统的安全运行带来的影响程度。风险预警值越高，该安全分类标签对应的异常事件可能给计算机网络系统的安全运行带来的破坏程度越大。

例如，可以将任一安全分类标签的报警级别和该安全分类标签的日志数量的乘积作为该安全分类标签的风险预警值。

步骤140，基于每一安全分类标签的风险预警值，确定日志数据集的审计结果。

具体地，日志数据集的审计结果为发现日志的告警信息，定位日志数据集中的异常日志，确定异常日志对应的网络安全事件。根据日志数据集的审计结果，可以对网络设备节点故障进行实时告警及故障快速分析溯源，例如，发现传统安全设备没有发现或阻断的安全威胁，对线上故障及威胁做出快速响应。

根据每一安全分类标签的风险预警值，可以对每一安全分类标签对应的日志进行搜索，快速定位异常日志，从而缩小了日志数据集的搜索范围，实现快速定位日志中记录的计算机网络系统中设备节点的故障。

本申请实施例提供的日志审计方法，通过确定日志数据集对应的所有安全分类标签的报警级别和日志数量，确定每一安全分类标签的风险预警值，进而确定日志数据集的审计结果，该方法实现了自动地对服务器、软件、进程的运行状况生成的日志进行审计，主动并快速地发现日志的告警信息，提高了日志审计的效率和稳定性，减轻了日志审计人员的工作量。

基于上述实施例，步骤130包括：

基于任一安全分类标签的报警级别和日志数量，以及权重预估决策树，确定该安全分类标签的权重预估值；

基于该安全分类标签的权重预估值，确定该安全分类标签的风险预警值。

具体地，安全分类标签的权重用于表征日志数据集中任一安全分类标签相对于其他安全分类标签，对日志数据集的审计结果的影响程度。权重越大，则该安全分类标签对该日志数据集的审计结果的影响程度越大。

决策树代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

可以收集大量的样本安全分类标签、样本安全分类标签的报警级别和日志数量以及样本安全分类标签的权重预估值，构造权重预估决策树。然后将日志数据集中任一安全分类标签的报警级别以及该安全分类标签的日志数量输入权重预估决策树，得到该安全分类标签的权重预估值。权重预估值为权重的估计值。

然后，根据该安全分类标签的权重预估值，确定该安全分类标签的风险预警值。例如，可以根据人工经验对该安全分类标签的权重预估值进行调整，或者对所有安全分类标签的权重预估值进行归一化处理等，从而确定该安全分类标签的风险预警值。

基于上述任一实施例，基于该安全分类标签的权重预估值，确定该安全分类标签的风险预警值，包括：

将权重预估值的指数函数值作为该安全分类标签的权重；

基于该安全分类标签的权重，确定该安全分类标签的风险预警值。

具体地，权重预估值是根据该安全分类标签的报警级别和日志数量确定的估计值，为了便于分析比较，可以将权重预估值的指数函数值作为该安全分类标签的权重。

例如，若权重预估值为W，则可以将ln(W)作为该安全分类标签的权重。

可以结合人工根据权重确定的风险预警值，以及该安全分类标签的权重，确定该安全分类标签的风险预警值。

例如，可以设定线性函数关系式y＝n+k，式中y为安全分类标签的风险预警值，n为安全分类标签的权重，k为调整常数。对于安全分类标签1、2、...、i，分别确定其对应的权重n1、n2、...、ni，以及其对应的风险预警值y1、y2、...、yi。采用线性回归得到调整常数k。将得到的函数关系式y＝n+k用于确定日志数据集中每一安全分类标签的风险预警值。

基于上述任一实施例，权重预估决策树的确定方法包括：

确定日志训练集；

基于日志训练集中的每一样本安全分类标签的报警级别和每一样本安全分类标签的日志数量，确定每一样本安全分类标签的信息增益值；

基于每一样本安全分类标签的信息增益值的大小顺序，构造权重预估决策树；

其中，权重预估决策树的叶子节点为每一样本安全分类标签的权重预估值。

具体地，可以预先收集日志训练集。日志训练集大量的样本安全分类标签、样本安全分类标签的报警级别和日志数量以及样本安全分类标签的权重预估值。

可以日志训练集中的每一样本安全分类标签的报警级别和每一样本安全分类标签的日志数量，确定每一样本安全分类标签的信息增益值。算法如下：

设数据集为D，|D|表示样本容量，即样本的个数。设有k个类C_k，k＝1，2，3，...，K。|C_k|为属于类C_k的个数。

设特征A有n个不同的取值{a₁，a₂，...，a_n}，根据特征A的取值将D划分为n个子集D₁，D₂，...，D_n。|D_i|为D_i的样本个数。

记子集D_i中属于类C_k的样本的集合为D_ik，|D_ik|为D_ik的样本个数，则数据集D的经验熵H(D)为：

特征A对数据集D的经验条件熵H(D|A)为：

特征A的信息增益为：

G(D，A)＝H(D)-H(D|A)

其中，特征A可以为任一样本安全分类标签的特征，例如报警级别和日志数量，D为日志训练集。

然后，按照每一样本安全分类标签的信息增益值按照从大到小的顺序设置决策树的节点信息，得到权重预估决策树。其中，权重预估决策树的叶子节点设置为每一样本安全分类标签的权重预估值。

基于上述任一实施例，步骤120包括：

将日志数据集中每一日志的安全分类标签与预设安全分类标签库进行匹配，确定日志数据集对应的所有安全分类标签以及每一安全分类标签的报警级别；

预设安全分类标签库是基于生成日志数据集的操作系统确定的。

具体地，预设安全分类标签库包括预先设定的安全分类标签的种类，以及每一安全分类标签的报警级别。

预设安全分类标签库可以根据生成日志数据集的操作系统确定。例如，预设安全分类标签库可以根据Windows操作系统、Linux操作系统进行设置。

基于上述任一实施例，步骤110包括：

基于Flume获取网络中的日志数据集，并将日志数据集存储至Kafka中。

具体地，Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据。

Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统)，支持TCP和UDP等2种模式，exec(命令执行)等数据源上收集数据的能力。

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，Kafka的操作系统的文件缓存足够完善和强大，只要不随机写，顺序读写的性能非常高效。Kafka强调减少数据的序列化和拷贝开销，它会将一些消息组织成消息队列做批量存储和发送。

基于上述任一实施例，图2为本申请提供的日志审计方法的流程示意图之二，如图2所示，该方法包括：

步骤一、日志采集

设定采集规则，使用软件客户端对网络环境中的硬件日志和软件日志进行解析后采集。

步骤二、日志上传

用Flume作为中间件进行上报日志，当收集日志数据的速度超过将写入数据的时候，也就是当收集信息遇到峰值时，收集的信息非常大，甚至超过了系统的写入数据能力，这时候会在数据生产者和数据接收容器做出调整，保证其能够在两者之间提供平稳的数据。

采用Flume上报日志，可以提供上下文路由特征，接收管道是基于事务的，保证了数据在传送和接收时的一致性，并且Flume是可靠的、容错性高的、可升级的、易管理的和可定制的。

步骤三、数据存储

用Kafka作为缓存，Elasticsearch作为组合性的数据接收存储工具，将日志进行分布式数据存储，实现反向索引的应用。使用Kafka，可以快速接收数据，应用消费模式和使用主题，创建对应主题进行消费，避免了资源争夺问题的形成。

步骤四、数据预处理

可以设定选取规则，丢弃无用日志，得到日志数据集。

步骤五、提取标签

确定日志数据集对应的所有安全分类标签的报警级别和日志数量。

步骤六、确定权重

根据每一安全分类标签的报警级别和日志数量，以及权重预估决策树，确定每一安全分类标签的权重预估值。将权重预估值的指数函数值作为每一安全分类标签的权重。

步骤七、确定风险预警值

结合人工根据权重确定的风险预警值，以及每一安全分类标签的权重，确定每一安全分类标签的风险预警值。

步骤八、确定审计结果

根据每一安全分类标签的风险预警值，确定日志数据集的审计结果。

下面对本申请提供的日志审计装置进行描述，下文描述的日志审计装置与上文描述的日志审计方法可相互对应参照。

基于上述任一实施例，图3为本申请提供的日志审计装置的结构示意图，如图3所示，该装置包括：

日志确定单元310，用于确定待审计的日志数据集；

标签确定单元320，用于确定日志数据集对应的所有安全分类标签的报警级别和日志数量；

预警值确定单元330，用于基于任一安全分类标签的报警级别和日志数量，确定任一安全分类标签的风险预警值；

日志审计单元340，用于基于每一安全分类标签的风险预警值，确定日志数据集的审计结果。

具体地，日志确定单元310确定待审计的日志数据集。标签确定单元320确定日志数据集对应的所有安全分类标签的报警级别和日志数量。预警值确定单元330确定每一安全分类标签的风险预警值。日志审计单元340确定日志数据集的审计结果。

本申请实施例提供的日志审计装置，通过确定日志数据集对应的所有安全分类标签的报警级别和日志数量，确定每一安全分类标签的风险预警值，进而确定日志数据集的审计结果，该方法实现了自动地对服务器、软件、进程的运行状况生成的日志进行审计，主动并快速地发现日志的告警信息，提高了日志审计的效率和稳定性，减轻了日志审计人员的工作量。

基于上述任一实施例，预警值确定单元330包括：

权重确定子单元，用于基于任一安全分类标签的报警级别和日志数量，以及权重预估决策树，确定任一安全分类标签的权重预估值；

预警值确定子单元，用于基于任一安全分类标签的权重预估值，确定任一安全分类标签的风险预警值。

基于上述任一实施例，预警值确定子单元包括：

权重确定模块，用于将权重预估值的指数函数值作为任一安全分类标签的权重；

预警值确定模块，用于基于任一安全分类标签的权重，确定任一安全分类标签的风险预警值。

基于上述任一实施例，该装置还包括权重预估决策树确定单元，权重预估决策树确定单元包括：

训练集确定子单元，用于确定日志训练集；

信息增益确定子单元，用于基于日志训练集中的每一样本安全分类标签的报警级别和每一样本安全分类标签的日志数量，确定每一样本安全分类标签的信息增益值；

决策树构造子单元，用于基于每一样本安全分类标签的信息增益值的大小顺序，构造权重预估决策树；

基于上述任一实施例，标签确定单元320具体用于：

基于上述任一实施例，日志确定单元310具体用于：

本申请实施例提供的日志审计装置用于执行上述日志审计方法，其具体的实施方式与方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

基于上述任一实施例，图4为本申请提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(Processor)410、通信接口(Communications Interface)420、存储器(Memory)430和通信总线(Communications Bus)440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑命令，以执行如下方法：

确定待审计的日志数据集；确定日志数据集对应的所有安全分类标签的报警级别和日志数量；基于任一安全分类标签的报警级别和日志数量，确定任一安全分类标签的风险预警值；基于每一安全分类标签的风险预警值，确定日志数据集的审计结果。

此外，上述的存储器430中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令，实现上述日志审计方法，其具体的实施方式与方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

本申请实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：

本申请实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述日志审计方法，其具体的实施方式与方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种日志审计方法，其特征在于，包括：

确定待审计的日志数据集；

基于每一安全分类标签的风险预警值，确定所述日志数据集的审计结果；所述基于任一安全分类标签的报警级别和日志数量，确定所述任一安全分类标签的风险预警值，包括：

基于所述任一安全分类标签的权重预估值，确定所述任一安全分类标签的风险预警值；

所述权重预估决策树的确定方法包括：

确定日志训练集；

其中，所述权重预估决策树的叶子节点为每一样本安全分类标签的权重预估值；

所述基于所述任一安全分类标签的权重预估值，确定所述任一安全分类标签的风险预警值，包括：

2.根据权利要求1所述的日志审计方法，其特征在于，所述确定所述日志数据集对应的所有安全分类标签的报警级别和日志数量，包括：

3.根据权利要求1或2所述的日志审计方法，其特征在于，所述确定待审计的日志数据集，包括：

4.一种日志审计装置，其特征在于，包括：

日志确定单元，用于确定待审计的日志数据集；

日志审计单元，用于基于每一安全分类标签的风险预警值，确定所述日志数据集的审计结果；

所述预警值确定单元包括：

权重确定子单元，用于基于任一安全分类标签的报警级别和日志数量，以及权重预估决策树，确定所述任一安全分类标签的权重预估值；

预警值确定子单元，用于基于所述任一安全分类标签的权重预估值，确定所述任一安全分类标签的风险预警值；

所述装置还包括权重预估决策树决策单元，所述权重预估决策树决策单元包括：

训练集确定子单元，用于确定日志训练集；

信息增益确定子单元，用于基于所述日志训练集中的每一样本安全分类标签的报警级别和每一样本安全分类标签的日志数量，确定每一样本安全分类标签的信息增益值；

决策树构造子单元，用于基于每一样本安全分类标签的信息增益值的大小顺序，构造所述权重预估决策树；

所述预警值确定子单元具体用于：

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的日志审计方法的步骤。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的日志审计方法的步骤。