CN113722479B

CN113722479B - 一种日志的检测方法、装置及存储介质

Info

Publication number: CN113722479B
Application number: CN202110913299.XA
Authority: CN
Inventors: 何成刚; 万振华; 王颉; 李华; 董燕
Original assignee: Seczone Technology Co Ltd
Current assignee: Seczone Technology Co Ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-12-05
Anticipated expiration: 2041-08-10
Also published as: CN113722479A

Abstract

本发明提供了一种日志的检测方法、装置及存储介质，通过对Web系统的访问日志中目标日志数据进行特征提取，得到模型训练样本；根据所述模型训练样本对预设分类决策模型进行训练，得到漏洞检测模型；将待检测日志文件输入至所述漏洞检测模型，输出所述待检测日志文件的异常检测结果；其中，所述异常检测结果包括：所述待检测日志文件为正常文件、所述待检测日志文件为漏洞文件。由此，只需要少量的模型训练样本以及对模型训练样本的简单处理，即可得到漏洞检测模型，进而对待检测日志文件进行检测，使用方便的同时可以实现漏洞检测的高准确率。

Description

一种日志的检测方法、装置及存储介质

技术领域

本发明涉及Web日志分析技术领域，尤其涉及一种日志的检测方法、装置及存储介质。

背景技术

随着互联网技术的快速发展，越来越多的黑客在巨额利益的驱使下，从单一的攻击行为发展成为有组织、有规模对Web系统进行持续性长的攻击，对商家和人民造成巨大的经济损失，对社会造成恶劣的影响。由此可见对Web系统的安全保护变得及其重要，而对日志的分析成为异常行为检测的关键方法，但是目前还没有一个高效易用的Web日志分析方法来进行异常行为的分析，即快速有效的发现安全漏洞并做出迅速的拦截。但是，目前传统的日志分析方法存在误报率高、耗时长的缺点。

因此，迫切需要一种方法来快速有效的分析日志发现安全漏洞，保护Web系统的安全。

发明内容

本发明提供了一种日志的检测方法、装置及存储介质，以解决现有的日志检测方法效率低的问题。

为了解决上述技术问题，本申请第一方面提供一种日志的检测方法，应用于Web系统，所述方法包括：

对Web系统的访问日志中目标日志数据进行特征提取，得到模型训练样本；

根据所述模型训练样本对预设分类决策模型进行训练，得到漏洞检测模型；

将待检测日志文件输入至所述漏洞检测模型，输出所述待检测日志文件的异常检测结果；其中，所述异常检测结果包括：所述待检测日志文件为正常文件、所述待检测日志文件为漏洞文件。

本申请第二方面提供一种日志的检测装置，应用于Web系统，所述装置包括：

获取模块，用于对Web系统的访问日志中目标日志数据进行特征提取，得到模型训练样本；

训练模块，用于根据所述模型训练样本对预设分类决策模型进行训练，得到漏洞检测模型；

检测模块，将待检测日志文件输入至所述漏洞检测模型，输出所述待检测日志文件的异常检测结果；其中，所述异常检测结果包括：所述待检测日志文件为正常文件、所述待检测日志文件为漏洞文件。

本申请第三方面提供一种电子设备，所述电子设备包括处理器、存储器及通信总线；

所述通信总线用于实现所述存储器、处理器之间的连接通信；所述处理器用于执行所述存储器中存储的计算机程序，以使得所述设备执行第一方面中的日志检测方法。

本申请第四方面提供一种计算机可读存储介质，用于存储计算机程序，包括指令，所述计算机程序被执行时，实现第一方面中的日志检测方法。

本发明的有益效果在于：通过对Web系统的访问日志中目标日志数据进行特征提取，得到模型训练样本；根据所述模型训练样本对预设分类决策模型进行训练，得到漏洞检测模型；将待检测日志文件输入至所述漏洞检测模型，输出所述待检测日志文件的异常检测结果；其中，所述异常检测结果包括：所述待检测日志文件为正常文件、所述待检测日志文件为漏洞文件。由此，只需要少量的模型训练样本以及对模型训练样本的简单处理，即可得到漏洞检测模型，进而对待检测日志文件进行检测，使用方便同时可以实现漏洞检测的高准确率。

附图说明

下面结合附图详述本发明的具体结构

图1为本发明的第一实施例的日志的检测方法的整体流程图。

图2为本发明的第一实施例的模型训练样本获取方法的流程图。

图3为本发明的第一实施例的训练样本示意图。

图4为本发明的第一实施例的漏洞检测模型获取方法的流程图。

图5为本发明的第二实施例的日志检测装置的程序框图。

图6为本发明的第三实施例的电子装置的结构示意图。

具体实施方式

为详细说明本发明的技术内容、构造特征、所实现目的及效果，以下结合实施方式并配合附图详予说明。

请参阅图1，图1为本发明的第一实施例的日志的检测方法的整体流程图。本实施例介绍一种日志的检测方法，可以应用于web系统。

该方法包括：

步骤S1、对Web系统的访问日志中目标日志数据进行特征提取，得到模型训练样本；

可选的，对Web系统的访问日志的获取方式可以通过在网站的服务器上进行获取，且采用单分类模型，将正常的日志进行筛选出来，本实施例中可以筛选出3000条左右的日志。

本实施例中在所述对Web系统的访问日志中目标日志数据进行特征提取，得到模型训练样本的步骤之前，还包括如下步骤：

获取所述Web系统的访问日志中所有类型日志数据的重要级别；

根据所述重要级别从所述所有类型日志数据中，选择所述目标日志数据。

具体的，可参照表1，表1为获取的一条访问日志的信息。

在获取每条访问日志中可以看到日志数据分为多个级别，分别为客户端IP、分隔符、访问时间、访问方法及访问路径等。其中，可以针对访问路径预置最高重要级别，由此本实施例中可以将访问路径作为目标日志数据。

在一可选地实施方式中，需要考虑对Web系统的访问日志的访问路径数据进行特征提取，得到模型训练样本的具体步骤。具体请参考图2，图2为本发明的第一实施例提供的模型训练样本获取方法的流程图。则步骤S1包括如下步骤：

步骤S11、对Web系统的访问日志的访问路径数据进行分词提取；其中，每个分词对应一个维度向量；

在本实施例中，对访问路径数据进行提取分词，所得到的每个分词放入对应的向量位置，例如abcd，进行2-grams分词处理后可以得到三个分词ab、bc及cd，每个分词放入对应的向量位置为[ab,bc,cd]，其中，分词ab对应向量中的第一维位置，分词bc对应向量中的第二维位置，分词cd对应向量中的第三维位置。

步骤S12、计算所提取的分词的分类值，并将所述分类值填入对应向量位置，得到模型训练样本。

可选的，所述计算所提取的分词的分类值的步骤，具体包括：

计算所提取的分词在所归属的字符串中的词频值；

获取多条字符串，计算所提取的分词在所述多条字符串中的逆路径频率值；

根据所述词频值以及所述逆分词频率值，计算出所述所提取的分词对应的分类值。

可选的，对访问路径数据的字符串可采用n-grams对分词进行提取，其中n为文本中连续出现的n词语。n的取值可以为2或3，本实施例中例如取n＝2时，即2-grams来举例:

假设访问路径包含100种可打印字符。那么对于每条访问路径数据，2-grams分词出来后，都有对应的一个维度的向量。对于某条访问路径的第一目标字符串，如abcd，进行2-grams分词出来后是[ab,bc,cd]，计算[ab,bc,cd]对应的TF-IDF值，其中，TF是指代词频值，IDF指代逆路径频率值；即TF＝该分词在每条路径中出现的次数/每条路径中的总分词数；IDF＝log(路径总数目/包含该分词的路径数目+1)，再将TF和IDF两者相乘得到分类值即TF-IDF值。

将每个分词计算得到的TF-IDF值填入对应的向量元素里面，即得到模型训练样本，可参照图3，图3为本发明的第一实施例提供的训练样本示意图。

对于某个日志样本，就可以用100²的向量(即100²个元素)描述，则对于多个日志样本，例如m个，即有m×100²的向量矩阵。

步骤S2、根据所述模型训练样本对预设分类决策模型进行训练，得到漏洞检测模型；

可选的，预设分类决策模型可以采用One class SVM模型。具体请参考图4，图4为本发明的第一实施例提供的漏洞检测模型获取方法的流程图。则步骤S2包括如下步骤：

步骤S21、调用One class SVM模型；

本实施例中的One class SVM模型表示为：

||x_i-o||₂≤r+ζ_i,i＝1,2,3...m

ζ_i≥0,i＝1,2...m

其中，o为球体中心，r为超球体半径，V(r)为超球体体积，C为惩罚系数，ζ_i为松弛变量。

需要了解的是One class SVM模型中包括多个函数，本实施例中只采用其中一个核函数。可选的，所述核函数可以采用径向基函数，即可以将变量x映射到高向量空间Y上，实现日志样本数据从低维到高维的转变，也即从平面到空间的转变，用于对日志样本数据的有效分类。

本实施例中所得到的分类决策模型表示为：

其中，x⁽ⁱ⁾为行向量，σ为样本方差的算术平方根，γ为K为核函数。

步骤S22、将所述模型训练样本输入至所述分类决策模型进行模型训练，对所述分类决策模型进行参数调优，得到所述漏洞检测模型。

需要了解的是，本实施例中需要对两个参数x′和σ分别进行调优，其中，x′为模型中数据的均值(也即样本点被错误分类所占比例的上界)，σ指方差的算术平均根(σ越小，核函数越陡峭，σ越大，核函数越平坦)。在实际操作中，x′的取值范围在{0.001,0.1}之间，σ的取值范围在{0.000001,1}之间。最后进行F1值计算，取F1值最大时对应的x′和σ，此时便可以得到确定的漏洞检测模型。

在得到确定的漏洞检测模型之后，便可以直接识别待检测的日志文件的异常，对于待检测的日志文件的特征向量求解方式与上述实施例中的方式类似，通过特征向量的计算代入漏洞检测模型，满足漏洞检测模型时，那么所检测的日志文件为正常日志文件；不满足漏洞检测模型时，那么所检测的日志文件为异常日志文件即漏洞文件。

需要了解的是，漏洞文件可以为Get方法的注入、XSS和Web RCE攻击，还能辨别Web蠕虫传播、目录爆破等攻击。

第二实施例

请参考图5，图5为本发明的第二实施例的日志检测装置的程序框图。本实施例提供一种日志检测装置，应用于web系统，该装置包括获取模块100、训练模块200和检测模块300。

获取模块100，用于对Web系统的访问日志中目标日志数据进行特征提取，得到模型训练样本；

训练模块200，用于根据所述模型训练样本对预设分类决策模型进行训练，得到漏洞检测模型；

检测模块300，将待检测日志文件输入至所述漏洞检测模型，输出所述待检测日志文件的异常检测结果；其中，所述异常检测结果包括：所述待检测日志文件为正常文件、所述待检测日志文件为漏洞文件。

在本实施例一种实施方式中，上述获取模块100，具体用于：对Web系统的访问日志的访问路径数据进行分词提取；其中，每个分词对应一个维度向量；计算所提取的分词的分类值，并将所述分类值填入对应向量位置，得到模型训练样本。

进一步地，在本实施例一种实施方式中，获取模块100在执行计算所提取的分词的分类值的功能时，具体用于：计算所提取的分词在所归属的字符串中的词频值；获取多条字符串，计算所提取的分词在所述多条字符串中的逆路径频率值；根据所述词频值以及所述逆路径频率值，计算出所述所提取的分词对应的分类值。

在本实施例一种实施方式中，训练模块200，具体用于：调用One class SVM模型；将所述模型训练样本输入至所述分类决策模型进行模型训练，对所述分类决策模型进行参数调优，得到所述漏洞检测模型。

本实施例中采用的One class SVM模型表示为：

||x_i-o||₂≤r+ζ_i,i＝1,2,3...m

ζ_i≥0,i＝1,2...m

进一步的，得到的分类决策模型表示为：

在本实施例一种实施方式中，日志检测装置还包括：选择模块，用于：获取Web系统的访问日志中所有类型日志数据的重要级别；根据重要级别从所有类型日志数据中，选择目标日志数据。

第三实施例

本实施例提供了一种电子设备，参见图6所示，其包括处理器501、存储器502及通信总线503，其中：通信总线503用于实现处理器501和存储器502之间的连接通信；处理器501用于执行存储器502中存储的一个或者多个计算机程序，以实现上述实施例一中的日志检测方法中的至少一个步骤。

本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory，随机存取存储器),ROM(Read-Only Memory，只读存储器),EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序，其存储的一个或者多个计算机程序可被处理器执行，以实现上述实施例一中的方法的至少一个步骤。

本实施例还提供了一种计算机程序，该计算机程序可以分布在计算机可读介质上，由可计算装置来执行，以实现上述实施例一中的方法的至少一个步骤；并且在某些情况下，可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。

本实施例还提供了一种计算机程序产品，包括计算机可读装置，该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。

可见，本领域的技术人员应该明白，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。

此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。所以，本发明不限制于任何特定的硬件和软件结合。

为了实现上述实施例，本申请实施例还提出一种电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种日志的检测方法，其特征在于，所述方法包括：

获取Web系统的访问日志中所有类型日志数据的重要级别；所述日志数据包括客户端IP、分隔符、访问时间、访问方法及访问路径；

根据所述重要级别从所述所有类型日志数据中，选择目标日志数据；

将待检测日志文件输入至所述漏洞检测模型，输出所述待检测日志文件的异常检测结果；其中，所述异常检测结果包括：所述待检测日志文件为正常文件、所述待检测日志文件为漏洞文件；

所述对Web系统的访问日志中目标日志数据进行特征提取，得到模型训练样本的步骤，具体包括：

对Web系统的访问日志的访问路径数据进行分词提取；其中，每个分词对应一个维度向量；

计算所提取的分词在所归属的字符串中的词频值；获取多条字符串，计算所提取的分词在所述多条字符串中的逆路径频率值；根据所述词频值以及所述逆路径频率值，计算出所述所提取的分词对应的分类值，并将所述分类值填入对应向量位置，得到模型训练样本；

所述根据所述模型训练样本对预设分类决策模型进行训练，得到漏洞检测模型的步骤，包括：

调用One class SVM模型；

将所述模型训练样本输入至所述分类决策模型进行模型训练，对所述分类决策模型进行参数调优，得到所述漏洞检测模型。

2.如权利要求1所述的日志的检测方法，其特征在于，所述One class SVM模型表示为：

||x_i-o||₂≤r+ζ_i,i＝1,2,3...m

ζ_i≥0,i＝1,2...m

其中，ο为球体中心，r为超球体半径，V(r)为超球体体积，C为惩罚系数，ζ_i为松弛变量。

3.如权利要求2所述的日志的检测方法，其特征在于，所述分类决策模型表示为：

4.一种日志的检测装置，其特征在于，所述装置包括：

获取模块，获取Web系统的访问日志中所有类型日志数据的重要级别；所述日志数据包括客户端IP、分隔符、访问时间、访问方法及访问路径；根据所述重要级别从所述所有类型日志数据中，选择目标日志数据；对Web系统的访问日志的访问路径数据进行分词提取；其中，每个分词对应一个维度向量；计算所提取的分词在所归属的字符串中的词频值；获取多条字符串，计算所提取的分词在所述多条字符串中的逆路径频率值；根据所述词频值以及所述逆路径频率值，计算出所述所提取的分词对应的分类值，并将所述分类值填入对应向量位置，得到模型训练样本；

训练模块，调用One class SVM模型；将所述模型训练样本输入至分类决策模型进行模型训练，对所述分类决策模型进行参数调优，得到漏洞检测模型；

5.一种电子设备，其特征在于，所述电子设备包括处理器、存储器及通信总线；

所述通信总线用于实现所述存储器、处理器之间的连接通信；所述处理器用于执行所述存储器中存储的计算机程序，以使得所述设备执行如权利要求1-3任一项所述的方法。

6.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被执行时，实现如权利要求1至3任一项所述的方法。