CN110830483B

CN110830483B - 网页日志攻击信息检测方法、系统、设备及可读存储介质

Info

Publication number: CN110830483B
Application number: CN201911107754.6A
Authority: CN
Inventors: 刘成煜; 范渊; 纪小默; 赵悦; 菅强; 石锐; 问闻; 赵志巍; 李梦姣; 周堃; 宋扬; 张昕
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2022-03-22
Anticipated expiration: 2039-11-13
Also published as: CN110830483A

Abstract

本发明公开了一种网页日志攻击信息检测方法、系统、设备及可读存储介质，该方法：获取网页日志，并利用数据清洗模型对网页日志进行拆分，获得数据片段；利用关键词分析模型将数据片段中的请求响应按照时间线串联归并，获得流量画像；利用网页后门分析模型检索网页日志中的恶意代码；对恶意代码进行沙盒测试，获得测试结果；在流量画像中添加测试结果，获取网页后门攻击时间线。在本方法中，通过对网页日志进行处理，最终可获得用于跟踪攻击者，还原攻击过程的网页后门攻击时间线，对及时抓捕攻击者以及预防攻击者下次作案提供了有力的参考证据。

Description

网页日志攻击信息检测方法、系统、设备及可读存储介质

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种网页日志攻击信息检测方法、系统、设备及可读存储介质。

背景技术

网页日志，是网站服务器重要的组成部分，详细的记录了服务器运行期间客户端对网页应用的访问请求和服务器的运行状态。随时间延长日志记录的服务器的行为状态的数据也十分庞大，靠人力去排查实为不可行的方式。同时，网页日志中也会记录攻击者对网站的入侵行为。

目前，对网页日志进行分析处理，往往仅为对网页日志进行汇总统计，无法获得对网络安全有益的汇总统计结果。即，无法正确解析和重组网页日志的有效信息，将无法在网站日常运营和安全应急响应过程中通过分析网页日志，并结合其他一些情况来跟踪攻击者，还原攻击过程，错过将攻击者绳之以法的抓捕时机。

综上所述，如何有效地解决网页日志深入挖掘等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种网页日志攻击信息检测方法、系统、设备及可读存储介质，以对网页日志进行深入分析，获得可用于跟踪攻击者以及还原攻击过程的网页后门攻击时间线。

为解决上述技术问题，本发明提供如下技术方案：

一种网页日志攻击信息检测方法，包括：

获取网页日志，并利用数据清洗模型对所述网页日志进行拆分，获得数据片段；

利用关键词分析模型将所述数据片段中的请求响应按照时间线串联归并，获得流量画像；

利用网页后门分析模型检索所述网页日志中的恶意代码；

对所述恶意代码进行沙盒测试，获得测试结果；

在所述流量画像中添加所述测试结果，获取网页后门攻击时间线。

优选地，利用数据清洗模型对所述网页日志进行拆分，获得数据片段，包括：

利用所述数据清洗模型将网页日志切片，并按照时间线父子线进行串联或并联，获得所述数据片段。

优选地，所述关键词分析模型包括：正则匹配模块、数值统计模块和机器学习模块；利用关键词分析模型将所述数据片段中的请求响应按照时间线串联归并，获得流量画像，包括：

利用所述正则匹配模块、所述数值统计模块和所述机器学习模块分别对所述数据片段进行攻击识别，获得各模块分别对应的识别结果；

对所述识别结果进行串联处理，获得日志识别结果；

利用所述日志识别结果构建所述流量画像。

优选地，所述机器学习模块包括逻辑回归处理单元、支持向量机单元和朴素贝叶斯单元；所述机器学习模块对所述数据片段进行攻击识别处理，获得对应的日志识别结果包括：

利用所述逻辑回归处理单元、所述支持向量机单元和所述朴素贝叶斯单元分别对所述数据片段进行攻击识别，获得相应的单项识别结果；

按照投票机制对所述单项识别结果进行融合，获得机器信息模块对应的日志识别结果。

优选地，对所述恶意代码进行沙盒测试，获得测试结果，包括：

结合静态分析和动态模拟对所述恶意代码进行沙盒测试，获得所述测试结果；所述测试结果包括所述网页日志中的后门文件和加密行为是否正常的检测结果。

优选地，在所述流量画像中添加所述测试结果，获取网页后门攻击时间线之后，还包括：

输出将所述网页后门攻击时间线。

一种网页日志攻击信息检测系统，包括：

数据清洗模型、关键词分析模型和网页后门分析模型；

所述数据清洗模型，用于对网页日志进行拆分，获得数据片段；

所述关键词分析模型，用于将所述数据片段中的请求响应按照时间线串联归并，获得流量画像；

所述网页后门分析模型，用于检索所述网页日志中的恶意代码；对所述恶意代码进行沙盒测试，获得测试结果；在所述流量画像中添加所述测试结果，获取网页后门攻击时间线。

优选地，所述关键词分析模型，包括：

正则匹配模块、数值统计模块、机器学习模块、判别决策模块和流量画像构建模块；

所述正则匹配模块、所述数值统计模块和所述机器学习模块用于分别对所述数据片段进行攻击识别，获得各模块分别对应的识别结果；

判别决策模块，用于对所述识别结果进行串联处理，获得日志识别结果；

流量画像构建模块，用于利用所述日志识别结果构建所述流量画像。

一种网页日志攻击信息检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述网页日志攻击信息检测方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述网页日志攻击信息检测方法的步骤。

应用本发明实施例所提供的方法，获取网页日志，并利用数据清洗模型对网页日志进行拆分，获得数据片段；利用关键词分析模型将数据片段中的请求响应按照时间线串联归并，获得流量画像；利用网页后门分析模型检索网页日志中的恶意代码；对恶意代码进行沙盒测试，获得测试结果；在流量画像中添加测试结果，获取网页后门攻击时间线。

在本方法中，面对海量网页日志时，为了提高数据深入挖掘的效率，首先利用数据清洗模型对网页日志进行拆分，获得数据片段。然后，利用关键词分析蛮开心将数据片段中的请求响应按照时间线串联归并，得到流量画像。然后利用网页后门分析蛮开心检索出网页日志中的恶意代码，对恶意代码进行沙盒测试得到测试结果。最后，将测试结果表示在流量画像中，获得网页后门攻击时间线。也就是说，在本方法中，通过对网页日志进行处理，最终可获得用于跟踪攻击者，还原攻击过程的网页后门攻击时间线，对及时抓捕攻击者以及预防攻击者下次作案提供了有力的参考证据。

相应地，本发明实施例还提供了与上述网页日志攻击信息检测方法相对应的网页日志攻击信息检测系统、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种网页日志攻击信息检测方法的实施流程图；

图2为本发明实施例中一种关键词分析模型工作原理示意图；

图3为本发明实施例中一种网页日志攻击信息检测系统的结构示意图；

图4为本发明实施例中一种网页日志攻击信息检测设备的结构示意图；

图5为本发明实施例中一种网页日志攻击信息检测设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

为便于理解，下面对现有技术的缺点，以及本实施例所提出方案的核心思想进行简单说明。

对于现有工具对web日志(即网页日志)分析的结果来看，只是简单拆分数据并未对数据进行逻辑处理数据，让web日志在日常工作中并没有起到想象中的重要作用。

对于现有的web日志分析的产品，主要几个缺点集中在以下几个方面，缺点1：web日志体量庞大，很多工具解析吃力，常常会出现系统崩溃的现象。缺点2：大部分产品解析效果不好，只是停留在解析的数据汇总方面并没有深入逻辑串联有效数据碎片。缺点3：需要人力去得出数据结论，最后还是靠人为去做判断一些网络操作行为。

针对上述方案的缺点，为了使web日志在日常网络运用中发挥越来越重要的作用，在本实施例中提出采用多种模型的解析方式进行日志解析为上层应用提供重要的数据资源支持。所涉及模型包括但不限于：

(1)、数据清洗模型，运用碎片拆分算法将日志形成有序的数据片段。

(2)、关键词分析模型，将分散的请求响应按照时间线串联、归并，并形成流量画像。

(3)、网页后门分析模型，将检索所有日志中的“源码”文件中的“恶意代码”，并进行沙盒测试，将测试结果在画像中表明是否是webshell攻击时间线(下文称之为网页后门攻击时间线)。

具体的，请参考图1，图1为本发明实施例中一种网页日志攻击信息检测方法的流程图，该方法包括以下步骤：

S101、获取网页日志，并利用数据清洗模型对网页日志进行拆分，获得数据片段。

具体的，可利用数据清洗模型将网页日志切片，并按照时间线父子线进行串联或并联，获得数据片段。其中，时间线即时间先后顺序，父子线即父类与子类的关系。具体的，可按照时间线对切片后的数据片段进行串联，对于同一时刻的数据片段，可按照其父类与子类的关系进行先后串联或进行并联。例如，当存在a时刻在前，b时刻在后的两个时刻时，将a和b两时刻的日志数据，按照a时刻在前，b时刻在后的顺序，对a时刻对应的日志数据排在b时刻对应的日志数据前；当在c时刻，具有两个不同的日志数据c1和c2时，且c1为c2的子类，此时可将c1排在c2后。

其中，数据清洗模型，对网页日志进行清洗拆分过程，可具体包括：网页日志切片读入，网页日志分片解析、网页日志解析结果入库。即，读取网页日志时，则以切片读入方式进行，即可完成网页日志拆分。而后，对网页日志分片进行解析，得到解析结果进行存储。在此过程中，还可对网页日志中无用的数据内容清洗掉，简化数据。

在本实施例中，数据片段即为数据清洗模型对网页日志进行处理后的日志数据，即数据片段本身也属于日志数据，但该数据片段经过数据清洗模型处理后，数据片段为有序的日志数据。

S102、利用关键词分析模型将数据片段中的请求响应按照时间线串联归并，获得流量画像。

其中，请求响应来源于网页日志。请求响应为数据清洗模型拆分后的数据片段中的一部分的有效数据。确定流量画像时，统计维度为时间线，按时间线可以更加有力清楚的掌握整个网页攻击行为起始。

需要说明的是，在本实施例中，流量画像不单单是数据流量的统计，而是由若干访问ip主机和目的ip主机逻辑连线而成带有附属信息的连线。画像与整个web相关。其中，附属信息可包括访问路线和访问信息等信息。

优选地，在本实施例中，关键词分析模型还可结合多种分析方法对数据片段进行处理，以使得流量画像更具代表性。具体的，该关键词分析模型包括：正则匹配模块、数值统计模块和机器学习模块；利用关键词分析模型将数据片段中的请求响应按照时间线串联归并，获得流量画像，包括以下步骤：

步骤一、利用正则匹配模块、数值统计模块和机器学习模块分别对数据片段进行攻击识别，获得各模块分别对应的识别结果；

步骤二、对识别结果进行串联处理，获得日志识别结果；

步骤三、利用日志识别结果构建流量画像。

其中，机器学习模块包括逻辑回归处理单元、支持向量机单元和朴素贝叶斯单元；机器学习模块对数据片段进行攻击识别处理，获得对应的日志识别结果包括：

利用逻辑回归处理单元、支持向量机单元和朴素贝叶斯单元分别对数据片段进行攻击识别，获得相应的单项识别结果；

按照投票机制对单项识别结果进行融合，获得机器信息模块对应的日志识别结果。

请参考图2，图2为本发明实施例中一种关键词分析模型工作原理示意图。

在关键词分析模型中，结合多种机器学习算法切片识别：逻辑回归、支持向量机和朴素贝叶斯。同时包含了传统的正则匹配算法，正则匹配虽然无法识别未知攻击，但是在已知攻击的识别上误报率相对机器学习是比较低的。为了能够识别爆破、目录扫描等与时序有关的攻击，还可设计数值统计模块进行恶意IP访问频率的计算。此外，多种算法如何结合需要进行足够的实验，结合权重(对结果的影响)更大筛选，并行处理。对正则匹配、数值统计和机器学习(逻辑回归、支持向量机和朴素贝叶斯这三种机器学习算法两两取交集，即实行投票机制，三种中两者检测出异常则认为异常)进行串行处理，得出大量日志的识别结果，如正常或恶意(具体到攻击类型)，然后检测结果(而非日志)存储到数据库中。

S103、利用网页后门分析模型检索网页日志中的恶意代码。

其中，网页后门即webshell；恶意代码包括具有攻击能力的恶意代码，病毒文件对应的病毒代码。

S104、对恶意代码进行沙盒测试，获得测试结果。

优选地，为了提高测试准确率，还可结合静态分析和动态模拟对恶意代码进行沙盒测试，获得测试结果；测试结果包括网页日志中的后门文件和加密行为是否正常的检测结果。具体的，即该网页后门分析模块，可在传统正则匹配的基础上，采用模拟执行，参数动态分析沙盒自测试技术，webshell语义分析技术、暗链隐藏特征分析技术，并根据webshell的行为模式构建了基于机器学习的智能检测模型。传统技术与人工智能技术相结合、静态分析和动态模拟相结合，更精准地检测出web日志中已知和未知的后门文件，区分出正常加密程序的加密行为和疑似勒索病毒文件的加密行为。

S105、在流量画像中添加测试结果，获取网页后门攻击时间线。

确定测试结果之后，可将测试结果添加在流量画像中，以确定出流量画像中是否存在网页后门攻击时间线。即，当存在网页后门攻击时间线时，即可获得网页后门攻击时间线。即，网页后门攻击时间线在ip流量划线(流量画像)上添加了额外信息的时间线。额外信息可具体为网页木马，恶意代码，病毒等。从网页后门攻击时间线中可确定出行为，如某ip什么时间注入恶意代码/上传病毒文件到某ip。

该网页后门攻击时间线，还可为网站服务器提供清晰的网络行为，为用户提供非法入侵有力的数据证据。

优选地，在流量画像中添加测试结果，获取网页后门攻击时间线之后，输出将网页后门攻击时间线。

其中，网页后门攻击时间线可用于当前的攻击者进行定位处理，也可基于该网页后门攻击时间线对网络进行部署，以避免被攻击者入侵。恶意代码和病毒可存入库中供其他模块调用。可从网页后门攻击时间线中采集出攻击时间点，大数据统计出攻击爆发的时间点，以提前规避攻击。

实施例二：

相应于上面的方法实施例，本发明实施例还提供了一种网页日志攻击信息检测系统，下文描述的网页日志攻击信息检测系统与上文描述的网页日志攻击信息检测方法可相互对应参照。

参见图3所示，该系统包括：

数据清洗模型101、关键词分析模型102和网页后门分析模型103；

数据清洗模型，用于对网页日志进行拆分，获得数据片段；

关键词分析模型，用于将数据片段中的请求响应按照时间线串联归并，获得流量画像；

网页后门分析模型，用于检索网页日志中的恶意代码；对恶意代码进行沙盒测试，获得测试结果；在流量画像中添加测试结果，获取网页后门攻击时间线。

应用本发明实施例所提供的装置，获取网页日志，并利用数据清洗模型对网页日志进行拆分，获得数据片段；利用关键词分析模型将数据片段中的请求响应按照时间线串联归并，获得流量画像；利用网页后门分析模型检索网页日志中的恶意代码；对恶意代码进行沙盒测试，获得测试结果；在流量画像中添加测试结果，获取网页后门攻击时间线。

在本系统中，面对海量网页日志时，为了提高数据深入挖掘的效率，首先利用数据清洗模型对网页日志进行拆分，获得数据片段。然后，利用关键词分析蛮开心将数据片段中的请求响应按照时间线串联归并，得到流量画像。然后利用网页后门分析蛮开心检索出网页日志中的恶意代码，对恶意代码进行沙盒测试得到测试结果。最后，将测试结果表示在流量画像中，获得网页后门攻击时间线。也就是说，在本系统中，通过对网页日志进行处理，最终可获得用于跟踪攻击者，还原攻击过程的网页后门攻击时间线，对及时抓捕攻击者以及预防攻击者下次作案提供了有力的参考证据。

在本发明的一种具体实施方式中，关键词分析模型，包括：

正则匹配模块、数值统计模块和机器学习模块用于分别对数据片段进行攻击识别，获得各模块分别对应的识别结果；

判别决策模块，用于对识别结果进行串联处理，获得日志识别结果；

流量画像构建模块，用于利用日志识别结果构建流量画像。

在本发明的一种具体实施方式中，数据清洗模型101，具体用于利用数据清洗模型将网页日志切片，并按照时间线父子线进行串联或并联，获得数据片段。

在本发明的一种具体实施方式中，机器学习模块包括逻辑回归处理单元、支持向量机单元和朴素贝叶斯单元；机器学习模块对数据片段进行攻击识别处理，获得对应的日志识别结果包括：

在本发明的一种具体实施方式中，网页后门分析模型，具体用于结合静态分析和动态模拟对恶意代码进行沙盒测试，获得测试结果；测试结果包括网页日志中的后门文件和加密行为是否正常的检测结果。

在本发明的一种具体实施方式中，输出模块，在流量画像中添加测试结果，获取网页后门攻击时间线之后，输出将网页后门攻击时间线。

实施例三：

相应于上面的方法实施例，本发明实施例还提供了一种网页日志攻击信息检测设备，下文描述的一种网页日志攻击信息检测设备与上文描述的一种网页日志攻击信息检测方法可相互对应参照。

参见图4所示，该网页日志攻击信息检测设备包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例的网页日志攻击信息检测方法的步骤。

具体的，请参考图5，为本实施例提供的一种网页日志攻击信息检测设备的具体结构示意图，该网页日志攻击信息检测设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在网页日志攻击信息检测设备301上执行存储介质330中的一系列指令操作。

网页日志攻击信息检测设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

上文所描述的网页日志攻击信息检测方法中的步骤可以由网页日志攻击信息检测设备的结构实现。

实施例四：

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种网页日志攻击信息检测方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的网页日志攻击信息检测方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种网页日志攻击信息检测方法，其特征在于，包括：

利用网页后门分析模型检索所述网页日志中的恶意代码；

对所述恶意代码进行沙盒测试，获得测试结果；

在所述流量画像中添加所述测试结果，获取网页后门攻击时间线；

所述关键词分析模型包括：正则匹配模块、数值统计模块和机器学习模块；利用关键词分析模型将所述数据片段中的请求响应按照时间线串联归并，获得流量画像，包括：

对所述识别结果进行串联处理，获得日志识别结果；

利用所述日志识别结果构建所述流量画像；

所述机器学习模块包括逻辑回归处理单元、支持向量机单元和朴素贝叶斯单元；所述机器学习模块对所述数据片段进行攻击识别处理，获得对应的日志识别结果包括：

按照投票机制对所述单项识别结果进行融合，获得机器学习模块对应的日志识别结果。

2.根据权利要求1所述的网页日志攻击信息检测方法，其特征在于，利用数据清洗模型对所述网页日志进行拆分，获得数据片段，包括：

3.根据权利要求1所述的网页日志攻击信息检测方法，其特征在于，对所述恶意代码进行沙盒测试，获得测试结果，包括：

4.根据权利要求1所述的网页日志攻击信息检测方法，其特征在于，在所述流量画像中添加所述测试结果，获取网页后门攻击时间线之后，还包括：

输出将所述网页后门攻击时间线。

5.一种网页日志攻击信息检测系统，其特征在于，包括：

数据清洗模型、关键词分析模型和网页后门分析模型；

所述网页后门分析模型，用于检索所述网页日志中的恶意代码；对所述恶意代码进行沙盒测试，获得测试结果；在所述流量画像中添加所述测试结果，获取网页后门攻击时间线；

所述关键词分析模型，包括：

流量画像构建模块，用于利用所述日志识别结果构建所述流量画像；

6.一种网页日志攻击信息检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述网页日志攻击信息检测方法的步骤。

7.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述网页日志攻击信息检测方法的步骤。