CN109768992A

CN109768992A - 网页恶意扫描处理方法及装置、终端设备、可读存储介质

Info

Publication number: CN109768992A
Application number: CN201910161308.7A
Authority: CN
Inventors: 黄浩
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2019-05-17
Anticipated expiration: 2039-03-04
Also published as: CN109768992B

Abstract

本发明提供一种网页恶意扫描处理方法，包括以下步骤：获取当次网页访问的URL地址，并从所述URL地址提取所指向文件的后缀名；判断所指向文件的后缀名是否符合预设敏感条件；若所指向文件的后缀名不符合预设敏感条件，则判断当次网页访问是否存在目录遍历访问；若当次网页访问存在目录遍历访问，则获取预设目录遍历白名单，并判断所遍历访问的目录路径是否存在于所述预设目录遍历白名单；若所遍历访问的目录路径不存在于所述预设目录遍历白名单，则拦截当次网页访问。本发明还提供了一种网页恶意扫描处理装置、终端设备、可读存储介质。本发明解决了现有web防扫描技术容易误判并拦截正常访问而影响正常业务的技术问题。

Description

网页恶意扫描处理方法及装置、终端设备、可读存储介质

技术领域

本发明涉及网络访问技术领域，尤其涉及一种网页恶意扫描处理方法及装置、终端设备、可读存储介质。

背景技术

目前的web(World Wide Web，即全球广域网，也称万维网)防扫描技术都是针对web漏洞扫描进行反向开发研制的。web漏洞扫描一般需要使用自动化工具，如开源软件Nikto、绿盟的应用漏扫设备等。

web漏洞扫描原理是：搜寻处于活动状态的web服务器，然后向搜寻到的web服务器发送一些预先经过精心构造的http(Hyper Text Transfer Protocol，超文本传输协议)请求，再根据返回的内容判断可能存在的漏洞。这些判断信息可能会被黑客利用，为下一步的攻击做准备，或者是作为企业和政府部门风险评估的参考信息。

当前的web防扫描技术一般基于上述web漏洞扫描原理进行防扫描。然而，web防扫描技术也存在容易误判并拦截正常访问、无法有效区分数据包特征是否正常等问题，这些问题很容易导致正常业务发生异常甚至被封锁，进而影响正常业务的顺利开展。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种网页恶意扫描处理方法及装置、终端设备、可读存储介质，旨在解决现有web防扫描技术容易误判并拦截正常访问而影响正常业务的技术问题。

为实现上述目的，本发明提供一种网页恶意扫描处理方法，所述方法包括以下步骤：

获取当次网页访问的URL地址，并从所述URL地址提取所指向文件的后缀名；

判断所指向文件的后缀名是否符合预设敏感条件；

若所指向文件的后缀名不符合预设敏感条件，则判断当次网页访问是否存在目录遍历访问；

若当次网页访问存在目录遍历访问，则获取预设目录遍历白名单，并判断所遍历访问的目录路径是否存在于所述预设目录遍历白名单；

若所遍历访问的目录路径不存在于所述预设目录遍历白名单，则拦截当次网页访问。

优选地，所述判断所指向文件的后缀名是否符合预设敏感条件的步骤，具体包括：

将所指向文件的后缀名与预设敏感文件模型进行比对；

若所指向文件的后缀名匹配预设的敏感文件模型，则判定所指向文件的后缀名符合预设敏感条件；反之，则判定所指向文件的后缀名不符合预设敏感条件。

优选地，所述预设敏感文件模型包含如下比对条件：敏感文件的名称长度、和/或敏感文件的访问目录路径；

所述将所指向文件的后缀名与预设敏感文件模型进行比对的步骤，具体包括：

基于预设多模匹配算法，将所指向文件的后缀名与预设敏感文件模型包含的所述比对条件进行比对；

基于比对结果，判断所指向文件的后缀名是否匹配预设敏感文件模型。

优选地，所述获取当次网页访问的URL地址的步骤之前，还包括：

获取当次网页访问数据，并根据所述当次网页访问数据确认当次网页访问的实施类型；

若当次网页访问的实施类型为请求类型，则执行所述获取当次网页访问的URL地址的步骤；

若当次网页访问的实施类型为响应类型，则执行如下步骤：

获取目标服务器返回的网页页面文件；

从所述网页页面文件中提取包含目录路径的属性标签；

根据所述属性标签，进行目录关键字的提取；

基于所述目录关键字，通过机器学习构建所述目录遍历白名单。

优选地，所述基于所述目录关键字，通过机器学习构建所述目录遍历白名单的步骤之后，还包括：

基于所述网页页面文件，获取进行网页访问的访问端的源IP地址；

判断所述访问端的源IP地址是否存在于预设智能隐藏表中；其中，所述预设智能隐藏表包含访问统计信息异常的若干IP地址；

若所述访问端的源IP地址存在于所述预设智能隐藏表中，则在所述目标服务器返回404错误页面时隐藏所述404错误页面。

优选地，所述判断所述访问端的源IP地址是否存在于预设智能隐藏表中的步骤之后，还包括：

若所述访问端的源IP地址不存在于所述预设智能隐藏表中，则统计所述访问端对所述目标服务器实施访问所产生的404错误页面的总次数；

若所产生的404错误页面的总次数超过第一预设阈值，则将所述访问端的源IP地址加入至所述预设智能隐藏表，并在所述目标服务器返回404错误页面时隐藏所述404错误页面。

若所述访问端的源IP地址不存在于所述预设智能隐藏表中，则进行循环冗余校验，以判断所述访问端的当次访问页面与上次访问页面是否相同；

若相同，则更新所述访问端访问对应页面的访问总次数；

判断所述访问总次数是否大于第二预设阈值；

若是，则将所述访问端的源IP地址加入至所述预设智能隐藏表，并在所述目标服务器返回404错误页面时隐藏所述404错误页面。

此外，为实现上述目的，本发明还提供一种网页恶意扫描处理装置，所述装置包括：

信息提取单元，用于获取当次网页访问的URL地址，并从所述URL地址提取所指向文件的后缀名；

敏感条件判断单元，用于判断所指向文件的后缀名是否符合预设敏感条件；

目录遍历访问判断单元，用于若所指向文件的后缀名不符合预设敏感条件，则判断当次网页访问是否存在目录遍历访问；

目录遍历白名单判断单元，用于若当次网页访问存在目录遍历访问，则获取预设目录遍历白名单，并判断所遍历访问的目录路径是否存在于所述预设目录遍历白名单；

拦截单元，用于若所遍历访问的目录路径不存在于所述预设目录遍历白名单，则拦截当次网页访问。

此外，为实现上述目的，本发明还提供一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页恶意扫描处理程序，所述网页恶意扫描处理程序被所述处理器执行时实现如上所述的网页恶意扫描处理方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有网页恶意扫描处理程序，所述网页恶意扫描处理程序被处理器执行时实现如上所述的网页恶意扫描处理方法的步骤。

本发明实施例提出一种网页恶意扫描处理方法及装置、终端设备、可读存储介质，先从当次网页访问的URL地址中提取所指向文件的后缀名，并判断所指向文件的后缀名是否符合预设敏感条件，从而进行所指向文件后缀名的合理性验证。随后，在所指向文件后缀名的合理性验证通过后，进行当次网页访问是否存在目录遍历访问特征的验证；在确认当次网页访问存在目录遍历访问特征时，验证所遍历访问的目录路径是否存在于预设目录遍历白名单。在验证所遍历访问的目录路径不存在于预设目录遍历白名单时，确认当次网页访问为恶意扫描访问，进而对当次网页访问进行拦截。在本实施例中，通过多项不同类型的验证判断当次网页访问是否属于恶意扫描访问，避免了基于访问频率的恶意扫描判断方式，同时能够综合性地判断URL地址是否为正常业务访问地址，大大降低正常业务访问被误判的概率，同时提高对恶意扫描访问请求的识别能力。

附图说明

图1为本发明网页恶意扫描处理方法第一实施例的流程示意图；

图2为本发明网页恶意扫描处理方法第一实施例中步骤S20的细化步骤意图；

图3为本发明网页恶意扫描处理方法的实现流程示意图；

图4为本发明网页恶意扫描处理装置各功能单元的一种组成示意图；

图5为本发明网页恶意扫描处理装置各功能单元的另一种组成示意图；

图6为本发明终端设备的各组成部分框图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

首先，针对本发明中涉及的一些术语，给出如下的定义或者说明。

AC自动机算法：AC即Aho–Corasick的简称。在计算机科学中，AC自动机算法是一种字符串搜索算法，用于在输入的一串字符串中匹配有限组“字典”中的子串。它与普通字符串匹配算法的不同点在于：AC自动机算法可同时与所有字典型字符串进行匹配。

URL：Uniform Resource Locator，即统一资源定位符，是因特网上标准的资源的地址。

html：HyperText Markup Language，即超级文本标记语言。

循环冗余校验(Cyclic Redundancy Check,CRC)是一种根据网络数据包或电脑文件等数据产生简短固定位数校验码的一种散列函数，主要用来检测或校验数据传输或者保存后可能出现的错误。它是利用除法及余数的原理进行错误侦测的。

本发明提供一种网页恶意扫描处理方法。

请参见图1，图1为本发明网页恶意扫描处理方法的第一实施例的流程示意图。在本实施例中，所述方法包括以下步骤：

步骤S10，获取当次网页访问的URL地址，并从所述URL地址提取所指向文件的后缀名；

在检测到某一访问端对某一目标服务服务器发起的网页访问请求时，获取当次网页访问的URL地址。更具体地，在检测到访问端向目标服务器发送的当次URL访问请求报文时，进行URL地址的获取。该请求报文可以是访问端建立TCP(Transmission ControlProtocol，即传输控制协议)连接后向目标服务器发送的。从该请求行中可以提取出当次网页访问的URL地址。

从已获取的URL地址中提取出该URL地址所指向文件的后缀名。其中，所指向文件是指通过该URL地址访问特定目录路径下的相关文件。所指向文件的后缀名具体是指URL地址包含的所指向文件的后缀名。具体来说，根据URL地址的常用构造规则提取出所指向文件的后缀名。

例如，假设当次访问的URL地址是“abc.com/login.sql”，则“sql”就是必须进行提取的后缀名。

此外，由于实际的漏洞扫描器进行恶意扫描时往往会在访问的URL地址中加入其它混淆特征，以此规避对其访问动作的识别，如URL修改为“abc.com/login.sql.test”。此时需要对所指向文件的后缀名进一步鉴定。对应地，执行步骤S20。

步骤S20，判断所指向文件的后缀名是否符合预设敏感条件；

如图2所示，在一具体实施时，步骤S20具体包括：

步骤S21，将所指向文件的后缀名与预设敏感文件模型进行比对；

其中，预设敏感文件模型可以是预先训练好的、包含特定算法的相关数据模型；或者预设敏感文件模型包含特定的判断规则。

优选地，所述预设敏感文件模型包含如下比对条件：敏感文件名称的字符长度、和/或敏感文件名称的分布位置；也即，预设敏感文件模型构建的维度可以包括但不限于如下两大方面：①敏感文件名称的字符长度；②敏感文件名称的分布位置。步骤S21具体包括：步骤S211，基于预设多模匹配算法，将所指向文件的后缀名与预设敏感文件模型包含的所述比对条件进行比对；

步骤S212，基于比对结果，判断所指向文件的后缀名是否匹配预设敏感文件模型。

将提取出的文件后缀名与敏感文件名称的字符长度、和/或敏感文件名称的分布位置进行比对，判断该文件后缀名是否符合敏感文件名称的字符长度、和/或敏感文件名称的分布位置的比对条件。若符合，则证明所提取的文件后缀名为真实有效的后缀名，此时判定所指向文件的后缀名匹配预设敏感文件模型；否则，证明所提取的文件后缀名不是真实有效的后缀名，此时判定所指向文件的后缀名不匹配预设敏感文件模型。从而，准确地判断出所提取的文件后缀名是否真实有效，同时进行所指向文件后缀名的合理性验证，以判断当次访问是否属于恶意扫描。

此外，预设多模匹配算法优选采用AC自动机算法。AC自动机算法是一种多模式串的字符匹配算法。具体地，先构造出AC自动机，再将已提取的文件后缀名用AC自动机进行遍历，确定出文件后缀名中包含有哪些关键词字符串；然后确定关键词字符串是否与预设的敏感文件模型包含的上述比对条件相匹配。

AC自动机算法能够处理高数据量的URL的后缀特征信息，相比于现有技术中基于正则表达式匹配的方案，AC自动机匹配的时间复杂度较低，比对匹配的效率较高。

步骤S22，若所指向文件的后缀名匹配预设的敏感文件模型，则判定所指向文件的后缀名符合预设敏感条件；反之，则判定所指向文件的后缀名不符合预设敏感条件。

若判定所指向文件的后缀名符合预设敏感条件，则认定当次网页访问属于恶意扫描，直接拦截当次网页访问。否则，执行步骤S30。

步骤S30，若所指向文件的后缀名不符合预设敏感条件，则判断当次网页访问是否存在目录遍历访问；

具体地，通过预设正则技术判断当次网页访问是否存在目录遍历访问的动作特征。举例来说，某一网站下的目录文件访问路径为“http://域名/A/B/C/file_name”。其中，A、B、C代表不同层级目录名称，最后的“file_name”代表的是某一目录包含文件的文件名。若在某一时间节点检测到某一访问端开始发起对目录访问请求，则实时监测该访问端发起的目录访问请求。

具体地，获取在预设时长内该访问端发起目录访问请求对应的各URL地址，并通过预设的正则表达式判断各URL地址是否匹配特定层级的目录文件，并根据判断结果判断当次网页访问是否存在目录遍历访问。例如，在预设时长内超过预设比例的URL地址与某一层级的目录文件匹配，此时判定当次网页访问存在目录遍历访问；否则，判定当次网页访问不存在目录遍历访问。预设时长、预设比例均可以根据实际需要进行设定。基于预设正则技术，可以方便准确地判断URL地址是否匹配特定层级的目录文件。

步骤S40，若当次网页访问存在目录遍历访问，则获取预设目录遍历白名单，并判断所遍历访问的目录路径是否存在于所述预设目录遍历白名单；

由于正常合法的URL访问也可能存在目录遍历访问，为减少误判(将正常合法的URL访问误判为恶意扫描访问)，在判断次网页访问存在目录遍历访问之后，还需要进行白名单验证。其中，预设目录遍历白名单为预先生成的白名单，其生成方式请参见下文的实施例。

预设目录遍历白名单保存有网站中运行访问的正常目录路径；基于预设正则技术(正则引擎)将当次网页访问的URL地址与目录遍历白名单中的正常目录路径进行匹配，若当次网页访问的URL地址与目录遍历白名单中的任一正常目录路径相同，则判定所遍历访问的目录路径存在于所述预设目录遍历白名单；此时，当次网页访问可视为正常的业务流量访问。否则，判定所遍历访问的目录路径不存在于所述预设目录遍历白名单。

步骤S50，若所遍历访问的目录路径不存在于所述预设目录遍历白名单，则拦截当次网页访问。

此时，当次网页访问可视为恶意扫描访问，直接将其拦截。

在本实施例中，先从当次网页访问的URL地址中提取所指向文件的后缀名，并判断所指向文件的后缀名是否符合预设敏感条件，从而进行所指向文件后缀名的合理性验证。随后，在所指向文件后缀名的合理性验证通过后，进行当次网页访问是否存在目录遍历访问特征的验证；在确认当次网页访问存在目录遍历访问特征时，验证所遍历访问的目录路径是否存在于预设目录遍历白名单。在验证所遍历访问的目录路径不存在于预设目录遍历白名单时，确认当次网页访问为恶意扫描访问，进而对当次网页访问进行拦截。在本实施例中，通过多项不同类型的验证判断当次网页访问是否属于恶意扫描访问，避免了基于访问频率的恶意扫描判断方式，同时能够综合性地判断URL地址是否为正常业务访问地址，大大降低正常业务访问被误判的概率，同时提高对恶意扫描访问请求的识别能力。

进一步的，在本发明网页恶意扫描处理方法第一实施例的基础上，提出第二实施例。如图3所示，在本实施例中，在步骤S10之前还包括：

步骤S60，获取当次网页访问数据，并根据所述当次网页访问数据确认当次网页访问的实施类型；

当次URL动作的实施类型具体可以分为两类：请求类型与响应类型。其中，请求类型可以是外部端口设备(在本发明中也称为“访问端”)向目标服务器发送URL访问请求(具体可以通过运行某一应用程序或者软件实现)，以实现对某一目标资源或者目标页面的访问。响应类型可以是目标服务器在接收到URL访问请求后进行对应的处理及应答。

具体地，对通过防火墙的流量数据(即当次网页访问数据)进行监控，确认当次网页访问的实施类型。或者，在检测到网页访问请求时，判定当次网页访问的实施类型为请求类型；在检测到目标服务器返回的网页应答报文或者浏览器html文件时，判定当次网页访问的实施类型为响应类型。

若当次网页访问的实施类型为请求类型，则执行步骤S10；

若当次网页访问的实施类型为响应类型，则执行如下步骤：

步骤S70，获取目标服务器返回的网页页面文件；

所述网页页面文件具体包括但不限于：在进行正常业务访问时，目标服务器返回的http(HyperText Transfer Protocol，即超文本传输协议)页面文件。

步骤S71，从所述网页页面文件中提取包含目录路径的属性标签；

步骤S72，根据所述属性标签，进行目录关键字的提取；

属性标签如src、img等。根据这些属性标签，进行目录关键字的提取。例如，src＝"/scripts/example.js"，该属性标签包含指向站点内文件的URL“/scripts/example.js”。此时可以将该URL提取出来，并将该URL作为一个目标关键字。

步骤S73，基于所述目录关键字，通过机器学习构建所述目录遍历白名单。

也即，在机器学习阶段，把正常业务访问中的目录关键字进行记录，通过去重、归并等操作，形成一个目录遍历白名单，该目录遍历白名单保存有网站中允许访问的URL目录路径。基于预设正则技术(正则引擎)将后续通过的访问流量和目录遍历白名单进行匹配，以此判断访问流量是否为正常的业务访问流量。具体请参见上文步骤S40的相关内容。

进一步地，步骤S73之后，还包括：

步骤S80，基于所述网页页面文件，获取进行网页访问的访问端的源IP地址；

具体的，基于特定的调用函数从网页页面文件提取出访问端的源IP地址。

步骤S81，判断所述访问端的源IP地址是否存在于预设智能隐藏表中；其中，所述预设智能隐藏表包含访问统计信息异常的若干IP地址；

预设智能隐藏表具体可以是预先生成的名单表格，其中包含各类已识别出的访问统计信息异常的IP地址。例如，对某一访问端发起的网页访问的URL地址进行统计，若该访问端在预设限定时间内连续访问同一页面的次数超过预设阈值，则判定该访问端为异常访问端，也即该访问端的IP地址的访问统计信息异常。

步骤S82，若所述访问端的源IP地址存在于所述预设智能隐藏表中，则在所述目标服务器返回404错误页面时隐藏所述404错误页面。

当所述访问端的源IP地址存在于所述预设智能隐藏表时，该访问端可视为实施恶意扫描的执行主体。由于目标服务器返回的404错误页面会包含目标服务器的一些信息，这些信息有可能被实施恶意扫描的执行主体(如漏洞扫描器)基于所接收到的404错误页面提取得到；进而实施恶意扫描的执行主体根据这些信息查找出目标服务器的漏洞。因此，在判断访问端的源IP地址存在于预设智能隐藏表时，需要对目标服务器返回至该访问端的源IP地址的404错误页面进行隐藏。对404错误页面进行隐藏的技术为现有技术，这里不作赘述。这样，当所述访问端的源IP地址存在于所述预设智能隐藏表时，判断访问端为实施恶意扫描的执行主体，结合智能http页面隐藏技术，加强了对目标服务器的信息与数据的安全保护，并提高对恶意扫描的执行主体的智能识别。

进一步地，在本发明网页恶意扫描处理方法第二实施例的基础上，提出第三实施例。如图3所示，在本实施例中，在步骤S81之后，还包括：

步骤S90，若所述访问端的源IP地址不存在于所述预设智能隐藏表中，则统计所述访问端对所述目标服务器实施访问所产生的404错误页面的总次数；

当访问端的源IP地址不存在于预设智能隐藏表中时，需要进一步验证：访问端是否存在对同一目标服务器实施多次重复访问以获取404错误页面的动作；具体可以通过统计某一访问端对某一目标服务器实施访问所产生的404错误页面的总次数进行验证。

步骤S91，若所产生的404错误页面的总次数超过第一预设阈值，则将所述访问端的源IP地址加入至所述预设智能隐藏表，并在所述目标服务器返回404错误页面时隐藏所述404错误页面。

若某一访问端访问同一目标服务器产生404错误页面的总次数超过第一预设阈值，则认定该访问端为实施恶意扫描的执行主体。第一预设阈值可以根据实际进行设置。此时，可以将该访问端的源IP地址保存到上述的预设智能隐藏表中，从而及时更新预设智能隐藏表。以及，对目标服务器返回的404错误页面进行隐藏技术。这样，通过获取404错误页面总次数验证结合智能http页面隐藏，判断访问端是否为实施恶意扫描的执行主体，同时加强对目标服务器的信息与数据的安全保护，并提高对恶意扫描的执行主体的智能识别。

进一步地，在本发明网页恶意扫描处理方法第二实施例的基础上，提出第四实施例。如图3所示，在本实施例中，在步骤S81之后，还包括：

步骤S100，若所述访问端的源IP地址不存在于所述预设智能隐藏表中，则进行循环冗余校验，以判断所述访问端的当次访问页面与上次访问页面是否相同；

当访问端的源IP地址不存在于预设智能隐藏表中时，需要进一步验证：访问端是否存在多次连续访问同一页面(或者目录路径)的动作。以此判断该访问端是否实施恶意扫描。每次在检测到访问端的访问动作时，保存当次访问页面的相关特征数据(如URL、web文档结构等)。在每次执行判断时，获取当次访问页面的相关特征数据，以及提取出已存储的上次访问页面的相关特征数据，并进行循环冗余校验。

步骤S101，若相同，则更新所述访问端访问对应页面的访问总次数；

更新访问端访问对应页面的访问总次数，可以保证访问端连续访问同一页面(或者目录路径)总次数的准确性。在进行更新时，将上次更新的所述访问端连续访问同一页面(或者目录路径)的访问总次数自增加一即可。

步骤S102，判断所述访问总次数是否大于第二预设阈值；

若是，则执行步骤S103：将所述访问端的源IP地址加入至所述预设智能隐藏表，并在所述目标服务器返回404错误页面时隐藏所述404错误页面。

若访问端连续访问同一页面(或者目录路径)的总次数超过第二预设阈值，则认定该访问端为实施恶意扫描的执行主体。第二预设阈值可以根据实际需要设置。此时，可以将该访问端的源IP地址保存到上述的预设智能隐藏表中，从而及时更新预设智能隐藏表。以及，对目标服务器返回的404错误页面进行隐藏。这样，通过统计访问端连续访问同一页面的总次数结合智能http页面隐藏技术，方便地区分漏洞扫描和非漏洞漏扫的业务流量，判断访问端是否为实施恶意扫描的执行主体，同时加强对目标服务器的信息与数据的安全保护，并提高对恶意扫描执行主体的智能识别。

此外，本发明还提供一种网页恶意扫描处理装置。如图4所示，图4为所述装置的各功能单元的组成示意图。其中，所述装置包括：

信息提取单元10，用于获取当次网页访问的URL地址，并从所述URL地址提取所指向文件的后缀名；

在检测到某一访问端对某一目标服务服务器发起的网页访问请求时，信息提取单元10获取当次网页访问的URL地址。更具体地，在检测到访问端向目标服务器发送的当次URL访问请求报文时，信息提取单元10进行URL地址的获取。该请求报文可以是访问端建立TCP(Transmission Control Protocol，即传输控制协议)连接后向目标服务器发送的。从该请求行中可以提取出当次网页访问的URL地址。

信息提取单元10从已获取的URL地址中提取出该URL地址所指向文件的后缀名。其中，所指向文件是指通过该URL地址访问特定目录路径下的相关文件。所指向文件的后缀名具体是指URL地址包含的所指向文件的后缀名。具体来说，根据URL地址的常用构造规则提取出所指向文件的后缀名。

此外，由于实际的漏洞扫描器进行恶意扫描时往往会在访问的URL地址中加入其它混淆特征，以此规避对其访问动作的识别，如URL修改为“abc.com/login.sql.test”。此时需要对所指向文件的后缀名进一步鉴定。

敏感条件判断单元20，用于判断所指向文件的后缀名是否符合预设敏感条件；

在一具体实施时，敏感条件判断单元20，具体用于将所指向文件的后缀名与预设敏感文件模型进行比对；

敏感条件判断单元20，还用于基于比对结果，判断所指向文件的后缀名是否匹配预设敏感文件模型。

敏感条件判断单元20，还用于若所指向文件的后缀名匹配预设的敏感文件模型，则判定所指向文件的后缀名符合预设敏感条件；反之，则判定所指向文件的后缀名不符合预设敏感条件。

若判定所指向文件的后缀名符合预设敏感条件，则认定当次网页访问属于恶意扫描，敏感条件判断单元20直接拦截当次网页访问。

目录遍历访问判断单元30，用于若所指向文件的后缀名不符合预设敏感条件，则判断当次网页访问是否存在目录遍历访问；

具体地，目录遍历访问判断单元30通过预设正则技术判断当次网页访问是否存在目录遍历访问的动作特征。举例来说，某一网站下的目录文件访问路径为“http://域名/A/B/C/file_name”。其中，A、B、C代表不同层级目录名称，最后的“file_name”代表的是某一目录包含文件的文件名。若在某一时间节点检测到某一访问端开始发起对目录访问请求，则实时监测该访问端发起的目录访问请求。

具体地，在获取在预设时长内该访问端发起目录访问请求对应的各URL地址，敏感条件判断单元20通过预设的正则表达式判断各URL地址是否匹配特定层级的目录文件，并根据判断结果判断当次网页访问是否存在目录遍历访问。例如，在预设时长内超过预设比例的URL地址与某一层级的目录文件匹配，此时判定当次网页访问存在目录遍历访问；否则，判定当次网页访问不存在目录遍历访问。预设时长、预设比例均可以根据实际需要进行设定。基于预设正则技术，可以方便准确地判断URL地址是否匹配特定层级的目录文件。

目录遍历白名单判断单元40，用于若当次网页访问存在目录遍历访问，则获取预设目录遍历白名单，并判断所遍历访问的目录路径是否存在于所述预设目录遍历白名单；

由于正常合法的URL访问也可能存在目录遍历访问，为减少误判(将正常合法的URL访问误判为恶意扫描访问)，在判断次网页访问存在目录遍历访问之后，还需要目录遍历白名单判断单元40进行白名单验证。其中，预设目录遍历白名单为预先生成的白名单，其生成方式请参见下文的实施例。

预设目录遍历白名单保存有网站中运行访问的正常目录路径；目录遍历白名单判断单元40基于预设正则技术(正则引擎)将当次网页访问的URL地址与目录遍历白名单中的正常目录路径进行匹配，若当次网页访问的URL地址与目录遍历白名单中的任一正常目录路径相同，则判定所遍历访问的目录路径存在于所述预设目录遍历白名单；此时，当次网页访问可视为正常的业务流量访问。否则，判定所遍历访问的目录路径不存在于所述预设目录遍历白名单。

拦截单元50，用于若所遍历访问的目录路径不存在于所述预设目录遍历白名单，则拦截当次网页访问。此时，当次网页访问可视为恶意扫描访问，直接将其拦截。

在本装置中，信息提取单元10先从当次网页访问的URL地址中提取所指向文件的后缀名，并由敏感条件判断单元20判断所指向文件的后缀名是否符合预设敏感条件，从而进行所指向文件后缀名的合理性验证。随后，在所指向文件后缀名的合理性验证通过后，目录遍历访问判断单元30进行当次网页访问是否存在目录遍历访问特征的验证；在确认当次网页访问存在目录遍历访问特征时，目录遍历白名单判断单元40验证所遍历访问的目录路径是否存在于预设目录遍历白名单。在验证所遍历访问的目录路径不存在于预设目录遍历白名单时，确认当次网页访问为恶意扫描访问，进而有拦截单元50对当次网页访问进行拦截。在本装置中，通过多项不同类型的验证判断当次网页访问是否属于恶意扫描访问，避免了基于访问频率的恶意扫描判断方式，同时能够综合性地判断URL地址是否为正常业务访问地址，大大降低正常业务访问被误判的概率，同时提高对恶意扫描访问请求的识别能力。

进一步的，如图5所示，在上述本发明网页恶意扫描处理装置的基础上，所述装置还包括：

实施类型确认单元60，用于获取当次网页访问数据，并根据所述当次网页访问数据确认当次网页访问的实施类型；

若当次网页访问的实施类型为请求类型，则由上述信息提取单元10执行对应的动作。

若当次网页访问的实施类型为响应类型，则由下述执行如下步骤：

目录遍历白名单构建单元70，用于获取目标服务器返回的网页页面文件；

目录遍历白名单构建单元70，还用于从所述网页页面文件中提取包含目录路径的属性标签；

目录遍历白名单构建单元70，还用于根据所述属性标签，进行目录关键字的提取；

目录遍历白名单构建单元70，还用于基于所述目录关键字，通过机器学习构建所述目录遍历白名单。

也即，在机器学习阶段，把正常业务访问中的目录关键字进行记录，通过去重、归并等操作，形成一个目录遍历白名单，该目录遍历白名单保存有网站中允许访问的URL目录路径。基于预设正则技术(正则引擎)将后续通过的访问流量和目录遍历白名单进行匹配，以此判断访问流量是否为正常的业务访问流量。

进一步地，如图4所示，所述装置还包括：第一判断单元80；

所述第一判断单元80，用于基于所述网页页面文件，获取进行网页访问的访问端的源IP地址；

所述第一判断单元80，还用于判断所述访问端的源IP地址是否存在于预设智能隐藏表中；其中，所述预设智能隐藏表包含访问统计信息异常的若干IP地址；

预设智能隐藏表为预先生成的名单表格，其中包含各类已识别出的访问统计信息异常的IP地址。例如，对某一访问端发起的网页访问的URL地址进行统计，若该访问端在预设限定时间内连续访问同一页面的次数超过预设阈值，则判定该访问端为异常访问端，也即该访问端的IP地址的访问统计信息异常。

所述第一判断单元80，还用于若所述访问端的源IP地址存在于所述预设智能隐藏表中，则在所述目标服务器返回404错误页面时隐藏所述404错误页面。

当所述访问端的源IP地址存在于所述预设智能隐藏表时，该访问端可视为实施恶意扫描的执行主体。由于目标服务器返回的404错误页面会包含目标服务器的一些信息，这些信息有可能被实施恶意扫描的执行主体(如漏洞扫描器)基于所接收到的404错误页面提取得到；进而实施恶意扫描的执行主体根据这些信息查找出目标服务器的漏洞。因此，在判断访问端的源IP地址存在于预设智能隐藏表时，需要对目标服务器返回至该访问端的源IP地址的404错误页面进行隐藏。对404错误页面进行隐藏的技术为现有技术，这里不作赘述。这样，当第一判断单元80判断所述访问端的源IP地址存在于所述预设智能隐藏表时，判断访问端为实施恶意扫描的执行主体，结合智能http页面隐藏技术，加强了对目标服务器的信息与数据的安全保护，并提高对恶意扫描的执行主体的智能识别。

进一步地，如图5所示，在所述本发明网页恶意扫描处理装置的基础上，所述装置还可以包括：第二判断单元90；

所述第二判断单元90，用于若所述访问端的源IP地址不存在于所述预设智能隐藏表中，则统计所述访问端对所述目标服务器实施访问所产生的404错误页面的总次数；

所述第二判断单元90，还用于若所产生的404错误页面的总次数超过第一预设阈值，则将所述访问端的源IP地址加入至所述预设智能隐藏表，并在所述目标服务器返回404错误页面时隐藏所述404错误页面。

若某一访问端访问同一目标服务器产生404错误页面的总次数超过第一预设阈值，则认定该访问端为实施恶意扫描的执行主体。第一预设阈值可以根据实际进行设置。此时，可以将该访问端的源IP地址保存到上述的预设智能隐藏表中，从而及时更新预设智能隐藏表。以及，对目标服务器返回的404错误页面进行隐藏技术。这样，第二判断单元90通过获取404错误页面总次数验证结合智能http页面隐藏，判断访问端是否为实施恶意扫描的执行主体，同时加强对目标服务器的信息与数据的安全保护，并提高对恶意扫描的执行主体的智能识别。

进一步地，如图5所示，在上述本发明网页恶意扫描处理装置的基础上，所述装置还可以包括：第三判断单元100。

所述第三判断单元100，用于若所述访问端的源IP地址不存在于所述预设智能隐藏表中，则进行循环冗余校验，以判断所述访问端的当次访问页面与上次访问页面是否相同；

所述第三判断单元100，还用于若所述访问端的当次访问页面与上次访问页面相同，则更新所述访问端访问对应页面的访问总次数；

所述第三判断单元100，还用于判断所述访问总次数是否大于第二预设阈值；

若是，则所述第三判断单元100，还用于将所述访问端的源IP地址加入至所述预设智能隐藏表，并在所述目标服务器返回404错误页面时隐藏所述404错误页面。

若访问端连续访问同一页面(或者目录路径)的总次数超过第二预设阈值，则认定该访问端为实施恶意扫描的执行主体。第二预设阈值可以根据实际需要设置。此时，可以将该访问端的源IP地址保存到上述的预设智能隐藏表中，从而及时更新预设智能隐藏表。以及，对目标服务器返回的404错误页面进行隐藏。这样，所述第三判断单元100通过统计访问端连续访问同一页面的总次数结合智能http页面隐藏技术，方便地区分漏洞扫描和非漏洞漏扫的业务流量，判断访问端是否为实施恶意扫描的执行主体，同时加强对目标服务器的信息与数据的安全保护，并提高对恶意扫描执行主体的智能识别。

如图6所示，本发明实施例涉及的终端设备可以是各类用于实现集中控制的装置/设备，如计算机、服务器、单片机、MCU(Microcontroller Unit，即微控制单元)、智能手机、平板电脑、笔记本电脑。如图6所示，图6是本发明实施例方案涉及的终端设备运行环境的结构示意图，运行环境的结构具体可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图6中示出的运行环境的结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图6所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及网页恶意扫描处理程序。

在图6所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的网页恶意扫描处理程序，并执行以下操作：

判断所指向文件的后缀名是否符合预设敏感条件；

进一步地，处理器1001可以调用存储器1005中存储的网页恶意扫描处理程序，还执行以下操作：

将所指向文件的后缀名与预设敏感文件模型进行比对；

优选地，所述预设敏感文件模型包含如下比对条件：敏感文件的名称长度、和/或敏感文件的访问目录路径；进一步地，处理器1001可以调用存储器1005中存储的网页恶意扫描处理程序，还执行以下操作：

若当次网页访问的实施类型为响应类型，则执行如下步骤：

获取目标服务器返回的网页页面文件；

从所述网页页面文件中提取包含目录路径的属性标签；

根据所述属性标签，进行目录关键字的提取；

若相同，则更新所述访问端访问对应页面的访问总次数；

判断所述访问总次数是否大于第二预设阈值；

本发明终端设备的具体实现过程请参见上文实施例所述对应的内容。

此外，本发明还提供一种可读存储介质，所述可读存储介质上存储有网页恶意扫描处理程序，所述网页恶意扫描处理程序被处理器执行时实现如上所述的网页恶意扫描处理方法各实施例的步骤。

其中，在所述处理器上运行的网页恶意扫描处理程序被执行时所实现的方法可参照本发明网页恶意扫描处理方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种网页恶意扫描处理方法，其特征在于，所述方法包括以下步骤：

判断所指向文件的后缀名是否符合预设敏感条件；

2.如权利要求1所述的网页恶意扫描处理方法，其特征在于，所述判断所指向文件的后缀名是否符合预设敏感条件的步骤，具体包括：

将所指向文件的后缀名与预设敏感文件模型进行比对；

3.如权利要求2所述的网页恶意扫描处理方法，其特征在于，所述预设敏感文件模型包含如下比对条件：敏感文件名称的字符长度、和/或敏感文件名称的分布位置；

4.如权利要求1所述的网页恶意扫描处理方法，其特征在于，所述获取当次网页访问的URL地址的步骤之前，还包括：

若当次网页访问的实施类型为响应类型，则执行如下步骤：

获取目标服务器返回的网页页面文件；

从所述网页页面文件中提取包含目录路径的属性标签；

根据所述属性标签，进行目录关键字的提取；

5.如权利要求4所述的网页恶意扫描处理方法，其特征在于，所述基于所述目录关键字，通过机器学习构建所述目录遍历白名单的步骤之后，还包括：

6.如权利要求5所述的网页恶意扫描处理方法，其特征在于，所述判断所述访问端的源IP地址是否存在于预设智能隐藏表中的步骤之后，还包括：

7.如权利要求5所述的网页恶意扫描处理方法，其特征在于，所述判断所述访问端的源IP地址是否存在于预设智能隐藏表中的步骤之后，还包括：

若相同，则更新所述访问端访问对应页面的访问总次数；

判断所述访问总次数是否大于第二预设阈值；

8.一种网页恶意扫描处理装置，其特征在于，所述装置包括：

9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页恶意扫描处理程序，所述网页恶意扫描处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的网页恶意扫描处理方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有网页恶意扫描处理程序，所述网页恶意扫描处理程序被处理器执行时实现如权利要求1至7中任一项所述的网页恶意扫描处理方法的步骤。