CN103118028A

CN103118028A - 基于网页解析的安全扫描方法及系统

Info

Publication number: CN103118028A
Application number: CN2013100492834A
Authority: CN
Inventors: 曾洪伟
Original assignee: SHANGHAI SUNINFO TECHNOLOGY Co Ltd
Current assignee: SHANGHAI SUNINFO TECHNOLOGY Co Ltd
Priority date: 2013-02-07
Filing date: 2013-02-07
Publication date: 2013-05-22
Anticipated expiration: 2033-02-07
Also published as: CN103118028B

Abstract

本发明适用于计算机网络技术领域，提供了一种基于网页解析的安全扫描方法及系统，所述包括步骤有：解析步骤，通过预定的第一正则表达式将网页的网页源码解析为网页正文和网页标签；存储步骤，分别存储所述网页正文和所述网页标签；安全扫描步骤，分别对所述网页正文和所述网页标签进行安全扫描处理。借此，本发明将网页源码分解为不同类别的解析结果，然后针对性地分别对这些不同类别的解析结果进行存储和安全扫描，最大程度上避免了处理无意义的数据的问题，从而大大提高了安全扫描的效率。

Description

基于网页解析的安全扫描方法及系统

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种基于网页解析的安全扫描方法及系统。

背景技术

随着互联网的高速发展，围绕其而产生的各种网页技术也层出不穷，但是很多网页技术中不可避免的遇到了需要抓存网页以及网页内嵌的一些资源的问题，如安全扫描技术，这便用到了网页解析技术。目前，网页解析技术主要有以下两种：

第一种是DOM树方法：将待解析网页解析为DOM（Document Object Model，文档对象模型）树。从DOM树的根结点开始遍历，识别DOM树中的正文结点和垃圾词结点，对识别出的正文结点按网页的楼层进行划分。

第二种是哈希法比对模板库方法：为待解析网页的目录生成哈希值，根据生成的哈希值在网页模板库中的模板哈希表中查找是否存在该值；若存在，按照该值对应的模板对待解析网页进行解析；若不存在，查找待解析网页的同类型网页，利用所有查找到的同类型网页生成与待解析网页对应的模板，最后利用该模板解析待解析网页。

上述两种网页解析方法虽然可实现对网页内容的解析，但都有一定局限性。第一种方法只能解析出网页的正文内容，其余内容均被丢弃；第二种方法则需要利用模版，这必然会增加一些限制，并且会降低网页解析的效率。

而现有安全扫描技术，如敏感词扫描、挂马扫描等，一般通过数据访问接口获取全部的网页源码，根据检测规则对全部的网页源码做匹配检测。实际上，在做敏感词扫描时，一般只对网页中需要显示出来的内容感兴趣，而对源码中其他数据，如一些不被显示的标签数据不感兴趣；在做挂马扫描时，源码中并非所有的标签都存在挂马的风险，而只对存在挂马风险的内容感兴趣，其余内容是完全可忽视的。若按现有技术进行安全检测，则需要处理很多无意义的数据，这会大大减低安全扫描的效率。

综上可知，现有基于网页解析的安全扫描技术，在实际使用上显然存在不便与缺陷，所以有必要加以改进。

发明内容

针对上述的缺陷，本发明的目的在于提供一种基于网页解析的安全扫描方法及系统，其将网页源码分解为不同类别的解析结果，然后针对性地分别对这些不同类别的解析结果进行存储和安全扫描，最大程度上避免了处理无意义的数据的问题，从而大大提高了安全扫描的效率。

为了实现上述目的，本发明提供一种基于网页解析的安全扫描方法，包括步骤有：

解析步骤，通过预定的第一正则表达式将网页的网页源码解析为网页正文和网页标签；

存储步骤，分别存储所述网页正文和所述网页标签；

安全扫描步骤，分别对所述网页正文和所述网页标签进行安全扫描处理。

根据本发明所述的安全扫描方法，所述解析步骤包括：

通过所述第一正则表达式将所述网页源码解析为网页正文和网页标签；

通过预定的第二正则表达式，从所述网页标签中解析出与挂马风险相关的第一网页标签；

所述存储步骤包括：

将所述网页正文单独进行存储；

将所述第一网页标签单独进行存储；

所述安全扫描步骤包括：

对所述网页正文进行敏感词查找和/或信息检索；

对所述第一网页标签进行挂马检测。

根据本发明所述的安全扫描方法，所述安全扫描步骤之前还包括：

统计所述第一网页标签的数量；

所述对第一网页标签进行挂马检测的步骤包括：

判断当前所述第一网页标签的数量与上一次安全扫描时的所述第一网页标签的数量是否相同；

若相同，则对所述第一网页标签进行正常挂马检测；

若不相同，则对所述第一网页标签进行重点挂马检测。

根据本发明所述的安全扫描方法，所述解析步骤还包括：

通过预定的第三正则表达式，从所述网页标签中解析出与网页布局相关的第二网页标签；

所述存储步骤还包括：

将所述第二网页标签单独进行存储；

所述安全扫描步骤还包括：

对所述第二网页标签进行布局检测。

统计所述第二网页标签的数量；

所述对第二网页标签进行布局检测的步骤包括：

判断当前所述第二网页标签的数量与上一次安全扫描时的所述第二网页标签的数量是否相同；

若不相同，则对所述第二网页标签进行布局检测。

本发明还提供一种基于网页解析的安全扫描系统，包括有：

解析模块，用于通过预定的第一正则表达式将网页的网页源码解析为网页正文和网页标签；

存储模块，用于分别存储所述网页正文和所述网页标签；

安全扫描模块，用于分别对所述网页正文和所述网页标签进行安全扫描处理。

根据本发明所述的安全扫描系统，所述解析模块包括：

第一解析子模块，用于通过所述第一正则表达式将所述网页源码解析为网页正文和网页标签；

第二解析子模块，用于通过预定的第二正则表达式，从所述网页标签中解析出与挂马风险相关的第一网页标签；

所述存储模块包括：

第一存储子模块，用于将所述网页正文单独进行存储；

第二存储子模块，用于将所述第一网页标签单独进行存储；

所述安全扫描模块包括：

第一安全扫描子模块，用于对所述网页正文进行敏感词查找和/或信息检索；

第二安全扫描子模块，用于对所述第一网页标签进行挂马检测。

根据本发明所述的安全扫描系统，还包括：

第一统计模块，用于在所述安全扫描模块进行安全扫描处理之前统计所述第一网页标签的数量；

所述第二安全扫描子模块还用于判断当前所述第一网页标签的数量与上一次安全扫描时的所述第一网页标签的数量是否相同；若相同，则对所述第一网页标签进行正常挂马检测；若不相同，则对所述第一网页标签进行重点挂马检测。

根据本发明所述的安全扫描系统，所述解析模块还包括：

第三解析子模块，用于通过预定的第三正则表达式，从所述网页标签中解析出与网页布局相关的第二网页标签；

所述存储模块还包括：

第三存储子模块，用于将所述第二网页标签单独进行存储；

所述安全扫描模块还包括：

第三安全扫描子模块，用于对所述第二网页标签进行布局检测。

根据本发明所述的安全扫描系统，还包括：

第二统计模块，用于在所述安全扫描模块进行安全扫描处理之前统计所述第二网页标签的数量；

所述第三安全扫描子模块还用于判断当前所述第二网页标签的数量与上一次安全扫描时的所述第二网页标签的数量是否相同；若不相同，则对所述第二网页标签进行布局检测。

本发明采用分解思想构造特定的网页解析规则，然后将其应用于安全扫描中。具体是通过第一正则表达式将网页的网页源码解析为网页正文和网页标签并分别进行存储，然后分别对所述网页正文和网页标签进行安全扫描处理。更好的是，通过预定的第二正则表达式和/或第三正则表达式，从所述网页标签中解析出与挂马风险相关的第一网页标签和/或与网页布局相关的第二网页标签，然后对第一网页标签进行挂马检测和/或对第二网页标签进行布局检测。借此，本发明将网页源码分解为不同类别的解析结果，然后针对性地分别对这些不同类别的解析结果进行存储和安全扫描，最大程度上避免了处理无意义的数据的问题，从而大大提高了安全扫描的效率。

附图说明

图1是本发明基于网页解析的安全扫描系统的结构示意图；

图2是本发明优选基于网页解析的安全扫描系统的结构示意图；

图3是本发明优选基于网页解析的安全扫描系统的工作原理图；

图4是本发明基于网页解析的安全扫描方法的流程图；以及

图5是本发明优选基于网页解析的安全扫描方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1是本发明基于网页解析的安全扫描系统的结构示意图，所述安全扫描系统100包括有解析模块10、存储模块20以及安全扫描模块30，其中：

所述解析模块10，用于通过预定的第一正则表达式将网页的网页源码解析为网页正文和网页标签。首先可通过HTTP（Hyper Text Transfer Protocol，超文件传输协议）、Socket（套接字）等请求获取一个URL（Uniform Resoure Locator：统一资源定位符）网页全部的网页源码，然后通过第一正则表达式对网页源码进行解析。优选的是，按网页正文的规则设置第一正则表达式，通过第一正则表达式从完整的网页源码中解析出网页正文，所述网页源码的其他内容即为网页标签。所述网页正文为网页中会显示的内容部分，所述网页标签则是网页中不会显示的内容部分，所述网页标签包括标题标签（Title Tag）、描述标签（Description Tag）、关键词标签（Keywords Tag）等。

所述存储模块20，用于分别存储网页正文和网页标签，以分别保存为两个解析结果。

所述安全扫描模块30，用于分别对网页正文和网页标签进行安全扫描处理。优选的是，对网页正文进行敏感词查找和/或信息检索等，对网页标签进行挂马检测或布局检测等。

所述基于网页解析的安全扫描系统100可以是内置于信息处理终端的软件单元，硬件单元或软硬件结合单元。所述信息处理终端可以是电脑、手机、PDA（Personal Digital Assistant，个人数字助理）、平板电脑等。

图2是本发明优选基于网页解析的安全扫描系统的结构示意图，所述安全扫描系统100包括有解析模块10、存储模块20以及安全扫描模块30，其中：

所述解析模块10进一步包括：

第一解析子模块11，用于通过第一正则表达式将网页源码解析为网页正文和网页标签。优选的是，按网页正文的规则设置第一正则表达式，通过第一正则表达式从完整的网页源码中解析出网页正文，所述网页源码的其他内容即为网页标签。所述网页正文为网页中会显示的内容部分，所述网页标签则是网页中不会显示的内容部分。

第二解析子模块12，用于通过预定的第二正则表达式，从所述网页标签中进一步解析出与挂马风险相关的第一网页标签（如 <iframe src=、<a href=等）。优选的是，按照挂马相关标签的规则构造第二正则表达式。

第三解析子模块13，用于通过预定的第三正则表达式，从所述网页标签中进一步解析出与网页布局相关的第二网页标签（如 table、tr、td等）。优选的是，按照布局相关标签的规则设置第三正则表达式。

所述存储模块20进一步包括：

第一存储子模块21，用于将网页正文单独进行存储，以保存为第一解析结果。

第二存储子模块22，用于将第一网页标签单独进行存储，以保存为第二解析结果。

第三存储子模块23，用于将第二网页标签单独进行存储，以保存为第三解析结果。

所述安全扫描模块30进一步包括：

第一安全扫描子模块31，用于对网页正文进行敏感词查找和/或信息检索。

第二安全扫描子模块32，用于对第一网页标签进行挂马检测。优选的是，通过挂马的特征校验信息与第一网页标签进行比对检测，判断第一网页标签中是否存在挂马信息。

第三安全扫描子模块33，用于对第二网页标签进行布局检测。

优选的是，所述安全扫描系统100还包括：

第一统计模块40，用于在安全扫描模块30进行安全扫描处理之前统计第一网页标签的数量。

所述第二安全扫描子模块32还用于判断当前第一网页标签的数量与上一次安全扫描时的第一网页标签的数量是否相同。若相同，则对第一网页标签进行正常挂马检测。若不相同，则对第一网页标签进行重点挂马检测。

对于挂马检测部分，若发现标签数量发生变化，则会重点检测该页面，可提高挂马检测的准确性。

更好的是，所述安全扫描系统100还包括：

第二统计模块50，用于在安全扫描模块30进行安全扫描处理之前统计第二网页标签的数量。

所述第三安全扫描子模块33还用于判断当前第二网页标签的数量与上一次安全扫描时的第二网页标签的数量是否相同。若不相同，则对第二网页标签进行布局检测，否则不进行布局检测。

在进行布局检测之前只需用当前标签数量对比前一次扫描信息确定是否网页变更，如果标签数量不对等，则页面被修改。这样就可省去匹配操作，从而在很大程度上提高扫描效率。

为了更快更好的解决安全扫描中网页信息的解析问题，本发明采用分解思想，构造特定的解析规则，利用正则匹配方法，将一个庞大的整体内容，分解成不同的小模块，逐一进行分析处理，并且分解出的每一个小模块都可单独使用，从而大大提高了安全扫描的执行效率。

图3是本发明优选基于网页解析的安全扫描系统的工作原理图，首先通过Http，Socket等请求获取一个URL网页全部网页源码，利用正则匹配的方式，对整个网页源码进行解析，根据不同的需求分解出不同的解析结果，并分类别进行储存和安全扫描，优选用到的几种解析实现方案如下：

先写一个剥离解析网页正文和网页标签的第一正则表达式，将网页正文和网页标签分割开，将网页正文信息采用物理或其它方式进行存储，此为第一解析结果部分。然后对网页标签进行剥离处理，写一个可获取与网页挂马内容相关标签的第二正则表达式，只获取具有挂马风险的第一网页标签的内容信息（如 <iframe src=、<a href=等）进行存储，此为第二解析结果部分。再写一个可获取网页布局相关标签的第三正则表达式，在剥离的网页标签中提取出和网页布局相关的第二标签的内容信息（如 table、tr、td等）进行存储，此为第三解析结果部分。

所述第一解析结果部分，网页正文信息，可进行对敏感词的查找和信息的筛选做预前处理，解析的思路和方式很多，敏感词查找和信息检索可利用中文分词技术实现。

所述第二解析结果部分，可进行挂马的特征校验信息可和第二部分获取的标签内容进行比对检测。

所述第三解析结果部分，可对判断网页布局的变化打下基础。

上述第一解析结果部分和第二解析结果部分中在某种程度上存在着重叠现象，但它们分别存储，因此对用户的需求判断不存在冲突问题。以上解析结果部分可同时存在，满足用户的多方面需求，也可只拿出某一个解析结果部分作为一个功能点，满足用户的单方面需求。除此之外，根据不同的需求还可重新构造匹配规则，再次细分各个解析模块，满足其他的功能。

更好的是，对于第二解析结果部分和第三解析结果部分，还将统计解析出的标签数量。在进行布局检测之前只需用当前标签数量对比前一次扫描信息确定是否网页变更，如果标签数量不对等，则页面被修改。这样就可省去匹配操作，很大程度提高扫描效率。而挂马检测部分，若发现标签数量发生变化，则会重点检测该页面，可提高挂马检测的准确性。

图4是本发明基于网页解析的安全扫描方法的流程图，其可以通过如图1或图2所示的安全扫描系统100实现，包括步骤有：

步骤S401，解析步骤，通过预定的第一正则表达式将网页的网页源码解析为网页正文和网页标签。首先可通过HTTP、Socket等请求获取一个URL网页全部的网页源码，然后通过第一正则表达式对网页源码进行解析。优选的是，按网页正文的规则设置第一正则表达式，通过第一正则表达式从完整的网页源码中解析出网页正文，所述网页源码的其他内容即为网页标签。所述网页正文为网页中会显示的内容部分，所述网页标签则是网页中不会显示的内容部分，所述网页标签包括标题标签、描述标签、关键词标签等。

步骤S402，存储步骤，分别存储网页正文和网页标签，以分别保存为两个解析结果。

步骤S403，安全扫描步骤，分别对网页正文和网页标签进行安全扫描处理。优选的是，对网页正文进行敏感词查找和/或信息检索等，对网页标签进行挂马检测或布局检测等。

本发明涉及网页解析方法及其在安全扫描中的应用，采用分模块的解析处理思想，将大化小，各尽其责，在每个小的模块中比对检索和检测所需信息，大大的提高了解析效率和比对的差错率。根据这种将大化小的思想，扩展思维还可在页面解析中分出其它的小功能点出来，满足用户的其它需求。

图5是本发明优选基于网页解析的安全扫描方法的流程图，其可以通过如图2所示的安全扫描系统100实现，包括步骤有：

步骤S501，对网页源码进行解析。具体的是，通过第一正则表达式将网页源码解析为网页正文和网页标签。

步骤S502，通过第一正则表达式将网页源码解析为网页正文。

步骤S503，将网页正文单独进行存储，以保存为第一解析结果。

步骤S504，对网页正文进行敏感词查找和/或信息检索。

步骤S505，通过预定的第二正则表达式，从所述网页标签中进一步解析出与挂马风险相关的第一网页标签（如 <iframe src=、<a href=等）。优选的是，按挂马相关标签的规则构造第二正则表达式。

步骤S506，将第一网页标签单独进行存储，以保存为第二解析结果。

步骤S507，对第一网页标签进行挂马检测。优选的是，通过挂马的特征校验信息与第一网页标签进行比对检测，判断第一网页标签中是否存在挂马信息。

所述步骤S507步骤之前还可包括：统计第一网页标签的数量。所述步骤S507优选为判断当前第一网页标签的数量与上一次安全扫描时的第一网页标签的数量是否相同；若相同，则对第一网页标签进行正常挂马检测；若不相同，则对第一网页标签进行重点挂马检测。

步骤S508，通过预定的第三正则表达式，从所述网页标签中进一步解析出与网页布局相关的第二网页标签（如 table、tr、td等）。优选的是，按照布局相关标签的规则设置第三正则表达式。

步骤S509，将第二网页标签单独进行存储，以保存为第三解析结果。

步骤S510，对第二网页标签进行布局检测。

所述步骤S510之前还可包括：统计第二网页标签的数量。所述步骤S510优选为判断当前第二网页标签的数量与上一次安全扫描时的第二网页标签的数量是否相同；若不相同，则对第二网页标签进行布局检测，否则不对第二网页标签进行布局检测。

综上所述，本发明采用分解思想构造特定的网页解析规则，然后将其应用于安全扫描中。具体是通过第一正则表达式将网页的网页源码解析为网页正文和网页标签并分别进行存储，然后分别对所述网页正文和网页标签进行安全扫描处理。更好的是，通过预定的第二正则表达式和/或第三正则表达式，从所述网页标签中解析出与挂马风险相关的第一网页标签和/或与网页布局相关的第二网页标签，然后对第一网页标签进行挂马检测和/或对第二网页标签进行布局检测。借此，本发明将网页源码分解为不同类别的解析结果，然后针对性地分别对这些不同类别的解析结果进行存储和安全扫描，最大程度上避免了处理无意义的数据的问题，从而大大提高了安全扫描的效率。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于网页解析的安全扫描方法，其特征在于，包括步骤有：