CN107506649A

CN107506649A - 一种html网页的漏洞检测方法、装置及电子设备

Info

Publication number: CN107506649A
Application number: CN201710742547.2A
Authority: CN
Inventors: 沈文策
Original assignee: Fujian Cnfol Information Technology Co Ltd
Current assignee: Fujian Cnfol Information Technology Co Ltd
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2017-12-22

Abstract

本发明实施例提供了一种超文本标记语言HTML网页漏洞检测方法、装置及电子设备，该方法应用于电子设备，该方法包括：获取网站的统一资源定位符URL列表；将URL列表中的各个URL分别确定为注入点，并按照以下方式检测每一作为注入点的URL对应的网页是否存在漏洞：在作为目标注入点的目标URL后增加预设字符；并将增加预设字符后的目标URL作为目标攻击向量，其中，目标注入点为：所确定注入点中的一个，预设字符由预设符号和预设数字组成；向浏览器提交目标攻击向量；判断浏览器是否跳转至目标URL对应的网页；若为是，则判定目标URL对应的网页存在漏洞。应用本发明实施例提供的技术方案，实现了对网页的漏洞检测。

Description

一种HTML网页的漏洞检测方法、装置及电子设备

技术领域

本发明涉及网络安全技术领域，特别是涉及一种HTML网页的漏洞检测方法、装置及电子设备。

背景技术

HTML(HyperText Markup Language，超级文本标记语言)是标准通用标记语言下的一个应用，它通过标记符号来标记要显示的网页中的各个部分。HTML网页，可以简称为网页，是一个包含HTML标记符的纯文本文件，通过在文本文件中添加标记符，可以告诉浏览器如何显示其中的内容(如：文字如何处理，画面如何安排，图片如何显示等)。

但是随着互联网技术的发展，各种网络安全事件频频发生，针对HTML网页的攻击漏洞也日益增多。一般而言，应用HTML网页的网站，可能或多或少存在下面几个漏洞：SQL注入漏洞、跨站脚本攻击漏洞、登陆后台管理页面、IIS短文件/文件夹漏洞、系统敏感信息泄露等等。为了及时发现HTML网页的漏洞，避免网站受到攻击者的攻击，比如获取用户身份信息、导航到恶意网站、种植木马等攻击，研究一种HTML网页的漏洞检测方法极为重要。

发明内容

本发明实施例的目的在于提供一种HTML网页的漏洞检测方法、装置及电子设备，以实现漏洞检测。具体技术方案如下：

第一方面，本发明实施例提供一种超文本标记语言HTML网页漏洞检测方法，应用于电子设备，所述方法包括：

获取网站的统一资源定位符URL列表；

将所述URL列表中的各个URL分别确定为注入点，并按照以下方式检测每一作为注入点的URL对应的网页是否存在漏洞：

在作为目标注入点的目标URL后增加预设字符；并将增加预设字符后的目标URL作为目标攻击向量，其中，所述目标注入点为：所确定注入点中的一个，所述预设字符由预设符号和预设数字组成；

向浏览器提交所述目标攻击向量；

判断所述浏览器是否跳转至所述目标URL对应的网页；

若为是，则判定所述目标URL对应的网页存在漏洞。

可选的，所述预设字符由一个预设符号和一个预设数字组成。

可选的，所述预设字符为&1。

可选的，所述URL列表中包括隐藏式URL和非隐藏式URL，所述获取网站的统一资源定位符URL列表，包括：

利用预设的爬虫算法爬取所述网站所包含的网页，获得所述网站的非隐藏式URL；

利用预设的浏览器内核算法来模拟浏览器行为，获得所述网站的隐藏式URL。

可选的，所述爬虫算法采用宽度优先遍历策略。

第二方面，本发明实施例提供一种超文本标记语言HTML网页漏洞检测装置，应用于电子设备，所述装置包括：

获取模块，用于获取网站的统一资源定位符URL列表；

检测模块，用于将所述URL列表中的各个URL分别确定为注入点，并按照以下方式检测每一作为注入点的URL对应的网页是否存在漏洞：

向浏览器提交所述目标攻击向量；

判断所述浏览器是否跳转至所述目标URL对应的网页；

若为是，则判定所述目标URL对应的网页存在漏洞。

可选的，所述预设字符为&1。

可选的，所述URL列表中包括隐藏式URL和非隐藏式URL，所述获取模块，具体用于：

可选的，所述爬虫算法采用宽度优先遍历策略。

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述HTML网页漏洞检测方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述HTML网页漏洞检测方法的步骤。

第五方面，本发明实施例提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的HTML网页漏洞检测方法。

第六方面，本发明实施例提供一种计算机程序，当其在计算机上运行时，使得计算机执行上述的HTML网页漏洞检测方法。

应用本发明实施例提供的技术方案进行漏洞检测时，首先，获取网站的统一资源定位符URL列表；然后，将URL列表中的各个URL分别确定为注入点，并按照以下方式检测每一作为注入点的URL对应的网页是否存在漏洞：在作为目标注入点的目标URL后增加预设字符；并将增加预设字符后的目标URL作为目标攻击向量，向浏览器提交目标攻击向量；判断浏览器是否跳转至所述目标URL对应的网页；若为是，则判定目标URL对应的网页存在漏洞。

可见，应用本发明实施例提供的技术方案，实现了对网页的漏洞检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种HTML网页漏洞检测方法的流程示意图；

图2为本发明实施例提供的一种HTML网页漏洞检测装置的结构示意图；

图3为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种HTML网页漏洞检测方法、装置及电子设备，以下分别进行说明。

需要说明的是，本发明实施例所提供的HTML网页漏洞检测方法应用于电子设备，其中，在具体应用中，该电子设备可以为服务器，也可以为终端设备，这都是合理的。另外，实现本发明实施例所提供的HTML网页漏洞检测方法的功能软件可以为专门的漏洞检测软件，也可以为现有漏洞检测软件或其他具有漏洞检测功能的软件中的插件。

参见图1，图1为本发明实施例提供的HTML网页漏洞检测方法的一种流程示意图，该方法应用于电子设备，包括如下步骤：

S101，获取网站的统一资源定位符URL列表；

网站(Website)是指用于展示特定内容的网页集合。例如，一般企业型网站应包括：公司简介、企业动态、产品介绍、客户服务、案例展示、联系方式、在线留言等内容，这些内容可以通过不同的网页分别展示。用户可以通过浏览器来访问网站，以获取自身需要的资讯或者享受网络服务。

一个网站包含至少一个网页，一个网页对应一个URL(Uniform ResourceLocator，统一资源定位符)。一个网站的URL列表包含该网站所包含的各个网页对应的URL，为了使URL列表包含的URL更加全面，在一种具体的实施方式中，URL列表中包括隐藏式URL和非隐藏式URL，具体的，获取网站的统一资源定位符URL列表，可以包括以下步骤：

第一步，利用预设的爬虫算法爬取网站所包含的网页，获得网站的非隐藏式URL；

非隐藏式URL是指静态网页对应的URL。实际应用中，可以利用爬虫算法爬取静态网页，获得静态网页对应的URL。静态网页是保存在网站服务器上的网页，每个静态网页都是一个独立的网页，具有固定的内容和URL。网站服务器是指在互联网数据中心中存放网站的服务器。网站服务器主要用于网站的互联网中的发布、应用，是网络应用的基础硬件设施。

爬虫算法是一种能够自动地抓取静态网页信息的程序或者脚本，它可以自动采集静态网页的URL。一般而言，爬虫算法从一个或多个初始静态网页开始，在获得初始静态网页的URL后，利用该URL下载网页内容，由于网页中含有链接信息，通过链接信息会得到一些新的URL，从而，利用爬虫算法可以不断从当前网页爬取新的URL，并将爬取到的URL存储到URL列表，如此循环，直到满足算法设定的停止条件。

爬虫算法可以采用不同的策略来爬取网页，例如，可以采用深度优先遍历策略、宽度优先遍历策略、反向链接数策略等等。优先的，为了优先获取网站中的重要网页，以及快速获取网页之间的最短路径，提高获取网页的URL的速度，爬虫算法可以采用宽度优先遍历策略。具体的，爬虫算法采用宽度优先遍历策略，爬取网页的URL的过程属于现有技术，本发明实施例在此不再赘述。

第二步，利用预设的浏览器内核算法来模拟浏览器行为，获得网站的隐藏式URL。

隐藏式URL是指动态网页对应的URL。动态网页是采用动态网页技术生成的网页，例如，采用JS或AJAX动态网页技术生成的网页。其中，JS，全称为JavaScript，是一种直译式脚本语言，可以用于生成动态网页。AJAX，全称为Asynchronous Javascript And XML，也称为异步JavaScript和XML，是指一种创建动态网页的网页开发技术。

由于网站服务器并不存储动态网页，而是在浏览器收到用户请求后，由浏览器生成动态网页，因此，无法通过爬虫算法爬取网站的动态网页，进而，无法通过爬虫算法获得动态网页的URL，往往需要利用浏览器内核算法来模拟浏览器行为，以生成动态网页，进而，抽取动态网页中信息，获得动态网页对应的URL，即隐藏式URL。

本发明实施例对具体的获得网站的隐藏式URL的方式不做限定。例如，该方式可以为：

利用浏览器内核算法，解析爬虫算法爬取到的静态网页，获得该静态页面中的JS或AJAX事件，将各个JS或AJAX事件分别确定为目标事件，按照以下步骤A-D触发目标事件获得隐藏式URL：

步骤A，获得待触发的目标事件；

步骤B，模拟用户行为对目标事件进行点击触发；

步骤C，如果发生页面跳转，则获得所跳转页面对应的URL，将URL存储到URL列表中；从未触发的目标事件中随机选择一个目标事件，作为待触发的目标事件，并执行步骤B；

步骤D，如果发生页面更新，则重新获得该静态页面中的JS或AJAX事件，将各个JS或AJAX事件分别确定为目标事件，并执行步骤A。

通过这种方式，可以获得隐藏式URL。

通过上述第一步获得非隐藏式URL、通过上述第二步获得隐藏式URL后，也即获得了上述包含非隐藏式URL和隐藏式URL的URL列表。

S102，将URL列表中的各个URL分别确定为注入点，并按照以下方式检测每一作为注入点的URL对应的网页是否存在漏洞：

在作为目标注入点的目标URL后增加预设字符；并将增加预设字符后的目标URL作为目标攻击向量；向浏览器提交目标攻击向量；判断浏览器是否跳转至目标URL对应的网页；若为是，判定目标URL对应的网页存在漏洞。

注入点是指可以实行注入的地方，本申请实施例中将URL作为注入点，来检测URL对应的网页是否存在漏洞。其中，目标注入点为：所确定注入点中的一个。

攻击向量由目标URL和预设字符组成，预设字符由预设符号和预设数字组成。在一种具体的实施例方式中，可以在目标URL的后面增加预设字符，得到攻击向量。例如，目标URL为：http://www.dreye.com/news.asp？id＝123，预设字符为％2B，则攻击向量为：http://www.dreye.com/news.asp？id＝123％2B。当然，实际应用中，设计者也可以根据自身需求在目标URL的中间/前面增加预设字符，本发明实施例对目标URL和预设字符的位置关系不做限定。

本申请的一种实现方式中，预设字符可以由一个预设符号和一个预设数字组成，还可以由一个预设符号和多个预设数字组成；或者，多个预设符号和一个预设数字组成；或者，多个预设符号和多个预设数字组成。优选的，为了减少攻击向量的长度，预设字符由一个预设符号和一个预设数字组成。用户可以根据自身需求设置预设符号和预设数字，例如，预设符号可以为：&、[、]、％、$、@等特殊符号，也可以是a、b、C、D、e等小/大写字母，预设数字可以是-1、0、1、2等任意数字。

进一步的，为了简化预设字符的复杂度，在一种具体的实施例方式中，预设字符可以为&1。

浏览器是指可以显示网站服务器或者文件系统的HTML文件的内容并让用户与这些HTML文件交互的一种软件。浏览器可以接收攻击向量，并根据接收的攻击向量做出相应的响应。浏览器可以位于本电子设备中，也可以位于除电子设备以外的其他电子设备中，本发明实施例对此不做限定。

由于提交到浏览器的是增加预设字符后的目标URL，如果浏览器跳转至目标URL对应的网页，则说明目标URL中存在可以注入漏洞的地方，从而可以判定目标URL对应的网页存在漏洞。

可以看出，应用本发明实施例提供的方案，实现了对网页的漏洞检测。

另外，实际应用中，如果浏览器未跳转至目标URL对应的网页，则说明目标URL中不存在注入漏洞的地方，从而可以判定目标URL对应的网页不存在漏洞。

与上述的方法实施例相对应，本发明实施例还提供一种HTML网页漏洞检测装置。

参见图2，图2为本发明实施例所提供的一种HTML网页漏洞检测装置的结构示意图，该装置应用于电子设备，所述装置包括：

获取模块201，用于获取网站的统一资源定位符URL列表；

检测模块202，用于将所述URL列表中的各个URL分别确定为注入点，并按照以下方式检测每一作为注入点的URL对应的网页是否存在漏洞：

向浏览器提交所述目标攻击向量；

判断所述浏览器是否跳转至所述目标URL对应的网页；

若为是，则判定所述目标URL对应的网页存在漏洞。

可选的，所述预设字符为&1。

可选的，所述URL列表中包括隐藏式URL和非隐藏式URL，所述获取模块201，具体用于：

可选的，所述爬虫算法采用宽度优先遍历策略。

本发明实施例还提供了一种电子设备，如图3所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信，

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，实现本发明实施例所提供的HTML网页漏洞检测方法。

其中，该HTML网页漏洞检测方法包括如下步骤：

获取网站的统一资源定位符URL列表；

向浏览器提交所述目标攻击向量；

判断所述浏览器是否跳转至所述目标URL对应的网页；

若为是，则判定所述目标URL对应的网页存在漏洞。

需要说明的是，处理器301执行存储器303上存放的程序而实现的HTML网页漏洞检测方法的其他实施例，与前述方法部分提及的HTML网页漏洞检测方法的实施例相同，在此不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时实现上述的本发明实施例所提供的HTML网页漏洞检测方法。

其中，该HTML网页漏洞检测方法包括如下步骤：

获取网站的统一资源定位符URL列表；

向浏览器提交所述目标攻击向量；

判断所述浏览器是否跳转至所述目标URL对应的网页；

若为是，则判定所述目标URL对应的网页存在漏洞。

需要说明的是，上述计算机程序被处理器执行时实现的HTML网页漏洞检测方法的其他实施例，与前述方法部分提及的HTML网页漏洞检测方法的实施例相同，在此不再赘述。

本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个实施例提供的HTML网页漏洞检测方法。

本发明实施例提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述各个实施例提供的HTML网页漏洞检测方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、包含指令的计算机程序产品、计算机程序实施例实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种超文本标记语言HTML网页漏洞检测方法，其特征在于，应用于电子设备，所述方法包括：

获取网站的统一资源定位符URL列表；

向浏览器提交所述目标攻击向量；

判断所述浏览器是否跳转至所述目标URL对应的网页；

若为是，则判定所述目标URL对应的网页存在漏洞。

2.根据权利要求1所述的方法，其特征在于，所述预设字符由一个预设符号和一个预设数字组成。

3.根据权利要求2所述的方法，其特征在于，所述预设字符为&1。

4.根据权利要求1所述的方法，其特征在于，所述URL列表中包括隐藏式URL和非隐藏式URL，所述获取网站的统一资源定位符URL列表，包括：

5.根据权利要求4所述的方法，其特征在于，所述爬虫算法采用宽度优先遍历策略。

6.一种超文本标记语言HTML网页漏洞检测装置，其特征在于，应用于电子设备，所述装置包括：

获取模块，用于获取网站的统一资源定位符URL列表；

向浏览器提交所述目标攻击向量；

判断所述浏览器是否跳转至所述目标URL对应的网页；

若为是，则判定所述目标URL对应的网页存在漏洞。

7.根据权利要求6所述的装置，其特征在于，所述预设字符由一个预设符号和一个预设数字组成。

8.根据权利要求7所述的装置，其特征在于，所述预设字符为&1。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。