CN103856523A

CN103856523A - 基于外部资源捕获及分析的web应用发现系统与方法

Info

Publication number: CN103856523A
Application number: CN201210512355.XA
Authority: CN
Inventors: 郭江波; 罗笑南; 杨艾琳; 刘海亮; 汤武惊; 吴超如; 李圳龙
Original assignee: Shenzhen Research Institute of Sun Yat Sen University
Current assignee: Shenzhen Research Institute of Sun Yat Sen University
Priority date: 2012-12-04
Filing date: 2012-12-04
Publication date: 2014-06-11

Abstract

本发明提出基于外部资源捕获及分析的WEB应用发现系统与方法，包括生成一个对外部资源HTTP请求的Web应用；捕获对外部资源的请求；从所捕获请求中抽取有意义的数据；以及对所抽取数据的分析。本发明的系统是对这个方法的一个参考实现。

Description

基于外部资源捕获及分析的WEB应用发现系统与方法

技术领域

提交的发明涉及计算机安全，具体来说，基于外部资源捕获及分析的WEB应用发现系统与方法，是对Web应用的拓扑发现，能被用于对应用更健壮的安全扫描，增强漏洞检测及相关补救。

背景技术

随着因特网普及，电子商务得到巨大发展。如图1所示，众多用户102可以在家中通过网站104的因特网入口(如yahoo)、在线购物站点(如AMZON.COM)、在线拍卖站点(如EBAY)、以及网上银行等享受购物的便利。许多原来要求当面交互或电话交互的行为可以通过因特网106以在线的方式进行，如购买保险、买卖股票等。

此类在线行为一般需要对信用卡号或银行信息等消费者个人信息进行交互或存储，相应地，消费者也希望能够相信所访问站点是在线安全的，如可以有效抵御黑客对消费者个人信息的访问等恶意行为。

所提发明的相关技术有漏洞检测、评估及管理。例如，对网站执行漏洞检测，根据扫描结果保存并控制标记库的内容，网站访问者可通过标记信息得知网站的安全程度。这些漏洞扫描方法主要针对常用的意图在非授权情况下获得网站设备及系统访问的黑客攻击，这些方法有进一步改进的空间。

例如，某些漏洞扫描的范围仅限于可被传统的爬行方法识别的入口点，同时，一部分网站功能或Web应用仅在用户浏览该站点时才能获得，如购物车等。因此，利用这些信息提高网站知识是可取的，进而扩大了对网站的漏洞扫描范围。

发明内容

本发明提供基于外部资源捕获及分析的WEB应用发现系统与方法，一方面，本发明平衡了普遍的安全公司信任标记，该标记可用于一个可信的Web应用且其引用嵌入到Web应用的不同部分。安全公司负责对信任标记的维护，当用户使用某个Web应用时，用户浏览器自动对信任标记进行请求，这些用户对安全公司提供的Web应用信任标记的请求将记入日志并进行分析。

在实施例中，一个发现Web应用的结构、状态转换及用户行为模式的方法包括生成一个对外部资源HTTP请求的Web应用；捕获对外部资源的请求；从所捕获请求中抽取有意义的数据；对所抽取数据的分析及结论。本发明中的系统提供了一个所提方法的参考实现，系统及方法所获得的信息可被用于安全公司推测应用入口点及遍历模式，进一步提高扫描服务质量，确保信任标记颁发。

附图说明

在看完下列对本发明具体实现例的图例描述后，对本发明所属领域有了解的人可清楚了解本发明的特点。其中：

图1阐述了用户如何与传统网站进行交互；

图2用框图的方式阐述了一个根据本发明对目标系统分析的系统实现例；

图3用流程图阐述了本发明的一个目标系统分析方法的实现例。

具体描述

将结合图例对本发明的一个实现例进行详细阐述，方便对本领域较为熟悉的人对本发明的实现。要指出的是，所阐述的例子不代表本发明仅局限于该实现，通过所阐述的细节及要素，本发明可以有多种实现形式。同时，本发明的某些要素可通过已知组件实现，但只对那些有助于了解本发明的必要组件进行阐述。在详述中，包含一个组件的实现例不应当对本发明形成限制，本发明的意图是包含其它有相同组件的实现例，反之亦然，除非另有明确规定。而且，除非有明确规定，否则申请人不希望在详述或声明中的任何术语被赋予特殊含义。同时，本发明包含阐述中涉及到的知名组件及这些组件现在及以后的等效物。

概言之，本发明提供了一个系统及通过平衡安全公司信任标记发现Web应用拓扑的方法。安全公司提供通过HTTP服务器对信任标记的访问，此访问由安全公司或安全公司的授权方进行控制。web应用信任标记被其所有者嵌入到web应用的内容中，用户访问web应用所发出的对信任标记的HTTP请求被安全公司存储并分析，提供了web应用拓扑的更多细节。

在实现例中，嵌入的信任标记引用包括统一资源定位符(URL)，用户浏览器使用该URL构建从安全公司的HTTP服务器获取信任标记的HTTP请求。在HTTP请求中一般包含Referer头指明引起HTTP请求发送的引用所在的源URL，实际上，很少有浏览器不包括Referer头，通过Referer数据和其它辅助信息可以显示一个web应用的拓扑。这些信息可被用于安全公司推测应用入口点及遍历模式，进一步提高扫描服务质量，确保信任标记颁发。

图2为本发明的一个系统实例。

安全系统为每个web应用生产信任标记220。如相关应用中所述，信任标记在建立时非常复杂，使web应用的所有者难以通过恶意复制在不满足要求的情况下提供担保标记。安全系统使通过HTTP服务器获取信任标记在安全公司或授权方的控制下，授权方代表安全公司可提供信任标记。

在实现例中，系统202可以是一个分布式扫描服务器的网络，可位于分布在全球的数据中心。系统202包含一个受中枢漏洞管理系统控制的本地扫描装置，这样最适合的扫描装置可被分配进行目标系统测试。此外，除了如ScanAlert等传统的扫描服务提供的漏洞检测方法，包含本发明漏洞检测技术的远程文件可用于实现检测系统。

目标系统206一个或多个web应用208，可配置为静态或动态生成包括页面210的web内容。如图所示，部分或全部页面210可以包括到一个或多个由系统托管且存储在标记库220的信任标记的引用(如URL212)。

用户通过浏览器230及因特网204与web应用208进行交互。当浏览器在呈现应用内容(如页210)时，遇到嵌入的URL212并自动从系统中生成基于该URL的信任标记HTTP请求。页210也可能包括其它资源的URL引用，浏览器遇到其它URL引用时，同样为这些资源生产HTTP请求。

在本实现例中，浏览器230对标记库220中标记的请求包括与页210有关的URL，通知HTTP服务器引用信任标记的应用所在地。信任标记被当作一个附加的参考资源，浏览器230对信任标记的请求包含Referer头，显示了包含信任标记引用(如URL212)的内容的URL(或页210)。

HTTP服务器224将对标记库220中信任标记的请求记录到请求日志222，例如Apache等传统HTTP服务器的标准日志功能均可生产请求日志。日志为分析模块226对应用拓扑的分析提供数据，这点在后文中将详述。

系统202包括web或其它类型的应用，这些应用通过关系数据库或相似的存储机制监视并维护信任标记请求，使捕获HTTP请求更快速，提供了扫描服务及在线分析的实时反馈(忽略中间存储与离线分析)。

下面结合图3的流程图步骤解释分析模块所实现的方法实例。

如图3所示，处理过程从步骤S302开始，先按照相对顺序对捕获的请求进行检查，并根据HTTP协议进行解析。对每个请求(步骤S304)，抽取其HTTP请求头(步骤S306)。这些头信息实质上是一个二元组列表。给定二元组的第一个元素是通过步骤S306抽取的Referer头名字，第二个元素是头的值，该值为与web应用内容相关的负责使浏览器或其它HTTP应用产生信任标记请求的URL。

相应地，步骤S306抽取的Referer头是对web应用内容的引用。安全性扫描要求配置入口点来初始化web应用的遍历及漏洞检测，在本发明中，Referer URL为安全性扫描提供了有价值的输入。例如，一个Referer URL的值中包括一些没有被使用其它入口点配置安全扫描遍历的引用，同时，Referer URL也使安全扫描速度更快，提高了扫描效率。

Referer URL的使用频率也反映了相关联web内容的受欢迎程度，此信息对安全扫描有较大价值。一些安全等级依赖于对具体web应用的拦截，修改应用内容经常会导致用户浏览器执行一些恶意代码。增加流量自然导致拦截概率的增加，对高频访问内容的了解可以使安全扫描较好地安排web应用的那个部分得到最彻底、最及时的检测。

如图3所示，检查完所有请求后，步骤S310将所有关于目标系统的Referer URL分组，并在步骤S312中提供了对每个Referer URL的计数。

在本发明的实现例中，HTTP服务器使用HTTP会话。HTTP是个无状态协议，不提供跟踪会话的内在机制，一些会话状态必须与HTTP请求一起传送，Cookies为此提供了一个便利的机制。Cookies允许将会话标识符放入HTTP请求头部，也允许在HTTP响应的头部包含指令来实现HTTP服务器与客户端间的会话状态同步。利用HTTP cookies，信任标记服务器224为每个向系统202请求信任标记的HTTP客户(如浏览器230)建立一个唯一标识符。

相应地，步骤S308从捕获的HTTP请求中抽取出会话标识符及请求序列的相关信息，在步骤S316中，利用会话标识符对与具体目标系统关联的请求进行组织，并在步骤S318中对会话中的请求进行排序。

会话的请求顺序显示了HTTP客户端(如浏览器230)遍历站点的部分内容，会话遍历表明了web应用的业务方式，通过会话标识符，安全扫描可以知道资源的访问顺序。

为了使遍历web应用更完整，本发明中的会话信息允许扫描器通过web应用内容的结构发现事务处理过程。例如使用购物车功能时，用户必须先进行搜索、选择、在线支付等过程，每一步都为用户会话增加了一些状态，在没有达到要求的状态前后续步骤不能执行。利用访问顺序的知识可提高安全扫描成功遍历事务处理的概率。此类知识允许对与通过会话Referer URL分析得到的顺序相一致的会话资源访问顺序进行扫描。

从另一方面来看，本发明中web应用的资源遍历序可用来增加安全扫描的资源请求选择，URL访问频率作为检测的基础依据可与web应用内容的结构相结合。通过有向图对遍历进行分析，标出临界节点相关资源，临界节点是有最大度的节点，这些点表示到web应用内容中重要结构部分的路标或网关。与对Referer URL进行标识及计数的优点相似，临界节点表明了安全扫描中需加强关注的重要资源。

上述内容是对本发明及其实现例的阐述，对该领域较为熟悉的人在上述内容及建议基础上对本发明进行修改不会偏离本发明思路与范围，附加声明意图包含这些修改。

Claims

1.一个基于外部资源捕获及分析的WEB应用发现系统与方法，包含：不受web应用所有者控制的对服务器标记库信任标记的访问，web应用信任标记被其所有者嵌入到web应用的内容中；服务器收到一个或多个用户对一个或多个web应用信任标记的请求，这些请求是在遇到web应用中内嵌的信任标记引用时由用户浏览器生成的；通过检查这些请求得到的信息可用来作为安全扫描的输入。

2.在声明1中，web应用内嵌的信任标记引用包括URL，该URL被web浏览器用于构建请求及从服务器获取信任标记，每一个所构建的请求均包括一个包含该URL及辅助信息的Referrer头。

3.声明1的方法包括在关系数据库中对所接收的信任标记请求的记录与维护。

4.声明1的方法中，对所接收请求的检测包括根据HTTP协议对请求进行解析。

5.声明1的方法中，检测所接收请求并标明web应用的一部分将作为安全扫描的一部分，该扫描判定含信任标记的应用中某部分的访问频率，赋予高频访问部分高的扫描优先级。

6.声明1的方法中，对所接收请求的检测包含：抽取会话标识符、会话分组、抽取会话中请求序列的相关信息、对请求进行排序以及根据会话及顺序信息判断web应用的业务模式。

7.声明6的方法中，判断web应用的业务模式包括判断与该web应用相关联的业务处理过程。

8.声明1的方法中，检测所接收请求并标明web应用的一部分将作为安全扫描的一部分包括：判定含信任标记的应用中某部分的访问频率、抽取会话中请求序列的相关信息并根据会话及顺序信息判断web应用的业务模式、根据访问频率及业务模式标明一个或多个临界节点的安全扫描优先级。

9.一个发现网络应用拓扑的系统包括：存放一个或多个信任标记的库；一个服务器在收到一个或多个用户对web应用的请求后可以访问信任标记，每个请求是在遇到web应用中内嵌的信任标记引用时由用户浏览器生成的；存放所接收请求的请求日志；一个分析模块检查所接收请求并获取web应用相关信息，这些信息将作为安全扫描的输入。

10.声明9中的系统是分布式扫描服务器网络的一部分。

11.声明9中的系统包含一个受中枢漏洞管理系统控制的本地扫描装置。

12.声明9的系统中，web应用内嵌的信任标记引用包括URL，该URL被web浏览器用于构建请求及从服务器获取信任标记，每一个所构建的请求均包括一个包含该URL及辅助信息的Referrer头。

13.声明9中的服务器是HTTP服务器。

14.声明9中存放所接收请求的请求日志由关系数据库构成。

15.声明9中系统中检测所接收请求并标明web应用的一部分将作为安全扫描的一部分包括：判定含信任标记的应用中某部分的访问频率、抽取会话中请求序列的相关信息并根据会话及顺序信息判断web应用的业务模式、根据访问频率及业务模式标明一个或多个临界节点的安全扫描优先级。

16.声明9中系统的分析模块检查所接收请求并获取web应用相关信息，这些信息通过以下措施作为安全扫描的输入：抽取会话标识符、会话分组、抽取会话中请求序列的相关信息、对请求进行排序以及根据会话及顺序信息判断web应用的业务模式。

17.声明16中系统的分析模块用来判定与web应用相关联的事务处理过程。

18.声明9系统中分析模块对所接收请求进行检查并获得一些与web应用相关的信息作为安全扫描的输入，主要过程为：判定含信任标记的应用中某部分的访问频率、抽取会话中请求序列的相关信息并根据会话及顺序信息判断web应用的业务模式、根据访问频率及业务模式标明一个或多个临界节点的安全扫描优先级。

19.web应用拓扑发现方法包括：在不受web应用所有者控制下，提供对服务器信任标记的访问，信任标记嵌入到web引用的各部分；一个服务器在收到一个或多个用户对web应用的请求后可以访问信任标记，每个请求是在遇到web应用中内嵌的信任标记引用时由用户浏览器生成的，每个生成的请求有一个包含URL的Referrer头；所接收请求进行检查并获得一些与web应用相关的信息作为安全扫描的输入。

20.声明19的方法中，声明9中系统中检测所接收请求并标明web应用的一部分将作为安全扫描的一部分包括：判定含信任标记的应用中某部分的访问频率、抽取会话中请求序列的相关信息并根据会话及顺序信息判断web应用的业务模式、根据访问频率及业务模式标明一个或多个临界节点的安全扫描优先级。