CN103036910A

CN103036910A - 一种用户Web访问行为控制方法及装置

Info

Publication number: CN103036910A
Application number: CN2013100025860A
Authority: CN
Inventors: 周阳; 刘岩; 曹政; 张瑞娟; 范立磊
Original assignee: BEIJING NETENTSEC Inc
Current assignee: BEIJING NETENTSEC Inc
Priority date: 2013-01-05
Filing date: 2013-01-05
Publication date: 2013-04-10
Anticipated expiration: 2033-01-05
Also published as: CN103036910B

Abstract

本发明涉及一种用户Web访问行为控制方法及装置，该方法包括：根据用户的Web数据识别出其对应的URL；根据URL在预先建立的特征库中找到对应的特征，特征库包含多个URL，每个URL对应一个或多个特征；根据特征调取与特征对应的HTTP实体，所述HTTP实体是预先按照HTTP协议特征从Web数据中解析出来的；在HTTP实体中搜索特征中的关键字；在搜索命中后根据特征的条件属性在HTTP实体中提取与关键字对应的内容；将提取出的内容与预定的策略条件进行匹配；执行匹配成功的策略条件所对应的策略。本发明通过URL定位，用Bypass机制跳过非对应功能的流量处理，并且对策略条件进行了预编码，从而针对用户的上网行为进行识别、提取和策略匹配，最终通过执行相应的策略动作达到了有效的行为管理。

Description

一种用户Web访问行为控制方法及装置

技术领域

本发明涉及计算机网络安全领域，尤其涉及一种用户Web访问行为控制方法及装置。

背景技术

互联网、移动互联网蓬勃发展的今天，各类安全问题层出不穷，这使得不少安全类产品也应运而生，其中典型的包括防火墙（Firewall）、入侵检测/防御系统（IDS/IPS），还有代理类的虚拟专用网（VPN）等等。这些设备大多是基于固定的网络协议进行处理的，由于网络自身的开发性和日益丰富的应用发展，以及用户行为本身的不确定性，使得传统的基于传输协议的安全技术和方案已无法达到理想的管理效果。

从硬件到软件，从设备到人员管理，网络安全技术和方案涉及很广。这里，我们将重点集中在应用层信息安全方面。

随着Web2.0时代的到来，网络应用变得更加丰富，这使得人们上网的行为方式也发生了巨大变化：从早期只能进行简单的网页浏览的行为，发展成了涵盖搜索、邮件收发、发帖（类似的还有博客、评论、回复等）、聊天、文件上传/下载等更为复杂的行为类型。这些Web应用，都是在应用层协议上进行描述的，因此原先那些安全类设备无法覆盖到这些行为。同时，考虑到应用的多样性和排它性，用户行为的描述方式也是基于一定的语法特征的，具体的描述方式由服务提供者定义。

针对用户上网行为管理问题，网络管理者提出了如下需求：

1、对用户上网行为的精确识别（如登录、退出、发帖、发邮件、下载文件等）；

2、对用户上网信息进行全面的精细化审计（如账号、标题、正文、附件名等）；

3、能够对上网信息进行策略控制和记录；（如对敏感言论的封堵控制）；

4、能对行为发起者进行及时定位和跟踪，了解并预测其可能的行为。

现有的实现方案通常比较简单，它们往往只通过Web行为中的URL进行分类查询和关键字提取，从而做出基本的行为判定和执行动作。

显然，仅仅就URL进行初步过滤无法满足用户的所有需求，具体表现如下：

1、功能分类过于简单，如只有网页类、搜索类、邮件类等，且使得扩展不便，需要较多的二次开发工作量；

2、功能精细化处理能力不足，如误识别、提取条件少、策略简单等；

3、功能间串行处理，性能较低，从而导致当多种功能并行处理时性能不佳；

4、应对协议中的编码支持不好，如不同字符集下匹配失败、显示乱码等，从而导致无法进行精确的识别匹配，或因实时解码操作导致性能不佳；

5、更新机制简单滞后，有效性低，从而在面对高速发展的互联网应用时没有一个快速有效的更新机制；

总的来说，现有的针对网络安全的解决方案在实现上比较简单低效，且不具备理想的功能扩展性。

发明内容

本发明的目的是提供一种能够克服至少上述缺陷之一的用户Web访问行为控制方法及装置。

在本发明的第一方面，提供了一种用户Web访问行为控制方法，包括：根据用户的Web数据识别出其对应的URL；根据所述URL在预先建立的特征库中找到对应的特征，所述特征库包含多个URL，每个URL对应一个或多个特征；根据所述特征调取与所述特征对应的HTTP实体，所述HTTP实体是预先按照HTTP协议特征从所述Web数据中解析出来的；在所述HTTP实体中搜索所述特征中的关键字；在所述搜索命中之后，根据所述特征的条件属性在所述HTTP实体中提取与所述关键字对应的内容；将提取出的内容与预定的策略条件进行匹配；以及执行匹配成功的策略条件所对应的策略。

在本发明的第二方面，提供了一种用户Web访问行为控制装置，包括：URL识别模块，用于根据用户的Web数据识别出其对应的URL；特征查找模块，用于根据所述URL在预先建立的特征库中找到对应的特征，所述特征库包含多个URL，每个URL对应一个或多个特征；HTTP实体调取模块，用于根据所述特征调取与所述特征对应的HTTP实体，所述HTTP实体是预先按照HTTP协议特征从所述Web数据中解析出来的；关键字搜索模块，用于在所述HTTP实体中搜索所述特征中的关键字；内容提取模块，用于在所述搜索命中之后，根据所述特征的条件属性在所述HTTP实体中提取与所述关键字对应的内容；策略条件匹配模块，用于将提取出的内容与预定的策略条件进行匹配；以及策略执行模块，用于执行匹配成功的策略条件所对应的策略。

在本发明的第三方面，提供了一种网关，包括：URL识别模块，用于根据用户的Web数据识别出其对应的URL；特征查找模块，用于根据所述URL在预先建立的特征库中找到对应的特征，所述特征库包含多个URL，每个URL对应一个或多个特征；HTTP实体调取模块，用于根据所述特征调取与所述特征对应的HTTP实体，所述HTTP实体是预先按照HTTP协议特征从所述Web数据中解析出来的；关键字搜索模块，用于在所述HTTP实体中搜索所述特征中的关键字；内容提取模块，用于在所述搜索命中之后，根据所述特征的条件属性在所述HTTP实体中提取与所述关键字对应的内容；策略条件匹配模块，用于将提取出的内容与预定的策略条件进行匹配；以及策略执行模块，用于执行匹配成功的策略条件所对应的策略。

本发明通过URL定位，并且在发现其中带有“非”条件的特征时用旁路Bypass机制跳过非对应功能的流量处理，并且对策略条件进行了预编码，从而针对用户的上网行为进行识别、提取和策略匹配，最终通过执行相应的策略动作达到了有效的行为管理。

附图说明

图1是根据本发明实施例的用户Web访问行为控制的系统示意图；

图2是根据本发明实施例的用户Web访问行为控制方法的流程图；

图3是根据本发明实施例的用户Web访问行为控制的全程关联的示意图；以及

图4是根据本发明实施例的用户Web访问行为控制装置示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

为了解决以上问题，本发明提供了一套快速、完整的Web特征框架，实现了对用户需求的完美覆盖，其具有下列特征：框架中预设了一些基本的功能类型和条件，并因其灵活性，可方便有效地进行新功能扩展；可对Web功能进行精确识别和信息的准确提取，并能完成策略模块的快速匹配；同时，支持跨会话（Session）的行为关联，从而可以提供全面的行为统计信息；通过URL预识别可以唯一地确定大部分功能类型，从而避免各功能并行处理中的重复操作，有效提升处理性能；通过对策略条件的编码预处理，以及前面提及的准确提取，无须实时解码即可完成策略条件的匹配过程；通过人工手动识别和智能云端统计反馈两种方案，从不同角度完善特征更新机制。

图1是根据本发明实施例的用户Web访问行为控制的系统示意图。

图2是根据本发明实施例的用户Web访问行为控制的方法流程图。

下面，结合图1和图2对用户Web访问行为控制的过程进行一个详细的描述。

在步骤201，根据用户的Web数据识别出其对应的URL。在此，URL预识别是利用URL的全局唯一性来确定相应的功能类型，从而避免了多功能重复操作的问题。特征库中的URL特征收录了大量国内主流网页，从而保证了审计准确性。另外，URL特征还支持网页黑白名单的控制需求，可在第一时间快速反应。

在步骤202，根据所述URL在预先建立的特征库中找到对应的特征，所述特征库包含多个URL，每个URL对应一个或多个特征。例如，可以用HTTP实体（HTTP Entity）为基础来进行处理，特征库中的每个URL对应的一个或多个特征可以是HTTP实体的方式，其中，每个HTTP实体可以包含一个自定义处理函数，以及一组特征，用于在Web数据中搜索该组特征。所述一组特征的形式可以分为两种：正则表达式（regex）、普通关键字（keyword），普通关键字对应的是多模搜索的方式。自定义处理函数主要针对缺省处理函数无法满足需求或者用户需要定制功能的情况，以便于扩展。

应当指出，HTTP实体（HTTP Entity）可以分为实体头域（Entity Header）和实体主体（Entity Body），其中，实体头域例如包括Cookie、Host等，实体主体是HTTP请求或响应的主体部分，例如包括Request Body、ResponseBody等。

此外，每个特征还可以包含三个属性：行为、条件、自定义（缺省为空）。行为属性用于表示特征命中后对该流量的行为判定，其用于对之前的URL识别进行补充，URL预识别可以确定功能方向，而行为数据可用于对功能类型进行细分，例如将HTTP POST功能细分为发帖、评论、回复等；条件属性用于表示特征命中后对功能条件的标识；自定义属性可根据用户需求定制传递额外的信息，它相应地需要结合上面提到的自定义处理函数一起使用。

一个典型例子是，如果需要在现有的HTTP POST功能中增加网页投票行为的审计，那么只需将该网页的URL添加到特征库，将其功能设定为“投票”，然后填写对应的投票特征，在其条件属性中将其定义为“投票选项”即可（还可多选），这样无需麻烦的二次开发。

特征库的维护可以有两种途径，包括：自定义特征，即将用户描述的Web行为进行定制处理，将定制的特征加入特征库；云端特征统计，根据大量反馈信息进行特征统计筛选后定期下发，更新特征库。需要指出，该特征库在实现上可以采用XML格式进行保存，可以更好地保证其扩展性。

具体地说，特征库的维护可以分为用户本地的单功能特征更新和云端统计服务。

一方面，当用户发现当前特征库无法识别某功能时，或希望修改某功能时，可通过定制方案进行更新。即用户输入功能名称、功能条件，然后执行一次相应的上网行为即可。而在我们的设备中，会将捕获到的用户流量与用户输入的功能条件进行匹配，当命中时，进行相应特征提取，最后将相关特征整理成XML格式合并到系统库中，这样便完成了一次更新合并。

另一方面，各设备可将实际用户使用到的特征字段（非用户信息）定期上传到云端服务器，服务器通过统计概率进行特征库更新，并可定期下发到各设备。考虑到概率统计本身的不完整性，这里还需配备适当的人力投入，以修正这种不足，即当发现有特征冲突时，通过定制特征方法完成更新。

在步骤203，根据所述特征从所述Web数据中调取与所述特征对应的HTTP实体。例如，如果识别得到的URL对应HTTP实体中的Host，则可以通过统一回调接口从Web数据的HTTP实体中将Host调取出来。换言之，在特征库中，特定的URL可以对应HTTP实体中的一个或多个，当Web数据对应的URL找到之后，根据其对应的特征，将Web数据中的一个或多个HTTP实体提取出来，以便后续处理。

在步骤204，在所述HTTP实体中搜索所述特征中的关键字。所述关键字搜索可以采用多模搜索的方式，即包含一组关键字，比如是content/title/…；关键字搜索也可以用正则表达式的方式，将一组关键字包含在正则表达式中。

在步骤205，在所述搜索命中之后，根据所述特征的条件属性在所述HTTP实体中提取与所述关键字对应的内容。

在步骤206，将提取出的内容与预定的策略条件进行匹配。策略条件可以是用户预先设置的针对各功能的条件和动作描述，可以支持用户（Who）、时间（When）、功能条件（Do What）等三个维度的配置，从而全面确保上网行为的精确控制。

由于各应用的提供者不同，因此其用户上网信息的传输形式往往不太一样，这主要包括一些封装类的格式编码，如URL编码、QP编码、BASE64编码等。同时，对于中文字符，还可能采用不同的字符集，如UTF8、GB18030、BIG5等。因此，如果不对这些情况加以识别和处理，那么将无法获取有效的信息。传统的方案是在运行中做实时译码，但这样耗时过高，性能不佳。

为了改善这种现状，我们采用了“空间换时间”的预处理，把策略中的关键字条件，按不同的字符集（Character Set），包括UTF8、GB18030、BIG5等、格式编码（包括URL编码、QP编码等）进行了扩展追加，使得其在运行中处理时，无须对上网信息做实时译码，而直接进行策略的关键字匹配，从而减少了时间开销。

在步骤207，执行匹配成功的策略条件所对应的策略。例如，所执行的策略行为可以包括记录和控制（封堵、放行）两类。

应当指出，在前面提到的特征的行为属性里，还可设置“非”条件。一般的功能识别，往往是查看流量中有没有该功能的关键字。这种方法虽然可以保证功能的有效识别，但对于不是该功能的流量则会浪费过多的时间。我们的特征框架支持“非”的关键字属性，当发现该特征时，流量会被丢弃，从而及时停止后续无意义的处理流程。例如，对于Host字段带有“mail”特征的情况，那它一定不会是个发帖行为（通常是邮件行为），这样我们可以HTTP请求头（Request Header）直接跳过该流量，而无需一直处理到整个会话（Session）结束，从而达到有效节省时间的目的。

简言之，在步骤205中，当搜索命中之后，可以先查看该特征的行为属性是否带有预定标志，该标志是一个“非”条件。如果发现行为属性带有预定的“非”条件标志，则直接丢弃该Web数据，不再进行后续处理。

图3是根据本发明实施例的用户Web访问行为控制的全程关联的示意图。

对于网络管理员来说，常常希望知道用户上网行为的上下文环境，或者期待了解其一段时间内的行为统计，这样便于做一些统筹规划。

传统的方案往往是用IP地址进行定位和关联，但这种方式过于笼统：一方面,IP地址可能动态变化；另一方面，即使IP地址固定，相同IP地址下也可以登录不同的账号，或者相同账号也可以在不同IP地址下登录。因此，IP地址无法唯一地确定一个应用账号。

根据本发明实施例，提供了一种可对某个用户的上网行为进行全程关联的方案，即通过用户自登录以来由服务器返回的会话ID（Session ID）来完成全程关联。

由于用户上网所产生的流量可能在不同的会话（Session），甚至不同的TCP连接里，因此需要从应用流量中提取一个合适的关联信息。这里，我们选择了一个基于会话（Session）的会话ID（Session ID）的概念。它是用户从登陆到退出过程中，由服务器提供的一个临时不变的ID号，用于基本的认证识别和消息映射。因此，可以利用这个ID号对该用户进行定位，具体如下所述。

首先，通过用户登录流量的特征识别与提取，获得相应的会话ID（SessionID）号，并将其与用户账号进行关联。在该用户后续的诸如邮件、网页、文件等其他功能操作中，利用该ID可以进行有效关联和信息补充。一个典型的例子是，发送一个带附件的邮件，由于大多数公共邮箱服务都会将附件和正文部分分开发送，因此简单的基于单会话（Session）的功能处理无法完全获取这些相关信息。而通过会话ID（Session ID）关联之后，这些信息可以相互补充，最终以完整的形式展现给用户。

图4是根据本发明实施例的用户Web访问行为控制装置示意图。

URL识别模块根据用户的Web数据识别出其对应的URL。在此，URL预识别是利用URL的全局唯一性来确定相应的功能类型，从而避免了多功能重复操作的问题。特征库中的URL特征收录了大量国内主流网页，从而保证了审计准确性。另外，URL特征还支持网页黑白名单的控制需求，可在第一时间快速反应。

特征查找模块根据所述URL在预先建立的特征库中找到对应的特征，所述特征库包含多个URL，每个URL对应一个或多个特征。例如，可以用HTTP实体为基础来进行处理，特征库中的每个URL对应的一个或多个特征可以是HTTP实体的方式，其中，每个HTTP实体可以包含一个自定义处理函数，以及一组特征，用于在Web数据中搜索该组特征。所述一组特征的形式可以分为两种：正则表达式（regex）、普通关键字（keyword）。自定义处理函数主要针对缺省处理函数无法满足需求或者用户需要定制功能的情况，以便于扩展。

此外，每个特征还可以包含三个属性：行为、条件、自定义（缺省为空）。行为属性用于表示特征命中后对该流量的行为判定，其要用于对之前的URL识别进行补充，并且用于细分的功能类型，例如将HTTP POST功能细分为发帖、评论、回复等；条件属性用于表示特征命中后对功能条件的标识；自定义属性可根据用户需求定制传递额外的信息，它相应地需要结合上面提到的自定义处理函数一起使用。

一个典型例子是，如果需要在现有HTTP POST功能中增加网页投票行为的审计，那么只需将该网页的URL添加到特征库，将其功能设定为“投票”，然后填写对应的投票特征，在其条件属性中将其定义为“投票选项”即可（还可多选），这样无需麻烦的二次开发。

特征库的维护可以有两种途径，包括：自定义特征，即将用户描述的Web行为进行定制处理，将定制的特征加入特征库；云端特征统计，根据大量反馈信息进行特征统计筛选后定期下发，更新特征库。需要指出，该特征库在实现上可以采用了XML格式进行保存，可以更好地保证其扩展性。

HTTP实体调取模块根据所述特征从所述Web数据中调取与所述特征对应的HTTP实体。例如，如果识别得到的URL对应了HTTP实体中的Host，则可以通过统一回调接口从Web数据的HTTP实体中将Host调取出来。换言之，在特征库中，特定的URL可以对应HTTP实体中的一个或多个，当Web数据对应的URL找到之后，根据其对应的特征，将Web数据中的一个或多个HTTP实体提取出来，以便后续处理。

关键字搜索模块在所述HTTP实体中搜索所述特征中的关键字。所述关键字可以是一组关键字，比如是content/title/…，也可以用正则表达式的方式，将一组关键字包含在正则表达式中。

在所述搜索命中之后，内容提取模块根据所述特征的条件属性在所述HTTP实体中提取与所述关键字对应的内容。

策略条件匹配模块将提取出的内容与预定的策略条件进行匹配。策略条件可以是用户预先设置的针对各功能的条件和动作描述，可以支持用户（Who）、时间（When）、功能条件（Do What）等三个维度的配置，从而全面确保上网行为的精确控制。

策略执行模块执行匹配成功的策略条件所对应的策略。例如，所执行的策略行为可以包括记录和控制（封堵、放行）两类。

简言之，当关键字搜索模块的搜索命中之后，可以先查看该特征的行为属性是否带有预定标志，该标志是一个“非”条件。如果发现行为属性带有预定的“非”条件标志，则直接丢弃该Web数据，不再进行后续处理。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户Web访问行为控制方法，包括：

根据用户的Web数据识别出其对应的URL；

根据所述统一资源定位符URL在预先建立的特征库中找到对应的特征，所述特征库包含多个URL，每个URL对应一个或多个特征；

根据所述特征调取与所述特征对应的HTTP实体，所述HTTP实体是预先按照HTTP协议特征从所述Web数据中解析出来的；

在所述HTTP实体中搜索所述特征中的关键字；

在所述搜索命中之后，根据所述特征的条件属性在所述HTTP实体中提取与所述关键字对应的内容；

将提取出的内容与预定的策略条件进行匹配；以及

执行匹配成功的策略条件所对应的策略。

2.根据权利要求1所述的方法，还包括：

所述关键字的搜索是通过正则表达式和/或多模搜索来进行的。

3.根据权利要求1所述的方法，其中，所述特征还包括行为属性，所述方法还包括：

在所述搜索命中后并且在提取内容之前，先查看所述特征的行为属性是否带有预定标志，如果带有预定标志，则直接将所述Web数据丢弃，不进行后续处理。

4.根据权利要求1所述的方法，还包括：

根据所述Web数据获取相应的会话ID；

将所述会话ID与用户的登录账户进行关联；

利用所述关联获取用户在所述登录账户下的各种上网行为的信息。

5.根据权利要求1所述的方法，其中，所述策略条件用多个字符集和格式编码进行了预先编码。

6.根据权利要求5所述的方法，其中，所述字符集包括UTF8、GB18030、BIG5中的一个或多个，所述格式编码包括URL编码或QP编码。

7.根据权利要求1所述的方法，所述特征库中的特征是XML格式。

8.根据权利要求1所述的方法，其中，所述HTTP实体包括实体头域和实体主体。

9.一种用户Web访问行为控制装置，包括：

统一资源定位符URL识别模块，用于根据用户的Web数据识别出其对应的URL；

特征查找模块，用于根据所述URL在预先建立的特征库中找到对应的特征，所述特征库包含多个URL，每个URL对应一个或多个特征；

HTTP实体调取模块，用于根据所述特征调取与所述特征对应的HTTP实体，所述HTTP实体是预先按照HTTP协议特征从所述Web数据中解析出来的；

关键字搜索模块，用于在所述HTTP实体中搜索所述特征中的关键字；

内容提取模块，用于在所述搜索命中之后，根据所述特征的条件属性在所述HTTP实体中提取与所述关键字对应的内容；

策略条件匹配模块，用于将提取出的内容与预定的策略条件进行匹配；以及

策略执行模块，用于执行匹配成功的策略条件所对应的策略。

10.一种网关，包括如权利要求9所述的一种用户Web访问行为控制装置。