CN103078897B

CN103078897B - 一种实现Web业务细粒度分类与管理的系统

Info

Publication number: CN103078897B
Application number: CN201210504755.6A
Authority: CN
Inventors: 谢逸; 李曼; 胡智圣
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2012-11-29
Filing date: 2012-11-29
Publication date: 2015-11-18
Anticipated expiration: 2032-11-29
Also published as: CN103078897A

Abstract

本发明提供一种Web业务的细粒度分类与管理系统，将本系统部署在网络边界处，实现方式：对已知的Web业务分别通过历史行为数据训练构建行为模型；利用行为模型对Web业务进行在线的细粒度分类与管理；对于未知类型的Web业务,系统自动构建行为模型并实现动态维护。本发明用于对使用相同HTTP协议的不同Web业务进行细粒度的分类，对不同Web业务所产生的HTTP流按照给定的服务策略进行有效的调度和管理。本发明基于HTTP会话属性，既不需要进行应用层净荷分析，又能避免传统基于流和端口方法的缺陷，能有效地实现Web业务的精细分类与管理。系统具有动态更新、创建与细化的能力。本发明可以应用于多种不同目的的场景。

Description

一种实现Web业务细粒度分类与管理的系统

技术领域

本发明属于网络技术领域，它提出了一种实现Web业务细粒度分类与管理的系统。

背景技术

万维网(WorldWideWeb,WWW)，简称Web，是一个通过网络存取互连超文件(interlinkedhypertextdocument)的系统。在基于Web的应用中，客户端仅需要一个浏览器就可以完成数据的索取与发送任务。这种跨平台特性与瘦客户特性使Web技术迅速渗透到每一个应用领域，并在现代互联网中扮演着重要的角色，例如：电子商务、电子政务及金融服务等。由于Web业务的广泛使用，常规的网络安全管理系统一般都开放Web业务所使用的标准TCP80端口，并默认与TCP80端口通信的网络流量是合法的Web业务，即网页浏览型业务。这一特点吸引了越来越多的网络应用迁移到Web平台上，例如：在线交易、即时通信、网络游戏等。从而导致Web通信方式成为一种通用的网络业务载体。其主要原因是在现有的Web平台下，各种网络业务都可以利用HTTP协议及TCP80端口伪装成合法的Web业务，从而自由穿越边界防火墙，躲避边界安全系统的检测与过滤。多个知名的市场预测机构曾指出，Web体系未来将有可能全面取代传统桌面应用程序成为统一的、跨平台的工作环境。

这种现象意味着Web数据流所包含的不再是单一的网页浏览型业务，在相同的HTTP协议包装下，隐藏着各种不同类型的网络应用。在缺乏有效管理手段的情况下，这些网络应用相互争夺与吞噬有限的网络资源。而从网络入侵与攻击的角度看，基于HTTP协议的Web平台无疑给攻击者提供了一个更加隐蔽、有效的双向通信渠道。可见，日益多样化与复杂化的HTTP流给网络的资源分配与安全管理带来了新的挑战。

为了有效利用网络资源，使合法业务具有更好的服务质量，也为了实现网络安全管理，杜绝基于Web平台的恶意通信行为，需要对各种Web应用进行有效的监督和管理，增强网络业务的可控性。而对Web业务进行分类是实现有效管理的前提条件。目前与这一领域相关的技术主要有两大类：应用层协议分类与Web浏览行为推断。

常用的应用层协议分类技术有：基于端口的方法、深层数据包检测方法、网络流量统计方法及基于协议行为的分类方法。

基于端口的分类方法，是使用IANA中注册的标准端口号列表匹配TCP/UDP端口号来识别各种应用层业务。对于端口恒定、且网络业务与端口之间存在唯一映射关系的业务，这种方法的效率及准确度都非常高。但是随着新兴业务及私有通信协议的发展，越来越多的网络业务使用标准端口或动态端口躲避营商或边界防火墙的监控与拦截。这使得基于端口的网络业务分类方法的识别率日益下降。有分析报告指出，端口分类方法在Email、FTP、Telnet、DNS等端口恒定的业务识别上具有绝对优势，达到了98％的准确率，误判率在0.05％以下。但是对于HTTP流业务，由于许多其它业务，如P2P、网络视频、即时通信等也大量使用80端口，导致80端口上50％的流量是非常规的HTTP业务，因此基于端口的分类方法在识别HTTP业务方面会产生较大的误判率，无法满足现有网络应用细粒度分类的需求。

深度报文检测技术是指针对网络数据包中的应用层净荷数据进行识别与业务分类。这种方法的依据是不同的网络应用会采用不同的协议，而各种协议都有它特殊的标记，即协议识别中的“关键词”。通过这些特殊的协议标记可以确定网络流上的业务类型。这种方法首先提取每个待检测的网络协议的识别规则并建立规则库(例如：关键词序列库)。通过模式匹配方法寻找数据包的应用层数据是否与规则库中的规则匹配。深度报文检测技术的关键在于规则库的建立和维护，其性能主要取决于特征匹配方法。常用的特征匹配方法主要有：正则表达式方法和字符串匹配方法。有报告指出，采用深度报文检测和端口检测相结合的方法，可以达到接近100％的准确率。但是其主要的问题包括：(1)不适合实时在线运行。因为该方法需要对应用层净荷进行分析匹配，计算复杂度非常高，其效率难以适合高速网络环境。(2)难以处理加密协议或私有协议的情况。新兴网络业务为躲避监控，会采用各种方法隐藏自己的特征标记，例如：不公开协议文档、对协议加密、增加扰码、甚至不定期更新通信协议等。这使规则库的建立面临巨大的挑战，而由于协议标记的变形，导致匹配的误差越来越大，最终难以实际应用。

基于网络流统计的方法假设不同应用会有其特定的流量统计特性，例如：流的持续时间、分组互到达时间、字节数等。并以此对网络应用进行分类。这种方法的依据是不同的网络业务对丢包率、可靠性、带宽、时延等的要求不同，这些差异通过某些可观测的特征有规律地表现出来，因此通过对这些特征的统计分析可以实现业务的分类。实现基于流统计的分类方法的第一步是定义“流”，目前常用的方法有：把一个TCP连接视为一个网络流、或简单地采用TCP/IP五元组(源IP、源端口、目的IP、目的端口、协议)定义一个网络流，然后以流为检测单位。然后找出不同网络业务的流量特征差异，定义网络应用的模式与特征指标，通过机器学习、模式识别建立分类模型实现网络业务识别。基于网络流统计的方法最大的特点是适用于加密协议或私有协议的分类，而且由于不需要对应用层净荷进行分析匹配，因此与协议结构无关，稳定性与实时性都比较好。然而它具有以下的不足：(1)难以实现新应用的主动发现。现有基于网络流统计的技术主要根据已知业务建立网络流统计特征库，利用该特征库识别特定的业务。对于未知的新业务，该方法难以进行有效处理。(2)目前的技术一般只针对“大类”进行区分，例如：HTTP、P2P、SMTP等，没有考虑细粒度的网络业务划分，例如：区分HTTP协议下存在的多种不同网络应用。(3)以“流”为分类单位难以反映真实的Web业务特性。实际的Web事务交互过程中，一个用户与给定的服务器经常同时、交错地存在多个“流”。这些“流”在刻画一次完整Web事务是应该视为一个整体。而目前基于“流”的技术往往假设每一个“流”之间相互独立，因此可以独立地处理每一个流。尽管这种处理方式可以大大简化复杂度，但却难以体现出高层Web业务的通信特点。

基于协议行为的分类方法通过解析通信协议的交互过程、状态变化来实现网络业务的识别。而上述的深度报文检测、网络流统计方法则只是把应用协议数据看成没有结构的、静态的比特流进行模式匹配，忽略了每一个通信过程都是收发双方交互的结果，在交互的过程中，通信协议会根据当前的状态及输入信息决定如何响应、及下一个进入的状态。有研究指出，随着模式与报文的增加，这种基于协议动态行为的分类方法的效率将优于深度报文检测方法。但这种方法最大的挑战在于：它必须了解网络业务的通信过程，维护通信过程中完整的状态信息。对于一些无状态的通信协议(例如：HTTP)，如何有效描述协议行为的上下文信息是目前还未能很好解决的问题。另外，如何挖掘未知网络应用的行为模式也是目前比较少关注的问题。

从上述分析可见，目前的几种主要方法在处理基于HTTP协议的Web业务分类方面主要存在以下的问题：(1)没有考虑Web业务的细粒度分类问题；(2)没有利用Web业务的应用层行为特征；(3)难以处理未知Web业务。

目前，专门针对HTTP协议，刻画Web业务行为的方法并不多见。已经提出的技术主要集中在网页浏览行为方面。这是由于网页浏览是最经典的Web业务，也是HTTP协议的设计初衷。常见方法有：基于客户端的方法、基于服务器端的方法、基于cookie的方法、基于指定阈值的互到时间的方法。

基于客户端的方法是指通过直接获取客户端用户的操作信息，实现用户行为的追踪。常见的方法包括：(1)在客户端安装浏览器监控插件。一旦浏览器被运行，监控插件就负责实时记录浏览器窗口内的用户操作，例如：鼠标点击与移动、键盘数据等。用户的各种操作被插件编码后回传到指定的目的地。尽管这种方法的准确度高、实时性好，但由于它严重侵犯用户的隐私，而且很容易会变成恶意攻击者或不法分子所利用，因此难以广泛部署。(2)通过采集客户端的浏览器日志文件，进行行为分析。但是，要向每一个用户索取浏览器日志文件并不现实，它除了会影响用户的隐私外，实时性也非常差，难以在线使用。因此，这类方法同样不实用。

基于服务器端的方法被广泛用于服务提供者对Web用户行为的评估与管理。由于这种系统部署在服务器端，它可以获取与所提供的Web服务相关的先验知识，例如：Web页面的层次结构、Web页面的链接关系、每个Web文档所包含的内容等。利用这些先验知识，以及实时观测到的用户请求对象，系统可以分析出用户当前的操作行为：Web页面切换、前进、返回或刷新。然而，服务器端的方法必须以Web服务相关的先验知识作为参考基准才可以取得较好的结果，因此它只能局限于服务器端，而不适合部署在其它的网络位置，例如：网络边界，或骨干网上。

Web交互行为探测的一个主要难点在于它所依赖的HTTP协议是一种无状态的通信协议。这种无状态性导致无法从HTTP流中获取用户访问过程中的上下文信息。为使无状态的HTTP协议用于交互式Web应用程序，cookie被用于向服务器端传递客户端的信息。这种方法可以用于获取客户端用户的行为活动：cookie负责记录客户端的操作，并随客户端的HTTP请求返回到服务器端。但是基于cookie的方法同样存在一些缺陷：(1)为了保证安全性，cookie通常被加密，因此除了服务器端，其它监控点即使截获了cookie也无法有效利用。(2)大量已有的研究表明cookie存在许多安全隐患，例如：泄露用户隐私、被恶意攻击者所利用导致客户的利益受到威胁等。为此，在许多真实的场景下，cookie往往被禁用，从而导致这类方法难以实际应用。

指定阈值的互到达时间方法被广泛用于Web数据挖掘。其核心思想是：人进行不同的操作会导致相邻HTTP请求/响应的时间间隔不同。例如：在用户点击链接进行页面访问时，链路上相邻HTTP请求的互到达时间非常小；当用户完成一个Web文档的阅读后重新点击时，会导致相邻两次点击之间的HTTP请求的互到达时间变大；而当用户离开后重新进行Web访问时，则会产生更大的互到达时间。因此，只要指定不同用户行为产生HTTP请求的互到达时间阈值，就可以通过比较HTTP流中相邻请求的互到达时间来分割与不同用户行为对应的请求序列。目前典型的实现方法如下：设两个连续的HTTP请求r_t-1及r_t，其中t表示HTTP请求的序号。i_t表示r_t-1与r_t的时间间隔。设δ为用户行为类型的互到达时间判决阈值，如果i_t<δ，则r_t-1与r_t属于一个相同的HTTP会话过程；否则它们分属用户不同的点击过程。由此，可以把一个连续的HTTP流分割为用户的会话序列或点击序列。这种方法是上述几种方案的折中，它不需要采集客户端数据，因此不涉及用户的隐私问题；它不需要Web服务提供者的支持，可以通过机器学习/数据挖掘等方法自动建立模型，因此在任何监控点都容易实施。然而，其最大的局限性来自判决阈值δ。已有的研究表明，在不同的环境下δ的波动很大，因此用一个固定的δ来分割HTTP会话是不合理的。而且δ的确定方法缺乏有效的理论支持。目前，δ只能通过先验知识获取，或者通过经验值进行人工设定。这在实际应用中往往难以实现。

上述四种网页浏览行为检测方法的优点是它们从应用层协议行为的角度刻画了网页浏览型Web业务交互过程中的特点。但在实现Web业务的细粒度分类方面仍然存在局限性：它们是针对网页浏览的特点而设计的，不适合其它非网页浏览型的Web业务。由于现代HTTP流承载业务的多样性与现有技术的不足给传统的网络资源管理规划带来了新的挑战，也威胁着网络边界的流量管理策略。因此，针对Web业务，设计一种有效的、动态的细粒度业务分类方法，并对每一种不同类型的Web业务实现独立的监控与管理显得日益迫切。

发明内容

为了克服现有技术的不足，本发明提出一种实现Web业务细粒度分类与管理的系统，本系统能在网络边界实现在线区分HTTP流中不同的Web业务以及对不同的Web业务进行有区别的管理。

为了实现上述目的，本发明的技术方案为：

一种实现Web业务细粒度分类与管理的系统，将本系统部署在网络边界处，该系统通过以下步骤实现：

1)对所有已知的Web业务分别通过历史行为数据训练构建行为模型；

2)利用行为模型对Web业务进行细粒度分类与管理；并对行为模型进行动态维护。

所述步骤1)的实现方式为：

10)确定需要构建行为模型的Web业务App；

11)从混合的双向网络流中提取出所有Web业务的HTTP流；

12)将得到的汇聚HTTP流汇聚送到离线应用分类模块，用于提取出所有属于App的HTTP流量；

13)按“源(IP)～目的(Host)”把App的HTTP流量通过流分离为HTTP会话流集合{S-D₁,S-D₂,...,S-D_t}；

14)从每一个会话流中提取相应的行为属性矢量序列，行为属性矢量序列刻画了Web业务App的静态行为特征；

15)行为模式空间的推断，是采用无监督模糊聚类算法分析所有属于App的行为属性矢量序列集合，推断App的行为模式空间，及各种行为模式的初始化特征；

16)行为模型的构建，是采用时间序列模型描述行为模式的动态演变过程，得到刻画App行为的数值模型参数λ_m。

所述步骤16)所述的时间序列模型为HMM或HsMM模型，是利用无监督模糊聚类的结果初始化HMM或HsMM模型，并通过迭代算法构建描述指定Web业务App的动态行为模型，输出模型参数λ_m。

所述步骤2)中对Web业务进行管理包括四个部分：独立的多优先权队列组、队列输入调度中心、队列长度控制中心、队列输出调度中心；

所述独立的多优先权队列组，设置多个相互独立的队列，每一个队列对应一种服务优先权；

所述队列输入调度中心，根据在线检测后的分类判决结果，即分类标签，决定当前HTTP流的目的队列编号：如果是属于已知的Web业务类型，则送入对应的队列；如果是系统自动识别出的新业务HTTP流，不属于任何已知的队列，则系统把它送往的服务优先权最低的默认队列，并给管理员发送通知；由管理员审核后，根据网络业务的管理策略重置它的服务优先权；

所述队列长度控制中心，根据预先采用的策略调整、控制每个队列的长度，不同的优先权的队列能够采用相同、或不同的队列长度控制策略；

所述队列输出调度中心，根据采用的多队列调度策略决定如何为来自不同Web业务的HTTP流提供服务。

所述步骤2)中对行为识别模型进行维护是对行为模型进行强化与更新，其实现方式为：当一个进入系统的HTTP流被认为是与已知Web业务行为模型匹配时，系统将把该HTTP的静态行为特征矢量序列保留在缓存中，作为该模型更新与强化的数据源，后台的模型更新程序在空闲时从指定缓存中读取该HTTP的静态行为特征矢量序列用于强化行为的数据，在线计算并更新该模型的参数；模型更新的算法采用HsMM训练的经典算法或快速参数估计法。

所述HsMM训练的经典算法为EM算法或前后向算法，快速参数估计法为前向递推法。

所述步骤2)还包括对未知Web业务进行细粒度分类与管理，其实现方式为：通过评估该未知Web业务相对各个已知Web业务的行为模型的拟合度来判断HTTP流是否属于已知的模型，如果不属于已知模型，则通过步骤13)至步骤16)构建新的Web业务的行为模型。

所述步骤2)还包括对多个新的Web业务同一时间出现的细粒度分类与管理，其实现方式为：第一步，将所有新Web业务的HTTP流视为同一个Web业务，构建一个共同的行为模型λ*，根据各个HTTP流相对λ*的拟合度统计特征分为多个子集，每一个子集对应一种新的Web业务类型.第二步,对每一个子集的HTTP流，采用步骤13)至步骤16)构建各个子集的行为模型。

本发明的有益效果：用于对使用相同HTTP协议进行通信的多种不同Web业务进行分类与管理，系统位于网络边界处。它以HTTP会话过程作为分析对象。本发明不局限于网页浏览，而是能实现Web业务的细粒度分类与管理；本发明是基于Web业务的交互过程实现的，比基于“流”和端口的方法更适合刻画高层Web业务的行为；仅利用HTTP头部信息，适用于加密与私有协议；可以通过动态的模型调整自动处理未知Web业务。

附图说明

图1为协议行为状态跳转示意图；

图2为本发明的行为模型训练示意图；

图3为本发明的在线检测示意图；

图4为本发明的管理控制原理示意图。

具体实施方式

下面结合附图对本发明做进一步的说明：

一种实现Web业务细粒度分类与管理的系统，实现方式为：对使用相同HTTP协议的Web业务构建行为识别模型；利用行为识别模型对Web业务进行细粒度分类与管理；实时强化与更新行为识别模型。

为给定的Web业务构建行为模型的具体操作为：

设需要建立行为模型的Web业务标记为App。首先，离线分析并过滤出与App相关的I个HTTP会话流{S-D₁,S-D₂,...,S-D_I}，其中S-D_i表示第i个属于App的HTTP会话流，它包含N_i个HTTP请求，记为{r_i1,r_i2,...,r_iNi}。S-D_i中的每一个HTTP请求都来自相同的一个Web事务实例/Web会话。在本系统中，如果HTTP请求中具有相同的客户端IP地址，而且HTTP请求头部的“Host”域具有相同的取值，则认为它们是属于同一个Web事务实例/Web会话。

在第i个属于App的HTTP会话流S-D_i中，每一个HTTP请求r_in都可以提取出构建行为模型的K个属性值，记为{x_in1,x_in2,...,x_inK}，这些属性值刻画了App业务下HTTP请求所表现的静态行为特征，这些属性包括：请求文档与其父页面的时间间隔、文档的字节数、请求资源的类型、请求方法、HTTP请求与响应的时间间隔、HTTP响应状态等。为便于表示，用矢量表示第i个HTTP会话流S-D_i中第n个请求的K个静态行为特征{x_in1,x_in2,...,x_inK}，即则可以用K维矢量序列描述S-D_i的HTTP流{r_i1,r_i2,...,r_iNi}。I个K维矢量序列构成Web业务App在一次会话过程中展现行为特征的样本集合。由于所提取的K个静态行为特征值都来自HTTP请求与响应的头部信息，有标准的HTTP关键词可供检索、匹配及提取，因此本方法不需要深度分析净荷信息，而且适用于内容加密或格式私有的Web业务。

如图1所示，对于一个给定的Web业务App，从通信的角度看，App的一次通信过程就是一次业务状态(或行为模式)的跳转过程。在不同的通信阶段，App业务处于不同的状态(或行为模式)，收发双方根据App业务当前的状态作出响应(即：服务器端根据客户端的请求发出HTTP响应，客户端根据服务器端的响应发出后续HTTP请求)。然后，通信过程进入下一个业务状态，如此类推。例如：网页浏览过程包含两个典型的业务状态(行为模式)“点击状态”与“阅读状态”。它们各自所产生的HTTP请求具有明显不同的行为特征，包括：请求频率、响应字节数、响应状态等。

因此，业务状态是产生与驱动HTTP流的内部机制。链路上出现的“HTTP请求-响应对”是特定Web业务的通信协议在不同状态(或行为模式)下的产物。由于驱动的Web业务及业务状态不同，HTTP请求与响应在不同的通信阶段具有不同的外在表现，即静态行为特征。

App的业务状态对位于网络边界的网络流观测者不可见，而App业务驱动下所产生的外在表现，即HTTP流，是可观测的。因此，一个Web业务所包含的行为模式以及这些模式的变化规律只能通过观测到的HTTP外在属性进行逆向推断。

在本实施例中，构建Web业务的行为模型采用“两阶段”法，包括行为模式空间的推断、及行为模型的构建。

(1)行为模式空间的推断

目的是根据观测到的HTTP静态行为特征自动推断给定Web业务所具有的行为模式的数量、每一种行为模式与HTTP静态行为特征的初始关联关系。现有的各种无监督模糊聚类算法可以实现上述目的。对于一种选定的聚类算法，I个K维矢量序列是待聚类的数据集。经过聚类处理后，每一个输出类代表该Web业务的一种行为模式、聚类个数代表该Web业务所具有的典型行为模式的数量、数据元素对于每一个类的隶属度刻画了不可见的Web业务行为模式与外在HTTP静态行为特征之间的关联关系。

以下应用无监督多尺度模糊聚类算法(UFM)说明具体的操作过程。

步骤1确定t个待比较的尺度因子{η_k}_{k＝1,2,...,t.}，η_k∈[η_min,η_max]；

步骤2给定η_k，如果k>t，转步骤5，

步骤3调用UMF算法迭代计算数据集中每一个数据元素的收敛点。对数据点进行分类，将具有相同收敛点的数据元素聚为一类。记录聚类个数与尺度因子(n_k,η_k)、数据元素到分类结果的映射关系f_k(·)；

步骤4k＝k+1，转到步骤2；

步骤5由UMF的聚类有效性指标得到最优聚类个数n*与对应的数据元素到分类结果的映射关系f*(·)。

把I个K维矢量序列的元素组织为数据集其中x_n为矢量，

其中UMF算法的实现如下：

步骤1设定尺度因子η,n＝1；

步骤2以v⁰＝x_n为初始位置，迭代计算下列方程

直到v收敛为v_n。其中，v⁰与v分别代表数据点x_n的初始收敛点与迭代过程中得到的收敛点，m∈[1,∞)是模糊因子；

步骤3当转步骤4，否则令n＝n+1，转步骤2；

步骤4得到个收敛点v_n与x_n一一对应，将拥有相同收敛点的数据点分到同一类。

UMF算法的有效性指标解决两个问题：(1)确定最合理的聚类个数；(2)聚类个数相同时，确定一个最优的分类方案。计算方法如下实现。完成多尺度UMF迭代后，聚类个数与尺度因子有以下的对应关系：

[\begin{matrix} η_{1} & η_{2} & . . . & η_{k - 1} & η_{k} & η_{k + 1} & . . . & η_{t} \\ n_{1} & n_{2} & . . . & n_{k - 1} & n_{k} & n_{k + 1} & . . . & n_{t} \end{matrix}]

其中η_min≤η₁<...<η_k-1<η_k<η_k+1<...<η_t≤η_max。设在[η_min,η_max]上存在一个闭合子区间[η_u,η_u+l]，该闭合子区间具有以下性质：(1)对于任意的k∈[u,u+l]，(2)且则对于聚类个数的有效性指标定义为它反映当聚类个数保持为不变时，尺度因子η的变化幅度。最优聚类个数n*由计算得到。

当聚类个数确定后，由于在尺度区间[u,u+l]内存在l+1不同的划分方案，因此需要确定一种最优的划分方案。考虑到η<η_u及η>η_u+l时聚类个数都发生变化，即越接近两端临界点，划分方案越不稳定。UMF算法给出的方法是在闭合子区间[η_u,η_u+l]内选择一个不接近临界点的尺度作为在最优聚类个数为n*时的最优划分方案。最优划分尺度η*的实现如下：最优划分方案下数据元素到分类结果的映射关系f*(·)＝f_k*(·)。

(2)行为模型的构建

通过聚类处理后，可以得到特定Web业务App的行为模式类型，及HTTP静态行为特征与模式间的映射关系。但这些结果仅代表了Web业务交互行为的静态信息，它们无法正确反映出该Web业务在交互的过程中的动态演变过程，即业务状态随时间的变化规律。例如：业务状态的持续、跳转与HTTP的外观行为特征间的关系。

为此，本系统在聚类的基础上，使用随机时间序列模型描述行为模式的动态演变过程。由于实际的业务模式是不可见的，因此可采用的方法有：隐马尔科夫模型(hiddenMarkovmodel，HMM)或隐半马尔科夫模型(hiddensemi-Markovmodel，HsMM)。

在本实施例中，系统以HsMM为例说明其实现方法。HsMM是HMM扩展，并已经广泛应用于各种实际物理信号的描述。HsMM包含两个随机过程：隐状态过程与观测过程。隐状态不能直接观察到，但可以通过相应的概率密度分布产生观测向量。在HsMM中，状态可以以任意的概率分布持续出现。由于观测向量受隐状态的控制，因此观测向量可以反映隐状态的变化。又由于不同状态间的输出概率分布往往相互交叠，所以HsMM只能通过观测向量估计隐状态，而无法精确获得隐状态过程。HsMM包含以下元素：λ＝{O,S,D；,π,A,B,P}，其中O表示观测向量空间；S表示隐状态空间；D表示隐状态持续时间长度空间；π是初始概率矩阵，π_i＝Pr[s₁＝i]，i∈S；A是状态转移矩阵，A_ij＝Pr[s_t＝j|s_t-1＝i]，i,j∈S，B是状态输出概率矩阵，B_ik＝Pr[o_t＝k|s_t＝i]，i∈S，k∈O；P是状态持续时间概率，P_id＝Pr[τ_t＝d|s_t＝i]，i∈S，d∈D。

Web业务的行为演变过程可以直接映射到HsMM：可观测的HTTP请求的静态行为特征矢量映射为HsMM的观测矢量、Web业务行为模式空间映射为HsMM的隐状态空间、不可观测的Web业务行为模式对应为HsMM的隐状态、隐状态的停留时间代表该Web业务一种行为模式的持续时间、隐状态的跳转代表Web业务的行为模式发生变化、隐状态的输出概率分布刻画Web行为模式与外在的静态行为特征之间的关联关系。

由于在聚类完成后，可以获得最优的行为模式个数(即聚类个数)、最优划分方案下数据元素到分类结果的映射关系。这些信息可以用于初始化HsMM的参数。具体做法如下：聚类得到的行为模式个数(聚类个数)作为HsMM模型的隐状态个数、每一个类对应一个隐状态、数据元素到类的隶属度直接映射到HsMM的状态输出概率矩阵B，作为其初始值。模型的初始状态概率矩阵、状态转移概率矩阵、状态持续时间矩阵的初始化可以利用无监督模糊聚类结果及给定Web业务的I个矢量序列的频数统计得到。例如：

初始状态概率矩阵：

状态转移概率矩阵：

A_{ij} = \underset{l, t}{Σ} \Pr [(s_{lt}, s_{lt + 1}) = (i, j)] / \underset{l, t, j}{Σ} \Pr [(s_{lt}, s_{lt + 1}) = (i, j)];

状态持续时间矩阵：

P_{id} = \underset{l, t}{Σ} \Pr [(s_{lt}, τ_{lt}) = (i, d)] / \underset{l, t, d}{Σ} \Pr [(s_{lt}, τ_{lt}) = (i, d)] .

其中，s_lt表示第l个矢量序列的第t个时刻的状态、i,j∈S、d∈D。

确定了模型的状态空间及完成参数初始化后，可以采用现有的参数估计算法，例如：EM算法、前后向算法、频数法等估计HsMM的模型参数。该模型同时刻画了Web业务交互行为的静态特征及动态演变过程。采用相同的方法可以为所有已知的Web业务构建各自的行为模型。

当一个未知Web业务的HTTP矢量流序列到达时，通过评估它相对各个已知行为模型的拟合度，可以推断这个HTTP会话流的业务来源。拟合度函数定义为ρ(O,λ_m)＝Pr[O|λ_m]，ρ(O,λ_m)越大代表它越符合Web业务的模型λ_m的行为特征。因此，HTTP矢量流序列的最优分类结果可以由

ϵ = \underset{m}{\arg} \max {\Pr [O | λ_{m}], m &Element; [1, M]}

计算得到。

本发明还提出对Web业务行为模型进行的强化与更新的方法

考虑到一个Web业务的行为会随着时间的推移逐渐发生变化，导致静态的行为模型变得不适用。因此，行为模型构建完成后，在使用过程中还需要根据获取的数据不断强化与更新，使模型更加稳健并适应该Web业务逐渐变化的行为特征。本发明设计的系统可以实现这一功能。具体的操作如下：当一个进入系统的HTTP流被认为是与模型λ_m匹配时，系统把该HTTP流的静态行为特征矢量序列保留在缓存中，作为该模型更新与强化的数据源。后台的模型更新程序在空闲时从指定缓存中读取这些用于强化行为的数据，在线计算并更新λ_m的模型参数。模型更新的算法可以采用HsMM训练的经典算法(EM算法或前后向算法)或快速参数估计法(前向递推法)。用这种方法动态构建的行为模型，不会随时间推移产生偏差，相反，会越来越稳健与可靠。

本发明还提出自动构建未知Web业务行为模型的方法。

随着时间推移，基于Web的新业务会不断增加。因此，系统必须在能够没有人工干预的前提下自动识别这些新应用，并自动构建其行为模型。已有的大量研究表明，在HsMM的应用中，如果有多个样本序列是来自给定的模型λ_m，它们相对于该模型的拟合度值的分布接近正态分布。这个特点可以用于本系统自动发现未知的新应用，并为其构建行为模型。

由正态分布理论可知，如果用μ和σ分别表示均值与方差，正态分布的概率与方差具有以下的关系：(1)数据落入[μ-σ,μ+σ]的概率为68.27％；(2)数据落入[μ-2σ,μ+2σ]的概率为95.45％；(3)数据落入[μ-3σ,μ+3σ]的概率为99.73％；(4)数据落入[μ-4σ,μ+4σ]的概率为99.99％；当一个观测到的HTTP流序列相对于所有已知模型的拟合度都非常小时，例如：落在[μ-2σ,μ+2σ]之外，则代表该HTTP流所属的Web业务不属于任何现有的模型，而是一个新的Web应用。因此，系统可以按照上述的“两阶段”方法自动为新的Web业务构建专有的行为模型。

本发明还提出对Web业务的行为模型的进行分裂与细化的方法

当多个新的Web业务在同一时间出现时，这些来自不同新Web业务的HTTP流与现有的行为模型都不匹配，系统最初会把这些不同来源的HTTP流视为来自同一Web业务，并为其构建行为模型λ*。但由于这些HTTP流实际上来自不同的Web业务，随着时间推移，λ*逐渐变成多个Web业务的混合行为模型。这时，这些HTTP流相对于模型λ*的拟合度的分布将无法维持正态分布的统计特性，而出现多峰分布。因此，系统需要对λ*进行分裂与细化。具体的做法：根据各个HTTP流相对λ*的拟合度的统计特征分为多个子集。例如：如果拟合度分布存在3个峰区，则分别提取每一个峰区中的核心成员数据(例如：拟合度处于[μ-σ,μ+σ]内的HTTP流)构建3个训练子集。每一个子集对应一种新Web业务的行为特征训练集。然后，按照前述的“两阶段”方法为每一个子集重新构建自己的行为模型，从而实现行为模型的自动分裂与细化。

实现Web业务的细粒度分类以后，需要根据事先设定的策略对不同的应用进行管理控制。本发明对Web业务的管理方式包括四个部分：独立的多优先权队列组、队列输入调度中心、队列长度控制中心、队列输出调度中心。

具体的工作原理如下：

(1)独立的多优先权队列组。管理控制模块设置多个相互独立的队列，每一个队列对应一种服务优先权。典型的应用场景是：为每一种已知的Web业务按照预期的管理策略制定其服务优先权。在进行队列控制时，高优先权的业务可以赋予较大的缓冲区，并得到较快的输出服务。这样可以保障合法的业务，并有效抑制非法的业务流。

(2)队列输入调度中心。它根据在线检测后的分类判决结果(即分类标签)决定当前HTTP流的目的队列编号。对于系统自动识别出的新业务HTTP流，系统把它送到优先权最低的默认队列，并给管理员发送通知。由管理员审核后，根据网络业务的管理策略重置它的服务优先权。

(3)队列长度控制中心，根据预先采用的策略调整、控制每个队列的长度。不同的优先权的队列可以采用相同、或不同的队列长度控制策略。可用的实现方法包括：被动式队列管理(PassiveQueueManagement，PQM)和主动式队列管理(ActiveQueueManagement，AQM)。被动式队列管理一般采用“丢尾”(DropTail)策略，即当缓冲区满时，丢弃新到达的数据包。主动式队列管理机制就是要求网络本身参与资源的管理和控制。它通过采用特定的数据包丢弃技术，维护缓冲区的占用量(即队列的长度)在一定的范围内。即，在网络轻度拥塞的时候就按照预定的规则来丢弃少量的数据包，从而使得某些源端降低发送速率，减少了数据包因为在缓冲区中的时间过长而导致的超时重传，并且防止了拥塞的进一步恶化，降低了丢包率，同时还具有容纳突发流量的能力。典型的主动式队列管理机制包括：随机早期检测算法(RED)、BLUE算法、自适应RED算法(ARED)、PDPC算法等。这里以经典的RED算法介绍一个特定队列的长度控制中心的操作。它设定两个和队列长度相关的阈值：min和max。当有数据包到达路由器时，RED计算出平均队长avg，当平均队列长度avg小于预先设定的阈值min时接收所有数据包；当avg大于min并小于max时按照一定的概率P丢弃新到数据包；当avg大于max时到达的数据包全部被丢弃。RED在计算平均队长avg时，采用了滑动平均的方法。丢包概率P不仅和avg有关，还和从上一次丢包到现在连续进入队列的包的数量count有关。随着count的增加，下一个包被丢弃的可能性也在缓慢增加，以便均匀地、避免连续地丢包。

(4)队列输出调度中心。根据采用的策略决定如何为来自不同Web业务的HTTP流提供服务。由于本系统采用的是多优先权、多队列的服务方式，因此不适合采用经典的先进先出(FIFO)方法，需要使用多队列调度策略。目前常用的多队列调度策略有：优先级队列(PQ)、公平队列(FQ)、加权循环(WRR)、加权公平队列(WFQ)、赤字循环(DRR)等。这里以在WRR队列调度算法为例说明输出调度的操作：根据业务的优先级，每个业务类型对应一个队列，每个队列被分配一定的资源和优先级，系统采用轮询的方式服务这些队列。一次循环当中，调度中心根据每个业务队列的优先权的不同分配不同的带宽，每个队列至少可以发送一个数据包。这样，高优先权队列中的HTTP请求可以较快地获得服务，而低优先权队列中的业务流则具有较大的时延。

本发明构建Web业务的行为匹配模型的实现方法如附图2所示。特定Web业务的行为模型通过其历史行为数据训练获得。部署在网络边界的系统首先从混合的双向网络流中提取出Web业务的HTTP流。把采集到的汇聚HTTP送到离线应用分类模块，目的是提取出所有属于指定Web应用App_m的HTTP流量。由于是离线分析，系统可以采用复杂度大但精确度高的方法，例如：深度分组检测、人工分析等方法。完成Web业务App_m的HTTP流量提取后，按“源～目的”把混合的HTTP流组织为HTTP会话流集合{S-D₁,S-D₂,...,S-D_t}。与传统根据TCP/IP五元组(源IP、源端口、目的IP、目的端口、协议)的方法实现流管理不同，在本发明中，HTTP请求的“源端”是指内网的客户端，通过IP地址确定；HTTP请求的“目的端”是指服务所在的主机，通过HTTP请求头部的“Host”信息域确定。这种处理方法的好处：现代的Web业务通常由分布在不同物理服务器上的多个并行TCP连接构成，采用五元组的方法会把属于同一个应用的多个TCP连接分成相互独立的多个数据流，由此得到的行为模型难以反映真实的交互过程。而HTTP请求头部的“Host”信息域可以标识应用所在的逻辑位置，因此可以更好地把来自同一个Web业务实例的HTTP流组织在一起。例如：假设一个用户先后和两个基于Web的在线游戏网站进行交互，每个游戏网站使用一个域名标识，但业务分布在两个不同IP地址的物理主机上。于是，按照TCP流或五元组的流定义将得到4个相互独立的流集合。对用户而言，实际上只有2个应用实例。因此，对于本发明的设计目的来看，利用“Host”区分服务器端要比基于IP及端口的方法更加合理。

完成HTTP会话流的分离后，从每一个会话流提取相应的行为属性矢量序列。不同的Web服务可以根据自身的行为特点选择不同的属性集合。常用的属性特征包括：内嵌文档与其父页面的时间间隔、文档的字节数、请求资源的类型、请求方法、HTTP请求与响应的时间间隔、HTTP响应状态等。

然后，使用无监督模糊聚类方法分析所有属于App_m的行为属性矢量序列集合，推断App_m的静态行为模式空间，及模式与行为属性值的静态统计分布特征。利用模糊聚类的结果初始化HsMM模型，并通过迭代算法构建描述WebApp_m的动态行为模型，输出模型参数λ_m。

使用相同的方法为所有已知的Web业务逐一建立行为模型。然后如图3所示行为模型实现细粒度的分类与管理。系统部署在网络边界处，通过旁路技术侦听所有经过的数据流，通过常规TCP端口(80)过滤出HTTP流。汇聚的HTTP流首先进入“流分离”模块，根据客户端IP与HTTP头部的Host信息域组织成会话流S-D_i，每一个会话流并行输入各个不同的行为模型。每一个特定Web应用的行为模型根据其需要从HTTP会话流中提取特征属性构成随时间变化的属性矢量序列。通过计算属性矢量序列相对于给定模型的拟合度决定该会话流所属的Web业务，然后为该HTTP流加上应用标签。加上了业务标签的HTTP流被送到管理控制模块，根据给定的策略进行服务。同时用于模型维护。

管理控制模块的操作如图4所示。输入控制按照会话流的标签及优先权管理策略，把该HTTP流送入对应服务队列。数据流进入服务队列时受到队列控制模块的管理，并由队列调度模块决定其进入输出通道的时间。一旦数据流离开系统，系统将自动清除相关的内存空间。

模型维护部分由后台系统执行，它利用实时监测的数据流强化、细化已有的数据模型。在出现新业务时，自动创建新的行为模型。

Claims

1.一种实现Web业务细粒度分类与管理的系统，其特征在于将本系统部署在网络边界处，该系统通过以下步骤实现：

2)利用行为模型对Web业务进行细粒度分类与管理；并对行为模型进行动态维护;

步骤1)的实现方式为：

10)确定需要构建行为模型的Web业务App；

11)从混合的双向网络流中提取出所有Web业务的HTTP流；

12)将得到的汇聚HTTP流送到离线应用分类模块，用于提取出所有属于App的HTTP流量；

13)按“源(IP)～目的(Host)”把App的HTTP流量分离为HTTP会话流集合{S-D₁,S-D₂,...,S-D_t}，其中S-D_i表示第i个属于App的HTTP会话流；

14)从每一个会话流中提取相应的行为属性矢量序列，所述行为属性矢量序列刻画了Web业务App的静态行为特征；

2.根据权利要求1所述的实现Web业务细粒度分类与管理的系统，其特征在于所述步骤16)所述的时间序列模型为HMM或HsMM模型，是利用无监督模糊聚类的结果初始化HMM或HsMM模型，并通过迭代算法构建描述指定Web业务App的动态行为模型，输出模型参数λ_m。

3.根据权利要求2所述的实现Web业务细粒度分类与管理的系统，其特征在于所述步骤2)中对Web业务进行管理包括四个部分：独立的多优先权队列组、队列输入调度中心、队列长度控制中心和队列输出调度中心；

所述队列输入调度中心，根据在线检测后的分类判决结果，即分类标签，决定当前HTTP流的目的队列编号：如果是属于已知的Web业务类型，则送入对应的队列；如果是系统自动识别出的新业务HTTP流，不属于任何已知的队列，则系统把它送往服务优先权最低的默认队列，并给管理员发送通知；由管理员审核后，根据网络业务的管理策略重置这一类Web业务的服务优先权；

4.根据权利要求3所述的实现Web业务细粒度分类与管理的系统，其特征在于所述步骤2)中对行为识别模型进行维护是对行为识别模型进行强化与更新，其实现方式为：当一个进入系统的HTTP流被认为是与已知Web业务行为模型匹配时，系统将把该HTTP的静态行为特征矢量序列保留在缓存中，作为该模型更新与强化的数据源，后台的模型更新程序在空闲时从指定缓存中读取该HTTP的静态行为特征矢量序列用于强化行为的数据，在线计算并更新该模型的参数；模型更新的算法采用HsMM训练的经典算法或快速参数估计法。

5.根据权利要求4所述的实现Web业务细粒度分类与管理的系统，其特征在于所述HsMM训练的经典算法为EM算法或前后向算法，快速参数估计法为前向递推法。

6.根据权利要求5所述的实现Web业务细粒度分类与管理的系统，其特征在于所述步骤2)还包括对未知Web业务进行细粒度分类与管理，其实现方式为：通过评估该未知Web业务相对各个已知Web业务的行为模型的拟合度来判断HTTP流是否属于已知的模型，如果不属于已知模型，则通过步骤13)至步骤16)构建新的Web业务的行为模型。

7.根据权利要求6所述的实现Web业务细粒度分类与管理的系统，其特征在于所述步骤2)还包括对多个新Web业务在同一时间出现进行的细粒度分类与管理，其实现方式为：第一步，将所有新Web业务的HTTP流视为同一个Web业务，构建一个共同的行为模型λ*，根据各个HTTP流相对λ*的拟合度统计特征分为多个子集，每一个子集对应一种新的Web业务类型；第二步,对每一个子集的HTTP流，采用步骤13)至步骤16)构建各个子集的行为模型。