CN101605132B

CN101605132B - 一种网络数据流识别方法

Info

Publication number: CN101605132B
Application number: CN2009101086723A
Authority: CN
Inventors: 陈毅
Original assignee: Shenzhen Shenxinfu Electronic Technology Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2009-07-13
Filing date: 2009-07-13
Publication date: 2012-07-04
Anticipated expiration: 2029-07-13
Also published as: CN101605132A

Abstract

本发明涉及一种网络数据流识别方法，包括识别建立会话所属节点的识别状态；在所述识别状态基础上，分优先级特征识别所述节点的后续会话并更新所述识别状态。这种网络数据流识别方法，综合当前用户所产生数据流的组成结构，依据会话内和会话间的相关性，进行会话预测和弱规则匹配，提高了识别效率和未知会话识别率。

Description

一种网络数据流识别方法

技术领域

本发明涉及网络数据流鉴别，具体涉及一种可广泛应用于应用防火墙、入侵检测(IPS/IDS)、UTM、流控、流量优化等需要进行网络应用数据流识别的设备中网络数据流识别方法。

背景技术

网络数据流识别，就是对网络数据流所含信息量的充分利用，达到将其按所属应用协议进行分类标识，实现审计/控制/管理的目的。

数据流本身所含信息包括：源/目标地址，端口，协议号，这些基本的3层协议5元组特征，以及7层的数据内容，会话时长，会话流量，会话包间时延等等；在此基础上，本文提出了会话内前后数据包之间相关性和会话间相关性两个概念，并据此对传统的应用识别方法进行扩展。

目前防火墙，IPS/IDS，流量控制/流量优化等设备对于网络数据流的识别仅限于3层协议特征和7层数据的数字签证，一般的数字签证就是搜集应用数据流的特征码，在设备上对所有网络数据流进行特征匹配，匹配状态只能由一个集合转换到其子集，而无法在多个集合之间进行有状态记忆地自由切换，其行为类似于杀毒软件的扫描过程，以数据内容特征为例，具体如图1所示，集合＝>子集：网络数据流实际上就是一连串的数据包，这串数据包又可分为收发两个方向，即：数据包是被会话“串起来”进行传输，所以数据包必须在会话的逻辑内维持一定的顺序，正向：A后面是B，C，D...。逆向：A’，B’，C’...。；会话内数据包之间的相关性可以体现在：如果A包含特征S1，A’或是后续B/B’...包含特征S2，则可以说：会话具有S1特征，并且后续包具有S2特征，则该会话为应用X，这样就可将分散在各个数据包中的特征值聚合起来。一方面可提供更加丰富的特征选择，其次还可以实现同一会话，不同识别结果的状态转换，从而达到细化应用识别结果的目的，比如：迅雷是一款基于HTTP协议的下载工具，但其对HTTP协议做了”私有化”的扩展，根据签证S1能确定当前数据流是HTTP协议，而通过后面的数据特征S2，S3...方可进一步可将其识别为迅雷所发起的“私有”HTTP协议。这就是已知的集合到其子集的转换。然而不同于存储在本地磁盘的文件，网络数据流因其传输过程中的编码，封装，甚至是加密处理，使其具有更多的不确定性。如：应用软件都有其私有协议，对私有协议的分析和跟踪属“黑盒”操作，当应用软件发生版本更新，原有的特征值就可能失效，需要更新识别特征值，且某些私有协议为了躲避识别和受控制，进行了特殊的伪装或加密处理，这样就进一步加大了仅仅通过特征值来识别的难度，也提升了错误识别的风险。所以单纯依赖数字签证的传统方法存在规则维护代价高，运算效率低，识别率低，识别精确度/细粒度不够等问题。

发明内容

本发明需要解决的技术问题是，如何提供一种网络数据流识别方法，能较传统方法提高识别效率和精确度。

本发明技术问题这样解决，构建一种网络数据流识别方法，其特征在于，包括以下步骤：

1.1)识别建立会话所属节点的识别状态；

1.2)在所述识别状态基础上，分优先级识别所述节点的后续会话并更新所述识别状态；所述分优先级识别包括：最先匹配与所述识别状态相关、在任何状态下都起作用的强限定条件的规则集；其次再匹配与所述识别状态不相关、在任何状态下都起作用的强限定条件的规则集；最后匹配与所述识别状态相关、仅在特定状态下起作用的弱限定条件的规则集；其中：若在先匹配成功，则不进行后续匹配。

按照本发明提供的网络数据流识别方法，所述识别包括但不限制于行为特征识别和数据内容特征识别。

按照本发明提供的网络数据流识别方法，所述识别状态在建立或更新后设定时间内有效，否则失效。

按照本发明提供的网络数据流识别方法，所述分优先级识别包括首先匹配与所述识别状态相关的规则集。

按照本发明提供的网络数据流识别方法，该方法还包括：在与所述识别状态相关、仅在特定状态下起作用的弱限定条件的规则集匹配成功后，判断识别结果的可靠性。

按照本发明提供的网络数据流识别方法，所述弱限定条件包括特定状态识别信息。

按照本发明提供的网络数据流识别方法，所述节点是用户或服务器。

本发明提供的网络数据流识别方法，通过对识别状态的记录和更新，综合当前用户所产生数据流的组成结构，依据会话内和会话间的相关性，进行会话预测或弱规则匹配，达到提高应用识别效率和未知会话识别率目的。

附图说明

下面结合附图和具体实施例进一步对本发明进行详细说明。

图1是传统网络数据流识别示例流程示意图；

图2是本发明网络数据流识别方法流程示意图；

图3是本发明方法中规则间关联性示意图；

图4是本发明方法应用一流程示意图；

图5是本发明方法应用二流程示意图；

图4是本发明方法应用三流程示意图。

具体实施方式

首先，说明本发明方法：

如图2所示，在本发明网络数据流识别方法中，节点(包括用户和服务器)除采用传统普通规则集进行匹配外，还采用已知应用相关规则集进行优先匹配和采用相关弱规则进行补充匹配。

如图3所示，在本发明网络数据流识别方法中，依赖于应用A识别状态识别规则的特殊规则可以完成同一会话识别状态间的迁移，识别A应用识别状态的普通规则及其特殊规则统称A应用的相关规则集A{...}，而依赖应用A识别状态全部规则集的“弱规则集a{...}”，就是根据节点已知存在应用A，来猜测此节点相关的未知会话是否为A应用的匹配条件集。它们之间相互依附，例如：对该会话使用弱规则集a{...}匹配的前提是：1.该会话前几包数据进行A应用的相关规则集A{...}匹配后无法识别。2.肯定该会话所属节点，在这段时间内已存在应用A的会话。其中：“弱”规则就是一些更为简单的限定条件，但使用它们的前提是，确定节点当前一段时间内的数据流含有他们所依赖的已知应用。如：已知节点N1是服务S1的服务器，那么和S1相关的“弱”规则就可定义为：“与已知S1的会话具有相同目的IP&PORT”，这样一来，到N1无法精确定义的会话，都可根据这条弱规则来定义成S1的会话。

第二步，以数据内容特征识别为例，说明本发明应用：

(一)有状态的集合<＝>集合：

某些协议会出现复杂的状态转换，基于传统的数字签证利用上面所描述的集合到子集单向转换就很难实现对其识别/控制。在基于会话内数据包相关性的考虑之后，就可以完成识别结果的状态转换，从而对其不同状态使用不同的控制策略。例如：MSN传文件时偶尔存在的一种转换过程，如图4所示，在“MSN消息”的识别状态基础上识别“MSN传文件”状态，当传文件过程结束后又可回到MSN发消息状态。

(二）智能有据推理和应用版本更新自动适应：

同种应用一般存在多种类型的会话，某些是容易识别，另一些可能较难识别，仅有为数不多的几个特征，这些特征如果直接使用，存在较高的误判风险，不使用就无法识别该会话，一定程度造成特征资源未被充分利用。

首先：会话预测与弱规则匹配，可以用来预测某用户这段时间内可能产生的会话类型，大多数应用会产生很多会话，如果能根据已知某一个会话断定此用户在使用该应用，那么来自于此用户的其它会话可以优先匹配和该应用相关的识别规则，以提高效率和减少误判；如图5所示，这一特性也可用来提高单个应用含多种复杂会话时的应用识别率，假如通过前面的数字签证+会话内部相关性已确定某个用户U1在某个时间段T1内，存在应用A的会话s1，而已知A存在其它会话s2，s3...，且s2的特征较”弱”，不便于直接识别。而在已知s1存在的前提下，s2的”弱”特征就可仅用于对用户U1的其它未知会话(包含s2，s3...)进行识别了，从而极大地提高了应用识别率。

(三)应用服务器的识别：

如图6所示，通过前面的数字签证+内部相关性能确定出应用A多个版本中，某一版本的会话s1，记录下其服务器地址ip1，端口号p1，p2...，如果应用A的s1属于Client/Server或P2SP中的P2S类型会话；那么内网中其它用户使用A应用的其它版本，会话到该ip1，ip2...的未知会话就可以进行应用A其它版本的”弱”特征会话s2，s3，...匹配。甚至相同地址和端口号这一特征即可直接确定该会话所属应用类型。

比如：QQ具有2006，07，08...等多个版本，但是只需要识别出任意一个版本，即可取得一份QQ的服务器地址&端口列表，其它到该服务器&端口的会话可优先匹配QQ相关规则，而未知的会话，也可通过这份服务器地址列表与弱规则匹配来做进一步确认。

最后，说明本发明的具体实现：

第一步：实现一个数值签证鉴别功能模块，对数据流按照规则进行模式匹配，如：匹配数据包内偏移多少字节后，取当前值等于xxx，或是数据包内某个范围内搜索能够得到xxxxxx...，或是数据包倒数多少字节等于xxxx；最简单的实现就是使用多模式匹配的方式直接进行数据流搜索。

第二步：实现一个或是利用现有的会话跟踪系统，记录下每个会话的识别状态，每个数据包通过之后，根据匹配的结果，更新会话识别状态。

第三步：实现一个基于用户的可快速检索库(基于ip的hash表)，将能被再次利用的识别结果保存起来；

比如：已知用户U1存在应用A1，则将U1存起来，后续对于U1的新建连接优先匹配在U1处已存在并可预测的规则集合；对于因特征不明显，而未能识别的会话可使用与A1相关的”弱”规则继续匹配；以上对于U1应用A1所存的信息具有时间T1的有效性限制，当超过T1而无A1的数据活动后，该存储节点将被清除。

再如：有QQ服务器Server1被记录下来后，其它到该服务器的未知会话都可以优先使用QQ的”弱”规则继续匹配了，一般而言服务器识别结果的超时时间T2都比较长。

最后一步，就是需要人工参与的规则制定了，规则包括数字签证的匹配条件，包含传统规则和本发明弱规则，传统规则中多条规则配合实现会话内的相关性利用，会话内的识别状态转换，以及规则的识别结果可指定：源地址是否做会话间相关性的源地址记录，或目标服务器记录。并同时制定另一些依赖这些识别结果的“弱”规则。

以上所述仅为本发明的较佳实施例，凡依本发明权利要求范围所做的均等变化与修饰，皆应属本发明权利要求的涵盖范围。

Claims

1.一种网络数据流识别方法，其特征在于，包括以下步骤：

1.1)识别建立会话所属节点的识别状态；

1.2)在所述识别状态基础上，分优先级识别所述节点的后续会话并更新所述识别状态；所述分优先级识别包括：最先匹配与所述识别状态相关、在任何状态下都起作用的强限定条件的规则集；其次再匹配与所述识别状态不相关、在任何状态下都起作用的强限定条件的规则集；最后匹配与所述识别状态相关、仅在特定状态下起作用的弱限定条件的规则集；其中：

若在先匹配成功，则不进行后续匹配。

2.根据权利要求1所述网络数据流识别方法，其特征在于，所述识别是数据内容特征识别或行为特征识别。

3.根据权利要求1所述网络数据流识别方法，其特征在于，所述识别状态在建立或更新后设定时间内有效，否则失效。

4.根据权利要求1所述网络数据流识别方法，其特征在于，该方法还包括：在与所述识别状态相关、仅在特定状态下起作用的弱限定条件的规则集匹配成功后，判断识别结果的可靠性。

5.根据权利要求4所述网络数据流识别方法，其特征在于，所述弱限定条件包括特定状态识别信息。

6.根据权利要求1所述网络数据流识别方法，其特征在于，所述节点是用户或服务器。