CN114024912A

CN114024912A - 一种基于改造chameleon算法的网络流量应用识别分析方法及系统

Info

Publication number: CN114024912A
Application number: CN202111301648.9A
Authority: CN
Inventors: 范传庆; 吴冠标; 李新; 胡文波; 齐帅; 郭天瑞; 翟宏伟; 户志伟
Original assignee: Tianjin Guorui Digital Safety System Co ltd
Current assignee: Tianjin Guorui Digital Safety System Co ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-08

Abstract

本发明涉及一种基于改造CHAMELEON算法的网络流量应用识别分析方法及系统，所述一种基于改造CHAMELEON算法的网络流量应用识别分析方法包括：采集原始网络流量数据进行解析得到网络流量解析数据；利用所述网络流量解析数据识别分析网络流量应用，提升了识别的准确度，论证了流量特征属性特征值之间的联系，保证了实时性以及选取数据的代表性，权衡各个指标的要求以达到系统的总体性能最优化。

Description

一种基于改造CHAMELEON算法的网络流量应用识别分析方法及系统

技术领域

本发明涉及应用识别领域，具体涉及一种基于改造CHAMELEON算法的网络流量应用识别分析方法及系统。

背景技术

互联网中存在海量的应用，每个应用都有自己的流量行为特征，并且目前新的互联网应用还在不断涌现，如何从海量的互联网网络流量里准确的识别出使用者所使用的应用是一个非常值得研究的问题。现有的应用识别大多基于域名特征匹配，但这种方式局限性大，无法精准识别用户行为；另外基于机器学习的流量分类识别方法目前也是在逐步推广，他们很好的识别出用户行为，但是也存在其局限性；基于行为特征的流量分类识别方法从宏观角度对网络流量进行识别，通过分析各网络协议和网络应用映射到传输层的行为模式上的差异来进行相应网络流量的分类识别。由于此类方法的系统时空开销较大，识别实时性较差。

发明内容

针对现有技术的不足，本发明提出一种基于改造CHAMELEON算法的网络流量应用识别分析方法，包括：

采集原始网络流量数据进行解析得到网络流量解析数据；

利用所述网络流量解析数据识别分析网络流量应用。

优选的，所述采集原始网络流量数据进行解析得到网络流量解析数据包括：

采集原始网络流量数据后，对所述原始网络流量数据进行同源同宿、负载均衡处理，得到网络流量解析数据。

优选的，所述利用网络流量解析数据识别分析网络流量应用包括：

S1、利用网络流量解析数据获取网络流量解析数据对应的网络流量解析数据协议；

S2、利用所述网络流量解析数据协议判断网络流量应用识别基础特征库中是否存在与所述网络流量解析数据协议对应特征；

S3、若是，则直接识别，否则，利用所述网络流量解析数据基于多阶段层次聚类算法得到网络流量应用识别更新特征；

S4、将所述网络流量应用识别更新特征加入所述网络流量应用识别基础特征库，重复上述S2、S3步骤进行再次判断，直至在网络流量应用识别基础特征库中找到与所述网络流量解析数据协议对应特征。

进一步的，所述利用网络流量解析数据基于多阶段层次聚类算法得到网络流量应用识别更新特征包括：

利用网络流量解析数据获取网络流量解析数据的文本字符串与Hex字符串；

利用所述文本字符串与Hex字符串基于Levenshtein算法分别得到文本字符串相似度与Hex字符串相似度；

利用所述文本字符串相似度与Hex字符串相似度建立网络流量解析数据相似度矩阵；

利用所述网络流量解析数据相似度矩阵基于K临近法得到网络流量解析数据相似度高度簇；

利用所述网络流量解析数据相似度高度簇计算得到相对互联度；

利用所述网络流量解析数据相似度高度簇计算得到相对紧密度；

判断所述网络流量解析数据相似度高度簇对应的相对互联度与相对紧密度是否大于初始比对阈值，若是，则进行合并得到初始合并相似度高度子簇，否则，放弃处理；

利用所述初始合并相似度高度子簇基于Levenshtein算法得到初始合并相似度高度子簇的相似度；

利用所述初始合并相似度高度子簇的相似度建立初始合并相似度高度子簇的相似度矩阵；

利用所述初始合并相似度高度子簇的相似度矩阵基于K临近法得到二次合并相似度高度类簇；

利用所述二次合并相似度高度类簇进行合并得到网络流量应用识别更新特征。

进一步的，所述利用网络流量解析数据相似度高度簇计算得到相对互联度的计算式如下：

其中，|Ci|表示网络流量解析数据相似度高度簇i内数据点的个数；EC(Ci)表示网络流量解析数据相似度高度簇i内所有边的权重和；EC(Ci,Cj)表示跨越两个网络流量解析数据相似度高度簇的权重和。

进一步的，所述利用所述网络流量解析数据相似度高度簇计算得到相对紧密度的计算式如下：

进一步的，所述进行合并得到初始合并相似度高度子簇包括：

当所述相对互联度与相对紧密度均大于初始比对阈值的网络流量解析数据相似度高度簇数量不唯一时，选择相对互联度最高的网络流量解析数据相似度高度簇进行合并。

进一步的，所述网络流量应用识别基础特征库为基于基础应用的网络流量特征预先建立的集合。

基于同一发明构思，本发明还提供了一种基于改造CHAMELEON算法的网络流量应用识别分析系统，包括：

解析模块，用于采集原始网络流量数据进行解析得到网络流量解析数据；

分析模块，用于利用所述网络流量解析数据识别分析网络流量应用。

与最接近的现有技术相比，本发明具有的有益效果：

利用REFORM-CHAMELEON算法，在原型算法两阶基础上在增加两阶，三阶、四阶过程。三阶是对报文特征相似度在特定范围内的进行分类,再次采用K临近算法进行归类，四阶是对分类后的报文进行同源合并，该阶段会对如五元组类似的类别进行合并，并且生成符合相似度范围内的流量报文特征，归入归类特征库。通过分类、多阶汇聚、再分类精准识别互联网应用。

附图说明

图1是本发明提供的一种基于改造CHAMELEON算法的网络流量应用识别分析方法流程图；

图2是本发明提供的一种基于改造CHAMELEON算法的网络流量应用识别分析系统示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

本发明提供了一种基于改造CHAMELEON算法的网络流量应用识别分析方法，如图1所示，包括：

步骤1：采集原始网络流量数据进行解析得到网络流量解析数据；

数据接入：原始流量通过汇聚分流设备，做完同源同宿、负载均衡之后接入到应用识别设备；

原始数据解析：原始流量接入之后数据处于不可用状态，需要对原始数据进行归类解析。

步骤2：利用所述网络流量解析数据识别分析网络流量应用。

具体包括：

网络流量的协议类型识别是进行协议分析和网络管理的前提，识别相关的协议，针对不同的协议采用不同的特征规则匹配；

S4、将所述网络流量应用识别更新特征加入所述网络流量应用识别基础特征库，重复上述S2、S3步骤进行再次判断，直至在网络流量应用识别基础特征库中找到与所述网络流量解析数据协议对应特征；

特征库加载：根据协议类型选择加载相应的特征规则，识别应用。

所述利用网络流量解析数据基于多阶段层次聚类算法得到网络流量应用识别更新特征包括：

所述利用网络流量解析数据相似度高度簇计算得到相对互联度的计算式如下：

所述利用所述网络流量解析数据相似度高度簇计算得到相对紧密度的计算式如下：

所述进行合并得到初始合并相似度高度子簇包括：

所述网络流量应用识别基础特征库为基于基础应用的网络流量特征预先建立的集合。

本实施例中，一种基于改造CHAMELEON算法的网络流量应用识别分析方法，REFORM-CHAMELEON算法加载包括：

第一阶段：把原始流量分解成很多小的字符串并进行聚类：

1、构建整体数据集，解析输入数据流的特征字符串；

2、文本特征字符串进行截取，有效位可设定，当前设置为不足60字节全获取，多余60字节取前60个字节；

3、Hex字符串进行截取，有效位可设定，当前设置为不足60字节全获取，多余60字节取前60个字节；

4、文本特征字符串相似度比较采用Levenshtein算法对文本相似度进计算，用编辑距离表示字符串相似度,编辑距离越小，字符串越相似；

5、Hex字符串相似度比较采用Levenshtein算法对文本相似度进计算。用编辑距离表示字符串相似度,编辑距离越小，字符串越相似；

6、融合各种相似度计算结果加权生成相似度矩阵作为模型，生成相似度矩阵作为模型输入值进行下一步计算；

7、构造相似度矩阵,存放n个对象两两之间的邻近度,用一个n×n矩阵表示：

其中d(i，j)是对象i和对象j之间的相异性或“差别”的度量，一般而言，d(i，j)是一个非负的数值，对象i和j彼此高度相似或“接近”时，其值接近于0；而越不同，该值越大。

8、保存相似度矩阵，方便运算时直接调用，避免重复计算；

9、读取、加载相似度矩阵，使用K最邻近法进行第一次聚类，输出相似度高度簇。

第二阶段：根据相近程度合并簇：

1、计算相对互联度RI；

|Ci|表示簇i内数据点的个数；EC(Ci)表示簇i内所有边的权重和；EC(Ci,Cj)表示跨越两个簇的所有边的权重和。权重可设置范围稍大。

2、计算相对紧密度RC；

RC(Ci,Cj)＝(|Ci|+|Cj|)EC(Ci,Cj)/(|Cj|EC(Ci)+|Ci|EC(Cj)(1))

3、RI和RC都要满足大于指定阈值。若满足条件，则进行合并；若满足条件的子簇有多个，则选择RI最高的子簇进行合并。

4、输出疑似相似度高度的子簇。

第三阶段：二次采用K最邻近法进一步进行归类：

1、再次使用Levenshtein算法对子簇相似度进计算，权重范围缩小。

2、再次构造相似度矩阵；

3、保存相似度矩阵，方便运算时直接调用，避免重复计算；

4、读取、加载相似度矩阵；

5、使用K最邻近法进行第二次聚类，输出相似度高度类簇。

第四阶段：针对已分类的数据报文进行合并：

1、将五元组相同且时间范围相近的关联度高的类簇进行最后一次合并，输出相关特征规则。

实施例2：

一种基于改造CHAMELEON算法的网络流量应用识别分析系统，如图2所示，包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于改造CHAMELEON算法的网络流量应用识别分析方法，其特征在于，包括：

采集原始网络流量数据进行解析得到网络流量解析数据；

利用所述网络流量解析数据识别分析网络流量应用。

2.如权利要求1所述方法，其特征在于，所述采集原始网络流量数据进行解析得到网络流量解析数据包括：

3.如权利要求1或2所述方法，其特征在于，所述利用网络流量解析数据识别分析网络流量应用包括：

4.如权利要求3所述方法，其特征在于，所述利用网络流量解析数据基于多阶段层次聚类算法得到网络流量应用识别更新特征包括：

5.如权利要求4所述方法，其特征在于，所述利用网络流量解析数据相似度高度簇计算得到相对互联度的计算式如下：

6.如权利要求4所述方法，其特征在于，所述利用所述网络流量解析数据相似度高度簇计算得到相对紧密度的计算式如下：

7.如权利要求4所述方法，其特征在于，所述进行合并得到初始合并相似度高度子簇包括：

8.如权利要求3所述方法，其特征在于，所述网络流量应用识别基础特征库为基于基础应用的网络流量特征预先建立的集合。

9.一种基于改造CHAMELEON算法的网络流量应用识别分析系统，其特征在于，包括：