CN111131070A

CN111131070A - 一种基于端口时间序列的网络流量分类方法、装置及存储介质

Info

Publication number: CN111131070A
Application number: CN201911317876.8A
Authority: CN
Inventors: 肖梅; 陈陆颖; 李现强; 齐凯
Original assignee: Haohan Data Technology Co ltd
Current assignee: Haohan Data Technology Co ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-08
Anticipated expiration: 2039-12-19
Also published as: CN111131070B

Abstract

本发明提供了一种基于端口时间序列的网络流量分类方法，所述基于端口时间序列的网络流量分类方法包括如下步骤：接收未知流量；确定未知流量的来源端口；获取来源端口的流量特征；统计来源端口的开始时间；统计来源端口的每个用户IP所访问的域名及次数；计算每个来源端口的域名计算加权值，并确定每个来源端口的关联域名；确定每个来源端口关联域名的流量业务；确定流量业务的实际流量；对比实际流量与未知流量，确定分类结果。本发明能够识别现有网路中存在着大量的未知流量，解决通过普通TCP(Transmission Control Protocol，传输控制协议)、普通UDP(User Datagram Protocol，用户数据报协议)传输的流量没有净荷信息，缺乏统一规律，难以从数据本身分析出该流量所对应的流量业务的问题。

Description

一种基于端口时间序列的网络流量分类方法、装置及存储介质

技术领域：

本发明涉及网络流量管理技术领域，具体的，涉及一种基于端口时间序列的网络流量分类方法、装置及存储介质。

背景技术：

在当今这个信息的时代里，随着通讯设备的不断普及、通讯传输手段的不断升级，互联网与个人终端的数据交流的量级也呈指数式增长，越来越大的云端服务器规模、越来越大的网络设备量级成为了现在各大网络公司的标配。因此，高效且准确的对互联网上所流通的流量进行监控，在互联网用户量激增的情况下，具有显著的实际使用意义，能够及时的定位流量的产生设备及流量流通路径。

现有的网络流量分类方法中，常用DPI(Deep Packet Inspection，深度包检测)、DFI(Deep/DynamicFlow Inspection，深度/动态流检测)技术，为了能将网络流量分类工作自动化，国内外研究人员对流量分类方法做了大量研究，有基于机器学习的流量分类方法、基于行为分析的流量分类方法、基于贝叶斯的流量分类方法、基于聚类的流量分类方法、基于数据挖掘的流量分类方法、半监督流量分类方法。但是这些方法首先要求要具备一个完备的样本库，才可进行后续的机器学习来识别网络流量。这个完备的样本库，首先要对现有的各种会产生流量的网络通信业务都做准确的分析、特征提取、样本分类，这需要庞大的工作量。其次，这些方法对未知流量无法进行分类，然而在现有网络中存在着大量的未知流量需要分类。所以本领域中需要一种对现有网络中的未知流量的分类，提出的一种解决方法，且不需具备样本库，在获取到未知流量后，经过该方法的处理，得到一个分类结果。

因此，本领域亟需一种基于端口时间序列的网络流量分类方法、装置及存储介质。

有鉴于此，提出本发明。

发明内容：

有鉴于此，本发明的目的在于提供一种具有更好网络流量分类效果的基于端口时间序列的网络流量分类方法、装置及存储介质，以解决现有技术中的至少一项技术问题。

具体的，本发明的第一方面，提供了一种基于端口时间序列的网络流量分类方法，所述基于端口时间序列的网络流量分类方法包括如下步骤：

接收未知流量；

确定未知流量的来源端口；

获取来源端口的流量特征；

统计来源端口的开始时间；

统计来源端口的每个用户IP所访问的域名及次数；

计算每个来源端口的域名计算加权值，并确定每个来源端口的关联域名；

确定每个来源端口关联域名的流量业务；

确定流量业务的实际流量；

对比实际流量与未知流量，确定分类结果。

采用上述方案，能够识别现有网路中存在着大量的未知流量，解决通过普通TCP(Transmission Control Protocol，传输控制协议)、普通UDP(User Datagram Protocol，用户数据报协议)传输的流量没有净荷信息，缺乏统一规律，仅能看到一串串的十六进制的数字，难以从数据本身核对、分析出该流量所对应的流量业务的问题。其次，通过未知流量在服务器一端较为固定的特性，以服务器侧端口为切入点先对未知流量粗粒度分类，并按照分析流程，对未知流量进行精细归类，有效降低现网中的未知流量占比，提高网络流量的识别率，更有效的服务于网络流量的可管可控工作，其三，不需要提前准备完备的样本库，优化了现有识别方法的流程架构，有效降低了识别方法前期的工作量，提高识别效率及识别质量。

优选地，所述确定未知流量的来源端口步骤前还包括步骤输入筛选时间范围，所述筛选时间范围为筛选取用流量的区间。

进一步地，所述输入筛选时间范围步骤后还包括步骤筛选出时间范围内的未知流量，并按照流量大小将数据来源端口排序，采用上述方案，能够显著将提高本发明对未知流量的处理效率，保证对数据量大的未知流量进行优先处理，快速释放处理占用的处理地区，提高分类效率及分类质量。

优选地，所述获取来源端口的流量特征步骤前还包括步骤根据来源端口分别获取流量样本，所述流量样本用于留存来源端口的原始数据。

优选地，所述统计来源端口的开始时间步骤中，所述开始时间为来源端口中的五元组的开始时间。

优选地，所述统计来源端口的每个用户IP所访问的域名及次数步骤前还包括步骤输入阈值时长，所述阈值时长用于确定筛选的范围及数量级。

进一步地，所述统计来源端口的每个用户IP所访问的域名及次数步骤中，所述统计来源端口为统计阈值时长内的每个用户IP所访问的域名及次数。

优选地，所述计算每个来源端口的域名计算加权值，并确定每个来源端口的关联域名步骤中，所述域名计算加权值为确定每个来源端口与域名的关联性，能够确定每个来源端口中关联性最大的域名，并将其确定为该域名为来源端口的代表域名，采用上述方案，能够去除各个来源端口的杂音，迅速确定来源端口具有实际使用效果的域名，提高本发明的识别效率及识别准确率。

优选地，所述确定每个来源端口关联域名的流量业务步骤中，所述流量业务为具体的业务类型。

优选地，所述对比实际流量与未知流量，确定分类结果步骤中，当所述实际流量与未知流量相同时，将之前提取的流量特征归属为对应的流量业务，并完成识别该种未知流量的流程；当所述实际流量与未知流量不相同时，将本端口标记为不适用本方法分析的端口，并完成识别该种流量的流程。

进一步地，所述对比实际流量与未知流量，确定分类结果步骤中，所述未知流量为样本流量。

本发明的第二方面，提供了一种用于网络流量分类的装置，所述用于网络流量分类的装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

本发明的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法。

综上所述，本发明具有以下有益效果：

1.本发明能够识别现有网路中存在着大量的未知流量，解决通过普通TCP(Transmission Control Protocol，传输控制协议)、普通UDP(User Datagram Protocol，用户数据报协议)传输的流量没有净荷信息，缺乏统一规律，仅能看到一串串的十六进制的数字，难以从数据本身核对、分析出该流量所对应的流量业务的问题；

2.本发明通过未知流量在服务器一端较为固定的特性，以服务器侧端口为切入点先对未知流量粗粒度分类，并按照分析流程，对未知流量进行精细归类，有效降低现网中的未知流量占比，提高网络流量的识别率，更有效的服务于网络流量的可管可控工作；

3.本发明不需要提前准备完备的样本库，优化了现有识别方法的流程架构，有效降低了识别方法前期的工作量，提高识别效率及识别质量；

4.本发明能够去除各个来源端口的杂音，迅速确定来源端口具有实际使用效果的域名，提高本发明的识别效率及识别准确率。

附图说明：

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于端口时间序列的网络流量分类方法的流程图。

具体实施方式：

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

以下将通过实施例对本发明进行详细描述。

本申请实施例通过提供基于端口时间序列的网络流量分类方法、装置及存储介质，解决了现有技术中的至少一项技术问题，达到了对未知流量进行识别的技术效果。

本申请实施例的技术方案为解决上述技术问题，总体思路如下：

接收未知流量；

确定未知流量的来源端口；

获取来源端口的流量特征；

统计来源端口的开始时间；

统计来源端口的每个用户IP所访问的域名及次数；

确定每个来源端口关联域名的流量业务；

确定流量业务的实际流量；

对比实际流量与未知流量，确定分类结果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

在本发明的一些优选的实施方式中，所述接收未知流量为在现有网络中有很大占比的未知流量，这些未知流量通常为无序流量，没有像http(Hyper Text TransferProtocol，超文本传输协议)、https(over Secure Socket Layer，以安全为目标的HTTP通道)流量的明文信息，仅能看到乱码或者数字串，如88c97a0f6f00044c22b5ab7edale7385ec3f528b6d0ab1faba；

5618aae8418b1cf9de38228e5992a86e418be4dc66211c8fa43；

12c97af6fee44c241d5c11ea48f1421d8542874b8a7bf8b；

88c97a8f6f044c25dbe2fcfc785891878d7c38236315ebcc；

88c97a8f6f0044c231c2ade25697a25242284fab8c4baf7e8；

3201eeaa990600180071b25d93c0030a000100000000bc0600。

在具体实施过程中，所述确定未知流量的来源端口步骤前还包括步骤输入筛选时间范围，所述筛选时间范围为筛选取用流量的区间，通过设置筛选时间范围能够通过未知流量的时间属性，更好的拆分未知流量，将未知流量通过时间属性排序。

在本发明的一些优选的实施方式中，所述输入筛选的时间范围，如5分钟。

在具体实施过程中，所述输入筛选时间范围步骤后还包括步骤筛选出时间范围内的未知流量，并按照流量大小将数据来源端口排序，采用上述方案，能够显著将提高本发明对未知流量的处理效率，保证对数据量大的未知流量进行优先处理，快速释放处理占用的处理地区，提高分类效率及分类质量。

在具体实施过程中，所述获取来源端口的流量特征步骤前还包括步骤根据来源端口分别获取流量样本，所述流量样本用于留存来源端口的原始数据，所述流量样本的设置能够便于后续步骤中比对工作的进行。

在本发明的一些优选的实施方式中，所述根据来源端口分别获取流量样本步骤中，分别获取，如PortA、portB、portC、portD、PortE、portF、portG、portH、portI、portJ等端口的流量，分别保存在不同的文件中，如PortA.pcap、portB.pcap、portC.pcap、portD.pcap、PortE.pcap、portF.pcap、portG.pcap、portH.pcap、portI.pcap、portJ.pcap。

在本发明的一些优选的实施方式中，所述获取来源端口的流量特征步骤为采用DPI技术对每个端口的流量提取特征，将每个端口的报文分类，一个端口分为一类或多个类别。

如，portA分2个类别：

ptnA1:tcp.port＝＝portA&&tcp.data[0:4]＝＝fe:01:19:4a；

ptnA2:tcp.port＝＝portA&&tcp.data[0:5]＝＝09:00:3e:**:00。

portB分1个类别：

ptnB1：udp.port＝＝portB&&udp.data[3:4]＝＝16:19:0d:01。

在具体实施过程中，所述统计来源端口的开始时间步骤中，所述开始时间为来源端口中的五元组的开始时间，所述五元组包括源IP、源端口、目的IP、目的端口、协议(TCP/UDP)。

在具体实施过程中，所述统计来源端口的每个用户IP所访问的域名及次数步骤前还包括步骤输入阈值时长，所述阈值时长用于确定筛选的范围及数量级，所述阈值时长小于入筛选时间范围。

在具体实施过程中，所述统计来源端口的每个用户IP所访问的域名及次数步骤中，所述统计来源端口为统计阈值时长内的每个用户IP所访问的域名及次数。

在本发明的一些优选的实施方式中，所述统计来源端口的每个用户IP所访问的域名及次数步骤为统计每个来源端口对应的每个用户ip在产生未知流量前的△t(如[t1-△t，t1])时间内访问的所有域名及次数，如△t取1s，在开始时间前1s内，统计每个用户ip访问的所有域名及次数。

表1 PortA端口开始时间前1s内每个用户ip访问的所有域名及次数

在具体实施过程中，所述计算每个来源端口的域名计算加权值，并确定每个来源端口的关联域名步骤中，所述域名计算加权值为确定每个来源端口与域名的关联性，能够确定每个来源端口中关联性最大的域名，并将其确定为该域名为来源端口的代表域名，采用上述方案，能够去除各个来源端口的杂音，迅速确定来源端口具有实际使用效果的域名，提高本发明的识别效率及识别准确率。

在本发明的一些优选的实施方式中，根据筛选时间范围确定识别的未知流量，根据未知流量确定的五元组信息，然后根据五元组信息及阈值时长扩大时间范围，然后分析每个五元组的用户侧IP在开始时间前的阈值时长内访问过的域名及次数，应用TF-IDF加权技术对每个来源端口计算到的域名计算加权值，TF＝目标域名在来源端口的通信活动中出现次数/来源端口中所有域名出现总次数，IDF＝lg(来源端口总数量/出现目标域名的来源端口数量)，来源端口中目标域名的加权值＝TF*IDF，取每个来源端口中TF*IDF值最高的目标域名，作为该来源端口未知流量的关联域名。

在本发明的一些优选的实施方式中，所述计算每个来源端口的域名计算加权值，并确定每个来源端口的关联域名步骤为计算TF-IDF加权值能够有效去除噪音数据，如PortA统计的各个域名的TF-IDF中，mazu.3g.qq.com值远低于其他域名，即认为mazu.3g.qq.com是噪音数据，是用户终端的背景流量，不作为怀疑对象。

表2 PortA端口开始时间前1s内每个用户ip访问的所有域名的TF-IDF值

端口	域名	TF-IDF
			PortA	mobilelog.kugou.com	0.06
PortA	Inge.kugou.com	0.05
			PortA	Knrcdn.service.kugou.com	0.02
PortA	kgmobilestat.kugou.com	0.04
			PortA	ads.service.kugou.com	0.05
PortA	tools.nobilekugou.com	0.06
			PortA	Collect.kugou.com	0.05
PortA	log.web.kugou.com	0.04
			PortA	mazu.3g.qq.com	0.00
PortA	adsfile.bssdlbig.kugou.com	0.04
			PortA	fs.android.kugou.com	0.03
PortA	song.fanxing.kugou.com	0.03
			PortA	update.mobile.kugou.com	0.03

在具体实施过程中，所述确定每个来源端口关联域名的流量业务步骤中，所述流量业务为具体的业务类型。

在本发明的一些优选的实施方式中，所述确定每个来源端口关联域名的流量业务步骤中，根据上述统计的域名及TF-IDF值，调研.kugou.com归属酷狗音乐APP。

在本发明的一些优选的实施方式中，所述确定流量业务的实际流量步骤为拨测酷狗音乐，获取实际流量值。

在具体实施过程中，所述对比实际流量与未知流量，确定分类结果步骤中，当所述实际流量与未知流量相同时，将之前提取的流量特征归属为对应的流量业务，并完成识别该种未知流量的流程；当所述实际流量与未知流量不相同时，将本端口标记为不适用本方法分析的端口，并完成识别该种流量的流程，在本发明的一些优选的实施方式中，所述对比实际流量与未知流量，确定分类结果步骤中，所述未知流量为样本流量。

基于同一发明构思，本发明提供了一种用于网络流量分类的装置，所述用于网络流量分类的装置包括：

存储器；

处理器；

存储在存储器上并可在处理器上运行的计算机程序，所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的识别方法。

基于同一发明构思，本发明提供了一种存储介质，所述存储介质包括一个或多个程序，所述一个或多个程序可以被处理器执行以完成上述的扫描方法。

综上所述，本发明能够识别现有网路中存在着大量的未知流量，解决通过普通TCP(Transmission Control Protocol，传输控制协议)、普通UDP(User Datagram Protocol，用户数据报协议)传输的流量没有净荷信息，缺乏统一规律，仅能看到一串串的十六进制的数字，难以从数据本身核对、分析出该流量所对应的流量业务的问题；本发明通过未知流量在服务器一端较为固定的特性，以服务器侧端口为切入点先对未知流量粗粒度分类，并按照分析流程，对未知流量进行精细归类，有效降低现网中的未知流量占比，提高网络流量的识别率，更有效的服务于网络流量的可管可控工作；本发明不需要提前准备完备的样本库，优化了现有识别方法的流程架构，有效降低了识别方法前期的工作量，提高识别效率及识别质量；本发明能够去除各个来源端口的杂音，迅速确定来源端口具有实际使用效果的域名，提高本发明的识别效率及识别准确率。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解，本申请实施例中，从权、各个实施例、特征可以互相组合结合，都能实现解决前述技术问题。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于端口时间序列的网络流量分类方法，其特征在于：所述基于端口时间序列的网络流量分类方法包括如下步骤：

接收未知流量；

确定未知流量的来源端口；

获取来源端口的流量特征；

统计来源端口的开始时间；

统计来源端口的每个用户IP所访问的域名及次数；

确定每个来源端口关联域名的流量业务；

确定流量业务的实际流量；

对比实际流量与未知流量，确定分类结果。

2.根据权利要求1所述基于端口时间序列的网络流量分类方法，其特征在于：所述确定未知流量的来源端口步骤前还包括步骤输入筛选时间范围，所述筛选时间范围为筛选取用流量的区间。

3.根据权利要求2所述基于端口时间序列的网络流量分类方法，其特征在于：所述输入筛选时间范围步骤后还包括步骤筛选出时间范围内的未知流量，并按照流量大小将数据来源端口排序。

4.根据权利要求1所述基于端口时间序列的网络流量分类方法，其特征在于：所述获取来源端口的流量特征步骤前还包括步骤根据来源端口分别获取流量样本，所述流量样本用于留存来源端口的原始数据。

5.根据权利要求1所述基于端口时间序列的网络流量分类方法，其特征在于：所述统计来源端口的开始时间步骤中，所述开始时间为来源端口中的五元组的开始时间。

6.根据权利要求1所述基于端口时间序列的网络流量分类方法，其特征在于：所述统计来源端口的每个用户IP所访问的域名及次数步骤中，所述统计来源端口为统计阈值时长内的每个用户IP所访问的域名及次数。

7.根据权利要求1-6任一种所述基于端口时间序列的网络流量分类方法，其特征在于：所述对比实际流量与未知流量，确定分类结果步骤中，当所述实际流量与未知流量相同时，将之前提取的流量特征归属为对应的流量业务，并完成识别流程；当所述实际流量与未知流量不相同时，将本端口标记为不适用本方法分析的端口，并完成识别流程。

8.根据权利要求7所述基于端口时间序列的网络流量分类方法，其特征在于：所述对比实际流量与未知流量，确定分类结果步骤中，所述未知流量为样本流量。

9.一种用于网络流量分类的装置，其特征在于：所述用于网络流量分类的装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-8任一种所述的基于端口时间序列的网络流量分类方法。

10.一种计算机可读存储介质，其特征在于：其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-8任一种所述的基于端口时间序列的网络流量分类方法。