CN114301636A - 基于流量多尺度时空特征融合的vpn通信行为分析方法 - Google Patents

基于流量多尺度时空特征融合的vpn通信行为分析方法 Download PDF

Info

Publication number
CN114301636A
CN114301636A CN202111512757.5A CN202111512757A CN114301636A CN 114301636 A CN114301636 A CN 114301636A CN 202111512757 A CN202111512757 A CN 202111512757A CN 114301636 A CN114301636 A CN 114301636A
Authority
CN
China
Prior art keywords
flow
time
vpn
vpn communication
session
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111512757.5A
Other languages
English (en)
Inventor
陈浩
刘伟伟
蒋伟
权迎雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111512757.5A priority Critical patent/CN114301636A/zh
Publication of CN114301636A publication Critical patent/CN114301636A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于流量多尺度时空特征融合的VPN通信行为分析方法,该方法包括:1)按照五元组信息将待处理的连续流量切分为多个会话流量并进行流量匿名化和服务类型标记;2)提取会话流量转化为相应灰度图像;3)提取会话流量有向负载长度序列、包间时延序列等流量信息;4)提取会话流量多维度统计特征信息;5)将提取多尺度特征信息输入多通道网络模型进行流量服务类型识别;6)结合流持续时间、检测时间等生成具有时间属性的VPN流量行为语义;7)基于连续多流的行为画像。该方法能够有效实现VPN流量行为语义提取,有利于对网络进行有效监管以及VPN用户行为分析。

Description

基于流量多尺度时空特征融合的VPN通信行为分析方法
技术领域
本发明属于网络安全技术领域,特别是一种基于流量多尺度时空特征融合的VPN通信行为分析方法。
背景技术
随着互联网的高速发展,人们对通信安全的日益重视,越来越多的加密流量出现在网络中。加密流量服务类型识别,特别是实时VPN加密流量识别,是IP流量识别中一项重要而富有挑战性的任务,因此研究VPN通信流量识别具有重要的现实意义。
虚拟专用网络(Virtual Private Network,VPN)为代表的加密隧道技术在商业和个人通用场景中当前均有着广泛应用,各类大型企业通常会建立自身的VPN以供远程协同办公使用。由于加密隧道提供的加密代理功能,对其流量服务类型进行识别也有着重要的现实意义。通过对VPN通信流量的连续监管,可以基于其流量的时间属性对VPN用户进行行为画像,将抽象的流量表达为更直观的行为语义。
目前对于VPN加密流量识别主要通过机器学习、深度学习的方式。基于人工知识引导与特征筛选机制,从包级别、流级别、会话级别选择多维统计信息或利用流量原始字节对隧道流量进行不同形式的表征,采用传统机器学习、卷积神经网络和循环神经网络等进行特征的提取完成分类任务。单一尺度的流量表征并不能很好的适应网络流量的异构性,加密隧道的重新封装与网络的波动也都会导致统计信息的失效,这些因素导致当前识别任务存在识别粒度较粗,复杂环境下鲁棒性较低等问题。
发明内容
针对现有技术的缺陷,本发明提出一种基于流量多尺度时空特征融合的VPN通信行为分析方法,用以实现对VPN通信流量进行服务类型识别以及行为语义的生成。
实现本发明目的的技术解决方案为:一种基于流量多尺度时空特征融合的VPN通信行为分析方法,包括:
将待处理的连续流量切分为多个会话流量,进行流量匿名化和服务类型标记;
提取会话流量固定字节数信息,并转化为二维灰度图像;
提取会话流量有向负载长度序列、包间时延序列构成时空序列特征向量;
提取会话流量多维度统计特征信息;
将提取的流量多尺度时空特征信息输入多通道网络模型进行训练,通过特征融合学习进行服务类型的识别;
结合流持续时间、检测时间,生成具有时间属性的VPN通信行为语义;
基于连续多流的行为语义进行VPN用户行为画像。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于流量多尺度时空特征融合的VPN通信行为分析方法。
与现有技术相比,本发明的显著优点为:本发明在对加密流量内容不进行解析的情况下,对VPN加密流量进行精细化识别并获取用户连续行为语义;本发明基于对VPN加密流量的行为模式特性以及流量时空特征分析,设计了利用原始流量信息、负载序列、包时延序列、多维度流量统计信息等多尺度流量时空特征进行多通道融合学习,提高服务类型识别的准确性和不同网络环境的鲁棒性。同时通过对VPN用户流量的持续捕获提取该VPN用户的行为语义,将抽象的VPN加密流量表达为更直观的行为语义,有利于对VPN用户行为做出合理监管,保证网络安全。
附图说明
图1为本发明基于流量多尺度时空特征融合的VPN通信行为分析方法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的整体流程图如图1所示,所述方法的具体步骤细节描述为:
(1)数据集的构造:利用自动化脚本对产生多种服务类型VPN通信流量进行抓取,或利用某些科研机构公开VPN流量数据集进行模型训练。
根据连续流量根据源IP地址、目的IP地址、源端口、目的端口、协议五元组切分为多个会话流量。考虑到数据集单一MAC地址和IP地址在服务类型识别时发生过拟合现象,将会话流量屏蔽地址匿名化后进行服务类型标记。
(2)模型输入数据预处理:
1)提取会话流量的一维流量编码转换为二维灰度图像,图像尺寸为30*30。
CNN通道要求输入尺寸为固定值,按要求截取会话流量前900字节数据;其中对于会话长度小于900字节的情况,在流量后用0x00补全。
2)提取会话流量有向负载长度序列、包间时延序列等流量信息构成时空序列特征向量。其中根据数据包方向标记正负;标记客户端到服务器为上行,上行为正,服务器到客户端为下行,下行为负;
TCN通道要求输入尺寸为固定值,按要求截取会话流量前300个双向数据包负载、时延序列,构成2*300的时空序列。
3)提取会话流量多维度统计特征信息方法为:根据人工流量分析经验和VPN流量特性,分别从时间、空间两个维度提取28种统计特征。具体如下表所示:
表1
Figure BDA0003405411080000031
Figure BDA0003405411080000041
(3)用于实现VPN通信服务类型识别的多通道神经网络:将上述提取出的流量多尺度时空特征信息分别输入到卷积神经网络、时间卷积网络、堆叠式自动编码器中进行多通道特征提取,并将三通道提取出的特征融合为新的高维度特征并利用softmax分类器进行流量服务类型的识别。
1)通道1:卷积神经网络CNN通道用于提取原始流量信息的高维度特征,采用卷积核分别为32×3×3、64×3×3的两层卷积层后,将提取出的二维特征压平成一维并通过全连接层进行非线性特征提取。
2)通道2:时间卷积网络TCN通道用于提取有向负载长度序列、包间时延序列的时空特征,该通道采用2个残差模块进行堆叠,残差模块内部包含两次膨胀系数为2的空洞因果深度可分离卷积,逐通道卷积核数目为当前通道数m,卷积核尺寸1×6,逐点卷积核数目为32,卷积核尺寸m×1,m为通道数。
3)通道3:堆叠式自动编码器(SAE)通道用来提取VPN流量统计信息特征,该通道拥有编码器和解码器两个神经网络。编码器通过两个全连接层提取统计信息隐藏特征,编码器重新利用两个全连接层从隐藏层特征重建样本。训练完成后将编码器提取特征作为统计信息特征。
将多尺度特征进行融合并输入到softmax分类器中输出VPN流量属于每一种服务类型的概率,最大概率的类别为最终识别的服务类型。
(4)具有时间属性的VPN通信行为语义生成方法为:记录会话流量产生的时间并结合流持续时间生成时间属性,生成VPN通信单条流量的行为语义。具体格式为xx:xx-xx:xxtype;其中xx:xx为通信持续时间,type为VPN通信服务类型,包括:语音通话,视频通话,文字通讯,视频播放,网页浏览,文件传输等。
(5)基于同一源IP下多次VPN通信流量可以提取出多条具有时间属性的行为语义,从而可以通过对同一用户VPN通信流量连续监管进行用户行为画像。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于流量多尺度时空特征融合的VPN通信行为分析方法,其特征在于,包括:
将待处理的连续流量切分为多个会话流量,进行流量匿名化和服务类型标记;
提取会话流量固定字节数信息,并转化为二维灰度图像;
提取会话流量有向负载长度序列、包间时延序列构成时空序列特征向量;
提取会话流量多维度统计特征信息;
将提取的流量多尺度时空特征信息输入多通道网络模型进行训练,通过特征融合学习进行服务类型的识别;
结合流持续时间、检测时间,生成具有时间属性的VPN通信行为语义;
基于连续多流的行为语义进行VPN用户行为画像。
2.根据权利要求1所述的基于流量多尺度时空特征融合的VPN通信行为分析方法,其特征在于,对于待处理的连续流量根据源IP地址、目的IP地址、源端口、目的端口、协议五元组切分为多个会话流量;将会话流量屏蔽地址匿名化后进行服务类型标记。
3.根据权利要求1所述的基于流量多尺度时空特征融合的VPN通信行为分析方法,其特征在于,提取会话流量的原始信息编码转换为二维灰度图像;CNN通道要求输入尺寸为固定值,按要求截取会话流量前900字节原始信息;其中对于会话长度小于900字节的情况,在流量后用0x00补全。
4.根据权利要求1所述的基于流量多尺度时空特征融合的VPN通信行为分析方法,其特征在于,提取会话流量有向负载长度序列、包间时延序列构成时空序列特征向量,其中根据数据包方向标记正负;标记客户端到服务器为上行,上行为正,服务器到客户端为下行,下行为负。
5.根据权利要求4所述的基于流量多尺度时空特征融合的VPN通信行为分析方法,其特征在于,TCN通道要求输入尺寸为固定值,按要求截取会话流量前300个双向数据包负载、包时延序列。
6.根据权利要求1所述的基于流量多尺度时空特征融合的VPN通信行为分析方法,其特征在于,提取会话流量多维度统计特征信息方法为:根据人工流量分析经验和VPN流量特性,分别从时间、空间两个维度提取28种统计信息特征,具体如下表所示:
表1
Figure FDA0003405411070000021
7.根据权利要求1所述的基于流量多尺度时空特征融合的VPN通信行为分析方法,其特征在于,多尺度时空特征融的服务类型识别方法为:将提取出的流量多尺度时空特征信息分别输入到卷积神经网络、时间卷积网络、堆叠式自动编码器中进行多通道特征提取,并将三通道提取出的特征融合为新的高维度特征并利用softmax分类器进行流量服务类型的识别。
8.根据权利要求1所述的基于流量多尺度时空特征融合的VPN通信行为分析方法,其特征在于,具有时间属性的VPN通信行为语义生成方法为:记录会话流量产生的时间并结合流持续时间生成时间属性,生成VPN通信单条流量的行为语义;具体格式为xx:xx-xx:xxtype;其中xx:xx为通信持续时间,type为VPN通信服务类型。
9.根据权利要求1所述的基于流量多尺度时空特征融合的VPN通信行为分析方法,其特征在于,基于同一源IP下多次VPN通信流量,提取出多条具有时间属性的行为语义,从而通过对同一用户VPN通信流量连续监管进行用户行为画像。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一所述的基于流量多尺度时空特征融合的VPN通信行为分析方法。
CN202111512757.5A 2021-12-10 2021-12-10 基于流量多尺度时空特征融合的vpn通信行为分析方法 Pending CN114301636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111512757.5A CN114301636A (zh) 2021-12-10 2021-12-10 基于流量多尺度时空特征融合的vpn通信行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111512757.5A CN114301636A (zh) 2021-12-10 2021-12-10 基于流量多尺度时空特征融合的vpn通信行为分析方法

Publications (1)

Publication Number Publication Date
CN114301636A true CN114301636A (zh) 2022-04-08

Family

ID=80968203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111512757.5A Pending CN114301636A (zh) 2021-12-10 2021-12-10 基于流量多尺度时空特征融合的vpn通信行为分析方法

Country Status (1)

Country Link
CN (1) CN114301636A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114615093A (zh) * 2022-05-11 2022-06-10 南京信息工程大学 基于流量重构与继承学习的匿名网络流量识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110011931A (zh) * 2019-01-25 2019-07-12 中国科学院信息工程研究所 一种加密流量类别检测方法及系统
CN113037730A (zh) * 2021-02-27 2021-06-25 中国人民解放军战略支援部队信息工程大学 基于多特征学习的网络加密流量分类方法及系统
CN113162908A (zh) * 2021-03-04 2021-07-23 中国科学院信息工程研究所 一种基于深度学习的加密流量检测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110011931A (zh) * 2019-01-25 2019-07-12 中国科学院信息工程研究所 一种加密流量类别检测方法及系统
CN113037730A (zh) * 2021-02-27 2021-06-25 中国人民解放军战略支援部队信息工程大学 基于多特征学习的网络加密流量分类方法及系统
CN113162908A (zh) * 2021-03-04 2021-07-23 中国科学院信息工程研究所 一种基于深度学习的加密流量检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114615093A (zh) * 2022-05-11 2022-06-10 南京信息工程大学 基于流量重构与继承学习的匿名网络流量识别方法及装置
CN114615093B (zh) * 2022-05-11 2022-07-26 南京信息工程大学 基于流量重构与继承学习的匿名网络流量识别方法及装置

Similar Documents

Publication Publication Date Title
CN112163594B (zh) 一种网络加密流量识别方法及装置
CN111860628A (zh) 一种基于深度学习的流量识别与特征提取方法
CN112671757B (zh) 一种基于自动机器学习的加密流量协议识别方法及装置
CN111064678A (zh) 基于轻量级卷积神经网络的网络流量分类方法
US11822698B2 (en) Privacy transformations in data analytics
CN112036518B (zh) 基于数据包字节分布的应用程序流量分类方法和存储介质
CN112019500B (zh) 一种基于深度学习的加密流量识别方法及电子装置
CN112491894A (zh) 一种基于时空特征学习的物联网网络攻击流量监测系统
Li et al. Activetracker: Uncovering the trajectory of app activities over encrypted internet traffic streams
CN112887291A (zh) 基于深度学习的i2p流量识别方法及系统
CN113472751A (zh) 一种基于数据包头的加密流量识别方法及装置
CN114301636A (zh) 基于流量多尺度时空特征融合的vpn通信行为分析方法
Wang et al. An unknown protocol syntax analysis method based on convolutional neural network
Qiao et al. Encrypted 5G over-the-top voice traffic identification based on deep learning
CN113382039A (zh) 一种基于5g移动网络流量分析的应用识别方法和系统
Liu et al. Spatial‐Temporal Feature with Dual‐Attention Mechanism for Encrypted Malicious Traffic Detection
CN114338437B (zh) 网络流量分类方法、装置、电子设备及存储介质
CN114205151A (zh) 基于多特征融合学习的http/2页面访问流量识别方法
CN114510615A (zh) 一种基于图注意力池化网络的细粒度加密网站指纹分类方法和装置
Ge et al. Robot communication: Network traffic classification based on deep neural network
Chen et al. A survey on smart home privacy data protection technology
Ma et al. Bi-ETC: A Bidirectional Encrypted Traffic Classification Model Based on BERT and BiLSTM
Mao et al. Semisupervised Encrypted Traffic Identification Based on Auxiliary Classification Generative Adversarial Network.
CN113630384B (zh) 一种基于NetFlow数据的特定加密流量识别方法及系统
Zheng et al. Multi-view multi-label anomaly network traffic classification based on mlp-mixer neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination