CN109981485A - 基于长短期记忆网络的V2ray流量识别方法 - Google Patents

基于长短期记忆网络的V2ray流量识别方法 Download PDF

Info

Publication number
CN109981485A
CN109981485A CN201910225762.4A CN201910225762A CN109981485A CN 109981485 A CN109981485 A CN 109981485A CN 201910225762 A CN201910225762 A CN 201910225762A CN 109981485 A CN109981485 A CN 109981485A
Authority
CN
China
Prior art keywords
data
v2ray
data packet
shot
long term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910225762.4A
Other languages
English (en)
Inventor
罗森林
王帅鹏
潘丽敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201910225762.4A priority Critical patent/CN109981485A/zh
Publication of CN109981485A publication Critical patent/CN109981485A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及基于长短期记忆网络的V2ray流量识别方法,属于计算机网络安全领域。主要为了解决基于卷积神经网络的方法将数据转化为图片后训练出模型的可解释性较差,且未利用到加密流量在时间序列特征的问题。本发明首先从交换机获取V2ray流量和普通流量的数据链路层数据包并对数据包进行标注,其次去除不包含有用信息和冗余的数据包;然后将可能对模型训练造成影响的字节置零,对数据包的长度进行调整;最后使用这些预处理过的数据训练长短期记忆网络。该方法无需进行特征提取和选择,对V2ray流量的时间序列关系进行了学习,具有较好的识别效果。

Description

基于长短期记忆网络的V2ray流量识别方法
技术领域
本发明涉及基于长短期记忆网络的V2ray流量识别方法,属于计算机网络安全领域。
背景技术
V2ray是一种新型的网络通信加密软件。其支持多种加密协议,并具有动态端口绑定、端口转发等功能,具有较高的灵活性、隐蔽性。目前对加密流量识别方法主要分为基于规则匹配的方法、基于机器学习的方法和基于深度学习的方法。
1.基于规则匹配的方法
基于规则匹配的方法通过对比数据库中的加密流量特征如端口信息、特定字节信息等识别加密通信软件。该方法步骤简单、判断过程极快,但端口转发、随机端口分配和流量伪装等技术的出现极大地降低了基于端口的识别方法的准确性。
2.基于机器学习的方法
基于机器学习的方法通过学习加密流量的统计特征达到对加密流量识别的目的,该方法具有较高的准确性,不依赖于一些可以被轻易改变的特征如端口号信息等。但基于机器学习的方法需要进行特征提取和特征选择,该过程时间成本和人工成本较高,且部分机器学习算法如K-NN分类器存在识别速率慢的问题。
3.基于深度神经网络的方法
基于深度学习的V2ray流量识别方法可以自动学习并提取加密流量中包含的特征信息,无需进行人工特征提取和选择,因而受到产业界的青睐,其中以卷积神经网络应用最为广泛。
综上所述,近年来随着机器学习和深度学习技术的不断发展,越来越多的深度学习技术开始应用到计算机安全领域。现有的基于卷积神经网络的方法存在以下问题:(1)基于卷积神经网络的方法将数据转化为图片后训练卷积神经网络,模型的可解释性较差;(2)未利用到加密流量在时间序列上的特征。
发明内容
本发明针对现有利用深度神经网络进行V2ray流量监测模型可解释性差、未利用V2ray流量在时间序列特征的问题,提出了基于长短期记忆网络的V2ray流量识别方法。
本发明的技术方案是通过如下步骤实现的:
步骤1,从交换机设备中获得数据链路层数据包并进行标注。
步骤1.1,将这些数据包标记为V2ray流量或其他流量。
步骤2,去除数据中不包含有用信息和冗余的数据包。
步骤2.1,去除TCP三次握手数据包。
步骤2.2,去除DNS域名解析数据包。
步骤2.3,保留每次通信的前16个数据包,并将这16个数据包作为数据集中的一条数据。
步骤3,对数据链路层数据包进行处理。
步骤3.1,去除数据链路层报头获得网络层数据包。
步骤3.2,对UDP报头进行填充使其长度与TCP报头保持一致。
步骤3.3,去除网络层数据报头中的表示IP地址和端口的信息。
步骤3.4,对数据包长度进行调整,使其保持一致。
步骤4,使用这些预处理过的数据训练长短期记忆网络。
有益效果
相比基于规则匹配的方法,本发明不依赖于端口特征和数据包内容特征,具有较低的误报率和漏报率。
相比基于机器学习的方法,本发明无需进行特征提取和特征选择,降低了V2ray流量识别的复杂性和人工成本。
相比基于卷积神经网络的方法,本发明可以对数据流时序关系进行记录和学习,提高了V2ray流量识别的准确率。
附图说明
图1为本发明基于长短期记忆网络的V2ray流量识别方法原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面对本发明方法的实施方式做进一步详细说明。
1)所需数据均从交换机镜像端口获取。使用该方法获取到的数据包格式统一,与通信设备型号无关。且在部署到交换机设备上使用时无需对本方法进行额外的修改。获取到的数据需要标注为V2ray流量或其他流量。
2)去除数据中不包含有用信息和冗余的数据包。TCP连接时为确保可靠性需要进行三次握手,三次握手过程中产生的SYN、ACK、FIN类型的TCP数据包不包含任何数据,无法为V2ray流量识别提供有用信息,这类数据包可以安全地剔除。DNS数据包负责进行域名解析,同样对流量监测没有帮助,应该剔除。
3)V2ray服务端与客户端进行每次通信时需要预先交换密钥,因而每次通信较为靠前的数据包具有显著特征,其后所产生的数据包则为加密后的信息,内容较为随机。因而我们只保留每次通信的前16个数据包进行流量识别。
4)从数据链路层获得的数据包报头为MAC地址信息,由设备不同而不同,需要去除。
5)UDP报头长度为8字节,TCP报头长度为20字节,为了使数据包格式统一,将UDP报头补零扩充为20字节。
6)TCP报头和UDP报头均包含目的地址、目的端口、源地址、源端口,在获取数据包的过程中,我们采用了数量有限的客户端和服务端,因而这些信息较为固定。为了使神经网络在训练过程中不学习到这些特征,应该将这些信息填充为0。
7)深度神经网络需要长度固定的输入,由于互联网上的大部分数据包长度不超过1500字节,因而我们通过补零和截断的方法将每个数据包的长度修改为1500字节。
8)使用处理完成的数据训练长短期记忆网络,得到最终的模型。
9)该模型按图1所示的原理图即可进行V2ray流量识别。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.基于长短期记忆网络的V2ray流量识别方法,其特征在于所述方法包括如下步骤:
步骤1,从交换机设备中获得数据链路层数据包并标注为V2ray流量或其他流量;
步骤2,去除数据中不包含有用信息和冗余的数据包,去除TCP三次握手数据包,去除DNS域名解析数据包,保留每次通信的前16个数据包,并将这16个数据包作为数据集中的一条数据;
步骤3,对数据链路层数据包进行处理,去除数据链路层报头获得网络层数据包,对UDP报头进行填充使其长度与TCP报头保持一致,去除网络层数据报头中的表示IP地址和端口的信息,对数据包长度进行调整,使其保持一致;
步骤4,使用这些预处理过的数据训练长短期记忆网络。
2.根据权利要求1所述的基于长短期记忆网络的V2ray流量识别方法,其特征在于:步骤2中去除TCP三次握手数据包,去除DNS域名解析数据包,保留每次通信的前16个数据包。
3.根据权利要求1所述的基于长短期记忆网络的V2ray流量识别方法,其特征在于:步骤3将UDP报头补零扩充为20字节。
4.根据权利要求1所述的基于长短期记忆网络的V2ray流量识别方法,其特征在于:步骤3将TCP报头和UDP报头表示目的地址、目的端口、源地址、源端口的字节修改为0。
5.根据权利要求1所述的基于长短期记忆网络的V2ray流量识别方法,其特征在于:步骤3中通过补零和截断的方法将每个数据包的长度修改为1500字节。
CN201910225762.4A 2019-03-25 2019-03-25 基于长短期记忆网络的V2ray流量识别方法 Withdrawn CN109981485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910225762.4A CN109981485A (zh) 2019-03-25 2019-03-25 基于长短期记忆网络的V2ray流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910225762.4A CN109981485A (zh) 2019-03-25 2019-03-25 基于长短期记忆网络的V2ray流量识别方法

Publications (1)

Publication Number Publication Date
CN109981485A true CN109981485A (zh) 2019-07-05

Family

ID=67080376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910225762.4A Withdrawn CN109981485A (zh) 2019-03-25 2019-03-25 基于长短期记忆网络的V2ray流量识别方法

Country Status (1)

Country Link
CN (1) CN109981485A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110896381A (zh) * 2019-11-25 2020-03-20 中国科学院深圳先进技术研究院 一种基于深度神经网络的流量分类方法、系统及电子设备
CN113301041A (zh) * 2021-05-21 2021-08-24 东南大学 一种基于分段熵和时间特征的V2Ray流量识别方法
CN117097674A (zh) * 2023-10-20 2023-11-21 南京邮电大学 一种采样时间不敏感频率维度可配置的网络特征提取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110896381A (zh) * 2019-11-25 2020-03-20 中国科学院深圳先进技术研究院 一种基于深度神经网络的流量分类方法、系统及电子设备
CN113301041A (zh) * 2021-05-21 2021-08-24 东南大学 一种基于分段熵和时间特征的V2Ray流量识别方法
CN113301041B (zh) * 2021-05-21 2022-06-14 东南大学 一种基于分段熵和时间特征的V2Ray流量识别方法
CN117097674A (zh) * 2023-10-20 2023-11-21 南京邮电大学 一种采样时间不敏感频率维度可配置的网络特征提取方法

Similar Documents

Publication Publication Date Title
CN109981485A (zh) 基于长短期记忆网络的V2ray流量识别方法
CN105491060B (zh) 防御分布式拒绝服务攻击的方法、装置、客户端及设备
CN104272674B (zh) 多隧道虚拟专用网络
CN105162626B (zh) 基于众核处理器的网络流量深度识别系统及识别方法
CN107819789A (zh) 一种基于区块链的内容反劫持系统及方法
CN108769031A (zh) 基于区块链的边缘计算服务的实物存证溯源系统
CN104967610B (zh) 一种基于时隙的水印跳变通信方法
CN110247930A (zh) 一种基于深度神经网络的加密网络流量识别方法
CN109063777A (zh) 网络流量分类方法、装置及实现装置
CN102739473A (zh) 一种应用智能网卡的网络检测方法
CN106453303A (zh) 一种用于ios客户端的用户登录状态保存方法及系统
CN105207950B (zh) 一种基于sdn技术的通信数据保护方法
CN107426075A (zh) 基于多路can总线和以太网通信的安全网关及通信方法
CN109120602A (zh) 一种IPv6攻击溯源方法
CN107181605A (zh) 报文检测方法及系统、内容提取装置、流量匹配装置
CN107592200A (zh) 数据加密、解密的方法及装置
Xing et al. Research on the defense against ARP spoofing attacks based on Winpcap
CN105959308B (zh) 一种内网ip数据包管理方法、装置及系统
CN109756526A (zh) 基于区块链技术的鸡养殖追溯系统及方法
CN112654037A (zh) 一种基于5g通信技术的工业网络安全加密处理方法
CN106789728A (zh) 一种基于NetFPGA的VoIP流量实时识别方法
CN109040124A (zh) 用于交换机的处理报文的方法和装置
CN109495583A (zh) 一种基于主机特征混淆的数据安全交互方法
CN104660591B (zh) 基于ip地址的包长度反馈网络隐蔽通信方法
CN103699836B (zh) 一种计算机病毒信息的监测方法、装置和通信系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190705

WW01 Invention patent application withdrawn after publication