CN107465643A - 一种深度学习的网络流量分类方法 - Google Patents
一种深度学习的网络流量分类方法 Download PDFInfo
- Publication number
- CN107465643A CN107465643A CN201610388592.8A CN201610388592A CN107465643A CN 107465643 A CN107465643 A CN 107465643A CN 201610388592 A CN201610388592 A CN 201610388592A CN 107465643 A CN107465643 A CN 107465643A
- Authority
- CN
- China
- Prior art keywords
- network traffics
- sample
- statistical analysis
- deep learning
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明为一种基于深度学习的网络流量分类方法,包括(1)网络流量样本数据的获取;(2)网络流量属性的确定,包括:a.网络流量中客户端端口号统计分析;b.网络流量中数据包平均到达时间统计分析;c.网络流量中包含数据包个数统计分析;(3)网络流量样本标记;(4)连续数据的离散化;(5)样本的训练;本发明能够对纷繁复杂的网络流量资源,能够满足高精度的分类要求。
Description
技术领域
本发明属于网络信息安全技术领域,特别涉及一种基于深度学习的网络流量分类方法。
背景技术
随着信息技术的蓬勃发展,种类繁多的互联网应用产生的大量流量占用了很多网络资源,在给服务质量带来巨大挑战的同时也给互联网安全产生负面影响。为了高效地利用网络资源并为网络管理者提供有效的管控手段,以辨别应用层协议为目的的网络流量分类技术成为近年来的研究热点问题。在网络流量分类的传统方法中,应用最广的是基于知名端口号(known ports)的流量分类算法、基于特征字匹配的流量分类算法、基于传输层行为模式的流量分类算法。但是随着端口伪造、明文加密等技术的使用以及网络类别环境差别的增大,上述三种分类方法在现阶段已经无法满足对分类的精度要求。机器学习方法不需要对端口进行匹配,也不需要解析流量的有效载荷内容,同时不受网络环境等影响就可以对网络流量进行高精度的分类,故基于机器学习算法的网络流量分类技术成为近年来的研究热点问题。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种基于深度学习的网络流量分类方法。
本发明的技术方案是,一种基于深度学习的网络流量分类方法,包括如下步骤:
(1)网络流量样本数据的获取;
采用Libpcap库对网络流量进行捕获;
(2)网络流量属性的确定,包括
a.网络流量中客户端端口号统计分析;
b.网络流量中数据包平均到达时间统计分析;
c.网络流量中包含数据包个数统计分析;
(3)网络流量样本标记;
采用一种基于端口号及特征字匹配的网络流量样本标记算法,该算法先利用IANA的知名端口库判断训练样本中流量的端口号是否为知名端口,再利用特征字匹配技术将非知名端口的流量样本进行深度解析匹配,对未知流样本进行标记;
(4)连续数据的离散化;
利用基于粗糙集的方法对网络流量样本中连续的数据进行离散化;
(5)样本的训练;
采用深度学习中的受限玻尔兹曼机,在原始输入特征中抽取低维高度可区分的低维特征作为训练模型的输入,对样本进行训练,使用支持向量机作为回归模型。
本发明的有益效果在于:对纷繁复杂的网络流量资源,能够满足高精度的分类要求。
附图说明
图1为本发明的方法流程图
具体实施方式
下面,结合附图对于本发明进行如下详细说明:
流程图如图1所示,描述了利用深度学习算法对网络流进行分类的过程。首先从外部网络中获取数据,之后将数据进行处理得到用流的属性向量表示的流数据集合,再对流的属性特征进行选择得到待训练数据,利用深度学习算法进行训练得到分类模型,最后利用分类模型对未知样本进行分类。
本发明主要包括以下步骤:
一是网络流量样本数据的获取。常使用普通的PC机,利用Libpcap库对网络流量进行捕获。
二是流量属性的确定。样本数据对学习模型的稳定性、精确性有着至关重要的作用,而样本是由网络流的各项属性计算而来,所以流属性的确定也就决定了流分类的结果精度。本发明采用三种方法进行流量属性确定:1.网络流中客户端端口号统计分析;2.网络流中数据包平均到达时间统计分析;3.网络流中包含数据包个数统计分析。
三是网络流样本的标记。本发明的深度学习算法均是有监督的学习算法,所以机器学习的训练样本中需要包含样本的类别信息,即训练时算法需要事先知道该样本的类别,在对未知样本进行分类时可以增大分类模型的精度。本发明设计了一种基于端口号及特征字匹配的网络流样本标记算法,该算法先利用IANA的知名端口库判断训练样本中流的端口号是否为知名端口,再利用特征字匹配技术将非知名端口的流样本进行深度解析匹配,对未知流样本进行标记。
四是连续数据的离散化。利用基于粗糙集的方法对网络流样本中连续的数据进行离散化。
五是样本的训练。本发明采用了深度学习中的受限玻尔兹曼机进行样本的监督学习。在深度学习中,大多数的模型仅使用了少量特征作为输入,因此可能没有足够的信息来对网络流量进行准确分类。如果输入更多的特征,将可能发生所谓的维数灾难,导致模型的训练时间大幅度增加,其泛化能力也可能会恶化。因此,在原始高维的输入特征中抽取出高度可区分的低维特征,并将其作为相应模型的输入对改善模型的泛化性能会有很大的帮助。受限玻尔兹曼机(Restricted Boltzmann Machine)是一种新型的机器学习工具,因为其强大的学习能力,受限玻尔兹曼机已经被广泛应用于各种机器学习问题。在本发明中,使用受限玻尔兹曼机从原始输入特征中抽取低维高度可区分的低维特征,并且使用支持向量机(Support Vector Machine)作为回归模型。
所述仅是本发明的具体实例,任何基于本发明方法基础的等效变换,均属于本发明保护范围之内。
Claims (1)
1.一种基于深度学习的网络流量分类方法,其特征在于,包括如下步骤:
(1)网络流量样本数据的获取;
采用Libpcap库对网络流量进行捕获;
(2)网络流量属性的确定,包括
a.网络流量中客户端端口号统计分析;
b.网络流量中数据包平均到达时间统计分析;
c.网络流量中包含数据包个数统计分析;
(3)网络流量样本标记;
采用一种基于端口号及特征字匹配的网络流量样本标记算法,该算法先利用IANA的知名端口库判断训练样本中流量的端口号是否为知名端口,再利用特征字匹配技术将非知名端口的流量样本进行深度解析匹配,对未知流样本进行标记;
(4)连续数据的离散化;
利用基于粗糙集的方法对网络流量样本中连续的数据进行离散化;
(5)样本的训练;
采用深度学习中的受限玻尔兹曼机,在原始输入特征中抽取低维高度可区分的低维特征作为训练模型的输入,对样本进行训练,使用支持向量机作为回归模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610388592.8A CN107465643A (zh) | 2016-06-02 | 2016-06-02 | 一种深度学习的网络流量分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610388592.8A CN107465643A (zh) | 2016-06-02 | 2016-06-02 | 一种深度学习的网络流量分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107465643A true CN107465643A (zh) | 2017-12-12 |
Family
ID=60545625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610388592.8A Pending CN107465643A (zh) | 2016-06-02 | 2016-06-02 | 一种深度学习的网络流量分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107465643A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108200032A (zh) * | 2017-12-27 | 2018-06-22 | 北京奇艺世纪科技有限公司 | 一种数据检测方法、装置及电子设备 |
CN110634294A (zh) * | 2019-09-26 | 2019-12-31 | 刘秀萍 | 一种强化递阶学习驱动的时空交通流预测方法 |
CN111131073A (zh) * | 2020-01-02 | 2020-05-08 | 深圳市高德信通信股份有限公司 | 一种网络流量分类处理系统 |
CN111526101A (zh) * | 2020-04-16 | 2020-08-11 | 华北电力大学 | 一种基于机器学习的物联网动态流量分类方法 |
CN112380406A (zh) * | 2020-11-15 | 2021-02-19 | 杭州光芯科技有限公司 | 一种基于爬虫技术的实时网络流量分类方法 |
CN114389834A (zh) * | 2021-11-26 | 2022-04-22 | 浪潮通信信息系统有限公司 | 一种api网关异常调用识别的方法、装置、设备及产品 |
US11711310B2 (en) | 2019-09-18 | 2023-07-25 | Tweenznet Ltd. | System and method for determining a network performance property in at least one network |
US11716338B2 (en) | 2019-11-26 | 2023-08-01 | Tweenznet Ltd. | System and method for determining a file-access pattern and detecting ransomware attacks in at least one computer network |
-
2016
- 2016-06-02 CN CN201610388592.8A patent/CN107465643A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108200032A (zh) * | 2017-12-27 | 2018-06-22 | 北京奇艺世纪科技有限公司 | 一种数据检测方法、装置及电子设备 |
US11711310B2 (en) | 2019-09-18 | 2023-07-25 | Tweenznet Ltd. | System and method for determining a network performance property in at least one network |
CN110634294A (zh) * | 2019-09-26 | 2019-12-31 | 刘秀萍 | 一种强化递阶学习驱动的时空交通流预测方法 |
US11716338B2 (en) | 2019-11-26 | 2023-08-01 | Tweenznet Ltd. | System and method for determining a file-access pattern and detecting ransomware attacks in at least one computer network |
CN111131073A (zh) * | 2020-01-02 | 2020-05-08 | 深圳市高德信通信股份有限公司 | 一种网络流量分类处理系统 |
CN111526101A (zh) * | 2020-04-16 | 2020-08-11 | 华北电力大学 | 一种基于机器学习的物联网动态流量分类方法 |
CN112380406A (zh) * | 2020-11-15 | 2021-02-19 | 杭州光芯科技有限公司 | 一种基于爬虫技术的实时网络流量分类方法 |
CN112380406B (zh) * | 2020-11-15 | 2022-11-18 | 杭州光芯科技有限公司 | 一种基于爬虫技术的实时网络流量分类方法 |
CN114389834A (zh) * | 2021-11-26 | 2022-04-22 | 浪潮通信信息系统有限公司 | 一种api网关异常调用识别的方法、装置、设备及产品 |
CN114389834B (zh) * | 2021-11-26 | 2024-04-30 | 浪潮通信信息系统有限公司 | 一种api网关异常调用识别的方法、装置、设备及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107465643A (zh) | 一种深度学习的网络流量分类方法 | |
CN109726744B (zh) | 一种网络流量分类方法 | |
CN101645806B (zh) | Dpi和dfi相结合的网络流量分类系统及分类方法 | |
CN107819646A (zh) | 一种分布式传输的网络流量分类系统和方法 | |
CN101741744A (zh) | 一种网络流量识别方法 | |
CN104778470B (zh) | 基于组件树和霍夫森林的文字检测和识别方法 | |
CN109492549A (zh) | 一种训练样本集处理、模型训练方法及系统 | |
CN106339806A (zh) | 一种面向企业信息的行业全息画像构建方法及系统 | |
CN109359186B (zh) | 一种确定地址信息的方法、装置和计算机可读存储介质 | |
CN101605126A (zh) | 一种多协议数据分类识别的方法和系统 | |
CN109995601A (zh) | 一种网络流量识别方法及装置 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
CN102571486A (zh) | 一种基于BoW模型和统计特征的流量识别方法 | |
US20170053031A1 (en) | Information forecast and acquisition method based on webpage link parameter analysis | |
CN109165295B (zh) | 一种智能简历评估方法 | |
CN109120632A (zh) | 基于在线特征选择的网络流异常检测方法 | |
CN104809105B (zh) | 基于最大熵的事件论元及论元角色的识别方法及系统 | |
CN108829810A (zh) | 面向健康舆情的文本分类方法 | |
CN104268552A (zh) | 一种基于部件多边形的精细类别分类方法 | |
CN102567494A (zh) | 网站分类方法及装置 | |
CN105868408A (zh) | 基于机器学习的招聘信息解析系统及其方法 | |
CN104463420A (zh) | Ota网站的订单处理系统及方法 | |
CN106778851A (zh) | 基于手机取证数据的社交关系预测系统及其方法 | |
CN106789416A (zh) | 工控系统专用协议识别方法与系统 | |
CN109660656A (zh) | 一种智能终端应用程序识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171212 |
|
WD01 | Invention patent application deemed withdrawn after publication |