CN110011932B - 一种可识别未知流量的网络流量分类方法和终端设备 - Google Patents

一种可识别未知流量的网络流量分类方法和终端设备 Download PDF

Info

Publication number
CN110011932B
CN110011932B CN201910314329.8A CN201910314329A CN110011932B CN 110011932 B CN110011932 B CN 110011932B CN 201910314329 A CN201910314329 A CN 201910314329A CN 110011932 B CN110011932 B CN 110011932B
Authority
CN
China
Prior art keywords
network traffic
network
classification model
loss
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910314329.8A
Other languages
English (en)
Other versions
CN110011932A (zh
Inventor
肖喜
毛科龙
夏树涛
郑海涛
江勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Tsinghua University
Original Assignee
Shenzhen Graduate School Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Tsinghua University filed Critical Shenzhen Graduate School Tsinghua University
Priority to CN201910314329.8A priority Critical patent/CN110011932B/zh
Publication of CN110011932A publication Critical patent/CN110011932A/zh
Application granted granted Critical
Publication of CN110011932B publication Critical patent/CN110011932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]

Abstract

本发明提供一种可识别未知流量的网络流量分类方法和终端设备,方法包括:网络流量数据通过初始网络流量分类模型时,基于信息熵的阈值判断法判断网络流量数据是否为未知流量;未知流量属于新的类别;若网络流量数据为已知类别的流量则基于平衡损失的动态自适应算法为初始网络流量分类模型加入增量学习新的类别的能力,得到实时网络分类模型;把新的类别的损失和已知类别的蒸馏损失结合为平衡损失来作为实时网络分类模型的损失函数。网络流量分类模型在准确识别已知类别流量的同时,也能很好地识别未知类别流量,同时能够动态自适应当前网络环境中最新的流量,及时地自我更新,始终保持较高的分类准确率,非常适用于实时在线网络流量分类任务。

Description

一种可识别未知流量的网络流量分类方法和终端设备
技术领域
本发明涉及网络流量分类方法和终端设备,尤其涉及一种可识别未知流量的网络流量分类方法和终端设备。
背景技术
互联网和信息技术是当今世界科学技术研究中发展最为快速的技术之一。我国自接入国际互联网以来,在短短二十多年内,凭借国内各种互联网企业的不懈努力,中国的互联网行业经历了从国际跟跑到国际并跑,再到未来可期的国际领跑三大跨越,取得的巨大成就有目共睹。截至到2018年6月,我国的网民人数已经达到8.02亿,互联网普及率达57.7%,发展速度可谓惊人。互联网技术因其方便快捷,移动性好,价格低廉等特点,正在改变着人们的生活方式。小到聊天、购物、娱乐,大到航天航空、武器导弹都离不开互联网。互联网的飞速发展推动了全球化的生产和生活方式的深刻变革。随着网络理论技术的发展、网络硬件性能的不断增强,整个互联网的流量规模也在不断的增加。人民生活水平的提高推动着网络应用技术的进一步发展,促使网络供应商不断地提升网络服务的水平。如今,现代互联网的流量的多样性和复杂性远远超出了当初底层互联网架构者的想象。
网络流量是记录和反映网络活动及运营情况的重要载体。随着互联网的高速发展,为了满足互联网用户的多样化需求,各种新的网络服务层出不穷,导致网络流量无论是在数量还是种类上都不断增加。这些新型应用扩大了互联网的应用规模,提供了更丰富的网络服务。但是其采用的应用协议特征也有别于传统的应用类型,变得更加复杂和多样化,给网络流量的管理和规划造成了极大的冲击。
网络流量分类是指按照网络的应用类型(比如FTP、HTTP、SMTP、360、qq等),将基于TCP/IP协议的网络通信产生的TCP或UDP流量进行分类。网络流量分类技术是保障网络安全的关键技术,也是现代网络管理与安全系统中最基本的功能。同时,网络流量分类技术在QOS服务质量控制、网络应用趋势分析等方面也具有重大的作用,包含极大应用价值,具体体现在:
1、通过网络流量识别技术,能够掌控网络内部资源的分配情况,网络运营商和网络服务提供商(ISP)可以将其应用到网络服务质量(QoS)控制机制中,保障网络带宽等网络资源的合理分配,从而促进网络向更加合理的方向发展。如果在各网络关口对网络流量进行分类,自适应匹配不同的应用协议,将可以帮助网络管理者对网络流量实施有效的差异化、精细化管理。这样,也有利于解决网络监管中存在的种种问题,为网络用户营造更加健康高效的网络环境。
2、实现网络流量的识别分类,可以对企业或用户的业务流量进行管理,从而能够宏观上动态调配网络资源,为用户定制合理的网络运营方案,实现更加高效的网络应用。通过识别不同应用的网络流量,公司内部可以在工作时间禁止使用娱乐相关的应用流量,政府部门可以设定禁止非法使用P2P等加密传输业务等。最近兴起的针对特殊应用的专有流量优惠(如腾讯大王卡),更是以网络流量分类技术为核心。
3、网络流量识别分类对保障网络空间安全具有重要作用。例如,入侵检测系统(IDS)可以利用网络流量分类技术,将恶意网络流量识别出来并采取隔离处理等措施,通过对木马、Web注入等恶意攻击流量的准确识别,提前告警或阻断可能的攻击,实现对网络设备的保护,保障网络系统安全可靠地运行。在政府企业等敏感网络中,还可以利用网络流量分类技术对出入口网络流量进行准确的识别与监管,有效地监控和管理网络流量,防止机密、敏感信息泄露以造成重大的网络信息安全事故。此外,在基于云计算的环境中,网络流量分类技术在确保云计算服务质量方面也发挥着极其重要的作用。
当前的网络流量分类方法普遍缺乏对未知类别的新流量的识别能力以及根据最新流量动态地自我更新的能力。
发明内容
本发明为了解决现有技术中网络流量分类方法普遍缺乏对未知类别的新流量的识别能力以及根据最新流量动态地自我更新的能力的问题,提供一种可识别未知流量的网络流量分类方法和终端设备。
为了解决上述问题,本发明采用的技术方案如下所述:
一种可识别未知流量的网络流量分类方法,包括构建实时网络分类模型;所述构建实时网络分类模型包括如下步骤:S1:网络流量数据通过初始网络流量分类模型时,基于信息熵的阈值判断法判断所述网络流量数据是否为未知流量;所述未知流量属于新的类别;S2:若所述网络流量数据为已知类别的流量则基于平衡损失的动态自适应算法为所述初始网络流量分类模型加入增量学习所述新的类别的能力,得到实时网络分类模型;S3:把所述新的类别的损失和所述已知类别的蒸馏损失结合为平衡损失来作为所述实时网络分类模型的损失函数。
在本发明的一种实施例中,步骤S1包括如下步骤:S11:定义网络流量数据样本的熵为其通过所述初始网络流量分类模型的softmax层后输出向量的熵,即所述网络流量数据样本x在softmax层的输出向量p=[p1,…,pn],其中n为应用类别数,熵为:
Figure GDA0003515526440000031
S12:对于每所述已知类别,定义在当前时间段的阈值σ为当前时间段的所有属于所述已知类别的样本的熵的最小值,即:
σ=argminx∈XEntropy(x)
其中X为当前时间段属于所述已知类别的所有样本集合;S13:网络流量数据通过初始网络流量分类模型时,从softmax层的输出确定其最可能划分到的已知类别t,然后计算所述网络流量数据的熵;S14:若所述熵小于所述已知类别t的阈值,则判断所述网络流量数据为未知类别流量;反之,所述网络流量数据划入所述已知类别t中。所述已知类别的样本实时更新,则阈值会随之更新。所述未知流量通过进一步鉴定确定所属的所述新的类别。
在本发明的又一种实施例中,步骤S2包括如下步骤:选取所述已知类别的样本作为所述已知类别的范例并基于最近范例均值法为所述初始网络流量分类模型加入增量学习能力。包括:所述已知类别包含m个样本的范例,所述初始网络流量分类模型的特征提取函数为
Figure GDA0003515526440000032
所述已知类别的所有范例加上新流量数据共同记为X={x1,x2,…,xn},当前的所述已知类别的中心为:
Figure GDA0003515526440000033
构建所述已知类别的新的范例集合:P={p1,p2,...,pm},构建规则为:
for k=1,…,m do;则
Figure GDA0003515526440000034
遍历所述初始网络流量分类模型的所有所述已知类别使所述初始网络流量分类模型加入增量学习能力。
在本发明的再一种实施例中,步骤S3包括:定义所述初始网络流量分类模型和所述实时网络分类模型的最后一层为softmax层;所述网络流量数据的样本为xi,其真实标签为yi,所述初始网络流量分类模型的softmax层的输出为
Figure GDA0003515526440000041
s为所述初始网络流量分类模型的所有所述已知类别的总类别数;所述网络流量数据的样本为xi通过所述实时网络分类模型后第y维的输出值为gy(xi)(y=1,2,…,t),t为所述实时网络分类模型下的所有所述已知类别的总类别数;则对所述网络流量数据的样本,所述实时网络分类模型的所述新的类别的损失函数就为:
Figure GDA0003515526440000042
所述已知类别的总的蒸馏损失为:
Figure GDA0003515526440000043
定义平衡损失为:
Lossbalanced=α*Lossnew+(2-α)*Lossprevious
其中,α是平衡参数;0<α<2。
本发明还提供一种识别未知流量的网络流量分类的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上任一所述方法的步骤。
本发明再提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本发明的有益效果为:提供一种可识别未知流量的网络流量分类方法和终端设备,通过基于信息熵的阈值判断法和基于平衡损失的动态自适应算法,使得网络流量分类模型在准确识别已知类别流量的同时,也能很好地识别未知类别流量,同时能够动态自适应当前网络环境中最新的流量,及时地自我更新,始终保持较高的分类准确率,非常适用于实时在线网络流量分类任务。
附图说明
图1是本发明实施例中可识别未知流量的网络流量分类方法的流程示意图。
图2是本发明实施例中可识别未知流量的网络流量分类方法的示意图。
图3是本发明实施例中基于信息熵的未知类别流量识别流程示意图。
图4是本发明实施例中基于信息熵的阈值判断方法的示意图。
图5是本发明实施例中识别未知流量的网络流量分类的终端设备的示意图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接即可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例1
如图1所示,本发明的方法主要包括两个方面,第一个是设计基于信息熵的阈值判断法来解决未知类别流量识别的问题。该算法的思想是:每个流量通过网络流量分类模型后,将计算其softmax层输出向量的熵,熵小于阈值则认定为未知类别流量,同时阈值也会随着时间不断自我更新;第二个是设计基于平衡损失的动态自适应算法,为网络流量分类模型加入动态自适应最新网络流量的能力。在每个已知类别的数据中选择若干个原始流量样本作为该类的范例,基于最近范例均值法和深度学习不断更新每个类的范例集合,从而为分类器加入增量学习能力。此外,针对模型在对新类别数据不断地增量学习的过程中往往会遗忘之前学习的内容,即“灾难性遗忘”这一问题,把新类别损失和已知类别的蒸馏损失结合为平衡损失来作为新的损失函数,一定程度保存了模型之前学到的知识,有效保障了网络流量分类模型在学习分类新流量的同时也能对之前学习过的流量进行很好地分类。
如图2所示,可识别未知流量的网络流量分类方法,包括构建实时网络分类模型;所述构建实时网络分类模型包括如下步骤:
S1:网络流量数据通过初始网络流量分类模型时,基于信息熵的阈值判断法判断所述网络流量数据是否为未知流量;所述未知流量属于新的类别;
S2:若所述网络流量数据为已知类别的流量则基于平衡损失的动态自适应算法为所述初始网络流量分类模型加入增量学习所述新的类别的能力,得到实时网络分类模型;
S3:把所述新的类别的损失和所述已知类别的蒸馏损失结合为平衡损失来作为所述实时网络分类模型的损失函数。
如图3所示,在现实网络中,由于网络中应用的复杂多变,而且不断有新的应用产生,再加上0day攻击的存在,我们的模型将会遇到初始化训练数据中不存在的数据类别。如何解决这一问题是流量分类领域的一个比较重要的问题。针对这个问题,计划设计基于信息熵的阈值判断法来解决,
如图4所示,步骤S1包括如下步骤:
S11:定义网络流量数据样本的熵为其通过所述初始网络流量分类模型的softmax层后输出向量的熵,即所述网络流量数据样本x在softmax层的输出向量p=[p1,…,pn],其中n为应用类别数,熵为:
Figure GDA0003515526440000061
显然,网络流量数据样本的熵越小,意味着softmax层的各维输出越均匀,反之亦然。所以,假设某网络流量数据样本在softmax层输出向量中第t维的值最大,此时该网络流量数据样本的熵越大,判断其属于类t的置信度也就越大。因此可以利用某网络流量数据样本的熵来作为该网络流量数据的阈值。
S12:对于每所述已知类别,定义在当前时间段的阈值σ为当前时间段的所有属于所述已知类别的样本的熵的最小值。即:
σ=argminx∈XEntropy(x)
其中X为当前时间段属于所述已知类别的所有样本集合;
S13:网络流量数据通过初始网络流量分类模型时,从softmax层的输出确定其最可能划分到的已知类别t,然后计算所述网络流量数据的熵;
S14:若所述熵小于所述已知类别t的阈值,则判断所述网络流量数据为未知类别流量;反之,所述网络流量数据划入所述已知类别t中。
随时间的变化,当前时间段的所有属于该已知类别的样本会更新,从而当前时间段的阈值σ不断变化,这样可以适应最新的网络情况。即已知类别的样本实时更新,则阈值会随之更新。
未知流量通过进一步鉴定确定所属的新的类别,这种鉴定可以是人工鉴定也可以是其他方式的鉴定。
增量式学习新的类别数据和已知类别数据。考虑到互联网流量数据的海量规模,为了节约存储开销和计算开销,我们从每类流量数据中挑选出若干个流量样本作为该类的范例,利用基于最近范例均值法为分类模型加入增量学习能力。即选取所述已知类别的样本作为所述已知类别的范例并基于最近范例均值法为所述初始网络流量分类模型加入增量学习能力。
具体来说,对于每一个已知类别,都构建其范例集合。所述已知类别包含m个样本的范例,初始网络流量分类模型的特征提取函数为
Figure GDA0003515526440000071
已知类别的所有范例加上新流量数据共同记为X={x1,x2,…,xn},
当前的所述类别的中心为:
Figure GDA0003515526440000072
构建已知类别的新的范例集合:P={p1,p2,...,pm},构建规则为:
for k=1,…,m do;
Figure GDA0003515526440000073
遍历所述初始网络流量分类模型的所有所述已知类别使所述初始网络流量分类模型加入增量学习能力。
在为模型引入增量学习的过程中,为了克服“灾难性遗忘”问题,我们拟把新类别损失和已有类别的蒸馏损失结合使用作为训练模型的损失函数。定义初始网络流量分类模型和实时网络分类模型的最后一层为softmax层;网络流量数据的样本为xi,其真实标签为yi,初始网络流量分类模型的softmax层的输出为
Figure GDA0003515526440000074
s为初始网络流量分类模型的所有已知类别的总类别数;网络流量数据的样本为xi通过实时网络分类模型后第y维的输出值为gy(xi)(y=1,2,…,t),t为实时网络分类模型下的所有所述已知类别的总类别数;则对网络流量数据的样本,实时网络分类模型的所述新的类别的损失函数就为:
Figure GDA0003515526440000081
已知类别的总的蒸馏损失为:
Figure GDA0003515526440000082
定义平衡损失为:
Lossbalanced=α*Lossnew+(2-α)*Lossprevious
其中,α(0<α<2)是平衡参数,用于平衡模型的已知类别保留能力和新的类别学习能力。α越小,则网络流量分类模型对新的类别的学习能力越强,对已知类别的保留能力越弱,反之亦然。平衡损失综合考虑了新的类别损失和已知类别的蒸馏损失,能为模型提供更好的学习能力,适应最新的变化。
针对当前的网络流量分类方法普遍缺乏对未知类别的新流量的识别能力以及根据最新流量动态地自我更新的能力的问题,本发明提出了一种新的基于平衡损失的识别未知类别流量的增量式学习算法。其中,我提出基于熵的阈值判断法来进行未知类别流量识别。每个流量通过深度模型后,我们将计算其softmax层输出向量的熵,熵小于阈值则认定为未知类别流量。同时阈值也会随着时间不断自我更新。在动态自适应方面,考虑到互联网的流量数据庞大,为了节约存储开销和计算开销,我们在每个已知类别的数据中选择若干个原始流量样本作为该类的范例,基于最近范例均值法和深度学习不断更新每个类的范例集合,从而为网络流量分类模型加入增量学习能力。此外,对新的类别数据进行不断的增量学习往往会导致模型遗忘之前学习的内容,即“灾难性遗忘”。而蒸馏损失很好的刻画了已知类别的损失情况,一定程度保存了模型之前学到的知识。因此,为了克服灾难性遗忘问题,我们的方法把新的类别损失和已知类别的蒸馏损失结合为平衡损失来作为新的损失函数,有效保障了模型在学习分类新流量的同时也能对之前学习过的流量进行很好地分类。
本发明使得网络流量分类模型在准确识别已知类别流量的同时,也能很好地识别未知类别流量,同时能够动态自适应当前网络环境中最新的流量,及时地自我更新,始终保持较高的分类准确率,非常适用于实时在线网络流量分类任务。
实施例2
如图5所示,本发明一实施例提供的识别未知流量的网络流量分类的终端设备的示意图。该实施例的识别未知流量的网络流量分类的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如基于信息熵的阈值判断程序。所述处理器执行所述计算机程序时实现上述各个识别未知流量的网络流量分类方法实施例中的步骤,例如图2所示的步骤S1-S3。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如基于信息熵的阈值判断功能。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述识别未知流量的网络流量分类的终端设备中的执行过程。例如,所述计算机程序可以被分割成:基于信息熵的阈值判断模块;网络流量分类模型的增量式学习模块,基于平衡损失的动态自适应模块,各模块具体功能如下:网络流量数据通过初始网络流量分类模型时,基于信息熵的阈值判断法判断所述网络流量数据是否为未知流量;所述未知流量属于新的类别;若所述网络流量数据为已知类别的流量则基于平衡损失的动态自适应算法为所述初始网络流量分类模型加入增量学习所述新的类别的能力,得到实时网络分类模型;把所述新的类别的损失和所述已知类别的蒸馏损失结合为平衡损失来作为所述实时网络分类模型的损失函数。
所述识别未知流量的网络流量分类的终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述识别未知流量的网络流量分类的终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是识别未知流量的网络流量分类的终端设备的示例,并不构成对识别未知流量的网络流量分类的终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述识别未知流量的网络流量分类的终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述识别未知流量的网络流量分类的终端设备的控制中心,利用各种接口和线路连接整个识别未知流量的网络流量分类的终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述识别未知流量的网络流量分类的终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述识别未知流量的网络流量分类的终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (6)

1.一种可识别未知流量的网络流量分类方法,其特征在于,包括构建实时网络分类模型;所述构建实时网络分类模型包括如下步骤:
S1:网络流量数据通过初始网络流量分类模型时,基于信息熵的阈值判断法判断所述网络流量数据是否为未知流量;所述未知流量属于新的类别;步骤S1包括如下步骤:
S11:定义网络流量数据样本的熵为其通过所述初始网络流量分类模型的softmax层后输出向量的熵,即所述网络流量数据样本x在softmax层的输出向量p=[p1,...,pn],其中n为应用类别数,熵为:
Figure FDA0003520822840000011
S12:对于每个已知类别,定义在当前时间段的阈值σ为当前时间段的所有属于所述已知类别的样本的熵的最小值,即:
σ=argminx∈XEntropy(x)
其中X为当前时间段属于所述已知类别的所有样本集合;
S13:网络流量数据通过初始网络流量分类模型时,从softmax层的输出确定其最可能划分到的已知类别t,然后计算所述网络流量数据的熵;
S14:若所述熵小于所述已知类别t的阈值,则判断所述网络流量数据为未知类别流量;反之,所述网络流量数据划入所述已知类别t中;
S2:若所述网络流量数据为已知类别的流量则基于平衡损失的动态自适应算法为所述初始网络流量分类模型加入增量学习所述新的类别的能力,得到实时网络分类模型;对于每一个已知类别,都构建其范例集合,所述已知类别包含m个样本的范例,初始网络流量分类模型的特征提取函数为
Figure FDA0003520822840000014
已知类别的所有范例加上新流量数据共同记为X={x1,x2,...,xn},
当前的所述类别的中心为:
Figure FDA0003520822840000012
构建已知类别的新的范例集合:P={p1,p2,…,pm},构建规则为:
for k=1,...,m do
Figure FDA0003520822840000013
遍历所述初始网络流量分类模型的所有所述已知类别使所述初始网络流量分类模型加入增量学习能力;
S3:把所述新的类别的损失和所述已知类别的蒸馏损失结合为平衡损失来作为所述实时网络分类模型的损失函数;实时网络分类模型的所述新的类别的损失函数就为:
Figure FDA0003520822840000021
已知类别的总的蒸馏损失为:
Figure FDA0003520822840000022
定义平衡损失为:
Lossbalanced=α*Lossnew+(2-α)*Lossprevious
其中,α是平衡参数,其中0<α<2,用于平衡模型的已知类别保留能力和新的类别学习能力;定义所述初始网络流量分类模型和所述实时网络分类模型的最后一层为softmax层;所述网络流量数据的样本为xi,其真实标签为yi,所述初始网络流量分类模型的softmax层的输出为
Figure FDA0003520822840000023
s为所述初始网络流量分类模型的所有所述已知类别的总类别数;所述网络流量数据的样本为xi通过所述实时网络分类模型后第y维的输出值为gy(xi),其中y=1,2,…,t,t为所述实时网络分类模型下的所有所述已知类别的总类别数。
2.如权利要求1所述的可识别未知流量的网络流量分类方法,其特征在于,所述已知类别的样本实时更新,则阈值会随之更新。
3.如权利要求1所述的可识别未知流量的网络流量分类方法,其特征在于,还包括:所述未知流量通过进一步鉴定确定所属的所述新的类别。
4.如权利要求1所述的可识别未知流量的网络流量分类方法,其特征在于,步骤S2包括如下步骤:选取所述已知类的样本作为所述已知类别的范例并基于最近范例均值法为所述初始网络流量分类模型加入增量学习能力。
5.一种可识别未知流量的网络流量分类的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4任一所述方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一所述方法的步骤。
CN201910314329.8A 2019-04-18 2019-04-18 一种可识别未知流量的网络流量分类方法和终端设备 Active CN110011932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910314329.8A CN110011932B (zh) 2019-04-18 2019-04-18 一种可识别未知流量的网络流量分类方法和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910314329.8A CN110011932B (zh) 2019-04-18 2019-04-18 一种可识别未知流量的网络流量分类方法和终端设备

Publications (2)

Publication Number Publication Date
CN110011932A CN110011932A (zh) 2019-07-12
CN110011932B true CN110011932B (zh) 2022-04-05

Family

ID=67172919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910314329.8A Active CN110011932B (zh) 2019-04-18 2019-04-18 一种可识别未知流量的网络流量分类方法和终端设备

Country Status (1)

Country Link
CN (1) CN110011932B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647951A (zh) * 2019-11-27 2020-01-03 南京邮电大学 基于机器学习算法的无线射频设备身份识别方法及系统
CN112118268A (zh) * 2020-09-28 2020-12-22 北京嘀嘀无限科技发展有限公司 一种网络流量判定方法和系统
CN112437022B (zh) * 2020-11-11 2023-05-19 中国科学技术大学先进技术研究院 网络流量识别方法、设备及计算机存储介质
CN112990280B (zh) * 2021-03-01 2023-08-25 华南理工大学 面向图像大数据的类增量分类方法、系统、装置及介质
CN114024726B (zh) * 2021-10-26 2022-09-02 清华大学 在线检测网络流量的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664048B1 (en) * 2003-11-24 2010-02-16 Packeteer, Inc. Heuristic behavior pattern matching of data flows in enhanced network traffic classification
CN106778795A (zh) * 2015-11-24 2017-05-31 华为技术有限公司 一种基于增量学习的分类方法及装置
CN107682216A (zh) * 2017-09-01 2018-02-09 南京南瑞集团公司 一种基于深度学习的网络流量协议识别方法
CN108900432A (zh) * 2018-07-05 2018-11-27 中山大学 一种基于网络流行为的内容感知方法
CN109218223A (zh) * 2018-08-08 2019-01-15 西安交通大学 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN109302378A (zh) * 2018-07-13 2019-02-01 哈尔滨工程大学 一种SDN网络DDoS攻击检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664048B1 (en) * 2003-11-24 2010-02-16 Packeteer, Inc. Heuristic behavior pattern matching of data flows in enhanced network traffic classification
CN106778795A (zh) * 2015-11-24 2017-05-31 华为技术有限公司 一种基于增量学习的分类方法及装置
CN107682216A (zh) * 2017-09-01 2018-02-09 南京南瑞集团公司 一种基于深度学习的网络流量协议识别方法
CN108900432A (zh) * 2018-07-05 2018-11-27 中山大学 一种基于网络流行为的内容感知方法
CN109302378A (zh) * 2018-07-13 2019-02-01 哈尔滨工程大学 一种SDN网络DDoS攻击检测方法
CN109218223A (zh) * 2018-08-08 2019-01-15 西安交通大学 一种基于主动学习的鲁棒性网络流量分类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Byte Segment Neural Network for Network Traffic Classification;R. Li, X. Xiao, S. Ni, H. Zheng and S. Xia;《2018 IEEE/ACM 26th International Symposium on Quality of Service (IWQoS)》;20181231;第1-10页 *
Network Traffic Classification Using Semi-Supervised Approach;A. Shrivastav and A. Tiwari;《2010 Second International Conference on Machine Learning and Computing》;20101231;第345-349页 *
网络流量分类研究与应用;韩春昊;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》;20180415;第2018年卷(第04期);第1-68页 *

Also Published As

Publication number Publication date
CN110011932A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110011932B (zh) 一种可识别未知流量的网络流量分类方法和终端设备
KR102480204B1 (ko) 침입 탐지를 위한 지속적인 학습
US11899786B2 (en) Detecting security-violation-associated event data
CN108347430B (zh) 基于深度学习的网络入侵检测和漏洞扫描方法及装置
US10673903B2 (en) Classification of security rules
CN110059747B (zh) 一种网络流量分类方法
US10375143B2 (en) Learning indicators of compromise with hierarchical models
US20220201042A1 (en) Ai-driven defensive penetration test analysis and recommendation system
US10944791B2 (en) Increasing security of network resources utilizing virtual honeypots
US20230308488A1 (en) Core services detection for a segmented network environment
US11765192B2 (en) System and method for providing cyber security
US11228610B2 (en) System and method for classifying cyber security threats using natural language processing
CN113315742B (zh) 攻击行为检测方法、装置及攻击检测设备
US20170187741A1 (en) Systems and methods for prioritizing indicators of compromise
US10601847B2 (en) Detecting user behavior activities of interest in a network
CN110020532B (zh) 一种信息过滤方法、系统、设备及计算机可读存储介质
Sethi et al. Robust adaptive cloud intrusion detection system using advanced deep reinforcement learning
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
CN114866310A (zh) 一种恶意加密流量检测方法、终端设备及存储介质
Bandi et al. Android Malware Detection Using Machine Learning Classifiers
Lu et al. Anti-Attack Intrusion Detection Model Based on MPNN and Traffic Spatiotemporal Characteristics
US20230156034A1 (en) Real-time threat detection for encrypted communications
CN114765634B (zh) 网络协议识别方法、装置、电子设备及可读存储介质
EP4296872A1 (en) Distributed digital security system for predicting malicious behavior
Shrivastava et al. DoS Defense Using Modified Naive Bayes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant