CN108768883A - 一种网络流量识别方法及装置 - Google Patents

一种网络流量识别方法及装置 Download PDF

Info

Publication number
CN108768883A
CN108768883A CN201810481367.8A CN201810481367A CN108768883A CN 108768883 A CN108768883 A CN 108768883A CN 201810481367 A CN201810481367 A CN 201810481367A CN 108768883 A CN108768883 A CN 108768883A
Authority
CN
China
Prior art keywords
traffic
flow
network
characteristic
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810481367.8A
Other languages
English (en)
Other versions
CN108768883B (zh
Inventor
李鲲程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Security Technologies Co Ltd
Original Assignee
New H3C Security Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Security Technologies Co Ltd filed Critical New H3C Security Technologies Co Ltd
Priority to CN201810481367.8A priority Critical patent/CN108768883B/zh
Publication of CN108768883A publication Critical patent/CN108768883A/zh
Application granted granted Critical
Publication of CN108768883B publication Critical patent/CN108768883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
    • H04L63/0421Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例提供了一种网络流量识别方法及装置,涉及互联网技术领域,其中,上述方法包括:识别所接收网络流量中的云服务流量;确定云服务流量中满足网桥保活机制的流量,作为目标流量;提取目标流量针对流量特征集合中流量特征的特征值;将所提取的特征值输入至预先训练得到的匿名网络流量识别模型,识别目标流量是否为匿名网络流量,匿名网络流量识别模型为:根据样本网络流量集合中的部分流量和流量特征集合中的部分流量特征,训练的随机森林,随机森林包括至少一决策树,决策树的一个节点对应一个流量特征,节点所对应的流量特征具有取值范围。应用本申请实施例提供的方案识别网络流量,能够降低网络流量识别过程中的工作量、提高识别效率。

Description

一种网络流量识别方法及装置
技术领域
本申请涉及互联网技术领域,特别是涉及一种网络流量识别方法及装置。
背景技术
随着互联网技术的快速发展,互联网已经走进大多数人的生活,人们对互联网的依赖程度也越来越大。人们在基于互联网进行通信的过程中,除了关注信息的完整性、真实性以外,越来越多的关注信息的机密性。基于此匿名通信网络的应用越来越多。
然而,匿名通信网络在为合法用户提供身份信息保护的同时,也可能被非法行为或者犯罪行为滥用,给网络安全带来巨大的威胁,尤其是,基于匿名通信网络的流量(简称匿名网络流量)伪装成为云服务流量,进而抵御网络审查。
鉴于此,现有技术中,一些网络设备通常会基于节点访问分析技术识别云服务流量是否为匿名网络流量。若识别结果表征云服务流量为匿名网络流量,对其执行阻断等操作,以保证网络安全。
然而,基于节点访问分析技术对云服务流量进行识别时,需要对云服务流量进行跟踪,得知这一网络流量通过网络访问了哪些节点,并对后续访问节点进行统计分析,当得出疑似匿名网络流量时,已经有很大一部分的网络流量被传输,可见应用上述方式进行网络流量识别过程中工作量大,进而导致识别效率低、阻断效果不理想。
发明内容
本申请实施例的目的在于提供一种网络流量识别方法及装置,以降低网络流量识别过程中的工作量,提高识别效率、并提升阻断效果。具体技术方案如下:
第一方面,本申请实施例提供了一种网络流量识别方法,所述方法包括:
识别所接收网络流量中的云服务流量;
确定所述云服务流量中满足网桥保活机制的流量,作为目标流量;
提取所述目标流量针对流量特征集合中流量特征的特征值;
将所提取的特征值输入至预先训练得到的匿名网络流量识别模型,识别所述目标流量是否为匿名网络流量,其中,所述匿名网络流量识别模型为:根据样本网络流量集合中的部分流量和所述流量特征集合中的部分流量特征,训练的随机森林,所述随机森林包括至少一决策树,所述决策树的一个节点对应一个流量特征,所述节点所对应的流量特征具有取值范围,每一流量特征的取值范围为:在训练所述决策树过程中,当所述流量特征表征网络流量为匿名网络流量的取值范围。
第二方面,本申请实施例提供了一种网络流量识别装置,所述装置包括:
流量识别模块,用于识别所接收网络流量中的云服务流量;
流量确定模块,用于确定所述云服务流量中满足网桥保活机制的流量,作为目标流量;
特征值提取模块,用于提取所述目标流量针对流量特征集合中流量特征的特征值;
流量识别模块,用于将所提取的特征值输入至预先训练得到的匿名网络流量识别模型,识别所述目标流量是否为匿名网络流量,其中,所述匿名网络流量识别模型为:根据样本网络流量集合中的部分流量和所述流量特征集合中的部分流量特征,训练的随机森林,所述随机森林包括至少一决策树,所述决策树的一个节点对应一个流量特征,所述节点所对应的流量特征具有取值范围,每一流量特征的取值范围为:在训练所述决策树过程中,当所述流量特征表征网络流量为匿名网络流量的取值范围。
第三方面,本申请实施例提供了一种网络设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现本申请实施例所述的网络流量识别方法步骤。
第四方面,一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现本申请实施例所述的网络流量识别方法步骤。
由以上可见,本申请实施例提供的方案中,识别所接收网络流量中的云服务流量后,确定云服务流量中满足网桥保活机制的流量,作为目标流量,并提取目标流量针对流量特征集合中流量特征的特征值,然后将所提取的特征值输入至预先训练的匿名网络流量识别模型,识别目标流量是否为匿名网络流量。与现有技术相比,应用本申请实施例提供的方案中识别网络流量时,不需要对网络流量进行跟踪、能够及时进行流量识别,因此降低了网络流量识别过程中的工作量,进而提高了识别效率、提升了阻断效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种网络流量识别方法的流程示意图;
图2为本申请实施例提供的一种决策树训练方法的流程示意图;
图3为本申请实施例提供的一种决策树示意图;
图4为本申请实施例提供的一种组网结构示意图;
图5为本申请实施例提供的一种网络流量识别装置的结构示意图;
图6为本申请实施例提供的一种决策树训练装置的结构示意图;
图7为本申请实施例提供的一种网络设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于现有技术中采用节点访问分析技术识别云服务流量是否为匿名网络流量时,需要对云服务流量进行跟踪,导致网络流量识别过程中工作量大、识别效率低、且阻断效果不理想。为解决这一技术问题,本申请实施例提供了一种网络流量识别方法及装置。
本申请的一个实施例中,提供了一种网络流量识别方法,该方法包括:
识别所接收网络流量中的云服务流量;
确定云服务流量中满足网桥保活机制的流量,作为目标流量;
提取目标流量针对流量特征集合中流量特征的特征值;
将所提取的特征值输入至预先训练得到的匿名网络流量识别模型,识别目标流量是否为匿名网络流量,其中,匿名网络流量识别模型为:根据样本网络流量集合中的部分流量和流量特征集合中的部分流量特征,训练的随机森林,上述随机森林包括至少一决策树,上述决策树的一个节点对应一个流量特征,节点所对应的流量特征具有取值范围,每一流量特征的取值范围为:在训练决策树过程中,当流量特征表征网络流量为匿名网络流量的取值范围。
由以上可见,与现有技术相比,应用本实施例提供的方案中识别网络流量时,不需要对网络流量进行跟踪、能够及时进行流量识别,因此降低了网络流量识别过程中的工作量,进而提高了识别效率、提升了阻断效果。
具体的,本申请实施例提供的网络流量识别方法的执行主体可以为网络中的一台网络设备。
下面先从总体上对本申请实施例提供的网络流量识别方法进行介绍。
基于匿名通信网络进行通信时,可以为用户提供身份信息的保护。例如,上述匿名通信网络可以是Tor(The Onion Router,洋葱路由)匿名通信网络,Tor匿名通信网络采用重路由技术和层层加密技术,在通信过程中能够有效抵御流量分析等各种攻击,为用户提供良好的隐私保护。其中,Tor匿名通信网络中传输的网络流量可以被称为Tor网络流量。
在基于匿名通信网络进行通信过程中有一类网络流量是通过网桥传输后的网络流量,这一类网络流量通常被会伪装成云服务流量,例如,Tor Browser4.0版本中增加了Meek网桥传输插件,它可以把Tor网络流量伪装成基于HTTPS加密的云服务流量,由相应云服务的服务器进行流量转发,从而抵御网络审查。例如,上述云服务可以是亚马逊云服务、微软云服务、谷歌云服务等等。
以Tor匿名通信网络为例,网桥可以是Meek网桥。当然,还可以是其他网桥,本申请并不对此进行限定。
然而,上述基于网桥的网络流量一旦被非法行为或者犯罪行为利用,在不进行网络审查的情况下,为网络安全带来巨大的隐患。鉴于此种情况,发明人对上述基于网桥的网络流量进行了分析,其中伪装成云服务流量的匿名网络流量具有其独特的特征,为此本申请实施例中采用上述特征进行流量识别,高效的识别出云服务流量中基于匿名通信网络的流量,进而及时对伪装成云服务流量的匿名网络流量执行阻断等操作,保证网络安全。
鉴于上述情况,本申请的一个实施例中,参见图1,提供了一种网络流量识别方法的流程示意图,该方法包括如下过程。
S101:识别所接收网络流量中的云服务流量。
一种实现方式中,识别所接收网络流量中的云服务流量时,可以先识别所接收网络流量所属的应用,然后根据网络流量所属的应用,确定所接收网络流量中的云服务流量。
网络流量在传输过程中会经过ACG(Application Control Gateway,应用控制网关)设备,ACG设备可以对经过的网络流量进行识别,识别网络流量所属的应用。又由于不同应用的网络流量类型不同,因此在确定网络流量所属的应用后,则可以根据所确定的应用,确定所接收的网络流量中的云服务流量。
一种实现方式中,ACG设备识别经过的网络流量所属的应用时,可以根据网络流量中包含的应用的标识,识别网络流量所属的应用。
例如,假设亚马逊云服务这一应用的标识为:X,ACG设备对经过的网络流量进行检查,发现网络流量中包含有应用标识X,则ACG设备识别经过的网络流量所属的应用为亚马逊云服务,进一步可以确定这一网络流量为云服务流量。
S102:确定云服务流量中满足网桥保活机制的流量,作为目标流量。
具体的,在确定云服务流量中满足网桥保活机制的流量时,可以检测云服务流量中每间隔预设时长出现保活报文的流量,并将检测到的流量确定为满足网桥保活机制的流量,也就是上述目标流量。
上述网桥保活机制可以理解为:网桥之间的保活机制。基于此,检测云服务流量中每间隔预设时长出现保活报文的流量可以理解为:检测接收到的云服务流量中每间隔预设时长、是否存在对端网桥发送的保活报文,若存在,则可以认为检测到了满足网桥保活机制的流量。
例如:接收到的云服务流量包括流量1、流量2,其中,检测到流量2每间隔2s(即预设时长),就会出现保活报文,则确定流量2为目标流量。
S103:提取目标流量针对流量特征集合中流量特征的特征值。
上述流量特征集合中所包含流量特征的数量可以根据对网络流量识别的精度要求确定,流量特征集合中所包含的流量特征越多,在进行网络流量识别时能够参考的信息就越多,越有利于提高识别准确度。另外,上述流量特征集合中所包含的流量特征还与流量特征对网络流量识别的影响程度相关,流量特征集合中包含影响程度越大的流量特征,越有利于提高识别准确度。
由于不同流量所表现出来的特点不同,所以在不同情况下,同一流量特征对于流量识别结果的影响程度不同。例如,对于满足Meek网桥保活机制的Tor流量而言,在心跳时间以及报文长度上呈现较强的规律性,因此,可以认为与心跳时间和报文长度相关的流量特征对Tor流量的识别结果影响较大,则在识别Tor流量时,流量特征集合中可以包括:网桥心跳保活时间、平均报文长度、最大报文长度、最小报文长度、平均短报文长度、平均长报文长度等。
具体的,上述流量特征集合中可以包括以下特征中的至少一种:
网桥心跳保活时间、流持续时间、流量、平均报文长度、最大报文长度、最小报文长度、平均短报文长度、平均长报文长度、平均Peer数量等。
需要说明的是,本申请仅仅以上述为例进行说明,流量特征集合中所包括的特征并不仅限于上述几种。
S104:将所提取的特征值输入至预先训练得到的匿名网络流量识别模型,识别目标流量是否为匿名网络流量。
其中,匿名网络流量识别模型为:根据样本网络流量集合中的部分流量和流量特征集合中的部分流量特征,训练的随机森林,该随机森林包括至少一决策树,上述决策树的一个节点对应一个流量特征,节点所对应的流量特征具有取值范围,每一流量特征的取值范围为:在训练决策树过程中,当流量特征表征网络流量为匿名网络流量的取值范围。
也就是说,上述匿名网络流量识别模型为:用于识别网络流量是否为匿名网络流量的模型,上述决策树是在随机森林过程中训练的。具体的,上述决策树为:根据样本网络流量集合中的部分流量和上述流量特征集合中的部分流量特征训练的树型结构,每一决策树可以用于判断网络流量是否为匿名网络流量的。
具体的,节点所对应流量特征的取值范围可以是:根据训练决策树过程中采用的流量针对流量特征的特征值,学习到的表征网络流量为匿名网络流量时的范围。
从上述描述可以看出,在随机森林过程中训练了多个决策树,每一个决策树均用来判断网络流量是否为匿名网络流量。这样的情况下,将S103中所提取的特征值输入至匿名网络流量识别模型之后,在这一模型中,每一决策树均会对上述目标流量进行判断,得到多个判断结果,然后根据这多个判断结果可以综合得知目标流量是否为匿名网络流量。
具体的,根据上述多个判断结果确定目标流量是否为匿名网络流量时,可以采用投票方式确定。也就是,统计上述多个判断结果中表征目标流量是匿名网络流量的判断结果数量,并统计上述多个判断结果中表征目标流量不是匿名网络流量的判断结果数量,然后选择上述两个数量中较大者对应的判断结果作为最终的判断结果。
另外,上述每一决策树中节点的数量可以是相同的,也可以是不相同。
由以上可见,上述各个实施例提供的方案中,识别所接收网络流量中的云服务流量后,确定云服务流量中满足网桥保活机制的流量,作为目标流量,并提取目标流量针对流量特征集合中流量特征的特征值,然后将所提取的特征值输入至预先训练的匿名网络流量识别模型,识别目标流量是否为匿名网络流量。与现有技术相比,应用上述各个实施例提供的方案中识别网络流量时,不需要对网络流量进行跟踪、能够及时进行流量识别,因此降低了网络流量识别过程中的工作量,进而提高了识别效率、提升了阻断效果。
下面对上述决策树的训练方法进行详细介绍,通过下述图2所示实施例提供的方案可以训练匿名网络流量识别模型中的每一决策树。
本申请的一个实施例中,参见图2,提供了一种决策树训练方法的流程示意图,该方法包括如下过程。
S201:从样本网络流量集合中选择流量,作为训练样本。
上述样本网络流量集合中可以包括:匿名网络流量和非匿名网络流量。
从样本网络流量集合中选择训练样本时,训练样本的数量可以是预先设定的,训练样本的数量一般小于样本网络流量集合中匿名网络流量的总数量。在训练每一决策树时,选择的作为训练样本的匿名网络流量可以是相同的,也可以是不同的。另外,在从样本网络流量集合中选择训练样本时,可以采用随机选择的方式进行训练样本选择。
S202:从流量特征集合中选择流量特征,作为训练特征。
与选择训练样本的方式相类似,从流量特征集合中选择训练特征时,训练特征的数量可以是预先设定的,训练特征的数量一般小于流量特征集合中流量特征的总数量。在训练每一决策树时,选择的作为训练特征的流量特征可以是相同的,也可以是不同的。另外,在从流量特征集合中选择训练特征时,可以采用随机选择的方式进行训练特征选择。
具体的,上述训练特征中可以包括以下特征中的至少一种:
网桥心跳保活时间、流持续时间、流速、平均报文长度、最大报文长度、最小报文长度、平均短报文长度、平均长报文长度、平均Peer数量。
S203:获得各个训练样本针对每一训练特征的特征值。
S204:根据所获得的特征值对决策树进行分裂,确定各个训练特征在决策树中对应的节点,并在分裂过程中学习表征网络流量为匿名网络流量时每一训练特征的取值范围,进而训练完成决策树。
根据所获得特征值对决策树进行分裂时,分裂至不能分裂为止,也就是任由决策树生长,不对其进行剪枝。
下面以匿名网络流量为Tor网络流量为例,结合图3所示的具体实例对决策树的分裂、确定各个训练特征在决策树中对应的节点以及学习每一训练特征在网络流量为匿名网络流量时范围的过程进行介绍。
假设,从流量特征集合中选择的训练特征包括:平均报文长度、流速和最大报文长度;
从样本网络流量集合选择了训练样本1-训练样本5共计5个训练样本;
上述5个训练样本针对训练特征的特征值如下表1所示。
表1
基于上述表1记录的信息,决策树的分裂、确定各个训练特征在决策树中对应的节点以及学习每一训练特征在网络流量为匿名网络流量时范围的过程如下。
A:确定平均报文长度对应于决策树的根节点,也就是,决策树的根节点对应的训练特征为:平均报文长度。根据表1中训练样本1-训练样本5的数据可知,平均报文长度在网络流量为匿名网络流量时取值范围可以为:[120bit,160bit)。
经过本次分裂后,确定根节点的子节点对应的训练特征时,能够依据的训练样本为:训练样本1、训练样本3和训练样本4。
B:确定流速对应于决策树根节点的子节点,记为子节点M,也就是,决策树中子节点M对应的训练特征为:流速。根据表1中训练样本1、训练样本3和训练样本4的数据可知,流量在网络流量为匿名网络流量时范围可以为:不小于8kbps。
经过本次分裂后,确定子节点M的子节点对应的训练特征时,能够依据的训练样本为:训练样本1、训练样本3和训练样本4。
C:确定最大报文长度对应于子节点M的子节点,记为子节点N,也就是,决策树中子节点N对应的训练特征为:最大报文长度。根据表1中训练样本1、训练样本3和训练样本4的数据可知,流量在网络流量为匿名网络流量时范围可以为:不小于600bit。
经过上述步骤A-C可见决策树已无法再进行分裂,因此,完成了决策树的创建,所创建的决策树如图3所示。
具体的,在确定各个训练特征在决策树中对应的节点时,可以依据不纯度的数学定义确定各个训练特征在决策树中对应的节点。上述不纯度为通过编程方式实现决策树过程中的一个专业术语。其中,不纯度取值越小,表明纯度越高,分类效果越好。
基于上述情况,在确定决策树中每一个节点对应的训练特征时,基本原则可以是:使得确定后续节点对应的训练特征时所使用的特征值尽可能的“纯”,也就是,经决策树中每一节点分类后,得到尽可能准确的分类结果。
具体的,上述不纯度数学定义可以是以熵不纯度公式、Gini不纯度公式、误分类不纯度公式等表示的。
从本实施例提供的方案可见,训练每个决策树时所使用的信息互不影响,因此可以以并行化训练决策树,从而可以高效的训练决策树,从而高效的训练匿名网络流量识别模型。
下面再结合图4所示的组网结构示意图,对网络流量识别过程进行详细说明。
图4所示的组网结构中包括:ACG设备和网络设备M。假设,亚马逊云服务这一应用的标识为:X,流量特征集合中包括:平均报文长度、流速和最大报文长度三个流量特征。
工作过程中,ACG设备接收网络流量,假设,ACG设备对接收到的网络流量进行检查后,发现网络流量中包含有应用标识X,则ACG设备根据上述应用标识X,识别接收到的网络流量所属的应用为亚马逊云服务。这种情况下,ACG设备将上述来自亚马逊云服务的流量发送至网络设备M。网络设备M接收ACG设备发送的网络流量,并根据ACG设备的识别结果可以得知上述网络流量为云服务流量。
网络设备M从上述来自亚马逊云服务的云服务流量中,确定满足网桥保活机制的流量,得到目标流量,然后分别提取目标流量针对平均报文长度、流速和最大报文长度这三个流量特征的特征值,记为:O、P、Q,将O、P、Q输入至上述匿名网络流量识别模型,获得匿名网络流量识别模型输出的识别结果,这一识别结果表明了上述来自亚马逊云服务的网络流量是否为匿名网络流量。
与上述网络流量识别方法相对应,本申请实施例还提供了一种网络流量识别装置。
图5为本请实施例提供的一种网络流量识别装置的结构示意图,该装置包括:
流量识别模块401,用于识别所接收网络流量中的云服务流量;
流量确定模块402,用于确定所述云服务流量中满足网桥保活机制的流量,作为目标流量;
特征值提取模块403,用于提取所述目标流量针对流量特征集合中流量特征的特征值;
流量识别模块404,用于将所提取的特征值输入至预先训练得到的匿名网络流量识别模型,识别所述目标流量是否为匿名网络流量,其中,所述匿名网络流量识别模型为:根据样本网络流量集合中的部分流量和所述流量特征集合中的部分流量特征,训练的随机森林,所述随机森林包括至少一决策树,所述决策树的一个节点对应一个流量特征,所述节点所对应的流量特征具有取值范围,每一流量特征的取值范围为:在训练所述决策树过程中,当所述流量特征表征网络流量为匿名网络流量的取值范围。
本申请的一种实现方式中,所述流量特征集合中可以包括以下特征中的至少一种:
网桥心跳保活时间、流持续时间、流量、平均报文长度、最大报文长度、最小报文长度、平均短报文长度、平均长报文长度、平均Peer数量。
本申请的一种实现方式中,所述流量确定模块402,可以包括:
流量检测单元,用于检测所述云服务流量中间隔预设时长存在保活报文的流量;
第一流量确定单元,用于将检测到的流量确定为满足网桥保活机制的流量。
本申请的一种实现方式中,所述流量识别模块401,可以包括:
应用识别单元,用于识别所接收网络流量所属的应用;
第二流量确定单元,用于根据网络流量所属的应用,确定所接收网络流量中的云服务流量。
由以上可见,上述各个实施例提供的方案中,识别所接收网络流量中的云服务流量后,确定云服务流量中满足网桥保活机制的流量,作为目标流量,并提取目标流量针对流量特征集合中流量特征的特征值,然后将所提取的特征值输入至预先训练的匿名网络流量识别模型,识别目标流量是否为匿名网络流量。与现有技术相比,应用上述各个实施例提供的方案中识别网络流量时,不需要对网络流量进行跟踪、能够及时进行流量识别,因此降低了网络流量识别过程中的工作量,进而提高了识别效率、提升了阻断效果。
本申请的一个实施例中,参见图6,提供了一种决策树训练装置的结构示意图,该装置可以称之为决策树训练模块,用于训练所述决策树;
其中,所述决策树训练模块,包括:
流量选择单元501,用于从所述样本网络流量集合中选择流量,作为训练样本;
特征选择单元502,用于从所述流量特征集合中选择流量特征,作为训练特征;
特征值获得单元503,用于获得各个训练样本针对每一训练特征的特征值;
决策树训练单元504,用于根据所获得的特征值对决策树进行分裂,确定各个训练特征在决策树中对应的节点,并在分裂过程中学习表征网络流量为匿名网络流量时每一训练特征的取值范围,进而训练完成所述决策树。
由以上可见,从本实施例提供的方案可见,训练每个决策树时所使用的信息互不影响,因此可以以并行化训练决策树,从而可以高效的训练决策树,从而高效的训练匿名网络流量识别模型。
与上述网络流量识别方法及网络流量识别装置相对应,本申请实施例还提供了一种网络设备。
图7为本申请实施例提供的一种网络设备的结构示意图,该网络设备包括:处理器601和机器可读存储介质602,所述机器可读存储介质602存储有能够被所述处理器601执行的机器可执行指令,所述处理器601被所述机器可执行指令促使:实现本申请实施例提供的网络流量识别方法。
本申请的一个实施例中,上述网络流量识别方法,包括:
识别所接收网络流量中的云服务流量;
确定所述云服务流量中满足网桥保活机制的流量,作为目标流量;
提取所述目标流量针对流量特征集合中流量特征的特征值;
将所提取的特征值输入至预先训练得到的匿名网络流量识别模型,识别所述目标流量是否为匿名网络流量,其中,所述匿名网络流量识别模型为:根据样本网络流量集合中的部分流量和所述流量特征集合中的部分流量特征,训练的随机森林,所述随机森林包括至少一决策树,所述决策树的一个节点对应一个流量特征,所述节点所对应的流量特征具有取值范围,每一流量特征的取值范围为:在训练所述决策树过程中,当所述流量特征表征网络流量为匿名网络流量的取值范围。
需要说明的是,上述处理器被机器可执行指令促使所实现网络流量识别方法的其他实施例与前述方法实施例部分提供的实施例相同,这里不再赘述。
上述机器可读存储介质可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由以上可见,本实施例提供的方案中,网络设备识别所接收网络流量中的云服务流量后,确定云服务流量中满足网桥保活机制的流量,作为目标流量,并提取目标流量针对流量特征集合中流量特征的特征值,然后将所提取的特征值输入至预先训练的匿名网络流量识别模型,识别目标流量是否为匿名网络流量。与现有技术相比,应用本实施例提供的方案中识别网络流量时,不需要对网络流量进行跟踪、能够及时进行流量识别,因此降低了网络流量识别过程中的工作量,进而提高了识别效率、提升了阻断效果。
与上述网络流量识别方法及网络流量识别装置相对应,本申请实施例还提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现本申请实施例提供的网络流量识别方法。
本申请的一个实施例中,上述网络流量识别方法,包括:
识别所接收网络流量中的云服务流量;
确定所述云服务流量中满足网桥保活机制的流量,作为目标流量;
提取所述目标流量针对流量特征集合中流量特征的特征值;
将所提取的特征值输入至预先训练得到的匿名网络流量识别模型,识别所述目标流量是否为匿名网络流量,其中,所述匿名网络流量识别模型为:根据样本网络流量集合中的部分流量和所述流量特征集合中的部分流量特征,训练的随机森林,所述随机森林包括至少一决策树,所述决策树的一个节点对应一个流量特征,所述节点所对应的流量特征具有取值范围,每一流量特征的取值范围为:在训练所述决策树过程中,当所述流量特征表征网络流量为匿名网络流量的取值范围。
需要说明的是,上述机器可执行指令促使处理器实现的网络流量识别方法的其他实施例与前述方法实施例部分提供的实施例相同,这里不再赘述。
由以上可见,本实施例提供的方案中,通过执行上述机器可读存储介质中存储的机器可执行指令,识别所接收网络流量中的云服务流量后,确定云服务流量中满足网桥保活机制的流量,作为目标流量,并提取目标流量针对流量特征集合中流量特征的特征值,然后将所提取的特征值输入至预先训练的匿名网络流量识别模型,识别目标流量是否为匿名网络流量。与现有技术相比,应用本实施例提供的方案中识别网络流量时,不需要对网络流量进行跟踪、能够及时进行流量识别,因此降低了网络流量识别过程中的工作量,进而提高了识别效率、提升了阻断效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、网络设备和机器可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (10)

1.一种网络流量识别方法,其特征在于,所述方法包括:
识别所接收网络流量中的云服务流量;
确定所述云服务流量中满足网桥保活机制的流量,作为目标流量;
提取所述目标流量针对流量特征集合中流量特征的特征值;
将所提取的特征值输入至预先训练得到的匿名网络流量识别模型,识别所述目标流量是否为匿名网络流量,其中,所述匿名网络流量识别模型为:根据样本网络流量集合中的部分流量和所述流量特征集合中的部分流量特征,训练的随机森林,所述随机森林包括至少一决策树,所述决策树的一个节点对应一个流量特征,所述节点所对应的流量特征具有取值范围,每一流量特征的取值范围为:在训练所述决策树过程中,当所述流量特征表征网络流量为匿名网络流量的取值范围。
2.根据权利要求1所述的方法,其特征在于,通过以下方式训练所述决策树:
从所述样本网络流量集合中选择流量,作为训练样本;
从所述流量特征集合中选择流量特征,作为训练特征;
获得各个训练样本针对每一训练特征的特征值;
根据所获得的特征值对决策树进行分裂,确定各个训练特征在决策树中对应的节点,并在分裂过程中学习表征网络流量为匿名网络流量时每一训练特征的取值范围,进而训练完成所述决策树。
3.根据权利要求1或2所述的方法,其特征在于,所述流量特征集合中包括以下特征中的至少一种:
网桥心跳保活时间、流持续时间、流量、平均报文长度、最大报文长度、最小报文长度、平均短报文长度、平均长报文长度、平均Peer数量。
4.根据权利要求1或2所述的方法,其特征在于,所述确定所述云服务流量中满足网桥保活机制的流量,包括:
检测所述云服务流量中间隔预设时长存在保活报文的流量;
将检测到的流量确定为满足网桥保活机制的流量。
5.根据权利要求1或2所述的方法,其特征在于,所述识别所接收网络流量中的云服务流量,包括:
识别所接收网络流量所属的应用;
根据网络流量所属的应用,确定所接收网络流量中的云服务流量。
6.一种网络流量识别装置,其特征在于,所述装置包括:
流量识别模块,用于识别所接收网络流量中的云服务流量;
流量确定模块,用于确定所述云服务流量中满足网桥保活机制的流量,作为目标流量;
特征值提取模块,用于提取所述目标流量针对流量特征集合中流量特征的特征值;
流量识别模块,用于将所提取的特征值输入至预先训练得到的匿名网络流量识别模型,识别所述目标流量是否为匿名网络流量,其中,所述匿名网络流量识别模型为:根据样本网络流量集合中的部分流量和所述流量特征集合中的部分流量特征,训练的随机森林,所述随机森林包括至少一决定树,所述决策树的一个节点对应一个流量特征,所述节点所对应的流量特征具有取值范围,每一流量特征的取值范围为:在训练所述决策树过程中,当所述流量特征表征网络流量为匿名网络流量的取值范围。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
决策树训练模块,用于训练所述决策树;其中,
所述决策树训练模块,包括:
流量选择单元,用于从所述样本网络流量集合中选择流量,作为训练样本;
特征选择单元,用于从所述流量特征集合中选择流量特征,作为训练特征;
特征值获得单元,用于获得各个训练样本针对每一训练特征的特征值;
决策树训练单元,用于根据所获得的特征值对决策树进行分裂,确定各个训练特征在决策树中对应的节点,并在分裂过程中学习表征网络流量为匿名网络流量时每一训练特征的取值范围,进而训练完成所述决策树。
8.根据权利要求6或7所述的装置,其特征在于,所述流量特征集合中包括以下特征中的至少一种:
网桥心跳保活时间、流持续时间、流量、平均报文长度、最大报文长度、最小报文长度、平均短报文长度、平均长报文长度、平均Peer数量。
9.根据权利要求6或7所述的装置,其特征在于,所述流量确定模块,包括:
流量检测单元,用于检测所述云服务流量中间隔预设时长存在保活报文的流量;
第一流量确定单元,用于将检测到的流量确定为满足网桥保活机制的流量。
10.根据权利要求6或7所述的装置,其特征在于,所述流量识别模块,包括:
应用识别单元,用于识别所接收网络流量所属的应用;
第二流量确定单元,用于根据网络流量所属的应用,确定所接收网络流量中的云服务流量。
CN201810481367.8A 2018-05-18 2018-05-18 一种网络流量识别方法及装置 Active CN108768883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810481367.8A CN108768883B (zh) 2018-05-18 2018-05-18 一种网络流量识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810481367.8A CN108768883B (zh) 2018-05-18 2018-05-18 一种网络流量识别方法及装置

Publications (2)

Publication Number Publication Date
CN108768883A true CN108768883A (zh) 2018-11-06
CN108768883B CN108768883B (zh) 2022-04-22

Family

ID=64008452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810481367.8A Active CN108768883B (zh) 2018-05-18 2018-05-18 一种网络流量识别方法及装置

Country Status (1)

Country Link
CN (1) CN108768883B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617761A (zh) * 2018-12-10 2019-04-12 北京明朝万达科技股份有限公司 一种主备服务器切换方法及装置
CN109951444A (zh) * 2019-01-29 2019-06-28 中国科学院信息工程研究所 一种加密匿名网络流量识别方法
CN110009016A (zh) * 2019-03-25 2019-07-12 新华三信息安全技术有限公司 特征提取方法及装置
CN110149280A (zh) * 2019-05-27 2019-08-20 中国科学技术大学 网络流量分类方法和装置
CN110691073A (zh) * 2019-09-19 2020-01-14 中国电子科技网络信息安全有限公司 一种基于随机森林的工控网络暴力破解流量检测方法
CN111131185A (zh) * 2019-12-06 2020-05-08 中国电子科技网络信息安全有限公司 基于机器学习的can总线网络异常检测方法及装置
CN111130950A (zh) * 2019-12-31 2020-05-08 中国联合网络通信集团有限公司 网络流量的评估方法及装置
CN111224940A (zh) * 2019-11-15 2020-06-02 中国科学院信息工程研究所 一种嵌套在加密隧道中的匿名服务流量关联识别方法及系统
CN111698730A (zh) * 2019-03-15 2020-09-22 阿里巴巴集团控股有限公司 流量控制方法、操作系统、端设备及分布式系统
CN112235254A (zh) * 2020-09-22 2021-01-15 东南大学 一种高速主干网中Tor网桥的快速识别方法
WO2021098313A1 (zh) * 2019-11-21 2021-05-27 北京京东乾石科技有限公司 基于区块链的主机安全监控方法、装置、介质及电子设备
CN113630367B (zh) * 2020-05-07 2023-04-28 北京观成科技有限公司 一种匿名流量的识别方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100251329A1 (en) * 2009-03-31 2010-09-30 Yottaa, Inc System and method for access management and security protection for network accessible computer services
US20160294614A1 (en) * 2014-07-07 2016-10-06 Symphony Teleca Corporation Remote Embedded Device Update Platform Apparatuses, Methods and Systems
US20170134479A1 (en) * 2011-07-05 2017-05-11 Avinash Kalgi Hybrid applications utilizing distributed models and views apparatuses, methods and systems
US20170177879A1 (en) * 2015-11-20 2017-06-22 International Business Machines Corporation Crowd-sourced security analysis
CN107070954A (zh) * 2017-06-12 2017-08-18 安徽师范大学 基于匿名的信任评价方法
CN107612843A (zh) * 2017-09-27 2018-01-19 国云科技股份有限公司 一种防止云平台ip和mac伪造的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100251329A1 (en) * 2009-03-31 2010-09-30 Yottaa, Inc System and method for access management and security protection for network accessible computer services
US20170134479A1 (en) * 2011-07-05 2017-05-11 Avinash Kalgi Hybrid applications utilizing distributed models and views apparatuses, methods and systems
US20160294614A1 (en) * 2014-07-07 2016-10-06 Symphony Teleca Corporation Remote Embedded Device Update Platform Apparatuses, Methods and Systems
US20170177879A1 (en) * 2015-11-20 2017-06-22 International Business Machines Corporation Crowd-sourced security analysis
CN107070954A (zh) * 2017-06-12 2017-08-18 安徽师范大学 基于匿名的信任评价方法
CN107612843A (zh) * 2017-09-27 2018-01-19 国云科技股份有限公司 一种防止云平台ip和mac伪造的方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617761A (zh) * 2018-12-10 2019-04-12 北京明朝万达科技股份有限公司 一种主备服务器切换方法及装置
CN109951444A (zh) * 2019-01-29 2019-06-28 中国科学院信息工程研究所 一种加密匿名网络流量识别方法
CN109951444B (zh) * 2019-01-29 2020-05-22 中国科学院信息工程研究所 一种加密匿名网络流量识别方法
CN111698730A (zh) * 2019-03-15 2020-09-22 阿里巴巴集团控股有限公司 流量控制方法、操作系统、端设备及分布式系统
CN111698730B (zh) * 2019-03-15 2023-11-21 斑马智行网络(香港)有限公司 流量控制方法、操作系统、端设备及分布式系统
CN110009016A (zh) * 2019-03-25 2019-07-12 新华三信息安全技术有限公司 特征提取方法及装置
CN110009016B (zh) * 2019-03-25 2021-08-27 新华三信息安全技术有限公司 特征提取方法及装置
CN110149280A (zh) * 2019-05-27 2019-08-20 中国科学技术大学 网络流量分类方法和装置
CN110149280B (zh) * 2019-05-27 2020-08-28 中国科学技术大学 网络流量分类方法和装置
CN110691073A (zh) * 2019-09-19 2020-01-14 中国电子科技网络信息安全有限公司 一种基于随机森林的工控网络暴力破解流量检测方法
CN111224940A (zh) * 2019-11-15 2020-06-02 中国科学院信息工程研究所 一种嵌套在加密隧道中的匿名服务流量关联识别方法及系统
CN111224940B (zh) * 2019-11-15 2021-03-09 中国科学院信息工程研究所 一种嵌套在加密隧道中的匿名服务流量关联识别方法及系统
WO2021098313A1 (zh) * 2019-11-21 2021-05-27 北京京东乾石科技有限公司 基于区块链的主机安全监控方法、装置、介质及电子设备
CN111131185B (zh) * 2019-12-06 2022-12-09 中国电子科技网络信息安全有限公司 基于机器学习的can总线网络异常检测方法及装置
CN111131185A (zh) * 2019-12-06 2020-05-08 中国电子科技网络信息安全有限公司 基于机器学习的can总线网络异常检测方法及装置
CN111130950A (zh) * 2019-12-31 2020-05-08 中国联合网络通信集团有限公司 网络流量的评估方法及装置
CN113630367B (zh) * 2020-05-07 2023-04-28 北京观成科技有限公司 一种匿名流量的识别方法、装置及电子设备
CN112235254A (zh) * 2020-09-22 2021-01-15 东南大学 一种高速主干网中Tor网桥的快速识别方法

Also Published As

Publication number Publication date
CN108768883B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN108768883B (zh) 一种网络流量识别方法及装置
CN112398779B (zh) 一种网络流量数据分析方法及系统
CN110213227B (zh) 一种网络数据流检测方法及装置
US10742669B2 (en) Malware host netflow analysis system and method
Cucchiarelli et al. Algorithmically generated malicious domain names detection based on n-grams features
Wan et al. Feature-selection-based ransomware detection with machine learning of data analysis
CN111355697B (zh) 僵尸网络域名家族的检测方法、装置、设备及存储介质
Haddadi et al. Botnet behaviour analysis using ip flows: with http filters using classifiers
CN113469366B (zh) 一种加密流量的识别方法、装置及设备
Krishnaveni et al. Ensemble approach for network threat detection and classification on cloud computing
CN111224941B (zh) 一种威胁类型识别方法及装置
CN110611640A (zh) 一种基于随机森林的dns协议隐蔽通道检测方法
CN113992349B (zh) 恶意流量识别方法、装置、设备和存储介质
CN111245784A (zh) 多维度检测恶意域名的方法
CN110222790B (zh) 用户身份识别方法、装置及服务器
Pellegrino et al. Learning behavioral fingerprints from netflows using timed automata
Kozik et al. Pattern extraction algorithm for NetFlow‐based botnet activities detection
CN107209834A (zh) 恶意通信模式提取装置、恶意通信模式提取系统、恶意通信模式提取方法及恶意通信模式提取程序
CN114338064A (zh) 识别网络流量类型的方法、装置、设备和存储介质
Wang et al. Botnet detection using social graph analysis
Elekar Combination of data mining techniques for intrusion detection system
CN110602020A (zh) 一种基于dga域名和周期性网络连接会话行为的僵尸网络检测技术
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法
Oudah et al. A novel features set for internet traffic classification using burstiness
CN117579379A (zh) 恶意加密流量的检测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant