CN112437022B - 网络流量识别方法、设备及计算机存储介质 - Google Patents
网络流量识别方法、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN112437022B CN112437022B CN202011264614.2A CN202011264614A CN112437022B CN 112437022 B CN112437022 B CN 112437022B CN 202011264614 A CN202011264614 A CN 202011264614A CN 112437022 B CN112437022 B CN 112437022B
- Authority
- CN
- China
- Prior art keywords
- network
- flow
- graph
- data
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000003860 storage Methods 0.000 title claims description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 35
- 238000010586 diagram Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000006854 communication Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种网络流量识别方法、设备及介质,该方法包括:预处理采集到的网络数据,提取每一个网络会话的特征信息,生成流量日志;基于流量日志,构建预设时间段内的第一形式流量图;在第一形式流量图中增加构建服务器端节点之间相关性的相关边,生成第二形式流量图;利用第二形式流量图的数据对图神经网络进行训练,生成网络流量识别模型;将未知流量转换为第二形式流量图输入网络流量识别模型;网络流量识别模型将未知流量的第二形式流量图和自身学习到的图模式进行匹配;当匹配程度大于预设阈值时,则判定所述未知流量对应的图模式,从而确定未知流量对应的网络应用。本发明实现构建异构图训练网络流量识别模型判定图模式以及网络应用。
Description
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种网络流量识别方法。
背景技术
流量识别是网络运营商所需的重要技术,它有助于运营商和网络管理者合理调度网络带宽资源,保障用户QoE,提升网络管理水平,改善网络服务质量。随着互联网和在线服务的飞速发展,流量识别越来越重要。
传统的流量识别方法主要是基于端口的检测,然而随着网络技术的发展,网络协议越来越多的采用随机端口号进行通讯。此时另一种方法被提出来,就是深度包检测技术(DPI)。但这种方法的缺点是只能识别已知的协议,需要花费较多的人工去分析协议,并且识别过程需要较大的运算量,对于加密流量无能为力。对于加密流量,基于统计学的方法是目前较为广泛的流量识别方法。这种方法主要研究流量的数据包特征和数据流特征,在提取特征后通过机器学习、模式识别或者深度学习的方法来建模,最后通过模型来完成对未知流量的识别。
在将传统深度学习的技术应用到加密流量检测中时,这两个特点就成为了限制:其一,网络流量及其特征并非天然的存在于欧式空间,因此许多基于卷积神经网络的加密流量检测方法为了将流量特征转化到欧式空间,对这些特征进行了简单的拼接甚至重复,形式上地映射到欧式空间以期卷积神经网络能自动提取其潜在的特征。但是,由于在深度学习中大量采用的卷积操作只能提取欧式空间中每个数据点及其附近的数据点的特征,因此这种方法会受限于特征的排布方式。其二,在实际的网络流量中,同一个网络应用往往产生多个数据流,这些流相互之间有着密切的联系,而深度学习的方法往往将这些流独立看待,期望从这些流本身的字节分布特征和流特征上识别出特定的网络应用,这就忽视了相同网络应用产生的不同数据流之间的联系。
相比于传统的深度学习基于流的加密流量识别的缺陷,考虑多条数据流的关系,综合识别网络应用,有很大的优势,能大大提高识别的性能。而图神经网络更加合适用于面向多条数据流综合关联分析的网络数据流量识别。
发明内容
有鉴于此,提供一种网络流量识别方法,解决网络流量识别正确率低的问题。
本申请实施例提供了一种网络流量识别方法,所述方法包括:
预处理采集到的网络数据,提取每一个网络会话的特征信息,生成流量日志;
基于所述流量日志,构建预设时间段内的第一形式流量图;
在所述第一形式流量图中增加构建服务器端节点之间相关性的相关边,生成第二形式流量图;
利用所述第二形式流量图的数据对图神经网络进行训练,生成网络流量识别模型;
将未知流量转换为第二形式流量图输入所述网络流量识别模型;
所述网络流量识别模型将未知流量的第二形式流量图和自身学习到的图模式进行匹配;
当匹配程度大于预设阈值时,则判定所述未知流量对应的图模式,从而确定未知流量对应的网络应用。
在一实施例中,所述增加构建所述服务器端节点之间相关性的相关边,包括:
根据预设方法计算所有服务器端节点之间的相关性;
基于所述相关性,根据预设条件构建相关边。
在一实施例中,所述服务器端节点之间相关性由节点时间关联度表示,所述节点时间关联度由两个节点之间的共同活跃时间确定。
在一实施例中,所述第一形式流量图具有图的数据结构,其中:
将网络中的节点划分为服务器端节点和客户端节点;
所述服务器端节点与所述客户端节点之间的数据流为边;其中所述流量日志为数据流的参数。
在一实施例中,所述第二形式流量图为包含以下类型成分的异构图:
所述客户端节点、所述服务器端节点、所述服务器端节点与客户端节点之间表示数据流的边、所述服务器端节点之间相关性的相关边。
在一实施例中,所述特征信息包括以下至少之一:
开始时间、持续时间、字节数序列、互联网协议地址、端口号。
在一实施例中,所述利用所述第二形式流量图的数据对图神经网络进行训练,包括:
归集所述第二形式流量图预设范围内的数据;其中所述预设范围内的数据包括节点特征、邻居节点特征以及邻居边特征;
对所述预设范围内的数据进行卷积计算,利用以下公式:
其中,表示第/>层中节点/>的特征,为一个向量;/>为一个非线性函数relu;/>为节点/>的邻居节点;/>为归集函数,表示归集邻居特征的方式;/>为权重参数,函数得出最后输出的下一层对应节点的特征。
在一实施例中,所述利用所述第二形式流量图的数据对图神经网络进行训练,还包括:
将训练生成的识别结果与所述标注的数据进行比对;
将所述比对的结果反向传播,更新所述图神经网络内部的参数。
为实现上述目的,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有网络流量识别程序,所述网络流量识别程序被处理器执行时实现上述任一所述的方法的步骤。
为实现上述目的,还提供一种网络流量识别设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络流量识别程序,所述处理器执行所述网络流量识别程序时实现上述任一所述的方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:预处理采集到的网络数据,提取每一个网络会话的特征信息,生成流量日志;对原始网络数据进行采集,并提取特征信息,为生成高质量训练集提供数据支持。基于所述流量日志,构建预设时间段内的第一形式流量图;第一形式流量图中包含了客户端节点与服务器端节点,以及客户端节点与服务器端节点的数据流的边,保证数据流在网络流量识别模型中的作用。在所述第一形式流量图中增加构建服务器端节点之间相关性的相关边,生成第二形式流量图;在第一形式流量图的基础上,增加服务器端节点之间的相关性作为训练图神经网络的特征之一,保证服务器端节点之间的相关性在网络流量识别模型中的作用。利用所述第二形式流量图的数据对图神经网络进行训练,生成网络流量识别模型;图可以非常灵活的表示流量的特征,同时通过边将各个节点联系起来,使得图具有识别节点之间关系特征的潜力,图神经网络应用于网络流量的识别,挖掘了图神经网络的潜力,同时保证了关系特征在网络流量识别中的作用。将未知流量转换为第二形式流量图输入所述网络流量识别模型;所述网络流量识别模型将未知流量的第二形式流量图和自身学习到的图模式进行匹配;当匹配程度大于预设阈值时,则判定所述未知流量对应的图模式,从而确定未知流量对应的网络应用。本发明解决网络流量识别正确率低的问题,基于四种不同类型成分的异构图对图神经网络进行训练,获得网络流量识别模型,并利用网络流量识别模型对网络流量以及对应的网络应用进行正确的判断。
附图说明
图1为本发明实施例中涉及的网络流量识别方法的硬件架构示意图;
图2为本发明网络流量识别方法的第一实施例的流程示意图;
图3为本发明网络流量识别方法中第二形式流量图的构建示意图
图4为本发明网络流量识别方法第一实施例中步骤S130的具体流程示意图;
图5为本发明网络流量识别方法第一实施例中步骤S140的具体流程示意图;
图6为本发明网络流量识别方法第一实施例中步骤S140的具体流程示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:预处理采集到的网络数据,提取每一个网络会话的特征信息,生成流量日志;基于流量日志,构建预设时间段内的第一形式流量图;在第一形式流量图中增加构建服务器端节点之间相关性的相关边,生成第二形式流量图;利用第二形式流量图的数据对图神经网络进行训练,生成网络流量识别模型;将未知流量转换为第二形式流量图输入网络流量识别模型;网络流量识别模型将未知流量的第二形式流量图和自身学习到的图模式进行匹配;当匹配程度大于预设阈值时,则判定所述未知流量对应的图模式,从而确定未知流量对应的网络应用。本发明解决网络流量识别正确率低的问题,实现利用图神经网络判定网络流量的图模式以及对应的网络应用。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本申请涉及一种网络流量识别设备包括如图1所示:至少一个处理器012、存储器011。
处理器012可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器012中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器012可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器011,处理器012读取存储器011中的信息,结合其硬件完成上述方法的步骤。
可以理解,本发明实施例中的存储器011可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ReadOnly Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的 RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器 (Synch link DRAM,SLDRAM) 和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本发明实施例描述的系统和方法的存储器011旨在包括但不限于这些和任意其它适合类型的存储器。
参照图2,图2为本发明网络流量识别方法的第一实施例,所述方法包括:
步骤S110:预处理采集到的网络数据,提取每一个网络会话的特征信息,生成流量日志。
预处理可以是预先做的准备工作,对网络数据进行预处理;
在两台主机之间的一次数据通信过程称之为一个会话(Conversation),或称为双向流。
特征信息将构成数据流图中每个节点的节点特征。
网络设备、系统及服务程序等,在运作时都会产生一个叫log(日志)的事件记录;每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。
流量日志可以是对流量产生的开始时间,持续时间、IP地址、端口号等进行记录。
步骤S120:基于所述流量日志,构建预设时间段内的第一形式流量图。
构建预设时间段内的第一形式流量图是为了控制第一形式流量图的范围和构建的时间,保证能够更加精确快速的生成训练集,保证网络流量识别的正确性。
步骤S130:在所述第一形式流量图中增加构建服务器端节点之间相关性的相关边,生成第二形式流量图。
第二形式流量图是在第一形式流量图的基础上加入服务器端节点之间的相关性的相关边,将服务器端节点之间的相关性加入到训练特征中,更加有助于图神经网络的训练,从而保证网络流量识别模型的正确率。
如图3所示为第二形式流量图的构建示意图,其中为c客户端节点,s为服务器端节点,e为服务端节点与客户端节点之间的表示数据流的边,e'为表示服务器节点之间相关性的相关边。
在第一形式流量图中包含客户端节点、服务器节点以及服务端节点与客户端节点之间的表示数据流的边。在第一形式流量图的基础上,增加构建服务器节点之间的相关性的相关边,生成第二形式流量图。
步骤S140:利用所述第二形式流量图的数据对图神经网络进行训练,生成网络流量识别模型。
网络流量识别模型用于将未知流量转换为第二形式流量图的数据与自身学习到的多种图模式进行匹配。
步骤S150:将未知流量转换为第二形式流量图输入所述网络流量识别模型。
输入数据的预处理过程为将未知流量转换为第二形式流量图的数据,以符合网络流量识别模型的输入格式。
步骤S160:所述网络流量识别模型将未知流量的第二形式流量图和自身学习到的图模式进行匹配。
利用网络流量识别模型,对未知流量的第二形式流量图和自身学习到的图模型进行匹配,寻找匹配响应应用的图模式。
步骤S170:当匹配程度大于预设阈值时,则判定所述未知流量对应的图模式,从而确定未知流量对应的网络应用。
当未知流量的第二形式流量图和网络流量识别模型自身学习到的图模式的匹配程度大于预设阈值时,则可以对未知流量对应的图模式进行判定,且图模式对应有网络应用,从而确定未知流量对应的网络应用。
在上述实施例中存在的有益效果为:预处理采集到的网络数据,提取每一个网络会话的特征信息,生成流量日志;对原始网络数据进行采集,并提取特征信息,为生成高质量训练集提供数据支持。基于所述流量日志,构建预设时间段内的第一形式流量图;第一形式流量图中包含了客户端节点与服务器端节点,以及客户端节点与服务器端节点的数据流的边,保证数据流在网络流量识别模型中的作用。在所述第一形式流量图中增加构建服务器端节点之间相关性的相关边,生成第二形式流量图;在第一形式流量图的基础上,增加服务器端节点之间的相关性作为训练图神经网络的特征之一,保证服务器端节点之间的相关性在网络流量识别模型中的作用。利用所述第二形式流量图的数据对图神经网络进行训练,生成网络流量识别模型;图可以非常灵活的表示流量的特征,同时通过边将各个节点联系起来,使得图具有识别节点之间关系特征的潜力,图神经网络应用于网络流量的识别,挖掘了图神经网络的潜力,同时保证了关系特征在网络流量识别中的作用。将未知流量转换为第二形式流量图输入所述网络流量识别模型;所述网络流量识别模型将未知流量的第二形式流量图和自身学习到的图模式进行匹配;当匹配程度大于预设阈值时,则判定所述未知流量对应的图模式,从而确定未知流量对应的网络应用。本发明解决网络流量识别正确率低的问题,基于四种不同类型成分的异构图对图神经网络进行训练,获得网络流量识别模型,并利用网络流量识别模型对网络流量以及对应的网络应用进行正确的判断。
参照图4,图4为本发明网络流量识别方法第一实施例中步骤S130的具体实施步骤,所述增加构建所述服务器端节点之间相关性的相关边,包括:
步骤S131:根据预设方法计算所有服务器端节点之间的相关性。
步骤S132:基于所述相关性,根据预设条件构建相关边。
预设方法可以根据实际网络的布局进行设计,可以动态调整的。在本实施例中,可以采用节点时间关联度进行设计,也可以使用其他的方法进行设计,在此不做限定。
预设条件可以根据实际网络的布局进行设计,可以动态调整。在此不做限定。
在上述实施例中存在的有益效果为:提供增加构建服务器端节点之间相关性的相关边的具体实施步骤,保证相关性的正确性以及相关边构建的准确性。
在其中一个实施例中,所述服务器端节点之间相关性由节点时间关联度表示,所述节点时间关联度由两个节点之间的共同活跃时间确定。
共同活跃时间:指两个服务器节点同时与一个客户端节点产生会话的时间。
在上述实施例中存在的有益效果为:所述节点时间关联度表示两个服务器节点之间时间上的关联性,这种关联性可以部分地揭示服务器端节点之间功能上的关联性,提示其归属于相同互联网应用的可能性。提取此关联性以及其他的关联性,将有助于识别不同的互联网应用。
在其中一个实施例中,所述第一形式流量图具有图的数据结构,其中:
将网络中的节点划分为服务器端节点和客户端节点;
所述服务器端节点与所述客户端节点之间的数据流为边;其中所述流量日志为数据流的参数。
在计算机科学中,一个完整的图结构是由顶点集合和边集合组成,其中所有的顶点构成了一个顶点集合,所有的边构成一个边的集合。顶点也可称为节点或者交点,边也可称为链接。
在本实施例中,图中的节点被划分为服务器端节点和客户端节点,其中服务器端节点集合和客户端节点集合的并集为第一形式流量图中节点的集合;边由服务器端节点和客户端节点之间的数据流构成。
在上述实施例中存在的有益效果为:第一形式流量图是第二形式流量图的基础,为生成第二形式流量图提供数据支持,保证第二形式流量图的正确构建。
在其中一个实施例中,所述第二形式流量图为包含以下类型成分的异构图:
所述客户端节点、所述服务器端节点、所述服务器端节点与客户端节点之间表示数据流的边、所述服务器端节点之间相关性的相关边。
异构图指的是图中的节点有不同的形式,图中节点之间的关系也有多种不同的形式。
在本实施例中,第二形式流量图为异构图,第二形式流量图中的节点分为客户端节点和服务器端节点,第二形式流量图中节点之间的关系包括服务器节点与客户端节点之间表示数据流的边以及服务器端节点之间表示相关性的相关边。
在上述实施例中存在的有益效果为:基于异构图,将四种不同类型成分的特征加入图神经网络的训练,使网络流量识别模型可以识别更多不同类型流量的模式特征。
在其中一个实施例中,所述特征信息包括以下至少之一:
开始时间、持续时间、字节数序列、互联网协议地址、端口号。
开始时间为当前会话开始的时间;持续时间为当前对话开始时间与结束时间之间的持续的时间;
字节数序列中存储的是字节的顺序,而排列字节的方法,分为大端法和小端法;其中大端法对于字节的排序为从左至右为从最高有效位至最低有效位,而小端法对于字节的排序为从左至右为从最低有效位至最高有效位。在本发明中根据实际对应的网络应用调整,在此不作限定。
在上述实施例中存在的有益效果为:特征信息为生成数据流异构图提供参数信息,为生成数据流图提供数据支持。
参照图5,图5为本发明网络流量识别方法第一实施例中步骤S140的具体实施步骤,所述利用所述第二形式流量图的数据对图神经网络进行训练,包括:
步骤S141:归集所述第二形式流量图预设范围内的数据;其中所述预设范围内的数据包括节点特征、邻居节点特征以及邻居边特征。
收集数据流图预设范围内的节点的特征信息以及数据流之间的相关性信息。
步骤S142:对所述预设范围内的数据进行卷积计算,利用以下公式:
其中,表示第/>层中节点/>的特征,为一个向量;/>为一个非线性函数relu;/>为节点/>的邻居节点;/>为归集函数,表示归集邻居特征的方式;/>为权重参数,函数得出最后输出的下一层对应节点的特征。
在上述实施例中存在的有益效果为:图可以非常灵活的表示流量的特征,同时通过边将各个节点联系起来,使得图具有识别节点之间关系特征的潜力,图神经网络应用于网络流量的识别,挖掘了图神经网络的潜力,同时保证了数据流之间的相关性在网络流量识别中的作用。
参照图6,图6为本发明网络流量识别方法第一实施例中步骤S140的具体实施步骤,所述利用所述第二形式流量图的数据对图神经网络进行训练,还包括:
步骤S141':归集所述第二形式流量图预设范围内的数据;其中所述预设范围内的数据包括节点特征、邻居节点特征以及邻居边特征。
步骤S142':对所述预设范围内的数据进行卷积计算,利用以下公式:
其中,表示第/>层中节点/>的特征,为一个向量;/>为一个非线性函数relu;/>为节点/>的邻居节点;/>为归集函数,表示归集邻居特征的方式;/>为权重参数,函数得出最后输出的下一层对应节点的特征。
步骤S143':将训练生成的识别结果与所述标注的数据进行比对。
所述识别结果与所述标注的数据存在误差,经过比对计算识别结果与标注结果之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播至输入层。
步骤S144':将所述比对的结果反向传播,更新所述图神经网络内部的参数。
在反向传播的过程中,根据误差调整所述图神经网络内部的参数的值,不断迭代上述的过程,直至收敛。
与上述实施例相比,本实施例包括步骤S143'、步骤S144',其他步骤与上述实施例相同,在此不再赘述。
在上述实施例中存在的有益效果为:图可以非常灵活的表示流量的特征,同时通过边将各个节点联系起来,使得图具有识别节点之间关系特征的潜力,图神经网络应用于网络流量的识别,挖掘了图神经网络的潜力,并且通过反向传播更新图神经网络内部的参数,使网络流量识别模型的正确率进一步提高。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有网络流量识别程序,所述网络流量识别程序被处理器执行时实现上述任一所述方法的步骤。
本发明还提供一种网络流量识别设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络流量识别程序,所述处理器执行所述网络流量识别程序时实现上述任一所述的方法的步骤。
在本发明中,存在一种可实现的具体实施例:局域网的网络管理者管理着3台主机,管理者在交换机上运行实现本发明的软件。当局域网内的3台主机分别访问知乎、优酷、淘宝三个不同的网络应用时,这3台主机都会与多个外网的服务器建立连接。软件将记录下这些连接的日志,根据日志,通过软件先构建一段时间内直观地构建网络流量图,然后分析出图中的客户端、服务器端,并且构建服务器端节点之间的关联边,形成流量异构图。通过此异构图,经过训练的图神经网络将能获知每个客户端节点产生的流特征及其连接的服务器节点的关联特征,从而识别出局域网内3台主机分别访问的网络应用,此信息将有助于识别网络管理者管理和分配局域网内的网络资源。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发
明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种网络流量识别方法,其特征在于,所述方法包括:
预处理采集到的网络数据,提取每一个网络会话的特征信息,生成流量日志;
基于所述流量日志,构建预设时间段内的第一形式流量图,其中,所述第一形式流程图包括客户端节点、服务器端节点以及服务器端节点与客户端节点之间表示数据流的边;
在所述第一形式流量图中增加构建服务器端节点之间相关性的相关边,生成第二形式流量图,其中,所述服务器端节点之间相关性由节点时间关联度表示,所述节点时间关联度由两个节点之间的共同活跃时间确定,其中,所述共同活跃时间是指两个服务器节点同时与一个客户端节点产生会话的时间;
利用所述第二形式流量图的数据对图神经网络进行训练,生成网络流量识别模型;
将未知流量转换为第二形式流量图输入所述网络流量识别模型;
所述网络流量识别模型将未知流量的第二形式流量图和自身学习到的图模式进行匹配;
当匹配程度大于预设阈值时,则判定所述未知流量对应的图模式,从而确定未知流量对应的网络应用;
其中,所述利用所述第二形式流量图的数据对图神经网络进行训练,包括:
归集所述第二形式流量图预设范围内的数据;其中所述预设范围内的数据包括节点特征、邻居节点特征以及邻居边特征;
对所述预设范围内的数据进行卷积计算,利用以下公式:
2.如权利要求1所述的网络流量识别方法,其特征在于,所述增加构建所述服务器端节点之间相关性的相关边,包括:
根据预设方法计算所有服务器端节点之间的相关性;
基于所述相关性,根据预设条件构建相关边。
3.如权利要求1所述的网络流量识别方法,其特征在于,所述流量日志为数据流的参数。
4.如权利要求1所述的网络流量识别方法,其特征在于,所述特征信息包括以下至少之一:
开始时间、持续时间、字节数序列、互联网协议地址、端口号。
5.如权利要求1所述的网络流量识别方法,其特征在于,所述利用所述第二形式流量图的数据对图神经网络进行训练,还包括:
将训练生成的识别结果与标注的数据进行比对;
将比对的结果反向传播,更新所述图神经网络内部的参数。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有网络流量识别程序,所述网络流量识别程序被处理器执行时实现权利要求1-5任一所述的方法的步骤。
7.一种网络流量识别设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络流量识别程序,所述处理器执行所述网络流量识别程序时实现权利要求1-5任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264614.2A CN112437022B (zh) | 2020-11-11 | 2020-11-11 | 网络流量识别方法、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264614.2A CN112437022B (zh) | 2020-11-11 | 2020-11-11 | 网络流量识别方法、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112437022A CN112437022A (zh) | 2021-03-02 |
CN112437022B true CN112437022B (zh) | 2023-05-19 |
Family
ID=74699943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011264614.2A Active CN112437022B (zh) | 2020-11-11 | 2020-11-11 | 网络流量识别方法、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112437022B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114726570A (zh) * | 2021-12-31 | 2022-07-08 | 中国电信股份有限公司 | 一种基于图模型的主机流量异常检测方法及装置 |
CN115580547A (zh) * | 2022-11-21 | 2023-01-06 | 中国科学技术大学 | 基于网络数据流间时空相关性的网站指纹识别方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101605132A (zh) * | 2009-07-13 | 2009-12-16 | 深圳市深信服电子科技有限公司 | 一种网络数据流识别方法 |
US8533825B1 (en) * | 2010-02-04 | 2013-09-10 | Adometry, Inc. | System, method and computer program product for collusion detection |
CN109948000A (zh) * | 2019-01-09 | 2019-06-28 | 南方科技大学 | 异质网络的异常目标检测方法、装置、设备及存储介质 |
CN110011932A (zh) * | 2019-04-18 | 2019-07-12 | 清华大学深圳研究生院 | 一种可识别未知流量的网络流量分类方法和终端设备 |
CN110995520A (zh) * | 2020-02-28 | 2020-04-10 | 清华大学 | 网络流量预测方法、装置、计算机设备及可读存储介质 |
CN111080304A (zh) * | 2019-12-12 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 一种可信关系识别方法、装置及设备 |
CN111161535A (zh) * | 2019-12-23 | 2020-05-15 | 山东大学 | 基于注意力机制的图神经网络交通流量预测方法及系统 |
WO2020191509A1 (en) * | 2019-03-22 | 2020-10-01 | Huawei Technologies Co., Ltd. | Network node and device for data communication networks |
CN111757327A (zh) * | 2020-06-03 | 2020-10-09 | 湃方科技(北京)有限责任公司 | 无线网络中假冒dhcp服务器或网关的识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11463472B2 (en) * | 2018-10-24 | 2022-10-04 | Nec Corporation | Unknown malicious program behavior detection using a graph neural network |
-
2020
- 2020-11-11 CN CN202011264614.2A patent/CN112437022B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101605132A (zh) * | 2009-07-13 | 2009-12-16 | 深圳市深信服电子科技有限公司 | 一种网络数据流识别方法 |
US8533825B1 (en) * | 2010-02-04 | 2013-09-10 | Adometry, Inc. | System, method and computer program product for collusion detection |
CN109948000A (zh) * | 2019-01-09 | 2019-06-28 | 南方科技大学 | 异质网络的异常目标检测方法、装置、设备及存储介质 |
WO2020191509A1 (en) * | 2019-03-22 | 2020-10-01 | Huawei Technologies Co., Ltd. | Network node and device for data communication networks |
CN110011932A (zh) * | 2019-04-18 | 2019-07-12 | 清华大学深圳研究生院 | 一种可识别未知流量的网络流量分类方法和终端设备 |
CN111080304A (zh) * | 2019-12-12 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 一种可信关系识别方法、装置及设备 |
CN111161535A (zh) * | 2019-12-23 | 2020-05-15 | 山东大学 | 基于注意力机制的图神经网络交通流量预测方法及系统 |
CN110995520A (zh) * | 2020-02-28 | 2020-04-10 | 清华大学 | 网络流量预测方法、装置、计算机设备及可读存储介质 |
CN111757327A (zh) * | 2020-06-03 | 2020-10-09 | 湃方科技(北京)有限责任公司 | 无线网络中假冒dhcp服务器或网关的识别方法及装置 |
Non-Patent Citations (4)
Title |
---|
Jingwei Zheng ; Dagang Li.GCN-TC: Combining Trace Graph with Statistical Features for Network Traffic Classification.ICC 2019 - 2019 IEEE International Conference on Communications (ICC).2019,全文. * |
Xingguo Ji ; Qingmin Meng.Traffic Classification Based on Graph Convolutional Network.2020 IEEE International Conference on Advances in Electrical Engineering and Computer Applications( AEECA).2020,全文. * |
单时序特征图卷积网络融合预测方法;李昊天;盛益强;;计算机与现代化(第09期);全文 * |
图卷积神经网络综述;徐冰冰;岑科廷;黄俊杰;沈华伟;程学旗;;计算机学报(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112437022A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112437016B (zh) | 网络流量识别方法、装置、设备及计算机存储介质 | |
WO2020037918A1 (zh) | 基于预测模型的风险控制策略的确定方法及相关装置 | |
US7937336B1 (en) | Predicting geographic location associated with network address | |
CN111368901A (zh) | 基于联邦学习的多方联合建模方法、设备和介质 | |
CN111931678B (zh) | 一种视频信息处理方法、装置、电子设备及存储介质 | |
CN112437022B (zh) | 网络流量识别方法、设备及计算机存储介质 | |
CN111835763B (zh) | 一种dns隧道流量检测方法、装置及电子设备 | |
CN110597992A (zh) | 基于知识图谱的语义推理方法及装置、电子设备 | |
CN109698798B (zh) | 一种应用的识别方法、装置、服务器和存储介质 | |
CN113378899B (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
US20200099713A1 (en) | System and method for detecting bots based on iterative clustering and feedback-driven adaptive learning techniques | |
CN113535399A (zh) | 一种nfv资源调度方法、装置以及系统 | |
CN112884075A (zh) | 一种流量数据增强方法、流量数据分类方法及相关装置 | |
US11093367B2 (en) | Method and system for testing a system under development using real transaction data | |
CN113938408B (zh) | 一种数据流量测试方法、装置、服务器及存储介质 | |
CN113536770B (zh) | 基于人工智能的文本解析方法、装置、设备及存储介质 | |
US11557005B2 (en) | Addressing propagation of inaccurate information in a social networking environment | |
Lee et al. | ATMSim: An anomaly teletraffic detection measurement analysis simulator | |
CN105812204B (zh) | 一种基于连接度估计的递归域名服务器在线识别方法 | |
CN112231481A (zh) | 网址的分类方法、装置、计算机设备和存储介质 | |
CN108388645B (zh) | 基于tan树形朴素贝叶斯算法网页可点击识别方法及装置 | |
CN107948022B (zh) | 一种对等网络流量的识别方法及识别装置 | |
CN112883088A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN111860597B (zh) | 一种视频信息处理方法、装置、电子设备及存储介质 | |
Kapusta et al. | User session identification using reference length |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |