CN110768864A - 一种网络流量批量生成图像的方法及装置 - Google Patents

一种网络流量批量生成图像的方法及装置 Download PDF

Info

Publication number
CN110768864A
CN110768864A CN201910985203.3A CN201910985203A CN110768864A CN 110768864 A CN110768864 A CN 110768864A CN 201910985203 A CN201910985203 A CN 201910985203A CN 110768864 A CN110768864 A CN 110768864A
Authority
CN
China
Prior art keywords
network traffic
data set
image
value
height
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910985203.3A
Other languages
English (en)
Other versions
CN110768864B (zh
Inventor
陈红松
陈京九
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201910985203.3A priority Critical patent/CN110768864B/zh
Publication of CN110768864A publication Critical patent/CN110768864A/zh
Application granted granted Critical
Publication of CN110768864B publication Critical patent/CN110768864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种网络流量批量生成图像的方法及装置,能够将原始网络流量数据高效批量生成图像。所述方法包括:获取原始网络流量数据集及相应的类别标签;对网络流量生成图像的高度H和宽度W进行初始化,并根据分类模型对输入图像的要求对H和W进行优化;其中,H用于体现网络流量时间和空间特征信息,W用于体现网络流量特征数;根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行数据抽取,根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集。本发明应用于网络安全领域。

Description

一种网络流量批量生成图像的方法及装置
技术领域
本发明涉及人工智能领域,特别是指一种网络流量批量生成图像的方法及装置。
背景技术
随着人工智能技术的发展,深度学习在网络安全领域的应用也越来越多。然而原始网络流量数据无法满足某些深度学习模型的输入要求,限制了深度学习技术在网络安全领域的进一步发展。因此现有技术通过网络流量特征之间的关联信息,进行协方差计算或欧拉变换等复杂计算,将网络流量数据生成为灰度图,以满足分类模型的输入要求。然而现有技术复杂度较高,计算量较大,且多数方法一次仅针对单一流量样本进行生成,无法获取连续网络流量间的关联信息,不能提取到连续网络流量的时序和空间特征,不适用于实时性要求较高的环境,因此需要对现有技术进行一定的改进与创新。
现有技术一,西安航空计算技术研究院的Qingru Li利用多项式表达多维特征之间的关联信息,将特征的关联信息用特征两两之间的和与积这一多项式形式进行表达,最后将单一网络流量映射为基于加法的网络流量关联信息矩阵和基于乘法的网络流量关联信息矩阵,最后将关联信息矩阵的非零值进行生成得到该条流量的关联信息图像。该种方式计算量较大,且每次只能对一条流量样本进行生成,效率较低。映射后的流量图像如图1(a)、(b)所示,从图1(a)、(b)中可以看出该方案生成图像具有对称性,信息冗余较多,造成资源浪费。
现有技术二,解放军信息工程大学的寇广将时间窗口内的多条流量样本利用Z-score方法实现样本值标准化处理,然后分别将其中每一条流量样本特征转换为对角矩阵,计算不同特征之间的欧拉距离并将其作为图像中像素点的灰度值,最后得到时间窗口内的单条流量的灰度图。该种方式计算复杂,计算量大,且每次只能对一条流量样本进行生成,效率较低。映射后的流量图像如图2(a)、(b)所示。从图2(a)、(b)中可以看出该方案生成图像也具有对称性,信息冗余较多,造成资源浪费。
现有技术三,山东大学的孔令爽利用KDD99数据集,对原始流量中41维特征进行独热(one-hot)编码,得到新生成的119维特征。在对特征值进行最大最小标准化操作后,填充两个0值以得到121维特征。最后将121维特征进行行优先生成,得到11x11大小的特征矩阵,将特征值作为灰度值转换为特征图像,如图3所示;这种方式一次仅对单条流量进行生成,图像无法获取连续流量之间的关联关系,图像信息量较小,且图像高度和宽度难以优化调整。
现有技术四,华为科技的Zhitang Chen利用连续10条双向流量数据的数据包大小、数据包到达间隔、数据包流向作为原始流量特征,经过再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)算法中一系列边缘概率与条件概率计算映射,得到40x40的6通道流量图像,如图4所示(a)、(b)。这种方式计算复杂度高,时间成本高。
发明内容
本发明要解决的技术问题是提供一种网络流量批量生成图像的方法及装置,以解决现有技术所存在的计算复杂度较高,一次仅针对单一流量样本进行生成,无法获取连续网络流量间的关联信息,导致不能提取到连续网络流量的时序和空间特征的问题。
为解决上述技术问题,本发明实施例提供一种网络流量批量生成图像的方法,包括:
获取原始网络流量数据集及相应的类别标签;
对网络流量生成图像的高度H和宽度W进行初始化,并根据分类模型对输入图像的要求对H和W进行优化;其中,H用于体现网络流量时间和空间特征信息,W用于体现网络流量特征数;
根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行数据抽取,根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集。
进一步地,在设定网络流量生成图像的初始高度H和宽度W,并根据分类模型对输入图像的要求对H和W进行优化之前,所述方法还包括:
对获取的原始网络流量数据集进行预处理,其中,预处理包括:对原始网络流量数据中的缺失值进行填充、异常值进行替换,并对原始网络流量数据中的字符型数据进行编码;
对预处理后的网络流量数据进行均值方差归一化处理,使所有的网络流量数据在[0,1]区间内。
进一步地,所述根据分类模型对输入图像的要求对H进行优化包括:
A1,确定窗口大小w、抽取阈值α和保留阈值β,初始化类别计数器的数值和当前迭代次数k;其中,w=H;
A2,对原始网络流量数据集DA第(k-1)*w+1条记录到第(k+1)*w条记录的类别标签进行读取,每读到一个类别标签,相应的类别计数器加1;
A3,判断任一类别计数器的数值是否大于等于窗口大小w与抽取阈值α的乘积,若大于等于,则将当前窗口样本抽出放入抽取后的数据集DB中;
A4,令k=k+1,循环执行步骤A2和A3,直至完成原始网络流量数据集最后一条数据的抽取后,执行步骤A5;
A5,将抽取后的数据集DB各类别样本数分别除以抽取前各类别样本数,若所有比值均大于β且H值满足分类模型对输入图像高度的要求,则设定H值为图像的高度;否则,则返回步骤A1,重新确定β值或H值,直至所有比值均大于β且H值满足分类模型对输入图像高度的要求。
进一步地,所述根据分类模型对输入图像的要求对W进行优化包括:
利用机器学习中的分类算法对原始网络流量数据集中的原始网络流量特征进行特征重要性排序;
选取重要性最高的前W个特征作为抽取出的数据集的特征,若W值满足分类模型对输入图像宽度的准确度要求,则设定W值为图像的宽度;若W值不满足准确度要求,则减少W值,直到满足准确度要求。
进一步地,所述根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行抽取包括:
B1,确定窗口大小w,并初始化类别计数器的数值和当前迭代次数k;其中,w等于优化后的H;
B2,对原始网络流量数据集DA第(k-1)*w+1条记录到第(k+1)*w条记录的类别标签进行读取,每读到一个类别标签,相应的类别计数器加1;
B3,判断任一类别计数器的数值是否大于等于窗口大小w与抽取阈值α的乘积,若大于等于,则将当前窗口样本抽出放入抽取后的数据集中;
B4,令k=k+1,循环执行步骤B2和B3,直至完成原始网络流量数据集最后一条数据的抽取。
进一步地,所述根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集包括:
将抽取出的数据集转化为高度为H、宽度为W的特征矩阵;
将矩阵中的值乘以255,得到[0,255]区间的数据,将其作为图像对应像素点的灰度值,得到大小为H*W的灰度图像,并标注类别标签,得到网络流量图像集。
进一步地,在根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集之后,所述方法还包括:
生成的网络流量图像集作为输入图像,构建网络安全分类模型,实现攻击类别分类。
本发明实施例还一种网络流量批量生成图像的装置,包括:
获取模块,用于获取原始网络流量数据集及相应的类别标签;
优化模块,用于对网络流量生成图像的高度H和宽度W进行初始化,并根据分类模型对输入图像的要求对H和W进行优化;其中,H用于体现网络流量时间和空间特征信息,W用于体现网络流量特征数;
生成模块,用于根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行数据抽取,根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集。
进一步地,所述优化模块包括:高度优化单元;所述高度优化单元,用于执行步骤A1-A5:
A1,确定窗口大小w、抽取阈值α和保留阈值β,初始化类别计数器的数值和当前迭代次数k;其中,w=H;
A2,对原始网络流量数据集DA第(k-1)*w+1条记录到第(k+1)*w条记录的类别标签进行读取,每读到一个类别标签,相应的类别计数器加1;
A3,判断任一类别计数器的数值是否大于等于窗口大小w与抽取阈值α的乘积,若大于等于,则将当前窗口样本抽出放入抽取后的数据集DB中;
A4,令k=k+1,循环执行步骤A2和A3,直至完成原始网络流量数据集最后一条数据的抽取后,执行步骤A5;
A5,将抽取后的数据集DB各类别样本数分别除以抽取前各类别样本数,若所有比值均大于β且H值满足分类模型对输入图像高度的要求,则设定H值为图像的高度;否则,则返回步骤A1,重新确定β值或H值,直至所有比值均大于β且H值满足分类模型对输入图像高度的要求。
进一步地,所述优化模块还包括:
宽度优化单元,用于利用机器学习中的分类算法对原始网络流量数据集中的原始网络流量特征进行特征重要性排序,选取重要性最高的前W个特征作为抽取出的数据集的特征,若W值满足分类模型对输入图像宽度的准确度要求,则设定W值为图像的宽度;若W值不满足准确度要求,则减少W值,直到满足准确度要求。
本发明的上述技术方案的有益效果如下:
上述方案中,获取原始网络流量数据集及相应的类别标签;对网络流量生成图像的高度H和宽度W进行初始化,并根据分类模型对输入图像的要求对H和W进行优化;根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行数据抽取,根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集。这样,能够降低网络流量生成图像的复杂度,保留连续网络流量间的时间和空间特征关系,且在不损失网络流量信息的同时提高了网络流量批量生成图像的效率。
附图说明
图1(a)为提供的基于乘法的网络流量关联信息矩阵映射后的流量图像示意图;
图1(b)为提供的基于加法的网络流量关联信息矩阵映射后的流量图像示意图;
图2(a)为提供的异常网络流量生成的图像示意图;
图2(b)为提供的正常网络流量生成的图像示意图;
图3为提供的不同网络流量生成的图像对比示意图;
图4(a)为提供的Instagram网络流量生成的图像示意图;
图4(b)为提供的Facebook网络流量生成的图像示意图;
图5为本发明实施例提供的网络流量批量生成图像的方法的流程示意图;
图6为本发明实施例提供的正常流量映射生成的图像示意图;
图7为本发明实施例提供的DDoS攻击流量映射生成的图像示意图;
图8为本发明实施例提供的PortScan攻击流量映射生成的图像示意图;
图9为本发明实施例提供的网络流量批量生成图像的装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的计算复杂度较高,一次仅针对单一流量样本进行生成,无法获取连续网络流量间的关联信息,导致不能提取到连续网络流量的时序和空间特征的问题,提供一种网络流量批量生成图像的方法及装置。
实施例一
如图5所示,本发明实施例提供的网络流量批量生成图像的方法,包括:
S101,获取原始网络流量数据集及相应的类别标签;
S102,对网络流量生成图像的高度H和宽度W进行初始化,并根据分类模型对输入图像的要求对H和W进行优化;其中,H用于体现网络流量时间和空间特征信息,W用于体现网络流量特征数;
S103,根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行数据抽取,根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集。
本发明实施例所述的网络流量批量生成图像的方法,获取原始网络流量数据集及相应的类别标签;对网络流量生成图像的高度H和宽度W进行初始化,并根据分类模型对输入图像的要求对H和W进行优化;根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行数据抽取,根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集。这样,能够降低网络流量生成图像的复杂度,保留连续网络流量间的时间和空间特征关系,且在不损失网络流量信息的同时提高了网络流量批量生成图像的效率。
本实施例中,得到的网络流量图像集,能够为深度学习模型提供高质量图像输入数据集,从而提高深度学习分类模型的综合性能指标。
在前述网络流量批量生成图像的方法的具体实施方式中,进一步地,在设定网络流量生成图像的初始高度H和宽度W,并根据分类模型对输入图像的要求对H和W进行优化之前,所述方法还包括:
对获取的原始网络流量数据集进行预处理,其中,预处理包括:对原始网络流量数据中的缺失值进行填充、异常值进行替换,并对原始网络流量数据中的字符型数据进行编码;
对预处理后的网络流量数据进行均值方差归一化处理,使所有的网络流量数据在[0,1]区间内。
本实施例中,例如,可以将原始网络流量数据中缺失值与异常值填充为相应特征的平均值。
本实施例中,在根据分类模型对输入图像的要求对H和W进行优化之前,需确定网络流量生成图像的高度H和宽度W和初始值,其中,H的初始值为单一种类网络流量最小连续数(大于1),W的初始值为网络流量特征的维度。
本实施例中,参数H越小,满足要求的网络流量样本越多,生成图像也越多,但所体现网络流量时间和空间特征信息越少,图像信息存储量越少。
本实施例中,参数W越小,网络流量特征数越少,图像信息存储量越小,但用于深度学习分类算法时训练越快。因此需要根据分类模型对输入图像的要求对H和W进行优化。
本实施例中,H的优化方法为设定一个抽取阈值α,一个保留阈值β,然后根据基于窗口的数据抽取算法对原始网络流量数据集DA进行数据抽取,获得用于图像生成的数据集DB,需要说明的是:窗口大小w等于图像高度H;然后,将抽取后的数据集DB各类别样本数分别除以抽取前各类别样本数,若所有比值均大于β,且H值满足分类模型对输入图像高度的要求,则设定H值为图像的高度,具体可以包括以下步骤:
A1,确定窗口大小w、抽取阈值α和保留阈值β,初始化类别计数器ci的数值和当前迭代次数k;其中,w=H,i表示类别标签;
A2,对原始网络流量数据集DA第(k-1)*w+1条记录到第(k+1)*w条记录的类别标签进行读取,每读到一个类别标签,相应的类别计数器ci加1;
A3,判断任一类别计数器的数值是否大于等于窗口大小w与抽取阈值α的乘积,若大于等于,则将当前窗口样本抽出放入抽取后的数据集DB中;
A4,令k=k+1,循环执行步骤A2和A3,直至完成原始网络流量数据集最后一条数据的抽取后,执行步骤A5;
A5,将抽取后的数据集DB各类别样本数分别除以抽取前各类别样本数,若所有比值均大于β且H值满足分类模型对输入图像高度的要求,则设定H值为图像的高度;否则,则返回步骤A1,重新确定β值或H值,直至所有比值均大于β且H值满足分类模型对输入图像高度的要求。
本实施例中,基于窗口的数据抽取算法的伪代码SamExtract(DA,w,α)为:
Figure BDA0002236479500000081
其中,|DA|表示原始网络流量数据集DA中记录的数目;t表示第t条记录;Tt表示当前样本;样本的类别标签i={0,1,2}分别代表正常样本、分布式拒绝服务(DistributedDenial of Service,DDoS)攻击样本和端口扫描(Portscan)攻击样本。
本实施例中,W的优化方法具体可以包括以下步骤:
利用机器学习中的分类算法对原始网络流量数据集中的原始网络流量特征进行特征重要性排序;
选取重要性最高的前W个特征作为抽取出的数据集的特征,若W值满足分类模型对输入图像宽度的准确度要求,则设定W值为图像的宽度;若W值不满足准确度要求,则减少W值,直到满足准确度要求。
在前述网络流量批量生成图像的方法的具体实施方式中,进一步地,所述根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行抽取包括:
B1,确定窗口大小w,并初始化类别计数器的数值和当前迭代次数k;其中,w等于优化后的H;
B2,对原始网络流量数据集DA第(k-1)*w+1条记录到第(k+1)*w条记录的类别标签进行读取,每读到一个类别标签,相应的类别计数器加1;
B3,判断任一类别计数器的数值是否大于等于窗口大小w与抽取阈值α的乘积,若大于等于,则将当前窗口样本抽出放入抽取后的数据集中;
B4,令k=k+1,循环执行步骤B2和B3,直至完成原始网络流量数据集最后一条数据的抽取。
在前述网络流量批量生成图像的方法的具体实施方式中,进一步地,所述根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集包括:
将抽取出的数据集转化为高度为H、宽度为W的特征矩阵;
将矩阵中的值乘以255,得到[0,255]区间的数据,将其作为图像对应像素点的灰度值,得到大小为H*W的灰度图像,并标注类别标签,得到网络流量图像集。
本实施例中,针对CICIDS2017网络流量数据集,采用本实施例提供的网络流量批量生成图像的方法得到正常流量、DDoS攻击流量、PortScan攻击流量的灰度图像,分别如图6、图7、图8所示,其中,图像的宽度为78,高度为10,由图6、图7、图8可以看出不同类别流量生成得到的灰度图像有较大差异,图像信息存储量较多,可显著区分不同类别流量。
在前述网络流量批量生成图像的方法的具体实施方式中,进一步地,在根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集之后,所述方法还包括:
生成的网络流量图像集作为输入图像,构建网络安全分类模型,实现攻击类别分类。
本实施例中,利用基于残差网络(Residual Neural Network,ResNet)和双向长短期记忆网络(Long Short-Term Memory,LSTM)融合的网络结构,在空间维度上,利用卷积层提取图像空间特征,利用残差网络-堆叠模块(ResNet-Inception)层解决深层次网络梯度消失难以训练的问题;在时间维度上,利用双向LSTM网络学习网络流量间的时间特征。并通过进一步优化ResNet-Inception层结构、连接层结构、双向LSTM网络和复用分类模型,使优化后的分类模型在提高准确率的同时提高分类模型执行效率。采用朴素贝叶斯分类器(一种分类模型)对特征数据集进行训练和测试,模型分类预测的准确率达到91.67,花费时间0.42s,而采用本实施例提供的网络流量批量生成图像的方法生成的图像集对分类模型进行训练及测试,模型分类预测的准确率达到了96.77%,花费时间39.85s,综合性能优于其他分类模型,因此本实施例提供的网络流量批量生成图像的方法适用于网络安全分类模型构建,实现攻击类别分类。
综上,本发明实施例提供的网络流量批量生成图像的方法具有以下优点:
1)采用基于窗口的网络流量批量生成图像方法,可对窗口内的多条网络流量批量生成为图片。
2)生成图像的过程中,仅对预处理后的网络流量数据进行均值方差归一化处理,并将其映射至[0,255]整数区间,不对特征数据进行复杂的公式计算,因此计算量小,更加高效。
3)生成的图像不但能保留单条流量内的特征相关信息,还可保留连续流量间的时间和空间特征,信息量较其他生成图像算法更为丰富。
4)生成的网络流量图像集作为高质量输入图像,用于构建网络安全分类模型,从而提高网络安全分类模型的准确度。
实施例二
本发明还提供一种网络流量批量生成图像的装置的具体实施方式,由于本发明提供的网络流量批量生成图像的装置与前述网络流量批量生成图像的方法的具体实施方式相对应,该网络流量批量生成图像的装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述网络流量批量生成图像的方法具体实施方式中的解释说明,也适用于本发明提供的网络流量批量生成图像的装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图9所示,本发明实施例还提供一种网络流量批量生成图像的装置,包括:
获取模块11,用于获取原始网络流量数据集及相应的类别标签;
优化模块12,用于对网络流量生成图像的高度H和宽度W进行初始化,并根据分类模型对输入图像的要求对H和W进行优化;其中,H用于体现网络流量时间和空间特征信息,W用于体现网络流量特征数;
生成模块13,用于根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行数据抽取,根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集。
本发明实施例所述的网络流量批量生成图像的装置,获取原始网络流量数据集及相应的类别标签;对网络流量生成图像的高度H和宽度W进行初始化,并根据分类模型对输入图像的要求对H和W进行优化;根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行数据抽取,根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集。这样,能够降低网络流量生成图像的复杂度,保留连续网络流量间的时间和空间特征关系,且在不损失网络流量信息的同时提高了网络流量批量生成图像的效率。
本实施例中,得到的网络流量图像集,能够为深度学习模型提供高质量图像输入数据集,从而提高深度学习分类模型的综合性能指标。
在前述网络流量批量生成图像的装置的具体实施方式中,进一步地,所述优化模块包括:高度优化单元;所述高度优化单元,用于执行步骤A1-A5:
A1,确定窗口大小w、抽取阈值α和保留阈值β,初始化类别计数器的数值和当前迭代次数k;其中,w=H;
A2,对原始网络流量数据集DA第(k-1)*w+1条记录到第(k+1)*w条记录的类别标签进行读取,每读到一个类别标签,相应的类别计数器加1;
A3,判断任一类别计数器的数值是否大于等于窗口大小w与抽取阈值α的乘积,若大于等于,则将当前窗口样本抽出放入抽取后的数据集DB中;
A4,令k=k+1,循环执行步骤A2和A3,直至完成原始网络流量数据集最后一条数据的抽取后,执行步骤A5;
A5,将抽取后的数据集DB各类别样本数分别除以抽取前各类别样本数,若所有比值均大于β且H值满足分类模型对输入图像高度的要求,则设定H值为图像的高度;否则,则返回步骤A1,重新确定β值或H值,直至所有比值均大于β且H值满足分类模型对输入图像高度的要求。
在前述网络流量批量生成图像的装置的具体实施方式中,进一步地,所述优化模块还包括:
宽度优化单元,用于利用机器学习中的分类算法对原始网络流量数据集中的原始网络流量特征进行特征重要性排序,选取重要性最高的前W个特征作为抽取出的数据集的特征,若W值满足分类模型对输入图像宽度的准确度要求,则设定W值为图像的宽度;若W值不满足准确度要求,则减少W值,直到满足准确度要求。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种网络流量批量生成图像的方法,其特征在于,包括:
获取原始网络流量数据集及相应的类别标签;
对网络流量生成图像的高度H和宽度W进行初始化,并根据分类模型对输入图像的要求对H和W进行优化;其中,H用于体现网络流量时间和空间特征信息,W用于体现网络流量特征数;
根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行数据抽取,根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集。
2.根据权利要求1所述的网络流量批量生成图像的方法,其特征在于,在设定网络流量生成图像的初始高度H和宽度W,并根据分类模型对输入图像的要求对H和W进行优化之前,所述方法还包括:
对获取的原始网络流量数据集进行预处理,其中,预处理包括:对原始网络流量数据中的缺失值进行填充、异常值进行替换,并对原始网络流量数据中的字符型数据进行编码;
对预处理后的网络流量数据进行均值方差归一化处理,使所有的网络流量数据在[0,1]区间内。
3.根据权利要求1所述的网络流量批量生成图像的方法,其特征在于,所述根据分类模型对输入图像的要求对H进行优化包括:
A1,确定窗口大小w、抽取阈值α和保留阈值β,初始化类别计数器的数值和当前迭代次数k;其中,w=H;
A2,对原始网络流量数据集DA第(k-1)*w+1条记录到第(k+1)*w条记录的类别标签进行读取,每读到一个类别标签,相应的类别计数器加1;
A3,判断任一类别计数器的数值是否大于等于窗口大小w与抽取阈值α的乘积,若大于等于,则将当前窗口样本抽出放入抽取后的数据集DB中;
A4,令k=k+1,循环执行步骤A2和A3,直至完成原始网络流量数据集最后一条数据的抽取后,执行步骤A5;
A5,将抽取后的数据集DB各类别样本数分别除以抽取前各类别样本数,若所有比值均大于β且H值满足分类模型对输入图像高度的要求,则设定H值为图像的高度;否则,则返回步骤A1,重新确定β值或H值,直至所有比值均大于β且H值满足分类模型对输入图像高度的要求。
4.根据权利要求1所述的网络流量批量生成图像的方法,其特征在于,所述根据分类模型对输入图像的要求对W进行优化包括:
利用机器学习中的分类算法对原始网络流量数据集中的原始网络流量特征进行特征重要性排序;
选取重要性最高的前W个特征作为抽取出的数据集的特征,若W值满足分类模型对输入图像宽度的准确度要求,则设定W值为图像的宽度;若W值不满足准确度要求,则减少W值,直到满足准确度要求。
5.根据权利要求3所述的网络流量批量生成图像的方法,其特征在于,所述根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行抽取包括:
B1,确定窗口大小w,并初始化类别计数器的数值和当前迭代次数k;其中,w等于优化后的H;
B2,对原始网络流量数据集DA第(k-1)*w+1条记录到第(k+1)*w条记录的类别标签进行读取,每读到一个类别标签,相应的类别计数器加1;
B3,判断任一类别计数器的数值是否大于等于窗口大小w与抽取阈值α的乘积,若大于等于,则将当前窗口样本抽出放入抽取后的数据集中;
B4,令k=k+1,循环执行步骤B2和B3,直至完成原始网络流量数据集最后一条数据的抽取。
6.根据权利要求1所述的网络流量批量生成图像的方法,其特征在于,所述根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集包括:
将抽取出的数据集转化为高度为H、宽度为W的特征矩阵;
将矩阵中的值乘以255,得到[0,255]区间的数据,将其作为图像对应像素点的灰度值,得到大小为H*W的灰度图像,并标注类别标签,得到网络流量图像集。
7.根据权利要求6所述的网络流量批量生成图像的方法,其特征在于,在根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集之后,所述方法还包括:
生成的网络流量图像集作为输入图像,构建网络安全分类模型,实现攻击类别分类。
8.一种网络流量批量生成图像的装置,其特征在于,包括:
获取模块,用于获取原始网络流量数据集及相应的类别标签;
优化模块,用于对网络流量生成图像的高度H和宽度W进行初始化,并根据分类模型对输入图像的要求对H和W进行优化;其中,H用于体现网络流量时间和空间特征信息,W用于体现网络流量特征数;
生成模块,用于根据优化后的H,采用基于窗口的数据抽取算法对原始网络流量数据集进行数据抽取,根据优化后的H和W生成抽取出的数据集对应的灰度图像,得到网络流量图像集。
9.根据权利要求8所述的网络流量批量生成图像的装置,其特征在于,所述优化模块包括:高度优化单元;所述高度优化单元,用于执行步骤A1-A5:
A1,确定窗口大小w、抽取阈值α和保留阈值β,初始化类别计数器的数值和当前迭代次数k;其中,w=H;
A2,对原始网络流量数据集DA第(k-1)*w+1条记录到第(k+1)*w条记录的类别标签进行读取,每读到一个类别标签,相应的类别计数器加1;
A3,判断任一类别计数器的数值是否大于等于窗口大小w与抽取阈值α的乘积,若大于等于,则将当前窗口样本抽出放入抽取后的数据集DB中;
A4,令k=k+1,循环执行步骤A2和A3,直至完成原始网络流量数据集最后一条数据的抽取后,执行步骤A5;
A5,将抽取后的数据集DB各类别样本数分别除以抽取前各类别样本数,若所有比值均大于β且H值满足分类模型对输入图像高度的要求,则设定H值为图像的高度;否则,则返回步骤A1,重新确定β值或H值,直至所有比值均大于β且H值满足分类模型对输入图像高度的要求。
10.根据权利要求8所述的网络流量批量生成图像的装置,其特征在于,所述优化模块还包括:
宽度优化单元,用于利用机器学习中的分类算法对原始网络流量数据集中的原始网络流量特征进行特征重要性排序,选取重要性最高的前W个特征作为抽取出的数据集的特征,若W值满足分类模型对输入图像宽度的准确度要求,则设定W值为图像的宽度;若W值不满足准确度要求,则减少W值,直到满足准确度要求。
CN201910985203.3A 2019-10-16 2019-10-16 一种网络流量批量生成图像的方法及装置 Active CN110768864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910985203.3A CN110768864B (zh) 2019-10-16 2019-10-16 一种网络流量批量生成图像的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910985203.3A CN110768864B (zh) 2019-10-16 2019-10-16 一种网络流量批量生成图像的方法及装置

Publications (2)

Publication Number Publication Date
CN110768864A true CN110768864A (zh) 2020-02-07
CN110768864B CN110768864B (zh) 2021-02-02

Family

ID=69332126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910985203.3A Active CN110768864B (zh) 2019-10-16 2019-10-16 一种网络流量批量生成图像的方法及装置

Country Status (1)

Country Link
CN (1) CN110768864B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112688961A (zh) * 2021-01-06 2021-04-20 北京科技大学 基于特征自适应层次聚类的网络流量图像安全分类方法
CN114124420A (zh) * 2020-08-28 2022-03-01 哈尔滨理工大学 一种基于深度神经网络的网络流量异常检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104902249A (zh) * 2015-06-27 2015-09-09 北京航星网讯技术股份有限公司 用于农牧业获取图像提炼适用于北斗通讯的数据的方法
EP2784719A3 (en) * 2013-03-26 2017-05-03 Fujitsu Limited Moving picture data comparing method and apparatus
CN107071344A (zh) * 2017-01-22 2017-08-18 深圳英飞拓科技股份有限公司 一种大规模分布式监控视频数据处理方法及装置
CN109617891A (zh) * 2018-12-26 2019-04-12 北京数码视讯技术有限公司 码流传输方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2784719A3 (en) * 2013-03-26 2017-05-03 Fujitsu Limited Moving picture data comparing method and apparatus
CN104902249A (zh) * 2015-06-27 2015-09-09 北京航星网讯技术股份有限公司 用于农牧业获取图像提炼适用于北斗通讯的数据的方法
CN107071344A (zh) * 2017-01-22 2017-08-18 深圳英飞拓科技股份有限公司 一种大规模分布式监控视频数据处理方法及装置
CN109617891A (zh) * 2018-12-26 2019-04-12 北京数码视讯技术有限公司 码流传输方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114124420A (zh) * 2020-08-28 2022-03-01 哈尔滨理工大学 一种基于深度神经网络的网络流量异常检测方法
CN112688961A (zh) * 2021-01-06 2021-04-20 北京科技大学 基于特征自适应层次聚类的网络流量图像安全分类方法

Also Published As

Publication number Publication date
CN110768864B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN111898696B (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
CN110189334B (zh) 基于注意力机制的残差型全卷积神经网络的医学图像分割方法
CN110232394B (zh) 一种多尺度图像语义分割方法
CN111652321B (zh) 一种基于改进yolov3算法的海上船舶检测方法
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
CN110210513B (zh) 数据分类方法、装置及终端设备
CN110148085B (zh) 人脸图像超分辨率重建方法及计算机可读取的存储介质
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN113888547A (zh) 基于gan网络的无监督域自适应遥感道路语义分割方法
CN111027576A (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN110768864B (zh) 一种网络流量批量生成图像的方法及装置
CN115080749B (zh) 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN113821668A (zh) 数据分类识别方法、装置、设备及可读存储介质
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN111507359A (zh) 一种图像特征金字塔的自适应加权融合方法
CN111507184B (zh) 基于并联空洞卷积和身体结构约束的人体姿态检测方法
CN112132232A (zh) 医学图像的分类标注方法和系统、服务器
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN113393385B (zh) 基于多尺度融合的无监督去雨方法、系统、装置及介质
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复系统及方法
CN114202473A (zh) 一种基于多尺度特征和注意力机制的图像复原方法及装置
CN114299305A (zh) 聚合密集和注意力多尺度特征的显著性目标检测算法
CN113901991A (zh) 一种基于伪标签的3d点云数据半自动标注方法及装置
CN112163106A (zh) 二阶相似感知的图像哈希码提取模型建立方法及其应用
CN115147426B (zh) 基于半监督学习的模型训练与图像分割方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant