CN115632875A - 一种多特征融合实时分析的恶意流量检测方法及系统 - Google Patents

一种多特征融合实时分析的恶意流量检测方法及系统 Download PDF

Info

Publication number
CN115632875A
CN115632875A CN202211508427.3A CN202211508427A CN115632875A CN 115632875 A CN115632875 A CN 115632875A CN 202211508427 A CN202211508427 A CN 202211508427A CN 115632875 A CN115632875 A CN 115632875A
Authority
CN
China
Prior art keywords
traffic
flow
packet
detection
data packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211508427.3A
Other languages
English (en)
Other versions
CN115632875B (zh
Inventor
彭凯
陆通
徐博
何建文
李志康
王晨昕
王忠浩
彭聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Chutianyun Co ltd
Huazhong University of Science and Technology
Original Assignee
Hubei Chutianyun Co ltd
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Chutianyun Co ltd, Huazhong University of Science and Technology filed Critical Hubei Chutianyun Co ltd
Priority to CN202211508427.3A priority Critical patent/CN115632875B/zh
Publication of CN115632875A publication Critical patent/CN115632875A/zh
Application granted granted Critical
Publication of CN115632875B publication Critical patent/CN115632875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Optimization (AREA)
  • Medical Informatics (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种多特征融合实时分析的恶意流量检测方法及系统,方法包括:基于深度包检测技术获取互联网流量数据包;分别获取流量数据包的统计特征、序列特征和频率特征;将流量的统计特征、流量的序列特征和流量的频率特征进行叠加,获取每一个流量数据包的融合特征矩阵;基于初始训练样本集对基于Transformer的检测模型进行训练;基于训练后的检测模型对初始测试样本集中的流量数据包分析检测,识别出其中的恶意流量。本发明利用流量数据包的统计特征、频率特征和序列特征融合对流量进行描述,增强了对流量数据的表示能力,且特征冗余度低,从而提升了模型检测预测效果的精确度与吞吐量。

Description

一种多特征融合实时分析的恶意流量检测方法及系统
技术领域
本发明涉及互联网数据安全领域,更具体地,涉及一种多特征融合实时分析的恶意流量检测方法及系统。
背景技术
随着计算机网络技术的蓬勃发展,互联网已经融入生产生活的方方面面,网络流量与主机、网络、应用紧密相连,构成了一个结构复杂、多因素融合的体系。但在社会群体享受信息化与智能化所带来的便利同时,互联网中也存在大量的网络恶意活动。这些恶意活动通过消耗网络资源,以降低网络设备和终端主机的性能,同时也会给广大网络用户带来网络安全威胁。随着黑客攻击手段的升级,传统的基于主机的、基于网络的及基于签名匹配的技术检测能力逐渐降低,网络安全再度受到威胁,研究人员开始转向基于恶意流量检测技术的研究。
网络恶意流量检测作为一项有效的安全防护技术,能够对网络进行实时监测,有效感知外部攻击,为相关管理人员提供响应决策。目前,国内外研究人员对网络恶意流量检测进行了系统而深入的研究,但现有的研究工作均存在一定的缺陷和问题:1、传统的恶意流量检测是根据预先配置的规则,通过分析流量的特征来识别恶意流量,目的是保护合法的互联网用户免受网络攻击。然而,在高带宽网络(如Internet骨干网)中,基于规则检测可以达到较高的检测精度和吞吐量,但无法检测到零日攻击。2、部分研究工作开发了报文级和流级检测方法,但报文级检测无法检测零日攻击,流级方法具有极大的检测延迟,极大降低了该两类方法在目前实际场景的应用。3、随着攻击技术的不断提升,有网络攻击发起者开始通过在恶意流量中注入噪声(例如添加良性应用中产生的报文)来干扰和规避现有的恶意流量检测方法。4、现有基于机器学习的恶意流量检测方法虽然可以有效识别零日恶意流量,但由于处理开销大,导致吞吐量较低,不适用于高速流量网络中,导致大多数基于机器学习的方法仅能进行离线部署,无法实现实时检测,具有较大的应用局限性。5、部分基于机器学习的恶意检测方法提取的特征多为来自HTTP、DNS和其他协议包内容的明文特征,随着网络流量加密化趋势日益壮大,基于明文特征的检测方法不再适用于目前主流的网络应用场景。6、现有的大部分恶意流量检测方法仅能对过去流量情况进行分析识别,对于未来的预测研究有较大的欠缺,而在实际场景中,对未来流量趋势的前瞻可以为管理员或用户提前预警提供辅助。
综上所述,如何在实际网络环境中,实现实时高鲁棒性高精度恶意流量检测是亟待解决的问题。
发明内容
本发明针对现有技术中存在的技术问题,提供一种多特征融合实时分析的恶意流量检测方法及系统。
根据本发明的第一方面,提供了一种多特征融合实时分析的恶意流量检测方法,包括:
S1,基于深度包检测技术获取互联网流量数据包,并对所述流量数据包进行处理生成初始训练样本集和初始测试样本集;
S2,对每一个所述流量数据包进行特征重要性分析后获取流量的统计特征,通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征;对所述互联网流量数据进行离散傅里叶变换获取流量的频率特征;
S3,将所述流量的统计特征、流量的序列特征和流量的频率特征进行叠加,获取每一个所述流量数据包的融合特征矩阵;
S4,基于所述初始训练样本集对基于 Transformer 的检测模型进行训练;
S5,基于训练后的检测模型对所述初始测试样本集进行检测,获取所述初始测试样本集中流量数据包的检测结果,所述检测结果包括恶意或非恶意。
根据本发明的第二方面,提供一种多特征融合实时分析的恶意流量检测系统,包括:
第一获取模块,用于基于深度包检测技术获取互联网流量数据包,并对所述流量数据包进行处理生成初始训练样本集和初始测试样本集;
第二获取模块,用于对每一个所述流量数据包进行特征重要性检测后获取流量的统计特征,通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征;对所述互联网流量数据进行离散傅里叶变换获取流量的频率特征;
第三获取模块,用于将所述流量的统计特征、流量的序列特征和流量的频率特征进行叠加,获取每一个所述流量数据包的融合特征矩阵;
训练模块,用于基于所述初始训练样本集对基于 Transformer 的检测模型进行训练;
检测模块,用于基于训练后的检测模型对所述初始测试样本集进行检测,获取所述初始测试样本集中流量数据包的检测结果,所述检测结果包括恶意或非恶意。
根据本发明的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现多特征融合实时检测的恶意流量检测方法的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现多特征融合实时检测的恶意流量检测方法的步骤。
本发明提供的一种多特征融合实时检测的恶意流量检测方法及系统,具有以下有益效果:
(1)本发明对恶意网络流量进行分析,利用统计特征、频率特征和序列特征融合对流量进行描述,增强了对流量数据的表示能力,且特征冗余度低,从而提升了模型检测预测效果的精确度与吞吐量。
(2)本发明利用统计特征、序列特征和频率特征表示恶意网络流量,所采用的数据特征与包的细节内容无关,与目前的网络流量加密化与解密复杂度高的趋势相契合,具有实用性与通用性。
(3)本发明通过对包特征序列编码为向量,减少了特征处理的开销,从而实现高性能实时检测预测。
(4)本发明通过频域分析有效提取和分析了网络流量的频率信息,所提取出的流量特征信息损失小,流量的频域特征可以有效表示流量的各种分组排序模式,低频域特征分析损耗保证了模型检测的高精度。
(5)本发明中提取的统计特征、序列特征和频率特征代表了数据包序列的细粒度信息,不易受注入噪声报文的干扰,从而实现模型的鲁棒检测预测,具有健壮性。
(6)本发明利用一个模型同时实现了恶意流量的检测与预测双重功能,避免使用冗余资源,与工业界精简整合潮流相吻合。
附图说明
图1为本发明提供的一种多特征融合实时分析的恶意流量检测方法流程图;
图2为多特征融合实时分析的恶意流量检测方法的架构示意图;
图3为本发明提供的一种多特征融合实时分析的恶意流量检测系统的结构示意图;
图4为本发明提供的一种可能的电子设备的硬件结构示意图;
图5为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,这种结合不受步骤先后次序和/或结构组成模式的约束,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
为了解决现有互联网恶意流量检测方法在实际高带宽网络场景中无法实时高精确高鲁棒性进行恶意流量检测的问题。
图1为本发明提供的一种多特征融合实时分析的恶意流量检测方法流程图,如图1所示,方法包括:
S1,基于深度包检测技术获取互联网流量数据包,并对所述流量数据包进行处理生成初始训练样本集和初始测试样本集。
作为实施例,所述S1中基于深度包检测技术获取互联网流量数据包,包括:基于深度包检测技术访问可达的IP、URL和域名捕获实时流量数据包;对所述实时流量数据包处理得到 PCAP文件原始数据集,经过预处理后生成初始训练样本集和初始测试样本集。
可理解的是,基于深度包检测技术检测可访问的流量数据包,并将检测的流量数据包分为初始训练样本集和初始测试样本集。
S2,对每一个所述流量数据包进行特征重要性检测后获取流量的统计特征,通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征;对所述互联网流量数据进行离散傅里叶变换获取流量的频率特征。
可参见图2,将初始训练集中的流量数据包输入统计特征提取模块,通过特征扩展后完成对统计特性集的拓大,并通过特征重要性分析找到适合的统计特征。
作为实施例,S2中对每一个所述流量数据包进行特征重要性检测后获取流量的统计特征,包括:从每一个流量数据包中提取传统统计特征,所述传统统计特征包括源端口和目的端口,向后字节数、向前字节数、总字节数、向后包数、向前包数、总包数、向后带负载包数、向前带负载包数和带负载包数以及流的持续时间;统计所有流量数据包中字节数和时间间隔的最大值、平均值、中位值、方差、标准差和协方差,统计所有流量数据包中的每个字节的比特熵和所有字节的总熵,以及统计所有流量数据包的包长度的分布模式和所有流量数据包的包到达间隔时间的分布模式,完成统计特征的扩展;将扩展后的统计特征输入随机森林模型中,获取所述随机森林模型输出的按照重要性排序的统计特征,从中筛选出合适的统计特征。
可理解的是,对于检测的每一个流量数据包,从中提取出传统的统计特征,并从传统的统计特征中统计新的统计特征,从新的统计特征中筛选出合适的统计特征用于后续的检测。具体的,将统计特征输入随机森林模型中,随机森林模型输出按照重要性排序的统计特征,进而可按照重要性从所有的统计特征中筛选出合适的统计特征。
提取出流量的统计特征的同时,还提取流量的序列特征,本发明中分别提取流量数据包的马尔科夫序列特征和量化序列特征。
其中,所述S2中通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取 流量的序列特征,包括:创建第一设定数量的容器,以所有流量数据包中最大包长度
Figure 814412DEST_PATH_IMAGE001
为上限,将数据域
Figure 372433DEST_PATH_IMAGE002
以第一设定数量进行等分,分割后的值域段被均匀分散到大 小相同的容器中;构造第一马尔可夫随机转移矩阵MRFTM,其中每一项 MRFTM[ij]为流量 数据包的包长度从第i个容器到第j个容器之间的转换次数;对第一马尔可夫随机转移矩阵 MRFTM进行归一化处理,作为流量的包长度马尔可夫序列特征;创建第一设定数量的容器, 以所有流量数据包中最大包到达时间间隔
Figure 180595DEST_PATH_IMAGE003
为上限,将数据域
Figure 281407DEST_PATH_IMAGE004
以第一设定数 量进行等分,分割后的值域段被均匀分散到大小相同的容器中;构造第二马尔可夫随机转 移矩阵MRFTM,其中每一项 MRFTM[ij]为流量数据包的包到达时间间隔从第i个容器到第j 个容器之间的转换次数;对第二马尔可夫随机转移矩阵MRFTM进行归一化处理,作为包到达 间隔时间马尔可夫序列特征。
以及,所述S2中通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取 流量的序列特征,包括:分别统计每一个流量数据包的包长度和包到达时间间隔,生成包长 度向量和包到达时间间隔向量;将
Figure 464126DEST_PATH_IMAGE005
Figure 899656DEST_PATH_IMAGE006
按照第二设定数量等分,统计 每个等分区间的特征分布数量,去除中位值与最大值后,计算对应概率
Figure 826023DEST_PATH_IMAGE007
(1≤i ≤19,i≠ 10),从而得到量化序列特征,其中,
Figure 781341DEST_PATH_IMAGE008
为所有流量数据包中最大包长度,
Figure 823377DEST_PATH_IMAGE009
为所有流 量数据包中最大包到达时间间隔。其中,概率
Figure 621569DEST_PATH_IMAGE010
为落在i区间内的流量数据包的数量与总的 流量数据包的比例。
其中,S2中对所述互联网流量数据进行离散傅里叶变换获取流量的频率特征,包 括:对统计的流量数据包的特征矩阵S进行w的线性变换,将流量数据包的特征矩阵编码为 实数
Figure 492573DEST_PATH_IMAGE011
,流量向量表示为:
Figure 286086DEST_PATH_IMAGE012
Figure 224655DEST_PATH_IMAGE013
Figure 119930DEST_PATH_IMAGE014
,其中N为流量数据包的数量,S为流量数据 包的特征矩阵,M为所选流量特征数,
Figure 388100DEST_PATH_IMAGE015
为线性变换算子矩阵中的第k个算子。
W为步长对流量向量进行分割,频率分量表示为:
Figure 567278DEST_PATH_IMAGE016
Figure 934805DEST_PATH_IMAGE017
,其中
Figure 707589DEST_PATH_IMAGE018
为帧的数量。
对每一帧
Figure 405549DEST_PATH_IMAGE019
进行离散傅里叶变换,得到每一帧频率特征为:
Figure 49020DEST_PATH_IMAGE020
Figure 56290DEST_PATH_IMAGE021
Figure 972163DEST_PATH_IMAGE022
转换为坐标平面表示:
Figure 847715DEST_PATH_IMAGE023
,计算
Figure 437703DEST_PATH_IMAGE022
的模长
Figure 615874DEST_PATH_IMAGE024
,对于第m帧,选择模量的前半部分为向量
Figure 284622DEST_PATH_IMAGE025
Figure 432706DEST_PATH_IMAGE026
对向量
Figure 191715DEST_PATH_IMAGE025
进行对数变换,并使用常数C调整频域特征的范围,
Figure 822679DEST_PATH_IMAGE027
Figure 526192DEST_PATH_IMAGE028
,所得到的矩阵R的第m列分量
Figure 415651DEST_PATH_IMAGE029
为第m帧的频率特征。
S3,将所述流量的统计特征、流量的序列特征和流量的频率特征进行叠加,获取每一个所述流量数据包的融合特征矩阵。
可理解的是,通过步骤S2分别获取到了每一个流量数据包的统计特征、序列特征和频率特征,得到每一个流量数据包的融合特征。
S4,基于所述初始训练样本集对基于 Transformer 的检测模型进行训练。
可理解的是,基于初始训练样本集对检测模型进行训练,其中,悬链的过程为:S41,将融合特征矩阵使用残差连接层归一化,并通过全连接层输出流量检测结果,计算所述流量检测结果与真实结果之间的测试损失;S42,根据测试损失采用Adam优化器更新检测模型参数,训练次数+1;S43,重复S41与S42的步骤,达到最大训练次数时结束循环,完成基于 Transformer 的检测模型的训练。
S5,基于训练后的检测模型对所述初始测试样本集进行检测,获取所述初始测试样本集中流量数据包的检测结果,所述检测结果包括恶意或非恶意。
可理解的是,对于初始测试样本集中的每一个流量数据包,按照同样的方法提取流量的统计特征、序列特征和频率特征,并将三个特征融合,得到对应的融合特征。将初始测试样本集的每一个流量数据包的融合特征输入训练后的检测模型,得到流量检测结果,流量检测结果包括恶意流量或非恶意流量。
参见图3,为本发明实施例提供的一种多特征融合实时分析的恶意流量检测系统的结构图,如图3所示,该系统包括第一获取模块301、第二获取模块302、第三获取模块303、训练模块304和检测模块305,其中:
第一获取模块301,用于基于深度包检测技术获取互联网流量数据包,并对所述流量数据包进行处理生成初始训练样本集和初始测试样本集;
第二获取模块302,用于对每一个所述流量数据包进行特征重要性检测后获取流量的统计特征,通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征;对所述互联网流量数据进行离散傅里叶变换获取流量的频率特征;
第三获取模块303,用于将所述流量的统计特征、流量的序列特征和流量的频率特征进行叠加,获取每一个所述流量数据包的融合特征矩阵;
训练模块304,用于基于所述初始训练样本集对基于 Transformer 的检测模型进行训练;
检测模块305,用于基于训练后的检测模型对所述初始测试样本集进行检测,获取所述初始测试样本集中流量数据包的检测结果,所述检测结果包括恶意或非恶意。
可理解的是,第一获取模块301利用深度包检测技术获取互联网流量数据集,并进行PACP文件处理,之后将流量数据分别送入统计特征提取模块、频率特征提取模块与序列特征提取模块快速分析表征流量信息,以保证检测阶段的处理效率。在统计特征提取模块中,流量数据通过特征扩展后完成对统计特性集的拓大,利用随机森林算法进行特征重要性分析找到适合的统计特征,并以向量形式输出;在频率特征提取模块,流量数据被编码为向量,减少了数据规模和后续处理开销,之后对向量进行分割处理,并对每一帧进行离散傅里叶变换提取频率特征,同时对离散傅里叶变换后的向量进行对数变换,防止在模型训练阶段由于数值不稳定问题而导致浮点溢出;在序列特征提取模块中,通过马尔可夫随机转移矩阵得到包长度马尔可夫序列特征与包到达间隔时间马尔可夫序列特征,对所得序列特征进行量化获得量化序列特征;将所提取的三类特征进行融合后输入基于Transformer的检测预测模型中,完成最终的恶意流量检测预测工作。
可以理解的是,本发明提供的一种多特征融合实时分析的恶意流量检测系统与前述各实施例提供的多特征融合实时分析的恶意流量检测方法相对应,多特征融合实时分析的恶意流量检测系统的相关技术特征可参考多特征融合实时分析的恶意流量检测方法的相关技术特征,在此不再赘述。
请参阅图4,图4为本发明实施例提供的电子设备的实施例示意图。如图4所示,本发明实施例提了一种电子设备400,包括存储器410、处理器420及存储在存储器410上并可在处理器420上运行的计算机程序411,处理器420执行计算机程序411时实现多特征融合实时分析的恶意流量检测方法的步骤。
请参阅图5,图5为本发明提供的一种计算机可读存储介质的实施例示意图。如图5所示,本实施例提供了一种计算机可读存储介质500,其上存储有计算机程序511,该计算机程序511被处理器执行时实现多特征融合实时分析的恶意流量检测方法的步骤。
本发明实施例提供的一种多特征融合实时分析的恶意流量检测方法及系统,具体如下优点:
(1)对恶意网络流量进行分析,利用统计特征、频率特征和序列特征融合对流量进行描述,增强了对流量数据的表示能力,且特征冗余度低,从而提升了模型检测预测效果的精确度与吞吐量。
(2)应用的统计特征、序列特征和频率特征均与包的细节内容无关,与目前的网络流量加密化与解密复杂度高的趋势相契合,具有实用性与通用性。
(3)将包特征序列编码为向量,减少了特征处理的开销,从而实现高性能实时检测预测。
(4)通过频域分析有效提取和分析了网络流量的频率信息,所提取出的流量特征信息损失小,流量的频域特征可以有效表示流量的各种分组排序模式,低频域特征分析损耗保证了模型检测的高精度。
(5)提取的统计特征、序列特征和频率特征代表了数据包序列的细粒度信息,不易受注入噪声报文的干扰,从而实现模型的鲁棒检测预测,具有健壮性。
(6)利用一个模型同时实现了恶意流量的检测与预测双重功能,避免使用冗余资源,与工业界精简整合潮流相吻合。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (8)

1.一种多特征融合实时检测的恶意流量检测方法,其特征在于,包括:
S1,基于深度包检测技术获取互联网流量数据包,并对所述流量数据包进行处理生成初始训练样本集和初始测试样本集;
S2,对每一个所述流量数据包进行特征重要性检测后获取流量的统计特征,通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征;对所述互联网流量数据进行离散傅里叶变换获取流量的频率特征;
S3,将所述流量的统计特征、流量的序列特征和流量的频率特征进行叠加,获取每一个所述流量数据包的融合特征矩阵;
S4,基于所述初始训练样本集对基于 Transformer 的检测模型进行训练;
S5,基于训练后的检测模型对所述初始测试样本集进行检测,获取所述初始测试样本集中流量数据包的检测结果,所述检测结果包括恶意或非恶意。
2.根据权利要求1所述的恶意流量检测方法,其特征在于,所述S1,基于深度包检测技术获取互联网流量数据包,包括:
基于深度包检测技术访问可达的IP、URL和域名捕获实时流量数据包;
对所述实时流量数据包处理得到 PCAP文件原始数据集,经过预处理后生成初始训练样本集和初始测试样本集。
3.根据权利要求1所述的恶意流量检测方法,其特征在于,所述S2中对每一个所述流量数据包进行特征重要性检测后获取流量的统计特征,包括:
从每一个流量数据包中提取传统统计特征,所述传统统计特征包括源端口和目的端口,向后字节数、向前字节数、总字节数、向后包数、向前包数、总包数、向后带负载包数、向前带负载包数和带负载包数以及流的持续时间;
统计所有流量数据包中字节数和时间间隔的最大值、平均值、中位值、方差、标准差和协方差,统计所有流量数据包中的每个字节的比特熵和所有字节的总熵,以及统计所有流量数据包的包长度的分布模式和所有流量数据包的包到达间隔时间的分布模式,完成统计特征的扩展;
将扩展后的统计特征输入随机森林模型中,获取所述随机森林模型输出的按照重要性排序的统计特征,从中筛选出合适的统计特征。
4.根据权利要求1所述的恶意流量检测方法,其特征在于,所述S2中通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征,包括:
创建第一设定数量的容器,以所有流量数据包中最大包长度
Figure 560925DEST_PATH_IMAGE001
为上限,将数据域
Figure 478065DEST_PATH_IMAGE002
以第一设定数量进行等分,分割后的值域段被均匀分散到大小相同的容器中;
构造第一马尔可夫随机转移矩阵MRFTM,其中每一项 MRFTM[ij]为流量数据包的包长度从第i个容器到第j个容器之间的转换次数;
对第一马尔可夫随机转移矩阵MRFTM进行归一化处理,作为流量的包长度马尔可夫序列特征;
创建第一设定数量的容器,以所有流量数据包中最大包到达时间间隔
Figure 992223DEST_PATH_IMAGE003
为上限,将 数据域
Figure 121853DEST_PATH_IMAGE004
以第一设定数量进行等分,分割后的值域段被均匀分散到大小相同的容 器中;
构造第二马尔可夫随机转移矩阵MRFTM,其中每一项 MRFTM[ij]为流量数据包的包到达时间间隔从第i个容器到第j个容器之间的转换次数;
对第二马尔可夫随机转移矩阵MRFTM进行归一化处理,作为包到达间隔时间马尔可夫序列特征。
5.根据权利要求1所述的恶意流量检测方法,其特征在于,所述S2中通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征,包括:
分别统计每一个流量数据包的包长度和包到达时间间隔,生成包长度向量和包到达时间间隔向量;
Figure 795280DEST_PATH_IMAGE005
Figure 617742DEST_PATH_IMAGE006
按照第二设定数量等分,统计每个等分区间的特征分布 数量,去除中位值与最大值后,计算对应概率
Figure 619196DEST_PATH_IMAGE007
,1≤i ≤19,i≠10,从而得到量化序列特 征,其中,
Figure 552517DEST_PATH_IMAGE008
为所有流量数据包中最大包长度,
Figure 955817DEST_PATH_IMAGE009
为所有流量数据包中最大包到达时 间间隔。
6.根据权利要求1所述的恶意流量检测方法,其特征在于,所述S2中对所述互联网流量数据进行离散傅里叶变换获取流量的频率特征,包括:
对统计的流量数据包的特征矩阵S进行w的线性变换,将流量数据包的特征矩阵编码为 实数
Figure 949181DEST_PATH_IMAGE010
,流量向量表示为:
Figure 562565DEST_PATH_IMAGE011
Figure 33997DEST_PATH_IMAGE012
Figure 557383DEST_PATH_IMAGE013
,其中N为流量数据包的数量,S为 流量数据包的特征矩阵,M为所选流量特征数,
Figure 721648DEST_PATH_IMAGE014
为线性变换算子矩阵中的第k个算子;
W为步长对流量向量进行分割,频率分量表示为:
Figure 697694DEST_PATH_IMAGE015
Figure 831872DEST_PATH_IMAGE016
,其中
Figure 475343DEST_PATH_IMAGE017
为帧的数量;
对每一帧
Figure 544930DEST_PATH_IMAGE018
进行离散傅里叶变换,得到每一帧频率特征为:
Figure 8272DEST_PATH_IMAGE019
Figure 821508DEST_PATH_IMAGE021
Figure 319485DEST_PATH_IMAGE022
转换为坐标平面表示:
Figure 448722DEST_PATH_IMAGE023
,计算
Figure 133781DEST_PATH_IMAGE022
的模长
Figure 16286DEST_PATH_IMAGE024
, 对于第m帧,选择模量的前半部分为向量
Figure 103191DEST_PATH_IMAGE025
Figure 780160DEST_PATH_IMAGE026
对向量
Figure 218095DEST_PATH_IMAGE025
进行对数变换,并使用常数C调整频域特征的范围,
Figure 497766DEST_PATH_IMAGE027
Figure 704757DEST_PATH_IMAGE028
,所得到的矩阵R的第m列分量
Figure DEST_PATH_IMAGE029
为第m帧的频率特征。
7.根据权利要求1所述的恶意流量检测方法,其特征在于,所述S4,基于所述初始训练样本集对基于 Transformer 的检测模型进行训练,包括:
S41,将融合特征矩阵使用残差连接层归一化,并通过全连接层输出流量检测结果,计算所述流量检测结果与真实结果之间的测试损失;
S42,根据测试损失采用Adam优化器更新检测模型参数,训练次数+1;
S43,重复S41与S42的步骤,达到最大训练次数时结束循环,完成基于 Transformer 的检测模型的训练。
8.一种多特征融合实时检测的恶意流量检测系统,其特征在于,包括:
第一获取模块,用于基于深度包检测技术获取互联网流量数据包,并对所述流量数据包进行处理生成初始训练样本集和初始测试样本集;
第二获取模块,用于对每一个所述流量数据包进行特征重要性检测后获取流量的统计特征,通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征;对所述互联网流量数据进行离散傅里叶变换获取流量的频率特征;
第三获取模块,用于将所述流量的统计特征、流量的序列特征和流量的频率特征进行叠加,获取每一个所述流量数据包的融合特征矩阵;
训练模块,用于基于所述初始训练样本集对基于 Transformer 的检测模型进行训练;
检测模块,用于基于训练后的检测模型对所述初始测试样本集进行检测,获取所述初始测试样本集中流量数据包的检测结果,所述检测结果包括恶意或非恶意。
CN202211508427.3A 2022-11-29 2022-11-29 一种多特征融合实时分析的恶意流量检测方法及系统 Active CN115632875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211508427.3A CN115632875B (zh) 2022-11-29 2022-11-29 一种多特征融合实时分析的恶意流量检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211508427.3A CN115632875B (zh) 2022-11-29 2022-11-29 一种多特征融合实时分析的恶意流量检测方法及系统

Publications (2)

Publication Number Publication Date
CN115632875A true CN115632875A (zh) 2023-01-20
CN115632875B CN115632875B (zh) 2023-04-07

Family

ID=84909947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211508427.3A Active CN115632875B (zh) 2022-11-29 2022-11-29 一种多特征融合实时分析的恶意流量检测方法及系统

Country Status (1)

Country Link
CN (1) CN115632875B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019125799A1 (en) * 2017-12-22 2019-06-27 Cisco Technology, Inc. Leveraging endpoint and network environment inferences for malware traffic classification
US20200186547A1 (en) * 2018-12-11 2020-06-11 Cisco Technology, Inc. Detecting encrypted malware with splt-based deep networks
CN113329023A (zh) * 2021-05-31 2021-08-31 西北大学 一种加密流量恶意性检测模型建立、检测方法及系统
CN113489674A (zh) * 2021-05-25 2021-10-08 南京邮电大学 一种面向物联网系统的恶意流量智能检测方法及应用
CN113489685A (zh) * 2021-06-15 2021-10-08 江苏大学 一种基于核主成分分析的二次特征提取及恶意攻击识别方法
CN113704762A (zh) * 2021-09-02 2021-11-26 广州大学 基于集成学习的恶意软件加密流量检测方法
CN113705619A (zh) * 2021-08-03 2021-11-26 广州大学 一种恶意流量检测方法、系统、计算机及介质
CN114172748A (zh) * 2022-02-10 2022-03-11 中国矿业大学(北京) 一种加密恶意流量检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019125799A1 (en) * 2017-12-22 2019-06-27 Cisco Technology, Inc. Leveraging endpoint and network environment inferences for malware traffic classification
US20200186547A1 (en) * 2018-12-11 2020-06-11 Cisco Technology, Inc. Detecting encrypted malware with splt-based deep networks
CN113489674A (zh) * 2021-05-25 2021-10-08 南京邮电大学 一种面向物联网系统的恶意流量智能检测方法及应用
CN113329023A (zh) * 2021-05-31 2021-08-31 西北大学 一种加密流量恶意性检测模型建立、检测方法及系统
CN113489685A (zh) * 2021-06-15 2021-10-08 江苏大学 一种基于核主成分分析的二次特征提取及恶意攻击识别方法
CN113705619A (zh) * 2021-08-03 2021-11-26 广州大学 一种恶意流量检测方法、系统、计算机及介质
CN113704762A (zh) * 2021-09-02 2021-11-26 广州大学 基于集成学习的恶意软件加密流量检测方法
CN114172748A (zh) * 2022-02-10 2022-03-11 中国矿业大学(北京) 一种加密恶意流量检测方法

Also Published As

Publication number Publication date
CN115632875B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN112738015B (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
CN107657174B (zh) 一种基于协议指纹的数据库入侵检测方法
KR20170060280A (ko) 탐지 규칙 자동 생성 장치 및 방법
Patil et al. S-DDoS: Apache spark based real-time DDoS detection system
CN108282460B (zh) 一种面向网络安全事件的证据链生成方法及装置
CN110611640A (zh) 一种基于随机森林的dns协议隐蔽通道检测方法
CN112492059A (zh) Dga域名检测模型训练方法、dga域名检测方法、装置及存储介质
CN109101527A (zh) 一种海量安全日志信息过滤方法及装置
EP3905084A1 (en) Method and device for detecting malware
CN112217763A (zh) 一种基于机器学习的隐蔽tls通信流检测方法
Abbasi et al. Deep learning-based feature extraction and optimizing pattern matching for intrusion detection using finite state machine
CN115314268B (zh) 基于流量指纹和行为的恶意加密流量检测方法和系统
CN117220920A (zh) 基于人工智能的防火墙策略管理方法
CN115134250A (zh) 一种网络攻击溯源取证方法
Bayazit et al. Neural network based Android malware detection with different IP coding methods
CN111182002A (zh) 基于http首个问答包聚类分析的僵尸网络检测装置
CN111464510A (zh) 一种基于快速梯度提升树模型的网络实时入侵检测方法
CN117914555A (zh) 一种智能网关的训练及流量检测方法和设备
WO2016201876A1 (zh) 一种加密流量的业务识别方法、装置和计算机存储介质
CN112383488B (zh) 一种适用于加密与非加密数据流的内容识别方法
CN114362988A (zh) 网络流量的识别方法及装置
CN113037748A (zh) 一种c&c信道混合检测方法及系统
CN115051874B (zh) 一种多特征的cs恶意加密流量检测方法和系统
CN115632875B (zh) 一种多特征融合实时分析的恶意流量检测方法及系统
CN110071845B (zh) 一种对未知应用进行分类的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant