CN111314329B - 流量入侵检测系统和方法 - Google Patents

流量入侵检测系统和方法 Download PDF

Info

Publication number
CN111314329B
CN111314329B CN202010079212.9A CN202010079212A CN111314329B CN 111314329 B CN111314329 B CN 111314329B CN 202010079212 A CN202010079212 A CN 202010079212A CN 111314329 B CN111314329 B CN 111314329B
Authority
CN
China
Prior art keywords
data
model
intrusion detection
traffic
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010079212.9A
Other languages
English (en)
Other versions
CN111314329A (zh
Inventor
徐金铭
谭天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou DPTech Technologies Co Ltd
Original Assignee
Hangzhou DPTech Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou DPTech Technologies Co Ltd filed Critical Hangzhou DPTech Technologies Co Ltd
Priority to CN202010079212.9A priority Critical patent/CN111314329B/zh
Publication of CN111314329A publication Critical patent/CN111314329A/zh
Application granted granted Critical
Publication of CN111314329B publication Critical patent/CN111314329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供入侵检测系统和方法。该入侵检测系统包括:数据存储器;待检测流量数据预处理部分,对待检测流量数据进行特征提取和转换,并将处理结果作为训练数据集保存在所述数据存储器中;以及异常分类预测部分,用于利用有监督的方法或者无监督的方法,借助于由lightGBM模型和多层感知机/神经网络模型组合而成的异常分类预测模型,对待检测流量数据预处理部分所得到并保存的训练数据集进行异常分类检测并判断是否存在异常流量类型。该异常检测系统和方法采用基于短周期内快速增量更新和长周期内批量更新结合方案,既能够短时间内快速更新迭代模型,同时又能够利用lightGBM的高准确率,从而提升了检测性能。

Description

流量入侵检测系统和方法
技术领域
本公开涉及流量入侵检测系统和方法,尤其是涉及基于长短周期更新结合的入侵检测系统和方法。
背景技术
随着信息化时代的到来,目前网络安全已经成为一个非常重要的领域,其中网络入侵检测是一个非常重要的防范网络安全隐患的手段。识别异常流量是进行入侵检测的第一步,同时异常流量类型进行分类有助于后续对于异常流量的处理。
目前用于异常流量检测的相关技术基本上有两种,一种是基于攻击特征的匹配的技术,其通过已知的网络攻击的特征,对待检测流量进行匹配,来识别异常流量。这种技术由于基于特征匹配的方法只能检测已知的入侵攻击类型,所以不能检测未知的攻击类型。
另一种异常流量检测的相关技术是基于增量更新的机器学习的技术,通过增量更新快速适应复杂的网络环境,得到用于检测的模型。这种技术基于增量更新的机器学习的技术可以检测未知类型的攻击类型,但是往往误报率非常高。支持快速增量更新的模型可以快速对网络环境作出反应,但是预测性能一般不如直接用大量数据训练的模型。同时很多模型如lightGBM虽然预测性能比较好,但是并不能进行增量更新,从而也就没办法快速适应网络环境,随着时间的推移,预测性能会有所下降。
因此,需要快速自动预测性地检测网络入侵的入侵检测系统和方法。
发明内容
本公开就是为了解决上述技术问题而提出的技术方案,它采用短周期内快速增量更新和长周期内批量更新相结合的方式来进行入侵检测,为满足快速更新的模型的需求,可以使用支持增量更新的模型如多层感知机/神经网络进行快速增量更新,实践中如果直接用大量的数据进行训练,多层感知机/神经网络模型的检测效果一般是不如像lightGBM这样的模型的,但是lightGBM只能在拥有大量数据的情况下进行批量更新。这里所提出的系统架构主要是要结合这两者的优势,在短的周期内增量更新神经网络,在长的周期内批量更新lightGBM,并利用动态的权重配比的来进行预测。
根据本公开的一个方面,提供一种入侵检测系统,该入侵检测系统包括:数据存储器;待检测流量数据预处理部分,对待检测流量数据进行特征提取和转换,并将处理结果作为训练数据集保存在所述数据存储器中;以及异常分类预测部分,用于利用有监督的方法或者无监督的方法,借助于由lightGBM模型和多层感知机/神经网络模型组合而成的异常分类预测模型,对待检测流量数据预处理部分所得到并保存的训练数据集进行异常分类检测并判断是否存在异常流量类型。
根据本公开的一个实施例,所述待检测流量数据预处理部分利用wireshark工具来抓取网络流量的pcap格式数据包,利用切包工具将其切分为许多会话来收集待检测流量数据。
根据本公开的一个实施例,所述特征提取包括收集所述会话的头部信息和时间、流量和报文数的统计特征,从而最终针对每个会话生成一个特征向量用于检测。
根据本公开的一个实施例,所述转换包括对已经得到的训练数据进行标准化处理,从而使得特征的取值限制在一定范围内。
根据本公开的一个实施例,所述异常分类预测部分还包括:短周期更新模块,用于每经过一个预定短周期UPS,就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新,并将这部分数据在所述数据存储器中进行存储;以及长周期更新模块,用于每经过一个预定长周期UPL,就用当前存储的全部数据对lightGBM模型进行更新,更新完之后删除一部分在数据存储器中存储时间最久的数据。
根据本公开的一个实施例,所述多层感知机/神经网络模型与所述lightGBM模型的结合方式如下:设置指示器随机变量
Figure BDA0002379679810000021
这里随机变量λ以概率p取值为1,以概率1-p取值为0,其概率分布随着系统实际的使用而不断更新,其中在一个长周期UPL内,每经过一个短周期UPS,所述概率的变化方式如下:计算在每一轮的长周期内已经训练的样本数(Ntrained)除以初始训练的数据集总数(Ninit),再乘上一个可调参数η,其中η参数用于人工设定更新的幅度,而在该长周期结束时,重置概率分布中的参数来进入下一个长周期:
Figure BDA0002379679810000031
以使得实际的输出按照下面公式进行
y=λymlp+(1-λ)ylgb
其中ymlp是多层感知机/神经网络模型的预测结果,而ylgb是lightGBM模型的预测结果。
根据本公开的一个实施例,每经过一个长周期UPL之后所述lightGBM模型得到更新,从而重置随机变量λ,将其概率分布中的参数(η,Ninit)重新设置,为下一阶段的更新做准备。
根据本公开的一个实施例,所述多层感知机/神经网络模型与所述lightGBM模型的结合方式也可以如下:直接对输出结果进行加权平均,设置动态加权系数β为
Figure BDA0002379679810000032
则输出的结果为:
y=βymlp+(1-β)ylgb
根据本公开的另一方面,提供一种入侵检测方法,其包括以下步骤:对待检测流量数据进行特征提取和转换,并将处理结果保存为训练数据集;以及使用有监督的方法或者无监督的方法,借助于由lightGBM模型和多层感知机/神经网络模型组合而成的异常分类预测模型,对所获得的训练数据集进行异常分类检测并判断是否存在异常流量类型。
根据本公开的一个实施例,通过利用wireshark工具来抓取网络流量的pcap格式数据包,并利用切包工具将其切分为许多会话来收集所述待检测流量数据。
根据本公开的一个实施例,所述特征提取包括收集所述会话的头部信息和时间、流量和报文数的统计特征,从而最终针对每个会话生成一个特征向量用于检测。
根据本公开的一个实施例,所述转换包括对已经得到的训练数据进行标准化处理,从而使得特征的取值限制在一定范围内。
根据本公开的一个实施例,所述对所获得的训练数据集进行异常分类检测并判断是否存在异常流量类型的步骤包括:每经过一个预定短周期UPS,就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新,并保存这部分数据;以及每经过一个预定长周期UPL,就用当前存储的全部数据对lightGBM模型进行更新,更新完之后删除一部分存储时间最久的数据。
根据本公开的一个实施例,所述多层感知机/神经网络模型与所述lightGBM模型的结合方式如下:设置指示器随机变量
Figure BDA0002379679810000042
这里随机变量λ以概率p取值为1,以概率1-p取值为0,其概率分布随着系统实际的使用而不断更新,其中在一个长周期UPL内,每经过一个短周期UPS,所述概率的变化方式如下:计算在每一轮的长周期内已经训练的样本数(Ntrained)除以初始训练的数据集总数(Ninit),再乘上一个可调参数η,其中η参数用于人工设定更新的幅度,而在该长周期结束时,重置概率分布中的参数来进入下一个长周期:
Figure BDA0002379679810000041
以使得实际的输出按照下面公式进行
y=λymlp+(1-λ)ylgb
其中ymlp是多层感知机/神经网络模型的预测结果,而ylgb是lightGBM模型的预测结果。
根据本公开的一个实施例,每经过一个长周期UPL之后所述lightGBM模型得到更新,从而重置随机变量λ,将其概率分布中的参数(η,Ninit)重新设置,为下一阶段的更新做准备。
根据本公开的一个实施例,所述多层感知机/神经网络模型与所述lightGBM模型的结合方式也可以如下:直接对输出结果进行加权平均,设置动态加权系数β为
Figure BDA0002379679810000051
则输出的结果为:
y=βymlp+(1-β)ylgb
根据本公开的上述异常检测系统和方法采用基于短周期内快速增量更新和长周期内批量更新结合方案,既能够短时间内快速更新迭代模型,同时又能够利用lightGBM的高准确率,从而提升了检测性能。
附图说明
通过结合附图对于本公开的示例性实施例进行描述,可以更好地理解本公开,在附图中:
图1是图示根据本公开的入侵检测系统的框图;
图2是根据本公开的图1所示的异常分类预测部分的一个示例的框图;以及
图3示出了根据本公开的入侵检测方法的流程图。
具体实施方式
以下将描述本公开的具体实施方式,需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要的描述,本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是,在任意一种实施方式的实际实施过程中,正如在任意一个工程项目或者设计项目的过程中,为了实现开发者的具体目标,为了满足系统相关的或者商业相关的限制,常常会做出各种各样的具体决策,而这也会从一种实施方式到另一种实施方式之间发生改变。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本公开公开的内容相关的本领域的普通技术人员而言,在本公开揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本公开的内容不充分。
除非另作定义,权利要求书和说明书中使用的技术术语或者科学术语应当为本公开所属技术领域内具有一般技能的人士所理解的通常意义。本公开专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件,并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,也不限于是直接的还是间接的连接。
本公开采用短周期内快速增量更新和长周期内批量更新相结合的方式来进行入侵检测,为满足快速更新的模型的需求,可以使用支持增量更新的模型如多层感知机/神经网络进行快速增量更新,实践中如果直接用大量的数据进行训练,多层感知机/神经网络模型的检测效果一般是不如像lightGBM这样的模型的,但是lightGBM只能在拥有大量数据的情况下进行批量更新。这里所提出的系统架构主要是要结合这两者的优势,在短的周期内增量更新神经网络,在长的周期内批量更新lightGBM,并利用动态的权重配比的来进行预测。
具体来说,图1是图示根据本公开的入侵检测系统100的框图。该入侵检测系统100包括待检测流量数据预处理部分110、异常分类预测部分120以及数据存储器130。
待检测流量数据预处理部分110对待检测流量数据进行特征提取和转换,并将处理结果作为训练数据集保存在数据存储器130中。具体来说,待检测流量数据预处理部分110可以利用wireshark工具来抓取网络流量的pcap格式数据包,利用切包工具将其切分为许多会话。以此为基础收集待检测流量数据。特征提取主要是收集会话的头部信息和时间、流量和报文数的统计特征。从上一步生成的会话中提取特征,最终针对每个会话生成一个特征向量用于检测。
因为训练模型里面包含神经网络,而神经网络对不同特征数据分布的范围不一致较为敏感,所以对于已经得到的训练数据需要进行标准化处理,从而使得特征的取值限制在一定范围内,不会出现某个特征比其他的特征更重要的情况,这会有助于神经网络的训练。
图2是根据本公开的图1所示的异常分类预测部分120的一个示例的框图。为了实现识别异常和攻击流量分类的目标,对待检测训练数据集分为两个阶段进行处理。首先,该异常分类预测部分120包括异常分类预测模型210,用于对待检测流量数据预处理部分110所得到并保存的训练数据集进行异常分类检测并判断是否存在异常流量类型,这可以使用有监督的方法或者无监督的方法进行。异常分类预测模型210的一个实例是lightGBM模型与多层感知机/神经网络模型(MLP)的组合,其组合方式将在下文中进一步详细说明。然后,该异常分类预测部分120对于分类为异常流量的部分送入下一个阶段进行攻击流量的分类。
对攻击流量的分类难度较大,传统的方法中往往只是用定期对模型进行重新训练,这样也就不能适应网络环境不断变化的需求,而如果只使用增量更新进行训练,性能一般不会比直接训练好。
为此,本公开提出了一种短周期内快速增量更新和长周期内批量更新结合的方式。相应地,该异常分类预测部分120还包括短周期更新模块220和长周期更新模块230。该异常分类预测部分120首先设定两个更新周期UPS,UPL,其中UPS为短更新周期,而UPL为长更新周期。每经过一个短周期UPS,短周期更新模块220就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新,并将这部分数据在数据存储器130中进行存储。每经过一个长周期UPL,长周期更新模块230就用当前存储的全部数据对lightGBM模型进行更新,更新完之后删除一部分在数据存储器130中存储时间最久的数据。
因为lightGBM模型的更新周期比较长,在复杂多变的网络环境中其检测性能会因学到数据比较老而出现下滑,所以随着短周期更新的不断进行,可以逐渐调高多层感知机/神经网络模型的预测权重,相应的下调lightGBM模型的预测权重。而在长周期更新结束之后,重置两种模型的权重的配比,从而实现对长短周期学习的结合。
多层感知机/神经网络模型与lightGBM模型的具体结合方式可以使用如下方案:设置指示器随机变量
Figure BDA0002379679810000071
这里随机变量λ以概率p取值为1,以概率1-p取值为0,其概率分布随着系统实际的使用而不断更新。在一个长周期UPL内,每经过一个短周期UPS,概率的变化方式如下:计算在每一轮的长周期内已经训练的样本数(Ntrained)除以初始训练的数据集总数(Ninit),再乘上一个可调参数η,其中η参数用于人工设定更新的幅度。长周期结束时,重置概率分布中的参数,进入下一个长周期。
Figure BDA0002379679810000081
实际的输出按照下面公式进行
y=λymlp+(1-λ)ylgb
其中ymlp是多层感知机/神经网络模型的预测结果,而ylgb是lightGBM模型的预测结果。这样也就组合了两个模型的输出。
在一个长周期内,注意到初始时概率p较小,使用lightGBM模型进行预测的概率较大,而随着训练的不断进行概率p会越来越大,使用多层感知机/神经网络模型进行预测的概率也就越来越大。从而在前期能够利用lightGBM模型的高准确率,随着短周期更新的逐步进行,系统会更多的利用到最近更新的模型进行预测,这能够弥补lightGBM的由于训练数据比较老而预测准确率下降的问题。
每经过一个长周期UPL之后lightGBM模型得到更新,此时可以重置随机变量λ,将其概率分布中的参数(η,Ninit)重新设置,为下一阶段的更新做准备。还有一种组合方案是直接对输出结果进行加权平均,设置动态的加权的系数β与上面的概率相类似
Figure BDA0002379679810000082
于是输出的结果为:
y=βymlp+(1-β)ylgb
这样的组合方式也能做到结合两个模型,在长周期的初开始训练完两个模型,lightGBM部分的权重要更大一些。随着批量更新训练的不断进行,多层感知机/神经网络模型的权重不断增大,并且在进入下一个周期的时候重置其中的参数。
图3示出了根据本公开的入侵检测方法的流程图。如图3所示,根据本公开的入侵检测方法在步骤S310中,对待检测流量数据进行特征提取和转换,并将处理结果保存为训练数据集。具体来说,在该步骤中,可以利用wireshark工具来抓取网络流量的pcap格式数据包,利用切包工具将其切分为许多会话,以此为基础收集待检测流量数据。特征提取主要是收集会话的头部信息和时间、流量和报文数的统计特征。从上一步生成的会话中提取特征,最终针对每个会话生成一个特征向量用于检测。
因为训练模型里面包含神经网络,而神经网络对不同特征数据分布的范围不一致较为敏感,所以对于已经得到的训练数据需要进行标准化处理,从而使得特征的取值限制在一定范围内,不会出现某个特征比其他的特征更重要的情况,这会有助于神经网络的训练。
接下来,根据本公开的入侵检测方法在步骤S320中使用有监督的方法或者无监督的方法进行对步骤S310中所获得的训练数据集进行异常分类检测并判断是否存在异常流量类型,其中用于进行异常分类检测的异常分类预测模型的一个实例是lightGBM模型与多层感知机/神经网络模型的组合,其组合方式如上所述。
然后,在步骤S320中检测到存在异常流量类型的情况下,在步骤S330中,首先根据预先设定的两个更新周期UPS,UPL,其中UPS为短更新周期,而UPL为长更新周期,每经过一个短周期UPS,就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新,并将这部分数据保存为训练数据集;同时,在步骤S340中,每经过一个长周期UPL,就用当前存储的全部数据对lightGBM模型进行更新,更新完之后删除一部分存储时间最久的训练数据。然后,在步骤S350中,利用更新后的异常分类预测模型进一步分析存在异常的流量类型并最终做出是否存在异常的流量类型的结论。然后结束进程。
综上所述,本公开的异常检测系统和方法采用基于短周期内快速增量更新和长周期内批量更新结合方案,既能够短时间内快速更新迭代模型,同时又能够利用lightGBM的高准确率,从而提升了检测性能。
以上结合具体实施例描述了本公开的基本原理,但是需要指出的是,对本领域的普通技术人员而言,能够理解本公开的方法和系统的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本公开的说明的情况下运用他们的基本编程技能就能实现的。
因此,本公开的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本公开的目的也可以仅仅通过提供包含实现所述方法或者系统的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本公开,并且存储有这样的程序产品的存储介质也构成本公开。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
还需要指出的是,在本公开的系统和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (14)

1.一种入侵检测系统,该入侵检测系统包括:
数据存储器;
待检测流量数据预处理部分,对待检测流量数据进行特征提取和转换,并将处理结果作为训练数据集保存在所述数据存储器中;以及
异常分类预测部分,用于利用有监督的方法或者无监督的方法,借助于由lightGBM模型和多层感知机/神经网络模型组合而成的异常分类预测模型,对待检测流量数据预处理部分所得到并保存的训练数据集进行异常分类检测并判断是否存在异常流量类型,其中
所述异常分类预测部分还包括:
短周期更新模块,用于每经过一个预定短周期UPS,就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新,并将这部分数据在所述数据存储器中进行存储;以及
长周期更新模块,用于每经过一个预定长周期UPL,就用当前存储的全部数据对lightGBM模型进行更新,更新完之后删除一部分在数据存储器中存储时间最久的数据。
2.根据权利要求1所述的入侵检测系统,其中待检测流量数据预处理部分利用wireshark工具来抓取网络流量的pcap格式数据包,利用切包工具将其切分为许多会话来收集待检测流量数据。
3.根据权利要求2所述的入侵检测系统,其中特征提取包括收集所述会话的头部信息和时间、流量和报文数的统计特征,从而最终针对每个会话生成一个特征向量用于检测。
4.根据权利要求3所述的入侵检测系统,其中所述转换包括对已经得到的训练数据进行标准化处理,从而使得特征的取值限制在一定范围内。
5.根据权利要求1所述的入侵检测系统,其中所述多层感知机/神经网络模型与所述lightGBM模型的结合方式如下:设置指示器随机变量
Figure RE-FDA0003334709050000011
这里随机变量λ以概率p取值为1,以概率1-p取值为0,其概率分布随着系统实际的使用而不断更新,其中在一个长周期UPL内,每经过一个短周期UPS,所述概率的变化方式如下:计算在每一轮的长周期内已经训练的样本数(Ntrained)除以初始训练的数据集总数(Ninit),再乘上一个可调参数η,其中η参数用于人工设定更新的幅度,而在该长周期结束时,重置概率分布中的参数来进入下一个长周期:
Figure RE-FDA0003334709050000021
以使得实际的输出按照下面公式进行
y=λymlp+(1-λ)ylgb
其中ymlp是多层感知机/神经网络模型的预测结果,而ylgb是lightGBM模型的预测结果。
6.根据权利要求5所述的入侵检测系统,其中每经过一个长周期UPL之后所述lightGBM模型得到更新,从而重置随机变量λ,将其概率分布中的参数(η,Ninit)重新设置,为下一阶段的更新做准备。
7.根据权利要求4所述的入侵检测系统,其中所述多层感知机/神经网络模型与所述lightGBM模型的结合方式如下:直接对输出结果进行加权平均,设置动态加权系数β为
Figure RE-FDA0003334709050000022
则输出的结果为:
y=βymlp+(1-β)ylgb
8.一种入侵检测方法,其包括以下步骤:
对待检测流量数据进行特征提取和转换,并将处理结果保存为训练数据集;以及
使用有监督的方法或者无监督的方法,借助于由lightGBM模型和多层感知机/神经网络模型组合而成的异常分类预测模型,对所获得的训练数据集进行异常分类检测并判断是否存在异常流量类型,
其中所述对所获得的训练数据集进行异常分类检测并判断是否存在异常流量类型的步骤包括:
每经过一个预定短周期UPS,就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新,并保存这部分数据;以及
每经过一个预定长周期UPL,就用当前存储的全部数据对lightGBM模型进行更新,更新完之后删除一部分存储时间最久的数据。
9.根据权利要求8所述的入侵检测方法,其中通过利用wireshark工具来抓取网络流量的pcap格式数据包,并利用切包工具将其切分为许多会话来收集所述待检测流量数据。
10.根据权利要求9所述的入侵检测方法,其中所述特征提取包括收集所述会话的头部信息和时间、流量和报文数的统计特征,从而最终针对每个会话生成一个特征向量用于检测。
11.根据权利要求10所述的入侵检测方法,其中所述转换包括对已经得到的训练数据进行标准化处理,从而使得特征的取值限制在一定范围内。
12.根据权利要求8所述的入侵检测方法,其中所述多层感知机/神经网络模型与所述lightGBM模型的结合方式如下:设置指示器随机变量
Figure RE-FDA0003334709050000031
这里随机变量λ以概率p取值为1,以概率1-p取值为0,其概率分布随着系统实际的使用而不断更新,其中在一个长周期UPL内,每经过一个短周期UPS,所述概率的变化方式如下:计算在每一轮的长周期内已经训练的样本数(Ntrained)除以初始训练的数据集总数(Ninit),再乘上一个可调参数η,其中η参数用于人工设定更新的幅度,而在该长周期结束时,重置概率分布中的参数来进入下一个长周期:
Figure RE-FDA0003334709050000032
以使得实际的输出按照下面公式进行
y=λymlp+(1-λ)ylgb
其中ymlp是多层感知机/神经网络模型的预测结果,而ylgb是lightGBM模型的预测结果。
13.根据权利要求12所述的入侵检测方法,其中每经过一个长周期UPL 之后所述lightGBM模型得到更新,从而重置随机变量λ,将其概率分布中的参数(η,Ninit)重新设置,为下一阶段的更新做准备。
14.根据权利要求8所述的入侵检测方法,其中所述多层感知机/神经网络模型与所述lightGBM模型的结合方式如下:直接对输出结果进行加权平均,设置动态加权系数β为
Figure RE-FDA0003334709050000041
则输出的结果为:
y=βymlp+(1-β)ylgb
CN202010079212.9A 2020-02-03 2020-02-03 流量入侵检测系统和方法 Active CN111314329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010079212.9A CN111314329B (zh) 2020-02-03 2020-02-03 流量入侵检测系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010079212.9A CN111314329B (zh) 2020-02-03 2020-02-03 流量入侵检测系统和方法

Publications (2)

Publication Number Publication Date
CN111314329A CN111314329A (zh) 2020-06-19
CN111314329B true CN111314329B (zh) 2022-01-28

Family

ID=71161627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010079212.9A Active CN111314329B (zh) 2020-02-03 2020-02-03 流量入侵检测系统和方法

Country Status (1)

Country Link
CN (1) CN111314329B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797997A (zh) * 2020-07-08 2020-10-20 北京天融信网络安全技术有限公司 网络入侵检测方法、模型构建方法、装置及电子设备
CN111563078B (zh) * 2020-07-15 2020-11-10 浙江大华技术股份有限公司 基于时序数据的数据质量检测方法、检测装置及存储装置
CN112187730A (zh) * 2020-09-08 2021-01-05 华东师范大学 一种入侵检测系统
CN112202722A (zh) * 2020-09-08 2021-01-08 华东师范大学 一种入侵检测方法
CN113806733A (zh) * 2021-02-03 2021-12-17 北京沃东天骏信息技术有限公司 异常流量检测方法、装置及可读存储介质和电子设备
CN114189350B (zh) * 2021-10-20 2023-03-07 北京交通大学 一种基于LightGBM的列车通信网络入侵检测方法
CN115168478B (zh) * 2022-09-06 2022-11-29 深圳市明源云科技有限公司 数据类型转换方法、电子设备及可读存储介质
CN115987689B (zh) * 2023-03-20 2023-06-27 北京邮电大学 一种网络入侵检测方法及装置
CN116668085B (zh) * 2023-05-05 2024-02-27 山东省计算中心(国家超级计算济南中心) 基于lightGBM的流量多进程入侵检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108566364A (zh) * 2018-01-15 2018-09-21 中国人民解放军国防科技大学 一种基于神经网络的入侵检测方法
CN109104441A (zh) * 2018-10-24 2018-12-28 上海交通大学 一种基于深度学习的加密恶意流量的检测系统和方法
CN109522716A (zh) * 2018-11-15 2019-03-26 中国人民解放军战略支援部队信息工程大学 一种基于时序神经网络的网络入侵检测方法及装置
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
CN110245801A (zh) * 2019-06-19 2019-09-17 中国电力科学研究院有限公司 一种基于组合挖掘模型的电力负荷预测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI662422B (zh) * 2018-04-23 2019-06-11 國家中山科學研究院 Air quality prediction method based on machine learning model
US11300558B2 (en) * 2018-06-14 2022-04-12 Nokomis, Inc. Apparatus and system for spectroscopy and tomography of fragile biologic materials

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108566364A (zh) * 2018-01-15 2018-09-21 中国人民解放军国防科技大学 一种基于神经网络的入侵检测方法
CN109104441A (zh) * 2018-10-24 2018-12-28 上海交通大学 一种基于深度学习的加密恶意流量的检测系统和方法
CN109522716A (zh) * 2018-11-15 2019-03-26 中国人民解放军战略支援部队信息工程大学 一种基于时序神经网络的网络入侵检测方法及装置
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
CN110245801A (zh) * 2019-06-19 2019-09-17 中国电力科学研究院有限公司 一种基于组合挖掘模型的电力负荷预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Huiwei Xia ; Xin Wei ; Yun Gao ; Haibing Lv.Traffic Prediction Based on Ensemble Machine Learning Strategies with Bagging and LightGBM.《 2019 IEEE International Conference on Communications Workshops (ICC Workshops)》.2019,全文. *
基于深度学习的异常行为识别算法研究;叶佳威;《信息科技》;20190601;全文 *

Also Published As

Publication number Publication date
CN111314329A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111314329B (zh) 流量入侵检测系统和方法
Jain et al. A K-Means clustering and SVM based hybrid concept drift detection technique for network anomaly detection
Zaman et al. Evaluation of machine learning techniques for network intrusion detection
CN110287983B (zh) 基于最大相关熵深度神经网络单分类器异常检测方法
CN107196953B (zh) 一种基于用户行为分析的异常行为检测方法
US7937269B2 (en) Systems and methods for providing real-time classification of continuous data streams
CN111475680A (zh) 检测异常高密子图的方法、装置、设备及存储介质
CN109818961B (zh) 一种网络入侵检测方法、装置和设备
CN117421684B (zh) 基于数据挖掘和神经网络的异常数据监测与分析方法
CN113518011A (zh) 异常检测方法和装置、电子设备及计算机可读存储介质
CN117439827B (zh) 一种网络流量大数据分析方法
CN109656818B (zh) 一种软件密集系统故障预测方法
CN117041017B (zh) 数据中心的智能运维管理方法及系统
JP7331369B2 (ja) 異常音追加学習方法、データ追加学習方法、異常度算出装置、指標値算出装置、およびプログラム
CN115801463B (zh) 工业互联网平台入侵检测的方法、装置和电子设备
CN113591962B (zh) 一种网络攻击样本生成方法及装置
CN111881159B (zh) 一种基于代价敏感极端随机森林的故障检测方法及装置
CN114676782A (zh) 一种基于高频时序数据的车辆故障预警方法及系统
CN117851945A (zh) 一种银行系统的应用日志异常检测方法、装置及介质
CN116232761B (zh) 基于shapelet的网络异常流量检测方法及系统
Thi et al. One-class collective anomaly detection based on long short-term memory recurrent neural networks
CN116661954A (zh) 虚拟机异常预测方法、装置、通信设备及存储介质
CN116910590A (zh) 基于自适应聚类的瓦斯传感器精度异常识别方法及系统
CN115473748A (zh) 基于BiLSTM-ELM的DDoS攻击分类检测方法、装置及设备
CN115242457A (zh) 一种日志数据的检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant