CN112367303B - 分布式自学习异常流量协同检测方法及系统 - Google Patents

分布式自学习异常流量协同检测方法及系统 Download PDF

Info

Publication number
CN112367303B
CN112367303B CN202011132314.9A CN202011132314A CN112367303B CN 112367303 B CN112367303 B CN 112367303B CN 202011132314 A CN202011132314 A CN 202011132314A CN 112367303 B CN112367303 B CN 112367303B
Authority
CN
China
Prior art keywords
flow
node
traffic
sample
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011132314.9A
Other languages
English (en)
Other versions
CN112367303A (zh
Inventor
张欣怡
刘蔚棣
郭乔进
梁中岩
胡杰
宫世杰
时高山
杨冲昊
汪义飞
李长军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202011132314.9A priority Critical patent/CN112367303B/zh
Publication of CN112367303A publication Critical patent/CN112367303A/zh
Application granted granted Critical
Publication of CN112367303B publication Critical patent/CN112367303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种分布式自学习异常流量协同检测方法及系统,涉及互联网技术领域,能够更全面得过滤更多异常流量,降低系统虚警率。本发明包括:通过流量分类器对输入的流量进行分类,筛选出恶意流量;将恶意流量上传至综合管理模块;综合管理模块对分析节点上报的恶意流量进行标注得到恶意流量样本;综合管理模块将恶意流量样本归入系统样本库,并将恶意流量样本下发至指定的分析节点;指定的分析节点根据综合管理模块下发的恶意流量样本,更新指定的分析节点对应的节点样本库;指定的分析节点,通过权重训练模块,根据更新后的节点样本库训练权重模型,得到更新后的权重,并将更新后的权重导入流量分类器。本发明适用于大规模分布式系统。

Description

分布式自学习异常流量协同检测方法及系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种分布式自学习异常流量协同检测方法及系统。
背景技术
随着网络技术的大规模发展,网络环境中的风险与威胁也因此成为不容忽视的问题。在分布式大型网络,各个节点网络流量不断增加,混迹其中的异常流量具备复杂多变的特征,不仅加大了管理人员的监管难度,也给用户及企业带来不可预知的风险。因此亟需一套全面高效的异常流量监测系统,及时发现并处理更多的异常流量,最大程度保障大型网络环境的安全稳定。
在分布式网络中通常设置多个网络流量监测节点,目前存在的流量监测系统中,往往都为监测节点配置同样的监测规则。然而在实际网络环境中,同样的异常流量在不同区域造成的影响不同,同样的告警权重会导致告警程度与异常流量威胁等级不匹配;此外相同的流量监测策略不适用于所有场景,甚至会和已设置的规则冲突。同时,一部分非预期但仍在正常范围内的操作,一旦超过规则范围,则会被误判为异常流量而出发告警。
由此可见,目前针对不同区域的节点,缺乏个性化的优化配置。整体策略易于配置,但难以兼顾不同节点的差异。最终导致分布式系统规模越大,则系统虚警率提高,网络整体的安全性与可靠性难以保障。
发明内容
本发明的实施例提供一种分布式自学习异常流量协同检测方法及系统,能够更全面得过滤更多异常流量,降低系统虚警率。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,提供一种分布式自学习异常流量协同检测方法,包括:
分析节点通过流量分类器对输入的流量进行分类,并筛选出恶意流量;分析节点将恶意流量上传至综合管理模块,其中,所述恶意流量至少包括:触发告警的异常流量和假阳性流量;所述综合管理模块对分析节点上报的恶意流量进行标注,得到恶意流量样本,其中,标注的特征至少包括:恶意流量的时间戳、上报节点、流量样本和流量类型;所述综合管理模块将恶意流量样本归入系统样本库,并将所述恶意流量样本下发至指定的分析节点;所述指定的分析节点,根据所述综合管理模块下发的恶意流量样本,更新所述指定的分析节点对应的节点样本库;所述指定的分析节点,通过权重训练模块,根据更新后的节点样本库训练权重模型,得到更新后的权重,并将更新后的权重导入流量分类器。
另一方面,提供一种分布式自学习异常流量协同检测系统,在所述分布式自学习异常流量协同检测系统中,包括了分析节点、综合管理模块、系统样本库和节点样本库,且分析节点的数量小于或等于所述分布式系统中的节点总数量,在每一个分析节点上,都部署有流量分析模块、所述流量分享模块和流量分类器,每一个节点样本库对应至少一个分析节点;所述流量分析模块,用于对输入的流量进行分类,并筛选出恶意流量;所述流量分享模块,用于将恶意流量上传至综合管理模块,其中,所述恶意流量至少包括:触发告警的异常流量和假阳性流量;所述综合管理模块,用于对分析节点上报的恶意流量进行标注,得到恶意流量样本,并将恶意流量样本归入系统样本库,之后将所述恶意流量样本下发至指定的分析节点,其中,标注的特征至少包括:恶意流量的时间戳、上报节点、流量样本和流量类型。
本实施例提供的分布式自学习异常流量协同检测方法及系统,利用分布式节点实现异常流量协同监测,利用不同样本库与自学习功能使各节点独立训练、不断优化,更适应各自节点环境的规则,从而帮助网络安全管理人员更高效、更全面得过滤更多异常流量,降低系统虚警率,大幅提高网络整体的安全性与可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的异常节点检测流程的示意图;
图2为本发明实施例提供的基于OHE数据预处理的特征学习流程的示意图;
图3为本发明实施例提供的综合态势展示界面的示意图;
图4为本发明实施例提供的流量标注界面的示意图;
图5为本发明实施例提供的流量样本下发方式的示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本实施例的设计目的在于:解决的技术难点是大型分布式网络中,各流量监测分析节点统一配置,导致不同区域下的异常流量没有针对性的分类及告警策略的问题。本实施例的设计思路在于:针对不同区域的监测节点进行综合管理,人工辅助确认恶意流量并下发至不同节点,确保各节点流量样本库的独立性,从而不断优化监测节点自身的流量分类策略,提高不同环境下节点对恶意流量分析的准确性。
本实施例中具体提供了用于分布式自学习异常流量协同检测的方法及系统方案,通过各节点流量分析模块实现恶意流量检测,通过权重更新模块优化不同节点的训练模型,通过样本库实时存储各类异常流量样本,通过流量分享模块上报可疑流量样本,并通过综合管理模块实现分布式大型网络的统一管理;流量分析模块能够依据自身的规则参数对经过的流量进行分析,并对恶意流量触发告警;权重更新模块能够根据所在节点的异常流量样本,不断训练并优化节点自身的分类模型;流量样本库保存经人工确认的恶意流量样本和假阳性流量样本;流量分享模块将各节点触发告警的流量样本上报到综合管理模块;综合管理模块提供综合态势、流量分析等功能,同时对各流量监测节点进行管理,能够实现标注上报异常流量、下发流量样本等功能。利用多个流量分析节点构建分布式协同检测集群,实现监测结果互相分享、人工辅助确认、各节点自独立优化,并提供综合态势展现功能。
本发明实施例提供一种分布式自学习异常流量协同检测方法,包括:
S1、分析节点通过流量分类器对输入的流量进行分类,并筛选出恶意流量。其中,分类的类别至少包括:正常流量、DDoS流量和恶意流量。
S2、分析节点将恶意流量上传至综合管理模块。
其中,所述恶意流量至少包括:触发告警的异常流量和假阳性流量。
S3、所述综合管理模块对分析节点上报的恶意流量进行标注,得到恶意流量样本。
其中,标注的特征至少包括:恶意流量的时间戳、上报节点、流量样本和流量类型。
S4、所述综合管理模块将恶意流量样本归入系统样本库,并将所述恶意流量样本下发至指定的分析节点。
S5、所述指定的分析节点,根据所述综合管理模块下发的恶意流量样本,更新所述指定的分析节点对应的节点样本库。
S6、所述指定的分析节点,通过权重训练模块,根据更新后的节点样本库训练权重模型,得到更新后的权重,并将更新后的权重导入流量分类器。
本实施例中,还包括:在对训练集中的样本进行分类之后,利用验证集评估交叉验证的结果。
具体的,在分布式系统中包括了分析节点,分析节点的数量小于或等于所述分布式系统中的节点总数量。每一个分析节点上,都部署有流量分析模块、所述流量分享模块和流量分类器,分析节点的流量分析模块对输入分析节点的流量进行分类,分析节点的流量分享模块将恶意流量上传至所述综合管理模块。
为了实现不同节点的个性化配置,每个异常流量监测节点都应具备自学习、自演化功能,能够根据分享的异常流量样本训练并优化自身权重。同时需要建立中央节点对各监测节点进行综合管理,人工辅助确认或修正各节点上报的异常流量,并向各节点下发标注后的不同流量样本。
本实施的方案在实际应用中,主要用于支持利用多个流量分析节点构建分布式协同检测集群,实现监测结果互相分享、人工辅助确认、各节点自独立优化,并提供综合态势展现功能。从系统控制的角度来说,上述流程也可以实现为如下关键步骤:
步骤1.节点异常检测:在各分析节点分析输入流量,并将其进行分类,如正常流量、DDoS流量、恶意流量等。
步骤2.异常流量分享:分析节点通过流量分享模块将触发告警的异常流量、假阳性流量样本等上传至综合管理模块。
步骤3.异常流量分析:综合管理模块对节点上报的恶意流量进行二次分析,人工辅助修改恶意流量告警等级,减少误判。
步骤4.异常流量标注:综合管理模块标注异常流量的时间戳、上报节点、流量样本以及流量类型等特征,并将其按特征、节点、威胁等级等信息归入系统样本库中。
步骤5.流量样本下发:综合管理模块将标注后的恶意流量样本下发至指定流量分析节点。
步骤6.样本库增加:流量分析节点各自具备自身的节点样本库,当接收到综合管理模块下发的流量样本时,能够实时更新节点样本库。
步骤7.权重增量训练更新:节点样本库更新后,为权重训练模块提供更丰富的训练数据集,从而优化流量分类器精度,减少流量误分类、降低误告率。
步骤8.重复步骤1-7。
本实施例中,利用分布式节点实现异常流量协同监测,利用不同样本库与自学习功能使各节点独立训练、不断优化,更适应各自节点环境的规则,从而帮助网络安全管理人员更高效、更全面得过滤更多异常流量,降低系统虚警率,大幅提高网络整体的安全性与可靠性。
本实施例的主要优点在于:适用于大规模分布式网络;尤其适用于各分布式节点独立优化,异常流量检测与告警规则更符合节点环境;并且同时实现系统数据共享,流量监测节点与中央管理节点通过样本分享模块,共享流量样本数据,而系统样本库则又可以实时地为节点样本库提供样本资源。并且,本实施例的方案具备横向扩展能力,随着网络规模扩大、应用需求增加,能够接入更多流量监测节点实现横向扩展。
具体的,所述综合管理模块将恶意流量样本归入系统样本库,包括:所述综合管理模块将标注后的恶意流量依据特征、节点类型和威胁等级归入系统样本库。
本实施例中,各个分析节点需要进行异常流量分享,大致可以理解为:各异常流量监测节点的输入流量经过上述CNN模型后,按自身特征被分类为正常流量、恶意流量、假阳性流量等不同类别。各分布式节点独立工作,当检测到异常流量时,监测节点将分别向中央节点发出告警,并自动将异常流量样本及其威胁等级通过流量分享模块上传至中央管理节点,中央管理节点对上报的样本进行统一分析处理。
对于本实施例中所提及的异常流量分析,由于大型分布式网络中,各节点产生、处理的流量数量日益庞大,人工分析流量特征的工作量加大,难以满足日常流量分析的需求,因此需要节点具备自动流量监测功能。然而由节点上报的异常流量中,仍然存在一定的误差。例如一部分非预期但仍在正常范围内的操作,一旦超过监测规则的范围,则会被节点误判为异常流量而出发告警。为了最大程度减少异常流量误报率,中央节点具备人工辅助分析功能。安全分析人员通过综合管理模块,对上报至中央节点的告警流量进行分析,判断其是否为数据恶意攻击或节点流量误判,同时评估并修正恶意流量对所在区域的威胁等级。中央管理节点同时还具有综合态势展示功能,管理员及安全分析人员能够掌握各个节点的运行状态。综合态势展示界面如图3所示。
本实施例中,所述分析节点通过流量分类器对输入的流量进行分类,包括:
分析节点对节点样本库中的流量样本,进行预处理转换为二维流量图像。二维流量图像作为数据集交叉验证的输入,交叉验证后输出训练集,其中,采用K-fold交叉验证。训练集输入CNN网络进行特征提取处理。依据提取的特征,通过softmax分类器对训练集中的样本进行分类。
其中,所述进行预处理转换为二维流量图像,包括:对应一个byte可能的取值范围,n字节流量的二维图像编码结果为:
Figure BDA0002735551190000081
其中,
Figure BDA0002735551190000082
为一个n字节流量中第i个字节的m维特征向量,m=256,
Figure BDA0002735551190000083
为级联算子,x1:n为x1,x2,……,xn的级联结果,
Figure BDA0002735551190000084
为…,i和n都为正整数。通过卷积滤波器计算特征值,其中,卷积算子为滤波器
Figure BDA0002735551190000085
卷积算子作用于h长度的流量字节并用于计算新的特征值ci,ci=f(w·xi:i+h+1+b),其中,b为偏差向,
Figure BDA0002735551190000086
f为ReLu函数。并且,所述卷积滤波器作用于全部窗口{x1:h,x2:h+1,…,xn-h+1:n},得到特征映射向量c=[c1,c2,…,cn-h+1]。需要说明的是,
Figure BDA0002735551190000087
表示实数范围,是通用符号,对所得的特征映射向量执行MaxPoolingOverTime操作,提取其中得分最大的特征值。
具体来说,关键的计算环节包括:
预处理:节点输入的网络流量首先将被转换为CNN所需的二维流量图像,基于图像特征完成对流量图像的分类,从而达到对恶意流量的识别。网络流量到二维流量图像的转换方法采用one-hot编码(OHE,One-hot Encoding)。设
Figure BDA0002735551190000091
为一个n字节流量中第i个字节的m维特征向量,m=256,对应一个byte可能的取值范围,n字节流量的二维图像编码结果由公式(1)可得:
Figure BDA0002735551190000092
其中,
Figure BDA0002735551190000093
为级联算子,x1:n为x1,x2,……,xn的级联结果。基于OHE预处理的特征学习流程如图2所示。
卷积滤波器的卷积层:设卷积算子为滤波器
Figure BDA0002735551190000094
它作用于h长度的流量字节并计算新的特征值ci,如式(2)所示。
ci=f(w·xi:i+h+1+b)(2)
其中,
Figure BDA0002735551190000095
为偏差向,f为ReLu函数。
特征映射:卷积滤波器作用于全部窗口{x1:h,x2:h+1,…,xn-h+1:n},得到特征映射向量c=[c1,c2,…,cn-h+1]。
池化:将得到的特征映射向量经过MaxPooling Over Time操作,只保留其中得分最大的那个特征值,其它特征值全部抛弃。值最大代表只保留这些特征中最强的,而抛弃其它弱的此类特征,如式(3)所示。
Figure BDA0002735551190000096
进一步的,在训练权重模型的过程中,包括:每次迭代的对象包括:一个训练样例x(i)和一个标签y(i),迭代方式包括:
Figure BDA0002735551190000097
其中,h(x)为对线性模型,
Figure BDA0002735551190000101
J(θ)为代价函数,
Figure BDA0002735551190000102
θ为计算参数,x为训练样例,y为样本标签,n是维特征向量的维度数量,m为训练集记录条数,i和j为正整数,α为学习率。本实施例中,需要进行节点异常检测,大致包括:对于网络恶意流量的检测,关键节点的流量分析法是非常重要的一环。网络流量具备明显的层次结构,最底层是流量字节序列,流量字节序列在特定的网络协议下组合成网络包,通信过程中多个网络包形成网络流量。结合网络流量的结构特性,卷积神经网络(CNN,Convolutional Neural network)在普通流量与恶意流量的分类中可以得到出色应用。利用深层神经网络来学习网络流量层次特征并进行分类的流程如图1所示,样本库中的流量样本经过预处理转换为二维流量图像,转换后的数据作为K-fold交叉验证的输入开始进行训练与验证。训练集输入CNN网络进行特征提取,并通过softmax分类器进行分类。利用验证集评估模型训练效果,完成循环交叉验证。从而得到误差最低效果最好的训练模型,能够更准确检测出经过节点的异常流量,同时向中央管理节点发出告警。
异常流量标注的方式,则可以理解为:中央节点具有整个系统的流量样本库(即系统样本库)。当接收到各监测节点上报的异常流量样本时,直接将其归入系统样本库可能会导致与现有样本冲突等问题,为了减少甚至避免样本库中的冗余,在流量样本入库前需要对其进行标注。一段异常流量样本应被标注的属性有:发生时间、来源节点、流量样本、流量类型、威胁等级、流量协议、应用等。标注完成的流量样本纳入流量库后,中央节点可以对整个样本库进行分析,当发现其中的冲突样本,对相似节点聚类,告警权重冲突较大的节点分到不同的簇中,来辅助下发决策。异常流量标注界面如图4所示。
进一步的,流量样本下发的过程,则可以理解为:在真实网络环境中,为了保证不同节点的流量监测规则与其所在区域相适应,该系统不仅具备中央节点的总样本库,各监测节点同样配备独立的分样本库。通过流量分享模块,安全分析人员可以将总流量样本库中的流量样本下发至不同节点。当需要下发流量样本时,安全分析人员根据流量被标注的信息进行分析,判断该流量在哪些节点更需要被警惕,对哪些节点产生较小影响或几乎没有威胁,并选择流量的下发节点,从而维护了分样本库的独立性。流量样本下发界面如图5所示。
在样本库管理的环节,还可以进行模型的重新训练。比如各监测节点的分样本库通过流量分享模块接收来自中央管理节点下发的流量样本,分样本库同样具备样本分析功能。当发现其中的冲突样本,对相似样本进行聚类,出现相似样本却标注不同威胁等级的情况,分样本库按最高威胁等级更新样本属性。此外,分样本库还设置定时任务,每隔一段时间或分样本库更新到一定程度时,重新训练CNN模型。
具体的,权重增量训练更新,指的是:随着时间的推移,各监测节点的分样本库中数据集不断丰富更新,异常流量分类模型也需要不断进行参数优化以更好地适应异常流量检测需求。通过最小化全部流量样本的平均损失函数,可以进一步优化模型参数,梯度下降法是神经网络中最常见的优化算法。传统的批量梯度下降法(BGD,Batch GradientDescent)需要利用所有的训练数据计算目标函数的梯度,考虑到节点分样本库数据量庞大,且不断纳入新的下发样本,每进行一次新的参数优化都大量消耗运行时间,优化效率相对较低。本实施例中提出了优化的随机梯度下降法(SGD,Stochastic Gradient Descent)来避免大数据集的冗余计算。
对线性模型
Figure BDA0002735551190000111
其中θ为参数,x为训练样例。其代价函数如式(4)所示。
Figure BDA0002735551190000112
其中y为样本标签。在SGD更新算法中,每次迭代以一个训练样例x(i)和一个标签y(i)进行更新,如式(5)所示。
Figure BDA0002735551190000121
SGD通过每次计算一个样例的方式避开BGD算法的冗余,计算速度更快,更适用于样本实时更新的在线计算环境。需要说明的是,本实施例中出现的数学符号“:=”,是为通用算符,表示覆盖、更新之前θj的值。θj表示计算参数向量中第j个参数,α表示学习率,hθ表示使用计算参数θ的对线性模型。
本实施例中还提供一种分布式自学习异常流量协同检测系统,在所述分布式自学习异常流量协同检测系统中,包括了分析节点、综合管理模块、系统样本库和节点样本库,且分析节点的数量小于或等于所述分布式系统中的节点总数量,在每一个分析节点上,都部署有流量分析模块、所述流量分享模块和流量分类器,每一个节点样本库对应至少一个分析节点。通常的,节点样本库部署在分析节点本地,例如:分析节点可以是分布式系统在某地设置的服务器集群,节点样本库则是与服务器集群设置在同一机房、或者联网的数据库。
所述流量分析模块,用于对输入的流量进行分类,并筛选出恶意流量。
所述流量分享模块,用于将恶意流量上传至综合管理模块,其中,所述恶意流量至少包括:触发告警的异常流量和假阳性流量。
所述综合管理模块,用于对分析节点上报的恶意流量进行标注,得到恶意流量样本,并将恶意流量样本归入系统样本库,之后将所述恶意流量样本下发至指定的分析节点,其中,标注的特征至少包括:恶意流量的时间戳、上报节点、流量样本和流量类型。
具体的,在每一个分析节点上,还部署有更新模块和权重训练模块。
所述更新模块,用于根据所述综合管理模块下发的恶意流量样本,更新分析节点对应的节点样本库。
所述权重训练模块,用于根据更新后的节点样本库训练权重模型,得到更新后的权重,并将更新后的权重导入流量分类器。
每一个分析节点,还用于在对训练集中的样本进行分类之后,利用验证集评估交叉验证的结果。
总的来说,流量分析模块依据自身的规则参数对经过的流量进行分析,并对恶意流量触发告警。权重更新模块根据所在节点的异常流量样本,不断训练并优化节点自身的分类模型。流量样本库,保存经人工确认的恶意流量样本和假阳性流量样本。流量分享模块,将各节点触发告警的流量样本上报到综合管理模块。综合管理模块,提供综合态势、流量分析等功能,同时对各流量监测节点进行管理,能够实现标注上报异常流量、下发流量样本等功能。
本实施例中,利用分布式节点实现异常流量协同监测,利用不同样本库与自学习功能使各节点独立训练、不断优化,更适应各自节点环境的规则,从而帮助网络安全管理人员更高效、更全面得过滤更多异常流量,降低系统虚警率,大幅提高网络整体的安全性与可靠性。适用于大规模分布式网络;尤其适用于各分布式节点独立优化,异常流量检测与告警规则更符合节点环境;并且同时实现系统数据共享,流量监测节点与中央管理节点通过样本分享模块,共享流量样本数据,而系统样本库则又可以实时地为节点样本库提供样本资源。并且,本实施例的方案具备横向扩展能力,随着网络规模扩大、应用需求增加,能够接入更多流量监测节点实现横向扩展。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种分布式自学习异常流量协同检测方法,其特征在于,包括:
分析节点通过流量分类器对输入的流量进行分类,并筛选出恶意流量;
分析节点将恶意流量上传至综合管理模块,其中,所述恶意流量至少包括:触发告警的异常流量和假阳性流量;
所述综合管理模块对分析节点上报的恶意流量进行标注,得到恶意流量样本,其中,标注的特征至少包括:恶意流量的时间戳、上报节点、流量样本和流量类型;
所述综合管理模块将恶意流量样本归入系统样本库,并将所述恶意流量样本下发至指定的分析节点;
所述指定的分析节点,根据所述综合管理模块下发的恶意流量样本,更新所述指定的分析节点对应的节点样本库;
所述指定的分析节点,通过权重训练模块,根据更新后的节点样本库训练权重模型,得到更新后的权重,并将更新后的权重导入流量分类器。
2.根据权利要求1所述的方法,其特征在于,所述综合管理模块将恶意流量样本归入系统样本库,包括:
所述综合管理模块将标注后的恶意流量依据特征、节点类型和威胁等级归入系统样本库。
3.根据权利要求1所述的方法,其特征在于,分析节点的数量小于或等于节点总数量;
每一个分析节点上,都部署有流量分析模块、流量分享模块和流量分类器,分析节点的流量分析模块对输入分析节点的流量进行分类,分析节点的流量分享模块将恶意流量上传至所述综合管理模块。
4.根据权利要求1所述的方法,其特征在于,所述分析节点通过流量分类器对输入的流量进行分类,包括:
分析节点对节点样本库中的流量样本,进行预处理转换为二维流量图像;
二维流量图像作为数据集交叉验证的输入,交叉验证后输出训练集,其中,采用K-fold交叉验证;
训练集输入CNN网络进行特征提取处理;
依据提取的特征,通过softmax分类器对训练集中的样本进行分类。
5.根据权利要求4所述的方法,其特征在于,所述进行预处理转换为二维流量图像,包括:
对应一个byte的取值范围,n字节流量的二维图像编码结果为:
Figure FDA0004107979300000021
其中,
Figure FDA0004107979300000022
为一个n字节流量中第i个字节的m维特征向量,m=256,
Figure FDA0004107979300000023
为级联算子,x1:n为x1,x2,……,xn的级联结果,为i和n都为正整数;
通过卷积滤波器计算特征值,其中,卷积算子为滤波器
Figure FDA0004107979300000024
卷积算子作用于h长度的流量字节并用于计算新的特征值ci,ci=f(w·xi:i+h+1+b),其中,b为偏差向,
Figure FDA0004107979300000025
f为ReLu函数;
并且,所述卷积滤波器作用于全部窗口{x1:h,x2:h+1,…,xn-h+1:n},得到特征映射向量c=[C1,c2,…,cn-h+1];
之后,对所得的特征映射向量执行MaxPooling Over Time操作,提取其中得分最大的特征值。
6.根据权利要求4或5所述的方法,其特征在于,还包括:
在对训练集中的样本进行分类之后,利用验证集评估交叉验证的结果。
7.根据权利要求1所述的方法,其特征在于,训练权重模型的过程中,包括:
每次迭代的对象包括:一个训练样例x(i)和一个标签y(i),迭代方式包括:
Figure FDA0004107979300000031
其中,h(x)为对线性模型,
Figure FDA0004107979300000032
J(θ)为代价函数,
Figure FDA0004107979300000033
θ为计算参数,x为训练样例,y为样本标签,n是维特征向量的维度数量,m为训练集记录条数,i和j为正整数,θj表示计算参数向量中第j个参数,α表示学习率,hθ表示使用计算参数θ的对线性模型。
8.一种分布式自学习异常流量协同检测系统,其特征在于,在所述分布式自学习异常流量协同检测系统中,包括了分析节点、综合管理模块、系统样本库和节点样本库,且分析节点的数量小于或等于所述分布式自学习异常流量协同检测系统中的节点总数量,在每一个分析节点上,都部署有流量分析模块、流量分享模块和流量分类器,每一个节点样本库对应至少一个分析节点;
所述流量分析模块,用于对输入的流量进行分类,并筛选出恶意流量;
所述流量分享模块,用于将恶意流量上传至综合管理模块,其中,所述恶意流量至少包括:触发告警的异常流量和假阳性流量;
所述综合管理模块,用于对分析节点上报的恶意流量进行标注,得到恶意流量样本,并将恶意流量样本归入系统样本库,之后将所述恶意流量样本下发至指定的分析节点,其中,标注的特征至少包括:恶意流量的时间戳、上报节点、流量样本和流量类型;
在每一个分析节点上,还部署有更新模块和权重训练模块;
所述更新模块,用于根据所述综合管理模块下发的恶意流量样本,更新分析节点对应的节点样本库;
所述权重训练模块,用于根据更新后的节点样本库训练权重模型,得到更新后的权重,并将更新后的权重导入流量分类器。
9.根据权利要求8所述的系统,其特征在于,每一个分析节点,还用于在对训练集中的样本进行分类之后,利用验证集评估交叉验证的结果。
CN202011132314.9A 2020-10-21 2020-10-21 分布式自学习异常流量协同检测方法及系统 Active CN112367303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011132314.9A CN112367303B (zh) 2020-10-21 2020-10-21 分布式自学习异常流量协同检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011132314.9A CN112367303B (zh) 2020-10-21 2020-10-21 分布式自学习异常流量协同检测方法及系统

Publications (2)

Publication Number Publication Date
CN112367303A CN112367303A (zh) 2021-02-12
CN112367303B true CN112367303B (zh) 2023-05-02

Family

ID=74511418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011132314.9A Active CN112367303B (zh) 2020-10-21 2020-10-21 分布式自学习异常流量协同检测方法及系统

Country Status (1)

Country Link
CN (1) CN112367303B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115086139B (zh) * 2021-03-12 2023-08-15 中国移动通信集团四川有限公司 通信网络告警故障处理优先级调整方法及装置
CN113268735B (zh) * 2021-04-30 2022-10-14 国网河北省电力有限公司信息通信分公司 分布式拒绝服务攻击检测方法、装置、设备和存储介质
CN114567511B (zh) * 2022-04-18 2022-08-19 杭州海康威视数字技术股份有限公司 一种基于宽度学习的轻量级恶意流量检测方法及装置
CN115296853A (zh) * 2022-07-06 2022-11-04 国网山西省电力公司信息通信分公司 一种基于网络时空特征的网络攻击检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110730140A (zh) * 2019-10-12 2020-01-24 西安电子科技大学 基于时空特性相结合的深度学习流量分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108540451A (zh) * 2018-03-13 2018-09-14 北京理工大学 一种用机器学习技术对网络攻击行为进行分类检测的方法
CN110276248B (zh) * 2019-05-10 2021-03-23 杭州电子科技大学 一种基于样本权值分配和深度学习的人脸表情识别方法
CN110324316B (zh) * 2019-05-31 2022-04-22 河南九域恩湃电力技术有限公司 一种基于多种机器学习算法的工控异常行为检测方法
CN111340191B (zh) * 2020-02-27 2023-02-21 福州大学 基于集成学习的僵尸网络恶意流量分类方法及系统
CN111353153B (zh) * 2020-03-04 2022-11-01 南京邮电大学 一种基于gep-cnn的电网恶意数据注入检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110730140A (zh) * 2019-10-12 2020-01-24 西安电子科技大学 基于时空特性相结合的深度学习流量分类方法

Also Published As

Publication number Publication date
CN112367303A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN112367303B (zh) 分布式自学习异常流量协同检测方法及系统
CN111475804B (zh) 一种告警预测方法及系统
CN109612513B (zh) 一种面向大规模高维传感器数据的在线式异常检测方法
CN106708016A (zh) 故障监控方法和装置
CN109255440B (zh) 基于递归神经网络(rnn)的对电力生产设备进行预测性维护的方法
CN112822189A (zh) 一种流量识别方法及装置
CN113378990B (zh) 基于深度学习的流量数据异常检测方法
CN104636751A (zh) 基于时间递归神经网络的人群异常检测和定位系统及方法
CN111669385B (zh) 融合深度神经网络和层级注意力机制的恶意流量监测系统
CN117113262B (zh) 网络流量识别方法及其系统
CN116684878B (zh) 一种5g信息传输数据安全监测系统
CN110851422A (zh) 一种基于机器学习的数据异常监测模型构建方法
CN116170208A (zh) 一种基于半监督isodata算法的网络入侵实时检测方法
Xie et al. Logm: Log analysis for multiple components of hadoop platform
CN114416423A (zh) 一种基于机器学习的根因定位方法和系统
CN116756225B (zh) 一种基于计算机网络安全的态势数据信息处理方法
Gawali et al. Anomaly detection system in 5G networks via deep learning model
He Research on Network Traffic Anomaly Detection Based on Deep Learning
CN114760104A (zh) 一种物联网环境下的分布式异常流量检测方法
CN113807404A (zh) 面向多源信息融合的智慧交通网络智能化监控与应急系统
CN113807716A (zh) 一种基于人工智能的网络运维自动化方法
Zhang The WSN intrusion detection method based on deep data mining
Ji et al. Integrated Generative Adversarial Network and XGBoost for Anomaly Processing of Massive Data Flow in Dispatch Automation Systems.
Shen et al. Long-term multivariate time series forecasting in data centers based on multi-factor separation evolutionary spatial–temporal graph neural networks
CN117596598B (zh) 一种无人机通讯协议数据异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant