CN113079143A - 一种基于流数据的异常检测方法及系统 - Google Patents

一种基于流数据的异常检测方法及系统 Download PDF

Info

Publication number
CN113079143A
CN113079143A CN202110314516.3A CN202110314516A CN113079143A CN 113079143 A CN113079143 A CN 113079143A CN 202110314516 A CN202110314516 A CN 202110314516A CN 113079143 A CN113079143 A CN 113079143A
Authority
CN
China
Prior art keywords
data
flow
target
network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110314516.3A
Other languages
English (en)
Inventor
杜飞
李国静
张兴睿
尹天阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruichi Xinan Technology Co ltd
Original Assignee
Beijing Ruichi Xinan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruichi Xinan Technology Co ltd filed Critical Beijing Ruichi Xinan Technology Co ltd
Priority to CN202110314516.3A priority Critical patent/CN113079143A/zh
Publication of CN113079143A publication Critical patent/CN113079143A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于流数据的异常检测方法及系统,属于网络安全事件发现领域,所述的异常检测系统,包括:数据接入层、异常行为发现层、IP画像层、威胁检测层、特征工程层以及融合分析层;首先,利用数据接入层对IP画像进行分析,获取历史数据;利用异常行为发现层对历史数据进行分析判定,形成重点目标IP和一般目标IP;利用威胁检测层对重点目标IP和一般目标IP分别进行检测;最后,利用融合分析层,对于重点目标IP和一般目标IP异常发生时的各项流量特征,综合评估生成异常检测报告。本发明基于五元组数据,异常发现效率高。

Description

一种基于流数据的异常检测方法及系统
技术领域
本发明属于网络安全事件发现领域,具体涉及一种基于流数据的异常检测方法及系统。
背景技术
随着互联网技术的不断进步以及网络用户数量的日益增长,恶意网络行为呈现出复杂化、多样化及智能化的趋势。当前已有诸多研究人员对网络行为的监测、建模、预警及评估进行深入研究。由于互联网自身的复杂性、异构性与动态性导致互联网上的各种网络恶意行为日趋隐蔽,同时群体化网络恶意行为可能在某一时间段内在不同空间中进行交叉融合,形成危害较大的网络攻击,对互联网的基础设施或中心服务节点产生巨大威胁。尤其随着僵尸网络技术的提升,更强的受控性、隐蔽性与融合性使得互联网安全所面临的挑战愈加严峻。
传统的网络恶意行为监测与发现方法主要通过对网络数据本身进行分析获得,如利用深度包检测技术对网络恶意代码进行检测;分析网络四元组信息(源IP、源端口、目的IP、目的端口)对已知协议漏洞进行分析;利用流数据的特征(如数据包长度、数据包首部大小、流到达时间间隔等)采用机器学习方法对匿名数据流进行分类,挖掘网络主机群体的潜在相似性。
然而随着社会工程学在网络攻击中的应用,攻击手段呈现出多元化、智能化趋势。在互联网开放性的分布式异构环境下,对不同的时间段、不同的地理位置所产生的群体网络恶意行为进行监测、追踪和溯源,尤其对于群体攻击行为的潜伏期与发展期的潜在威胁发现与预警是当前网络安全的研究热点。
以往的网络监测检测机制并没有深入分析这些恶意网络行为潜在的社会化关系,网络信任的提出是在现有的网络安全技术基础上,增加对网络历史行为过程与交互过程的量化与参考,强化了网络用户之间的交互行为分析。通常而言,常态化网络中用户交互行为存在较大随机性,而对于在某个时空内网络交互呈现突发聚集性或大范围相似性行为,则可标记为异常点,但其所引发的网络流量压力与连接压力对网络基础设施带来一定的风险,对这些具有潜在恶意的非常态化网络事件感知与响应是网络安全管理的重要任务之一。
当前的异常检测机制对隐蔽化、智能化及控制性强的网络群体攻击具有滞后性与开销大的局限性,且基于特征及流量异常的方法并没有分析网络行为背后的社会化关系,导致很难在安全事件潜伏期内发现潜在的网络风险。考虑到网络行为本质上是社会化行为在网络中的映射,可采用信任关系对网络行为进行建模,发掘恶意群体行为与常态化行为的区别,及时发现网络的异常行为群体,为网络应急提供预警。
网络流量异常检测作为一种有效的网络防护手段,能够检测未知攻击行为,并为网络态势感知提供重要的支持,近年来受到研究者越来越多的关注。迄今为止,国内外学者己经提出了很多不同类型的检测方法。其中,基于网络流量分类的方法是其中很重要的一类。但是,目前大多数网络流量分类方法都是基于传统的机器学习方式,分类性能非常依赖于流量特征的设计。如何设计一组能够准确刻画流量特性的特征集,需要大量的人工经验和特征工程技巧,仍是一个尚未解决的问题。
在1980年James P.Anderson第一次使用了对系统异常行为进行检测的概念,并且介绍了通过监控用户行为得到的数据信息,这是网络异常行为检测研究的开端。在此之后,伴随着互联网的普及和网络技术的飞速发展以及网络安全技术的日益精进,相当多数量的算法研究人员以及技术工程人员逐渐投入到关于网络异常行为检测的研究之中。与此同时,也衍生出关于这个课题的多种研究方向。
Denning在1986年提出操作系统层的统计检测模型奠定了基于统计分析检测方法的基础。这种方法主要通过监控捕捉网络活动数据,并将这些数据与每种活动所对应的系统行为数据一一对应,形成检测所需要的统计数据。然后将统计数据应用到统计模型中,并对异常行为数据进行观测计算来判定该行为是否正常。例如,Ying等人在马尔可夫统计模型的基础上提出的动态马尔可夫方法;Steven L.Scott提出的基于贝叶斯网络模型检测的方法;以及Matthew发表的以概率分析非平稳模型对异常进行检测的方法等等。
这些基于统计分析学的网络异常检测方法的优势在于:它能通过数学统计建模学习分辨网络行为的正常与否。然而,这种数学统计模型对训练数据的稳定性有较大的依赖,无法完全依靠随机的方式对网络异常行为进行模拟。从训练数据源的角度考虑,网络异常行为检测的研究方向中逐渐发展出了一种基于网络流量异常检测算法的研究。Jin SY提出以协方差分析为基础对异常流量进行检测的算法模型,该算法对单位时间内的所有数据包进行统计,并依据不同的网络协议分类计算,得到每类对应的协方差矩阵,并依据该矩阵对异常进行检测。但是该算法需要进行大量的复杂数学计算,容易在进行异常检测时影响正常网络通信的使用。孙知信等在此基础上提出了改进算法,通过分析多个节点的流量数据来对网络流量进行监测,在降低性能消耗的前提下提高了网络异常行为的检测能力。Barford等以流量数据间的时间相关性为切入点,提出了多尺度分析并结合小波变换的检测算法,但是,这项算法仅仅只能分析单一的某条链路中抓包的流量数据,也只能完成该条链路中的异常检测。
由于上述算法的不足,Rubinstein等人提出了基于主成成分分析(PCA)的网络异常行为检测方法,该方法将原始数据转换为流量矩阵,以不同链路之间流量数据的空间差异性为基础,在算法建立的子空间下对数据进行检测处理。
但是,这些算法都存在共同的缺点:一方面在数据较大时这些算法的计算都比较复杂而且耗时,另一方面针对网络异常数据的特征提取难以避免主观性带来的偏差,无法完全依靠算法来完成异常数据的特征提取、分类以及检测。近年来,随着大数据研究发展以及神经网络算法在各行业的实践研究都表明,神经网络算法在对数据特征的提取以及处理上有着显著优势。它不需要依靠人工手动设置特征提取的公式,完全依靠自身的网络结构对数据进行学习,通过反向传播、梯度下降等学习规则提取出数据的特征矩阵。然而,传统的神经网络算法存在学习效率低以及收敛速度慢的问题,更严重的是,它容易在训练过程中收敛到局部最小值,无法得到最优的学习成果。
近年来以深度学习为基础的各种网络算法则表现出对海量数据处理的明显优势。因此在对网络异常行为检测和深度学习技术全面分析的基础上,提出了基于深度结构的网络异常行为检测模型。首先,使用基于卷积神经网络(CNN)的深度学习算法对网络异常行为数据的训练集进行特征训练,再使用支持向量机(SVM)分类算法对测试集数据进行分类。其中卷积神经网络采用了改进型LeNet-5网络结构,支持向量机则采用二分类并使用粒子群算法对其进行参数调优。在实验部分首先针对上述算法模型进行了多项对比实验,实验结果有效验证了算法的可行性和准确性。
发明内容
本发明针对上述问题,提出了一种基于流数据的异常检测方法及系统,威胁检测是核心目标,利用IP画像实现安全的威胁检测,需要对IP画像形成的数据模型进行多维度的安全检测,结合网络安全事件的特点,以提高在通用IP画像外的安全的威胁检测能力。
本发明所述的基于流数据的异常检测系统,针对IP画像形成的IP定性和定量的特征数据,进行在线或者离线的统计分析和机器学习,分析偏离IP画像的行为和偏离正常行为的IP画像,计算归入恶意IP画像的数据,从而发现安全威胁事件,实现对网络异常行为和内部威胁的安全告警和追踪分析。包括:数据接入层、异常行为发现层、IP画像层、威胁检测层、特征工程层以及融合分析层;
接入的数据包括:原始终端数据,原始网络数据,特征数据和缓存的数据;
异常行为发现包括:反常行为发现,恶意行为发现,违规行为发现,日常使用预测,关联行为预测以及系统状态预测;
IP画像包括:IP个人属性画像,IP部门属性画像,系统使用属性画像和IP标签库;
威胁检测包括:漏洞利用检测,木马传播检测,网络探测检测,信息泄露检测,公开数据集和私有数据集;
特征工程包括:特征构造,特征编码,特征缩放和特征降维;
融合分析包括:用户画像标签,反常行为标签,恶意流量标签,模型外异常发现,事件关联扩展和威胁事件回溯;
本发明所述的基于流数据的异常检测方法,具体步骤如下:
步骤一、利用数据接入层对IP画像进行分析,获取IP终端数据和IP网络访问数据作为历史数据;
IP终端数据的提取包括:终端本身的CPU、内存和带宽利用率,业务系统的登录、登出、浏览操作,VPN、远程桌面和xshell等应用的使用情况。
IP网络访问数据包括:对网络协议解析和应用识别,还原IP关键字段信息,记录IP的网络访问习惯,同时对传输文件内容进行记录,进而在Web浏览、系统交互、网络流量三个方面形成IP画像的数据基础。
步骤二、利用异常行为发现层从历史数据中对各目标及服务类型进行分析判定,形成重点目标IP和一般目标IP;
重点目标IP是内部网络中重要保护的IP地址,内部网络中除去重点目标IP后为一般目标IP。
数据存储模块从kafka消息队列中读取历史流数据,对重点目标的每条流数据信息都进行存储,对一般目标以5分钟或1小时作为最小粒度,统计各个端口上的流量时间序列,存储会话时长、会话方式、操作内容、IP属性、行业属性、源IP地址、目的IP地址、源端口、目的端口、协议类型以及包数和字节数。
步骤三、利用威胁检测层对重点目标IP进行IP多维特征向量和时间序列模型的分析,对于IP流量异常、通联异常、端口异常、分布异常和时间异常进行基于时间序列的模型检测;
具体为:
首先,从历史数据中获取通信对象的通信时长与通信字节数,构建重点目标IP的稳定通信对象模型;
然后,构建重点目标IP的多维特征向量,对每个重点目标,从流数据信息中提取流量特征包括:流方向、流网络协议类型、服务端口号和流量指标,利用所提取的流量特征以及通信对端是否为稳定端口或稳定对端IP组合,形成重点目标IP不同维度的特征向量;
根据重点目标IP的历史流数据信息,对特征向量的每个特征项的值进行统计,对各特征项的统计值进行正态分布与对数正态分布两种分布规律的假设检验,对于服从正态分布规律的特征项,计算均值和标准差作为统计阈值,对于服从对数正态分布规律的特征项,计算对数均值和对数标准差作为统计阈值,建立阈值模型;
最后,利用阈值模型对待检测流量进行偏离度计算,进而判断待检测流量是否是异常流量。
在检测时,获得待检测流量中每个时间窗口内每个特征项的观测值,根据特征项的统计分布规律,计算其均值和标准差,或者对数均值和对数标准差,然后与阈值模型中对应的统计阈值进行比对,计算偏离程度;
偏离程度由待检测流量的均值/对数均值与阈值模型的均值/对数均值间的差值,比上阈值模型中标准差/对数标准差,所获得的倍数来确定。
步骤四、利用威胁检测层对一般目标IP地址及其特定端口的通联对端,访问内部IP节点的数量和连接频次,并对对端IP进行排序,找到存在端口扫描异常和IP段扫描异常的对端IP地址;
具体为:
首先,利用基于时间序列的流量变化模型进行检测;
包括:对端口流量的时间序列,减去其中的趋势性分量和周期性分量,获得随机波动特征,随机波动特征符合正态分布的定义,根据置信度,应用正态分布假设检验计算随机波动特征偏离标准差的系数,找到流量突增点;
然后,利用流数据聚合模型进行检测,所述的流数据聚合模型从五元组(源IP地址、目的IP地址、源端口、目的端口、协议类型)中选取不同分组进行不同粒度的构建,根据所选粒度对流数据信息进行分组,再对字节数和包数进行聚合操作,通过排序找到异常行为。
对访问多个一般目标的对端IP,进行扫描分析和DDoS分析,检测是否有端口扫描和尝试登录的行为。
步骤五、利用融合分析层,对于重点目标IP和一般目标IP异常发生时的各项流量特征,采用各自的特征权重,综合评估异常等级和异常类型,生成异常检测报告。
本发明与现有技术相比,具有以下优势:
(1)一种基于流数据的异常检测方法及系统,基于五元组数据,异常发现效率高;
(2)一种基于流数据的异常检测方法及系统,部署在网络出入口上,异常事件发现能力强;
(3)一种基于流数据的异常检测方法及系统,采用负载均衡和并行化的检测方法,数据处理能力强。
附图说明
图1是本发明一种基于流数据的异常检测方法的业务处理流程图;
图2是本发明一种基于流数据的异常检测系统的结构示意图;
图3是本发明一种基于流数据的异常检测方法中IP画像模型构建示意图;
图4是本发明一种基于流数据的异常检测方法的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明作进一步的详细和深入描述。
本发明公开了一种基于流数据的异常检测方法和系统,是一种基于流数据的、针对IP通联行为模式的、以及对行为模式特征进行异常检测的方法及系统,采用了分布式存储和负载均衡等方法来提高系统性能。该异常检测系统为异常检测的深入发现提供了参考,能够有效的检测出重点目标遭受爬虫、扫描、密码爆破和数据窃密时产生的异常事件。
本发明所述的异常检测系统,采用基于流数据的异常检测技术,藉由IP画像技术在IP特征、IP标签和IP习惯等多个方面,形成了针对系统中IP的多维度的定性和定量的描述数据,在此基础上形成的IP多维特征向量和时间序列符合一定的模型分布规律,包括正态分布模型、对数正态分布模型等,采用容忍度测算、突变测算、差值测算与峰值测算等统计学方法对偏离正常画像模型外的IP行为和日志进行发现。此外,多维特征数据通过机器学习方法聚类后,存在大量IP的网络中能够形成稳定的IP模式,包括服务器、一般IP终端的类型模式、IP开放端口模式和IP访问活跃度模式等,发现IP模式中的离群点和跨不同IP模式间的IP行为穿插,从而实现对网络威胁和内部威胁的检测和告警。如图2所示,包括:数据接入层、异常行为发现层、IP画像层、威胁检测层、特征工程层以及融合分析层;
接入的数据包括:原始终端数据,原始网络数据,特征数据和缓存的数据;
异常行为发现包括:反常行为发现,恶意行为发现,违规行为发现,日常使用预测,关联行为预测以及系统状态预测;
IP画像包括:IP个人属性画像,IP部门属性画像,系统使用属性画像和IP标签库;如图3所示;
威胁检测包括:漏洞利用检测,木马传播检测,网络探测检测,信息泄露检测,公开数据集和私有数据集;
特征工程包括:特征构造,特征编码,特征缩放和特征降维;
融合分析包括:用户画像标签,反常行为标签,恶意流量标签,模型外异常发现,事件关联扩展和威胁事件回溯;
本发明所述的异常检测方法,针对IP画像的威胁检测技术,是在IP画像的基础上,对IP画像形成的IP定性和定量的特征数据,进行在线或者离线的统计分析和机器学习,分析偏离IP画像的行为和偏离正常行为的IP画像,计算归入恶意IP画像的数据,从而发现安全威胁事件,实现对网络异常行为和内部威胁的安全告警和追踪分析。
如图1所示,数据存储模块从kafka消息队列中读取流数据信息,经过基础流数据查询,得到流数据文件,经过对流数据的预处理,将汇聚后的流数据兵分两路,一部分构建重点目标的网络流量聚类模型,另一部分构建网络流量类型变化的模型;同时,构建基于N-ARMR流异常检测模型;
重点目标的网络流量聚类模型进行网络流量的聚类训练,网络流量类型变化的模型进一步构建低维特征模型,结合汇聚后的流数据,进行一般目标的检测;
同时,基于N-ARMR流异常检测模型进行时间序列的训练,与网络流量的聚类训练结果,结合汇聚后的流数据进行重点目标的检测;
一般目标的检测得到一般目标的异常事件,结合重点目标的检测得到的重点目标的异常流量事件,融合构建网络攻击行为分类模型,合并分析,得到事件相关性分析,给出分析报告。
如图4所示,具体步骤如下:
步骤一、利用数据接入层对IP画像进行分析,获取IP终端数据和IP网络访问数据作为历史数据;
基于IP行为数据进行画像分析,通过基于IP网络流量进行稳定IP模式的训练及检测,包括对于IP通联、端口访问量及分布情况、访问时间及活跃度等进行统计;
IP行为数据提取具体如下:
基于IP实体行为和内容的IP数据是IP画像技术的数据源和实现基础,为了全面和精确的实现IP画像并对IP行为进行预测,在IP行为数据提取时需要确保IP行为记录的全面可靠。
研究IP终端数据的提取方法,涵盖IP的操作的全方位、全时段的日志内容,包括终端本身的CPU、内存、带宽等资源利用率,业务系统的登录、登出、浏览操作,VPN、远程桌面、xshell等重要应用的使用情况。
研究IP网络访问数据,对网络协议解析和应用识别,还原IP关键字段信息,记录IP的网络访问习惯,同时对传输文件内容进行记录,进而在Web浏览、系统交互、网络流量三个方面形成IP画像的数据基础。
步骤二、利用异常行为发现层从历史数据对IP中的重点目标、一般目标及服务类型进行分析判定,形成重点目标IP、一般目标IP等数据;
异常检测发现对内部网络中重要网络节点和普通网络节点采用不同的方法进行流量模型构建,分别进行网络异常检测,再关联重要目标和普通目标的网络事件,挖掘出具备一定危害的网络威胁行为和异常通联行为。
配置管理模块提供白名单流量配置,重点IP配置,一般IP配置,支持系统数据的静态配置功能,同时提供了异常检测模型训练任务配置和异常检测任务配置,实现异常检测过程可控。重点目标是内部网络中重要保护的IP地址,重要IP,内部网络内除去重点IP后为一般IP。
对目标访问的对端IP中,将合法的、稳定的、安全的对端IP加入系统白名单中,以在流量模型建立和流量异常检测的过程中直接忽略白名单中对端IP的流量。
配置管理模块还根据已知的重点目标服务器上部署的服务和开放的端口,配置相应重点目标的稳定端口,以便在重点目标流量异常建模和检测时,不再需要对稳定端口进行计算和建模。白名单及稳定端口配置需要简单直接,方便用户实时修改配置,及时下发到对应的检测引擎。重点目标和一般目标流量异常检测引擎,会定期检查下发的配置文件,及时更新白名单和稳定端口,改变检测行为。
数据存储模块从kafka消息队列中读取流数据信息,对重点目标的每条流数据信息都进行存储,对一般目标以5分钟或1小时作为最小粒度,统计各个端口上的流量时间序列,存储会话时长、会话方式、操作内容、IP属性、行业属性、源IP地址、目的IP地址、源端口、目的端口、协议类型以及包数、字节数。
步骤三、利用威胁检测层对重点目标IP目标来对于IP多维特征向量和时间序列模型进行分析,对于IP流量异常、通联异常、端口异常、分布异常、时间异常等进行基于时间序列的模型检测;
重点目标异常检测模块用于:
(1)从历史数据信息中获取通信对象的通信时长与通信字节数,构建重点目标的稳定通信对象模型;
(2)基于阈值模型的多维度数据重点目标检测;
构建重点目标的多维特征向量,对每个重点目标,从流数据信息中提取特征项包括流方向、流网络协议类型、服务端口号和流量指标,利用所提取的流量特征以及通信对端是否是稳定端口或稳定对端IP组合形成重点目标的不同维度的特征向量;根据重点目标的历史流数据信息,对特征向量的每个特征项的值进行统计。
流方向是指,当重点目标作为连接发起的源地址时,该条数据流的方向为流出,反之,该条数据流的方向为流入;流网络协议类型是指,重点目标与对端通信的流数据在网络层上所运行的协议;服务端口号是指,重点目标与对端进行通信时,重点目标方的端口号;流量指标是指,重点目标与对端的流量大小,包括的属性有字节数、网络包数和对端IP数。
判断各流量特征的分布规律,计算统计阈值,建立流量特征的阈值模型。对流量特征上的统计值进行正态分布与对数正态分布两种分布规律的假设检验,对于服从正态分布规律的流量特征,计算其均值和标准差作为统计阈值,对于服从对数正态分布规律的流量特征,计算其对数均值和对数标准差作为统计阈值。
(3)利用阈值模型对带检测流量进行检测,进而判断待检测流量是否是异常流量。
对各特征项的统计值进行正态分布与对数正态分布两种分布规律的假设检验,对于服从正态分布规律的特征项,计算均值和标准差作为统计阈值,对于服从对数正态分布规律的特征项,计算对数均值和对数标准差作为统计阈值,建立阈值模型;
在检测时,获得待检测流量中每个时间窗口内每个特征项的观测值,根据特征项的统计分布规律,计算其均值和标准差或者对数均值和对数标准差,然后与阈值模型中对应的统计阈值进行比对,计算偏离程度;偏离程度由待检测流量的均值/对数均值与阈值模型的均值/对数均值间的差值,比上阈值模型中标准差/对数标准差,所获得的倍数来确定。
步骤四、针对一般目标IP地址及其特定端口的通联对端,访问内部IP节点的数量和连接频次,并对对端IP进行排序,找到存在端口扫描异常和IP段扫描异常的对端IP地址;
一般目标异常检测模块用于:
(1)利用基于时间序列的流量变化模型进行检测,包括:对端口流量的时间序列,减去其中的趋势性分量和周期性分量,获得随机波动特征,随机波动特征符合正态分布的定义,根据置信度,应用正态分布假设检验计算随机波动特征偏离标准差的系数,找到流量突增点;
(2)利用流数据聚合模型进行检测,所述的流数据聚合模型从五元组中选取不同分组进行不同粒度的构建,根据所选粒度对流数据信息进行分组,再对字节数和包数进行聚合操作,通过排序找到异常行为。
根据一般目标的IP段范围、所需检测的异常类型以及预设的数据包过滤规则,对一般目标的网络数据流信息进行筛选,以缩减任务所需的数据量。
采用多进程/多线程的方式,以5分钟或1小时作为最小粒度,计算一般目标各个端口上的流量,形成各个端口的时间序列。
对各个端口的流量时间序列,减去其趋势性的向量,再减去其周期性特征向量,将剩余的向量作为一般目标的随机波动特征,符合正态分布的定义,根据置信度,应用正态分布假设检验计算其偏离标准差的系数,找到流量突增点。
按1小时/1天维度统计一般目标IP地址及其特定端口的通联对端,访问内部IP节点的数量和连接频次,并对对端IP进行排序,找到存在端口扫描异常和IP段扫描异常的对端IP地址。对找到的对端流数据聚合模型根据五元组(源IP地址、目的IP地址、源端口、目的端口、协议类型)对流数据信息进行分组,并对字节数和包数进行聚合操作,再通过排序找到异常值。
对访问多个一般目标的对端IP,进行扫描分析和DDoS分析,检测是否有端口扫描和尝试登录的行为。
步骤五、对于重点目标和一般目标的异常攻击事件进行关联,综合评估和数据分析异常事件。
异常评估模块综合重点目标异常检测结果和一般目标异常检测结果,结合其异常发生时的各项流量特征,采用各自的特征权重,综合评估异常等级和异常类型,生成异常检测报告。

Claims (6)

1.一种基于流数据的异常检测系统,其特征在于,具体包括:数据接入层、异常行为发现层、IP画像层、威胁检测层、特征工程层以及融合分析层;
接入的数据包括:原始终端数据,原始网络数据,特征数据和缓存的数据;
异常行为发现包括:反常行为发现,恶意行为发现,违规行为发现,日常使用预测,关联行为预测以及系统状态预测;
IP画像包括:IP个人属性画像,IP部门属性画像,系统使用属性画像和IP标签库;
威胁检测包括:漏洞利用检测,木马传播检测,网络探测检测,信息泄露检测,公开数据集和私有数据集;
特征工程包括:特征构造,特征编码,特征缩放和特征降维;
融合分析包括:用户画像标签,反常行为标签,恶意流量标签,模型外异常发现,事件关联扩展和威胁事件回溯。
2.应用权利要求1所述的一种基于流数据的异常检测系统的异常检测方法,其特征在于,具体步骤如下:
步骤一、利用数据接入层对IP画像进行分析,获取IP终端数据和IP网络访问数据作为历史数据;
步骤二、利用异常行为发现层从历史数据中对各目标及服务类型进行分析判定,形成重点目标IP和一般目标IP;
步骤三、利用威胁检测层对重点目标IP进行IP多维特征向量和时间序列模型的分析,对于IP流量异常、通联异常、端口异常、分布异常和时间异常进行基于时间序列的模型检测;
步骤四、利用威胁检测层对一般目标IP地址及其特定端口的通联对端,访问内部IP节点的数量和连接频次,并对对端IP进行排序,找到存在端口扫描异常和IP段扫描异常的对端IP地址;
步骤五、利用融合分析层,对于重点目标IP和一般目标IP异常发生时的各项流量特征,采用各自的特征权重,综合评估异常等级和异常类型,生成异常检测报告。
3.如权利要求2所述的一种基于流数据的异常检测方法,其特征在于,所述的步骤一中,IP终端数据的提取包括:终端本身的CPU、内存和带宽利用率,业务系统的登录、登出、浏览操作,VPN、远程桌面和xshell的使用情况;
IP网络访问数据包括:对网络协议解析和应用识别,还原IP关键字段信息,记录IP的网络访问习惯,同时对传输文件内容进行记录,进而在Web浏览、系统交互、网络流量三个方面形成IP画像的数据基础。
4.如权利要求2所述的一种基于流数据的异常检测方法,其特征在于,所述的步骤二中,重点目标IP是内部网络中重要保护的IP地址,内部网络中除去重点目标IP后为一般目标IP;
数据存储模块从kafka消息队列中读取历史流数据,对重点目标的每条流数据信息都进行存储,对一般目标以5分钟或1小时作为最小粒度,统计各个端口上的流量时间序列,存储会话时长、会话方式、操作内容、IP属性、行业属性、源IP地址、目的IP地址、源端口、目的端口、协议类型以及包数和字节数。
5.如权利要求2所述的一种基于流数据的异常检测方法,其特征在于,所述的步骤三具体为:
首先,从历史数据中获取通信对象的通信时长与通信字节数,构建重点目标IP的稳定通信对象模型;
然后,构建重点目标IP的多维特征向量,对每个重点目标,从流数据信息中提取流量特征包括:流方向、流网络协议类型、服务端口号和流量指标,利用所提取的流量特征以及通信对端是否为稳定端口或稳定对端IP组合,形成重点目标IP不同维度的特征向量;
根据重点目标IP的历史流数据信息,对特征向量的每个特征项的值进行统计,对各特征项的统计值进行正态分布与对数正态分布两种分布规律的假设检验,对于服从正态分布规律的特征项,计算均值和标准差作为统计阈值,对于服从对数正态分布规律的特征项,计算对数均值和对数标准差作为统计阈值,建立阈值模型。
6.如权利要求2所述的一种基于流数据的异常检测方法,其特征在于,所述的步骤四具体为:
首先,利用基于时间序列的流量变化模型进行检测;
包括:对端口流量的时间序列,减去其中的趋势性分量和周期性分量,获得随机波动特征,随机波动特征符合正态分布的定义,根据置信度,应用正态分布假设检验计算随机波动特征偏离标准差的系数,找到流量突增点;
然后,利用流数据聚合模型进行检测,所述的流数据聚合模型从五元组:源IP地址、目的IP地址、源端口、目的端口、协议类型中选取不同分组进行不同粒度的构建,根据所选粒度对流数据信息进行分组,再对字节数和包数进行聚合操作,通过排序找到异常行为;
对访问多个一般目标的对端IP,进行扫描分析和DDoS分析,检测是否有端口扫描和尝试登录的行为。
CN202110314516.3A 2021-03-24 2021-03-24 一种基于流数据的异常检测方法及系统 Pending CN113079143A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110314516.3A CN113079143A (zh) 2021-03-24 2021-03-24 一种基于流数据的异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110314516.3A CN113079143A (zh) 2021-03-24 2021-03-24 一种基于流数据的异常检测方法及系统

Publications (1)

Publication Number Publication Date
CN113079143A true CN113079143A (zh) 2021-07-06

Family

ID=76610170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110314516.3A Pending CN113079143A (zh) 2021-03-24 2021-03-24 一种基于流数据的异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN113079143A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609210A (zh) * 2021-08-23 2021-11-05 广州梦源信息科技有限公司 基于人工智能的大数据可视化处理方法及可视化服务系统
CN113722740A (zh) * 2021-09-06 2021-11-30 全知科技(杭州)有限责任公司 一种基于接口画像的水平越权访问敏感数据风险的检测方法
CN113965384A (zh) * 2021-10-22 2022-01-21 上海观安信息技术股份有限公司 一种网络安全异常检测方法、装置及计算机存储介质
CN114006865A (zh) * 2021-12-28 2022-02-01 上海领健信息技术有限公司 基于多维度指标的用户流量控制系统、方法、终端及介质
CN114050922A (zh) * 2021-11-05 2022-02-15 国网江苏省电力有限公司常州供电分公司 一种基于时空ip地址画像的网络流异常检测方法
CN114205134A (zh) * 2021-12-07 2022-03-18 北京神州新桥科技有限公司 网络策略检测方法、电子设备及存储介质
CN114301694A (zh) * 2021-12-29 2022-04-08 赛尔网络有限公司 网络异常流量分析方法、装置、设备及介质
CN114826706A (zh) * 2022-04-13 2022-07-29 哈尔滨理工大学 一种基于计算机内存取证技术的恶意流量检测方法
CN114844798A (zh) * 2022-07-04 2022-08-02 海马云(天津)信息技术有限公司 云应用服务异常检测方法与装置
CN114884749A (zh) * 2022-07-06 2022-08-09 智联信通科技股份有限公司 一种基于人工智能的网络安全态势感知方法
CN115098566A (zh) * 2022-08-18 2022-09-23 创思(广州)电子科技有限公司 改进卷积神经网络模型的信息系统
CN115174190A (zh) * 2022-06-29 2022-10-11 武汉极意网络科技有限公司 一种基于网络流量的信息安全管控系统及方法
CN115314325A (zh) * 2022-10-11 2022-11-08 科来网络技术股份有限公司 基于tcp通信的访问关系分析方法、系统、设备和介质
CN115361231A (zh) * 2022-10-19 2022-11-18 中孚安全技术有限公司 基于访问基线的主机异常流量检测方法、系统及设备
CN115795454A (zh) * 2022-12-23 2023-03-14 刘勇 基于线上操作大数据的业务优化方法及人工智能优化系统
CN116074215A (zh) * 2022-12-30 2023-05-05 中国联合网络通信集团有限公司 网络质量检测方法、装置、设备及存储介质
CN116723059A (zh) * 2023-08-10 2023-09-08 湖南润科通信科技有限公司 一种针对网络信息的安全分析系统
CN116781389A (zh) * 2023-07-18 2023-09-19 山东溯源安全科技有限公司 一种异常数据列表的确定方法、电子设备及存储介质
CN117395070A (zh) * 2023-11-16 2024-01-12 国家计算机网络与信息安全管理中心 一种基于流量特征的异常流量检测方法
WO2024065956A1 (zh) * 2022-09-30 2024-04-04 南京烽火星空通信发展有限公司 一种基于数据多维熵值指纹的网络异常行为检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110149343A (zh) * 2019-05-31 2019-08-20 国家计算机网络与信息安全管理中心 一种基于流的异常通联行为检测方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110149343A (zh) * 2019-05-31 2019-08-20 国家计算机网络与信息安全管理中心 一种基于流的异常通联行为检测方法和系统

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609210A (zh) * 2021-08-23 2021-11-05 广州梦源信息科技有限公司 基于人工智能的大数据可视化处理方法及可视化服务系统
CN113722740A (zh) * 2021-09-06 2021-11-30 全知科技(杭州)有限责任公司 一种基于接口画像的水平越权访问敏感数据风险的检测方法
CN113722740B (zh) * 2021-09-06 2023-07-28 全知科技(杭州)有限责任公司 一种基于接口画像的水平越权访问敏感数据风险的检测方法
CN113965384A (zh) * 2021-10-22 2022-01-21 上海观安信息技术股份有限公司 一种网络安全异常检测方法、装置及计算机存储介质
CN113965384B (zh) * 2021-10-22 2023-11-03 上海观安信息技术股份有限公司 一种网络安全异常检测方法、装置及计算机存储介质
CN114050922B (zh) * 2021-11-05 2023-07-21 国网江苏省电力有限公司常州供电分公司 一种基于时空ip地址画像的网络流异常检测方法
CN114050922A (zh) * 2021-11-05 2022-02-15 国网江苏省电力有限公司常州供电分公司 一种基于时空ip地址画像的网络流异常检测方法
CN114205134A (zh) * 2021-12-07 2022-03-18 北京神州新桥科技有限公司 网络策略检测方法、电子设备及存储介质
CN114006865A (zh) * 2021-12-28 2022-02-01 上海领健信息技术有限公司 基于多维度指标的用户流量控制系统、方法、终端及介质
CN114006865B (zh) * 2021-12-28 2022-04-15 上海领健信息技术有限公司 基于多维度指标的用户流量控制系统、方法、终端及介质
CN114301694A (zh) * 2021-12-29 2022-04-08 赛尔网络有限公司 网络异常流量分析方法、装置、设备及介质
CN114301694B (zh) * 2021-12-29 2024-03-15 赛尔网络有限公司 网络异常流量分析方法、装置、设备及介质
CN114826706A (zh) * 2022-04-13 2022-07-29 哈尔滨理工大学 一种基于计算机内存取证技术的恶意流量检测方法
CN114826706B (zh) * 2022-04-13 2024-01-30 哈尔滨理工大学 一种基于计算机内存取证技术的恶意流量检测方法
CN115174190A (zh) * 2022-06-29 2022-10-11 武汉极意网络科技有限公司 一种基于网络流量的信息安全管控系统及方法
CN115174190B (zh) * 2022-06-29 2024-01-26 武汉极意网络科技有限公司 一种基于网络流量的信息安全管控系统及方法
CN114844798A (zh) * 2022-07-04 2022-08-02 海马云(天津)信息技术有限公司 云应用服务异常检测方法与装置
CN114844798B (zh) * 2022-07-04 2022-10-14 海马云(天津)信息技术有限公司 云应用服务异常检测方法与装置
CN114884749A (zh) * 2022-07-06 2022-08-09 智联信通科技股份有限公司 一种基于人工智能的网络安全态势感知方法
CN115098566A (zh) * 2022-08-18 2022-09-23 创思(广州)电子科技有限公司 改进卷积神经网络模型的信息系统
WO2024065956A1 (zh) * 2022-09-30 2024-04-04 南京烽火星空通信发展有限公司 一种基于数据多维熵值指纹的网络异常行为检测方法
CN115314325A (zh) * 2022-10-11 2022-11-08 科来网络技术股份有限公司 基于tcp通信的访问关系分析方法、系统、设备和介质
CN115361231B (zh) * 2022-10-19 2023-02-17 中孚安全技术有限公司 基于访问基线的主机异常流量检测方法、系统及设备
CN115361231A (zh) * 2022-10-19 2022-11-18 中孚安全技术有限公司 基于访问基线的主机异常流量检测方法、系统及设备
CN115795454A (zh) * 2022-12-23 2023-03-14 刘勇 基于线上操作大数据的业务优化方法及人工智能优化系统
CN115795454B (zh) * 2022-12-23 2024-03-01 北京数智云科信息科技有限公司 基于线上操作大数据的业务优化方法及人工智能优化系统
CN116074215A (zh) * 2022-12-30 2023-05-05 中国联合网络通信集团有限公司 网络质量检测方法、装置、设备及存储介质
CN116074215B (zh) * 2022-12-30 2024-04-19 中国联合网络通信集团有限公司 网络质量检测方法、装置、设备及存储介质
CN116781389B (zh) * 2023-07-18 2023-12-22 山东溯源安全科技有限公司 一种异常数据列表的确定方法、电子设备及存储介质
CN116781389A (zh) * 2023-07-18 2023-09-19 山东溯源安全科技有限公司 一种异常数据列表的确定方法、电子设备及存储介质
CN116723059B (zh) * 2023-08-10 2023-10-20 湖南润科通信科技有限公司 一种针对网络信息的安全分析系统
CN116723059A (zh) * 2023-08-10 2023-09-08 湖南润科通信科技有限公司 一种针对网络信息的安全分析系统
CN117395070A (zh) * 2023-11-16 2024-01-12 国家计算机网络与信息安全管理中心 一种基于流量特征的异常流量检测方法
CN117395070B (zh) * 2023-11-16 2024-05-03 国家计算机网络与信息安全管理中心 一种基于流量特征的异常流量检测方法

Similar Documents

Publication Publication Date Title
CN113079143A (zh) 一种基于流数据的异常检测方法及系统
Zhang et al. Network intrusion detection: Based on deep hierarchical network and original flow data
Gao et al. A distributed network intrusion detection system for distributed denial of service attacks in vehicular ad hoc network
US10986121B2 (en) Multivariate network structure anomaly detector
Terzi et al. Big data analytics for network anomaly detection from netflow data
WO2021088372A1 (zh) SDN网络中基于神经网络的DDoS检测方法及系统
Sangkatsanee et al. Practical real-time intrusion detection using machine learning approaches
Apruzzese et al. Evading botnet detectors based on flows and random forest with adversarial samples
Peng et al. Network intrusion detection based on deep learning
Liu et al. An intrusion detection model with hierarchical attention mechanism
Lappas et al. Data mining techniques for (network) intrusion detection systems
Ye et al. EWMA forecast of normal system activity for computer intrusion detection
Bodström et al. State of the art literature review on network anomaly detection with deep learning
Patil et al. S-DDoS: Apache spark based real-time DDoS detection system
CN112165470B (zh) 一种基于日志大数据分析的智能终端接入安全预警系统
Ali et al. Effective multitask deep learning for iot malware detection and identification using behavioral traffic analysis
Alashhab et al. Low-rate DDoS attack detection using deep learning for SDN-enabled IoT networks
El-Kadhi et al. A Mobile Agents and Artificial Neural Networks for Intrusion Detection.
Upadhyaya et al. Hybrid approach for network intrusion detection system using k-medoid clustering and Naïve Bayes classification
Soewu et al. Analysis of Data Mining-Based Approach for Intrusion Detection System
CN111490976B (zh) 一种面向工控网络的动态基线管理与监测方法
Sunita et al. A hybrid approach of intrusion detection using ANN and FCM
Li et al. Research on intrusion detection based on neural network optimized by genetic algorithm
CN112235242A (zh) 一种c&c信道检测方法及系统
Liang Research on network security filtering model and key algorithms based on network abnormal traffic analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210706

RJ01 Rejection of invention patent application after publication