CN107786388B - 一种基于大规模网络流数据的异常检测系统 - Google Patents
一种基于大规模网络流数据的异常检测系统 Download PDFInfo
- Publication number
- CN107786388B CN107786388B CN201710880542.6A CN201710880542A CN107786388B CN 107786388 B CN107786388 B CN 107786388B CN 201710880542 A CN201710880542 A CN 201710880542A CN 107786388 B CN107786388 B CN 107786388B
- Authority
- CN
- China
- Prior art keywords
- network
- data
- network flow
- sampling
- flow data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种基于大规模网络流数据的异常检测系统,通过对输入的网络流数据进行采样和实时的三角形数目估计,检测当前网络中的某个点或某些点是否存在异常连接,包括数据预处理,网络流数据采样,网络建模及三角形数目估计和异常检测这四个子系统;在给定的网络流提取出有用的信息;利用PartitionCT算法对流数据进行等概率采样,建立相应的网络模型,并实时的估计全局或局部三角形数量;利用该结果对网络中是否存在异常进行判别;本发明可用于网络流采样;可用于估计网络流图中不同边的数目;也可用于动态估计网络中三角形数目并估计网络密度;还可以根据估计出的全局或局部三角形数目,进行网络或单个节点的异常检测等。
Description
技术领域
本发明属于数据挖掘技术领域,特别涉及一种基于大规模网络流数据的异常检测系统。
背景技术
随着互联网技术和通信技术的应用与发展,复杂网络开始在科学技术的各个领域有着广泛的应用。例如,计算机网络流量可以被表示为一个有向网络,其中一个节点代表一台计算机,而一条边表示一台计算机向另一台传递的数据包。这些网络结构可以很清晰的表示节点与节点之间的复杂关系,很多通过图结构计算出来的特征被用于社团检测、异常节点检测等实际问题中。
而随着需要处理的数据也越来越多,很多图结构的大小是我们不可预知的,存储这些图结构需要耗费大量的物力人力,因此大量数据以流图的形式呈现在人们面前。流图并不实际存储一个完整的图结构,而是在每一条数据到来时动态的去计算某些预先设定的指标。
这里我们关注的是实时地处理大规模网络流数据,例如网络流量、大型社交网络中好友关系的建立等;并对网络中地异常情况做出快速判断。但是由于数据量地巨大和设备资源地限制,我们并不能实时地去处理每一条数据。因此,主流方法通常采用采样的方式来近似的估计网络流中的各种指标;即设定一个随机数产生器,和一个阈值用来代表采样概率;若该随机数产生器生成的值小于该阈值,则对其进行采样。
然而,主流方法用在实际网络流中通常会产生很多问题。一是,这些方法一般没有考虑网络流中的重复问题,例如:网络流量中多个包可能具有相同的源地址和目的地址,通话网络中的用户也大都存在重复通话行为。显而易见,这样会造成重复流被采样概率的增大和其他流被采样概率的减小,产生很大的判别误差。二是,这种采样方法的阈值不好设定,面对规模未知的数据流,很容易出现内存溢出,造成系统崩溃。
此外,主流方法通常只考虑了网络流中内容信息。但是由于异常种类的多变性,以及攻击者的故意伪装,只考虑网络流中内容信息的异常检测方法实际上很难奏效。而在研究中我们发现,异常的发生通常伴有网络中全局或局部结构的变化。
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于大规模网络流数据的异常检测系统,与传统方法相比,本发明的一项优势在于,能够检测大规模流数据的异常问题。本发明的另一项优势在于,解决了常规采样算法不能很好的在重复流数据等概率采样的问题。本发明的又一项优势在于,结合网络结构特征来判断节点和网络上的异常,明显提高了判断精度。
为了实现上述目的,本发明采用的技术方案是:
基于大规模网络流数据的异常检测系统,包括:
数据预处理子系统,实现输入数据的预处理,将原始流数据进行解析,处理成容易进行后续操作的三元组。
具体地,数据预处理子系统对给定的原始流数据进行解析,提取出流数据中的源节点、目的节点和所需的流信息。即三元组L=(u,v,l)的第一项为源节点,第二项为目的节点,最后一项为所需的流信息。值得注意的是,三元组中最后一项可以为空,此时三元组中只包含流数据的方向信息。
网络流数据采样子系统,对不同的三元组进行等概率采样,以数组的形式进行存储;并不断更新非重复边的估计值,以及采样边权重。
具体地,本发明提出了一种PartitionCT算法,在重复流数据中对每条非重复边进行等概率采样,得到一个元素为三元组类型的数组。为了实时估计该网络流中的全局和局部三角形数目,本发明可以以常数时间复杂度更新采样数组、非重复边的估计值及采样边权重。同时采样数组的大小可以根据需要自行设定,满足高效、准确的要求。
网络建模及三角形数目估计子系统,通过分析采样后的三元组,建立并更新节点的网络模型,以邻接表的形式存储;并不断更新全局和局部三角形计数器。
具体地,所述网络建模及三角形数目估计子系统使用邻接表作为存储结构来存储网络结构;邻接表使用两个索引:某一结点和流信息;存储信息为另一节点。在更新网络结构的同时,系统计算该操作引起的全局和局部三角形数目变化,并输出当前的全局和局部三角形数目向量。
本发明又包括;
异常检测子系统,利用网络建模及三角形数目估计子系统估计出的全局或局部三角形估计值,检测单个节点或整个网络中是否存在异常情况。
具体地,可利用得到的特征三角形向量训练多种分类器,对节点或网络异常做出判断,最后综合判断是否发生异常情况。本发明目前使用了SVM,Logistic回归和线性回归三种分类器,这三种分类器的优点是实现简单,运行效率高,分类准确率高。
本发明网络可以是通话网络,流量网络,社交网络好友关系等。
与现有技术相比,本发明的有益效果是:
1、能够检测大规模流数据的异常问题。
本发明使用一种原创PartitionCT算法,可以根据设定的采样数组大小对任意规模的数据流进行采样;既可以保证系统内存不会因为数据量过大而溢出,还可以保证运算效率,做到实时反馈。
2、解决了常规采样算法不能很好的在重复流数据等概率采样的问题。
本发明采用两个哈希函数对数据流进行采样,保证相同的数据流的映射值相同,解决了常规的阈值采样或蓄水池采样不能等概率对重复数据流进行采样的问题。
3、结合网络结构特征来判断节点和网络上的异常,明显提高了判断精度。
本发明将网络结构和流信息相结合,相较于独立使用流信息或网络建模的异常检测技术,判断精度有了明显提升。
附图说明
图1为本发明系统整体结构图。
图2为本发明数据预处理子系统流程图。
图3为本发明网络流数据采样子系统流程图。
图4为有向流图中三角形形式说明图。
图5为本发明网络建模及三角形数目估计子系统流程图。
图6为本发明异常检测子系统流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本系统由四个子系统组成,分别是数据预处理子系统,网络流数据采样子系统,网络建模及三角形数目估计子系统和异常检测子系统。系统的输入数据为特定的流数据,如计算机网络流量中的数据包、通话网络中的通话记录及在线社交网络中的好友关系等。
首先,将上述时空轨迹数据输入数据预处理子系统,用于将原始流数据解析为网络流图中的边。
接着,处理后的流数据进入网络流数据采样子系统,使用一种原创的PartitionCT算法对每一条非重复边进行等概率采样。
在更新采样数组的同时,网络建模及三角形数目估计子系统不断更新采样图网络结构,并估计全局或局部三角形数目。
最后,将估计出的全局或局部三角形统计量送入异常检测子系统,通过预先设定的异常指标和异常阈值,来检测网络中的异常节点和整体异常情况的发生。
本发明中各个子系统的详细介绍如下:
1、数据预处理子系统
主要实现输入数据的预处理,包括将给定的流数据处理为容易进行后续操作的三元组。
具体地,如图2所示,数据预处理子系统对给定流数据的处理过程如下:
提取原始的流数据包含流的源节点,目的节点和该流数据包含的信息;表示为三元组L=(u,v,l),u为源节点,v为目的节点,l为所需的流信息。这样就得到了一条包含边信息的流数据三元组,能够反应流数据的流向和其包含的信息。
值得注意的是,三元组中的l可以根据实际需要来设定为不同的数据类型;例如在通话网络中,l可以设定为表示通话时间的标量;在短信流中,可以设定为字符串数组来存储短信中的关键词。
2、网络流数据采样子系统
主要功能是对经过预处理的流数据进行等概率采样。
具体地,如图3所示,网络流数据采样及三角形数目估计子系统对流数据三元组Li的处理过程如下:
首先,将采样数组定义为B,其大小为|B|=k,元素bj=(xj,yj,zj)∈B,j=1,2,...,k与流数据三元组L具有相同的数据类型;初始化定义当前网络流中不同边的数目为并初始化定义采样边权重为q,并初始化q←1。其中←表示赋值操作,将后者的值赋给前者。
为采样模块定义两个哈希函数。H1:N2→[0,+∞),将三元组中的源节点和目的节点随机映射到[0,+∞)区间,该哈希函数映射出的值满足参数为0.5的几何分布。其中,H1(0,0)=0。H2:N2→{1,2,...,k},将三元组中的源节点和目的节点随机映射到{1,2,...,k}共k个整数中,H2映射出的值满足均匀分布。其中,N表示自然数集合,→表示从前者到后者的映射关系。此外,H1和H2均满足自反性,即H1(u,v)=H1(v,u),H2(u,v)=H2(v,u);这样既可以保证重复边落入相同的容器内,又可以保证在数据流中的每条边的相同概率采样。
当三元组L=(u,v,l)到来时,令哈希值j=H2(u,v),bj=(xj,yj,zj)∈B,分为4种情况处理:
(1)若bj为空,令bj=L;
(2)若bj=L,更新zj←zj∪l;
(3)若bj不为空,并且bj≠L,并且H1(u,v)>H1(xj,yj),令bj=L;
(4)否则等待下一条数据流;
3、网络建模及三角形数目估计子系统
主要功能是构建网络模型,并实时更新网络中的全局和局部三角形数目。
具体地,在更新采样数组后,系统也将更新网络结构并估计当前的全局或局部三角形个数。将网络结构表示为邻接表形式。网络中第m种三角形计数表示为为全局三角形计数;对应的,包含节点u的第m种三角形计数表示为为局部三角形计数。当三元组中li为空时,即数据流中只包含流的方向信息;共有7种不同的三角形结构,即m=1,2,...,7,如图4所示。当三元组L=(u,v,l)被采样后,根据不同情况更新邻接表G和对应的三角形计数:Gu表示邻接表G中索引为节点u的所有数组;Gu,l表示邻接表G中索引为节点u和边信息l的数组
Gu,l←Gu,l∪v,Gv,l←Gv,l∪u;对每个节点w∈Gu∩Gv,对应的计数器
(4)保持邻接表、全局和局部三角形计数不变。
综上,如图5所示,网络建模及三角形数目估计子系统的流程如下:
输入采样后的三元组,按(1)-(4)分情况更新网络结构、全局和局部三角形计数。网络建模及三角形数目估计子系统的输出为全局三角形数目向量ψ∈Ν1×M,以及网络中每个节点u的局部三角形数目向量ψu∈Ν1×M;其中M为三角形种类总数。
4、异常检测子系统
主要功能是利用网络建模及三角形数目估计子系统估计出的全局或局部三角形估计值,检测单个节点或整个网络中是否存在异常情况。
本发明目前使用了SVM,Logistic回归和线性回归三种分类器对全局(整个网络)或局部(单个节点)异常做出判别。现有的scikit-learn工具提供了大量分类器算法,可以利用其中的算法来实现分类预测子系统中的部分功能。scikit-learn是一个基于Python的科学计算库,提供了数种分类算法可供选择,分类预测子系统选择了SVM分类器(sklearn.svm),Logistic回归(sklearn.linear_model.LogisticRegression),和线性回归(sklearn.linear_model.LinearRegression)。
如图6所示,从网络建模及三角形数目估计子系统获得的全局三角形数目向量ψ,以及网络中每个节点u的局部三角形数目向量ψu。通过分析正常网络和异常网络,可以得到其特征三角形向量,使用这部分样本向量作为训练集,训练分类器,再使用该分类器对当前数据流的异常性进行判断。由于分类器可能有错判,因此分类预测子系统使用了三种分类器同时对用户进行预测,如果多数分类器预测出了同一结果,则取该预测结果作为最终判断。
综上,本发明提供一种基于大规模网络流数据的异常检测系统。提出原创的PartitionCT算法对流数据进行等概率采样,建立相应的网络模型,并实时的估计全局或局部三角形数量;利用该结果对网络中是否存在异常进行判别。本发明可用于网络流采样;可用于估计网络流图中不同边的数目;也可用于动态估计网络中三角形数目并估计网络密度;还可以根据估计出的全局或局部三角形数目,进行网络或单个节点的异常检测等。
Claims (7)
1.基于大规模网络流数据的异常检测系统,其特征在于,包括:
数据预处理子系统,实现输入数据的预处理,将原始流数据进行解析,处理成容易进行后续操作的三元组L=(u,v,l),u为源节点,v为目的节点,l为所需的流信息;
网络流数据采样子系统,对不同的三元组进行等概率采样,以数组的形式进行存储;并不断更新非重复边的估计值,以及采样边权重;
网络建模及三角形数目估计子系统,通过分析采样后的三元组,建立并更新节点的网络模型,以邻接表的形式存储;并不断更新全局和局部三角形计数器;
异常检测子系统,利用网络建模及三角形数目估计子系统估计出的全局或局部三角形估计值,检测单个节点或整个网络中是否存在异常情况。
2.根据权利要求1所述基于大规模网络流数据的异常检测系统,其特征在于,所述三元组中l为空,此时三元组中只包含流数据的方向信息。
4.根据权利要求3所述基于大规模网络流数据的异常检测系统,其特征在于,定义两个哈希函数:
H1:N2→[0,+∞),将三元组中的源节点和目的节点随机映射到[0,+∞)区间,H1映射出的值满足参数为0.5的几何分布,其中H1(0,0)=0;
H2:N2→{1,2,...,k},将三元组中的源节点和目的节点随机映射到{1,2,...,k}共k个整数中,H2映射出的值满足均匀分布;
其中,N表示自然数集合,→表示从前者到后者的映射关系,H1和H2均满足自反性,即H1(u,v)=H1(v,u),H2(u,v)=H2(v,u)。
7.根据权利要求1所述基于大规模网络流数据的异常检测系统,其特征在于,所述异常检测子系统利用分析正常网络和异常网络得到的特征三角形向量训练多种分类器,对网络流中节点或网络整体的异常情况做出判断,最后综合判断当前节点或网络是否存在异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710880542.6A CN107786388B (zh) | 2017-09-26 | 2017-09-26 | 一种基于大规模网络流数据的异常检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710880542.6A CN107786388B (zh) | 2017-09-26 | 2017-09-26 | 一种基于大规模网络流数据的异常检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107786388A CN107786388A (zh) | 2018-03-09 |
CN107786388B true CN107786388B (zh) | 2020-02-14 |
Family
ID=61433699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710880542.6A Active CN107786388B (zh) | 2017-09-26 | 2017-09-26 | 一种基于大规模网络流数据的异常检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107786388B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108737185A (zh) * | 2018-05-23 | 2018-11-02 | 哈尔滨工业大学 | 一种基于随机抽样的数据图流中的三角形计数方法及装置 |
WO2020042024A1 (zh) * | 2018-08-29 | 2020-03-05 | 区链通网络有限公司 | 一种基于图算法的节点异常检测方法、装置及存储装置 |
CN109299365B (zh) * | 2018-09-28 | 2019-08-13 | 西安交通大学深圳研究院 | 一种基于数据流的异常用户检索系统 |
CN109347662B (zh) * | 2018-09-28 | 2019-08-13 | 西安交通大学深圳研究院 | 面向大规模网络流量的分布式社会网络结构快速挖掘系统 |
CN110032605B (zh) * | 2019-03-26 | 2021-04-06 | 华中科技大学 | 社交网络中用户间连接关系特征的获取方法及系统 |
CN110609832B (zh) * | 2019-08-30 | 2022-12-09 | 南开大学 | 一种面向流式数据的非重复采样方法 |
CN113079176B (zh) * | 2021-04-14 | 2022-04-05 | 西安交通大学 | 一种适用于海量数据的高速网络流量异常检测系统 |
CN114389961B (zh) * | 2022-01-14 | 2024-03-08 | 北京中科通量科技有限公司 | 一种基于节点热度采样的图流三角形计数方法及装置 |
CN115563570B (zh) * | 2022-12-05 | 2023-04-14 | 上海飞旗网络技术股份有限公司 | 一种资源的异常检测方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103684910A (zh) * | 2013-12-02 | 2014-03-26 | 北京工业大学 | 一种基于工业控制系统网络流量的异常检测方法 |
CN104796303A (zh) * | 2015-04-24 | 2015-07-22 | 清华大学 | 动态数据流定义方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8375255B2 (en) * | 2009-12-23 | 2013-02-12 | At&T Intellectual Property I, Lp | Device and method for detecting and diagnosing correlated network anomalies |
-
2017
- 2017-09-26 CN CN201710880542.6A patent/CN107786388B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103684910A (zh) * | 2013-12-02 | 2014-03-26 | 北京工业大学 | 一种基于工业控制系统网络流量的异常检测方法 |
CN104796303A (zh) * | 2015-04-24 | 2015-07-22 | 清华大学 | 动态数据流定义方法及系统 |
Non-Patent Citations (2)
Title |
---|
A Method of Inferring Motif Statistics From Sampled Edges;Pinghui Wang;《IEEE》;20160623;全文 * |
基于三元组信息的网络流量检测点选取算法;石恒华等;《北京邮电大学学报》;20090415;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107786388A (zh) | 2018-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107786388B (zh) | 一种基于大规模网络流数据的异常检测系统 | |
US9729571B1 (en) | System, method, and computer program for detecting and measuring changes in network behavior of communication networks utilizing real-time clustering algorithms | |
US11694094B2 (en) | Inferring digital twins from captured data | |
Tuor et al. | Recurrent neural network language models for open vocabulary event-level cyber anomaly detection | |
PhridviRaj et al. | Data mining–past, present and future–a typical survey on data streams | |
Liu et al. | A class-oriented feature selection approach for multi-class imbalanced network traffic datasets based on local and global metrics fusion | |
CN112148772A (zh) | 告警根因识别方法、装置、设备和存储介质 | |
CN113469234A (zh) | 一种基于免模型联邦元学习的网络流量异常检测方法 | |
Huang et al. | Forecasting container throughput of Qingdao port with a hybrid model | |
CN113196303B (zh) | 不适当神经网络输入检测和处理 | |
CN111431819B (zh) | 一种基于序列化的协议流特征的网络流量分类方法和装置 | |
CN109753797B (zh) | 针对流式图的密集子图检测方法及系统 | |
Nazarenko et al. | Features of application of machine learning methods for classification of network traffic (features, advantages, disadvantages) | |
CN113378899B (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
CN110460458A (zh) | 基于多阶马尔科夫链的流量异常检测方法 | |
CN113762377B (zh) | 网络流量识别方法、装置、设备及存储介质 | |
WO2015154484A1 (zh) | 流量数据分类方法及装置 | |
CN114553591B (zh) | 随机森林模型的训练方法、异常流量检测方法及装置 | |
WO2023207013A1 (zh) | 一种基于图嵌入的关系图谱关键人员分析方法及系统 | |
CN113746780B (zh) | 基于主机画像的异常主机检测方法、装置、介质和设备 | |
CN112529477A (zh) | 信用评估变量筛选方法、装置、计算机设备及存储介质 | |
Ghalehgolabi et al. | Intrusion detection system using genetic algorithm and data mining techniques based on the reduction | |
CN111159481B (zh) | 图数据的边预测方法、装置及终端设备 | |
CN117061322A (zh) | 物联网流量池管理方法及系统 | |
TW202001611A (zh) | 多元流動網路之可靠度計算方法及其系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |