CN111556440A - 一种基于流量模式的网络异常检测方法 - Google Patents

一种基于流量模式的网络异常检测方法 Download PDF

Info

Publication number
CN111556440A
CN111556440A CN202010379631.4A CN202010379631A CN111556440A CN 111556440 A CN111556440 A CN 111556440A CN 202010379631 A CN202010379631 A CN 202010379631A CN 111556440 A CN111556440 A CN 111556440A
Authority
CN
China
Prior art keywords
grid
mobile phone
flow
traffic
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010379631.4A
Other languages
English (en)
Inventor
孙黎
黄丹彤
吴迎笑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Zhejiang Lab
Original Assignee
Xian Jiaotong University
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University, Zhejiang Lab filed Critical Xian Jiaotong University
Priority to CN202010379631.4A priority Critical patent/CN111556440A/zh
Publication of CN111556440A publication Critical patent/CN111556440A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/18Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
    • H04W8/183Processing at user equipment or user record carrier

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开一种基于流量模式的网络异常检测方法,该方法首先使用Hadoop数据处理框架将手机流量矢量化,将每个网格区域内大规模手机流量活动时空数据聚合成时间序列向量,进而利用聚类方法分类网格区域的手机流量向量,将具有相似流量模式的区域划分为一个集群区域;然后利用机器学习的方法检测用户活动异常,当网络在任何时间和区域出现突然增加的流量需求时,把它识别为异常。该方法在用户活动异常检测具有优势,可以检测到不考虑流量模式下被忽略的异常。

Description

一种基于流量模式的网络异常检测方法
技术领域
本发明属于涉及移动无线网络中网络管理和控制、网络资源分配和优化,具体涉及一种基于流量模式的网络异常检测方法。
背景技术
在移动无线网络中,用户体验受无线覆盖、流量负载和基站配置等多种因素影响,用户体验可能会因网络条件的变化而波动。例如,某一热点区域网络资源分配不足,数据流量需求突然增长将不利于用户体验,在某些情况下可能最终导致服务中断。因此,分析用户活动的特征和检测用户异常对于移动无线网络资源的管理和控制以及有效地分配和调整网络资源至关重要。
目前,已利用聚合的CDR信息开展了识别IOPs(餐馆、学校、医院等)、理解移动流量模式特征、检测用户异常等研究;利用聚类、统计方法检测蜂窝网络中异常流量已取得满意的结果。但是现有的方法忽略了不同功能区用户流量模式存在内部性相似性和外部差异性的特征,检测结果不精确。
发明内容
针对现有技术的不足,本发明提出一种基于流量模式的网络异常检测方法,具体技术方案如下:
一种基于流量模式的网络异常检测方法,该方法包括如下步骤:
S1:将所关注的城市区域划分为H×W的网格区域,其中H和W是正整数,使用Hadoop数据处理框架聚合每个网格区域的手机活动流量值,得到以小时为单位的手机流量总值;然后将所检测时间段划分为M个时隙,形成一个时间序列向量,对于任意的网格j,手机流量向量为xj=[xj[1],…,xj[M]]T,这里xj[p]表示网格j在第p小时内的手机流量总值;
S2:选取H×W的网格区域中的n个网格区域的手机流量向量集合X={x1,x2,…,xn}作为输入样本,利用聚类方法将具有相似流量模式的网格区域聚为一类,并使用欧氏距离来度量样本之间的距离,由于流量模式的种类是未知,采用肘方法确定最优的集群数目k,最后,通过聚类方法聚类后将城市区域划分为k个集群区域;
所述的流量模式是指每个网格区域内手机流量值的变化范围;
S3:针对每个集群区域,选择一定时间段内的离散的手机流量总值作为样本,利用戴维堡丁指数DBI确定最佳簇数Nopt
S4:使用欧氏距离衡量两个手机流量总值之间的距离,再采用聚类的方法将样本划分为 Nopt簇,将包含样本数量最少且聚类质心值最大的簇定义为异常簇,进而确定异常活动发生的时间和网格区域。
进一步地,所述的S1中的所检测时间段为4周,且将4周的时间段被划分为672个时隙。
进一步地,所述的S3中,所述的一定时间段优选1周。
进一步地,所述的手机活动流量值包括语音、文本和数据流量值。
进一步地,所述的S1中的聚类方法优选k-means聚类。
进一步地,所述的S4中的聚类方法优选分层聚类。
本发明的有益效果如下:
本发明的方法不直接选取块状区域检测用户异常,增加城市区域流量模式的理解,根据手机流量模式划分城市区域、可视化分析用户行为和检测用户异常,有助于服务提供商来管理和控制网络以及优化网络资源分配。
附图说明
图1为采用本发明的方法检测得到的意大利米兰城市手机流量模式识别图,其中,3000 个网格区域被划分为5个不同的流量模式分组,区域654是边缘区域大学,区域4861是中心区域大学;
图2(a)~(e)分别是在流量模式#1、#2、#3、#4和#5分组区域内随机选择4个网格,对一周内的流量活动使用k-means聚类异常检测结果。
图3(a)是在图2异常检测的网格中,选择3个属于不同流量模式的网格(4853,5161, 6756),不考虑流量模式的情况使用k-means聚类异常检测结果;图3(b)刻画了这3个网格内流量活动的真实值。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的方法先根据流量模式将城市划分为不同的区域,可视化分析用户手机活动特征,然后在考虑流量模式的情况下检测用户活动异常,具体包括如下步骤:
S1:将所关注的城市区域划分为H×W的网格区域,其中H和W是正整数,使用Hadoop数据处理框架聚合每个网格区域的手机活动流量值,得到以小时为单位的手机流量(语音、文本和数据)总值;4周的时间段被划分为672个时隙,形成一个时间序列向量,对于任意的网格j,手机流量向量为xj=[xj[1],…,xj[672]]T,这里xj[p]表示网格j在第p小时内的手机流量总值;
S2:选取5000个网格区域的手机流量向量集合X={x1,x2,…,x5000}作为输入样本,利用 k-means聚类方法将具有相似流量模式的网格区域聚为一类,并使用欧氏距离来度量样本之间的距离,由于流量模式的种类是未知,采用肘方法确定最优的集群数目k,最后,通过聚类方法聚类后将城市区域划分为k个集群区域。这里的流量模式是指每个网格区域内手机流量值的变化范围;在实验中k=5。最后,通过k-means聚类后将城市区域划分为5个集群区域。
S3:针对5个集群区域,k-means聚类方法将一周(7天)内离散的手机流量总值作为样本来检测异常,每个网格区域内有168个离散的手机流量总值。将离散的手机流量总值进行聚类时,由于流量模式的个体特征和相互差别,每个模式集群内的样本所能划分的簇数未知。针对每个集群区域异常检测时,利用DBI确定最佳簇数Nopt。用Ci表示手机活跃度数据组成的第i簇,fm i是Ci中的样本点即手机流量总值,
Figure RE-GDA0002540367300000031
度量簇内离散程度
Figure RE-GDA0002540367300000032
其中,ai是Ci的中心点,Mi是第i簇的样本数;mi,j=||ai-aj||2,mi,j表示簇Ci和簇Cj之间的分离程度。用N表示簇数,则DBI的数学表达式为
Figure RE-GDA0002540367300000033
当DB值最小,得到最优集群数目Nopt(Nopt≤N)。在不同流量模式分组区域内使用k-means聚类检测异常时,#1流量模式下Nopt=4;#2流量模式下,Nopt=6;#3流量模式下,Nopt=4;#4流量模式下,Nopt=3;#5流量模式下,Nopt=3。
S4:使用欧氏距离衡量两个手机流量总值之间的距离,再采用聚类的方法将样本划分为 Nopt簇,将包含样本数量最少且聚类质心值最大的簇定义为异常簇,进而确定异常活动发生的时间和网格区域。
图1是使用提出的流量模式分析方法将米兰城市中3000个网格区域划分为5种流量模式分组,分别为#1、#2、#3、#4和#5。在图2中展示了不同流量模式分组内随机选择4个网格区域使用k-means聚类检测异常,表1-5是异常出现的时间和网格。根据真实数据分析可知,检测到的异常是准确的,验证了基于流量模式异常检测方法的是有效性。图3(a)是在图2异常检测的网格中,选择属于不同流量模式3个网格(4853,5161,6756),不考虑区域流量模式使用k-means聚类异常检测结果。图3(b)刻画了这3个网格内流量活动的真实值,可以发现不考虑网格之间流量模式差异性时,只能检测A1中的异常(网格5161),A2(4853网格)和A3(网格6756)中的异常被忽略。根据表1、表3和表4可知,所提出的基于流量模式的异常检测方法可以准确检测到这些异常。
表1在流量模式分组#1中的异常活动相关的网格和时间
网格编号 时间 流量值
5161 2013-11-23 17:00:00 5469.89
5161 2013-11-24 16:00:00 5420.35
6064 2013-11-26 10:00:00 5409.71
6064 2013-11-26 11:00:00 5375.89
表2在流量模式分组#2中的异常活动相关的网格和时间
网格编号 时间 流量值
4459 2013-11-22 12:00:00 3575.80
表3在流量模式分组#3中的异常活动相关的网格和时间
网格编号 时间 流量值
4853 2013-11-23 17:00:00 1692.82
4853 2013-11-26 10:00:00 1706.82
4853 2013-11-26 11:00:00 1729.48
4853 2013-11-26 12:00:00 1591.38
表4在流量模式分组#4中的异常活动相关的网格和时间
Figure RE-GDA0002540367300000041
Figure RE-GDA0002540367300000051
表5在流量模式分组#5中的异常活动相关的网格和时间
网格编号 时间 流量值
5639 2013-11-23 11:00:00 554.41
5639 2013-11-23 12:00:00 489.00
5639 2013-11-23 13:00:00 446.54
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims (6)

1.一种基于流量模式的网络异常检测方法,其特征在于,该方法包括如下步骤:
S1:将所关注的城市区域划分为H×W的网格区域,其中H和W是正整数,使用Hadoop数据处理框架聚合每个网格区域的手机活动流量值,得到以小时为单位的手机流量总值;然后将所检测时间段划分为M个时隙,形成一个时间序列向量,对于任意的网格j,手机流量向量为xj=[xj[1],…,xj[M]]T,这里xj[p]表示网格j在第p小时内的手机流量总值;
S2:选取H×W的网格区域中的n个网格区域的手机流量向量集合X={x1,x2,…,xn}作为输入样本,利用聚类方法将具有相似流量模式的网格区域聚为一类,并使用欧氏距离来度量样本之间的距离,由于流量模式的种类是未知,采用肘方法确定最优的集群数目k,最后,通过聚类方法聚类后将城市区域划分为k个集群区域;
所述的流量模式是指每个网格区域内手机流量值的变化范围;
S3:针对每个集群区域,选择一定时间段内的离散的手机流量总值作为样本,利用戴维堡丁指数DBI确定最佳簇数Nopt
S4:使用欧氏距离衡量两个手机流量总值之间的距离,再采用聚类的方法将样本划分为Nopt簇,将包含样本数量最少且聚类质心值最大的簇定义为异常簇,进而确定异常活动发生的时间和网格区域。
2.根据权利要求1所述的基于流量模式的网络异常检测方法,其特征在于,所述的S1中的所检测时间段为4周,且将4周的时间段被划分为672个时隙。
3.根据权利要求1所述的基于流量模式的网络异常检测方法,其特征在于,所述的S3中,所述的一定时间段优选1周。
4.根据权利要求1所述的基于流量模式的网络异常检测方法,其特征在于,所述的手机活动流量值包括语音、文本和数据流量值。
5.根据权利要求1所述的基于流量模式的网络异常检测方法,其特征在于,所述的S1中的聚类方法优选k-means聚类。
6.根据权利要求1所述的基于流量模式的网络异常检测方法,其特征在于,所述的S4中的聚类方法优选分层聚类。
CN202010379631.4A 2020-05-07 2020-05-07 一种基于流量模式的网络异常检测方法 Pending CN111556440A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010379631.4A CN111556440A (zh) 2020-05-07 2020-05-07 一种基于流量模式的网络异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010379631.4A CN111556440A (zh) 2020-05-07 2020-05-07 一种基于流量模式的网络异常检测方法

Publications (1)

Publication Number Publication Date
CN111556440A true CN111556440A (zh) 2020-08-18

Family

ID=72006078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010379631.4A Pending CN111556440A (zh) 2020-05-07 2020-05-07 一种基于流量模式的网络异常检测方法

Country Status (1)

Country Link
CN (1) CN111556440A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112073393A (zh) * 2020-08-27 2020-12-11 黄天红 基于云计算和用户行为分析的流量检测方法及大数据中心
CN113747441A (zh) * 2021-08-03 2021-12-03 西安交通大学 一种基于特征降维的移动网络流量异常检测方法及系统
CN117675506A (zh) * 2023-10-16 2024-03-08 北京智慧城市网络有限公司 一种基于用户行为分析的智能网络运维管理方法和系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101841435A (zh) * 2010-01-18 2010-09-22 中国科学院计算机网络信息中心 Dns查询流量异常的检测方法、装置和系统
US20130225189A1 (en) * 2012-02-29 2013-08-29 Korea Advanced Institute Of Science And Technology Apparatus and method for transmitting and receiving reference signal in wireless communication system
CN105376255A (zh) * 2015-12-08 2016-03-02 国网福建省电力有限公司 一种基于K-means聚类的Android平台入侵检测方法
US20160316029A1 (en) * 2013-12-31 2016-10-27 Tencent Technology (Shenzhen) Company Limited Distributed flow control
CN107528823A (zh) * 2017-07-03 2017-12-29 中山大学 一种基于改进的K‑Means聚类算法的网络异常检测方法
CN107683597A (zh) * 2015-06-04 2018-02-09 思科技术公司 用于异常检测的网络行为数据收集和分析
CN109067725A (zh) * 2018-07-24 2018-12-21 成都亚信网络安全产业技术研究院有限公司 网络流量异常检测方法及装置
CN109495327A (zh) * 2018-12-28 2019-03-19 西安交通大学 一种基于大数据分析的用户活动异常检测和流量预测方法
CN110493221A (zh) * 2019-08-19 2019-11-22 四川大学 一种基于聚簇轮廓的网络异常检测方法
CN110505630A (zh) * 2019-03-12 2019-11-26 杭州海康威视数字技术股份有限公司 无线网络入侵检测方法、装置及电子设备
CN111083710A (zh) * 2019-12-20 2020-04-28 大唐网络有限公司 一种用于5g系统的智慧组网方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101841435A (zh) * 2010-01-18 2010-09-22 中国科学院计算机网络信息中心 Dns查询流量异常的检测方法、装置和系统
US20130225189A1 (en) * 2012-02-29 2013-08-29 Korea Advanced Institute Of Science And Technology Apparatus and method for transmitting and receiving reference signal in wireless communication system
US20160316029A1 (en) * 2013-12-31 2016-10-27 Tencent Technology (Shenzhen) Company Limited Distributed flow control
CN107683597A (zh) * 2015-06-04 2018-02-09 思科技术公司 用于异常检测的网络行为数据收集和分析
CN105376255A (zh) * 2015-12-08 2016-03-02 国网福建省电力有限公司 一种基于K-means聚类的Android平台入侵检测方法
CN107528823A (zh) * 2017-07-03 2017-12-29 中山大学 一种基于改进的K‑Means聚类算法的网络异常检测方法
CN109067725A (zh) * 2018-07-24 2018-12-21 成都亚信网络安全产业技术研究院有限公司 网络流量异常检测方法及装置
CN109495327A (zh) * 2018-12-28 2019-03-19 西安交通大学 一种基于大数据分析的用户活动异常检测和流量预测方法
CN110505630A (zh) * 2019-03-12 2019-11-26 杭州海康威视数字技术股份有限公司 无线网络入侵检测方法、装置及电子设备
CN110493221A (zh) * 2019-08-19 2019-11-22 四川大学 一种基于聚簇轮廓的网络异常检测方法
CN111083710A (zh) * 2019-12-20 2020-04-28 大唐网络有限公司 一种用于5g系统的智慧组网方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
MATTHEW BAILEY等: "Intrusion Detection Using Clustering of Network Traffic Flows", 《2017 18TH IEEE/ACIS INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING, ARTIFICIAL INTELLIGENCE, NETWORKING AND PARALLEL/DISTRIBUTED COMPUTING (SNPD)》 *
QIQI ZHU等: "Big Data Driven Anomaly Detection for Cellular Networks", 《IEEE ACCESS》 *
ZONGXIN GAN等: "Abnormal Network Traffic Detection Based on Improved LOF Algorithm", 《2018 10TH INTERNATIONAL CONFERENCE ON INTELLIGENT HUMAN-MACHINE SYSTEMS AND CYBERNETICS》 *
刘妍: "基于人群移动大数据的城市结构画像和动态感知", 《中国优秀硕士学位论文全文数据库工程科技II辑》 *
张帅: "基于数据挖掘的异常流量分析与检测", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
张雁钦: "移动通信网流量数据分析及预测研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
马雪君: "大规模网络流量异常检测方法研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112073393A (zh) * 2020-08-27 2020-12-11 黄天红 基于云计算和用户行为分析的流量检测方法及大数据中心
CN113747441A (zh) * 2021-08-03 2021-12-03 西安交通大学 一种基于特征降维的移动网络流量异常检测方法及系统
CN117675506A (zh) * 2023-10-16 2024-03-08 北京智慧城市网络有限公司 一种基于用户行为分析的智能网络运维管理方法和系统

Similar Documents

Publication Publication Date Title
CN111556440A (zh) 一种基于流量模式的网络异常检测方法
CN109495920B (zh) 一种无线通信网络特征画像方法、设备和计算机程序产品
US20180260723A1 (en) Anomaly detection for context-dependent data
Yassin et al. Anomaly-based intrusion detection through k-means clustering and naives bayes classification
CN106714109B (zh) 基于众包数据的WiFi指纹库更新方法
EP1374486B1 (en) Method for configuring a network by defining clusters
US20210319375A1 (en) Churn prediction in a broadband network
CN105574547B (zh) 适应动态调整基分类器权重的集成学习方法及装置
CN111199016A (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
WO2018014674A1 (zh) 确定黑盒系统输入输出关联度的方法、装置以及系统
US9930494B2 (en) Leveraging location data from mobile devices for user classification
CN106332052B (zh) 基于移动通信终端的微区域治安预警方法
CN110825545A (zh) 一种云服务平台异常检测方法与系统
Bachir et al. Using mobile phone data analysis for the estimation of daily urban dynamics
CN110728322A (zh) 一种数据分类方法及相关设备
CN110796159A (zh) 基于k-means算法的电力数据分类方法及系统
US20190370704A1 (en) Crime analysis using domain level similarity
CN107290714B (zh) 一种基于多标识指纹定位的定位方法
CN111083710A (zh) 一种用于5g系统的智慧组网方法
US20050144148A1 (en) Clustering technique for cyclic phenomena
Oliveira et al. Measurement-driven mobile data traffic modeling in a large metropolitan area
CN109167673B (zh) 一种融合异常Qos数据检测的新型云服务筛选方法
CN114430530B (zh) 空间划分方法、装置、设备、介质和程序产品
Moysen et al. Big data-driven automated anomaly detection and performance forecasting in mobile networks
CN112100243B (zh) 一种基于海量时空数据分析的异常聚集检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200818

WD01 Invention patent application deemed withdrawn after publication