CN109495327A - 一种基于大数据分析的用户活动异常检测和流量预测方法 - Google Patents

一种基于大数据分析的用户活动异常检测和流量预测方法 Download PDF

Info

Publication number
CN109495327A
CN109495327A CN201811627510.6A CN201811627510A CN109495327A CN 109495327 A CN109495327 A CN 109495327A CN 201811627510 A CN201811627510 A CN 201811627510A CN 109495327 A CN109495327 A CN 109495327A
Authority
CN
China
Prior art keywords
estimation range
big data
abnormality detection
user activity
liveness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811627510.6A
Other languages
English (en)
Other versions
CN109495327B (zh
Inventor
孙黎
朱奇奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201811627510.6A priority Critical patent/CN109495327B/zh
Publication of CN109495327A publication Critical patent/CN109495327A/zh
Application granted granted Critical
Publication of CN109495327B publication Critical patent/CN109495327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于大数据分析的用户活动异常检测和流量预测方法,包括以下步骤:1)获取待定异常区域的区域编号及时段信息;2)利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线确定预测区域中各时刻的流量活跃度异常值;3)以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后对预测区域时间序列的空缺值yi,t进行填补;4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测,该方法能够实现对预测区域的流量准确预测。

Description

一种基于大数据分析的用户活动异常检测和流量预测方法
技术领域
本发明属于移动无线网络技术领域,涉及一种基于大数据分析的用户活动异常检测和流量预测方法。
背景技术
在移动无线网络中,用户体验受无线覆盖、流量负载和基站配置等多种因素影响,用户体验可能会因网络条件的变化而波动。例如,某一热点区域数据流量需求突然增长不利于用户体验,在某些情况下可能最终导致服务中断。因此,用户活动的异常检测和流量预测对于移动无线网络资源的有效分配和调整至关重要。
目前,网络异常检测方法已有大量研究,基于已有工作,我们选择了基于聚类的异常检测方法。然而,我们工作区别于他们仅限于检测异常,我们增加历史大数据设定恒定阈值评估异常区域,考察已分配网络资源是否合理;并且我们加入区域流量预测,为下一步网络资源调整提供参考依据,提高资源的利用率。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于大数据分析的用户活动异常检测和流量预测方法,该方法能够实现对预测区域的流量准确预测。
为达到上述目的,本发明所述的基于大数据分析的用户活动异常检测和流量预测方法包括以下步骤:
1)利用机器学习技术对移动网络大数据CDR进行异常检测,以识别移动网络大数据CDR中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;
2)利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;
3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为以实现预测区域的时间序列中空缺值的填补;
4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测。
相邻两个区域i,j空间相似性的衡量sim(i,j)为:
根据流量预测特点改进分解模型对步骤4)得到的预测区域的时间序列进行流量预测。
改进后的分解模型为:
Si,t=Si,t,w+Si,t,d
其中,t以小时为单位,Ti,t为区域i的趋势函数,Ti,t用来表示时间序列中趋势的变化,Si,t代表周期性的变化,Ri,t为剩余项;Si,t,w为周数据,Si,t,d表示明天的数据,P和N为预设的常数。
剩余项Ri,t服从正态分布,即Ri,t=β*Ymax,Ymax代表历史数据中的最大值,β~Normal(0,1)。
本发明具有以下有益效果:
本发明所述的基于大数据分析的用户活动异常检测和流量预测方法在具体操作时,利用机器学习技术对移动网络大数据CDR进行异常检测,以确定待异常区域,再利用经验累积概率曲线确定待定异常区域各时刻的流量活跃度异常值,然后去除该异常值,并利用空间相似性原理对预测区域的时间序列中的空缺值进补缺,最后进行流量的预测,以达到更加合理的分配和网络资源的调整,提高资源的利用率,与已有的空缺值填补方案相比,本发明利用空间相似区域的值填补空缺值,使填补值更加接近真实值,提高区域流量预测的准确度。
附图说明
图1为本发明中聚类异常检测框架图;
图2为利用机器学习技术对移动网络大数据对进行异常检测时的示意图;
图3为选择待定异常区域5161进行分析得到的ECDF曲线图;
图4为本发明中空间相似区域划分得到的区域5160的相似区域示意图;
图5为使用均值填补空缺值和空间相似区域填补空缺值对预测准确度影响的对比图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
参考图1及图2,本发明所述的基于大数据分析的用户活动异常检测和流量预测方法包括以下步骤:
1)利用机器学习技术对移动网络大数据CDR进行异常检测,以识别移动网络大数据CDR中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;
2)对于某个区域某个时段的移动网络大数据CDR信息来说,与之较相似的是该地区该时段连续日期内的CDR信息,数据虽是无规律地波动,但在一个很小的正常波动范围内,把流量活跃度看作一组独立同分布的随机变量值,利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;
3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为以实现预测区域的时间序列中空缺值的填补;
4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测。
相邻两个区域i,j空间相似性的衡量sim(i,j)为:
根据流量预测特点改进分解模型对步骤4)得到的预测区域的时间序列进行流量预测,其中,改进后的分解模型为:
Si,t=Si,t,w+Si,t,d
其中,t以小时为单位,Ti,t为区域i的趋势函数,Ti,t用来表示时间序列中趋势的变化,Si,t代表周期性的变化,Ri,t为剩余项;Si,t,w为周数据,Si,t,d表示明天的数据,P和N为预设的常数,剩余项Ri,t服从正态分布,即Ri,t=β*Ymax,Ymax代表历史数据中的最大值,β~Normal(0,1)。
采用步骤4介绍的预测模型对区域5160流量进行预测,采用平均绝对百分比误差MAPE(Mean absolute percentage error)对预测结果进行分析,对比结果参考图5。

Claims (5)

1.一种基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,包括以下步骤:
1)利用机器学习技术对移动网络大数据CDR进行异常检测,以识别移动网络大数据CDR中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;
2)利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;
3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为以实现预测区域的时间序列中空缺值的填补;
4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测。
2.根据权利要求1所述的基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,相邻两个区域i,j空间相似性的衡量sim(i,j)为:
3.根据权利要求1所述的基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,根据流量预测特点改进分解模型对步骤4)得到的预测区域的时间序列进行流量预测。
4.根据权利要求3所述的基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,改进后的分解模型为:
Si,t=Si,t,w+Si,t,d
其中,t以小时为单位,Ti,t为区域i的趋势函数,Ti,t用来表示时间序列中趋势的变化,Si,t代表周期性的变化,Ri,t为剩余项;Si,t,w为周数据,Si,t,d表示明天的数据,P和N为预设的常数。
5.根据权利要求4所述的基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,剩余项Ri,t服从正态分布,即Ri,t=β*Ymax,Ymax代表历史数据中的最大值,β~Normal(0,1)。
CN201811627510.6A 2018-12-28 2018-12-28 一种基于大数据分析的用户活动异常检测和流量预测方法 Active CN109495327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811627510.6A CN109495327B (zh) 2018-12-28 2018-12-28 一种基于大数据分析的用户活动异常检测和流量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811627510.6A CN109495327B (zh) 2018-12-28 2018-12-28 一种基于大数据分析的用户活动异常检测和流量预测方法

Publications (2)

Publication Number Publication Date
CN109495327A true CN109495327A (zh) 2019-03-19
CN109495327B CN109495327B (zh) 2020-05-19

Family

ID=65713121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811627510.6A Active CN109495327B (zh) 2018-12-28 2018-12-28 一种基于大数据分析的用户活动异常检测和流量预测方法

Country Status (1)

Country Link
CN (1) CN109495327B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110231447A (zh) * 2019-06-10 2019-09-13 精锐视觉智能科技(深圳)有限公司 水质异常检测的方法、装置及终端设备
CN110400024A (zh) * 2019-07-31 2019-11-01 京东城市(北京)数字科技有限公司 订单预测的方法、装置、设备和计算机可读存储介质
CN111556440A (zh) * 2020-05-07 2020-08-18 之江实验室 一种基于流量模式的网络异常检测方法
CN111935766A (zh) * 2020-09-15 2020-11-13 之江实验室 一种基于全局空间依赖性的无线网络流量预测方法
CN112788022A (zh) * 2020-12-31 2021-05-11 山石网科通信技术股份有限公司 流量异常检测方法、装置、存储介质及处理器
CN115591742A (zh) * 2022-09-30 2023-01-13 深圳芯光智能技术有限公司(Cn) 一种点胶质量识别的点胶机自动控制方法及系统
RU2813245C1 (ru) * 2019-09-18 2024-02-08 Хартфорд Стим Бойлер Инспекшн Энд Иншуранс Компани Компьютерные системы, вычислительные компоненты и вычислительные объекты, выполненные с возможностью реализации уменьшения обусловленного выбросовыми значениями динамического отклонения в моделях машинного обучения

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646332A (zh) * 2011-02-21 2012-08-22 日电(中国)有限公司 基于数据融合的交通状态估计装置和方法
CN104217002A (zh) * 2014-09-14 2014-12-17 北京航空航天大学 一种基于高质量数据获取的路况信息填补方法
KR20150069424A (ko) * 2013-12-13 2015-06-23 건국대학교 산학협력단 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법
CN107979602A (zh) * 2017-12-01 2018-05-01 西安交通大学 一种蜂窝网络中基于半监督统计的异常检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646332A (zh) * 2011-02-21 2012-08-22 日电(中国)有限公司 基于数据融合的交通状态估计装置和方法
KR20150069424A (ko) * 2013-12-13 2015-06-23 건국대학교 산학협력단 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법
CN104217002A (zh) * 2014-09-14 2014-12-17 北京航空航天大学 一种基于高质量数据获取的路况信息填补方法
CN107979602A (zh) * 2017-12-01 2018-05-01 西安交通大学 一种蜂窝网络中基于半监督统计的异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HUALI XIAO等: "Passenger Travel Path Estimation Algorithm Based on High Accuracy Location Data", 《2017 FIFTH INTERNATIONAL CONFERENCE ON ADVANCED CLOUD AND BIG DATA,IEEE》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110231447A (zh) * 2019-06-10 2019-09-13 精锐视觉智能科技(深圳)有限公司 水质异常检测的方法、装置及终端设备
CN110400024A (zh) * 2019-07-31 2019-11-01 京东城市(北京)数字科技有限公司 订单预测的方法、装置、设备和计算机可读存储介质
RU2813245C1 (ru) * 2019-09-18 2024-02-08 Хартфорд Стим Бойлер Инспекшн Энд Иншуранс Компани Компьютерные системы, вычислительные компоненты и вычислительные объекты, выполненные с возможностью реализации уменьшения обусловленного выбросовыми значениями динамического отклонения в моделях машинного обучения
CN111556440A (zh) * 2020-05-07 2020-08-18 之江实验室 一种基于流量模式的网络异常检测方法
CN111935766A (zh) * 2020-09-15 2020-11-13 之江实验室 一种基于全局空间依赖性的无线网络流量预测方法
CN112788022A (zh) * 2020-12-31 2021-05-11 山石网科通信技术股份有限公司 流量异常检测方法、装置、存储介质及处理器
CN112788022B (zh) * 2020-12-31 2022-12-09 山石网科通信技术股份有限公司 流量异常检测方法、装置、存储介质及处理器
CN115591742A (zh) * 2022-09-30 2023-01-13 深圳芯光智能技术有限公司(Cn) 一种点胶质量识别的点胶机自动控制方法及系统
CN115591742B (zh) * 2022-09-30 2023-09-12 深圳芯光智能技术有限公司 一种点胶质量识别的点胶机自动控制方法及系统

Also Published As

Publication number Publication date
CN109495327B (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN109495327A (zh) 一种基于大数据分析的用户活动异常检测和流量预测方法
He et al. Customer preference and station network in the London bike-share system
US20170280299A1 (en) Device localization based on a learning model
Aman et al. Prediction models for dynamic demand response: Requirements, challenges, and insights
Simmhan et al. Scalable prediction of energy consumption using incremental time series clustering
CN106980874B (zh) 一种面向配网大数据的多时态维度数据融合方法
CN104991924A (zh) 用于确定新供应点的地址的方法和装置
CN104572391A (zh) 监控告警策略配置方法及装置、监控告警方法及装置
CN105556554A (zh) 多个设备相关性
CN103068035A (zh) 一种无线网络定位方法、装置及系统
CN102855634A (zh) 一种图像检测方法及装置
CN102377494A (zh) 频谱感知方法、装置及系统
CN103581982B (zh) 一种业务热点的检测方法、确定方法、定位方法及装置
JP7486659B2 (ja) 基地局の省エネルギー処理方法及び処理装置
CN105912690A (zh) 基于分组朴素贝叶斯模型的多因子在线预测方法及系统
CN103699771A (zh) 一种冷负荷预测的情景-聚类方法
CN104010029B (zh) 基于横向纵向信息集成的分布式计算环境性能预测方法
Zha et al. Selection of time window for wind power ramp prediction based on risk model
Song et al. An enhanced clustering-based method for determining time-of-day breakpoints through process optimization
CN103957537A (zh) 基于信道聚类的频谱感知方法及装置
CN110941649A (zh) 一种物流信息处理方法、装置、设备及计算机存储介质
JP6010059B2 (ja) 設備メンテナンス負担評価方法および装置
CN110913407A (zh) 重叠覆盖的分析方法及装置
CN106528559A (zh) 一种位置信息的提供方法和设备
US20180018395A1 (en) Landmark recommendation method and non-transitory computer-readable storage medium integrated with life behavior analysis and social network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant