CN109495327A - 一种基于大数据分析的用户活动异常检测和流量预测方法 - Google Patents
一种基于大数据分析的用户活动异常检测和流量预测方法 Download PDFInfo
- Publication number
- CN109495327A CN109495327A CN201811627510.6A CN201811627510A CN109495327A CN 109495327 A CN109495327 A CN 109495327A CN 201811627510 A CN201811627510 A CN 201811627510A CN 109495327 A CN109495327 A CN 109495327A
- Authority
- CN
- China
- Prior art keywords
- estimation range
- big data
- abnormality detection
- user activity
- liveness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于大数据分析的用户活动异常检测和流量预测方法,包括以下步骤:1)获取待定异常区域的区域编号及时段信息;2)利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线确定预测区域中各时刻的流量活跃度异常值;3)以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后对预测区域时间序列的空缺值yi,t进行填补;4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测,该方法能够实现对预测区域的流量准确预测。
Description
技术领域
本发明属于移动无线网络技术领域,涉及一种基于大数据分析的用户活动异常检测和流量预测方法。
背景技术
在移动无线网络中,用户体验受无线覆盖、流量负载和基站配置等多种因素影响,用户体验可能会因网络条件的变化而波动。例如,某一热点区域数据流量需求突然增长不利于用户体验,在某些情况下可能最终导致服务中断。因此,用户活动的异常检测和流量预测对于移动无线网络资源的有效分配和调整至关重要。
目前,网络异常检测方法已有大量研究,基于已有工作,我们选择了基于聚类的异常检测方法。然而,我们工作区别于他们仅限于检测异常,我们增加历史大数据设定恒定阈值评估异常区域,考察已分配网络资源是否合理;并且我们加入区域流量预测,为下一步网络资源调整提供参考依据,提高资源的利用率。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于大数据分析的用户活动异常检测和流量预测方法,该方法能够实现对预测区域的流量准确预测。
为达到上述目的,本发明所述的基于大数据分析的用户活动异常检测和流量预测方法包括以下步骤:
1)利用机器学习技术对移动网络大数据CDR进行异常检测,以识别移动网络大数据CDR中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;
2)利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;
3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为以实现预测区域的时间序列中空缺值的填补;
4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测。
相邻两个区域i,j空间相似性的衡量sim(i,j)为:
根据流量预测特点改进分解模型对步骤4)得到的预测区域的时间序列进行流量预测。
改进后的分解模型为:
Si,t=Si,t,w+Si,t,d
其中,t以小时为单位,Ti,t为区域i的趋势函数,Ti,t用来表示时间序列中趋势的变化,Si,t代表周期性的变化,Ri,t为剩余项;Si,t,w为周数据,Si,t,d表示明天的数据,P和N为预设的常数。
剩余项Ri,t服从正态分布,即Ri,t=β*Ymax,Ymax代表历史数据中的最大值,β~Normal(0,1)。
本发明具有以下有益效果:
本发明所述的基于大数据分析的用户活动异常检测和流量预测方法在具体操作时,利用机器学习技术对移动网络大数据CDR进行异常检测,以确定待异常区域,再利用经验累积概率曲线确定待定异常区域各时刻的流量活跃度异常值,然后去除该异常值,并利用空间相似性原理对预测区域的时间序列中的空缺值进补缺,最后进行流量的预测,以达到更加合理的分配和网络资源的调整,提高资源的利用率,与已有的空缺值填补方案相比,本发明利用空间相似区域的值填补空缺值,使填补值更加接近真实值,提高区域流量预测的准确度。
附图说明
图1为本发明中聚类异常检测框架图;
图2为利用机器学习技术对移动网络大数据对进行异常检测时的示意图;
图3为选择待定异常区域5161进行分析得到的ECDF曲线图;
图4为本发明中空间相似区域划分得到的区域5160的相似区域示意图;
图5为使用均值填补空缺值和空间相似区域填补空缺值对预测准确度影响的对比图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
参考图1及图2,本发明所述的基于大数据分析的用户活动异常检测和流量预测方法包括以下步骤:
1)利用机器学习技术对移动网络大数据CDR进行异常检测,以识别移动网络大数据CDR中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;
2)对于某个区域某个时段的移动网络大数据CDR信息来说,与之较相似的是该地区该时段连续日期内的CDR信息,数据虽是无规律地波动,但在一个很小的正常波动范围内,把流量活跃度看作一组独立同分布的随机变量值,利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;
3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为以实现预测区域的时间序列中空缺值的填补;
4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测。
相邻两个区域i,j空间相似性的衡量sim(i,j)为:
根据流量预测特点改进分解模型对步骤4)得到的预测区域的时间序列进行流量预测,其中,改进后的分解模型为:
Si,t=Si,t,w+Si,t,d
其中,t以小时为单位,Ti,t为区域i的趋势函数,Ti,t用来表示时间序列中趋势的变化,Si,t代表周期性的变化,Ri,t为剩余项;Si,t,w为周数据,Si,t,d表示明天的数据,P和N为预设的常数,剩余项Ri,t服从正态分布,即Ri,t=β*Ymax,Ymax代表历史数据中的最大值,β~Normal(0,1)。
采用步骤4介绍的预测模型对区域5160流量进行预测,采用平均绝对百分比误差MAPE(Mean absolute percentage error)对预测结果进行分析,对比结果参考图5。
Claims (5)
1.一种基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,包括以下步骤:
1)利用机器学习技术对移动网络大数据CDR进行异常检测,以识别移动网络大数据CDR中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;
2)利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;
3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为以实现预测区域的时间序列中空缺值的填补;
4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测。
2.根据权利要求1所述的基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,相邻两个区域i,j空间相似性的衡量sim(i,j)为:
3.根据权利要求1所述的基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,根据流量预测特点改进分解模型对步骤4)得到的预测区域的时间序列进行流量预测。
4.根据权利要求3所述的基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,改进后的分解模型为:
Si,t=Si,t,w+Si,t,d
其中,t以小时为单位,Ti,t为区域i的趋势函数,Ti,t用来表示时间序列中趋势的变化,Si,t代表周期性的变化,Ri,t为剩余项;Si,t,w为周数据,Si,t,d表示明天的数据,P和N为预设的常数。
5.根据权利要求4所述的基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,剩余项Ri,t服从正态分布,即Ri,t=β*Ymax,Ymax代表历史数据中的最大值,β~Normal(0,1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811627510.6A CN109495327B (zh) | 2018-12-28 | 2018-12-28 | 一种基于大数据分析的用户活动异常检测和流量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811627510.6A CN109495327B (zh) | 2018-12-28 | 2018-12-28 | 一种基于大数据分析的用户活动异常检测和流量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109495327A true CN109495327A (zh) | 2019-03-19 |
CN109495327B CN109495327B (zh) | 2020-05-19 |
Family
ID=65713121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811627510.6A Active CN109495327B (zh) | 2018-12-28 | 2018-12-28 | 一种基于大数据分析的用户活动异常检测和流量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109495327B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110231447A (zh) * | 2019-06-10 | 2019-09-13 | 精锐视觉智能科技(深圳)有限公司 | 水质异常检测的方法、装置及终端设备 |
CN110400024A (zh) * | 2019-07-31 | 2019-11-01 | 京东城市(北京)数字科技有限公司 | 订单预测的方法、装置、设备和计算机可读存储介质 |
CN111556440A (zh) * | 2020-05-07 | 2020-08-18 | 之江实验室 | 一种基于流量模式的网络异常检测方法 |
CN111935766A (zh) * | 2020-09-15 | 2020-11-13 | 之江实验室 | 一种基于全局空间依赖性的无线网络流量预测方法 |
CN112788022A (zh) * | 2020-12-31 | 2021-05-11 | 山石网科通信技术股份有限公司 | 流量异常检测方法、装置、存储介质及处理器 |
CN115591742A (zh) * | 2022-09-30 | 2023-01-13 | 深圳芯光智能技术有限公司(Cn) | 一种点胶质量识别的点胶机自动控制方法及系统 |
RU2813245C1 (ru) * | 2019-09-18 | 2024-02-08 | Хартфорд Стим Бойлер Инспекшн Энд Иншуранс Компани | Компьютерные системы, вычислительные компоненты и вычислительные объекты, выполненные с возможностью реализации уменьшения обусловленного выбросовыми значениями динамического отклонения в моделях машинного обучения |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646332A (zh) * | 2011-02-21 | 2012-08-22 | 日电(中国)有限公司 | 基于数据融合的交通状态估计装置和方法 |
CN104217002A (zh) * | 2014-09-14 | 2014-12-17 | 北京航空航天大学 | 一种基于高质量数据获取的路况信息填补方法 |
KR20150069424A (ko) * | 2013-12-13 | 2015-06-23 | 건국대학교 산학협력단 | 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법 |
CN107979602A (zh) * | 2017-12-01 | 2018-05-01 | 西安交通大学 | 一种蜂窝网络中基于半监督统计的异常检测方法 |
-
2018
- 2018-12-28 CN CN201811627510.6A patent/CN109495327B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646332A (zh) * | 2011-02-21 | 2012-08-22 | 日电(中国)有限公司 | 基于数据融合的交通状态估计装置和方法 |
KR20150069424A (ko) * | 2013-12-13 | 2015-06-23 | 건국대학교 산학협력단 | 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법 |
CN104217002A (zh) * | 2014-09-14 | 2014-12-17 | 北京航空航天大学 | 一种基于高质量数据获取的路况信息填补方法 |
CN107979602A (zh) * | 2017-12-01 | 2018-05-01 | 西安交通大学 | 一种蜂窝网络中基于半监督统计的异常检测方法 |
Non-Patent Citations (1)
Title |
---|
HUALI XIAO等: "Passenger Travel Path Estimation Algorithm Based on High Accuracy Location Data", 《2017 FIFTH INTERNATIONAL CONFERENCE ON ADVANCED CLOUD AND BIG DATA,IEEE》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110231447A (zh) * | 2019-06-10 | 2019-09-13 | 精锐视觉智能科技(深圳)有限公司 | 水质异常检测的方法、装置及终端设备 |
CN110400024A (zh) * | 2019-07-31 | 2019-11-01 | 京东城市(北京)数字科技有限公司 | 订单预测的方法、装置、设备和计算机可读存储介质 |
RU2813245C1 (ru) * | 2019-09-18 | 2024-02-08 | Хартфорд Стим Бойлер Инспекшн Энд Иншуранс Компани | Компьютерные системы, вычислительные компоненты и вычислительные объекты, выполненные с возможностью реализации уменьшения обусловленного выбросовыми значениями динамического отклонения в моделях машинного обучения |
CN111556440A (zh) * | 2020-05-07 | 2020-08-18 | 之江实验室 | 一种基于流量模式的网络异常检测方法 |
CN111935766A (zh) * | 2020-09-15 | 2020-11-13 | 之江实验室 | 一种基于全局空间依赖性的无线网络流量预测方法 |
CN112788022A (zh) * | 2020-12-31 | 2021-05-11 | 山石网科通信技术股份有限公司 | 流量异常检测方法、装置、存储介质及处理器 |
CN112788022B (zh) * | 2020-12-31 | 2022-12-09 | 山石网科通信技术股份有限公司 | 流量异常检测方法、装置、存储介质及处理器 |
CN115591742A (zh) * | 2022-09-30 | 2023-01-13 | 深圳芯光智能技术有限公司(Cn) | 一种点胶质量识别的点胶机自动控制方法及系统 |
CN115591742B (zh) * | 2022-09-30 | 2023-09-12 | 深圳芯光智能技术有限公司 | 一种点胶质量识别的点胶机自动控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109495327B (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109495327A (zh) | 一种基于大数据分析的用户活动异常检测和流量预测方法 | |
He et al. | Customer preference and station network in the London bike-share system | |
US20170280299A1 (en) | Device localization based on a learning model | |
Aman et al. | Prediction models for dynamic demand response: Requirements, challenges, and insights | |
Simmhan et al. | Scalable prediction of energy consumption using incremental time series clustering | |
CN106980874B (zh) | 一种面向配网大数据的多时态维度数据融合方法 | |
CN104991924A (zh) | 用于确定新供应点的地址的方法和装置 | |
CN104572391A (zh) | 监控告警策略配置方法及装置、监控告警方法及装置 | |
CN105556554A (zh) | 多个设备相关性 | |
CN103068035A (zh) | 一种无线网络定位方法、装置及系统 | |
CN102855634A (zh) | 一种图像检测方法及装置 | |
CN102377494A (zh) | 频谱感知方法、装置及系统 | |
CN103581982B (zh) | 一种业务热点的检测方法、确定方法、定位方法及装置 | |
JP7486659B2 (ja) | 基地局の省エネルギー処理方法及び処理装置 | |
CN105912690A (zh) | 基于分组朴素贝叶斯模型的多因子在线预测方法及系统 | |
CN103699771A (zh) | 一种冷负荷预测的情景-聚类方法 | |
CN104010029B (zh) | 基于横向纵向信息集成的分布式计算环境性能预测方法 | |
Zha et al. | Selection of time window for wind power ramp prediction based on risk model | |
Song et al. | An enhanced clustering-based method for determining time-of-day breakpoints through process optimization | |
CN103957537A (zh) | 基于信道聚类的频谱感知方法及装置 | |
CN110941649A (zh) | 一种物流信息处理方法、装置、设备及计算机存储介质 | |
JP6010059B2 (ja) | 設備メンテナンス負担評価方法および装置 | |
CN110913407A (zh) | 重叠覆盖的分析方法及装置 | |
CN106528559A (zh) | 一种位置信息的提供方法和设备 | |
US20180018395A1 (en) | Landmark recommendation method and non-transitory computer-readable storage medium integrated with life behavior analysis and social network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |