CN102457878A - 一种在关键业务预测中剔除异常数据的方法和装置 - Google Patents

一种在关键业务预测中剔除异常数据的方法和装置 Download PDF

Info

Publication number
CN102457878A
CN102457878A CN2010105173371A CN201010517337A CN102457878A CN 102457878 A CN102457878 A CN 102457878A CN 2010105173371 A CN2010105173371 A CN 2010105173371A CN 201010517337 A CN201010517337 A CN 201010517337A CN 102457878 A CN102457878 A CN 102457878A
Authority
CN
China
Prior art keywords
data
deal
business
prediction
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105173371A
Other languages
English (en)
Other versions
CN102457878B (zh
Inventor
杨名
苏伟杰
刘三苏
郑水华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Sichuan Co Ltd
Original Assignee
China Mobile Group Sichuan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Sichuan Co Ltd filed Critical China Mobile Group Sichuan Co Ltd
Priority to CN201010517337.1A priority Critical patent/CN102457878B/zh
Publication of CN102457878A publication Critical patent/CN102457878A/zh
Application granted granted Critical
Publication of CN102457878B publication Critical patent/CN102457878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

一种在关键业务预测中剔除异常数据的方法,该方法包括:确定业务支撑系统中历史业务数据的可信区间,由可信区间剔除不正常历史业务数据后得到处理数据;利用所述处理数据形成拟合曲线;根据所述拟合曲线计算所述处理数据的离散度,依据阈值在所述处理数据中剔除非严重历史业务数据,根据得到可信数据预测关键业务的趋势。本文还公开了一种在关键业务预测中剔除异常数据的装置。应用本发明实施例以后,能够精确剔除异常数据,进而提高关键业务的预测精度。

Description

一种在关键业务预测中剔除异常数据的方法和装置
技术领域
本发明涉及数据处理技术领域,更具体地,涉及一种在关键业务预测中剔除异常数据的方法和装置。
背景技术
为了适应多变的市场需求,移动公司业务支撑系统经常面临频繁业务变更的挑战。在移动公司业务支撑系统中每周都有新的业务模块上线或旧的业务模块变更,再加上难以预测变化的市场业务量,很难把握关键业务对业务支撑系统的冲击。关键业务对业务支撑系统的冲击常常造成业务支撑系统稳定性差、业务支撑系统被迫频繁硬件升级等诸多问题,进而直接影响到客户的满意度。因此,对关键业务的预测就成为业务支撑系统运营维护部门所关心的问题。
试图通过对历史业务数据的分析,找到预测关键业务趋势的方法,但预测的准确度一直不佳。原因在于IT系统中各种不确定因素,比如:某个特殊点的业务高峰、系统故障、系统封网、资源的不合理使用、定期停机检测等原因,上述这些原因都会导致出现异常数据,而这些异常数据对于预测关键业务趋势的准确性造成不良影响。
目前业界处理异常数据的方法很简单,即根据经验设下限值与上限值。在上限值与下限值之外的历史业务数据均作为异常数据剔除。按照这种方法分析出的趋势,往往与关键业务真实趋势相去甚远,不能适应当前复杂、多变的业务支撑系统。
发明内容
本发明实施例提出一种在关键业务预测中剔除异常数据的方法,能够精确剔除异常数据,从而提高关键业务的预测精度。
本发明实施例还提出一种在关键业务预测中剔除异常数据的装置,能够精确剔除异常数据,从而提高关键业务的预测精度。
本发明实施例的技术方案如下:
一种在关键业务预测中剔除异常数据的方法,该方法包括:
确定业务支撑系统中历史业务数据的可信区间,由可信区间剔除不正常历史业务数据后得到处理数据;
利用所述处理数据形成拟合曲线;
根据所述拟合曲线计算所述处理数据的离散度,依据阈值在所述处理数据中剔除非严重历史业务数据,根据得到可信数据预测关键业务的趋势。
所述确定业务支撑系统中历史业务的可信区间包括,所述可信区间的上限值
Figure BSA00000316027900021
共n个待处理数据;所述可信区间的下限值
所述由所述处理数据形成拟合曲线包括,利用所述处理数据以最小二乘法形成拟合曲线。
所述根据所述拟合曲线计算所述处理数据的离散度包括,所述处理数据与所述拟合曲线的距离等于离散度。
所述阈值M=[H*(N-1)]/N,H是所述处理数据对应的最大离散度,N是预先设定的调整参数。
一种在关键业务预测中剔除异常数据的装置,所述装置包括,处理模块、计算模块和控制模块,
处理模块,用于确定业务支撑系统中历史业务数据的可信区间,由可信区间剔除不正常历史业务数据后得到处理数据;
计算模块,用于利用所述处理数据形成拟合曲线;
控制模块,根据所述拟合曲线计算所述处理数据的离散度,依据阈值在所述处理数据中剔除非严重历史业务数据,得到可信数据,根据得到可信数据预测关键业务的趋势。
所述处理包括计算单元和处理单元,
计算单元,用于确定业务支撑系统中历史业务数据的可信区间;
处理单元,用于根据可信区间剔除不正常历史业务数据后得到处理数据。
所述控制模块包括数据单元和控制单元,
数据单元,用于根据所述拟合曲线计算所述处理数据的离散度;
控制单元,用于依据所述处理数据的最大离散度计算阈值,并在所述处理数据中剔除非严重历史业务数据,得到可信数据,根据得到可信数据预测关键业务的趋势。
从上述技术方案中可以看出,在本发明实施例中,先确定业务支撑系统中历史业务数据的可信区间,对历史业务数据进行初步处理,由可信区间剔除不正常历史业务数据后得到处理数据。针对所述处理数据形成拟合曲线,由所述拟合曲线计算所述处理数据的离散度,依据阈值剔除非严重历史业务数据,根据得到可信数据预测关键业务的趋势。通过两次精确剔除异常历史业务数据,从而提高关键业务的预测精度。
附图说明
图1为本发明实施例在关键业务预测中剔除异常数据的方法流程示意图;
图2为本发明实施例在关键业务预测中剔除异常数据的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
在本发明实施例中,确定业务支撑系统中历史业务数据的可信区间,剔除在可信区间外的历史业务数据,获得处理数据。由处理数据形成其对应的拟合曲线,再计算每个处理数据的离散度,若该处理数据的离散度大于阈值,则剔除该处理数据,最后得到可信数据;最后根据得到可信数据预测关键业务的趋势。根据待处理数据的具体情况,分两次剔除异常数据,第一次剔除不正常历史业务数据,第二次剔除非严重历史业务数据。通过两次精确剔除异常数据,从而提高关键业务的预测精度。不正常历史业务数据是系统出现严重故障或严重性能问题时的数据。非严重历史业务数据是性能慢,资源竞争等时刻的数据。
参见附图1是在关键业务预测中剔除异常数据的方法流程示意图,具体包括:
步骤101、计算可信区间。
从业务支撑系统中历史业务数据,大部分都处于比较稳定的范围之内,但会出现特别大和特殊小的数据。以缴费业务压力趋势预测历史业务数据为例,当业务支撑系统出现性能问题,造成业务积压时,从该系统内得到的历史业务数据会比正常情况小许多。这些较小的数据是由于该系统性能异常导致,所以上述较小的历史业务数据是不适用于缴费业务压力的预测,所以需要剔除上述异常数据。
首先计算两个边界值即上限值和下限值,该区间为可信区间,在该区间内的数据为可信数据。在可信区间以外的数据为不正常历史业务数据。
需要根据所有历史业务数据计算可信区间。可信区间的上限值X1,下限值X2
可信区间的上限值xi是待处理数据,共n个待处理数据,
可信区间的下限值
计算出可信区间范围X1-X2
通过计算上限值和下限值得到可信区间,可以剔除业务支撑系统中出现严重故障或严重性能问题时的不正常历史业务数据,得到处理数据。
步骤102、拟合曲线。
根据可信区间内的处理数据以最小二乘曲线进行曲线拟合,形成拟合曲线。
以缴费业务压力趋势预测历史业务数据为例:根据每个月的历史业务数据,得到一组离散点,而确定逼近原函数。
R 2 = Σ i = 0 n [ g ( x i ) - f ( x i ) ] , g(x)∈Φ,设
其中
Figure BSA00000316027900054
代表离散点,根据一组离散点获得与该组离散点最近的曲线,即取R2的最小值。进而得到一组离散点的拟合曲线f(x)。
拟合曲线时,系统会自动尝试各种曲线类型。在绘制拟合曲线之后,系统会计算各采样点到不同曲线的距离。由各采样点到曲线距离的加权平均值衡量曲线的适合度。距离加权平均值最小的曲线,系统自动认为是最佳拟合曲线。进而可以得出可信区间内,历史业务数据的拟合曲线。
步骤103、计算离散度。
计算可信区间内处理数据距离拟合曲线的离散度,并根据阈值剔除离散度大的数据。比如分析缴费业务压力数据可信区间内的历史业务数据,计算出处理数据的拟合曲线,剔除相对拟合曲线离散度过大的历史业务数据,剩余的处理数据就是可信数据。
处理数据的离散度等于处理数据与处理数据对应拟合曲线的距离。即将处理数据的横坐标带入拟合曲线得到处理数据对应的拟合值,处理数据与该拟合值差的绝对值即处理数据的离散度。
根据阈值剔除非严重历史业务数据。阈值M由下述公式确定:M=[H*(N-1)]/N,H是处理数据对应的最大离散度,N是预先设定的调整参数。在步骤101中剔除了系统发生严重故障时的历史业务数据。在本步骤中剔除了系统出现非严重问题时(例如性能慢、资源竞争)的历史业务数据,剩余的历史业务数据是系统正常工作的历史业务数据即可信数据。
由可信数据代入预测模型算法中,即可得出准确度极高的关键业务的趋势。
参见附图2是本发明实施例在关键业务预测中剔除异常数据的装置结构示意图,包括:处理模块201、计算模块202和控制模块203。
处理模块201包括计算单元2011和处理单元2012,
计算单元2011,用于确定业务支撑系统中历史业务数据的可信区间。
处理单元2012,用于根据可信区间剔除不正常历史业务数据后得到处理数据。
计算模块202,用于由所述处理数据形成拟合曲线;
控制模块203包括数据单元2031和控制单元2032,
数据单元2031,用于根据所述拟合曲线计算所述处理数据的离散度;
控制单元2032,用于依据所述处理数据的最大离散度计算阈值,并剔除非严重历史业务数据,得到可信数据,根据得到可信数据预测关键业务的趋势。
采用本发明的技术方案,首先计算生成可信区间。比如对缴费业务在业务高峰时压力的历史业务数据和业务平时运行历史业务数据进行综合分析,综合形成可信区间值。可信区间以外的历史业务数据作为业务运行的非正常数据剔除。然后对可信区间内的数据利用最小二乘法进行曲线拟合,计算可信区内的历史业务数据的离散度,剔除非严重历史业务数据。经过两次剔除后剩余的数据,就是可信数据,即可得出准确度极高的关键业务的趋势。。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种在关键业务预测中剔除异常数据的方法,其特征在于,该方法包括:
确定业务支撑系统中历史业务数据的可信区间,由可信区间剔除不正常历史业务数据后得到处理数据;
利用所述处理数据形成拟合曲线;
根据所述拟合曲线计算所述处理数据的离散度,依据阈值在所述处理数据中剔除非严重历史业务数据,根据得到可信数据预测关键业务的趋势。
2.根据权利要求1所述在关键业务预测中剔除异常数据的方法,其特征在于,所述确定业务支撑系统中历史业务的可信区间包括,所述可信区间的上限值
Figure FSA00000316027800011
共n个待处理数据;所述可信区间的下限值
Figure FSA00000316027800012
3.根据权利要求1所述在关键业务预测中剔除异常数据的方法,其特征在于,所述由所述处理数据形成拟合曲线包括,利用所述处理数据以最小二乘法形成拟合曲线。
4.根据权利要求1所述在关键业务预测中剔除异常数据的方法,其特征在于,所述根据所述拟合曲线计算所述处理数据的离散度包括,所述处理数据与所述拟合曲线的距离等于离散度。
5.根据权利要求1所述在关键业务预测中剔除异常数据的方法,其特征在于,所述阈值M=[H*(N-1)]/N,H是所述处理数据对应的最大离散度,N是预先设定的调整参数。
6.一种在关键业务预测中剔除异常数据的装置,其特征在于,所述装置包括,处理模块、计算模块和控制模块,
处理模块,用于确定业务支撑系统中历史业务数据的可信区间,由可信区间剔除不正常历史业务数据后得到处理数据;
计算模块,用于利用所述处理数据形成拟合曲线;
控制模块,根据所述拟合曲线计算所述处理数据的离散度,依据阈值在所述处理数据中剔除非严重历史业务数据,得到可信数据,根据得到可信数据预测关键业务的趋势。
7.根据权利要求6所述在关键业务预测中剔除异常数据的装置,其特征在于,所述处理包括计算单元和处理单元,
计算单元,用于确定业务支撑系统中历史业务数据的可信区间;
处理单元,用于根据可信区间剔除不正常历史业务数据后得到处理数据。
8.根据权利要求6所述在关键业务预测中剔除异常数据的装置,其特征在于,所述控制模块包括数据单元和控制单元,
数据单元,用于根据所述拟合曲线计算所述处理数据的离散度;
控制单元,用于依据所述处理数据的最大离散度计算阈值,并在所述处理数据中剔除非严重历史业务数据,得到可信数据,根据得到可信数据预测关键业务的趋势。
CN201010517337.1A 2010-10-18 2010-10-18 一种在关键业务预测中剔除异常数据的方法和装置 Active CN102457878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010517337.1A CN102457878B (zh) 2010-10-18 2010-10-18 一种在关键业务预测中剔除异常数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010517337.1A CN102457878B (zh) 2010-10-18 2010-10-18 一种在关键业务预测中剔除异常数据的方法和装置

Publications (2)

Publication Number Publication Date
CN102457878A true CN102457878A (zh) 2012-05-16
CN102457878B CN102457878B (zh) 2014-06-04

Family

ID=46040414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010517337.1A Active CN102457878B (zh) 2010-10-18 2010-10-18 一种在关键业务预测中剔除异常数据的方法和装置

Country Status (1)

Country Link
CN (1) CN102457878B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902798A (zh) * 2012-12-27 2014-07-02 纽海信息技术(上海)有限公司 数据预处理方法
CN105426978A (zh) * 2014-09-04 2016-03-23 中兴通讯股份有限公司 一种业务并发性预测方法与预测系统
CN108089938A (zh) * 2018-01-08 2018-05-29 湖南盈峰国创智能科技有限公司 异常数据处理方法及装置
CN111130932A (zh) * 2019-12-18 2020-05-08 北京浩瀚深度信息技术股份有限公司 一种基于历史流量预测流量趋势的方法、装置及存储介质
CN112241751A (zh) * 2019-07-18 2021-01-19 中移(苏州)软件技术有限公司 一种异常检测方法和系统,及计算机可读存储介质
CN117609703A (zh) * 2024-01-18 2024-02-27 中国人民解放军火箭军工程大学 融合多源异构信息的复杂设备健康管理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447803A (zh) * 2007-11-27 2009-06-03 北京六合万通微电子技术股份有限公司 一种eoc系统终端接收机信号强度估测方法
CN101541030A (zh) * 2009-05-06 2009-09-23 华为技术有限公司 基于支持向量机的数据预测方法和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447803A (zh) * 2007-11-27 2009-06-03 北京六合万通微电子技术股份有限公司 一种eoc系统终端接收机信号强度估测方法
CN101541030A (zh) * 2009-05-06 2009-09-23 华为技术有限公司 基于支持向量机的数据预测方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曾接贤,张桂梅等: "霍夫变换在指数函数型曲线检测中的应用", 《中国图象图形学报》 *
林洪桦: "剔除异常数据的稳健性处理方法", 《中国计量学院学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902798A (zh) * 2012-12-27 2014-07-02 纽海信息技术(上海)有限公司 数据预处理方法
CN103902798B (zh) * 2012-12-27 2018-02-13 北京京东尚科信息技术有限公司 数据预处理方法
CN105426978A (zh) * 2014-09-04 2016-03-23 中兴通讯股份有限公司 一种业务并发性预测方法与预测系统
CN108089938A (zh) * 2018-01-08 2018-05-29 湖南盈峰国创智能科技有限公司 异常数据处理方法及装置
CN108089938B (zh) * 2018-01-08 2021-04-09 湖南盈峰国创智能科技有限公司 异常数据处理方法及装置
CN112241751A (zh) * 2019-07-18 2021-01-19 中移(苏州)软件技术有限公司 一种异常检测方法和系统,及计算机可读存储介质
CN112241751B (zh) * 2019-07-18 2022-12-13 中移(苏州)软件技术有限公司 一种异常检测方法和系统,及计算机可读存储介质
CN111130932A (zh) * 2019-12-18 2020-05-08 北京浩瀚深度信息技术股份有限公司 一种基于历史流量预测流量趋势的方法、装置及存储介质
CN111130932B (zh) * 2019-12-18 2021-10-19 北京浩瀚深度信息技术股份有限公司 一种基于历史流量预测流量趋势的方法、装置及存储介质
CN117609703A (zh) * 2024-01-18 2024-02-27 中国人民解放军火箭军工程大学 融合多源异构信息的复杂设备健康管理方法及系统
CN117609703B (zh) * 2024-01-18 2024-04-26 中国人民解放军火箭军工程大学 融合多源异构信息的复杂设备健康管理方法及系统

Also Published As

Publication number Publication date
CN102457878B (zh) 2014-06-04

Similar Documents

Publication Publication Date Title
CN102457878B (zh) 一种在关键业务预测中剔除异常数据的方法和装置
CN106909487B (zh) 应用于信息系统的预警方法及装置
WO2019179223A1 (zh) 交易量的预测方法及装置
CN102082703A (zh) 业务支撑系统设备性能监控的方法及装置
CN109035021B (zh) 一种交易指标的监控方法、装置及设备
EP4296514A1 (en) Method, device and medium for controlling air compressor in air compression station
US10968402B1 (en) Method and system for the control of water concentration in crude oil entering the dehydrators
Liu et al. Empirical investigation on using wind speed volatility to estimate the operation probability and power output of wind turbines
Raiyn et al. Real-time road traffic anomaly detection
CN104281779A (zh) 一种异常数据判定与处理方法及装置
CN104794535A (zh) 一种基于主导行业的电力需求预测及预警的方法
WO2021072058A1 (en) Computer control of demulsifier injection into crude oil based on inertia value
JP2006092058A (ja) 流量予測装置
CN111934865A (zh) 一种基于熵值法的量子通信网络运行指标的评估方法
CN115455735A (zh) 设备的健康指数计算方法、装置、设备及存储介质
Zhang et al. Real-time burst detection based on multiple features of pressure data
CN114301803A (zh) 网络质量检测方法、装置、电子设备及存储介质
CN112950405A (zh) 基于电力数据的企业用电情况的监测方法及装置
CN107590747A (zh) 基于综合能源大数据分析的电网资产周转率计算方法
CN110770753B (zh) 高维数据实时分析的装置和方法
CN116151975A (zh) 交易异常告警方法和装置
CN110244121A (zh) 一种基于电能质量统计数据的谐波责任估算方法
Raiyn et al. Real-time short-term forecasting based on information management
CN109783894A (zh) 一种基于信息再修正的负荷协调预测方法
CN106452863B (zh) 一种信息系统的资源分配及预测方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant