CN103942615B - 噪点剔除方法 - Google Patents

噪点剔除方法 Download PDF

Info

Publication number
CN103942615B
CN103942615B CN201410150573.2A CN201410150573A CN103942615B CN 103942615 B CN103942615 B CN 103942615B CN 201410150573 A CN201410150573 A CN 201410150573A CN 103942615 B CN103942615 B CN 103942615B
Authority
CN
China
Prior art keywords
sliding window
sample
data
data sample
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410150573.2A
Other languages
English (en)
Other versions
CN103942615A (zh
Inventor
林强
黄剑文
姜唯
周开东
彭泽武
王甜
曾初阳
罗欢
李娜
蔡利勉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BN Co
Information Center of Guangdong Power Grid Co Ltd
Original Assignee
BN Co
Information Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BN Co, Information Center of Guangdong Power Grid Co Ltd filed Critical BN Co
Priority to CN201410150573.2A priority Critical patent/CN103942615B/zh
Publication of CN103942615A publication Critical patent/CN103942615A/zh
Application granted granted Critical
Publication of CN103942615B publication Critical patent/CN103942615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明涉及一种噪点剔除方法,包括:S1、获取数据样本;S2、设定滑窗大小;S3、剔除每一滑窗中的噪点数据;S4、取各所述滑窗内剔除噪点数据后的剩余数据样本的平均值为该滑窗的滑窗代表值;S5、获取各所述滑窗代表值作为参考数据样本;S6、确定是否再次设定滑窗大小;S7、将多组不同滑窗大小下获得的参考数据样本与理论基准样本做比对,选择误差最小的参考数据样本作为最终的样本。采用本发明所公开的噪点剔除方法处理后所得到的参考数据样本能够更好地反映数据的趋势特征,以便对后阶段的业务系统的发展趋势进行预测,提前预知可能的风险、故障,提前做好资源规划。

Description

噪点剔除方法
技术领域
本发明涉及IT系统的数据处理领域,尤其涉及一种噪点剔除方法。
背景技术
在企业IT系统日常运维中,通常需要对业务系统生产运行产生的海量的历史数据进行分析,提取其趋势特征,以便对后阶段的结果进行预测,提前预知可能的风险、故障,或提前做好资源规划。
而通常由于设备软硬件异常、网络延时、故障或其他非常规操作等会导致原始数据样本中存在一些“噪点”,若不对这些噪点进行剔除,则会直接影响数据的分析,特征的提取以及后续的趋势预测,导致分析与预测的不准确性,无法真实反应业务系统的发展趋势。
而基于目前搜索到的资料,噪点剔除方法,通常应用于图像、声音处理等专业领域,无法解决IT行业的数据样本的噪点剔除问题。另外,传统的基于方差的噪点剔除方法,一般无法灵活地控制噪点剔除的粒度。
发明内容
本发明所要解决的技术问题是IT系统的噪点剔除。
为此目的,本发明提出了一种剔除差异较大的离群点,并且可以通过动态控制滑窗的大小,达到从不同粒度剔除噪点的目的的噪点剔除方法。
一种噪点剔除方法,包括:
S1、获取数据样本;
S2、设定滑窗大小;
S3、剔除每一滑窗中的噪点数据;
S4、取各所述滑窗内剔除噪点数据后的剩余数据样本的平均值为该滑窗的滑窗代表值;
S5、获取各所述滑窗代表值作为参考数据样本;
S6、确定是否再次设定滑窗大小,
若滑窗大小不大于预设的上限值,再次设定滑窗大小,重复步骤S2-S5,获取不同大小的滑窗对应的所述滑窗代表值,
若滑窗大小达到预设的上限值,取各所述参考数据样本的集合作为进一步数据分析的样本;
S7、将多组不同滑窗大小下获得的参考数据样本与理论基准样本做比对,选择误差最小的参考数据样本作为最终的样本;
其中,所述理论基准样本为基于历史数据学习得出的最优理论样本。
作为一种优选,步骤S2中可将滑窗大小设置为一大于等于1的数值作为滑窗的初始值,在步骤S6中,若滑窗大小不大于预设的上限值每次将滑窗大小增大一固定值,重复步骤S2-S5。
优选的,步骤S1包括:S11、获取所述数据样本的数值范围。
优选的,步骤S3中剔除的为数值在所述数据样本的数值范围中排列于前一部分的数据样本。
优选的,步骤S3中剔除的为数值在所述数据样本的数值范围中排列于前四分之一的数据样本。
优选的,步骤S3中剔除的为数值在所述数据样本的数值范围中排列于后一部分的数据样本。
优选的,步骤S3中剔除的为数值在所述数据样本的数值范围中排列于后四分之一的数据样本。
采用本发明所公开的噪点剔除方法通过设定不同大小的滑窗对获取的数据样本进行划分,并以各滑窗为单位对海量的多维数据集进行噪点剔除,最终以不同大小的各滑窗剔除噪点后的对应滑窗代表值作为进一步的数据分析的样本,能够灵活控制和提升数据样本点的质量,为基于历史数据进行未来趋势预测提供了更高的准确度。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明的流程图。
图2示出了滑窗定义的辅助说明图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
如图1所示,为本发明的噪点剔除方法,包括:
S1、获取数据样本:
S11、对从IT系统监控到的数据集进行扫描并将该数据集作为数据样本,假设数据样本点总数为m,获取该数据样本的m个数据的取值范围[a,b]。
S2、设定滑窗大小:
设定滑窗大小n(即每个滑窗内含有n个数据样本点),n取值范围为[1,m],则原始数据集被划分成k个滑窗(即k组),其中k=[m/n],在本实施例中,作为一种优选,设置滑窗大小为4。
S3、剔除每一滑窗中的噪点数据:
对每一个滑窗内的数据,可以按照一定的方法进行噪点剔除,具体的剔除方法可以不同,比如:可以剔除最大点最小点;可以剔除方差最大的点;可以将滑窗内的数据取值控制在一定的范围内等。根据大数定律和中心极限定律,运维监控数据可以经过一定步骤的数学变化变成为标准正态分布,因而,这些数据在原本形态中以一个很大的概率分布在一个相对较小的区间内。
作为一种优选的实施方式,本发明采用如下方法进行噪点剔除:
对每一个滑窗内的数据,对数值大小位于该数据样本的m个数据的取值范围即[a,b]区间的前1/4或者后1/4的数据进行剔除。
S4、取各所述滑窗内剔除噪点数据后的剩余数据样本的平均值为该滑窗的滑窗代表值。
S5、获取各所述滑窗代表值作为参考数据样本。
S6、确定是否再次设定滑窗大小,
作为一种优选,在本实施例中将预设的上限值设定为96,固定值设定为4,若滑窗大小不大于预设的上限值即96则每次将滑窗大小增大固定值4,重复步骤S2-S5,
即,若滑窗大小不大于96,则将滑窗大小递增4,重复步骤S2-S5,获取不同大小的滑窗对应的滑窗代表值,
若滑窗大小=96,取各参考数据样本的集合作为进一步数据分析的样本;
S7、将多组不同滑窗大小下获得的参考数据样本与理论基准样本做比对,选择误差最小的参考数据样本作为最终的样本;
其中,上述的理论基准样本为基于历史数据学习得出的最优理论样本。
如图2所示,为对滑窗定义的辅助说明图,其中,滑窗,顾名思义,即滑动的窗口,是可以变大或者变小的,本发明中,该滑窗的大小可以由操作人员根据实际情况设定。
采用本发明的噪点剔除方法有效筛除了IT系统监控到的数据集中由于设备软硬件异常、网络延时、故障或其他非常规操作等导致的噪点,处理后所得到的参考数据样本能够更好地反映数据的趋势特征,以便对后阶段的业务系统的发展趋势进行预测,提前预知可能的风险、故障,提前做好资源规划。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (4)

1.一种噪点剔除方法,其特征在于,包括:
S1、获取数据样本;
S2、设定滑窗大小;
S3、剔除每一所述滑窗中的噪点数据;
S4、取各所述滑窗内剔除噪点数据后的剩余数据样本的平均值为该滑窗的滑窗代表值;
S5、获取各所述滑窗代表值作为参考数据样本;
S6、确定是否再次设定滑窗大小,
若滑窗大小不大于预设的上限值,再次设定滑窗大小,重复步骤S2-S5,获取不同大小的滑窗对应的所述滑窗代表值,
若滑窗大小达到预设的上限值,取各所述参考数据样本的集合作为进一步数据分析的样本;
S7、将多组不同滑窗大小下获得的参考数据样本与理论基准样本做比对,选择误差最小的参考数据样本作为最终的样本;
其中,所述理论基准样本为基于历史数据学习得出的最优理论样本;
其中,步骤S1包括:S11、获取所述数据样本的数值范围;
其中,步骤S3中的所述噪点数据为数值在所述数据样本的数值范围中排列于前一部分的数据样本。
2.根据权利要求1所述噪点剔除方法,其特征在于,步骤S3中的所述噪点数据为数值在所述数据样本的数值范围中排列于前四分之一的数据样本。
3.根据权利要求1所述噪点剔除方法,其特征在于,步骤S3中的所述噪点数据为数值在所述数据样本的数值范围中排列于后一部分的数据样本。
4.根据权利要求3所述噪点剔除方法,其特征在于,步骤S3中的所述噪点数据为数值在所述数据样本的数值范围中排列于后四分之一的数据样本。
CN201410150573.2A 2014-04-15 2014-04-15 噪点剔除方法 Active CN103942615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410150573.2A CN103942615B (zh) 2014-04-15 2014-04-15 噪点剔除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410150573.2A CN103942615B (zh) 2014-04-15 2014-04-15 噪点剔除方法

Publications (2)

Publication Number Publication Date
CN103942615A CN103942615A (zh) 2014-07-23
CN103942615B true CN103942615B (zh) 2018-03-27

Family

ID=51190277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410150573.2A Active CN103942615B (zh) 2014-04-15 2014-04-15 噪点剔除方法

Country Status (1)

Country Link
CN (1) CN103942615B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104596564B (zh) * 2015-02-04 2017-03-15 中国工程物理研究院化工材料研究所 传感器故障判断的系统及方法
CN106155985B (zh) * 2016-06-02 2019-01-18 重庆大学 一种基于相邻数据特征的数据缺失填充方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084368A (ja) * 1999-09-16 2001-03-30 Sony Corp データ処理装置およびデータ処理方法、並びに媒体
CN1929530A (zh) * 2005-09-09 2007-03-14 株式会社理光 图像质量预测方法和设备以及故障诊断系统
CN101916338A (zh) * 2010-09-08 2010-12-15 浙江大学 一种自适应的视点平滑滤波数据处理方法
CN102693533A (zh) * 2012-03-12 2012-09-26 清华大学 一种医学数字图像拼接方法
CN103631681A (zh) * 2013-12-10 2014-03-12 国家电网公司 一种在线修复风电场异常数据的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084368A (ja) * 1999-09-16 2001-03-30 Sony Corp データ処理装置およびデータ処理方法、並びに媒体
CN1929530A (zh) * 2005-09-09 2007-03-14 株式会社理光 图像质量预测方法和设备以及故障诊断系统
CN101916338A (zh) * 2010-09-08 2010-12-15 浙江大学 一种自适应的视点平滑滤波数据处理方法
CN102693533A (zh) * 2012-03-12 2012-09-26 清华大学 一种医学数字图像拼接方法
CN103631681A (zh) * 2013-12-10 2014-03-12 国家电网公司 一种在线修复风电场异常数据的方法

Also Published As

Publication number Publication date
CN103942615A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
CN109697522B (zh) 一种数据预测的方法和装置
CN112188531B (zh) 异常检测方法、装置、电子设备及计算机存储介质
CN112200493A (zh) 一种数字孪生模型构建方法及装置
US11115295B2 (en) Methods and systems for online monitoring using a variable data
US10630869B1 (en) Industrial process event detection using motion analysis
CN114138625A (zh) 服务器健康状态的评估方法、系统、电子设备和存储介质
EP2897401B1 (en) Method and device for guaranteeing consistency of planning data
CN103942615B (zh) 噪点剔除方法
CN113569762A (zh) 用于使用振动数据进行生产线瓶颈分析的方法和装置
CN109829115B (zh) 搜索引擎关键词优化方法
CN113111585A (zh) 一种智能机柜故障预测方法、系统及智能机柜
CN111369489B (zh) 一种图像识别方法、装置及终端设备
US20200133930A1 (en) Information processing method, information processing system, and non-transitory computer readable storage medium
KR102464688B1 (ko) 모니터링 결과의 이벤트 등급 결정 방법 및 장치
CN113448808B (zh) 一种批处理任务中单任务时间的预测方法、系统及存储介质
CN115358992A (zh) 一种光斑检测方法、装置、电子设备以及存储介质
CN109597702A (zh) 消息总线异常的根因分析方法、装置、设备及存储介质
US11494587B1 (en) Systems and methods for optimizing performance of machine learning model generation
US20220376989A1 (en) Management of predictive models of a communication network
US10409704B1 (en) Systems and methods for resource utilization reporting and analysis
CN114398228A (zh) 一种设备资源使用情况的预测方法、装置及电子设备
CN113052938A (zh) 一种构建锅炉能效曲线的方法及装置
CN108121728B (zh) 从数据库抽取数据的方法和装置
JP6745641B2 (ja) 運転支援装置および方法
KR20200031022A (ko) 제조 공정에서 제품의 건강 상태를 예측하는 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 510080 Yuexiu District, Guangzhou Dongfeng East Road, water, Kong, Kong, No. 8, No. 6, building eighteen

Applicant after: GUANGDONG POWER GRID CO., LTD. INFORMATION CENTER

Applicant after: BN Company

Address before: 510080 Yuexiu District, Guangzhou Dongfeng East Road, water, Kong, Kong, No. 8, No. 6, building eighteen

Applicant before: Information Center of Guangdong Power Grid Corporation

Applicant before: BN Company

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: INFORMATION CENTER OF GUANGDONG POWER GRID CORP.? TO: INFORMATION CENTER OF GUANGDONG POWER GRID CO., LTD.

GR01 Patent grant
GR01 Patent grant