CN108260148A - 一种故障检测方法及装置 - Google Patents

一种故障检测方法及装置 Download PDF

Info

Publication number
CN108260148A
CN108260148A CN201611240574.1A CN201611240574A CN108260148A CN 108260148 A CN108260148 A CN 108260148A CN 201611240574 A CN201611240574 A CN 201611240574A CN 108260148 A CN108260148 A CN 108260148A
Authority
CN
China
Prior art keywords
kpi
probability
data
domain information
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611240574.1A
Other languages
English (en)
Other versions
CN108260148B (zh
Inventor
郭银洲
张伟
王姗姗
徐志节
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Huawei Technologies Service Co Ltd
Original Assignee
Huawei Technologies Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Service Co Ltd filed Critical Huawei Technologies Service Co Ltd
Priority to CN201611240574.1A priority Critical patent/CN108260148B/zh
Publication of CN108260148A publication Critical patent/CN108260148A/zh
Application granted granted Critical
Publication of CN108260148B publication Critical patent/CN108260148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition

Abstract

本发明实施例公开了一种故障检测方法及装置,能够提高KPI故障检测的精确性。本发明实施例方法包括:获取待检测话统数据的关键性能指标KPI参数;利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率;当所述异常概率大于预设门限值时,确定所述待检测话统数据的KPI参数处于故障状态。

Description

一种故障检测方法及装置
技术领域
本发明涉及通信领域,特别涉及一种故障检测方法及装置。
背景技术
电信网络运维是保证通信网络正常运转的必要环节,KPI(Key PerformanceIndicator,关键性能指标)故障检测是运维的核心工作之一,因为只有正确检测到故障,才能进行故障处理。传统的故障检测基于人工经验设置固定门限,超出门限就认为是故障。但由于网络场景和结构的复杂性,同一KPI在不同的局点,其门限有可能不同;即便是同一KPI在同一局点,由于网络的改造,KPI的门限亦有可能会发生变化,如果都通过手动方式去设置,不仅耗费大量的人力,准确性也难以保证。基于数据挖掘的方法,通过对历史数据的学习,自适应地对故障进行检测可以较好地解决这个问题。
当前有少数科研机构或者公司提供了基于数据挖掘的故障检测技术,主要思路基于正常数据进行建模,然后观察预测数据与真实数据的差异,根据差异的大小确定是否为异常点。
一方面,不同维度的KPI的模型很难用一种方法完全覆盖,那么就涉及到模型的选择问题;另一方面,某些KPI的建模难度很大,精度无法保证。另外,根据差异的大小确定是否为异常点仍然需要设置门限,且门限设置难度不亚于上述提及的KPI的门限难度。
发明内容
本申请提供了一种故障检测方法及装置,能够提高KPI故障检测的精确性。
本申请第一方面提供了一种故障检测方法,该方法应用于服务器。基站等终端设备采集话统数据,并上报给服务器,服务器从基站等终端设备上报的话统数据中获取待检测话统数据的关键性能指标KPI参数,然后利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率。通过该LoOP算法将KPI参数分解为多个因素以确定该KPI的变化特征,从而确定该KPI参数的异常概率。当所述异常概率大于预设门限值时,确定所述待检测话统数据的KPI参数处于故障状态。本申请提供的故障检测方法无需人为设置门限且所设门限值不需根据KPI的不同而变化,从而提高KPI故障检测的精确性。
其中,该关键性能指标KPI参数可以是单一维度的KPI或者是多个维度的KPI,获取KPI的方式可以采用实时在线的方式或是离线的方式。该KPI可以是掉话率、拥塞率、最坏小区比、无线接入性、无线接通率或超忙小区。
如果该KPI参数为单维度KPI参数,那么利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率的具体实现方式可参考如下:
首先对该单维度KPI参数进行时间序列提取,将该单维度KPI参数转换为时域上的KPI信息。具体可按照时间点对输入数据进行汇总,汇总方式可以是平均值、求和等统计量,此处不详细描述。将该单维度KPI参数转换为时域上的KPI信息之后,进一步的,确定该时域上的KPI信息所对应的随机波动数据,从而利用局部异常概率LoOP算法确定所述随机波动数据的异常概率。
上述确定该时域上的KPI信息所对应的随机波动数据的具体实现方式可参考如下:
首先提取该KPI的周期趋势,具体的,利用快速傅里叶变换FFT可将该时域上的KPI信息转换为频域上的KPI信息;进一步的,对得到的该频域上的KPI信息进行噪声过滤处理,将噪声过滤处理后的频域上的KPI信息通过快速傅里叶逆变换,将频域上的频域上的KPI信息进行时域转换,由此,可提取到KPI的周期特征。其次,提取该KPI的长期趋势,具体的,利用局部加权回归散点平滑Loess算法对噪声过滤处理以及快速傅里叶逆变换后的时域上的KPI信息进行处理。由此,可将该KPI的长期变化趋势提取出来。最后,利用得到的该单维度KPI参数转换为时域上的KPI信息、该KPI的周期特征、该KPI的长期趋势、以及预设第一公式,可得到该时域上的KPI信息所对应的随机波动数据。具体的,利用公式:随机=X原始-0.5*(X周期+X长期),将KPI的周期特征和KPI的长期趋势从KPI的原始信息(即对该单维度KPI参数进行时间序列提取,将该单维度KPI参数转换为时域上的KPI信息)中剥离掉,得到KPI的原始信息的随机波动数据。由此,基于得到的随机波动数据可利用局部异常概率LoOP算法确定所述随机波动数据的异常概率,输出异常检测报告。
上述利用局部异常概率LoOP算法确定所述随机波动数据的异常概率的具体实现方式可参考如下:
首先为KPI参数对应的随机波动数据构建领域,该邻域的构建可以是针对该随机波动数据的距离最近的N个打点记录,N为自然数。基于为该随机波动数据构建的邻域,可利用计算邻域概率距离的相关公式确定该随机波动数据的邻域概率距离。利用计算邻域概率因子的相关公式计算该随机波动数据的邻域概率距离所对应的邻域概率因子。对得到的结果邻域概率因子进行归一化后,将邻域概率因子转换为概率值,从而得到该随机波动数据为异常点的概率。
如果该KPI参数为多维度KPI参数,那么利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率的具体实现方式可参考如下:
首先对该多维KPI参数进行特征选择,以提取该多维度KPI参数的特征信息。基于已有的业务经验或者借助数据挖掘,选择和KPI相关的其他指标作为特征选择的参考标准。特征选择可基于机器学习得到,也可基于人工经验指定,还可以是人工经验和及其学习混合。进一步的,对提取的多维KPI的特征信息进行数据归一化处理。将不同维度的KPI参数划分到同一区间,避免由于量纲不统一造成的结果偏差。具体可通过Max-Min、Z-score等方法做归一化处理,此处不做详细描述。基于归一化处理后的多维度KPI参数的特征信息,可利用局部异常概率LoOP算法确定该归一化处理后的多维度KPI参数的特征信息的异常概率。最后,通过设定预设门限值来检测待检测话统数据的KPI参数是否处于故障状态。当利用局部异常概率LoOP算法确定的异常概率大于预设门限值时,可以确定该待检测话统数据的KPI参数处于故障状态,输出异常检测报告。
本申请的第二方面提供了一种故障检测装置,该装置包括获取单元和处理单元。获取单元可用于从基站等终端设备上报的话统数据中获取待检测话统数据的关键性能指标KPI参数。处理单元可用于利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率,并通过该LoOP算法将KPI参数分解为多个因素以确定该KPI的变化特征,从而确定该KPI参数的异常概率。当所述异常概率大于预设门限值时,确定所述待检测话统数据的KPI参数处于故障状态。本申请提供的故障检测装置无需人为设置门限且所设门限值不需根据KPI的不同而变化,从而提高KPI故障检测的精确性。
其中,该关键性能指标KPI参数可以是单一维度的KPI或者是多个维度的KPI,获取KPI的方式可以采用实时在线的方式或是离线的方式。该KPI可以是掉话率、拥塞率、最坏小区比、无线接入性、无线接通率或超忙小区。
如果该KPI参数为单维度KPI参数,那么该处理单元用于利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率的具体实现方式可参考如下:
首先通过该处理单元对该单维度KPI参数进行时间序列提取,该处理单元用于将该单维度KPI参数转换为时域上的KPI信息。具体可按照时间点对输入数据进行汇总,汇总方式可以是平均值、求和等统计量,此处不详细描述。该处理单元用于将该单维度KPI参数转换为时域上的KPI信息之后,进一步的,确定该时域上的KPI信息所对应的随机波动数据,从而利用局部异常概率LoOP算法确定所述随机波动数据的异常概率。
上述处理单元用于确定该时域上的KPI信息所对应的随机波动数据的具体实现方式可参考如下:
首先通过该处理单元提取该KPI的周期趋势,具体的,该处理单元用于利用快速傅里叶变换FFT可将该时域上的KPI信息转换为频域上的KPI信息;进一步的,对得到的该频域上的KPI信息进行噪声过滤处理,将噪声过滤处理后的频域上的KPI信息通过快速傅里叶逆变换,将频域上的频域上的KPI信息进行时域转换,由此,可提取到KPI的周期特征。其次,该处理单元用于提取该KPI的长期趋势,具体的,该处理单元用于利用局部加权回归散点平滑Loess算法对噪声过滤处理以及快速傅里叶逆变换后的时域上的KPI信息进行处理。由此,可将该KPI的长期变化趋势提取出来。最后,该处理单元用于利用得到的该单维度KPI参数转换为时域上的KPI信息、该KPI的周期特征、该KPI的长期趋势、以及预设第一公式,可得到该时域上的KPI信息所对应的随机波动数据。具体的,利用公式:随机=X原始-0.5*(X周期+X长期),将KPI的周期特征和KPI的长期趋势从KPI的原始信息(即对该单维度KPI参数进行时间序列提取,将该单维度KPI参数转换为时域上的KPI信息)中剥离掉,得到KPI的原始信息的随机波动数据。由此,基于得到的随机波动数据可利用局部异常概率LoOP算法确定所述随机波动数据的异常概率,输出异常检测报告。
上述处理单元用于利用局部异常概率LoOP算法确定所述随机波动数据的异常概率的具体实现方式可参考如下:
首先该处理单元用于为KPI参数对应的随机波动数据构建领域,该邻域的构建可以是针对该随机波动数据的距离最近的N个打点记录,N为自然数。基于为该随机波动数据构建的邻域,该处理单元可利用计算邻域概率距离的相关公式确定该随机波动数据的邻域概率距离。利用计算邻域概率因子的相关公式计算该随机波动数据的邻域概率距离所对应的邻域概率因子。对得到的结果邻域概率因子进行归一化后,将邻域概率因子转换为概率值,从而得到该随机波动数据为异常点的概率。
如果该KPI参数为多维度KPI参数,那么该处理单元用于利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率的具体实现方式可参考如下:
首先该处理单元用于对该多维KPI参数进行特征选择,以提取该多维度KPI参数的特征信息。基于已有的业务经验或者借助数据挖掘,选择和KPI相关的其他指标作为特征选择的参考标准。特征选择可基于机器学习得到,也可基于人工经验指定,还可以是人工经验和及其学习混合。进一步的,该处理单元用于对提取的多维KPI的特征信息进行数据归一化处理。将不同维度的KPI参数划分到同一区间,避免由于量纲不统一造成的结果偏差。具体可通过Max-Min、Z-score等方法做归一化处理,此处不做详细描述。基于归一化处理后的多维度KPI参数的特征信息,该处理单元可利用局部异常概率LoOP算法确定该归一化处理后的多维度KPI参数的特征信息的异常概率。最后,通过设定预设门限值来检测待检测话统数据的KPI参数是否处于故障状态。当利用局部异常概率LoOP算法确定的异常概率大于预设门限值时,可以确定该待检测话统数据的KPI参数处于故障状态,输出异常检测报告。
本申请第三方面,提供了一种存储介质,该存储介质中存储了程序代码,该程序代码被服务器运行时,执行第一方面或第一方面的任意一种实现方式提供的故障检测方法。该存储介质包括但不限于快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,HDD)或固态硬盘(英文:solid state drive,SSD)。
附图说明
图1为本申请所提供的一个网络环境示意图;
图2为申请所提供的服务器的一个组织结构示意图;
图3为本申请所提供的故障检测方法的一个流程示意图;
图4为本申请所提供的一个频域波形示意图;
图5为本申请所提供的一个局部拟合轨迹示意图;
图6为本申请所提供的一个全局平滑轨迹示意图;
图7为本申请所提供的故障检测装置的一个组织结构示意图。
具体实施方式
本申请的说明书和权利要求书以及上述附图说明的附图中所涉及的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本发明实施例提供的故障检测方法具体可以应用于通过KPI监控软件获取KPI,并对KPI的长、短期的变化趋势进行判断的情况,该KPI监控软件可以是设置在接入网或是核心网的操作维护平台上的软件系统,如:软交换设备网管服务器或是产品管理信息系统(Production Management Information System,简称:PROMIS)。本发明实施例中的KPI可以是终端设备与网络侧的附着成功率、切换成功率或是接通率等。图1为本申请实施例的一个网络环境示意图。服务器102可通过通信网络访问终端设备104。该终端设备104包括但不限于:基站、控制器、传输设备、核心网设备,甚至手机终端。
图1中的服务器可以通过图2中的服务器200实现,服务器200的组织结构示意图如图2所示,包括处理器202、存储器204和收发器206,还可以包括总线208。
其中,处理器202、存储器204和收发器206可以通过总线208实现彼此之间的通信连接,也可以通过无线传输等其他手段实现通信。
存储器204可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:HDD)或固态硬盘(英文:solid state drive,缩写:SSD);存储器204还可以包括上述种类的存储器的组合。在通过软件来实现本申请提供的技术方案时,用于实现本申请图3提供的故障检测方法的程序代码保存在存储器204中,并由处理器202来执行。
服务器200通过收发器206与终端设备通信。
处理器202可以为中央处理器(英文:central processing unit,CPU)。
所述处理器202用于:
获取待检测话统数据的关键性能指标KPI参数;
利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率;
当所述异常概率大于预设门限值时,确定所述待检测话统数据的KPI参数处于故障状态。
该处理器202利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率;通过该LoOP算法将KPI参数分解为多个因素以确定该KPI的变化特征,从而确定该KPI参数的异常概率,当所述异常概率大于预设门限值时,确定所述待检测话统数据的KPI参数处于故障状态。无需人为设置门限且所设门限值不需根据KPI的不同而变化,从而提高KPI故障检测的精确性。
可选的,所述KPI参数为单维度KPI参数;
所述处理器202用于利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率包括:
所述处理器202,用于将所述单维度KPI参数转换为待测时域信息;
确定所述待测时域信息对应的随机波动数据;
利用局部异常概率LoOP算法确定所述随机波动数据的异常概率。
可选的,所述处理器202用于确定所述待测时域信息对应的随机波动数据包括:
所述处理器202,用于利用快速傅里叶变换FFT将所述待测时域信息转换为待测频域信息;
对所述待测频域信息进行噪声过滤处理,并对噪声处理后的待测频域信息进行时域转换,得到所述单维度KPI参数的第一目标时域信息;
利用局部加权回归散点平滑Loess算法和所述第一目标时域信息确定所述单维度KPI参数的第二目标时域信息;
根据所述待测时域信息、所述第一目标时域信息、所述第二目标时域信息以及第一预设公式,确定所述待测时域信息对应的随机波动数据。
可选的,所述处理器202用于利用局部异常概率LoOP算法确定所述随机波动数据的异常概率包括:
所述处理器202,用于为所述随机波动数据构建邻域,并根据第二预设公式确定所述随机波动数据的邻域概率距离;
利用所述随机波动数据的邻域概率距离和第三预设公式确定所述随机波动数据的邻域概率因子;
按照第四预设公式对所述随机波动数据的邻域概率因子进行归一化;
按照第五预设公式将归一化后的随机波动数据的邻域概率因子转换为所述随机波动数据的异常概率。
可选的,所述KPI参数为多维度KPI参数;
所述处理器202用于利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率包括:
所述处理器202,用于提取所述多维度KPI参数的特征信息;
对所述特征信息进行数据归一化处理得到目标数据;
利用局部异常概率LoOP算法确定所述目标数据的异常概率。
本申请提供了一种故障检测方法,其流程示意图如图3所示。
301、获取待检测话统数据的关键性能指标KPI参数。
需要说明的是,获取的该关键性能指标KPI参数可以是单一维度的KPI或者是多个维度的KPI,获取KPI的方式可以采用实时在线的方式或是离线的方式。本实施例中的KPI可以是掉话率、拥塞率、最坏小区比、无线接入性、无线接通率或超忙小区,但不限于此。
302、利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率。
可选的,所述KPI参数为单维度KPI参数;所述利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率包括:
1)将所述单维度KPI参数转换为待测时域信息;
需要说明的是,该步骤是对针对KPI的时间序列提取,具体可按照时间点对输入数据进行汇总,汇总方式可以是平均值、求和等统计量。
需要说明的是,当前使用的主要是小区级的话统数据,而主要的分析对象为站点级或者局点级,需要将数据转换为时间序列。转换方法可参考如下:
Step1:对于输入的时间序列Time={t1,t2,…},去除重复时间点并按照升序进行排列,得到时间序列TimeUnique={t1’,t2’,…};
Step2:选择时间点等于t1’的所有KPI数据进行求平均或者求和;
Step3:循环执行Step2,直到遍历完TimeUnique所有不重复时间点。
最后输出的结果即为KPI的待测时域信息,也就是KPI的原始信息。
2)确定所述待测时域信息对应的随机波动数据;
3)利用局部异常概率LoOP算法确定所述随机波动数据的异常概率。
具体的,所述确定所述待测时域信息对应的随机波动数据包括:
2.1)利用快速傅里叶变换FFT将所述待测时域信息转换为待测频域信息;
2.2)对所述待测频域信息进行噪声过滤处理,并对噪声处理后的待测频域信息进行时域转换,得到所述单维度KPI参数的第一目标时域信息;
需要说明的是,步骤2.1~2.2是针对KPI的周期趋势提取,将KPI按照某种方式(如FFT(Fast Fourier Transform,快速傅里叶变换))提取周期特征。
FFT可以将时域信息转换到频域,基于频域信息可以得到KPI的周期特征,其主要思路如下:
Step1:时域到频域转换:基于FFT将KPI时间序列转换到频域,可以得到KPI序列在频域的特征;
Step2:过滤噪声频率:在频域中,将频率按照从大到小排序,选择TOP(例如按照从大到小的频率排序取前五位)频率作为主要频率保留,其他频率作为噪声频率被过滤掉。
Step3:频域到时域转换:基于上一步选择的主要频率,进行FFT逆变换得到KPI序列的去噪后的还原信息即为KPI的周期特征。
2.3)利用局部加权回归散点平滑Loess算法和所述第一目标时域信息确定所述单维度KPI参数的第二目标时域信息;
需要说明的是,该步骤是针对KPI的长期趋势提取,将KPI长期变化变化趋势提取出来,实质是对KPI数据按照某种方式进行平滑得到KPI数据长期特征。
Loess(locally weighted scatterplot smoothing,局部加权回归散点平滑法)主要思想是取一定比例的局部数据,在这部分子集中拟合多项式回归曲线,将局部范围从左往右依次推进,最终一条连续的曲线就被计算出来了,这样我们便可以观察到数据在局部展现出来的规律和趋势,其主要步骤如下:
Step1:KPI序列切分:按照指定长度,将KPI序列划分为多个等长窗口。划分窗口过长则不准确,划分过短则不平滑,需要结合问题进行分析。
Step2:局部拟合:指在给定的窗口内,拟合y=f(x),其中x指时间,y指KPI值,f一般采用选择二次曲线。根据最小二乘法得到最优拟合曲线,并将x带入求得拟合的y,即平滑后的y。
Step3:全局平滑:遍历每个窗口完成局部拟合过程,将拟合的结果前后拼接起来得到全局平滑的结果即为KPI的长期趋势。
2.4)根据所述待测时域信息、所述第一目标时域信息、所述第二目标时域信息以及第一预设公式,确定所述待测时域信息对应的随机波动数据。
需要说明的是,该步骤是针对KPI的随机波动特征提取,基于已提取出的周期特征和长期趋势,可得到随机波动特征。
将KPI的周期特征和KPI的长期趋势从KPI的原始信息中剥离掉,得到KPI的原始信息的随机波动,公式如下:
X随机=X原始-0.5*(X周期+X长期)
基于上述得到的随机波动特征可利用局部异常概率LoOP算法确定所述随机波动特征的异常概率,输出异常检测报告。
具体的,所述利用局部异常概率LoOP算法确定所述随机波动数据的异常概率包括:
为所述随机波动数据构建邻域,并根据第二预设公式确定所述随机波动数据的邻域概率距离;
利用所述随机波动数据的邻域概率距离和第三预设公式确定所述随机波动数据的邻域概率因子;
按照第四预设公式对所述随机波动数据的邻域概率因子进行归一化;
按照第五预设公式将归一化后的随机波动数据的邻域概率因子转换为所述随机波动数据的异常概率。
需要说明的是,LoOP(Local Outlier Probabilities,局部异常概率)(作者:HPKriegel,PE Schubert,A Zimek,出版源:ACM Conference on Information andKnowledge Management,CIKM 2009,Hong Kong,China,November.2009:1649-1652.)不仅适用于高维特征,还能给出每个样本异常的概率大小。
对于KPI指标的异常检测,即通过多个特征共同衡量某个点是否为异常点。其主要步骤如下:
Step1:构建邻域:选择离打点记录o(该打点记录o可以理解为输入的随机波动数据)距离最近的N个打点记录,构建其邻域S;
Step2:计算打点记录o邻域概率距离,公式如下:
其中,o代表当前打点记录,是一个包含多维特征的向量,λ是概率系数,有如下关系
Step3:计算邻域概率因子,公式如下:
Step4:邻域概率因子归一化,公式如下:
Step5:将概率因子转换为概率值,公式如下:
其中,erf表示正态分布概率密度函数。
据此得到打点记录o(即输入的随机波动数据)为异常点的概率。
可选的,所述KPI参数为多维度KPI参数;所述利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率包括:
1)提取所述多维度KPI参数的特征信息;
需要说明的是,该步骤是针对多维KPI的特征选择,基于已有的业务经验或者借助数据挖掘,选择和KPI相关的其他指标作为输入特征。
特征选择有俩种途径:1,基于机器学习得到;2,基于人工经验指定;3,人工经验和机器学习混合,此处重在说明该方法论,特征选择不作为重点说明。
2)对所述特征信息进行数据归一化处理得到目标数据;
需要说明的是,该步骤是针对多维KPI特征的归一化,将选择的多维KPI特征数据进行归一化,比如Max-Min、Z-score等方法。
数据归一化的目的是将不同维度的特征划分到同一区间,避免由于量纲不统一造成的结果偏差。常用的归一化方法如下:
Min-Max:将结果映射到[0,1]之间,是对原数据的线性变换,这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。参考公式如下:
x代表输入数据(即归一化前的数据,如上述特征信息),x*代表输出数据(即归一化后的数据,如上述目标数据)。
Z-score标准化方法:给予原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。参考公式如下:
x代表输入数据(即归一化前的数据,如上述特征信息),x*代表输出数据(即归一化后的数据,如上述目标数据),μ表示样本均值,σ表示标准差。
3)利用局部异常概率LoOP算法确定所述目标数据的异常概率。
基于上述归一化后的多维度KPI参数的特征信息可利用局部异常概率LoOP算法确定所述归一化后的目标数据的异常概率,输出异常检测报告。LoOP(Local OutlierProbabilities,局部异常概率)的具体步骤参考步骤302中2.4)的相关说明,此处不再赘述。
303、当所述异常概率大于预设门限值时,确定所述待检测话统数据的KPI参数处于故障状态。
需要说明的是,根据步骤302中利用局部异常概率LoOP算法确定的所述待检测话统数据的KPI参数的异常概率,在该步骤中,通过设定预设门限值来检测待检测话统数据的KPI参数是否处于故障状态。当所述异常概率大于预设门限值时,可以确定所述待检测话统数据的KPI参数处于故障状态。
本申请实施例中,通过利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率;通过该LoOP算法将KPI参数分解为多个因素以确定该KPI的变化特征,从而确定该KPI参数的异常概率,当所述异常概率大于预设门限值时,确定所述待检测话统数据的KPI参数处于故障状态。无需人为设置门限且所设门限值不需根据KPI的不同而变化,从而提高KPI故障检测的精确性。
下面以一具体应用场景对本申请提供的故障检测方法进行说明。
以单维度的KPI异常检测为例。
按下表1输入单维度的KPI数据:
表1
Time RRC.Succ.Rate
2015/3/8 7:00 0.999543
2015/3/8 7:00 0.998333
2015/3/8 7:00 1
2015/3/8 8:00 0.999549
2015/3/8 8:00 0.998871
2015/3/8 8:00 1
2015/3/8 9:00 0.998297
2015/3/8 9:00 0.999126
2015/3/8 9:00 0.999636
2015/3/8 10:00 0.999617
2015/3/8 10:00 0.999271
2015/3/8 10:00 1
2015/3/8 11:00 0.999624
2015/3/8 11:00 1
2015/3/8 11:00 1
Step1:KPI时间序列提取。
Step a:基于时间维度进行去重排序。
去重得到Time1={'2015-03-08 07:00:00','2015-03-08 08:00:00',
'2015-03-08 09:00:00','2015-03-08 10:00:00','2015-03-08 11:00:00'}
Stepb:基于时间点汇总:
对于每一个时间点,按照中值或者平均数进行汇总,考虑到平均值会受异常点影响,此处采用基于中值方式进行汇总。选择和Time2[i]时间点相同的KPI数值进行求中值。
KPI时间序列提取结果如下表2:
表2
Time RRC.Succ.Rate
2015/3/8 7:00 0.999543
2015/3/8 8:00 0.999549
2015/3/8 9:00 0.999126
2015/3/8 10:00 0.999617
2015/3/8 11:00 1
Step2:周期趋势提取。
Step a:时域到频域转换。转换结果可参考图4,图4中横轴表示频率,纵轴表示幅值。
Step b:过滤噪声频率。以图4为例,其中,0为直流频率,1和2是保留下来的主要频率,其他的作为噪声频率被过滤掉。
Step c:频域到时域转换。
周期特征提取结果如下表3:
表3
Time RRC.Succ.Rate
2015/3/8 7:00 0.992211
2015/3/8 8:00 0.99236
2015/3/8 9:00 0.992464
2015/3/8 10:00 0.992525
2015/3/8 11:00 0.992547
Step3:长期趋势提取。
Step a:KPI序列切分。按照24小时为一个窗口,将输入数据切分为多个窗口。
Step b:局部拟合。拟合结果可参考图5,图5中横轴表示数据的时间序号(图示中以24小时为例,则划分了24个序号),纵轴表示KPI指标对应的取值。
Step c:全局平滑。平滑结果可参考图6,图6中横轴表示数据的天数,纵轴表示KPI指标对应的取值。
Step4:KPI随机波动提取。
X随机=X原始-0.5*(X周期+X长期)
Step5:故障异常检测算法。
传统门限设置需要专家根据经验进行设置,而且当网络升级后还需要根据业务经验加大量的实际案例才能得到合适的新门限,费时费力。通过上述实施例方案能够实现自动进行故障检测,无需人为设置门限。该方案可以自动适应大部分场景(包括网络结构调整),所设门限值不需根据KPI的不同而变化,能够提高KPI故障检测的精确性。
本申请实施例还提供了故障检测装置700,该故障检测装置700可以通过图2所示的服务器200实现,还可以通过专用集成电路(英文:application-specific integratedcircuit,ASIC)实现,或可编程逻辑器件(英文:programmable logic device,PLD)实现。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,CPLD),FPGA,通用阵列逻辑(英文:generic array logic,GAL)或其任意组合。该故障检测装置700用于实现图3所示的故障检测方法。通过软件实现图3所示的故障检测方法时,该故障检测装置700也可以为软件模块。
故障检测装置700的组织结构示意图如图7所示,包括:获取单元702和处理单元704。获取单元702工作时,执行图3所示的故障检测方法中的步骤301及步骤301中的可选方案;处理单元704工作时,执行图3所示的故障检测方法中的步骤302~303及步骤302~303中的可选方案。应注意,本申请实施例中,获取单元702和处理单元704也可由如图2中所示的处理器202实现。
故障检测装置700通过处理单元704利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率;通过该LoOP算法将KPI参数分解为多个因素以确定该KPI的变化特征,从而确定该KPI参数的异常概率,当所述异常概率大于预设门限值时,确定所述待检测话统数据的KPI参数处于故障状态。无需人为设置门限且所设门限值不需根据KPI的不同而变化,从而提高KPI故障检测的精确性。
上述装置的相关描述可以对应参阅方法实施例部分的相关描述和效果进行理解,本处不做过多赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所涉及的动作和模块并不一定是本发明所必需的。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络设备上。可以根据实际的需要选择其中的部分或者全部设备来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案的全部或部分可以以软件产品的形式体现出来。该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(英文:USB flash disk)、移动硬盘、只读存储器(英文:read-only memory,ROM)、随机存取存储器(英文:random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离权利要求的范围。

Claims (10)

1.一种故障检测方法,其特征在于,包括:
获取待检测话统数据的关键性能指标KPI参数;
利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率;
当所述异常概率大于预设门限值时,确定所述待检测话统数据的KPI参数处于故障状态。
2.根据权利要求1所述的方法,其特征在于,所述KPI参数为单维度KPI参数;
所述利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率包括:
将所述单维度KPI参数转换为待测时域信息;
确定所述待测时域信息对应的随机波动数据;
利用局部异常概率LoOP算法确定所述随机波动数据的异常概率。
3.根据权利要求2所述的方法,其特征在于,所述确定所述待测时域信息对应的随机波动数据包括:
利用快速傅里叶变换FFT将所述待测时域信息转换为待测频域信息;
对所述待测频域信息进行噪声过滤处理,并对噪声处理后的待测频域信息进行时域转换,得到所述单维度KPI参数的第一目标时域信息;
利用局部加权回归散点平滑Loess算法和所述第一目标时域信息确定所述单维度KPI参数的第二目标时域信息;
根据所述待测时域信息、所述第一目标时域信息、所述第二目标时域信息以及第一预设公式,确定所述待测时域信息对应的随机波动数据。
4.根据权利要求2或3所述的方法,其特征在于,所述利用局部异常概率LoOP算法确定所述随机波动数据的异常概率包括:
为所述随机波动数据构建邻域,并根据第二预设公式确定所述随机波动数据的邻域概率距离;
利用所述随机波动数据的邻域概率距离和第三预设公式确定所述随机波动数据的邻域概率因子;
按照第四预设公式对所述随机波动数据的邻域概率因子进行归一化;
按照第五预设公式将归一化后的随机波动数据的邻域概率因子转换为所述随机波动数据的异常概率。
5.根据权利要求1所述的方法,其特征在于,所述KPI参数为多维度KPI参数;
所述利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率包括:
提取所述多维度KPI参数的特征信息;
对所述特征信息进行数据归一化处理得到目标数据;
利用局部异常概率LoOP算法确定所述目标数据的异常概率。
6.一种故障检测装置,其特征在于,包括:
获取单元,用于获取待检测话统数据的关键性能指标KPI参数;
处理单元,用于利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率;
当所述异常概率大于预设门限值时,确定所述待检测话统数据的KPI参数处于故障状态。
7.根据权利要求6所述的装置,其特征在于,所述KPI参数为单维度KPI参数;
所述处理单元用于利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率包括:
所述处理单元,用于将所述单维度KPI参数转换为待测时域信息;
确定所述待测时域信息对应的随机波动数据;
利用局部异常概率LoOP算法确定所述随机波动数据的异常概率。
8.根据权利要求7所述的装置,其特征在于,所述处理单元用于确定所述待测时域信息对应的随机波动数据包括:
所述处理单元,用于利用快速傅里叶变换FFT将所述待测时域信息转换为待测频域信息;
对所述待测频域信息进行噪声过滤处理,并对噪声处理后的待测频域信息进行时域转换,得到所述单维度KPI参数的第一目标时域信息;
利用局部加权回归散点平滑Loess算法和所述第一目标时域信息确定所述单维度KPI参数的第二目标时域信息;
根据所述待测时域信息、所述第一目标时域信息、所述第二目标时域信息以及第一预设公式,确定所述待测时域信息对应的随机波动数据。
9.根据权利要求7或8所述的装置,其特征在于,所述处理单元用于利用局部异常概率LoOP算法确定所述随机波动数据的异常概率包括:
所述处理单元,用于为所述随机波动数据构建邻域,并根据第二预设公式确定所述随机波动数据的邻域概率距离;
利用所述随机波动数据的邻域概率距离和第三预设公式确定所述随机波动数据的邻域概率因子;
按照第四预设公式对所述随机波动数据的邻域概率因子进行归一化;
按照第五预设公式将归一化后的随机波动数据的邻域概率因子转换为所述随机波动数据的异常概率。
10.根据权利要求6所述的装置,其特征在于,所述KPI参数为多维度KPI参数;
所述处理单元用于利用局部异常概率LoOP算法确定所述待检测话统数据的KPI参数的异常概率包括:
所述处理单元,用于提取所述多维度KPI参数的特征信息;
对所述特征信息进行数据归一化处理得到目标数据;
利用局部异常概率LoOP算法确定所述目标数据的异常概率。
CN201611240574.1A 2016-12-28 2016-12-28 一种故障检测方法及装置 Active CN108260148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611240574.1A CN108260148B (zh) 2016-12-28 2016-12-28 一种故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611240574.1A CN108260148B (zh) 2016-12-28 2016-12-28 一种故障检测方法及装置

Publications (2)

Publication Number Publication Date
CN108260148A true CN108260148A (zh) 2018-07-06
CN108260148B CN108260148B (zh) 2021-02-09

Family

ID=62719586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611240574.1A Active CN108260148B (zh) 2016-12-28 2016-12-28 一种故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN108260148B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819190A (zh) * 2019-11-15 2021-05-18 上海杰之能软件科技有限公司 设备性能的预测方法及装置、存储介质、终端

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176032A (zh) * 2011-01-13 2011-09-07 北京航空航天大学 一种基于非线性滤波的卫星导航跟踪环路失锁检测方法
CN103379644A (zh) * 2012-04-13 2013-10-30 中国移动通信集团公司 一种载波调度方法及系统
WO2013160438A2 (en) * 2012-04-27 2013-10-31 Nokia Siemens Networks Oy Method for heterogeneous network policy based management
CN104853379A (zh) * 2014-02-18 2015-08-19 中国移动通信集团公司 一种无线网络质量评估方法及装置
CN105071968A (zh) * 2015-08-18 2015-11-18 大唐移动通信设备有限公司 一种通信设备的业务面和控制面的隐性故障修复方法和装置
CN105451036A (zh) * 2014-09-18 2016-03-30 中国电信股份有限公司 一种视频质量的监测方法、装置及cdn系统
CN105634787A (zh) * 2014-11-26 2016-06-01 华为技术有限公司 网络关键指标的评估方法、预测方法及装置和系统
CN105873105A (zh) * 2016-04-22 2016-08-17 中国科学技术大学 一种基于网络体验质量的移动通信网异常检测和定位方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176032A (zh) * 2011-01-13 2011-09-07 北京航空航天大学 一种基于非线性滤波的卫星导航跟踪环路失锁检测方法
CN103379644A (zh) * 2012-04-13 2013-10-30 中国移动通信集团公司 一种载波调度方法及系统
WO2013160438A2 (en) * 2012-04-27 2013-10-31 Nokia Siemens Networks Oy Method for heterogeneous network policy based management
CN104853379A (zh) * 2014-02-18 2015-08-19 中国移动通信集团公司 一种无线网络质量评估方法及装置
CN105451036A (zh) * 2014-09-18 2016-03-30 中国电信股份有限公司 一种视频质量的监测方法、装置及cdn系统
CN105634787A (zh) * 2014-11-26 2016-06-01 华为技术有限公司 网络关键指标的评估方法、预测方法及装置和系统
CN105071968A (zh) * 2015-08-18 2015-11-18 大唐移动通信设备有限公司 一种通信设备的业务面和控制面的隐性故障修复方法和装置
CN105873105A (zh) * 2016-04-22 2016-08-17 中国科学技术大学 一种基于网络体验质量的移动通信网异常检测和定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HANS-PETER KRIEGEL, PEER KRÖGER, ERICH SCHUBERT, ARTHUR ZIMEK: "LoOP: Local Outlier Probabilities", 《CIKM》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819190A (zh) * 2019-11-15 2021-05-18 上海杰之能软件科技有限公司 设备性能的预测方法及装置、存储介质、终端
CN112819190B (zh) * 2019-11-15 2024-01-26 上海杰之能软件科技有限公司 设备性能的预测方法及装置、存储介质、终端

Also Published As

Publication number Publication date
CN108260148B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
Jablonski et al. Modeling of probability distribution functions for automatic threshold calculation in condition monitoring systems
CN110335168B (zh) 基于gru优化用电信息采集终端故障预测模型的方法及系统
CN112416643A (zh) 无监督异常检测方法与装置
CN109753762B (zh) 基于类别修正的配电网两阶段网络拓扑识别方法及装置
CN105205113A (zh) 一种时序数据异常变化过程的挖掘系统及方法
CN110389269A (zh) 基于电流优化匹配的低压台区拓扑关系识别方法及其装置
CN115587543A (zh) 基于联邦学习和lstm的刀具剩余寿命预测方法及系统
CN110690701A (zh) 一种异常线损影响因素的分析方法
Dong Combining unsupervised and supervised learning for asset class failure prediction in power systems
WO2017220107A1 (en) Method and network node for detecting degradation of metric of telecommunications network
CN110059126B (zh) 基于lkj异常值数据的复杂关联网络分析方法及系统
CN108260148A (zh) 一种故障检测方法及装置
CN113726558A (zh) 基于随机森林算法的网络设备流量预测系统
CN112904148A (zh) 智能电缆运行监测系统、方法及装置
CN110532122B (zh) 故障分析方法及系统、电子设备、存储介质
EP4034952A1 (en) Method and system for identification and analysis of regime shift
CN116975748A (zh) 一种烟支重量标准偏差精准诊断方法
EP2947910A2 (en) Performance optimizations for wireless access points
CN113377630B (zh) 一种通用的kpi异常检测框架实现方法
CN111199419B (zh) 股票异常交易的识别方法及系统
CN111241145A (zh) 一种基于大数据的自愈规则挖掘方法及装置
CN114356900A (zh) 一种电力数据异常检测方法、装置、设备及介质
CN114021744A (zh) 设备的剩余使用寿命的确定方法、装置和电子设备
CN110569277A (zh) 一种配置数据信息自动识别与归类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant