CN108650684B - 一种关联规则确定方法及装置 - Google Patents

一种关联规则确定方法及装置 Download PDF

Info

Publication number
CN108650684B
CN108650684B CN201810144342.9A CN201810144342A CN108650684B CN 108650684 B CN108650684 B CN 108650684B CN 201810144342 A CN201810144342 A CN 201810144342A CN 108650684 B CN108650684 B CN 108650684B
Authority
CN
China
Prior art keywords
network parameters
target
target network
determining
network parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810144342.9A
Other languages
English (en)
Other versions
CN108650684A (zh
Inventor
金雨超
李峻洋
郭景赞
乔自知
李德屹
郭省力
李京辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201810144342.9A priority Critical patent/CN108650684B/zh
Publication of CN108650684A publication Critical patent/CN108650684A/zh
Application granted granted Critical
Publication of CN108650684B publication Critical patent/CN108650684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种关联规则确定方法及装置,涉及通信领域,包括:获取N个网络参数的测量值,根据所述N个网络参数中的目标网络参数对所述N个网络参数的测量值进行分级化处理;所述N为大于等于2的整数;根据分级化处理获得的数据确定包括所述目标网络参数的目标频繁项集,确定每一个所述目标频繁项集包括的关联规则;将确定的关联规则中,后件为所述目标网络参数且前件对所述后件的提升度大于1的关联规则确定为所述目标网络参数的关联规则。

Description

一种关联规则确定方法及装置
技术领域
本发明实施例涉及通信领域,尤其涉及一种关联规则确定方法及装置。
背景技术
随着LTE网络负荷的逐渐增大,网络在运行过程中会遇到各种各样的网络异常问题。如装置链路异常、网络资源超负荷、热点区域无法接入等。
现网运行中,针对出现的网络异常问题,需要提取问题网络的告警信息,由网络优化人员结合提取到的告警信息与本地网络的性能数据、参数数据和原始信令流等多数据源进行联合分析,根据经验在海量的数据源中筛选数据,定位导致网络异常的原因并提出解决方案。可见,现有技术需要花费时间、人力等进行问题定位,网络问题定位的效率较低,且问题定位结果很大程度上依赖于网络优化人员的经验储备,准确性不稳定。
发明内容
本申请提供一种关联规则确定方法及装置,能够确定网络性能数据之间的关联关系,为网络异常分析提供数据支持,保证网络问题定位的准确性及高效性。
为达到上述目的,本申请采用如下技术方案:
第一方面,公开了一种关联规则确定方法,包括:
获取N个网络参数的测量值,根据所述N个网络参数中的目标网络参数对所述N个网络参数的测量值进行分级化处理;所述N为大于等于2的整数;
根据分级化处理获得的数据确定包括所述目标网络参数的目标频繁项集,确定每一个所述目标频繁项集包括的关联规则;
将确定的关联规则中,后件为所述目标网络参数且前件对所述后件的提升度大于1的关联规则确定为所述目标网络参数的关联规则。
结合第一方面,在第一方面的第一种可能的实现方式中,所述获取N个网络参数的测量值具体包括:
获取满足预设条件的网络参数的测量值,对获取到的网络参数的测量值进行预处理,获得所述N个网络参数的测量值;
其中,所述预设条件为预设时间段内或预设地点范围内的网络性能数据;所述预处理包括删除异常测量值、归一化处理、填充缺失值中的至少一个。
结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述根据所述N个网络参数中的目标网络参数对所述N个网络参数的测量值进行分级化处理具体包括:
确定所述目标网络参数的分级边界值,根据所述分级边界值将所述目标网络参数的测量值转化为多个不同的离散数值;
针对所述N个网络参数中除所述目标网络参数外的每一个网络参数,根据所述离散数值计算该网络参数的测量值的和所述目标网络参数的测量值所构成集合S的信息熵H(S);
对所述N个网络参数中除所述目标网络参数外的每一个网络参数进行分组获得N个集合S1、S2......SN,所述N个集合的信息熵以及所述集合S的信息熵H(S)满足:
Figure GDA0002947628860000021
其中,|S|是集合S的样本量,|Si|是所述N个集合中的第i个集合的样本量,H(Si)是所述第i个集合的信息熵。
结合第一方面或以上第一方面的任意一种可能的实现方式,在第一方面的第三种可能的实现方式中,根据分级化处理获得的数据确定包括目标网络参数的频繁项集具体包括:
针对所述多个不同的离散数值中的每一个离散数值,确定包含该离散数值的所有项集,计算该离散数值对所有项集的支持度,将支持度大于第二门限阈值的项集确定为包含该离散数值对应的频繁项集;
将所述多个不同的离散数值对应的频繁项集确定为所述包括目标网络参数的频繁项集。
结合第一方面或以上第一方面的任意一种可能的实现方式,在第一方面的第四种可能的实现方式中,所述确定所有频繁项集包括的关联规则具体包括:
针对每一个所述目标频繁项,根据该目标频繁项集中的任意两个项目生成该目标频繁项集中的关联规则;所述任意两个项目对应两个不同的网络参数。
结合第一方面或以上第一方面的任意一种可能的实现方式,在第一方面的第五种可能的实现方式中,所述方法还包括:
确定所述目标网络参数出现异常,根据所述目标网络参数的关联规则进行网络异常分析,确定导致所述目标网络参数出现异常的原因。
第二方面,其特征在于一种装置,包括:
数据提取单元,用于获取N个网络参数的测量值;所述N为大于等于2的整数;
分级化处理单元,用于根据所述N个网络参数中的目标网络参数对所述N个网络参数的测量值进行分级化处理;
关联规则挖掘单元,用于根据分级化处理获得的数据确定包括所述目标网络参数的目标频繁项集,确定每一个所述目标频繁项集包括的关联规则;将确定的关联规则中,后件为所述目标网络参数且前件对所述后件的提升度大于1的关联规则确定为所述目标网络参数的关联规则。
结合第二方面,在第二方面的第一种可能的实现方式中,所述分级化处理单元具体用于,获取满足预设条件的网络参数的测量值,对获取到的网络参数的测量值进行预处理,获得所述N个网络参数的测量值;
其中,所述预设条件为预设时间段内或预设地点范围内的网络性能数据;所述预处理包括删除异常测量值、归一化处理、填充缺失值中的至少一个。
结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述分级化处理单元具体用于,确定所述目标网络参数的分级边界值,根据所述分级边界值将所述目标网络参数的测量值转化为多个不同的离散数值;
针对所述N个网络参数中除所述目标网络参数外的每一个网络参数,根据所述离散数值计算该网络参数的测量值的和所述目标网络参数的测量值所构成集合S的信息熵H(S);
对所述N个网络参数中除所述目标网络参数外的每一个网络参数进行分组获得N个集合S1、S2......SN,所述N个集合的信息熵以及所述集合S的信息熵H(S)满足:
Figure GDA0002947628860000031
其中,|S|是集合S的样本量,|Si|是所述N个集合中的第i个集合的样本量,H(Si)是所述第i个集合的信息熵。
结合第二方面或以上第二方面的任意一种可能的实现方式,在第二方面的第三种可能的实现方式中,所述关联规则挖掘单元具体用于,针对所述多个不同的离散数值中的每一个离散数值,确定包含该离散数值的所有项集,计算该离散数值对所有项集的支持度,将支持度大于第二门限阈值的项集确定为包含该离散数值对应的频繁项集;
将所述多个不同的离散数值对应的频繁项集确定为所述包括目标网络参数的频繁项集。
结合第二方面或以上第二方面的任意一种可能的实现方式,在第二方面的第四种可能的实现方式中,所述关联规则挖掘单元具体用于,针对每一个所述目标频繁项,根据该目标频繁项集中的任意两个项目生成该目标频繁项集中的关联规则;所述任意两个项目对应两个不同的网络参数。
结合第二方面或以上第二方面的任意一种可能的实现方式,在第二方面的第五种可能的实现方式中,还包括异常分析单元,用于确定所述目标网络参数出现异常,根据所述目标网络参数的关联规则进行网络异常分析,确定导致所述目标网络参数出现异常的原因。
附图说明
图1为本发明实施例提供的装置的结构示意图;
图2为本发明实施例提供的关联规则确定方法的原理图;
图3为本发明实施例提供的关联规则确定方法的流程示意图;
图4为本发明实施例提供的装置的另一结构示意图;
图5为本发明实施例提供的装置的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述。
在网络出现异常问题时,传统的运维优化方式受限于网络优化人员的眼界与能力,只能通过人工经验来分析定位网络异常原因。同时由于现网中装置的多样性,要求网络优化的工作人员必须熟悉各厂家不同装置的性能指标与参数设置,就为网络优化人员带来更大的难度和挑战,同时,需要花费时间、人力等进行问题定位,网络问题定位的效率较低,且网络问题定位结果很大程度上依赖于网络优化人员的经验储备,准确性不稳定。
本发明实施例提供一种关联规则确定方法,可以获取网络参数的测量值,使用数据挖掘算法挖掘挖掘网络参数之间的关联规则,首先根据目标网络参数(如:出现异常的网络参数)对获取到的测量值进行分级化处理,进一步,根据分级化处理获得的数据确定包含目标获取网络参数的频繁项集。随后,确定这些频繁项集所包括的项目之间的关联规则,最终将后件为目标网络参数,且前件对后件提升度大于1的关联规则确定为目标网络参数的关联规则。当确定所述目标网络参数出现异常时,可以根据所述目标网络参数的关联规则进行网络异常分析,确定导致所述目标网络参数出现异常的原因。示例的:网络参数A的关联规则是:前件为网络参数B偏低,后件为网络参数A偏高(即由网络参数B的出现可以导致网络参数B的出现),当网络参数A出现异常(如:偏高),有可能是网络参数B偏低导致的。在一定程度上通过机器学习来代替人工经验。为网络异常分析提供数据支持,保证网络问题定位的准确性及高效性。
本发明实施例提供的方案可以应用于图1所示的装置,如图1所示,所述装置由包括数据提取单元101、分级化处理单元102和关联规则挖掘单元103。
参考图2,数据提取单元101负责与外部平台相连,获取待处理的数据,如:本发明实施例所述的网络参数的测量值。分级化处理单元102负责对获取到的原始数据进行清洗、去重、筛选、分级化等预处理操作。关联规则挖掘单元103负责应用不同的数据挖掘算法完成关联规则的挖掘。
本发明实施例提供一种关联规则确定方法,应用于LTE网络无线侧数据源分析与问题定位过程。如图3所示,所述方法包括以下步骤:
201、获取N个网络参数的测量值,N为大于等于2的整数。
需要说明的是,网络参数可以是表征网络性能的参数,如:小区用户平均速率、无线资源控制(radio resource control,RRC)接入成功率、小区平均用户数、平均物理下行控制信道(physical downlink control channel,PDCCH)占用率、物理资源块(physicalresource block,PRB)平均利用率等。
具体实现中,当网络发生异常时,会发出告警信息。数据提取模块获取告警信息后,对告警信息进行分析,可以获得告警信息反映的网络异常点(如:PRB平均利用率异常)。另外,数据提取模块还可以从统一平台获取预设获取地点范围内、预设时间内的网络性能数据(可以认为是本发明实施例所述的网络参数的测量值)。其中,统一平台可以是运营商的网络运行维护平台,记录有全网的运行数据。
另外,本发明实施例中在获取网络异常点后,获取网络性能数据(网络参数的测量值),以便对网络性能数据数据是以条目的形式记录。表1给出了网络参数的测量值的一种可能的实现方式。
表1
Figure GDA0002947628860000041
表1中,一行数据可以认为是一个条目,表格内的数值为网络参数的测量值。一个条目可以包括每一个网络参数的测量值,也可以不包含全部的网络参数的测量值,如:第一行数据中PDCCH占用率为“*”,代表该条目缺失“PDCCH占用率”的测量值。
随后,数据预处理模块对获得的原始数据进行预处理操作,所谓预处理具体可以是以下几种操作:
(1)删除数据中的异常值和离群点;
其中,异常值可以是表1中RRC接入成功率105%的点,离群点可以是RRC接入成功率是5.4%的点。这是由于RRC连接成功率是小于1的数,同时现网中RRC接入成功率正常是在92%以上。对于删除异常值或离群点后缺失数值的条目,可以用众数填充。
示例的,表1中删除105%和5.4%后,可以用98.2%填充。
(2)对数据进行标准化,将绝对值过高和绝对值过低的测量值进行归一化;
具体实现中,以网络参数为粒度进行标准化,即将某个网络参数的测量值中绝对值过高和绝对值过低的进行归一化。示例的,表1中小区用户平均速率相较其他网络参数的测量值较大,可以将小区用户平均速率归一化为0~1范围内的数值。当然,根据归一化后的结果可以反推出真实的用户平均速率。如:将表1中用户平均速率统一除以100,条目1中的500Kb/S除以100为5,相应地,可以将用户平均速率统恢复成500Kb/S。另外,也可以对小区平均用户数做同样的处理,将表1中用户平均速率统一除以100。
(3)删除包含大量空白值和null(无效)值的条目;
具体地,收集到的告警信息中有一些条目包括大量的空白值和null值,那么可以将这些条目删除。示例的,上述表1最后一行仅包含一个PRB平均利用率,那么可以把这一行删除,即将这一条目删除。
(4)某些少量属性值缺失的记录使用众数进行填充;
其中,众数:是一组数据中出现次数最多的数值,一组数据中可以有多个众数。
具体地,收集到的告警信息中有一些条目中,某个网络参数的测量值是缺失的,那么可以用该网络参数的众数,即较常出现的测量值进行填充。示例的,上述表1记录的第一个条目中,PDCCH占用率的测量值是缺失的,假设PDCCH占用率的众数为“45%”,那么可以认为第一个条目中缺失的PDCCH占用率为“45%”。上述表1记录的第三个条目中,用户数的测量值是缺失的,假设用户数的众数为“30”,那么可以认为第一个条目中缺失的PDCCH占用率为“30”。
(5)对属性(列)进行维归约操作,合并转化相关度较高的列。
示例的,如果某两列的数据相关性特别高,即某两个网络参数的数据相关性特别高,比如一列数据可以决定另一列数据,那么需要将这两列数据合并处理。
以获取到的告警信息为表1作为示例,对表1进行预处理获得如下表2,即通过表2来记录本发明实施例所述的N个网络参数的测量值,其中,N个网络参数分别是用户用户速率、RRC接入率、用户数、PDCCH占用率、PRB平均利用率。
表2
Figure GDA0002947628860000061
参考表2,经过上述预处理过程,得到平滑、完整的数据,即本发明实施例所述的N个网络参数的测量值。
202、根据所述N个网络参数中的目标网络参数对所述N个网络参数的测量值进行分级化处理。
需要说明的是,所述目标网络参数可以是根据告警信息确定的网络异常点,如:PRB平均利用率异常。本发明实施例中可以使用Apriori算法确定网络参数之间的关联规则,但是Apriori算法通常要求输入的数据为离散型数据。因此,在对获取到的告警信息信息进行预处理后,还需要将对上述步骤201获取到的N个网络参数的测量值进行分级化处理,即将所述N个网络参数的测量值中的连续数值转化成离散数值。具体地,可以通过入最短描述长度原则(minimal description length principal,MDLP)将N个网络参数的测量值离散化。
需要说明的是,数据提取单元101,用于支持支持上述装置设备执行上述实施例中的步骤201,和/或用于本文所描述的技术的其它过程。
分级化处理单元102,用于支持所述装置执行上述实施例中的步骤202,和/或用于本文所描述的技术的其它过程;
关联规则挖掘单元103,用于支持所述装置执行上述实施例中的步骤203,和/或用于本文所描述的技术的其它过程。
本实施例中,根据告警信息确定的网络异常点是PRB平均利用率异常,因此,本发明实施例需要利用Apriori算法挖掘出PRB平均利用率中与其他网络参数之间的关联规则,进一步,需要以PRB平均利用率作为分级化算法的监督变量来完成其他字段的分级化过程,具体包括以下两个步骤:
第一、数据预处理模块首先根据确定目标网络参数(如上述PRB平均利用率)的分级边界值,根据所述分级边界值将所述目标网络参数的测量值转化为多个不同的离散数值。其中,目标网络参数的分级边界值可以认为是目标网络参数设置的门限值。
示例的,PRB平均利用率设置有TP1和TP2两个门限值,其中,TP1小于TP2,示例的,TP1为20%,TP2为70%。当PRB平均利用率小于TP1时,认为PRB平均利用率低;当PRB平均利用率大于TP1小于TP2时,认为PRB平均利用率低中;当PRB平均利用率大于TP2时,认为PRB平均利用率过高,处于异常状态。上述TP1和TP2可以认为是PRB平均利用率的分级边界。参考表2,其中,第一个条目中的PRB平均利用率为80%,第二个条目中的PRB平均利用率为30%、第三个条目中的PRB平均利用率为70%、第四个条目中的PRB平均利用率为5%,其中,80%大于70%,可以认为PRB平均利用率异常,可以将第一个条目中的PRB平均利用率记为“10”,即PRB平均利用率偏高;30%、70%在20%~70%的范围内,可以将第二、第三个条目中的PRB平均利用率记为“01”,即PRB平均利用率异中等;5%小于20%,可以将第四个条目中的PRB平均利用率记为“00”,即PRB平均利用率异偏低。
当然,PRB平均利用率的门限不仅仅局限于本发明实施例提供的示例,还可以是其他数值,本发明实施例对此不做限制。另外,对“PRB平均利用率偏高”、“PRB平均利用率异中等”、“PRB平均利用率异偏低”的标记也不仅仅局限于本发明实施例提供的示例,还可以是其他数值,本发明实施例对此不做限制。
第二、数据预处理模块根据目标网络参数分级边界值对上述N个网络参数中除所述目标网络参数外的每一个网络参数的测量值进行分组。
由于本发明实施例的目的在于挖掘目标网络参数与其他网络参数之间的关联关系,因此需要以目标网络参数作为分级化算法的监督变量来完成其他网络参数的分级化过程。示例的,目标网络参数为PRB平均利用率,PRB平均利用率设置的门限值分别为TP1和TP2,可以根据TP1和TP2对其他网络参数的测量值进行分组。
需要说明的是,MDLP算法的基本要求是:对一组数据进行分组后的输入变量对输出变量取值的解释能力显著低于分组之前,也就是说数据分组后的信息熵应该大于数据分组之前的信息熵,即分组后的信息增益大于第一预设门限值。
具体实现中,针对所述N个网络参数中除所述目标网络参数外的每一个网络参数,根据所述离散数值计算该网络参数的测量值的和所述目标网络参数的测量值所构成集合S的信息熵H(S);
对所述N个网络参数中除所述目标网络参数外的每一个网络参数进行分组获得N个集合S1、S2......SN,所述N个集合的信息熵以及所述集合S的信息熵H(S)满足:
Figure GDA0002947628860000071
其中,|S|是集合S的样本量,|Si|是所述N个集合中的第i个集合的样本量,H(Si)是所述第i个集合的信息熵。
以下以平均PDCCH占用率为例介绍如何根据目标网络参数对其他网络参数进行分级化处理:
表2中平均PDCCH占用率的测量值PRB平均利用率的测量值构成样本集合S。表3是样本集合S的一种可能的实现方式。
表3
平均PDCCH占用率 PRB平均利用率
45% 80%
20% 70%
55% 40%
40% 5%
那么样本集合S的信息熵H(S)为:
Figure GDA0002947628860000072
其中,PRB平均利用率的测量值分级化处理后有N个离散数值,Ci表示PRB平均利用率对应的第i个离散数值,P(Ci,S)表示样本集合S中Ci出现的概率。
对平均PDCCH占用率,以50%为边界值可将样本集合S划分为S1和S2两个子样本,示例的,样本集合S1如表4所示,样本集合S2如表5所示。
表4
平均PDCCH占用率 PRB平均利用率
45% 80%
55% 40%
40% 5%
表5
平均PDCCH占用率 PRB平均利用率
20% 70%
此时条件信息熵I为:
Figure GDA0002947628860000081
其中|S1|、|S2|和|S|为样本集S1、S2和S的样本量,即各自包含的测量值的数量。H(S1)和H(S2)为子样本集S1、S2的信息熵,具体计算方法参考上述计算样本集合S信息熵的公式,在此不做赘述。那么,输入变量A的分组边界值T带来的信息增益G为:
G=H(S)-I。
如果按照TP1(上述50%)划分样本集合S后的信息增益大于预设门限(如:本发明实施例所述的第一预设门限值),还可以根据TP1继续划分样本集合S,直到信息增益不大于预设门限值,则停止继续分组,获得最终的分级化结果。
需要说明的是,分级化处理后平均PDCCH占用率也转化成离散数值,示例的,样本集合S1中的平均PDCCH占用率记为0,样本集合S2中的平均PDCCH占用率记为1。
完成分级化处理后,预处理模块输出的数据结果是离散型数据。以下表3给出了分级化处理后的一种可能实现。
表6
Figure GDA0002947628860000082
203、根据分级化处理获得的数据确定包括所述目标网络参数的目标频繁项集,确定每一个所述目标频繁项集包括的关联规则。
本专利中将使用Apriori算法挖掘数据集中的频繁项集与关联规则,得出与异常网络参数关联紧密的网络参数,形成网络经验库,为后续的网络优化工作提供数据支持。在本发明实施例中可以利用Apriori算法生成包含目标网络参数的频繁项集,进一步根据这些频繁项集生成与目标网络参数相关的关联规则。这是由于只有在频繁项集中生成的关联规则才具有普遍的代表性,如果规则的支持度太低,即无法构成频繁项集,则无法挖掘出有效的关联规则。
首先对频繁项集进行介绍。所谓频繁项集指的是对于包含项目A的项集C,如果其支持度SA大于或等于预设的门限值(即本发明实施例第二预设门限值),可以是用户给定的最小支持度,即
Figure GDA0002947628860000091
当包含项目A的项集C满足上述公式时,则称C(A)为频繁项集。其中,项目可以认为是表6中的一个单元项,项目A可以认为是目标网络参数的测量值分级化处理后的一个离散数值,如上述代表PRB平均利用率偏低的“00”;|T(A)|表示样本集合中包含项集A的条目数,可以认为是表3中包含项目A的条目数;|T|表示样本集合项目总数,可以认为是表3中项目的总数。
仅包含1个项目的频繁项集称为频繁1-项集,记为L1;包含k个项目的频繁项集称为频繁k-项集,记为Lk。Apriori算法获取频繁项集的策略是自底向上的,从包含少量项目的项集开始依次向包含多个项目的项集搜索。其搜索方法为,如果最底层中只包含D项的1-项集(即仅包含一个项目D的项集)不是频繁项集,则以D项作为子集的其他所有项集都不可能是频繁项集,可以将这部分项集直接淘汰。
寻找频繁项集的过程是一个不断迭代的过程,每次迭代都包含两个步骤:首先,将分级化处理后的离散型数据输入关联规则挖掘模块103,关联规则挖掘模块103根据分级化处理后的数据生成包含目标项目(目标网络参数分级化处理后的离散数值)的候选项集Ck,即有可能成为频繁项集的项目集合;然后,基于候选集Ck计算支持度,在候选集Ck中确定频繁项集Lk。参考图3,具体包括以下步骤:
S1、生成包含目标项目的1-项集,计算这些1-项集中每一个的支持度。
其中,目标项目可以是目标网络参数分级化处理后的离散数值,如上述PRB平均利用率分级化后的三个离散数值“00”“01”“10”。
参考表6,“00”“01”“10”分别是一个1-项集。表6构成一个样本集合,分别计算这三个1-项集在该样本集合中的支持度,支持度大于预设门限值的1-项集进入后续流程。支持度的计算方法参考以上支持度SA的计算方法,在此不做赘述。
S2、确定包含支持度大于预设门限值的1-项集的k-项集,计算这些k-项集的支持度,将这些k-项集中支持度大于预设门限值的k-项集确定为包含目标网络参数的频繁项集。
当一个项集不是频繁项集,则以该项集作为子集的其他所有项集都不可能是频繁项集,可以将这部分项集直接淘汰,即对于步骤S1计算出来的支持度小于预设门限值的1-项集,不再进入后续流程。而支持度不小于预设门限值的1-项集(记为频繁1-项集),以这些项集作为子集的其他所有项集有可能是频繁项集,可以进入后续流程。
具体地,以迭代的方式确定后续的频繁项集。示例的,首先确定包含上述频繁1-项集的2-项集,计算这些2-项集的支持度。筛选出支持度不小于预设门限值的2-项集(记为频繁2-项集)。进一步,确定包含上述选中的2-项集的3-项集,计算这些3-项集的支持度。筛选出支持度不小于预设门限值的3-项集(记为频繁3-项集),再确定包含频繁3-项集的4-项集,确定其中支持度小于预设门限的4-项集(记为频繁4-项集)。如此往复,直至遍历表6中的所有项目,直至没有新的项集的产生。
最后,需要根据确定出来的频繁项集确定包含目标网络参数的关联规则。通常关联规则可以记为X->Y,可以理解为由于X的出现导致Y的出现,其中,X为原因,可以称为前件,Y为结果,可以称为后件。具体实现中,频繁项集中的任意不属于同一网络参数的两个项目就可以构成一条规则。示例的,频繁项集包括ABCDE四个元素,其中A是目标网络参数分级化处理后的一个离散数值,包括目标项目网络参数的规则可以是,确定出来的关联规则可以是,B为前件A为后件的规则、C为前件A为后件的规则、D为前件A为后件的规则、E为前件A为后件的规则、A为前件B为后件的规则、A为前件C为后件的规则、A为前件D为后件的规则、A为前件E为后件的规则。
由于本发明实施例需要分析的是目标网络参数(如:PRB资源利用率)出现异常情况的原因,因此需要筛选出后件包含目标网络参数的规则。
进一步,还需要计算筛选出来的每一条规则的置信度,置信度高于门限值(如:用户指定的最小支持度)的规则才能够称为一条关联规则,置信度低,则表明这两个项目之间的关联并不强,不能构成关联规则。
具体地,关联规则挖掘模块103计算X作为前件,Y作为后件生成规则的置信度,公式如下
Figure GDA0002947628860000101
其中|T(X∩Y)|表示样本集合中X和Y同时出现的次数,|T(X)|表示样本集合中X出现的次数。如果CX→Y大于最小置信度Cmin,则生成关联规则XY。
204、将确定的关联规则中,后件为所述目标网络参数且前件对所述后件的提升度大于1的关联规则确定为所述目标网络参数的关联规则。
在关联规则挖掘模块103中设置应用Apriori算法,将分级化后的数据作为待分析数据输入关联规则挖掘模块103中,输出频繁项集和关联规则。可以认为设置不同的支持度和置信度,获取不同等级的关联规则。
另外,得到关联规则后,还需要需要判断关联规则的实用性,这里我们使用规则提升度(增益)作为规则实用性的测度指标,公式如下:
Figure GDA0002947628860000102
其中CX→Y表示的是规则X→Y的置信度,SY表示的是项目Y的支持度。规则提升度反映了项目X的出现对项目Y出现的影响程度。当提升度大于1时,这项规则才是有意义的,表示X出现对Y的出现有促进作用。
根据上述描述,在步骤203计算出的关联规则中筛选出提升度大于1且后件为目标网络参数的规则,形成有效规则集R。R中所有规则的前件为数据分析的结果,即可能引起目标网络参数异常的网络参数的取值范围。
在网络优化分析中引入数据挖掘算法,更新了传统的网络优化工作的角度,可以在故障出现后累计的样本数据中使用机器学习的方法获得的经验只是,挖掘反应故障点问题的字段属性与其他指标之间的隐含关系,从而形成频繁项集和规则。在网络的日常运行维护过程中,可以应用已经得出的规则去评估网络运行状态,同时可以提取新的性能数据继续进行数据关联规则的挖掘,不断提升规则的准确性,实现数据的闭环应用。通过性能数据的关联规则挖掘流程,实现对资源的负荷进行监测和合理的预期。
示例性的,在采用集成的单元的情况下,本申请实施例提供的装置的结构示意图如图4所示。在图4中,该装置包括:处理模块301和通信模块302。处理模块301用于对装置的动作进行控制管理,例如,执行上述数据提取单元101、分级化处理单元102以及关联规则挖掘单元103执行的步骤,和/或用于执行本文所描述的技术的其它过程。通信模块302用于支持装置与其他装置之间的交互。如图5所示,所述装置还可以包括存储模块303,存储模块303用于存储装置的程序代码和数据。
当处理模块301为处理器,通信模块302为收发器,存储模块303为存储介质时,装置可以为图5所示的装置。
如图5所示,该用户装置可以包括至少一个处理器401,存储器402、收发器403以及通信总线404。
下面结合图5对该用户装置的各个构成部件进行具体的介绍:
处理器401是用户装置的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器401是一个中央处理器(central processing unit,CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路,例如:一个或多个微处理器(digital signalprocessor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)。
其中,处理器401可以通过运行或执行存储在存储器402内的软件程序,以及调用存储在存储器402内的数据,执行用户装置的各种功能。
在具体的实现中,作为一种实施例,处理器401可以包括一个或多个CPU,例如图5中所示的CPU0和CPU1。
在具体实现中,作为一种实施例,用户装置可以包括多个处理器,例如图5中所示的处理器401和处理器405。这些处理器中的每一个可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
存储器402可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储装置,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储装置,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储装置、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器402可以是独立存在,通过通信总线404与处理器401相连接。存储器402也可以和处理器401集成在一起。
其中,所述存储器402用于存储执行本发明方案的软件程序,并由处理器401来控制执行。
收发器403,使用任何收发器一类的装置,用于与图1系统中的其他装置间的通信,如图1中的基站或其他用户装置等。还可以用于与通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(Wireless Local Area Networks,WLAN)等。收发器403可以包括接收单元实现接收功能,以及发送单元实现发送功能。
通信总线404,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部装置互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
图5中示出的装置结构并不构成对用户装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在上述实施例中,可以全部或部分的通过软件,硬件,固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式出现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘,硬盘、磁带)、光介质(例如,DVD)或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种关联规则确定方法,其特征在于,包括:
获取N个网络参数的测量值,根据所述N个网络参数中的目标网络参数对所述N个网络参数的测量值进行分级化处理;所述N为大于等于2的整数;
根据分级化处理获得的数据确定包括所述目标网络参数的目标频繁项集,确定每一个所述目标频繁项集包括的关联规则;
将确定的关联规则中,后件为所述目标网络参数且前件对所述后件的提升度大于1的关联规则确定为所述目标网络参数的关联规则;
所述根据所述N个网络参数中的目标网络参数对所述N个网络参数的测量值进行分级化处理具体包括:
确定所述目标网络参数的分级边界值,根据所述分级边界值将所述目标网络参数的测量值转化为多个不同的离散数值;
针对所述N个网络参数中除所述目标网络参数外的每一个网络参数,根据所述离散数值计算该网络参数的测量值的和所述目标网络参数的测量值所构成集合S的信息熵H(S);
对所述N个网络参数中除所述目标网络参数外的每一个网络参数进行分组获得N个集合S1、S2......SN,所述N个集合的信息熵以及所述集合S的信息熵H(S)满足:
Figure FDA0002762397320000011
其中,|S|是集合S的样本量,|Si|是所述N个集合中的第i个集合的样本量,H(Si)是所述第i个集合的信息熵。
2.根据权利要求1所述的方法,其特征在于,所述获取N个网络参数的测量值具体包括:
获取满足预设条件的网络参数的测量值,对获取到的网络参数的测量值进行预处理,获得所述N个网络参数的测量值;
其中,所述预设条件为预设时间段内或预设地点范围内的网络性能数据;所述预处理包括删除异常测量值、归一化处理、填充缺失值中的至少一个。
3.根据权利要求1所述的方法,其特征在于,根据分级化处理获得的数据确定包括目标网络参数的频繁项集具体包括:
针对所述多个不同的离散数值中的每一个离散数值,确定包含该离散数值的所有项集,计算该离散数值对所有项集的支持度,将支持度大于第二门限阈值的项集确定为包含该离散数值对应的频繁项集;
将所述多个不同的离散数值对应的频繁项集确定为所述包括目标网络参数的频繁项集。
4.根据权利要求3所述的方法,其特征在于,所述确定所有频繁项集包括的关联规则具体包括:
针对每一个所述目标频繁项,根据该目标频繁项集中的任意两个项目生成该目标频繁项集中的关联规则;所述任意两个项目对应两个不同的网络参数。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
确定所述目标网络参数出现异常,根据所述目标网络参数的关联规则进行网络异常分析,确定导致所述目标网络参数出现异常的原因。
6.一种关联规则确定装置,其特征在于,包括:
数据提取单元,用于获取N个网络参数的测量值;所述N为大于等于2的整数;
分级化处理单元,用于根据所述N个网络参数中的目标网络参数对所述N个网络参数的测量值进行分级化处理;
关联规则挖掘单元,用于根据分级化处理获得的数据确定包括所述目标网络参数的目标频繁项集,确定每一个所述目标频繁项集包括的关联规则;将确定的关联规则中,后件为所述目标网络参数且前件对所述后件的提升度大于1的关联规则确定为所述目标网络参数的关联规则;
所述分级化处理单元具体用于,确定所述目标网络参数的分级边界值,根据所述分级边界值将所述目标网络参数的测量值转化为多个不同的离散数值;
针对所述N个网络参数中除所述目标网络参数外的每一个网络参数,根据所述离散数值计算该网络参数的测量值的和所述目标网络参数的测量值所构成集合S的信息熵H(S);
对所述N个网络参数中除所述目标网络参数外的每一个网络参数进行分组获得N个集合S1、S2......SN,所述N个集合的信息熵以及所述集合S的信息熵H(S)满足:
Figure FDA0002762397320000021
其中,|S|是第集合S的样本量,|Si|是所述N个集合中的第i个集合的样本量,H(Si)是所述第i个集合的信息熵。
7.根据权利要求6所述的装置,其特征在于,所述分级化处理单元具体用于,获取满足预设条件的网络参数的测量值,对获取到的网络参数的测量值进行预处理,获得所述N个网络参数的测量值;
其中,所述预设条件为预设时间段内或预设地点范围内的网络性能数据;所述预处理包括删除异常测量值、归一化处理、填充缺失值中的至少一个。
8.根据权利要求6所述的装置,其特征在于,所述关联规则挖掘单元具体用于,针对所述多个不同的离散数值中的每一个离散数值,确定包含该离散数值的所有项集,计算该离散数值对所有项集的支持度,将支持度大于第二门限阈值的项集确定为包含该离散数值对应的频繁项集;
将所述多个不同的离散数值对应的频繁项集确定为所述包括目标网络参数的频繁项集。
9.根据根据权利要求8所述的装置,其特征在于,所述关联规则挖掘单元具体用于,针对每一个所述目标频繁项,根据该目标频繁项集中的任意两个项目生成该目标频繁项集中的关联规则;所述任意两个项目对应两个不同的网络参数。
10.根据根据权利要求7-9任一项所述的装置,其特征在于,还包括异常分析单元,用于确定所述目标网络参数出现异常,根据所述目标网络参数的关联规则进行网络异常分析,确定导致所述目标网络参数出现异常的原因。
CN201810144342.9A 2018-02-12 2018-02-12 一种关联规则确定方法及装置 Active CN108650684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810144342.9A CN108650684B (zh) 2018-02-12 2018-02-12 一种关联规则确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810144342.9A CN108650684B (zh) 2018-02-12 2018-02-12 一种关联规则确定方法及装置

Publications (2)

Publication Number Publication Date
CN108650684A CN108650684A (zh) 2018-10-12
CN108650684B true CN108650684B (zh) 2021-03-23

Family

ID=63744169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810144342.9A Active CN108650684B (zh) 2018-02-12 2018-02-12 一种关联规则确定方法及装置

Country Status (1)

Country Link
CN (1) CN108650684B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656969A (zh) * 2018-11-16 2019-04-19 北京奇虎科技有限公司 数据异动分析方法及装置
CN111241145A (zh) * 2018-11-28 2020-06-05 中国移动通信集团浙江有限公司 一种基于大数据的自愈规则挖掘方法及装置
CN111341454B (zh) * 2018-12-19 2023-07-25 中国电信股份有限公司 数据挖掘方法和装置
CN110543779B (zh) * 2019-09-05 2023-04-07 国网山西省电力公司阳泉供电公司 数据处理方法及装置
CN112953737B (zh) * 2019-11-26 2023-07-28 中兴通讯股份有限公司 配置异常检测方法、服务器以及存储介质
CN112989124B (zh) * 2019-12-02 2023-04-07 中国移动通信集团浙江有限公司 多网联动数据协同配置方法、装置、计算设备及存储介质
CN111159273B (zh) * 2019-12-31 2023-07-18 中国联合网络通信集团有限公司 数据流处理方法、装置、服务器及存储介质
CN111683273A (zh) * 2020-06-02 2020-09-18 中国联合网络通信集团有限公司 视频卡顿信息的确定方法及装置
CN116647416B (zh) * 2023-07-27 2023-11-07 深圳大学 网络安全指标推荐方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098175A (zh) * 2011-01-26 2011-06-15 浪潮通信信息系统有限公司 一种移动互联网告警关联规则获取方法
CN105376247A (zh) * 2015-11-30 2016-03-02 睿峰网云(北京)科技股份有限公司 一种基于频繁算法的异常流量的识别方法及装置
WO2017157262A1 (en) * 2016-03-14 2017-09-21 Huawei Technologies Co., Ltd. System and method for rule generation using data processed by binary classifier
CN107391515A (zh) * 2016-05-17 2017-11-24 李明轩 基于关联规则分析的电力系统指标分析方法
CN107463665A (zh) * 2017-08-01 2017-12-12 广东云下汇金科技有限公司 一种数据关联规则挖掘算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098175A (zh) * 2011-01-26 2011-06-15 浪潮通信信息系统有限公司 一种移动互联网告警关联规则获取方法
CN105376247A (zh) * 2015-11-30 2016-03-02 睿峰网云(北京)科技股份有限公司 一种基于频繁算法的异常流量的识别方法及装置
WO2017157262A1 (en) * 2016-03-14 2017-09-21 Huawei Technologies Co., Ltd. System and method for rule generation using data processed by binary classifier
CN107391515A (zh) * 2016-05-17 2017-11-24 李明轩 基于关联规则分析的电力系统指标分析方法
CN107463665A (zh) * 2017-08-01 2017-12-12 广东云下汇金科技有限公司 一种数据关联规则挖掘算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于MDLP-Apriori算法的离散shannon熵值标签排序;于磊等;《计算机应用研究》;20160630;全文 *
基于通信大数据挖掘的网络业务类型划分方法研究;李强等;《移动通信》;20171230;全文 *

Also Published As

Publication number Publication date
CN108650684A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108650684B (zh) 一种关联规则确定方法及装置
US10489363B2 (en) Distributed FP-growth with node table for large-scale association rule mining
US9753801B2 (en) Detection method and information processing device
US10839024B2 (en) Detecting important variables and their interactions in big data
US10467226B2 (en) Method for in-database feature selection for high-dimensional inputs
EP4167149A1 (en) Method and apparatus for building predictive model, computing device, and storage medium
CN114465874B (zh) 故障预测方法、装置、电子设备与存储介质
US11645179B2 (en) Method and apparatus of monitoring interface performance of distributed application, device and storage medium
US11704186B2 (en) Analysis of deep-level cause of fault of storage management
CN114116828A (zh) 多维网络指标的关联规则分析方法、设备和存储介质
CN114861039B (zh) 一种搜索引擎的参数配置方法、装置、设备及存储介质
CN117271481B (zh) 数据库自动优化方法及设备
CN117035563B (zh) 产品质量安全风险监测方法、设备、监测系统及介质
CN111552684A (zh) 异常数据定位方法、装置、计算机设备和存储介质
US10089151B2 (en) Apparatus, method, and program medium for parallel-processing parameter determination
CN112750047B (zh) 行为关系信息提取方法及装置、存储介质、电子设备
CN113610225A (zh) 质量评估模型训练方法、装置、电子设备及存储介质
CN117056663B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN109753405B (zh) 应用资源消耗的检测方法、装置、存储介质和电子设备
US20160239363A1 (en) Analysis device and information processing system
JP7121923B2 (ja) データ管理装置、データ管理方法及びプログラム、並びに、シミュレーションシステム
US10805150B2 (en) Regenerative telemetry method for resource reduction
CN118170606A (zh) 一种日志数据检测方法、装置、电子设备及存储介质
CN116860507A (zh) 告警根因确定方法、装置、设备及介质
CN116680536A (zh) 结构化查询语句性能预测方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant