CN110609858A - 一种基于Apriori算法的指标关联方法 - Google Patents
一种基于Apriori算法的指标关联方法 Download PDFInfo
- Publication number
- CN110609858A CN110609858A CN201910876112.6A CN201910876112A CN110609858A CN 110609858 A CN110609858 A CN 110609858A CN 201910876112 A CN201910876112 A CN 201910876112A CN 110609858 A CN110609858 A CN 110609858A
- Authority
- CN
- China
- Prior art keywords
- kpi
- window
- kqi
- perception
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于Apriori算法的指标关联方法,包括以下过程:采集小区的关键质量指标KQI数据和关键绩效指标KPI数据;将每个KPI离散化为一个个窗口形成窗口集;将每个KQI离散化为多个区间;使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的区间之间的强关联规则,获得每个KPI与每个KQI的关联结果。本发明通过实现连续型指标的离散化,从而实现关联分析。
Description
技术领域
本发明涉及数据挖掘中关联分析技术领域,具体涉及一种基于Apriori算法的指标关联方法。
背景技术
随着计算机的飞速发展,数据的来源越来越多样,覆盖范围越来越广泛,人们获得数据的代价越来越小。数据挖掘技术是在人们在面临数据多样性但又很难了解数据背后意义的情况下应运而生的。关联分析主要发现数据集中属性之间的联系,Apriori算法是其中主要的分析方法,研究比较成熟并且应用也广泛。Apriori算法有一个比较严重的限制:它只适用于离散、单维、单层、时序无关的数据,最著名的应用便是“购物篮分析”,但是现实生活中更多的是连续型数据,有的是多维、多层数据,甚至是存在时序关系的数据,Apriori算法都无法处理这些数据。
发明内容
本发明的目的在于克服现有技术中的不足,提出了一种基于Apriori算法的指标关联方法,实现连续型指标的离散化,从而实现关联分析。
为解决上述技术问题,本发明提供了一种基于Apriori算法的指标关联方法,其特征是,包括以下过程:
采集小区的关键质量指标KQI数据和关键绩效指标KPI数据;
将每个KPI离散化为一个个窗口形成窗口集;
将每个KQI离散化为多个区间;
使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的区间之间的强关联规则,获得每个KPI与每个KQI的关联结果。
进一步的,将每个KPI离散化为一个个窗口形成窗口集之前,对KPI数据进行特征分析,去掉其中冗余的KPI。
进一步的,对KPI数据进行特征分析,去掉其中冗余的KPI包括:
计算KPI间的皮尔森相关系数,若相关系数大于阈值,表明两个KPI存在冗余,只保留其中任意一个KPI;
计算KPI的方差,若KPI方差小于阈值,表面该KPI冗余,去掉此KPI。
进一步的,将每个KPI离散化为一个个窗口形成窗口集包括:
使用滑动窗口对KPI离散化。
进一步的,区间包括感知正常、感知变差和感知极差区间。
进一步的,将每个KQI离散化为多个区间包括:
采用感知变差阈值和感知极差阈值,将KQI分割成三个区间:小于感知变差阈值的区间是感知正常区间,大于感知极差的区间是感知极差区间,在感知变差和感知极差之间的是感知变差区间。
进一步的,使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的区间之间的强关联规则包括:
使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的感知变差区间之间的强关联规则。
进一步的,使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的感知变差区间之间的强关联规则
将KPI的窗口集中的每个窗口作为前件,将KQI的感知变差区间作为后件,
置信度最高的规则就是强关联规则,该强关联规则的前件就是最佳窗口。
与现有技术相比,本发明所达到的有益效果是:本发明通过滑动窗口的方式实现连续型指标的离散化,从而实现两个指标之间的关联分析。
附图说明
图1是本发明的方法流程示意图;
图2是KPI离散化为窗口集的过程;
图3是对KQI使用参考阈值离散化的示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明的一种基于Apriori算法的指标关联方法,参见图1所示,包括以下步骤:
第一步,采集小区的关键质量指标(KQI)数据和关键绩效指标(KPI)数据;
关键质量指标(KQI)数据和关键绩效指标(KPI)数据可以代表小区无线感知质量,所述的小区无线感知关键质量指标(KQI)数据由4种时延类的KQI构成,分别是页面显示平均时长、视频播放时延、即时通讯响应时延、游戏响应时延,关键绩效指标(KPI)数据由34个KPI构成,包括小区用户面上行丢包率、E-RAB平均建立时长等。
第二步,对KPI数据进行特征分析,去掉其中冗余的KPI,加快算法运行速度;
所述的KPI特征分析包括以下两个步骤:
计算KPI间的皮尔森相关系数,相关系数大于阈值0.8时,表明两个KPI有很强的线性相关性,也就是说当其中一个KPI与KQI关联性很强,另一个KPI也会与KQI关联性很强,因此两个KPI存在冗余,只保留其中任意一个KPI;
计算KPI的方差,方差衡量指标的值的波动程度,指标的值波动很小的话,指标的值几乎不变,KQI变差与该KPI无关,即该KPI冗余,因此去掉方差小于阈值0.1的KPI。
皮尔森相关系数的公式为式中,Cov(X,Y)表示数据X和Y的协方差,Var(X)与Var(Y)表示数据X和Y的方差,协方差的计算公式如下:Cov(X,Y)=E[(X-E[X])(Y-E[Y])]。
方差的计算公式如下:Var[X]=E(X2)-[E(X)]2,其中E(X)表示数据X的均值。
第三步,使用滑动窗口将特征分析之后的每个KPI离散化为一个个窗口,每个KPI生成一个窗口集,用于接下来挖掘强关联规则,获得最佳窗口;
KPI离散化为窗口集的过程如图2所示,使用滑动窗口对KPI离散化,是指在每一个KPI的值域(取值范围)上设置一个可以滑动的窗口,即图中的矩形滑块,窗口的最小值和最大值根据滑动的步长同时变化,控制窗口滑动的范围和每一次滑动的步长就可以穷举每一个KPI值域上的每一种可能的离散化情况。
第四步,使用参考阈值将每个KQI离散化为感知正常、感知变差、感知极差区间,用于与第三步生成的KPI的窗口集中的窗口进行关联;
对KQI使用参考阈值离散化,是指每一个KQI都有两个参考阈值,分别对应KQI的感知变差阈值和感知极差阈值(由运营商定义),将KQI分割成三个区间,小于感知变差阈值的区间是感知正常区间,大于感知极差的区间是感知极差区间,在感知变差和感知极差之间的是感知变差区间,如图3所示,分别是感知正常、感知变差、感知极差区间。
第五步,使用Apriori算法挖掘KPI的窗口集中的每一个窗口与KQI的感知变差区间之间的强关联规则,获得每个KPI与每个KQI的感知变差区间关联性最强的窗口,该滑动窗口就是关联的最佳窗口;
具体是指,将KPI的窗口集中的每个窗口作为前件,将KQI的感知变差区间作为后件,置信度最高的规则就是强关联规则,该强关联规则的前件(KPI窗口)就是最佳窗口,意味着此时KPI落在这个最佳窗口上时KQI最有可能落在感知变差区间上,也就是KQI变差。
Apriori算法原理及公式如下:
Apriori算法分为两个步骤:第一步计算由KPI数据和KQI数据组成的数据集中所有事务集(项集)的支持度,检索出频繁项集,这些频繁项集的支持度不小于支持度阈值;第二步利用频繁项集构造规则,计算置信度,检索出置信度不小于置信度阈值的强关联规则。
支持度公式为Support(X,Y)=num(X,Y)/num(All Samples),X与Y是数据集中的事务,num(X,Y)指事务X与Y同时出现的次数,num(All Samples)指总的数据量。
置信度公式为 代表着规则,指事物X出现时Y也一起出现。
生成频繁项集的流程为首先遍历数据集生成候选1-项集C1,找到C1中的频繁项,生成频繁1-项集,记为L1;然后对L1中的项进行连接,产生候选2-项集C2,找到C2中的频繁项,生成频繁2-项集,记为L2;不断如此循环下去直到无法发现更多的频繁k-项集为止。连接指的是项之间的重新组合。
规则形如X与Y是频繁k-项集中的项,X是前件,Y是后件。计算规则的置信度,置信度大于置信度阈值的规则就是强关联规则。
本发明通过滑动窗口的方式实现连续型指标的离散化,从而实现两个指标之间的关联分析。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (8)
1.一种基于Apriori算法的指标关联方法,其特征是,包括以下过程:
采集小区的关键质量指标KQI数据和关键绩效指标KPI数据;
将每个KPI离散化为一个个窗口形成窗口集;
将每个KQI离散化为多个区间;
使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的区间之间的强关联规则,获得每个KPI与每个KQI的关联结果。
2.根据权利要求1所述的一种基于Apriori算法的指标关联方法,其特征是,将每个KPI离散化为一个个窗口形成窗口集之前,对KPI数据进行特征分析,去掉其中冗余的KPI。
3.根据权利要求2所述的一种基于Apriori算法的指标关联方法,其特征是,对KPI数据进行特征分析,去掉其中冗余的KPI包括:
计算KPI间的皮尔森相关系数,若相关系数大于阈值,表明两个KPI存在冗余,只保留其中任意一个KPI;
计算KPI的方差,若KPI方差小于阈值,表面该KPI冗余,去掉此KPI。
4.根据权利要求1所述的一种基于Apriori算法的指标关联方法,其特征是,将每个KPI离散化为一个个窗口形成窗口集包括:
使用滑动窗口对KPI离散化。
5.根据权利要求1所述的一种基于Apriori算法的指标关联方法,其特征是,区间包括感知正常、感知变差和感知极差区间。
6.根据权利要求5所述的一种基于Apriori算法的指标关联方法,其特征是,将每个KQI离散化为多个区间包括:
采用感知变差阈值和感知极差阈值,将KQI分割成三个区间:小于感知变差阈值的区间是感知正常区间,大于感知极差的区间是感知极差区间,在感知变差和感知极差之间的是感知变差区间。
7.根据权利要求1所述的一种基于Apriori算法的指标关联方法,其特征是,使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的区间之间的强关联规则包括:
使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的感知变差区间之间的强关联规则。
8.根据权利要求7所述的一种基于Apriori算法的指标关联方法,其特征是,使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的感知变差区间之间的强关联规则
将KPI的窗口集中的每个窗口作为前件,将KQI的感知变差区间作为后件,计算形如窗口感知变差区间的规则的置信度,
置信度最高的规则就是强关联规则,该强关联规则的前件就是最佳窗口。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876112.6A CN110609858A (zh) | 2019-09-17 | 2019-09-17 | 一种基于Apriori算法的指标关联方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876112.6A CN110609858A (zh) | 2019-09-17 | 2019-09-17 | 一种基于Apriori算法的指标关联方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110609858A true CN110609858A (zh) | 2019-12-24 |
Family
ID=68891508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910876112.6A Pending CN110609858A (zh) | 2019-09-17 | 2019-09-17 | 一种基于Apriori算法的指标关联方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110609858A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262781A1 (en) * | 2016-03-14 | 2017-09-14 | Futurewei Technologies, Inc. | Features selection and pattern mining for kqi prediction and cause analysis |
CN108463973A (zh) * | 2016-01-08 | 2018-08-28 | 华为技术有限公司 | 蜂窝系统中指纹识别根本原因分析 |
CN109597836A (zh) * | 2018-11-29 | 2019-04-09 | 武汉大学 | 一种基于加权矩阵的通信设备告警关联规则挖掘方法 |
-
2019
- 2019-09-17 CN CN201910876112.6A patent/CN110609858A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108463973A (zh) * | 2016-01-08 | 2018-08-28 | 华为技术有限公司 | 蜂窝系统中指纹识别根本原因分析 |
US20170262781A1 (en) * | 2016-03-14 | 2017-09-14 | Futurewei Technologies, Inc. | Features selection and pattern mining for kqi prediction and cause analysis |
CN109597836A (zh) * | 2018-11-29 | 2019-04-09 | 武汉大学 | 一种基于加权矩阵的通信设备告警关联规则挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063615B (zh) | 一种手语识别方法及系统 | |
CN108768585B (zh) | 基于深度学习的上行免信令非正交多址接入noma系统多用户检测方法 | |
CN110062379B (zh) | 一种人体行为场景下基于信道状态信息的身份认证方法 | |
CN107463604A (zh) | 一种基于重要点的时间序列固定分段算法 | |
WO2023010886A1 (zh) | 一种室内非接触式人体活动识别方法及系统 | |
CN110061946B (zh) | 一种面向高铁的深度信号检测方法 | |
CN110263216B (zh) | 一种视频分类的方法、视频分类模型训练的方法及装置 | |
CN103561418A (zh) | 基于时间序列的异常检测方法 | |
CN103246922B (zh) | 一种视频摘要生成方法 | |
CN101339553A (zh) | 面向海量数据近似快速聚类和索引方法 | |
CN109492816B (zh) | 一种基于混合智能的煤与瓦斯突出动态预测方法 | |
CN110059612B (zh) | 一种基于信道状态信息的位置无关的手势识别方法及系统 | |
CN111353448A (zh) | 基于相关性聚类和时空约束的行人多目标跟踪方法 | |
CN113051972A (zh) | 一种基于WiFi的手势识别系统 | |
Wang et al. | Artificial intelligence and wireless communications | |
CN112819020A (zh) | 训练分类模型的方法和装置及分类方法 | |
CN106204461A (zh) | 结合非局部先验的复合正则化图像去噪方法 | |
CN107481293A (zh) | 基于多假设加权的差分图像压缩感知重构方法及智能终端 | |
CN103905815B (zh) | 基于高阶奇异值分解的视频融合性能评价方法 | |
CN110609858A (zh) | 一种基于Apriori算法的指标关联方法 | |
CN105447079A (zh) | 一种基于函数依赖的数据清洗方法 | |
CN102905320B (zh) | 最大化多小区下行加权和速率的单调优化方法 | |
CN112115359A (zh) | 一种基于多阶近邻预测的推荐系统及方法 | |
CN106130661A (zh) | 基于Hammerstein‑Wiener模型的宽带无线发射机识别方法 | |
CN105160679A (zh) | 基于自适应权重与图像分割相结合的局部立体匹配算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: No.66 Xinfan Road, Gulou District, Nanjing City, Jiangsu Province Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS Address before: 210023 No.1 Xichun Road, Yuhuatai District, Nanjing City, Jiangsu Province Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191224 |