CN110609858A - 一种基于Apriori算法的指标关联方法 - Google Patents

一种基于Apriori算法的指标关联方法 Download PDF

Info

Publication number
CN110609858A
CN110609858A CN201910876112.6A CN201910876112A CN110609858A CN 110609858 A CN110609858 A CN 110609858A CN 201910876112 A CN201910876112 A CN 201910876112A CN 110609858 A CN110609858 A CN 110609858A
Authority
CN
China
Prior art keywords
kpi
window
kqi
perception
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910876112.6A
Other languages
English (en)
Inventor
桂冠
樊广辉
张凯旋
曾骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910876112.6A priority Critical patent/CN110609858A/zh
Publication of CN110609858A publication Critical patent/CN110609858A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于Apriori算法的指标关联方法,包括以下过程:采集小区的关键质量指标KQI数据和关键绩效指标KPI数据;将每个KPI离散化为一个个窗口形成窗口集;将每个KQI离散化为多个区间;使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的区间之间的强关联规则,获得每个KPI与每个KQI的关联结果。本发明通过实现连续型指标的离散化,从而实现关联分析。

Description

一种基于Apriori算法的指标关联方法
技术领域
本发明涉及数据挖掘中关联分析技术领域,具体涉及一种基于Apriori算法的指标关联方法。
背景技术
随着计算机的飞速发展,数据的来源越来越多样,覆盖范围越来越广泛,人们获得数据的代价越来越小。数据挖掘技术是在人们在面临数据多样性但又很难了解数据背后意义的情况下应运而生的。关联分析主要发现数据集中属性之间的联系,Apriori算法是其中主要的分析方法,研究比较成熟并且应用也广泛。Apriori算法有一个比较严重的限制:它只适用于离散、单维、单层、时序无关的数据,最著名的应用便是“购物篮分析”,但是现实生活中更多的是连续型数据,有的是多维、多层数据,甚至是存在时序关系的数据,Apriori算法都无法处理这些数据。
发明内容
本发明的目的在于克服现有技术中的不足,提出了一种基于Apriori算法的指标关联方法,实现连续型指标的离散化,从而实现关联分析。
为解决上述技术问题,本发明提供了一种基于Apriori算法的指标关联方法,其特征是,包括以下过程:
采集小区的关键质量指标KQI数据和关键绩效指标KPI数据;
将每个KPI离散化为一个个窗口形成窗口集;
将每个KQI离散化为多个区间;
使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的区间之间的强关联规则,获得每个KPI与每个KQI的关联结果。
进一步的,将每个KPI离散化为一个个窗口形成窗口集之前,对KPI数据进行特征分析,去掉其中冗余的KPI。
进一步的,对KPI数据进行特征分析,去掉其中冗余的KPI包括:
计算KPI间的皮尔森相关系数,若相关系数大于阈值,表明两个KPI存在冗余,只保留其中任意一个KPI;
计算KPI的方差,若KPI方差小于阈值,表面该KPI冗余,去掉此KPI。
进一步的,将每个KPI离散化为一个个窗口形成窗口集包括:
使用滑动窗口对KPI离散化。
进一步的,区间包括感知正常、感知变差和感知极差区间。
进一步的,将每个KQI离散化为多个区间包括:
采用感知变差阈值和感知极差阈值,将KQI分割成三个区间:小于感知变差阈值的区间是感知正常区间,大于感知极差的区间是感知极差区间,在感知变差和感知极差之间的是感知变差区间。
进一步的,使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的区间之间的强关联规则包括:
使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的感知变差区间之间的强关联规则。
进一步的,使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的感知变差区间之间的强关联规则
将KPI的窗口集中的每个窗口作为前件,将KQI的感知变差区间作为后件,
置信度最高的规则就是强关联规则,该强关联规则的前件就是最佳窗口。
与现有技术相比,本发明所达到的有益效果是:本发明通过滑动窗口的方式实现连续型指标的离散化,从而实现两个指标之间的关联分析。
附图说明
图1是本发明的方法流程示意图;
图2是KPI离散化为窗口集的过程;
图3是对KQI使用参考阈值离散化的示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明的一种基于Apriori算法的指标关联方法,参见图1所示,包括以下步骤:
第一步,采集小区的关键质量指标(KQI)数据和关键绩效指标(KPI)数据;
关键质量指标(KQI)数据和关键绩效指标(KPI)数据可以代表小区无线感知质量,所述的小区无线感知关键质量指标(KQI)数据由4种时延类的KQI构成,分别是页面显示平均时长、视频播放时延、即时通讯响应时延、游戏响应时延,关键绩效指标(KPI)数据由34个KPI构成,包括小区用户面上行丢包率、E-RAB平均建立时长等。
第二步,对KPI数据进行特征分析,去掉其中冗余的KPI,加快算法运行速度;
所述的KPI特征分析包括以下两个步骤:
计算KPI间的皮尔森相关系数,相关系数大于阈值0.8时,表明两个KPI有很强的线性相关性,也就是说当其中一个KPI与KQI关联性很强,另一个KPI也会与KQI关联性很强,因此两个KPI存在冗余,只保留其中任意一个KPI;
计算KPI的方差,方差衡量指标的值的波动程度,指标的值波动很小的话,指标的值几乎不变,KQI变差与该KPI无关,即该KPI冗余,因此去掉方差小于阈值0.1的KPI。
皮尔森相关系数的公式为式中,Cov(X,Y)表示数据X和Y的协方差,Var(X)与Var(Y)表示数据X和Y的方差,协方差的计算公式如下:Cov(X,Y)=E[(X-E[X])(Y-E[Y])]。
方差的计算公式如下:Var[X]=E(X2)-[E(X)]2,其中E(X)表示数据X的均值。
第三步,使用滑动窗口将特征分析之后的每个KPI离散化为一个个窗口,每个KPI生成一个窗口集,用于接下来挖掘强关联规则,获得最佳窗口;
KPI离散化为窗口集的过程如图2所示,使用滑动窗口对KPI离散化,是指在每一个KPI的值域(取值范围)上设置一个可以滑动的窗口,即图中的矩形滑块,窗口的最小值和最大值根据滑动的步长同时变化,控制窗口滑动的范围和每一次滑动的步长就可以穷举每一个KPI值域上的每一种可能的离散化情况。
第四步,使用参考阈值将每个KQI离散化为感知正常、感知变差、感知极差区间,用于与第三步生成的KPI的窗口集中的窗口进行关联;
对KQI使用参考阈值离散化,是指每一个KQI都有两个参考阈值,分别对应KQI的感知变差阈值和感知极差阈值(由运营商定义),将KQI分割成三个区间,小于感知变差阈值的区间是感知正常区间,大于感知极差的区间是感知极差区间,在感知变差和感知极差之间的是感知变差区间,如图3所示,分别是感知正常、感知变差、感知极差区间。
第五步,使用Apriori算法挖掘KPI的窗口集中的每一个窗口与KQI的感知变差区间之间的强关联规则,获得每个KPI与每个KQI的感知变差区间关联性最强的窗口,该滑动窗口就是关联的最佳窗口;
具体是指,将KPI的窗口集中的每个窗口作为前件,将KQI的感知变差区间作为后件,置信度最高的规则就是强关联规则,该强关联规则的前件(KPI窗口)就是最佳窗口,意味着此时KPI落在这个最佳窗口上时KQI最有可能落在感知变差区间上,也就是KQI变差。
Apriori算法原理及公式如下:
Apriori算法分为两个步骤:第一步计算由KPI数据和KQI数据组成的数据集中所有事务集(项集)的支持度,检索出频繁项集,这些频繁项集的支持度不小于支持度阈值;第二步利用频繁项集构造规则,计算置信度,检索出置信度不小于置信度阈值的强关联规则。
支持度公式为Support(X,Y)=num(X,Y)/num(All Samples),X与Y是数据集中的事务,num(X,Y)指事务X与Y同时出现的次数,num(All Samples)指总的数据量。
置信度公式为 代表着规则,指事物X出现时Y也一起出现。
生成频繁项集的流程为首先遍历数据集生成候选1-项集C1,找到C1中的频繁项,生成频繁1-项集,记为L1;然后对L1中的项进行连接,产生候选2-项集C2,找到C2中的频繁项,生成频繁2-项集,记为L2;不断如此循环下去直到无法发现更多的频繁k-项集为止。连接指的是项之间的重新组合。
规则形如X与Y是频繁k-项集中的项,X是前件,Y是后件。计算规则的置信度,置信度大于置信度阈值的规则就是强关联规则。
本发明通过滑动窗口的方式实现连续型指标的离散化,从而实现两个指标之间的关联分析。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (8)

1.一种基于Apriori算法的指标关联方法,其特征是,包括以下过程:
采集小区的关键质量指标KQI数据和关键绩效指标KPI数据;
将每个KPI离散化为一个个窗口形成窗口集;
将每个KQI离散化为多个区间;
使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的区间之间的强关联规则,获得每个KPI与每个KQI的关联结果。
2.根据权利要求1所述的一种基于Apriori算法的指标关联方法,其特征是,将每个KPI离散化为一个个窗口形成窗口集之前,对KPI数据进行特征分析,去掉其中冗余的KPI。
3.根据权利要求2所述的一种基于Apriori算法的指标关联方法,其特征是,对KPI数据进行特征分析,去掉其中冗余的KPI包括:
计算KPI间的皮尔森相关系数,若相关系数大于阈值,表明两个KPI存在冗余,只保留其中任意一个KPI;
计算KPI的方差,若KPI方差小于阈值,表面该KPI冗余,去掉此KPI。
4.根据权利要求1所述的一种基于Apriori算法的指标关联方法,其特征是,将每个KPI离散化为一个个窗口形成窗口集包括:
使用滑动窗口对KPI离散化。
5.根据权利要求1所述的一种基于Apriori算法的指标关联方法,其特征是,区间包括感知正常、感知变差和感知极差区间。
6.根据权利要求5所述的一种基于Apriori算法的指标关联方法,其特征是,将每个KQI离散化为多个区间包括:
采用感知变差阈值和感知极差阈值,将KQI分割成三个区间:小于感知变差阈值的区间是感知正常区间,大于感知极差的区间是感知极差区间,在感知变差和感知极差之间的是感知变差区间。
7.根据权利要求1所述的一种基于Apriori算法的指标关联方法,其特征是,使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的区间之间的强关联规则包括:
使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的感知变差区间之间的强关联规则。
8.根据权利要求7所述的一种基于Apriori算法的指标关联方法,其特征是,使用Apriori算法挖掘KPI的窗口集中的每个窗口与KQI的感知变差区间之间的强关联规则
将KPI的窗口集中的每个窗口作为前件,将KQI的感知变差区间作为后件,计算形如窗口感知变差区间的规则的置信度,
置信度最高的规则就是强关联规则,该强关联规则的前件就是最佳窗口。
CN201910876112.6A 2019-09-17 2019-09-17 一种基于Apriori算法的指标关联方法 Pending CN110609858A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910876112.6A CN110609858A (zh) 2019-09-17 2019-09-17 一种基于Apriori算法的指标关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910876112.6A CN110609858A (zh) 2019-09-17 2019-09-17 一种基于Apriori算法的指标关联方法

Publications (1)

Publication Number Publication Date
CN110609858A true CN110609858A (zh) 2019-12-24

Family

ID=68891508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910876112.6A Pending CN110609858A (zh) 2019-09-17 2019-09-17 一种基于Apriori算法的指标关联方法

Country Status (1)

Country Link
CN (1) CN110609858A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262781A1 (en) * 2016-03-14 2017-09-14 Futurewei Technologies, Inc. Features selection and pattern mining for kqi prediction and cause analysis
CN108463973A (zh) * 2016-01-08 2018-08-28 华为技术有限公司 蜂窝系统中指纹识别根本原因分析
CN109597836A (zh) * 2018-11-29 2019-04-09 武汉大学 一种基于加权矩阵的通信设备告警关联规则挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108463973A (zh) * 2016-01-08 2018-08-28 华为技术有限公司 蜂窝系统中指纹识别根本原因分析
US20170262781A1 (en) * 2016-03-14 2017-09-14 Futurewei Technologies, Inc. Features selection and pattern mining for kqi prediction and cause analysis
CN109597836A (zh) * 2018-11-29 2019-04-09 武汉大学 一种基于加权矩阵的通信设备告警关联规则挖掘方法

Similar Documents

Publication Publication Date Title
CN107679465B (zh) 一种基于生成网络的行人重识别数据生成和扩充方法
CN109063615B (zh) 一种手语识别方法及系统
CN108768585B (zh) 基于深度学习的上行免信令非正交多址接入noma系统多用户检测方法
CN109245804B (zh) 基于雅可比迭代的大规模mimo信号检测方法
WO2023010886A1 (zh) 一种室内非接触式人体活动识别方法及系统
CN107463604A (zh) 一种基于重要点的时间序列固定分段算法
CN110061946B (zh) 一种面向高铁的深度信号检测方法
CN103246922B (zh) 一种视频摘要生成方法
CN110688927B (zh) 一种基于时序卷积建模的视频动作检测方法
CN110263216B (zh) 一种视频分类的方法、视频分类模型训练的方法及装置
CN101339553A (zh) 面向海量数据近似快速聚类和索引方法
CN111353448A (zh) 基于相关性聚类和时空约束的行人多目标跟踪方法
Wang et al. Artificial intelligence and wireless communications
CN112819020A (zh) 训练分类模型的方法和装置及分类方法
CN107481293A (zh) 基于多假设加权的差分图像压缩感知重构方法及智能终端
CN109165239B (zh) 基于用户属性和内容属性的d2d信息传播建模方法
CN110609858A (zh) 一种基于Apriori算法的指标关联方法
CN105447079A (zh) 一种基于函数依赖的数据清洗方法
CN113051972A (zh) 一种基于WiFi的手势识别系统
WO2007042195A3 (de) Verfahren zur segmentierung in einem n-dimensionalen merkmalsraum und verfahren zur klassifikation auf grundlage von geometrischen eigenschaften segmentierter objekte in einem n-dimensionalen datenraum
CN108093455B (zh) 一种基于时空相关性的高能效无线传感网数据传输方法
WO2018176937A1 (zh) 一种用户隐式反馈的量化评分方法
KR101576358B1 (ko) 온라인 분석 처리를 위한 그래프 큐브의 생성 방법
CN115375672A (zh) 一种基于改进型YOLOv4算法的煤矸检测方法
CN114329222A (zh) 一种融合注意力机制和双端知识图谱的电影推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No.66 Xinfan Road, Gulou District, Nanjing City, Jiangsu Province

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: 210023 No.1 Xichun Road, Yuhuatai District, Nanjing City, Jiangsu Province

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191224