CN108376148A

CN108376148A - 一种基于数据隐结构分析的基站聚类检测方法

Info

Publication number: CN108376148A
Application number: CN201810069693.8A
Authority: CN
Inventors: 张银辉; 杨钊; 赵鲲; 惠维; 袁曙晖; 潘军
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2018-08-07

Abstract

本发明公开了一种基于数据隐结构分析的基站聚类检测方法，包括以下步骤：步骤一、电力日志文件的预处理；步骤二、建立基于电力日志的LDA主题模型：步骤三、计算基站文档之间的距离并进行聚类分析；步骤四、异常基站的检测。本发明通过建立基于电力日志的LDA主题模型能够分析出日志文件之间的相似性，并提出利用KL散度来计算文档之间的相似度，本发明通过常规方法无法挖掘出的日志内部隐含变量来度量相似度，克服了因为日志数据量大而产生较大误差的结果，比仅对日志行进行直接数据挖掘要有更好的准确度，更能发现数据集中隐含的变量，对大规模的数据集具有良好的扩展性。

Description

一种基于数据隐结构分析的基站聚类检测方法

技术领域

本发明属于数据挖掘领域，具体涉及一种基于数据隐结构分析的基站聚类检测方法。

背景技术

通信基站是指通过移动通信交换中心，与移动电话终端之间进行信息传递的无线电收发信电台。移动通信基站的建设是我国移动通信网络的重要组成部分，基站设备异常会造成通信中断，计费错误，严重时甚至会因为设备过热引发火灾，造成重大的经济损失和信息网络瘫痪。因此，基站异常监控与检测成为基站维护的重要组成部分。然而，由于电信通信设备高度封装的特性，不同层次的设备难以估计其它设备的运行状态，基站在部署过程中引入了高度异构特性，进一步加剧了此问题。这两方面障碍导致电信运营商难以远程获取基站的实时状态信息。另一方面，电信基站在部署上存在覆盖广泛，部署极不均匀，部分基站常规维护可达性差的特性。这都使得通过专人现场收集数据的方式代价极高，时效性难以保障。

针对此类问题，一种常见的监控方式是通过国家电网的电力计量端口监测基站的电力消耗，从而推断出基站的工作状态。所有现有方法仅使用日志行的文本内容来挖掘模板，这种工作的第一个子类模板利用频繁项目集挖掘方法，其前提是通过在大部分对数记录中挖掘合成词的集合，可以从时变参数中滤出打印语句中的不变词。然而，用于模板挖掘的频繁项目集挖掘方法易受到坏的回忆或者根据支持阈值的不良精度影响。这样，作品的下一个子类别采用在第一阶段中所挖掘关键字的频率直方图生成近似模板的一些机制，然后使用某种形式下基于文本的相似性度量进一步聚类类似的近似模板。最后采用迭代分割技术，对日志行的集合递归分割，首先是在一行中的字数，然后是在不同位置的字，再基于日志行中的字关联另一分割。但是这种方法工作不切实际，因为假设参数仅包括单个字。

基于挖掘模板的这种方式只是对日志行的文本内容进行数据挖掘，并没有挖掘出日志数据集中潜在的信息和数据隐变量，所以不能深层次显示出数据的隐藏结构和内在信息。

综上所述，现阶段的监控方式主要包括以下缺陷：

1、在数挖掘方法中有应用特定假设的限制；

2、在数据挖掘中没有利用日志数据集隐含的变量来分析。

发明内容

本发明的目的在于针对上述现有技术中的问题，提供一种基于数据隐结构分析的基站聚类检测方法，使用主题建模的方法发现用电日志中包含的数据隐结构，根据数据隐结构找出异常数据，计算KL散度来反应文本之间的距离，使用聚类方法找出聚类簇，并使用离群算法找出异常点。该方法比仅对日志行进行直接数据挖掘有更好的准确度，更能发现数据集中隐含的变量，对大规模的数据集具有良好的扩展性，能够对大数据下的日志进行深度学习。

为了实现上述目的，本发明采用如下的技术方案包括以下步骤：

步骤一、电力日志文件的预处理；

提取来自各基站的用电日志，将各个基站的用电日志分别放在不同的文档里，使用文本标注的条件随机场算法将每篇文档里面的内容进行分词；

步骤二、建立基于电力日志的LDA主题模型：

2.1对每篇文档中的每个词随机分配一个topic编号，然后重新扫描所有文档，对每个词按照吉布斯采样公式重新采样topic并在所有文档中更新，重复操作至吉布斯采样收敛；

2.2GibbsLDA主题模型输入参数的配置，包括训练文件，主题个数，主题描述词数，超参数α和β，迭代多次需要保存的迭代数以及程序迭代次数；

2.3GibbsLDA主题模型输出参数的收集，包括每篇文档各个词被指定的主题编号，每篇文档的主题概率分布矩阵，每个主题下词的概率分布矩阵，每个词对应的整数编号，每个主题下概率排序从高到低的特征词以及训练模型时的参数；

步骤三、计算基站文档之间的距离并进行聚类分析；

3.1计算每篇文档主题概率分布矩阵的KL散度得到基站与基站之间的距离矩阵H，据此度量文档之间的相似度，通过每个基站用电日志之间的相似度来聚类相似的基站；

3.2对矩阵H进行聚类分析，直到满足终止条件；

步骤四、异常基站的检测。

所述的步骤一中使用Logstash适配器提取来自各基站的用电日志。

步骤2.2中所述的超参数α＝0.5、β＝0.1。

步骤3.1中设p(x)和q(x)是x取值的两个概率分布，则对q的相对熵为：

熵用来度量两个随机变量的距离，通过计算KL散度得到基站与基站之间的距离矩阵H。

步骤3.2采用K-Means算法对矩阵H进行聚类分析：首先随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离最近的聚类中心；聚类中心及其分配对象成为一个聚类，若全部对象均被分配，每个聚类的聚类中心根据聚类中现有的对象被重新计算，不断重复上述过程直到满足某个终止条件。

终止条件包括：

a.没有或最小数目的对象被重新分配给不同的聚类；

b.没有或最小数目的聚类中心再发生变化；

c.误差平方和局部最小。

所述的步骤四使用基于K-means值的离群点检测算法进行异常基站的检测：

a.从数据集中随机挑K个数据作为簇心；

b.求解所有点到K个簇心的距离，若某点离簇心最近，则该点属于对应的簇；

c.根据每个簇的数据，更新簇心，使得簇心位于簇的中心；

d.重复步骤e和步骤f，直到簇心不再移动，继续下一步；

e.计算每个簇的正常半径，得到阀值；

f.从每个簇中，找出大于阀值的点，即离群点。

所述的阀值为每个簇的平均距离与1.5倍标准差之和。

所述的步骤四通过将离群点和聚类簇可视化显示给用户来找出异常基站的位置。

与现有技术相比，本发明具有如下的有益效果：通过建立基于电力日志的LDA主题模型能够分析出日志文件之间的相似性，并提出利用KL散度来计算文档之间的相似度，本发明通过常规方法无法挖掘出的日志内部隐含变量来度量相似度，克服了因为日志数据量大而产生较大误差的结果，相反，由于使用了机器学习领域的主题建模思想，越大的数据集越能够使学习深度的提升，聚类后的结果更加准确。综上所述，本发明比仅对日志行进行直接数据挖掘要有更好的准确度，更能发现数据集中隐含的变量，对大规模的数据集具有良好的扩展性，并且对大数据下的日志数据集更能深度的学习，从而准确找出异常基站的数据点。

附图说明

图1本发明聚类检测方法的整体流程图；

图2本发明LDA主题模型表示图；

图3吉布斯采样路径图；

图4K-Means算法简易表示图；

具体实施方式

下面结合附图对本发明做进一步的详细说明。

本发明基于数据隐结构分析的基站聚类检测方法，包括以下步骤：

1)电力日志文件的预处理：

1.1)首先使用Logstash适配器提取来自各基站的用电日志，将各个基站B_j的用电日志分别放在不同的文档D_j里面。

1.2)日志文档使用文本标注的条件随机场(Conditional Random Field，CRF)算法将每篇文档里面的内容进行分词，使用的工具包是开源的CRF++。CRF的原理是把分词当做字的词位分类问题，通常定义字的词位信息如下：

·词首，常用B表示；

·词中，常用M表示；

·词尾，常用E表示；

·单子词，常用S表示；

CRF分词的过程就是对词位标注后，将B和E之间的字，以及S单字构成分词。

CRF代表了新一代的机器学习技术分词，其基本思路是对汉字进行标注即由字构词(组词)，不仅考虑了文字词语出现的频率信息，同时考虑上下文语境，具备较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。

2)基于电力日志的LDA主题模型的建立：

图2是LDA模型的表示图，这个概率图分成两个物理过程来看：

1.这个过程表示在生成第m篇文档的时候，先从第一个坛子中抽了一个doc-topic骰子然后投掷这个骰子生成了文档中第n个词的topic编号z_m,n。

2.表示用如下动作生成语料中第m篇文档的第n个词：在上帝手头的K个topic-word骰子中，挑选编号为k＝z_m,n的骰子进行投掷，然后生成词w_m,n。

2.1)LDA主题模型的训练的模型：对1)中得到的语料库每篇文档中的每个词w随机分配一个topic编号z；然后重新扫描语料库，对每个词w。如图3所示，按照吉布斯采样公式：

重新采样它的topic，在语料中更新；重复以上语料库的采样过程直到吉布斯采样收敛。

2.2)GibbsLDA主题模型输入参数的配置：

训练文件dfile；主题个数ntopics；描述该主题的词数twords；超参数α和β，一般来说α＝0.5、β＝0.1；迭代多次需要保存的迭代数savestep，以及程序迭代次数niters。

2.3)GibbsLDA主题模型的输出参数：

每篇文档的各个词被指定的主题编号tassign；每篇文档的主题概率分布矩阵θ；每个主题下词的概率分布矩阵Ф；每个词对应的的整数编号wordmap；每个主题下Ф概率排序从高到低topN的特征词tword；训练模型时的参数others。

3)计算基站文档之间的距离和聚类分析：

3.1)计算LDA输出的每篇文档的主题概率分布矩阵的KL散度来度量文档之间的相似度，即每个基站用电日志之间的相似度来聚类相似的基站。

KL散度是相对熵，设p(x)和q(x)是x取值的两个概率分布，则对q的相对熵为：

3.2)采用K-Means算法对矩阵H进行聚类分析，如图4所示，K-Means算法的主要思想是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个：

a.没有(或最小数目)对象被重新分配给不同的聚类。

b.没有(或最小数目)聚类中心再发生变化。

c.误差平方和局部最小。

4)异常基站的检测：

4.1)异常基站的检测即聚类中离群点的检测，使用基于K-means值的离群点检测算法。

算法步骤为：

a.从数据集中随机挑K个数据当簇心；

b.对所有点求到这K个簇心的距离，若点Pi离簇心Si最近，则Pi属于Si对应的簇；

c.根据每个簇的数据，更新簇心，使得簇心位于簇的中心；

d.重复步骤e和步骤f，直到簇心不再移动，继续下一步；

e.计算每个簇的正常半径，即阀值(阀值为每个簇的平均距离与1.5倍标准差之和)；

f.从每个簇中，找出大于阀值的点，即离群点。

4.2)将离群点和聚类簇可视化显示给用户，就能够清楚地发现异常基站的位置。

Claims

1.一种基于数据隐结构分析的基站聚类检测方法，其特征在于，包括以下步骤：

步骤一、电力日志文件的预处理；

步骤二、建立基于电力日志的LDA主题模型：

2.2 GibbsLDA主题模型输入参数的配置，包括训练文件，主题个数，主题描述词数，超参数α和β，迭代多次需要保存的迭代数以及程序迭代次数；

2.3 GibbsLDA主题模型输出参数的收集，包括每篇文档各个词被指定的主题编号，每篇文档的主题概率分布矩阵，每个主题下词的概率分布矩阵，每个词对应的整数编号，每个主题下概率排序从高到低的特征词以及训练模型时的参数；

步骤三、计算基站文档之间的距离并进行聚类分析；

3.2对矩阵H进行聚类分析，直到满足终止条件；

步骤四、异常基站的检测。

2.根据权利要求1所述基于数据隐结构分析的基站聚类检测方法，其特征在于：所述的步骤一中使用Logstash适配器提取来自各基站的用电日志。

3.根据权利要求1所述基于数据隐结构分析的基站聚类检测方法，其特征在于：步骤2.2中所述的超参数α＝0.5、β＝0.1。

4.根据权利要求1所述基于数据隐结构分析的基站聚类检测方法，其特征在于，步骤3.1中设p(x)和q(x)是x取值的两个概率分布，则对q的相对熵为：

5.根据权利要求1所述基于数据隐结构分析的基站聚类检测方法，其特征在于，步骤3.2采用K-Means算法对矩阵H进行聚类分析：首先随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离最近的聚类中心；聚类中心及其分配对象成为一个聚类，若全部对象均被分配，每个聚类的聚类中心根据聚类中现有的对象被重新计算，不断重复上述过程直到满足某个终止条件，终止条件包括：

a.没有或最小数目的对象被重新分配给不同的聚类；

b.没有或最小数目的聚类中心再发生变化；

c.误差平方和局部最小。

6.根据权利要求1所述基于数据隐结构分析的基站聚类检测方法，其特征在于，所述的步骤四使用基于K-means值的离群点检测算法进行异常基站的检测：

a.从数据集中随机挑K个数据作为簇心；

c.根据每个簇的数据，更新簇心，使得簇心位于簇的中心；

d.重复步骤e和步骤f，直到簇心不再移动，继续下一步；

e.计算每个簇的正常半径，得到阀值；

f.从每个簇中，找出大于阀值的点，即离群点。

7.根据权利要求6所述基于数据隐结构分析的基站聚类检测方法，其特征在于：所述的阀值为每个簇的平均距离与1.5倍标准差之和。

8.根据权利要求1所述基于数据隐结构分析的基站聚类检测方法，其特征在于，所述的步骤四通过将离群点和聚类簇可视化显示给用户来找出异常基站的位置。