CN111104483A

CN111104483A - 基于机器学习的ict系统故障分析及辅助判别方法

Info

Publication number: CN111104483A
Application number: CN201911309131.7A
Authority: CN
Inventors: 李国栋; 张楸; 郑蓉蓉; 赵子岩; 王晨辉; 韩笑; 张冰; 李雅西; 袁洲; 高金京; 陈亮; 严莉
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; North China Electric Power University; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; North China Electric Power University; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-05

Abstract

本发明属于文本分类机器学习技术领域，尤其涉及一种基于机器学习的ICT系统故障分析及辅助判别方法，包括：将现有的故障信息以及处理方案进行文本分词预处理；清洗文本特征无关的分词并建立语料库；将语料库中的词语按照它所在文章的出现频率和重要性度量来建立词频矩阵，并计算文本之间的相似度；对词频矩阵进行聚类，引入calinski_harabaz分数对聚类结果进行评估，依据聚类结果建立分类明确的故障信息和解决方案的映射表；当实际故障出现时，将描述该故障的信息文本连同现有故障信息文本进行聚类，根据聚类结果中得出的故障所属类别，查找故障信息和解决方案映射表，调出相应的解决方案辅助工作人员进行故障分析处理。

Description

基于机器学习的ICT系统故障分析及辅助判别方法

技术领域

本发明属于文本分类机器学习技术领域，尤其涉及一种基于机器学习的ICT系统故障分析及辅助判别方法。

背景技术

由于ICT系统中对故障问题的处理仍停留在传统的人工分类上，传统的人为故障判别需要依靠工作人员的工作经验来判断，而实际生活中客服人员流动性较高很难积累到足够经验，其次给客服人员配备一个经验丰富的员工辅助其工作也难以实现；并且故障处理依靠人工存在着精确低和速度慢的问题。如何解决现阶段国网ICT客服仅依靠个人知识经验储备来应对系统故障这一问题成为当前面临的技术难题。

发明内容

针对人工分类存在的精确低和速度慢等问题，本发明提出了一种基于机器学习的ICT系统故障分析及辅助判别方法，包括：

步骤1，将现有的故障信息以及处理方案进行文本分词预处理；

步骤2，清洗文本特征无关的分词并建立语料库；

步骤3，将语料库中的词语按照它所在文章的出现频率和重要性度量来建立词频矩阵，并计算文本之间的相似度；

步骤4，对词频矩阵进行聚类，引入calinski_harabaz分数对聚类结果进行评估，依据聚类结果建立分类明确的故障信息和解决方案的映射表；

步骤5，当实际故障出现时，将描述该故障的信息文本连同现有故障信息文本进行聚类，根据聚类结果中得出的故障所属类别，查找故障信息和解决方案映射表，调出相应的解决方案辅助工作人员进行故障分析处理。

所述文本特征无关的词语包括：标点符号、语气、人称。

所述语料库通过观察词语与文本特征的相关性、更新停用词表来建立，并存储处理后的分词结果。

所述步骤3采用TF-IDF算法建立词频矩阵。

所述步骤4采用K-Means算法进行聚类。

所述calinski_harabaz分数的计算公式如下：

其中，s(k)为calinski_harabaz分数，m为现有故障信息文本总数，k为簇的数目，B_K是簇间协方差矩阵，w_k是簇内协方差矩阵，tr是矩阵的迹。

本发明的有益效果：

本发明运用机器学习中的文本聚类算法可以有效增强ICT客服用户系统故障研判模块的功能。通过对现有的故障信息文件建立专业故障信息语料库，使用合适文本聚类算法，根据聚类结果建立故障信息文本与解决方案的映射表，将聚类结果保存在数据库中；当新的故障出现时，将描述该故障的信息文本与已有故障信息聚类结果一起进行聚类，得到该文本所属故障类型，并从此前归纳的解决方案中调出相应的解决方案供ICT客服人员参考，解决了传统故障信息文件人为分类时由于人员专业水平和经验偏好差异而导致的分类不一致、不精确和速度慢等问题。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图，对优选实施例作详细说明。

如图1所示，第一步：对故障信息及处理方案进行分词

将故障文本信息及解决方案中连续的句子分词，例如：将故障文本信息《国家电网公司信息通信运行安全事件-内网邮件系统-即时书面报告》通过Python语言中的jieba中文分词工具进行分词，得到分词结果：{‘国网’，‘信通’，‘公司’，‘系统’，‘内部’，‘分’，‘单位’，‘用户’，‘收发’，‘邮件’，‘缓慢’，…，‘降低’，‘原因’，‘加强’，‘监控’，‘保障’}

第二步：清洗分词结果建立语料库

对于每一个文本的分词结果，当分词不属于停用词表时，把该分词加入到该文本的语料库(corpus)中。例如：将故障文本信息《国家电网公司信息通信运行安全事件-内网邮件系统-即时书面报告》的分词结果进行与停用词表stop_word_list进行比对，将类似‘的’、‘是’、‘这’、‘着’等与故障信息描述特征无关的噪声词语清洗，并将清洗后的结果保存在语料库中。

第三步：将语料库转化为词频矩阵

在语料库建立之后，接下来要将语料库表示成计算机能够进行相似度计算的类型。本发明采用TF-IDF算法(Term Frequency-Inverse DocumentFrequency,词频-逆文件频率)将语料库中的词语按照它所在文章的出现频率(TermFrequency)和重要性度量(Inverse Document Frequency)建立相应的词频矩阵。计算机在此词频矩阵上进行文本之间的相似度计算，从而为下一步文本聚类提供理论支撑。

词频表示词语在文本中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。它的公式为：

其中n_ij是i词在j文本中出现的次数，分母则是j文件中所有词汇出现的次数总和。

某一特定词语的IDF，可以由总文本数目除以包含该词语的文本的数目，再将得到的商取对数得到。若包含i词的文本数量越少，则IDF越大，i词具有良好的文本特征区分能力。它的公式为：

其中，|D|是语料库中的文本总数，|{j:t_i∈d_j}|表示包含词语i的文本数量。

综上所述，TF-IDF的计算公式为：

TF-IDF＝TF*IDF

由此我们就得到了与文本对应的词频矩阵。

使用Python语言中的scikit-learn包进行TF-IDF分词权重的计算。主要使用CountVectorizer类中的fit_transform()函数将corpus中的词语转换为词频矩阵，矩阵元素a[i][j]表示j词在第i个文本下的词频。此外，通过get_feature_names()函数可看到所有文本的关键字，通过toarray()函数可看到词频矩阵的结果。例如：以故障文本信息《国家电网公司信息通信运行安全事件-内网邮件系统-即时书面报告》为基础建立的语料库为：{‘国网’，‘信通’，‘公司’，‘系统’，‘内部’，‘分’，‘单位’，‘用户’，‘收发’，‘邮件’，‘缓慢’，…，‘降低’，‘原因’，‘加强’，‘监控’，‘保障’}，该语料库中的‘国网’对应的TF-IDF为{0.023647561，0.025417574,…,0.035188617},将所有词语对应的TF-IDF组建成词频矩阵。

第四步：使用K-Means聚类算法进行聚类

在此前词频矩阵的基础上，针对ICT系统的故障信息特征，本发明采用机器学习文本聚类中的K-Means算法对故障信息文本以及解决方案进行聚类。由于传统K-Means算法需要预先设置K值(聚类个数)，这不满足实际故障处理的聚类需要。因此引入calinski_harabaz分数对聚类结果进行评估。

首先calinski_harabaz分数的计算公式如下：

其中m为现有故障信息文本总数，k为簇的数目，B_K是簇间协方差矩阵，w_k是簇内协方差矩阵，tr是矩阵的迹(矩阵主对角线上各个元素的总和)。

在这一步中主要解决的问题的是最佳K值的确定。评价文本聚类效果关键是看：簇(类别)之间的差异是否足够大，簇内部的差异是否足够小。将K取值带入calinski_harabaz分数的计算公式中找到对应的最大结果，此时簇内的协方差最小，簇间的协方差最大，聚类效果最好，即K取值最佳。将K的最佳取值作为参数带入K-Means算法，将聚类结果进行整理，建立故障信息与解决方案的映射表。

第五步：在实际生产中进行故障诊断以及分析处理

客服人员将发生的故障描述信息文本输入系统，系统对该文本和现有故障文本进行聚类处理，得到该故障所属类别，最终通过查找该类别的故障信息与解决方案的映射表，调出对应解决方案辅助客服人员分析处理故障。例如：客服人员收到故障报告：《20180208001-GWXT_国家电网公司信息通信运行安全事件-协同办公-即时书面报告》，客服人员将报告中的故障描述信息文本输入系统中，系统自动进行文本分词，清洗结果，语料库建立，文本聚类一系列工作后返回该故障所属的类别，从而完成故障诊断。最后通过故障信息与解决方案的映射表调出相对应的解决方案供客服人员分析处理故障。

实施例仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于机器学习的ICT系统故障分析及辅助判别方法，其特征在于，包括：

步骤2，清洗文本特征无关的分词并建立语料库；

2.根据权利要求1所述ICT系统故障分析及辅助判别方法，其特征在于，所述文本特征无关的词语包括：标点符号、语气、人称。

3.根据权利要求1所述ICT系统故障分析及辅助判别方法，其特征在于，所述语料库通过观察词语与文本特征的相关性、更新停用词表来建立，并存储处理后的分词结果。

4.根据权利要求1所述ICT系统故障分析及辅助判别方法，其特征在于，所述步骤3采用TF-IDF算法建立词频矩阵。

5.根据权利要求1所述ICT系统故障分析及辅助判别方法，其特征在于，所述步骤4采用K-Means算法进行聚类。

6.根据权利要求1所述ICT系统故障分析及辅助判别方法，其特征在于，所述calinski_harabaz分数的计算公式如下：