CN111104483A - 基于机器学习的ict系统故障分析及辅助判别方法 - Google Patents
基于机器学习的ict系统故障分析及辅助判别方法 Download PDFInfo
- Publication number
- CN111104483A CN111104483A CN201911309131.7A CN201911309131A CN111104483A CN 111104483 A CN111104483 A CN 111104483A CN 201911309131 A CN201911309131 A CN 201911309131A CN 111104483 A CN111104483 A CN 111104483A
- Authority
- CN
- China
- Prior art keywords
- fault
- text
- clustering
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Abstract
本发明属于文本分类机器学习技术领域,尤其涉及一种基于机器学习的ICT系统故障分析及辅助判别方法,包括:将现有的故障信息以及处理方案进行文本分词预处理;清洗文本特征无关的分词并建立语料库;将语料库中的词语按照它所在文章的出现频率和重要性度量来建立词频矩阵,并计算文本之间的相似度;对词频矩阵进行聚类,引入calinski_harabaz分数对聚类结果进行评估,依据聚类结果建立分类明确的故障信息和解决方案的映射表;当实际故障出现时,将描述该故障的信息文本连同现有故障信息文本进行聚类,根据聚类结果中得出的故障所属类别,查找故障信息和解决方案映射表,调出相应的解决方案辅助工作人员进行故障分析处理。
Description
技术领域
本发明属于文本分类机器学习技术领域,尤其涉及一种基于机器学习的ICT系统故障分析及辅助判别方法。
背景技术
由于ICT系统中对故障问题的处理仍停留在传统的人工分类上,传统的人为故障判别需要依靠工作人员的工作经验来判断,而实际生活中客服人员流动性较高很难积累到足够经验,其次给客服人员配备一个经验丰富的员工辅助其工作也难以实现;并且故障处理依靠人工存在着精确低和速度慢的问题。如何解决现阶段国网ICT客服仅依靠个人知识经验储备来应对系统故障这一问题成为当前面临的技术难题。
发明内容
针对人工分类存在的精确低和速度慢等问题,本发明提出了一种基于机器学习的ICT系统故障分析及辅助判别方法,包括:
步骤1,将现有的故障信息以及处理方案进行文本分词预处理;
步骤2,清洗文本特征无关的分词并建立语料库;
步骤3,将语料库中的词语按照它所在文章的出现频率和重要性度量来建立词频矩阵,并计算文本之间的相似度;
步骤4,对词频矩阵进行聚类,引入calinski_harabaz分数对聚类结果进行评估,依据聚类结果建立分类明确的故障信息和解决方案的映射表;
步骤5,当实际故障出现时,将描述该故障的信息文本连同现有故障信息文本进行聚类,根据聚类结果中得出的故障所属类别,查找故障信息和解决方案映射表,调出相应的解决方案辅助工作人员进行故障分析处理。
所述文本特征无关的词语包括:标点符号、语气、人称。
所述语料库通过观察词语与文本特征的相关性、更新停用词表来建立,并存储处理后的分词结果。
所述步骤3采用TF-IDF算法建立词频矩阵。
所述步骤4采用K-Means算法进行聚类。
所述calinski_harabaz分数的计算公式如下:
其中,s(k)为calinski_harabaz分数,m为现有故障信息文本总数,k为簇的数目,BK是簇间协方差矩阵,wk是簇内协方差矩阵,tr是矩阵的迹。
本发明的有益效果:
本发明运用机器学习中的文本聚类算法可以有效增强ICT客服用户系统故障研判模块的功能。通过对现有的故障信息文件建立专业故障信息语料库,使用合适文本聚类算法,根据聚类结果建立故障信息文本与解决方案的映射表,将聚类结果保存在数据库中;当新的故障出现时,将描述该故障的信息文本与已有故障信息聚类结果一起进行聚类,得到该文本所属故障类型,并从此前归纳的解决方案中调出相应的解决方案供ICT客服人员参考,解决了传统故障信息文件人为分类时由于人员专业水平和经验偏好差异而导致的分类不一致、不精确和速度慢等问题。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图,对优选实施例作详细说明。
如图1所示,第一步:对故障信息及处理方案进行分词
将故障文本信息及解决方案中连续的句子分词,例如:将故障文本信息《国家电网公司信息通信运行安全事件-内网邮件系统-即时书面报告》通过Python语言中的jieba中文分词工具进行分词,得到分词结果:{‘国网’,‘信通’,‘公司’,‘系统’,‘内部’,‘分’,‘单位’,‘用户’,‘收发’,‘邮件’,‘缓慢’,…,‘降低’,‘原因’,‘加强’,‘监控’,‘保障’}
第二步:清洗分词结果建立语料库
对于每一个文本的分词结果,当分词不属于停用词表时,把该分词加入到该文本的语料库(corpus)中。例如:将故障文本信息《国家电网公司信息通信运行安全事件-内网邮件系统-即时书面报告》的分词结果进行与停用词表stop_word_list进行比对,将类似‘的’、‘是’、‘这’、‘着’等与故障信息描述特征无关的噪声词语清洗,并将清洗后的结果保存在语料库中。
第三步:将语料库转化为词频矩阵
在语料库建立之后,接下来要将语料库表示成计算机能够进行相似度计算的类型。本发明采用TF-IDF算法(Term Frequency-Inverse DocumentFrequency,词频-逆文件频率)将语料库中的词语按照它所在文章的出现频率(TermFrequency)和重要性度量(Inverse Document Frequency)建立相应的词频矩阵。计算机在此词频矩阵上进行文本之间的相似度计算,从而为下一步文本聚类提供理论支撑。
词频表示词语在文本中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。它的公式为:
其中nij是i词在j文本中出现的次数,分母则是j文件中所有词汇出现的次数总和。
某一特定词语的IDF,可以由总文本数目除以包含该词语的文本的数目,再将得到的商取对数得到。若包含i词的文本数量越少,则IDF越大,i词具有良好的文本特征区分能力。它的公式为:
其中,|D|是语料库中的文本总数,|{j:ti∈dj}|表示包含词语i的文本数量。
综上所述,TF-IDF的计算公式为:
TF-IDF=TF*IDF
由此我们就得到了与文本对应的词频矩阵。
使用Python语言中的scikit-learn包进行TF-IDF分词权重的计算。主要使用CountVectorizer类中的fit_transform()函数将corpus中的词语转换为词频矩阵,矩阵元素a[i][j]表示j词在第i个文本下的词频。此外,通过get_feature_names()函数可看到所有文本的关键字,通过toarray()函数可看到词频矩阵的结果。例如:以故障文本信息《国家电网公司信息通信运行安全事件-内网邮件系统-即时书面报告》为基础建立的语料库为:{‘国网’,‘信通’,‘公司’,‘系统’,‘内部’,‘分’,‘单位’,‘用户’,‘收发’,‘邮件’,‘缓慢’,…,‘降低’,‘原因’,‘加强’,‘监控’,‘保障’},该语料库中的‘国网’对应的TF-IDF为{0.023647561,0.025417574,…,0.035188617},将所有词语对应的TF-IDF组建成词频矩阵。
第四步:使用K-Means聚类算法进行聚类
在此前词频矩阵的基础上,针对ICT系统的故障信息特征,本发明采用机器学习文本聚类中的K-Means算法对故障信息文本以及解决方案进行聚类。由于传统K-Means算法需要预先设置K值(聚类个数),这不满足实际故障处理的聚类需要。因此引入calinski_harabaz分数对聚类结果进行评估。
首先calinski_harabaz分数的计算公式如下:
其中m为现有故障信息文本总数,k为簇的数目,BK是簇间协方差矩阵,wk是簇内协方差矩阵,tr是矩阵的迹(矩阵主对角线上各个元素的总和)。
在这一步中主要解决的问题的是最佳K值的确定。评价文本聚类效果关键是看:簇(类别)之间的差异是否足够大,簇内部的差异是否足够小。将K取值带入calinski_harabaz分数的计算公式中找到对应的最大结果,此时簇内的协方差最小,簇间的协方差最大,聚类效果最好,即K取值最佳。将K的最佳取值作为参数带入K-Means算法,将聚类结果进行整理,建立故障信息与解决方案的映射表。
第五步:在实际生产中进行故障诊断以及分析处理
客服人员将发生的故障描述信息文本输入系统,系统对该文本和现有故障文本进行聚类处理,得到该故障所属类别,最终通过查找该类别的故障信息与解决方案的映射表,调出对应解决方案辅助客服人员分析处理故障。例如:客服人员收到故障报告:《20180208001-GWXT_国家电网公司信息通信运行安全事件-协同办公-即时书面报告》,客服人员将报告中的故障描述信息文本输入系统中,系统自动进行文本分词,清洗结果,语料库建立,文本聚类一系列工作后返回该故障所属的类别,从而完成故障诊断。最后通过故障信息与解决方案的映射表调出相对应的解决方案供客服人员分析处理故障。
实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种基于机器学习的ICT系统故障分析及辅助判别方法,其特征在于,包括:
步骤1,将现有的故障信息以及处理方案进行文本分词预处理;
步骤2,清洗文本特征无关的分词并建立语料库;
步骤3,将语料库中的词语按照它所在文章的出现频率和重要性度量来建立词频矩阵,并计算文本之间的相似度;
步骤4,对词频矩阵进行聚类,引入calinski_harabaz分数对聚类结果进行评估,依据聚类结果建立分类明确的故障信息和解决方案的映射表;
步骤5,当实际故障出现时,将描述该故障的信息文本连同现有故障信息文本进行聚类,根据聚类结果中得出的故障所属类别,查找故障信息和解决方案映射表,调出相应的解决方案辅助工作人员进行故障分析处理。
2.根据权利要求1所述ICT系统故障分析及辅助判别方法,其特征在于,所述文本特征无关的词语包括:标点符号、语气、人称。
3.根据权利要求1所述ICT系统故障分析及辅助判别方法,其特征在于,所述语料库通过观察词语与文本特征的相关性、更新停用词表来建立,并存储处理后的分词结果。
4.根据权利要求1所述ICT系统故障分析及辅助判别方法,其特征在于,所述步骤3采用TF-IDF算法建立词频矩阵。
5.根据权利要求1所述ICT系统故障分析及辅助判别方法,其特征在于,所述步骤4采用K-Means算法进行聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911309131.7A CN111104483A (zh) | 2019-12-18 | 2019-12-18 | 基于机器学习的ict系统故障分析及辅助判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911309131.7A CN111104483A (zh) | 2019-12-18 | 2019-12-18 | 基于机器学习的ict系统故障分析及辅助判别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111104483A true CN111104483A (zh) | 2020-05-05 |
Family
ID=70423525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911309131.7A Pending CN111104483A (zh) | 2019-12-18 | 2019-12-18 | 基于机器学习的ict系统故障分析及辅助判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104483A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131096A (zh) * | 2020-05-07 | 2020-12-25 | 北京国网信通埃森哲信息技术有限公司 | Ict系统故障分析及辅助研判测试案例自动生成方法及装置 |
CN112308251A (zh) * | 2020-12-31 | 2021-02-02 | 北京蒙帕信创科技有限公司 | 一种基于机器学习的工单分派方法和系统 |
CN113722494A (zh) * | 2021-09-10 | 2021-11-30 | 中国航空工业集团公司西安飞行自动控制研究所 | 一种基于自然语言理解的设备故障定位方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840532A (zh) * | 2017-11-24 | 2019-06-04 | 南京大学 | 一种基于k-means的法院类案推荐方法 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
-
2019
- 2019-12-18 CN CN201911309131.7A patent/CN111104483A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840532A (zh) * | 2017-11-24 | 2019-06-04 | 南京大学 | 一种基于k-means的法院类案推荐方法 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
姜霞霞;朱鹏;陈晓东;王迎;陈运明;: "基于K-means算法的智能推荐系统研究" * |
赵谦益: "《K-means 算法中文文献聚类的Python 实现》" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131096A (zh) * | 2020-05-07 | 2020-12-25 | 北京国网信通埃森哲信息技术有限公司 | Ict系统故障分析及辅助研判测试案例自动生成方法及装置 |
CN112308251A (zh) * | 2020-12-31 | 2021-02-02 | 北京蒙帕信创科技有限公司 | 一种基于机器学习的工单分派方法和系统 |
CN113722494A (zh) * | 2021-09-10 | 2021-11-30 | 中国航空工业集团公司西安飞行自动控制研究所 | 一种基于自然语言理解的设备故障定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
US8239189B2 (en) | Method and system for estimating a sentiment for an entity | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN111104483A (zh) | 基于机器学习的ict系统故障分析及辅助判别方法 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN113704451A (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
CN111639497A (zh) | 一种基于大数据机器学习的异常行为发现方法 | |
CN111738589B (zh) | 基于内容推荐的大数据项目工作量评估方法、装置及设备 | |
CN112487140A (zh) | 问答对话评测方法、装置、设备及存储介质 | |
WO2017091985A1 (zh) | 停用词识别方法与装置 | |
CN108363691B (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN107463616B (zh) | 一种企业信息分析方法及系统 | |
US7836059B2 (en) | System and method for minimally predictive feature identification | |
US20210073216A1 (en) | Business intelligence system based on artificial intelligence and analysis method thereof | |
CN110442873A (zh) | 一种基于cbow模型的热点工单获取方法及装置 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN114528848B (zh) | 一种基于指标阈值和语义解析的安全分析和自动评估方法 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN114491034A (zh) | 一种文本分类方法及智能设备 | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN115310869B (zh) | 一种督查事项的联合督查方法、系统、设备以及存储介质 | |
CN115879901A (zh) | 一种智能人事自助服务平台 | |
CN113139061B (zh) | 一种基于词向量聚类的案件特征提取方法 | |
KR101351555B1 (ko) | 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |