CN113392208A - It运维故障处理经验积累的方法、装置及存储介质 - Google Patents
It运维故障处理经验积累的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113392208A CN113392208A CN202010170617.3A CN202010170617A CN113392208A CN 113392208 A CN113392208 A CN 113392208A CN 202010170617 A CN202010170617 A CN 202010170617A CN 113392208 A CN113392208 A CN 113392208A
- Authority
- CN
- China
- Prior art keywords
- description text
- cluster
- fault
- standard
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 63
- 238000012545 processing Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000009825 accumulation Methods 0.000 title claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 26
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013024 troubleshooting Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000009960 carding Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及一种IT运维故障处理经验积累的方法、装置及存储介质,该方法包括:获取多个待处理的故障问题描述文本以及对应的问题解决措施描述文本;基于语义相似度对多个故障问题描述文本以及多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇以及至少一个第二聚类簇;在每个第一聚类簇中确定一个故障问题描述文本作为标准故障问题描述文本,以及在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本;将标准故障问题描述文本以其对应的标准问题解决措施描述文本写入到IT运维故障处理经验库中,上述方法能够实现IT运维处理经验的自动积累。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种IT运维故障处理经验积累的方法、装置及存储介质。
背景技术
目前移动运营商内部IT运维系统中存在投诉申告单、问题单、事件单等工单流程,工单故障处理经验的积累主要靠人工不定期的对各类工单的处理结果进行梳理总结,手工更新到故障处理经验库中,供后续类似问题时,查阅参考。
采用现有技术中的处理方法,需要依靠人工不定期对工单历史处理经验进行总结梳理,工作量大,覆盖不全面;并且人工梳理的方式对IT运维专业经验依赖严重,一般的运维人员无法胜任该工作。
发明内容
本发明实施例提供一种IT运维故障处理经验积累的方法、装置、存储介质及电子设备,用于解决现有技术中IT运维故障处理经验积累需要人工梳理,造成工作量大的问题。
第一方面,本发明实施例一种IT运维故障处理经验积累的方法,包括:
获取多个待处理的故障问题描述文本以及对应的问题解决措施描述文本;
基于语义相似度对所述多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇;
基于语义相似度对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇,其中,每个第一聚类簇对应至少一个第二聚类簇;
在每个第一聚类簇中确定一个故障问题描述文本作为标准故障问题描述文本,以及在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本,其中,每个标准故障问题描述文本对应至少一个标准问题解决措施描述文本;
构建至少一个第一数据集,每个第一数据集包括一个标准故障问题描述文本以其对应的标准问题解决措施描述文本,将至少一个所述第一数据集写入到IT运维故障处理经验库中。
可选地,在基于语义相似度对所述多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇之前,所述方法还包括:
对每个故障问题描述文本以及每个故障问题描述文本所对应的问题解决措施描述文本进行分词处理,得到多个分词;
计算所述多个分词中每个分词的词向量,得到每个故障问题描述文本和每个问题解决措施描述文本对应的词向量序列。
可选地,所述基于语义相似度对所述多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇,包括:
根据每个故障问题描述文本对应的词向量序列,使用SBD距离算法确定所述各个故障问题描述文本之间的语义相似度;
根据语义相似度的计算结果,使用DBSCAN聚类算法对所述多个故障问题描述文本进行聚类处理,形成所述至少一个第一聚类簇,每个第一聚类簇包括至少一个故障问题描述文本。
可选地,所述基于语义相似度对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇,包括:
根据每个问题解决措施描述文本对应的词向量序列,使用所述SBD距离算法确定各个问题解决措施描述文本之间的语义相似度;
根据语义相似度的计算结果,使用DBSCAN聚类算法对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成所述至少一个第二聚类簇。
可选地,在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本,包括:
在每个第一聚类簇所对应的每个第二聚类簇中分别确定一个问题解决措施描述文本作为标准问题解决措施描述文本。
可选地,每个第一数据集还包括每个标准故障问题描述文本所对应的第二聚类簇的成员数,所述成员数为所述第二聚类簇所包括的问题解决措施描述文本的数量。
可选地,将所述至少一个第一数据集写入到IT运维故障处理经验库中,包括:
根据成员数从多到少对每个标准故障问题描述文本所对应的至少一个标准问题解决措施描述文本进行排名,选择排名小于或者等于N的标准问题解决措施描述文本作为第一标准问题解决措施描述文本,其中N为大于或者等于2的自然数;
将至少一个标准故障问题描述文本以及每个标准故障问题描述文本对应的第一标准问题解决措施描述文本写入到所述IT运维故障处理经验库中。
第二方面,本发明实施例提供了一种IT运维故障处理经验积累装置,包括:
获取模块,用于获取多个待处理的故障问题描述文本以及对应的问题解决措施描述文本;
第一处理模块,用于基于语义相似度对所述多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇;
第二处理模块,用于基于语义相似度对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇,其中,每个第一聚类簇对应至少一个第二聚类簇;
确定模块,用于在每个第一聚类簇中确定一个故障问题描述文本作为标准故障问题描述文本,以及在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本,其中,每个标准故障问题描述文本对应至少一个标准问题解决措施描述文本;以及
写入模块,用于构建至少一个第一数据集,每个第一数据集包括一个标准故障问题描述文本以其对应的标准问题解决措施描述文本,将至少一个所述第一数据集写入到IT运维故障处理经验库中。
第三方面,本发明实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现上述方法。
可以理解,本发明实施例通过对运维工单中记录的多个待处理的故障问题描述文本以及对应的问题解决措施描述文本进行分词处理,然后基于语义相似度对多个故障问题描述文本以及多个问题解决措施描述文本进行聚类处理,以对相似故障问题以及相似故障问题对应的问题解决措施进行聚类合并,为每一类相似故障问题以及对应的每一类问题解决措施确定对应的标准表述,最终写入IT运维故障处理经验库中,从而实现了IT运维处理经验的自动积累,相对现在人工梳理的过程,覆盖的范围更全面,降低了对专家经验的依赖,减少了大量的人力投入。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本发明实施例提供的IT运维故障处理经验积累的方法的流程图;
图2本发明实施例提供的一种IT运维故障处理经验积累装置的结构框图;
图3为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
现有技术中,需要依靠人工不定期对IT运维工单上记录的工单历史处理经验进行总结梳理,工作量大,覆盖不全面,并且人工梳理,对IT运维专业经验依赖严重,一般的运维人员无法胜任该工作。
请参阅附图1,为解决上述问题,本发明实施例提出了一种IT运维故障处理经验积累的方法,可以运用于移动运营商IT运维系统的一个或者多个服务器中,一种IT运维故障处理经验积累的方法,包括:
步骤S01:获取多个待处理的故障问题描述文本以及对应的问题解决措施描述文本;
步骤S02:基于语义相似度对多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇;
步骤S03:基于语义相似度对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇,其中,每个第一聚类簇对应至少一个第二聚类簇;
步骤S04:在每个第一聚类簇中确定一个故障问题描述文本作为标准故障问题描述文本,以及在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本,其中,每个标准故障问题描述文本对应至少一个标准问题解决措施描述文本;
步骤S05:构建至少一个第一数据集,每个第一数据集包括一个标准故障问题描述文本以其对应的标准问题解决措施描述文本,将至少一个第一数据集写入到IT运维故障处理经验库中。
可以理解,本发明实施例通过对运维工单中记录的多个待处理的故障问题描述文本以及对应的问题解决措施描述文本进行分词处理,然后基于语义相似度对多个故障问题描述文本以及多个问题解决措施描述文本进行聚类处理,以对相似故障问题以及相似故障问题对应的问题解决措施进行聚类合并,为每一类相似故障问题以及对应的每一类问题解决措施确定对应的标准表述,最终写入IT运维故障处理经验库中,从而实现了IT运维处理经验的自动积累,相对现在人工梳理的过程,覆盖的范围更全面,降低了对专家经验的依赖,减少了大量的人力投入。
下面对本发明实施例提供的IT运维故障处理经验积累的方法进行更为具体的介绍。
针对步骤S01:获取多个待处理的故障问题描述文本以及对应的问题解决措施描述文本;
通常情况下,IT运维系统会对IT运维工单的数据文本进行收集和整理以得到包含特有词汇或者典型的IT故障问题描述文本以及对应的问题解决措施描述文本,并将得到的这些文本添加至IT运维工单库中。
针对步骤S02:基于语义相似度对多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇;
在本发明一个或者多个实施例中,在基于语义相似度对多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇之前,IT运维故障处理经验积累的方法还包括:
步骤A01:对每个故障问题描述文本以及每个故障问题描述文本所对应的问题解决措施描述文本进行分词处理,得到多个分词;
步骤A02:计算多个分词中每个分词的词向量,得到每个故障问题描述文本和每个问题解决措施描述文本对应的词向量序列。
其中,本发明实施例通过采用分词技术对各个故障问题描述文本以及每个故障问题描述文本所对应的问题解决措施描述文本进行分词处理,其中,分词处理是为了能更好的分析句子的特性,在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语。
更具体地,本发明实施例通过事先构建的IT运维业务分词库和人工梳理的停用词库,利用jieba(结巴)分词技术对每个故障问题描述文本及问题解决措施描述文本进行分词处理。以具体例子说明分词效果如下:
故障问题描述文本1(Q1)“缴费提交卡住了”;
故障问题描述文本2(Q2)“缴费提交报500错误”;
故障问题描述文本3(Q3)“缴费提交不了”。
基于IT运维业务分词库的分词结果如下:
Q1的分词结果(剔除了停用词后的结果)包括“缴费”、“提交”、“卡”、“住”;
Q2的分词结果(剔除了停用词后的结果)包括“缴费”、“提交”、“报”、“500”、“错误”;
Q3的分词结果(剔除了停用词后的结果)包括“缴费”、“提交”“不”。
其中,jieba(结巴)分词技术的分词原理为:基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM(HiddenMarkov models,隐马尔可夫)模型,并使用Viterbi算法。由于jieba(结巴)分词技术是本领域技术人员常用的分词技术,对于jieba(结巴)分词技术更进一步的细节及原理,本发明不一一赘述。
其中,在一种可选的实施方式中,本发明实施例通过计算TF-IDF(TermFrequency-Inverse Document Frequency,词频--反转文件频率)值得到每个分词的词向量。词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否);逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。将TF值和IDF值相乘,即可得到一个分词的TF-IDF值,某个分词对文本的重要性越高,其TF-IDF值就越大,所以排在最前面的几个词就是文本的关键词。
TF-IDF值的计算公式(1-1)为:
其中,count(W)表示某个分词在对应的文本(故障问题描述文本或问题解决措施描述文本)中出现的次数;count(d)表示该文本(故障问题描述文本或问题解决措施描述文本)出现次数最多的分词出现的次数,n表示IT运维工单库中的对应的文本(故障问题描述文本或问题解决措施描述文本)总数,count(D)表示包含该分词的对应的文本数(故障问题描述文本数或问题解决措施描述文本数)。
通过对每个分词进行TF-IDF值的计算,将每个故障问题描述文本以及每个问题解决措施描述文本中对应的各个分词的TF-IDF值写入每个故障问题描述文本以及每个问题解决措施描述文本所对应的数组中,得到每个故障问题描述文本以及每个问题解决措施描述文本的词向量序列。
在本发明一个或者多个实施例中,步骤S02:基于语义相似度对多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇,可以包括:
步骤S021:根据每个故障问题描述文本对应的词向量序列,使用SBD距离算法计算各个故障问题描述文本之间的语义相似度;
步骤S022:根据语义相似度的计算结果,使用DBSCAN(Density-Based SpatialClustering of Applications with Noise)聚类算法对多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇,每个第一聚类簇包括至少一个故障问题描述文本。
其中,为了判别文本描述的相似性,本发明实施例使用SBD距离算法来计算各文本描述的词向量之间的距离,其中,距离值越小,则说明故障问题描述文本之间的语义相似度越高。
具体地,如果故障问题描述文本T1对应的词向量序列X(x1,x2,x3,...,xn),故障问题描述文本T2对应的词向量序列Y(y1,y2,y3,...,yn),s表示两个词序列之间的位移,计算两词序列相似度的SBD距离算法可以由以下所示的公式(1-2)、公式(1-3)及公式(1-4)实现:
SBD(X,Y)=1-NCC(X,Y) (1-4)
其中,NCC表示词向量序列X,Y的标准化互相关系数,其值域为[-1,1]对应的SBD的值域为[0,2]。SBD值越小,说明词向量序列X,Y越相似,对应的故障问题描述文本T1和T2也越相似,当SBD为0时,说明词向量序列X,Y波动曲线一致,为同一序列,说明文本T1和T2描述完全一致,SBD距离算法,相较现在余弦距离、欧式距离等算法,在生产环境具备更高效的归类分派效率。
其中,为了对相似故障问题进行聚类合并,本发明实施例使用DBSCAN聚类算法对多个故障问题描述文本进行聚类处理,当然,本发明实施例使用的聚类算法不限于DBSCAN聚类算法,在本发明其它实施方式中,还可以使用其它的聚类算法,例如OPTICS(OrderingPoint To Identify the Cluster Structure)聚类算法等。
具体地,DBSCAN聚类算法为基于密度的聚类算法,可以对多个故障问题描述文本进行聚类合并。DBSCAN聚类算法的核心思想是根据于语义相似度在样本的稠密区域中找到若干核心样本(cores),之后通过样本相似性的传递性来扩展各核心样本所在的区域(即若a与b相似,b与c相似,则a、b、c均属于同一聚类簇)形成聚类簇,其中,为了方便区别,本发明实施例将故障问题描述文本进行聚类处理后得到的聚类簇称为第一聚类簇,将问题解决措施描述文本进行聚类处理后得到的聚类簇称为第二聚类簇;通过按照词向量曲线的潜在模式相似性进行聚类,并可以形成任意形状和大小的聚类簇。我们在进行样本数据训练时,可以通过调整DBSCAN函数的密度半径及聚类的最小样本点个数,不断优化我们的训练结果,使得聚类达到最优效果。
对于新产生的未分类的故障问题描述文本和/或问题解决措施描述文本,本发明实施例只需计算其与各聚类簇中任一文本描述的相似性距离,将其分派到距离最近的类别。特别的,互相关理论中通常认为NCC小于0.8(对应SBD距离大于0.2)意味着两曲线没有强相关性,因而,以新产生有故障问题描述文本为例,如果新产生的故障问题描述文本与各个第一聚类簇中任一故障问题描述文本的SBD距离均大于0.2,则该新产生的故障问题描述文本被划分为离群点,表明其与任何第一聚类簇在形状上均不相似。由此,通过快速的分派策略,能够快速对海量文本描述进行归类分派。
针对步骤S03:基于语义相似度对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇,其中,每个第一聚类簇对应至少一个第二聚类簇。
在本发明一个或者多个实施例中,基于语义相似度对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇,包括:
步骤S031:根据每个问题解决措施描述文本对应的词向量序列,使用SBD距离算法确定各个问题解决措施描述文本之间的语义相似度;
其中,各个问题解决措施描述文本的语义相似度地计算方式与各个故障问题描述文本的语义相似度的计算方式相同,具体可参见上文的对应内容,为避免重复,在此不重复赘述;
步骤S032:根据语义相似度的计算结果,使用DBSCAN聚类算法对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇。
其中,本发明实施例对各个问题解决措施描述文本的聚类处理的方式与对各个故障问题描述文本聚类处理的方式相同,具体可参见上文的对应,为避免重复,在此不重复赘述。
需要知道的是,由于本发明实施例中是分别对每个第一聚类簇中的所有故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,因此,对于每个第一聚类簇,可能会出现对应多个第二聚类簇的情况,即实际IT运维故障处理过程中同一类型的故障问题,有不同的解决方案的情况。
针对步骤S04:在每个第一聚类簇中确定一个故障问题描述文本作为标准故障问题描述文本,以及在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本,其中,每个标准故障问题描述文本对应至少一个标准问题解决措施描述文本;
具体地,在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本,包括:
S041:在每个第一聚类簇所对应的每个第二聚类簇中分别确定一个问题解决措施描述文本作为标准问题解决措施描述文本。
本发明实施例通过在每个第一聚类簇中确定一个故障问题描述文本作为标准故障问题描述文本,以实现在同一类型的故障问题中选择一个标准表述;以及通过在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本,以实现在同一类故障问题所对应得各个相似的解决措施中选择一个标准表述。
针对步骤S05:构建至少一个第一数据集,每个第一数据集包括一个标准故障问题描述文本以其对应的标准问题解决措施描述文本,将至少一个第一数据集写入到IT运维故障处理经验库中。
由于每个第一聚类簇可以会出现对应多个第二聚类簇的情况,因此,在本发明实施方式中,每个第一数据集还包括每个标准故障问题描述文本所对应的第二聚类簇的成员数,成员数表示为第二聚类簇所包括的问题解决措施描述文本的数量。其中,成员数越大,则该类问题解决措施描述文本对应的解决措施就可能是最常见的问题解决措施,那么这类问题解决措施描述文本,需要将其沉淀到IT运维故障处理经验库中。
进一步地,将至少一个第一数据集写入到IT运维故障处理经验库中,包括:
步骤S051:根据成员数从多到少对每个标准故障问题描述文本所对应的至少一个标准问题解决措施描述文本进行排名,选择排名小于或者等于N的标准问题解决措施描述文本作为第一标准问题解决措施描述文本,其中N为大于或者等于2的自然数,N的值可以根据实际需求灵活设置;
可以理解,通过根据各个聚类簇标准问题解决措施描述文本对应的第二聚类簇的成员数的多少,为每个标准问题解决措施描述文本选取成员数较多的N个或者小于N个标准问题解决措施描述文本,然后将各个标准故障问题描述文本以及每个标准故障问题描述文本所对应的成员数较多的N个或者小于N个标准问题解决措施描述文本添加至IT运维故障处理经验库中,可以对不常见的问题解决措施进行筛选,从而有效较少IT运维故障处理经验库的存储资源的占用率。
步骤S052:将至少一个标准故障问题描述文本以及每个标准故障问题描述文本对应的第一标准问题解决措施描述文本写入到IT运维故障处理经验库中,进而实现IT运维故障处理经验地自动积累。
可以理解,本发明实施例通过将NLP(Natural Language Processing,自然语言技术)与聚类算法应用到IT运维故障处理经验积累领域,实现历史故障运维经验的智能化自动积累,大大减少了现在人工梳理的工作,有效节省IT运维工作的人力成本。
请参阅附图2,图2本发明实施例提供的一种IT运维故障处理经验积累装置的结构框图,本发明实施例还提供一种IT运维故障处理经验积累装置100,包括:
获取模块11,用于获取多个待处理的故障问题描述文本以及对应的问题解决措施描述文本;
第一处理模块12,用于基于语义相似度对多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇;
第二处理模块13,用于基于语义相似度对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇,其中,每个第一聚类簇对应至少一个第二聚类簇;
确定模块14,用于在每个第一聚类簇中确定一个故障问题描述文本作为标准故障问题描述文本,以及在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本,其中,每个标准故障问题描述文本对应至少一个标准问题解决措施描述文本;以及
写入模块15,用于构建至少一个第一数据集,每个第一数据集包括一个标准故障问题描述文本以其对应的标准问题解决措施描述文本,将至少一个第一数据集写入到IT运维故障处理经验库中。
可选地,IT运维故障处理经验积累装置100还包括:
分词模块,用于对每个故障问题描述文本以及每个故障问题描述文本所对应的问题解决措施描述文本进行分词处理,得到多个分词;以及
词向量计算模块,用于计算多个分词中每个分词的词向量,得到每个故障问题描述文本和每个问题解决措施描述文本对应的词向量序列。
可选地,第一处理模块12具体用于执行以下步骤:
根据每个故障问题描述文本对应的词向量序列,使用SBD距离算法确定各个故障问题描述文本之间的语义相似度;
根据语义相似度的计算结果,使用DBSCAN聚类算法对多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇,每个第一聚类簇包括至少一个故障问题描述文本。
可选地,第二处理模块13具体用于执行以下步骤:
根据每个问题解决措施描述文本对应的词向量序列,使用SBD距离算法确定各个问题解决措施描述文本之间的语义相似度;
根据语义相似度的计算结果,使用DBSCAN聚类算法对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇。
可选地,确定模块14具体用于执行以下步骤:
在每个第一聚类簇所对应的每个第二聚类簇中分别确定一个问题解决措施描述文本作为标准问题解决措施描述文本。
可选地,每个第一数据集还包括每个标准故障问题描述文本所对应的第二聚类簇的成员数,成员数为第二聚类簇所包括的问题解决措施描述文本的数量。
可选地,写入模块15具体用于执行以下步骤:
根据成员数从多到少对每个标准故障问题描述文本所对应的至少一个标准问题解决措施描述文本进行排名,选择排名小于或者等于N的标准问题解决措施描述文本作为第一标准问题解决措施描述文本,其中N为大于或者等于2的自然数;
将至少一个标准故障问题描述文本以及每个标准故障问题描述文本对应的第一标准问题解决措施描述文本写入到IT运维故障处理经验库中。
本发明实施例还提供一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明任一实施例中的时间同步方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器执行时实现实施例中终端中各模块/单元的功能,为避免重复,此处不一一赘述。
请参阅附图3,本发明实施例提供了一种电子设备50,该实施例的电子设备50包括:处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的程序53,该程序53被处理器51执行时实现实施例中的IT运维故障处理经验积累的方法,为避免重复,此处不一一赘述。
电子设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。电子设备50可包括但不仅限于处理器51、存储器52。本领域技术人员可以理解,图3仅仅是电子设备50的示例,并不构成对电子设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器51可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器52可以是电子设备50的内部存储单元,例如电子设备50的硬盘或内存。存储器52也可以是电子设备50的外部存储设备,例如电子设备50上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器52还可以既包括电子设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及电子设备所需的其它程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括如果干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种IT运维故障处理经验积累的方法,其特征在于,包括:
获取多个待处理的故障问题描述文本以及对应的问题解决措施描述文本;
基于语义相似度对所述多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇;
基于语义相似度对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇,其中,每个第一聚类簇对应至少一个第二聚类簇;
在每个第一聚类簇中确定一个故障问题描述文本作为标准故障问题描述文本,以及在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本,其中,每个标准故障问题描述文本对应至少一个标准问题解决措施描述文本;
构建至少一个第一数据集,每个第一数据集包括一个标准故障问题描述文本以其对应的标准问题解决措施描述文本,将至少一个所述第一数据集写入到IT运维故障处理经验库中。
2.根据权利要求1所述的方法,其特征在于,在基于语义相似度对所述多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇之前,所述方法还包括:
对每个故障问题描述文本以及每个故障问题描述文本所对应的问题解决措施描述文本进行分词处理,得到多个分词;
计算所述多个分词中每个分词的词向量,得到每个故障问题描述文本和每个问题解决措施描述文本对应的词向量序列。
3.根据权利要求2所述的方法,其特征在于,所述基于语义相似度对所述多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇,包括:
根据每个故障问题描述文本对应的词向量序列,使用SBD距离算法确定所述各个故障问题描述文本之间的语义相似度;
根据语义相似度的计算结果,使用DBSCAN聚类算法对所述多个故障问题描述文本进行聚类处理,形成所述至少一个第一聚类簇,每个所述第一聚类簇包括至少一个故障问题描述文本。
4.根据权利要求3所述的方法,其特征在于,所述基于语义相似度对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇,包括:
根据每个问题解决措施描述文本对应的词向量序列,使用所述SBD距离算法确定各个问题解决措施描述文本之间的语义相似度;
根据语义相似度的计算结果,使用DBSCAN聚类算法对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成所述至少一个第二聚类簇。
5.根据权利要求1所述的方法,其特征在于,在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本,包括:
在每个第一聚类簇所对应的每个第二聚类簇中分别确定一个问题解决措施描述文本作为标准问题解决措施描述文本。
6.根据权利要求1所述的方法,其特征在于,每个第一数据集还包括每个标准故障问题描述文本所对应的第二聚类簇的成员数,所述成员数为所述第二聚类簇所包括的问题解决措施描述文本的数量。
7.根据权利要求6所述的方法,其特征在于,将所述至少一个第一数据集写入到IT运维故障处理经验库中,包括:
根据成员数从多到少对每个标准故障问题描述文本所对应的至少一个标准问题解决措施描述文本进行排名,选择排名小于或者等于N的标准问题解决措施描述文本作为第一标准问题解决措施描述文本,其中N为大于或者等于2的自然数;
将至少一个标准故障问题描述文本以及每个标准故障问题描述文本对应的第一标准问题解决措施描述文本写入到所述IT运维故障处理经验库中。
8.一种IT运维故障处理经验积累装置,其特征在于,包括,
获取模块,用于获取多个待处理的故障问题描述文本以及对应的问题解决措施描述文本;
第一处理模块,用于基于语义相似度对所述多个故障问题描述文本进行聚类处理,形成至少一个第一聚类簇;
第二处理模块,用于基于语义相似度对每个第一聚类簇中的故障问题描述文本所对应的问题解决措施描述文本进行聚类处理,形成至少一个第二聚类簇,其中,每个第一聚类簇对应至少一个第二聚类簇;
确定模块,用于在每个第一聚类簇中确定一个故障问题描述文本作为标准故障问题描述文本,以及在每个第一聚类簇所对应的至少一个第二聚类簇中确定至少一个问题解决措施描述文本作为标准问题解决措施描述文本,其中,每个标准故障问题描述文本对应至少一个标准问题解决措施描述文本;以及
写入模块,用于构建至少一个第一数据集,每个第一数据集包括一个标准故障问题描述文本以其对应的标准问题解决措施描述文本,将至少一个所述第一数据集写入到IT运维故障处理经验库中。
9.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行1至7任意一项所述的方法。
10.一种电子设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于:所述程序指令被处理器加载并执行时实现权利要求1至7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010170617.3A CN113392208A (zh) | 2020-03-12 | 2020-03-12 | It运维故障处理经验积累的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010170617.3A CN113392208A (zh) | 2020-03-12 | 2020-03-12 | It运维故障处理经验积累的方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113392208A true CN113392208A (zh) | 2021-09-14 |
Family
ID=77615743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010170617.3A Pending CN113392208A (zh) | 2020-03-12 | 2020-03-12 | It运维故障处理经验积累的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392208A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564947A (zh) * | 2022-03-04 | 2022-05-31 | 上海富欣智能交通控制有限公司 | 轨道交通信号故障运维方法、装置及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012173793A (ja) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 予測器選択装置、予測器選択方法、予測器選択プログラム |
CN106845526A (zh) * | 2016-12-29 | 2017-06-13 | 北京航天测控技术有限公司 | 一种基于大数据融合聚类分析的关联参数故障分类方法 |
CN108804567A (zh) * | 2018-05-22 | 2018-11-13 | 平安科技(深圳)有限公司 | 提高智能客服应答率的方法、设备、存储介质及装置 |
CN108804641A (zh) * | 2018-06-05 | 2018-11-13 | 鼎易创展咨询(北京)有限公司 | 一种文本相似度的计算方法、装置、设备和存储介质 |
CN108876452A (zh) * | 2018-06-12 | 2018-11-23 | 广东电网有限责任公司 | 用电客户需求信息获取方法、装置以及电子设备 |
CN109766428A (zh) * | 2019-02-02 | 2019-05-17 | 中国银行股份有限公司 | 数据查询方法和设备、数据处理方法 |
CN109766927A (zh) * | 2018-12-10 | 2019-05-17 | 清华大学 | 基于混合深度学习的高铁道岔智能故障检测方法 |
-
2020
- 2020-03-12 CN CN202010170617.3A patent/CN113392208A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012173793A (ja) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 予測器選択装置、予測器選択方法、予測器選択プログラム |
CN106845526A (zh) * | 2016-12-29 | 2017-06-13 | 北京航天测控技术有限公司 | 一种基于大数据融合聚类分析的关联参数故障分类方法 |
CN108804567A (zh) * | 2018-05-22 | 2018-11-13 | 平安科技(深圳)有限公司 | 提高智能客服应答率的方法、设备、存储介质及装置 |
CN108804641A (zh) * | 2018-06-05 | 2018-11-13 | 鼎易创展咨询(北京)有限公司 | 一种文本相似度的计算方法、装置、设备和存储介质 |
CN108876452A (zh) * | 2018-06-12 | 2018-11-23 | 广东电网有限责任公司 | 用电客户需求信息获取方法、装置以及电子设备 |
CN109766927A (zh) * | 2018-12-10 | 2019-05-17 | 清华大学 | 基于混合深度学习的高铁道岔智能故障检测方法 |
CN109766428A (zh) * | 2019-02-02 | 2019-05-17 | 中国银行股份有限公司 | 数据查询方法和设备、数据处理方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564947A (zh) * | 2022-03-04 | 2022-05-31 | 上海富欣智能交通控制有限公司 | 轨道交通信号故障运维方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073568B (zh) | 关键词提取方法和装置 | |
CN107463605B (zh) | 低质新闻资源的识别方法及装置、计算机设备及可读介质 | |
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
US11669795B2 (en) | Compliance management for emerging risks | |
CN111767713B (zh) | 关键词的提取方法、装置、电子设备及存储介质 | |
CN113254255B (zh) | 一种云平台日志的分析方法、系统、设备及介质 | |
CN112685324A (zh) | 一种生成测试方案的方法及系统 | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
WO2017095439A1 (en) | Incremental clustering of a data stream via an orthogonal transform based indexing | |
CN112632280B (zh) | 文本分类方法、装置、终端设备及存储介质 | |
CN113392208A (zh) | It运维故障处理经验积累的方法、装置及存储介质 | |
CN111444362A (zh) | 恶意图片拦截方法、装置、设备和存储介质 | |
CN112487181B (zh) | 关键词确定方法和相关设备 | |
US11989526B2 (en) | Systems and methods for short text similarity based clustering | |
CN113011153B (zh) | 文本相关性检测方法、装置、设备及存储介质 | |
CN115495587A (zh) | 一种基于知识图谱的告警分析方法及装置 | |
CN114330720A (zh) | 用于云计算的知识图谱构建方法、设备及存储介质 | |
CN111090743B (zh) | 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置 | |
CN113392184A (zh) | 一种相似文本的确定方法、装置、终端设备及存储介质 | |
CN105260467A (zh) | 一种短信分类的方法及装置 | |
CN113064597B (zh) | 一种冗余代码的识别方法、装置和设备 | |
CN112784046B (zh) | 文本聚簇的方法、装置、设备及存储介质 | |
CN115187153B (zh) | 应用于业务风险溯源的数据处理方法及系统 | |
CN115563276A (zh) | 一种数据分析的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210914 |