CN108197175B

CN108197175B - 技术监督数据的处理方法和装置、存储介质、处理器

Info

Publication number: CN108197175B
Application number: CN201711391876.3A
Authority: CN
Inventors: 门业堃; 王彦卿; 李红; 赵雪骞; 钱梦迪; 杨博; 谢欢; 李伟; 叶宽; 刘若溪; 周恺; 王谦
Original assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2021-12-10
Anticipated expiration: 2037-12-20
Also published as: CN108197175A

Abstract

本发明公开了一种技术监督数据的处理方法和装置、存储介质、处理器。其中，该方法包括：获取技术监督数据，其中，技术监督数据包括：多个问题的描述文本，多个问题包含多个维度；从技术监督数据中提取关键词，得到关键词矩阵；对关键词矩阵进行层次聚类，得到分类后的关键词矩阵；根据分类后的关键词矩阵，得到技术监督数据的关联关系。本发明解决了现有技术中对技术监督数据的处理方法效率低的技术问题。

Description

技术监督数据的处理方法和装置、存储介质、处理器

技术领域

本发明涉及自然语言处理、本文分类、文本处理领域，具体而言，涉及一种技术监督数据的处理方法和装置、存储介质、处理器。

背景技术

随着技术监督精益化管理的不断深化，每年各单位通过技术监督发现并解决数以万计的问题，为公司提升电网本质安全做出了巨大贡献。由于各阶段管理信息系统未贯通，缺乏有效的信息管理手段，这些宝贵的数据和经验不能在公司系统得到广泛的交流和借鉴，技术监督大数据分析应用还需进一步拓展。

针对现有技术中对技术监督数据的处理方法效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种技术监督数据的处理方法和装置、存储介质、处理器，以至少解决现有技术中对技术监督数据的处理方法效率低的技术问题。

根据本发明实施例的一个方面，提供了一种技术监督数据的处理方法，包括：获取技术监督数据，其中，技术监督数据包括：多个问题的描述文本，多个问题包含多个维度；从技术监督数据中提取关键词，得到关键词矩阵；对关键词矩阵进行层次聚类，得到分类后的关键词矩阵；根据分类后的关键词矩阵，得到技术监督数据的关联关系。

进一步地，从技术监督数据中提取关键词，得到关键词矩阵包括：利用隐马尔科夫算法对多个维度对应的问题进行分词，得到分词结果；利用向量空间模型对分词结果进行向量化处理，得到技术监督数据对应的特征向量；利用词频和逆向文档频率模型对技术监督数据对应的特征向量进行处理，得到关键词矩阵。

进一步地，在利用词频和逆向文档频率模型对技术监督数据对应的特征向量进行处理，得到关键词矩阵之后，上述方法还包括：利用主成分分析算法对关键词矩阵进行降维处理，得到处理后的关键词矩阵。

进一步地，对关键词矩阵进行层次聚类，得到分类后的关键词矩阵包括：计算关键词矩阵中每个特征向量与技术监督数据中每个问题的相关系数，得到判断矩阵；根据判断矩阵和技术监督数据，得到分类后的关键词矩阵。

进一步地，在根据判断矩阵和技术监督数据，得到分类后的关键词矩阵之后，上述方法还包括：计算每个问题对应的类别特征信息的查全率和查准率；根据查全率和查准率得到综合分类率；判断综合分类率是否满足预设阈值；如果综合分类率不满足预设阈值，则重新根据判断矩阵和技术监督数据，得到新的分类后的关键词矩阵，直至综合分类率满足预设阈值；如果综合分类率满足预设阈值，则根据分类后的关键词矩阵，得到技术监督数据的关联关系。

进一步地，根据分类后的关键词矩阵，得到技术监督数据的关联关系包括：对分类后的关键词矩阵中的每个关键词进行词性标注，得到标注后的关键词矩阵；对标注后的关键词矩阵进行组合，得到多个组合问题；根据多个组合问题，得到技术监督数据的关联关系。

进一步地，在根据多个组合问题，得到技术监督数据的关联关系之后，上述方法还包括：根据技术监督数据的关联关系，得到多个维度对应的知识图谱。

进一步地，根据分类后的关键词矩阵，得到技术监督数据的关联关系包括：利用逐层搜索算法对分类后的关键词矩阵进行处理，得到频繁谓词集；根据频繁谓词集，得到技术监督数据的关联关系。

进一步地，在根据频繁谓词集，得到技术监督数据的关联关系之后，上述方法还包括：根据技术监督数据的关联关系，得到关键词矩阵与多个维度的对应关系的关联图。

进一步地，在从技术监督数据中提取关键词，得到关键词矩阵之前，上述方法还包括：获取预设词汇集合；利用预设词汇集合，对技术监督数据进行处理，得到处理后的技术监督数据；从处理后的技术监督数据中提取关键词，得到关键词矩阵。

根据本发明实施例的另一方面，还提供了一种技术监督数据的处理装置，包括：获取模块，用于获取技术监督数据，其中，技术监督数据包括：多个问题的描述文本，多个问题包含多个维度；提取模块，用于从技术监督数据中提取关键词，得到关键词矩阵；聚类模块，用于对关键词矩阵进行层次聚类，得到分类后的关键词矩阵；处理模块，用于根据分类后的关键词矩阵，得到技术监督数据的关联关系。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述实施例中的技术监督数据的处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述实施例中的技术监督数据的处理方法。

在本发明实施例中，由于可以从技术监督数据中提取关键词，得到关键词矩阵，然后通过层次聚类，进一步得到分类后的关键词矩阵，从而进一步得到技术监督数据的关联关系，也即，得到各阶段、各单位以及各专业技术监督相关问题与各因素之间的潜在联系，达到提升处理准确度，为技术监督工作提供新的思路及决策辅助的技术效果，进而解决了现有技术中对技术监督数据的处理方法效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种技术监督数据的处理方法的流程图；

图2是根据本发明实施例的一种可选的规划可研阶段对应的知识图谱；

图3是根据本发明实施例的一种可选的变压器对应的知识图谱；

图4是根据本发明实施例的一种可选的Apriori算法寻找频繁模式的流程图；

图5是根据本发明实施例的一种可选的Apriori算法寻找频繁模式的示意图；

图6是根据本发明实施例的一种可选的知识图谱挖掘的总览图；

图7是根据本发明实施例的一种可选的自定义词典的示意图；以及

图8是根据本发明实施例的一种技术监督数据的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种技术监督数据的处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种技术监督数据的处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取技术监督数据，其中，技术监督数据包括：多个问题的描述文本，多个问题包含多个维度。

具体地，上述的技术监督数据可以是全过程技术监督相关工作报表中的文本信息，属于非结构化文本，记录了每个阶段、每个单位以及每个专业出现的经常性问题，也即，上述的多个维度可以是阶段、单位以及专业。

步骤S104，从技术监督数据中提取关键词，得到关键词矩阵。

具体地，上述的关键词可以是每个问题的描述文本中，能够对问题进行表述的特征信息。

步骤S106，对关键词矩阵进行层次聚类，得到分类后的关键词矩阵。

具体地，除了提取关键词之外，还需要将问题进行分类，利用相关聚类算法，将问题内容分类，并根据类别特征贴标签，在本发明实施例中，采用目前应用较为成熟的聚类方法，也即k-Means聚类方法将原始数据进行层次聚类，初步分析可将所有问题分为4-8类。分别选取k为4、5、6、7、8，并通过计算整体轮廓系数，进行聚类效果的比较。结果表明k＝6，即将缺陷模式分为6类时聚类结果最为理想，结合文本的缺陷物理背景和专家经验，可以总结归纳出常见的六类文本缺陷模式，使用k-Means对问题数据进行聚类，其结果如下表1所示：

表1

序号	缺陷案例
		缺陷1	F4，F6，F11，F12，F19
缺陷2	F3，F10，F13，F22
		缺陷3	F7，F9，F15，F16，F18
缺陷4	F2，F20
		缺陷5	F1，F5，F8，F17
缺陷6	F14，F21

步骤S108，根据分类后的关键词矩阵，得到技术监督数据的关联关系。

在一种可选的方案中，全过程技术监督日常报表中大量文本信息内含重要的问题特征和规律，通过对非结构化的文本记录进行关键词提取和层次聚类等分析，利用大数据手段，挖掘每个阶段、每个单位以及每个专业出现的经常性问题，将这些问题进行关联统计并可视化分析之后，充分挖掘问题件内在联系，也即挖掘各阶段、各单位以及各专业技术监督相关问题与各因素之间的潜在联系，掌握问题的产生和发展规律，为技术监督工作提供新的思路及决策辅助。

根据本发明上述实施例，由于可以从技术监督数据中提取关键词，得到关键词矩阵，然后通过层次聚类，进一步得到分类后的关键词矩阵，从而进一步得到技术监督数据的关联关系，也即，得到各阶段、各单位以及各专业技术监督相关问题与各因素之间的潜在联系，达到提升处理准确度，为技术监督工作提供新的思路及决策辅助的技术效果，进而解决了现有技术中对技术监督数据的处理方法效率低的技术问题。

可选地，在本发明上述实施例中，步骤S104，从技术监督数据中提取关键词，得到关键词矩阵包括：

步骤S1042，利用隐马尔科夫算法对多个维度对应的问题进行分词，得到分词结果。

具体地，汉语中的词是由一个字或多个字组成，分为单字词与多字词。由字构词的汉语分词方法就是将分词过程看作是字的分类问题。在以往的分词算法中，无论是逐词遍历法还是基于统计语言模型的方法，一般都会依赖于词典，自动分词过程就是通过查词典来得出最终的分词结果。而由字构词的分词方法则认为每个字在构造成一个特定的词语时都占据着一个确定的构词位置，由此规定每个字只有4个词位：词首(B)、词中(M)、词尾(E)、单字词(S)。由字构词方法中的“字”不仅限于汉字，也可以指标点符号、外文字母、注音符号和阿拉伯数字等任何可能出现在汉语文本中的文字符号，所有这些字符都是由字构词的基本单元。并且这种分词方法不依赖词典，这样就解决了由于词典规模造成的一些分词错误，特别是对未登录词的识别有很大的提升。

在基于词位的HMM(隐马尔科夫算法，是Hidden Markov Model的简称)分词过程中，取字信息和词位信息为特征。在观察序列O＝{o1,o2,...,oi,...,oM}中，oi为识别出的时间i时的字信息本身，C＝{c1,c2,...,ci,...cM}中，ci所求对应的输出的词位的状态信息。对于基于四词位状态{B,M,E,S}的HMM分词，在给定观察序列，O＝{o1,o2,...,oi,...,oM}中，根据公式可得：

P(C|O)＝P(C,O)/P(O) (1)

所以，有：

P(C,O)＝P(O|C)*P(C) (2)

对于给定长度为M的句子，P(O)固定，即求

W*＝MAX{P(O|C)*P(C)} (3)

根据独立性假设公式：

P(O|C)＝∏p(oi|C) (4)

将式(4)代入式式(3)，得到W*的二元统计模型公式：

W*＝MAX∏p(o1...om|ci)*p(ci|ci-1) (5)

或三元统计模型公式：

W*＝MAX∏p(o1...om|ci)*p(ci|ci-1ci-2) (6)

对*W的求解转化为求最大值问题。

在基于词位的二元统计模型μ＝{A,B,π}中，状态转移矩阵A＝{aij}中元素，aij＝P(cj|ci)＝p(ci,cj)/p(ci)＝Count(ci,cj)/Count(ci)，其中ci,cj∈{B,M,E,S}从状态序列到观察序列(字信息)的概率分布矩阵B＝{bci(j)}中元素，

bci(j)＝P(oj|ci)＝p(oj,ci)/p(ci)＝Count(oi,cj)/Count(ci)，

其中ci∈{B,M,E,S}，Count(oi,cj)表示观察单元oi以状态ci在训练语料里出现的次数，Count(ci)表示状态ci在训练语料出现的总次数。可以通过Viterbi算法(维特比算法)得到一个MAX(P(C|O))，再通过解码就可以求得对应观察值的词位状态信息，即得到了分词结果。

由于HMM算法统计模型是基于独立性假设这个前提的(公式(4))，而在基于词位信息进行统计运算的时候，前面的汉字对当前汉字状态预测的影响非常大，如果继续使用公式(4)，则不能很好的结合上文的信息，达不到理想的分词效果。因此提出一种改进HMM算法，可以令oi’＝oioi-1，将公式(4)修改为：

P(O|C)＝∏p(oioi-1|C)，

在实验中可以选择相邻的两个字为观察单元，和词位信息一起作为特征，即对观察序列进行加窗处理，从而在该方法的分词过程中，观察值不再是一个一个的汉字，而是两两组合的汉字，这两两的汉字组合也就是的观察单元。这样，HMM的二元统计模型公式变更为：

W*＝MAX∏p(o1’...om’|ci)*p(ci|ci-1)，

其中，oi’＝oioi-1就是新的观察单元，而ci为oi的状态。

从状态序列到观察序列概率分布矩阵B’＝{bci’(j)}中元素则修改为：

bci(j)＝P(oj|ci)＝p(oj’,ci)/p(ci)＝Count(oi’,cj)/Count(ci)＝Count(oioj-1,cj)/Count(ci)，

其中ci∈{B,M,E,S}，Count(oioj-1,cj)表示相邻的两个观察单元ojoj-1在训练语料里同时出现并且oj的状态为ci的统计次数，Count(ci)表示状态ci出现的总次数。

通过上述方式在计算B’＝{bci’(j)}的时候能很好的避免由字构词分词方法和HMM算法相结合的时候由HMM的独立性假设所带来的不能很好的考虑前文信息的缺陷问题，比直接用HMM统计模型更能紧密的结合前文的信息。

通过实验可知，由于该改进HMM方法是完全基于统计信息的分词，脱离了词典，减少了传统分词方法中查询词典的环节，提高了运行效率，减少了计算量，能较好的运用到嵌入式设备。

例如，在技术监督数据包括问题1：紫霞变电站#1主变B相本体灭火装置发“火警2”报警，以及问题1：#2主变B相油枕与本体连接管断流阀渗油的情况下，通过改进HMM算法进行分词，得到的问题1的分词结果为：紫霞变电站，#1主变B相，本体灭火装置，发“火警2”，报警；问题2的分词结果为：#2主变B相，油枕，与，本体，连接管，断流阀，渗油。

需要说明的是，结巴中文分词jiebaR算法提供了四种分词模式：隐马尔科夫模型、混合模型、索引模型和最大概率法，在本发明实施例中，采取自适应性最强的混合模型，并通过函数worker()建立分词引擎。

通过隐马尔可夫算法对全过程技术监督工作采集的非结构化文本数据进行分句分词，可以制定研究非结构化数据的结构化表达规则。

步骤S1044，利用向量空间模型对分词结果进行向量化处理，得到技术监督数据对应的特征向量。

具体地，全过程技术监督工作报表中存储的是非结构化的文本信息，所以文本分类的主要问题是把文本表示成计算机能够处理的形式。常见的文本表示方法有布尔逻辑型、概率型和向量空间模型等，在本发明实施例中采用向量空间模型(Vector SpaceModel，简称为VSM)来描述文本集。

向量空间模型的基本思想是以向量来表示文本，每个文本di都可以映射为此空间中的一个特征向量，V(di)＝((ti1，wi1)，(ti2，w2)，…，(tin，win))，其中tik为di对应的特征项，wik为第i个特征项的权重。然而特征项的选取一般是单词或者词组，因此，文本预处理是文本表示的首要前提。

对于常见的未登录词，其具备一定的统计特征。Mikolov等人提出了一种提取常用英文短语的方法，这种方法对于中文未登录词的提取有一定的参考价值。对于连续出现的两个词，如果它们连续出现的次数相对于各自出现的次数比较大，那么这两个词非常有可能为一个新的词或者短语，可以表示为：

score(wi,wj)＝count(wi,wj)/count(wi)count(wj)，

若该值大于一个阈值，则可以认为连续出现的两个词语可以合成为新词。对于中文分词而言，这种方式仅仅简单使用了统计信息，并没有利用词的语法、语义信息。为了更好地使用这样一个特征对分词结果进行修正，本发明实施例中提供的算法使用词与词之间同时出现次数的统计信息来训练词向量，为了表示目标函数，需要对一些符号做出定义：语料中词与词之间共同出现次数的统计信息矩阵为X，其中Xij表示词wj在词wi的语境下出现的次数；Xi表示在词wi的语境下出现的所有的词的次数，具体为Xi＝∑kXik；词wj在词wi的语境下出现的频率为Pij，具体为Pij＝Xij/Xi；词向量矩阵为W，其中W∈R|V|*d，|V|表示词的数量，d表示词向量维数。

除了需要利用词语共同出现的统计特征外，词向量的训练模型还必须是高效的、适合于分布式训练的，因此可以采用没有隐层并且目标函数较为简单的GloVe(全球词向量表示，是global vectors for word representation的简称)模型作为词向量的训练模型。其中，词向量训练的目标函数为：J(W)＝∑i,j(WTiWj－logXij)2。

为了去除一些低频项噪声，对目标函数引入权重项f(Xij)，权重项f(Xij)选择函数如下：

f(Xij)＝(Xij/Xmax)αif Xij＜Xmax或1otherwise

最终得到的目标函数为：

J(W)＝∑f(Xij)(WTiWj－logXij)2。

通过这样一个词向量模型训练得到的词向量，既包含良好的语法、语义信息，又可以方便地用于新词的发现。此外，最终得到的目标函数也非常适合进行分布式训练。

步骤S1046，利用词频和逆向文档频率模型对技术监督数据对应的特征向量进行处理，得到关键词矩阵。

具体地，在一份给定的文件里，词频(Term Frequency，简称为TF)指的是某一个给定的词语在该文件中出现的次数，这个数字通常会被归一化(分子一般小于分母，以区别于IDF)，以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否)。逆向文件频率(inverse document frequency，简称为IDF)是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF*IDF，TF词频(Term Frequency)，IDF反文档频率(Inverse DocumentFrequency)。TF表示词条在文档d中出现的频率(另一说：TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数)。

IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，则说明该词条t类别区分能力不强。但是，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并作为该类文本的特征词以区别与其它类文档。

对于在某一特定文件里的词语ti来说，它的重要性可表示为：tfi,j＝ni,j/∑nk,j，式中ni,j是该词ti在文件dj中的出现次数，而分母则是在文件dj中所有字词的出现次数之和。idfi＝log|D|/|{j:ti∈dj}|，其中|D|为语料库中的文件总数，|{j:ti∈dj}|包含词语ti的文件数目，如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用1+|{j:ti∈dj}|，然后tfidfi,j＝tfi,j*idfi为某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率。

例如，在得到问题1的分词结果为：紫霞变电站，#1主变B相，本体灭火装置，发“火警2”，报警；问题2的分词结果为：#2主变B相，油枕，与，本体，连接管，断流阀，渗油之后，通过TFIDF算法可以筛选得到关键词，问题1的关键词为：本体灭火装置，发“火警2”，报警；问题2的关键词为：油枕，本体，连接管，断流阀，渗油。

可选地，在本发明上述实施例中，在步骤S1046，利用词频和逆向文档频率模型对技术监督数据对应的特征向量进行处理，得到关键词矩阵之后，该方法还包括：

步骤S110，利用主成分分析算法对关键词矩阵进行降维处理，得到处理后的关键词矩阵。

具体地，对于词频-文档矩阵(即上述的关键词矩阵)D＝{wij}(i＝1,…,n；j＝1,…,m)，其中di(i＝1,…,n)表示文档，Tj(j＝1,…,m)表示关键词，主成分分析的主要思想是设法将原来类别特征重新组合成一组新的互相无关的几个综合类别特征来代替原来类别特征，同时根据实际需要从中可取几个较少的综合类别特征尽可能多地反应原来类别特征的信息。这种将多个类别特征化为少数互相无关的综合类别特征的统计方法叫做主成分分析。它也是常见的处理降维的一种方法。主成分分析的降维步骤如下：计算词频-文档矩阵D的协方差矩阵S＝{sik}；计算S的特征值λ和特征向量e；将特征值按从大到小的顺序进行排列(λ1≥λ2≥…≥λn)，并依次选择对应的特征值来构造特征向量矩阵；选择p个重要的主成分，关于p的选取主要根据主成分的累积贡献率来决定，即一般要求累积贡献率达到85％以上，这样才能保证综合变量能包括原始变量的绝大多数信息；计算主成分得分，以达到降维的目的。

可选地，在本发明上述实施例中，步骤S106，对关键词矩阵进行层次聚类，得到分类后的关键词矩阵包括：

步骤S1062，计算关键词矩阵中每个特征向量与技术监督数据中每个问题的相关系数，得到判断矩阵。

具体地，为了进行缺陷模式的诊断，进一步考虑各状态量与各缺陷模式之间的相关关系，即某状态量发生异常时，发生某缺陷模式的情况的可能性。在求得词向量与问题的相关系数后，便可得到问题的判断矩阵R：

判断矩阵R定义为第i个问题BDi在第j个词向量Vj下的相关系数为Rij。其中，i∈[1,m]，共m种问题；j∈[1,n]，共n种词向量。

在计算相关系数Rij时，在此采用皮尔逊相关性系数进行计算。相关系数是以两个变量与各自变量的平均值的离差为基础，按积差方法进行计算，在将两个离差相乘，使用其积来反映两变量之间相关程度。皮尔逊相关系数的取值范围为-1到1。当相关系数为1时，意味着两个变量线性相关，在关于两个变量的函数图中便是所有的数据点都落在一条直线上，且其中一个变量的值随另一变量的值增加而增加。当相关系数的值为-1时，这仍然意味着所有的数据点都落在直线上，其中一个变量的值随另一变量的值增加而减小。若两个变量求得相关系数为0，则表明这两个变量之间没有显著的线性关系。

设一个向量为X，另一向量为Y，则应用于设备问题的相关系数由下式给出：

步骤S1064，根据判断矩阵和技术监督数据，得到分类后的关键词矩阵。

具体地，在得到判断矩阵R之后，可通过下式对文本问题进行诊断：

F＝R·U，

其中，

为待分类问题数据，包括各状态参量的状态劣化水平。

为文本分类结果向量，向量中的每个元素的值可以表征该词在各问题下的隶属程度。在最终确诊最可能的缺陷模式时，可选择隶属程度最大(即数值最大)的缺陷模式，作为最终的结果。

通过聚类分析，挖掘出了设备的六种问题，即问题数m＝6。关键参量共计8项，状态参量数n＝15。

对关键词提取后的词构建词频，对其进行矩阵化，并进行稀疏矩阵的处理。对问题内容，除了关键词的提取外，还需要将问题进行分类，此处运用相关聚类算法，将问题内容分类，并根据类别特征贴标签。

例如，得到的关键词矩阵如表2所示，在经过k-means聚类算法之后，可以得到如表3所示的缺陷类别，进行贴上缺陷标签，如表4所示：

表2

	本体灭火器	发“火警2”	报警	油枕	本体	连接管	断流阀	渗油
									问题1	1	1	1	0	0	0	0	0
问题2	0	0	0	1	1	1	1	1

表3

表4

问题类别	1	2	3	4	5	6
							问题名称	冷却器故障	风扇异常	渗油故障	呼吸器缺陷	电源故障	风冷缺陷

可选地，在本发明上述实施例中，在步骤S1064，根据判断矩阵和技术监督数据，得到分类后的关键词矩阵之后，该方法还包括：

步骤S112，计算每个问题对应的类别特征信息的查全率和查准率。

具体地，查准率是指分类器判定的属于类别C的所有文本中，确实属于类别C的文本所占的比例，其数学公式表示为：查准率(precision)＝实际正确分类的文本数/分类器分为类Ci的文本数；查全率是指原本属于类别Ci的所有文本中，分类器正确判定的文本所占的比例，其数学公式表示为：查全率(recall)＝实际正确分类的文本数/原本属于类Ci文本数。查准率和查全率分别反映分类器的两个不同方面：查准率反应分类器的准确性，查全率反应分类器的完备性。

步骤S114，根据查全率和查准率得到综合分类率。

具体地，在本发明实施例中，提出一种新的评估标准，用综合分类率F1测试值来综合查准率和查全率，其数学公式为：F1测试值＝查准率*查全率*2/查准率+查全率。

步骤S116，判断综合分类率是否满足预设阈值。

具体地，上述的预设阈值可以是根据测试需要进行设置的满足测试需求的阈值。

步骤S118，如果综合分类率不满足预设阈值，则重新根据判断矩阵和技术监督数据，得到新的分类后的关键词矩阵，直至综合分类率满足预设阈值。

步骤S120，如果综合分类率满足预设阈值，则根据分类后的关键词矩阵，得到技术监督数据的关联关系。

在一种可选的方案中，如果综合分类率小于预设阈值，则确定综合分类率不满足预设阈值，此次分类无效，需要调整分类算法，并重新进行分类，直至综合分类率大于等于预设阈值，也即综合分类率满足预设阈值，则确定分类算法有效，可以继续进行处理。

通过使用查全率、查准率以及综合分类率F1测试值衡量分类算法的有效性和准确度。

可选地，在本发明上述实施例中，步骤S108，根据分类后的关键词矩阵，得到技术监督数据的关联关系包括：

步骤S1080，对分类后的关键词矩阵中的每个关键词进行词性标注，得到标注后的关键词矩阵。

步骤S1082，对标注后的关键词矩阵进行组合，得到多个组合问题。

具体地，为了使问题展示更加明确和具体，对关键词进行进一步的算法处理，通过词性标注，命名实体识别和句法分析将关键词组合成句子。具体采用NLTK中文词性标注算法，Python程序语言NLTK包因其支持语料库多，可扩展性强，语言学习曲线较为平缓,在自然语言处理、计算语言学、科学计算分析等多个方面得到运用。在语料库建设和语料库语言学研究中，语料库的加工是进行信息处理、奠定基础的工作。国内当前以语料库为基础的研究，在工具方面多以Ant Conc、Power GREP为主，而较少使用Python语言NLTK包进行数据处理分析。限于软件自身设计，不能灵活地对研究方法提供支持，使用Python语言的NLTK处理包，使得数据有了统一标准，避免了在各类文字处理工作间转换的麻烦，同时也弥补了range等工具在句法分析、图形绘制、正则表达式检索等方面的缺憾。它的主要思想是提炼最容易出现的可能性(在不同层次：所有词，具体词，词间关系)，并将这些词组合成句子。

例如，在得到问题1的关键词为：本体灭火装置，发“火警2”，报警，问题2的关键词为：油枕，本体，连接管，断流阀，渗油之后，可以根据NLTK算法进行句子组合，得到组合后的问题1为：本体灭火装置发“火警2”报警，组合后的问题2为：油枕本体连接管断流阀渗油。

步骤S1084，根据多个组合问题，得到技术监督数据的关联关系。

具体地，针对技术监督问题，抽取了3200多个关键词，并基于关键词词频，对应了问题数据中包含关键词的问题描述601条。通过对各类问题的频率属性可视化分析实现了各阶段、各单位、各专业等多维度的重点问题展示。

可选地，在本发明上述实施例中，在步骤S1086，根据多个组合问题，得到技术监督数据的关联关系之后，该方法还包括：

步骤S122，根据技术监督数据的关联关系，得到多个维度对应的知识图谱。

具体地，按阶段进行技术监督问题的词云可视化，也即，得到各个阶段对应的知识图谱，例如，对于规划可研阶段，对应的知识图谱如图2所示，规划可研阶段技术监督发现主要问题是可研内容不完善、可行性论证不够充分，设计风速不满足要求。如湖北公司武汉左岭220kV主变扩建工程中，规划逐步取消35kV线路，会造成重要用户单电源。该阶段应加强实地调研，结合设备技术标准及工程需求，优化规划方案。

以技术监督精益化管理实施细则所涉及的63类设备名称作为关键词，对技术监督问题进行分析处理，得到各类设备的技术监督问题。因数据数量所限，对最典型的5类设备(变压器、隔离开关、断路器、组合电器和输电线路)进行可视化分析，也即，得到各个设备对应的知识图谱，例如，对于变压器，对应的知识图谱如图3所示。

其他还可分为，按专业进行技术监督问题的词云可视化，按单位进行技术监督问题的词云可视化等等。

步骤S1086，利用逐层搜索算法对分类后的关键词矩阵进行处理，得到频繁谓词集。

具体地，可用的关联规则挖掘算法有Apriori算法、FP-增长算法、Eclat算法等。其中，Apriori算法是最早提出的关联规则挖掘算法，也是当前十大数据挖掘算法之一，其他关联规则挖掘的算法都是在Apriori算法的基础上针对Apriori运行效率不高等问题进行改进得出的，并且目前很多数据挖掘算法都借用了Apriori的思想。

Apriori算法是R.Agrawal和R.Strikant于1994提出用于挖掘大型市场交易数据库中布尔型关联规则的开创性算法。该算法是一种逐层搜索(广度优先搜索)算法，利用了谓词集向下封闭的反单调特性“如果一个谓词集是非频繁的，则其任一超集也是非频繁的”。

对于关联规则来说，一般形式为X＝>Y的蕴含式，可以理解为“如果X，则Y”。

设关联规则的待挖掘库为D，是事务T是合集，若有n个事务，则D＝{T₁,T₂,…,T_n}，对于每个事务，则由m个项所组成，T＝{I₁,I₂,…,I_m}。

对于项集X，支持度(Support)的定义为：

而对于X＝>Y的关联规则，其支持度为：

描述的支持度反映了X、Y两个项集同时出现的概率。该支持度与频繁集的支持度相等。式中，Sup代表支持度，co表示集合数量。

同理，对于X＝>Y的关联规则，其可信度(Confidence)为：

描述的可信度反映的情况是，如果项集里包含X，则同时包含Y的概率。对于使用关联规则的用户来说，用户可通过定义最小支持度和可信度的阈值，去挖掘支持度和可信度同时较高的关联规则。式中，Con代表可信度，Sup代表支持度。

在关联规则挖掘中最重要也最基础的问题是找到所有频繁模式，给出了Apriori算法寻找频繁模式的流程，如图4所示，其中大小为k的频繁谓词集的集合记为F_k，其候选集集合记为C_k，F_k和C_k都包含一个支持度属性字段。首先扫描一遍数据库，计算每个谓词的支持度并确定频繁的谓词，从而得到频繁1-谓词集的集合F₁；在此后每一次遍历数据库之前，利用前一次遍历数据库获得的频繁(k-1)-谓词集的集合F_k-1为种子集合，使用谓词集生成函数生成新的、潜在的频繁k-谓词集，即候选k-谓词集，形成集合C_k；在遍历数据库时确定C_k中每一个候选谓词集的支持度，每次扫描数据库结束时获得那些满足最小支持度条件的谓词集，即确定频繁k-谓词集，进而使它们成为下一次遍历的种子；重复上述过程直到无法发现新的频繁谓词集。

在Apriori算法寻找频繁模式的过程中，最核心的步骤就是连接和枝剪。除第一步简单的计算谓词出现的概率以确定频繁1-谓词集以外，此后每个获得频繁k-谓词集集合的步骤都包含着：对已获得的频繁(k-1)-谓词集的集合F_k-1和其自身进行连接生成候选k-谓词集的集合C_k(k≥2)；遍历数据库计算C_k中每个候选谓词集的支持度并通过最小支持度进行枝剪，获得频繁k-谓词集的集合F_k。

对于每一个候选k-谓词集的生成，也同样包含着连接和枝剪的步骤：连接：Apriori假设事务和谓词集中的谓词都是按照字典顺序排列的，对于任意两个频繁(k-1)-谓词集f1和f2来说，如果这两个谓词集的前k-2个谓词都相同且第k-1个谓词不同，那么f1和f2是可连接的。通过连接f1和f2生成一个k-谓词集c，该k-谓词集包含f1和f2中所有谓词，并按照字典顺序排列，该k-谓词集c作为候选k-谓词集放入集合C_k中；枝剪：对于集合C_k中的每个k-谓词集c，如果该k-谓词集包含有不存在于F_k-1中的(k-1)-子集，则将c从候选集合C_k中删除。

如图5示处理使用Apriori算法进行频繁谓词集寻找的全过程，其中最小支持度为2(以计数的方式表达支持度)。

步骤S1088，根据频繁谓词集，得到技术监督数据的关联关系。

具体地，在数据库D中找出所有的频繁谓词集的基础上可以进一步生成该数据库中包含的关联规则。根据最小置信度条件，找出那些置信度不小于用户指定的最小置信度的关联规则，至此完成关联规则挖掘的任务。接下来，可以根据所得到的关联规则以及具体行业进行具体分析，从中获得隐含的关联知识。

在关联规则分析中，对置信度和支持度的确定是至关重要的，只有合理的置信度和支持度阈值才能较好的挖掘出比较价值的关联规则。由于状态量种类繁多，因此支持度的阈值不宜设置过大，在此support设定为0.1，而为了获取较高可信度的关联规则，confidence设定为0.8。由此，可以得到多个状态参量与输电线路不同缺陷类型关联性最强的相关因素。

可选地，在本发明上述实施例中，在步骤S1088，根据频繁谓词集，得到技术监督数据的关联关系之后，该方法还包括：

步骤S124，根据技术监督数据的关联关系，得到关键词矩阵与多个维度的对应关系的关联图。

具体地，针对技术监督问题，抽取了3200多个关键字，取关键字出现频率大于5的220个关键词过滤后剩下的1697条问题，以关键词为中心，展示关键词与单位，阶段，专业，问题，解决方法之间的对应关系，做到各维度关系直观可视化，也即，得到具体问题或设备与各分析维度方面的关联图。

例如：通过社群关系分析，找到具体问题或设备与各分析维度方面的关联。分析设备发热问题关系图，发现大多数公司普遍存在发热问题，主要出现在工程设计、设备验收、运维检修三个阶段。经分析发现宁夏公司仅在运维检修阶段发现设备发热问题，其他阶段均没有发现，宁夏公司应在工程设计(如电容器铝母排改成铜母排，可减少铜铝过渡造成发热问题)、设备采购、设备制造等阶段加强发热问题监督，减少运维检修阶段压力。

其他还有，各分析维度与单位的关联图，各专业与监督阶段的关联图等，知识图谱挖掘的总览图如图6所示，图6中实心圆圈表示问题，共有1697条(图6中仅为示意，并未画出全部)；图6中方框圆圈表示关键词，共有220个；图6中的右斜线圆圈表示单位，共有24个；图6中的左斜线圆圈表示阶段，共有7个；图6中的空心圆圈表示专业，共有13个。

可选地，在本发明上述实施例中，在步骤S104，从技术监督数据中提取关键词，得到关键词矩阵之前，该方法还包括：

步骤S126，获取预设词汇集合。

步骤S128，利用预设词汇集合，对技术监督数据进行处理，得到处理后的技术监督数据。

步骤S130，从处理后的技术监督数据中提取关键词，得到关键词矩阵。

具体地，自定义电力行业专用词汇，制定用于文本分词的词典，根据现有的电力行业词汇以及从缺陷数据和全过程技术监督的问题数据中寻找行业专用词，并添加到词典中，词典共计20084个中文词及其词性。对全过程技术监督的数据进行清洗、同义词合并和规范化，例如，如图7所示，电流互感器、流变和CT均可以归并为电流互感器。

实施例2

根据本发明实施例，提供了一种技术监督数据的处理装置的实施例。

图8是根据本发明实施例的一种技术监督数据的处理装置的示意图，如图8所示，该装置包括：

获取模块81，用于获取技术监督数据，其中，技术监督数据包括：多个问题的描述文本，多个问题包含多个维度。

提取模块83，用于从技术监督数据中提取关键词，得到关键词矩阵。

聚类模块85，用于对关键词矩阵进行层次聚类，得到分类后的关键词矩阵。

具体地，除了提取关键词之外，还需要将问题进行分类，利用相关聚类算法，将问题内容分类，并根据类别特征贴标签，在本发明实施例中，采用目前应用较为成熟的聚类方法，也即k-Means聚类方法将原始数据进行层次聚类，初步分析可将所有问题分为4-8类。分别选取k为4、5、6、7、8，并通过计算整体轮廓系数，进行聚类效果的比较。结果表明k＝6，即将缺陷模式分为6类时聚类结果最为理想，结合文本的缺陷物理背景和专家经验，可以总结归纳出常见的六类文本缺陷模式，使用k-Means对问题数据进行聚类，其结果如下表1所示。

处理模块87，用于根据分类后的关键词矩阵，得到技术监督数据的关联关系。

实施例3

根据本发明实施例，提供了一种存储介质的实施例，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述实施例1中的技术监督数据的处理方法。

实施例4

根据本发明实施例，提供了一种处理器的实施例，处理器用于运行程序，其中，程序运行时执行上述实施例1中的技术监督数据的处理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种技术监督数据的处理方法，其特征在于，包括：

获取技术监督数据，其中，所述技术监督数据包括：多个问题的描述文本，所述多个问题包含多个维度；

从所述技术监督数据中提取关键词，得到关键词矩阵；

对所述关键词矩阵中每个特征向量进行层次聚类，得到分类后的关键词矩阵，其中，所述分类后的关键词矩阵包括：所述每个特征向量，以及所述每个特征向量对应的聚类类别；

根据所述分类后的关键词矩阵，得到所述技术监督数据的关联关系；

根据所述分类后的关键词矩阵，得到所述技术监督数据的关联关系包括：

对所述分类后的关键词矩阵中的每个关键词进行词性标注，得到标注后的关键词矩阵；

对所述标注后的关键词矩阵进行组合，得到多个组合问题；

根据所述多个组合问题，得到所述技术监督数据的关联关系。

2.根据权利要求1所述的方法，其特征在于，从所述技术监督数据中提取关键词，得到关键词矩阵包括：

利用隐马尔科夫算法对所述多个维度对应的问题进行分词，得到分词结果；

利用向量空间模型对所述分词结果进行向量化处理，得到所述技术监督数据对应的特征向量；

利用词频和逆向文档频率模型对所述技术监督数据对应的特征向量进行处理，得到所述关键词矩阵。

3.根据权利要求2所述的方法，其特征在于，在利用词频和逆向文档频率模型对所述技术监督数据对应的特征向量进行处理，得到所述关键词矩阵之后，所述方法还包括：

利用主成分分析算法对所述关键词矩阵进行降维处理，得到处理后的关键词矩阵。

4.根据权利要求1所述的方法，其特征在于，对所述关键词矩阵中每个特征向量进行层次聚类，得到分类后的关键词矩阵包括：

计算所述关键词矩阵中每个特征向量与所述技术监督数据中每个问题的相关系数，得到判断矩阵，其中，所述判断矩阵用于表征不同问题与不同词向量的相关系数；

根据所述判断矩阵和所述技术监督数据，得到所述分类后的关键词矩阵。

5.根据权利要求4所述的方法，其特征在于，在根据所述判断矩阵和所述技术监督数据，得到所述分类后的关键词矩阵之后，所述方法还包括：

计算所述每个问题对应的类别特征信息的查全率和查准率；

根据所述查全率和查准率得到综合分类率；

判断所述综合分类率是否满足预设阈值；

如果所述综合分类率不满足所述预设阈值，则重新根据所述判断矩阵和所述技术监督数据，得到新的分类后的关键词矩阵，直至所述综合分类率满足所述预设阈值；

如果所述综合分类率满足所述预设阈值，则根据所述分类后的关键词矩阵，得到所述技术监督数据的关联关系。

6.根据权利要求1所述的方法，其特征在于，在根据所述多个组合问题，得到所述技术监督数据的关联关系之后，所述方法还包括：

根据所述技术监督数据的关联关系，得到所述多个维度对应的知识图谱。

7.根据权利要求1所述的方法，其特征在于，根据所述分类后的关键词矩阵，得到所述技术监督数据的关联关系包括：

利用逐层搜索算法对所述分类后的关键词矩阵进行处理，得到频繁谓词集；

根据所述频繁谓词集，得到所述技术监督数据的关联关系。

8.根据权利要求7所述的方法，其特征在于，在根据所述频繁谓词集，得到所述技术监督数据的关联关系之后，所述方法还包括：

根据所述技术监督数据的关联关系，得到所述关键词矩阵与所述多个维度的对应关系的关联图。

9.根据权利要求1所述的方法，其特征在于，在从所述技术监督数据中提取关键词，得到关键词矩阵之前，所述方法还包括：

获取预设词汇集合；

利用所述预设词汇集合，对所述技术监督数据进行处理，得到处理后的技术监督数据；

从所述处理后的技术监督数据中提取关键词，得到所述关键词矩阵。

10.一种技术监督数据的处理装置，其特征在于，包括：

获取模块，用于获取技术监督数据，其中，所述技术监督数据包括：多个问题的描述文本，所述多个问题包含多个维度；

提取模块，用于从所述技术监督数据中提取关键词，得到关键词矩阵；

聚类模块，用于对所述关键词矩阵中每个特征向量进行层次聚类，得到分类后的关键词矩阵，其中，所述分类后的关键词就在包括：所述每个特征向量，以及所述每个特征向量对应的聚类类别；

处理模块，用于根据所述分类后的关键词矩阵，得到所述技术监督数据的关联关系；

所述处理模块还用于：

对所述标注后的关键词矩阵进行组合，得到多个组合问题；

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的技术监督数据的处理方法。

12.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至9中任意一项所述的技术监督数据的处理方法。