CN112732934A

CN112732934A - 电网设备分词词典和故障案例库构建方法

Info

Publication number: CN112732934A
Application number: CN202110029159.6A
Authority: CN
Inventors: 杨祎; 秦佳峰; 闫丹凤; 秦晔; 辜超; 林颖; 白德盟; 郑文杰; 刘萌; 朱庆东; 李�杰; 朱文兵; 朱孟兆
Original assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-04-30
Anticipated expiration: 2041-01-11
Also published as: CN112732934B

Abstract

一种电网设备分词词典和故障案例库构建方法，构建了电网领域分词词典，然后对故障案例数据进行格式转换、分词等预处理，然后运用多种技术手段，从文本数据中分析生成结构化电网设备故障案例、特征标签、关键词云、关联规则等信息。为上述信息设计关系型数据库Schema，以报告为主键，将上述文本信息和预处理中保留的图片、作者等信息一起入库，形成电网设备故障案例库。提升了电网领域文本的分词准确性，结构化的案例数据库使根据案例内容的检索更为准确，将故障案例数据库中的特征标签作为项集，整理挖掘故障的有效关联规则，可用于故障预警，填补了电网领域文本分析技术应用的空白。提升了电网领域语料的应用价值，降低了查阅成本。

Description

电网设备分词词典和故障案例库构建方法

技术领域

本发明涉及产业数据与互联网信息化技术领域，具体涉及一种电网设备分词词典和故障案例库构建方法。

背景技术

随着移动互联网、物联网、人工智能、深度学习等智能技术的发展，其在电力领域中的应用也越来越普遍，建设智能电网，实现“电力流、信息流、业务流”的高度一体化融合是技术发展不可或缺的一环。在电力领域，长年积累的各类文本数据，尤其是电网设备故障案例的研究价值很高，可以在实际的设备检修工作中提供建议和经验。由于其检修场景的复杂性和不确定性，如何基于电力领域文本数据构建电网分词词典和故障案例库是一个难以解决的问题。

目前一些自然语言处理技术已经在中文电网文本领域得到一些应用，包括：基于中文分析技术建立电网领域词典、基于文本分类技术对缺陷文本的等级进行分类、基于字符串匹配评价并提升缺陷文本的质量等等。这些应用虽然各有所长，但存在着单个技术应用面窄、对文本数据挖掘不深、数据规模不足、没有针对检修决策场景等问题。

发明内容

本发明为了克服以上技术的不足，提供了一种针对电网设备故障案例文本数据存在的检索浏览效率低、关联信息挖掘不足以及检修决策支撑不足等问题，从数据预处理、数据挖掘、数据持久化、数据应用等方面出发，提出了一个良好的解决方案，设计并实现电网设备分词词典和故障案例库构建方法。

本发明克服其技术问题所采用的技术方案是：

一种电网设备分词词典和故障案例库构建方法，包括如下步骤：

a)基于命名实体识别算法建立及扩充电网领域词典；

b)对电网设备故障缺陷案例文本进行预处理，所述预处理包括格式转换、去标号、分词；

c)基于自然语言处理方法提取文本数据中的状态量、检修流程和描述语句信息，获得结构化的电网设备故障案例；

d)基于结构化的电网设备故障案例，通过连续型特征分箱、关键词计算TF-IDF值的方法生成文本的特征标签和关键词云；

e)基于特征标签与故障进行关联规则分析，形成案例分析关联规则库；

f)将结构化的电网设备故障案例与特征标签、关键词云、关联规则库构建电网设备故障案例库。

进一步的，步骤a)包括如下步骤：

a-1)从电网领域文献、标准和行业导则中获取领域词汇；

a-2)将文本中非法字符进行剔除，对文本利用字+边界的方式进行序列标注，将文本转换为BERT-BiLSTM-CRF模型输入所需的数据格式，将没有识别到的实体的语句纳入测试集，将有实体标注的语句作为训练集；

a-3)将经过构造之后得到的训练集数据放入BERT-BiLSTM-CRF模型中进行模型训练，将训练好的模型在测试集上进行命名实体识别任务，得到未登录的实体作为新词；

a-4)将得到的新词进行筛选后加入到领域词典中，通过训练词向量获得词的向量表示并对其进行聚类找同义词，完成词典优化；

a-5)利用优化后的词典对测试集和数据集进行重新标注后重新划分训练集和测试集。

进一步的，步骤b)中在进行文本信息抽取之前，抽取图片、文件名、作者信息，过滤标号、错字噪声，将抽取过滤后的文本导入电网领域词典的分词工具进行分词，完成文本预处理工作。

进一步的，步骤c)包括如下步骤：

c-1)文本数据中提取时采用构建统一的属性模板进行属性提取，属性类型分为数字型状态量属性、词组型状态量属性和句子型状态量属性，实现文本信息结构化；

c-2)利用公式R＝{(x,y)|x∈A,y∈S}，建立电网设备故障文本采用数据模型R的二元组描述，式中A为预定义好的描述属性，S为需要从非结构文本数据中抽取出该属性的状态量，x为具体的描述属性，y为文本数据中抽取出x属性对应的状态量。

进一步的，步骤c-1)中利用基于规则的方法提取数字型状态量属性，利用基于语法的规则的实体匹配法提取词组型状态量属性，句子型状态量属性利用分布式文本表示和神经网络模型进行分类；

c-1.1)文本数据中数字型状态量的提取中通过文本分词将每个句子中的数字提取出来后根据语法修饰规则，找到数字状态量的单位，将数字和数学单位合并成为完成的状态量并将属性和对应的数字状态量进行匹配，得到最终的属性、状态量二元组；

c-1.2)采用语法修饰规则来匹配状态量及其修饰属性，提取命名实体和命名实体所修饰的词语组成二元组，实现文本数据中词组型状态量属性的提取；

c-1.3)人工标注大于770个句子作为训练数据集，采用Word2vec方法将句子向量化表示，利用R-CNN神经网络进行分类，基于分类的结果进行句子型状态量属性提取，利用公式

计算句子向量A与句子向量B的相似度，实现句子的分条表示，|A|、|B|为句中词语数量，从分条后的句子中提取时间、检修手段、状态量三项进行链接，按照时间排序，生成报告的检修过程时间线，以元组列表的形式进行序列化。

进一步的，步骤d)包括如下步骤：

d-1)对于数值型数据通过指数函数或对数函数变换后通过公式f(x)＝φ(x)-minφ(x)位移计算，得到计算结果f(x)；

d-2)通过公式

计算分箱中第i个分箱的权重WOE_i，式中P_error,i＝μ+Count_error,i/μ+Count_error，P_other,i＝μ+Count_other,i/μ+Count_other，μ为平滑参数，μ的取值为(0,1]，Count_error,i为分箱中故障样本数量，Count_other,i为分箱中其他样本数量，Count_error为故障样本总数，Count_other为其他样本总数；

d-3)通过公式

计算得到分箱对故障的信息价值IV_error，n为与某个分箱贡献的故障数量，IV_error的最大值大于等于0.3；

d-4)通过步骤d-1)至d-3)确定每种数字型状态量的分箱策略，形成分箱标签并加入到关联分析的项集；

d-5)对于句子型数据，提取其中的关键词加入项集，使用公式

计算第i个词在第j个文本中的词频指数TF_i,j，式中n_i,j为i个词在第j个文本中出现次数，∑_kn_k,j为第i个词在所有文本中出现次数之和，通过公式

计算第i个词的逆文本频率指数IDF_i，式中D为语料库中文本总数，D_i为包含词语的文本数目，通过公式TF-IDF_i,j＝TF_i,j*IDF_i计算第i个词在第j个文本中的词频逆文本指数。

进一步的，步骤e)包括如下步骤：

e-1)电网设备故障文本关联规则表示为X→Y X,Y∈I，其中X为关联规则的先导，Y为关联规则的后继，I＝{I₁,I₂,I₃,...I_k}为所有项的集合，I中每一个元素I_k为项，关联规则的支持度为X和Y同时出现的百分比，记为P(XY)，关联规则的置信度为X出现的情况下包含Y的百分比，记为P(Y|X)，将每条故障文本用该文本中出现过的所有项集中的项来表示；

e-2)使用关联规则挖掘算法从文本中挖掘关联规则，采用Apriori关联分析算法提取关联规则。

进一步的，步骤f)中构建的电网设备故障案例库为信息涉及关系型数据库Schema，以报告为主键，将文本信息和预处理中保留的图片、作者信息一起入库。本发明的有益效果是：基于电网标准文献和设备故障案例文本构建电网领域词典，提升了电网领域文本的分词准确性。并且基于半监督的构建方法可在未来采集领域语料数据的情况下持续扩充领域词典。运用多项技术从案例文本中抽取状态量入库，编码集中存储案例中的图片，结构化的案例数据库使根据案例内容的检索更为准确。由故障案例中的多类型属性，通过改进的分箱、TF-IDF关键词筛选技术为案例生成特征标签。将故障案例数据库中的特征标签作为项集，整理挖掘故障的有效关联规则，可用于故障预警，填补了电网领域文本分析技术应用的空白。实现了统计文本中的关键词词频生成词云，便于用户对故障案例文本关键词有直观认识。基于电网领域语料，使用包括领域词典、文本结构化、文本标签及关联关系挖掘在内的技术构建电网设备故障案例库，进行多层次的抽象和应用，提升了电网领域语料的应用价值，降低了查阅成本。

附图说明

图1为本发明的方法流程图；

图2为本发明的半监督算法流程图；

图3为本发明的BERT-BiLSTM-CRF模型训练流程图。

图4为本发明的文本数据结构化的流程图；

图5为本发明的数据型状态量提取流程图；

图6为本发明的非数据型状态量提取流程图；

图7为本发明的结构化数据处理流程图；

具体实施方式

下面结合附图1至附图7对本发明做进一步说明。

如附图1所示，一种电网设备分词词典和故障案例库构建方法，包括如下步骤：

a)基于命名实体识别算法建立及扩充电网领域词典；

首先构建了电网领域分词词典，然后对故障案例数据进行格式转换、分词等预处理，然后运用多种技术手段，从文本数据中分析生成结构化电网设备故障案例、特征标签、关键词云、关联规则等信息。为上述信息设计关系型数据库Schema，以报告为主键，将上述文本信息和预处理中保留的图片、作者等信息一起入库，形成电网设备故障案例库。基于电网标准文献和设备故障案例文本构建电网领域词典，提升了电网领域文本的分词准确性。并且基于半监督的构建方法可在未来采集领域语料数据的情况下持续扩充领域词典。运用多项技术从案例文本中抽取状态量入库，编码集中存储案例中的图片，结构化的案例数据库使根据案例内容的检索更为准确。由故障案例中的多类型属性，通过改进的分箱、TF-IDF关键词筛选技术为案例生成特征标签。将故障案例数据库中的特征标签作为项集，整理挖掘故障的有效关联规则，可用于故障预警，填补了电网领域文本分析技术应用的空白。实现了统计文本中的关键词词频生成词云，便于用户对故障案例文本关键词有直观认识。基于电网领域语料，使用包括领域词典、文本结构化、文本标签及关联关系挖掘在内的技术构建电网设备故障案例库，进行多层次的抽象和应用，提升了电网领域语料的应用价值，降低了查阅成本。

实施例1：

电网设备故障缺陷案例文本包含大量的专业术语，通常这样的词汇没有被收入现有的通用分词工具的词典中。如果使用通用分词工具对电网领域文本进行分词，将会有大量专业术语被误分，进而影响后续词向量训练及文本分类的可靠性。所以分词之前，在成熟的分词工具的公共领域词典上进行领域专有词的扩充，构建电网领域的分词词典对提高后序步骤的准确性至关重要。

方法采用结合基于命名实体识别模型自动标注和人工手动筛选的半监督方法构建电网领域词典，流程如附图2。解决所识别的实体在电网领域的专业符合性是这部分工作的难点和重点，需要依赖人工手段进行筛选。将发现的新词加入到词典中完成词典的更新，再进行下一步训练和筛选。从而不断提高准确率、降低误报率，经过多轮迭代直到实体识别性能稳定，达到优化词典的目的。这种基于半监督的方法能在保证词典准确性的同时，解决传统监督学习方法人工标注成本过大，难以执行的问题。在后续领域语料增长时也能持续进行词典扩充，减少人工标注成本。因此进一步的，步骤a)包括如下步骤：

a-1)从电网领域文献、标准和行业导则中获取领域词汇。在这些文本中包含一些表格，可以使用正则模板直接提取表格中的词组内容作为领域词汇，比如检修导则中的设备名及其子部件名。

a-2)将文本中非法字符进行剔除，对文本利用字+边界的方式进行序列标注，将文本转换为BERT-BiLSTM-CRF模型输入所需的数据格式，将没有识别到的实体的语句纳入测试集，将有实体标注的语句作为训练集。标注方式主要使用了“字+边界”的方式，将单字实体标记为B，多字实体词首字标注为B，中间和尾字标注为I，为减少未登录实体词性不确定的问题，舍弃了词性标注。将目前没有识别到实体的语句纳入测试集，将有实体标注的语句作为训练集。该步的训练流程如附图3所示。

a-3)将经过构造之后得到的训练集数据放入BERT-BiLSTM-CRF模型中进行模型训练，将训练好的模型在测试集上进行命名实体识别任务，得到未登录的实体作为新词。

a-4)将得到的新词进行筛选后加入到领域词典中，通过训练词向量获得词的向量表示并对其进行聚类找同义词，完成词典优化。

a-5)利用优化后的词典对测试集和数据集进行重新标注后重新划分训练集和测试集。经过优化的词典将提高标注的准确率、降低误报率。如果划分没有达到预期的准确率则返回a-3)，在新的标注上重新进行下一轮的训练。直到经过多轮迭代直到实体识别性能稳定，达到预期的准确率。

其中，在a-3)中使用深度学习结合概率图的模型——BERT-BiLSTM-CRF进行NER任务。利用BERT预训练模型本身的迁移学习的能力和对微调任务的强大拟合能力来识别实体特征，并使用CRF概率图模型使输出符合实体标注语法，是词典构建中的重点训练模型。

基于目前的电网领域语料所构建故障案例分词词典包含词语3003个。将故障案例分词词典加入分词器后，分词器分词效果有明显提升(如表1)，能够对专业词汇进行准确分词。

表1分词词典效果示例

实施例2：

进一步的，步骤b)中在进行文本信息抽取之前，抽取图片、文件名、作者信息，过滤标号、错字噪声，将抽取过滤后的文本导入电网领域词典的分词工具进行分词，完成文本预处理工作。实际处理的故障缺陷案例通常为人工书写，为包括表格、图片、文本和标号的富文本文件，如pdf、word等格式。在进行文本信息抽取之前，应该抽取存储图片、文件名、作者等信息，并过滤标号、错字等噪声。将处理好的文本在导入了上述电网领域分词词典的分词工具进行精准分词，至此完成文本预处理工作。

实施例3：

进一步的，步骤c)包括如下步骤：

c-1)电网设备故障文本数据信息抽取的目的是通过对非结构化文本数据的分析和处理，抽取出对电网设备故障、缺陷描述有意义的信息，形成结构化的数据，便于未来针对某种内容信息的精确检索。考虑到电网故障文本描述的多样性，文本数据中提取时采用构建统一的属性模板进行属性提取，属性类型分为数字型状态量属性、词组型状态量属性和句子型状态量属性，对数字型状态量属性拟采用基于规则的方法来进行提取，对词组型状态量属性拟采用基于语法规则的实体匹配方法提取，对句子型状态量属性拟采用分布式文本表示和神经网络模型进行分类，从而实现文本信息结构化。

c-2)利用公式R＝{(x,y)|x∈A,y∈S}，建立电网设备故障文本采用数据模型R的二元组描述，式中A为预定义好的描述属性，S为需要从非结构文本数据中抽取出该属性的状态量，x为具体的描述属性，y为文本数据中抽取出x属性对应的状态量，针对电网故障文本描述的多样性，采用人工构建统一的属性模板来进行属性提取，属性的类型主要分为数字型状态量属性和非数字型状态量属性，文本数据结构化处理的整体流程如图4所示。

实施例4：

进一步的，步骤c-1)中利用基于规则的方法提取数字型状态量属性，利用基于语法的规则的实体匹配法提取词组型状态量属性，句子型状态量属性利用分布式文本表示和神经网络模型进行分类；用数字类型状态量描述的属性有时间、编号、温度以及各种电力学指标，针对这类数字型状态量采用基于规则的方法来进行提取。先通过文本分词，将每个句子中的数字提取出来，再根据语法修饰规则，找到数字状态量的单位，将数字和数学单位合并成为完整的状态量，并将属性和对应的数字状态量进行匹配，即可得到最终的(属性,状态量)二元组。流程如附图5所示。

c-1.2)非数字类型状态量主要是指文本状态量，在电网故障描述中同样有两种表现形式：一种是基于词组形式的状态量，一种是基于句子形式的状态量。流程如附图6所示。对于基于词组形式的状态量，其实质上是命名实体，因此采用语法修饰规则来匹配状态量及其修饰属性，提取命名实体和命名实体所修饰的词语组成二元组，实现文本数据中词组型状态量属性的提取。

c-1.3)基于句子形式的状态量，无法基于规则的方法进行提取。人工标注大于770个句子作为训练数据集，采用Word2vec方法将句子向量化表示，利用R-CNN神经网络进行分类，采用Word2vec技术将句子向量化表示，然后使用R-CNN神经网络进行分类，交叉验证准确率达78％。然后基于分类的结果进行状态量提取。采用基于分类的结果进行句子型状态量属性提取，由于提取出的句子为整句，含有少量冗余的子句，采用改进的TextRank算法提取句子主干，并实现句子的分条表示。传统TextRank算法根据两个子句间共现词语的独热表示来衡量两个句子间的相似度，经实验发现，这种计算方法无法挖掘出不同子句间近义但不相同的词语间的相似性，因此我们对传统TextRank算法的相似性计算方法进行改进，其利用公式

计算句子向量A与句子向量B的相似度，实现句子的分条表示，|A|、|B|为句中词语数量，从分条后的句子中提取时间、检修手段、状态量三项进行链接，按照时间排序，生成报告的检修过程时间线，以元组列表的形式进行序列化。文本结构化结果中包括其他时间,变电站名称,型号,塔号,投运时间,报告名称,故障发现时间,故障名称,故障时情况,测试环境温度,测试环境湿度,生产厂家,电压等级,缺陷等级,设备类型,分析结论,建议及对策,故障分析过程,故障处理方法,故障描述,现场情况，检修流程，总计21列，其中6列是句子，15列为状态量，检修流程为结构化元组。

实施例5：

进一步的，步骤d)包括如下步骤：

d-1)为上述结构化数据生成特征标签和关键词，主要是针对连续型数值型数据和句子型数据，将数据转化为离散化标签，生成关键词云，并为后序关联规则分析生成项集。对于数值型的数据，如发现时间，温度，湿度等，需要进行变换和分箱。一方面，分箱能将连续的数值离散化为one-hot标签，另一方面分箱后的特征标签对异常数据有很强的的鲁棒性。首先通过指数函数或对数函数加上位移，修正数据稠密或稀疏的问题，使连续范围的数据分布尽量均匀。分箱有多种策略，无监督如等距分箱、等频分箱、聚类分箱，有监督分箱主要有卡方分箱和best-ks分箱。模块内置多种分箱策略，以所有共现的故障为0-1标签检验其WOE(weight of Evidence证据权重)和IV(information value信息量)。因此对于数值型数据通过指数函数或对数函数变换后通过公式f(x)＝φ(x)-minφ(x)位移计算，得到计算结果f(x)。

d-2)通过公式

计算分箱中第i个分箱的权重WOE_i，式中P_error,i＝μ+Count_error,i/μ+Count_error，P_other,i＝μ+Count_other,i/μ+Count_other，μ为平滑参数，μ的取值为(0,1]，Count_error,i为分箱中故障样本数量，Count_other,i为分箱中其他样本数量，Count_error为故障样本总数，Count_other为其他样本总数。

d-3)通过公式

计算得到分箱对故障的信息价值IV_error，n为与某个分箱贡献的故障数量，IV_error的最大值大于等于0.3。

通过上述流程确定每种数字型状态量的分箱策略，并以此形成分箱标签加入到关联分析的项集。以环境温度的分箱为例，下图是案例中提取到的故障发生时的温度频率分布。按照等距分箱分为四组如下表：

分箱	数量
		-40～-20	9
-20～0	68
		0～20	310
20～40	263

可以看出分箱很不均匀，同样计算得到的IV值为0.03，很不理想。而采用多分箱策略比较后进行重新分箱，同样是分为4箱，得到的IV值为0.82，在后续的关联关系分析中与部分故障也有很高的支持度。证明此次分箱有极高预测能力，对后续的关联关系分析也很有帮助。

d-4)通过步骤d-1)至d-3)确定每种数字型状态量的分箱策略，形成分箱标签并加入到关联分析的项集。

d-5)对于句子类型的数据，如缺陷原因、检修建议等，需要提取其中的关键词加入项集。在使用故障案例分词词典进行分词之后，使用改进的TF-IDF关键词提取算法和词性标注算法提取和筛选可用于关联规则挖掘的词。改进的TF-IDF公式如下：使用公式

计算第i个词的逆文本频率指数IDF_i，式中D为语料库中文本总数，D_i为包含词语的文本数目，如果该词语不在语料库中，就会导致分母为零，因此进行加一平滑作为分母。通过公式TF-IDF_i,j＝TF_i,j*IDF_i计算第i个词在第j个文本中的词频逆文本指数即重要性。对挖掘到的关键词统计词频，经过对数函数修正后作为词云展示。本模块数据处理流程如附图7所示。

实施例6：

进一步的，步骤e)包括如下步骤：

e-1)挖掘设备类型、缺陷类型、缺陷原因、检修建议和发现时间之间的关联规则，可以更好地指导故障预警和运检策略。电网设备故障文本关联规则表示为X→Y X,Y∈I，其中X为关联规则的先导，Y为关联规则的后继，I＝{I₁,I₂,I₃,...I_k}为所有项的集合，I中每一个元素I_k为项，关联规则的支持度为X和Y同时出现的百分比，记为P(XY)，关联规则的置信度为X出现的情况下包含Y的百分比，记为P(Y|X)，将每条故障文本用该文本中出现过的所有项集中的项来表。将关联规则应用于电网故障文本数据，进行面向设备故障数据的关联规则挖掘，需要基于这一场景构造项集。项集主要包括：从设备状态量、设备类型、缺陷类型、发现时间、缺陷原因和检修建议等信息，在上一步骤抽取到的特征标签和关键词，和词组型状态量。项的形式主要是词和短语。

e-2)使用关联规则挖掘算法从文本中挖掘关联规则，采用Apriori关联分析算法提取关联规则。该算法在进行关联规则挖掘时提前剪枝，从而避免项集数目的指数增长，节省运算时间。

最后，通过多次实验，设置合适的最小支持度和最小置信度等阈值实现关联挖掘算法的优化。再基于算法挖掘获得设备关联规则集，将其积累形成案例分析关联规则集合。基于目前已有的文本挖掘出710条关联规则。

实施例7：

进一步的，前面五个步骤中，我们首先构建了电网领域分词词典，然后对故障案例数据进行格式转换、分词等预处理，然后运用多种技术手段，从文本数据中分析生成结构化电网设备故障案例、特征标签、关键词云、关联规则等信息。为上述信息设计关系型数据库Schema，以报告为主键，将上述文本信息和预处理中保留的图片、作者等信息一起入库，形成电网设备故障案例库。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。