CN114610882A

CN114610882A - 一种基于电力短文本分类的异常设备编码检测方法和系统

Info

Publication number: CN114610882A
Application number: CN202210204630.5A
Authority: CN
Inventors: 武丽莎; 陈振宇; 王路涛; 朱天佑; 王洁
Original assignee: Big Data Center Of State Grid Corp Of China
Current assignee: Big Data Center Of State Grid Corp Of China
Priority date: 2021-12-16
Filing date: 2022-03-03
Publication date: 2022-06-10

Abstract

本发明提供了一种基于电力短文本分类的异常设备编码检测方法和系统，包括：获取电力设备数据；将电力设备数据中的描述信息输入预先训练的短文本分类接口模型，得到电力设备的标准编码；对比标准编码与电力设备数据中的设备编码，若存在差异，则电力设备数据中的设备编码为异常数据；本发明采用的短文本分类接口模型解决了对电力文本的特征提取不足、类型过多和样本不均衡的问题，提高了分类准确率，极大改善目前设备分类工作操作难的现状，可用在电力设备缺陷，电力检修，基建施工，客服工单，电力审计，电力调度，电企舆情等其他电力领域的自然语言处理场景中。

Description

一种基于电力短文本分类的异常设备编码检测方法和系统

技术领域

本发明属于电力信息技术领域，具体涉及一种基于电力短文本分类的异常设备编码检测方法和系统。

背景技术

电力数据存在于多个应用系统中，然而从各个数据源汇聚而成的庞大数据集之中往往存在着无用数据、错误数据。以电力设备数据为例，该数据包括设备编码、设备描述、设备价格等多个字段，其中设备编码作为标识该条数据是否正确的唯一值也存在大量空值、乱码以及人工录入错误的情况，相比其他数值类型的字段，设备描述作为多文本字段更加具有可靠性。

传统方法治理设备编码异常问题，一方面需要电力设备领域的专家来协助，另一方面异常数据规模大，耗时耗力效率低，并且难以持续性维护。因此，需要借助人工智能方法来对设备资产类型进行异常检测和修正。预测设备资产类型方面，相比其他数值类型的字段，设备描述作为多文本字段更加具有可靠性。利用自然语言处理算法，根据设备主数据中设备描述字段自动确认设备类型，解决设备主数据中设备类型缺失、设备错误分类等问题，可以有效提高数据治理效率。

文本分类算法主要分为传统机器学习和深度学习模型，由于电力设备文本训练样本多、分类广，传统机器学习模型无法应对该复杂度，而常见的深度学习文本分类模型中最适用于上述常见的是FastText模型。FastText是一个快速文本分类算法，其特点在于：在保持高精度的情况下加快了训练速度和测试速度；不需要预训练好的词向量，FastText会自己训练词向量。如图1所示为FastText模型架构，其中x1,x2,…,xN-1,xN表示一个文本中的n-gram向量，每个特征是词向量的平均值。

FastText是一种子词嵌入subword embedding算法，运行速度较快，但存在以下缺点：

首先，FastText基于新闻、百科等语料库进行训练，与这些文本相比，电力文本含有大量专业性词汇，这些语料库中缺少电力专业词汇，因此模型对电力文本的特征提取不足，对分类准确率造成影响。

其次，该模型用来处理电力文本分类，由于类型过多(432类)，需要采用多个二分类模型进行分类，而这种方式需要训练的模型过多，训练成本过大，并且各分类模型之间没有建立关联,会影响最终模型的推理预测时间和准确率。

最后，该模型分类技术没有考虑到样本不均衡的问题，即不同类别的数据量差别较大。利用不均衡样本训练出来的模型泛化能力差并且容易发生过拟合。

发明内容

为克服上述现有技术的不足，本发明提出一种基于电力短文本分类的异常设备编码检测方法，包括：

获取电力设备数据；

将电力设备数据中的描述信息输入预先训练的短文本分类接口模型，得到电力设备的标准编码；

对比所述标准编码与电力设备数据中的设备编码，若存在差异，则所述电力设备数据中的设备编码为异常数据。

优选的，所述短文本分类接口模型的训练，包括：

获取各电力设备的标准编码和对应的标准化描述信息；

根据所述标准化描述信息，得到对应电力设备的最高层类别和最底层类别；

以各电力设备的标准化描述信息为输入，对应电力设备的最高层类别为输出，对BERT模型进行训练，得到一级分类层模型；

分别针对每个最高层类别，以最高层类别中的电力设备的标准化描述信息为输入，对应应电力设备的最底层类别为输出，对卷积神经网络进行训练，得到二级分类层模型；

以所有二级分类层模型和所述一级分类层模型作为短文本分类接口模型。

优选的，所述各电力设备的标准化描述信息的获取，包括：

采集电力设备数据库中各设备的描述信息；

对各设备的描述信息通过正则表达式、分词或词向量聚类处理，得到各电力设备的标准化描述信息。

优选的，对各设备的描述信息通过词向量聚类处理，得到各电力设备的标准化描述信息，包括：

去除各设备的描述信息中无意义字符，并对各设备的描述信息进行切分，得到多个词汇；

计算各词汇在各设备的描述信息中出现的词频以及各词汇的逆向文件频率；

根据各词汇在各设备的描述信息中出现的词频以及各词汇的逆向文件频率，分别计算各词汇在各设备的描述信息中的TF-IDF值；

将TF-IDF值超过预设阈值的词汇对应的描述信息转化为词向量；

对各词向量进行聚类，并将每个类别对应的描述信息对应生成一个标准化描述信息。

优选的，所述词频的计算式如下：

式中，tf_ij表示第i个词汇在第j个设备的描述信息中出现的词频，n_ij表示第i个词汇在第j个设备的描述信息中出现的次数，n_qj表示第i个词汇在第q个设备的描述信息中出现的次数，∑_qn_qj表示第j个设备的描述信息中所有词汇出现的总次数。

优选的，所述逆向文件频率的计算式如下：

式中，idf_i表示第i个词汇的逆向文件频率，|D|表示设备的描述信息的总数，|{j:t_i∈d_j}|表示包含第i个词汇t_i的设备的描述信息的总数。

优选的，所述TF-IDF值的计算式如下：

(tf-idf)_ij＝tf_ij*idf_i

式中，(tf-idf)_ij表示第i个词汇在第j个设备的描述信息中的TF-IDF值，tf_ij表示第i个词汇在第j个设备的描述信息中出现的词频，idf_i表示第i个词汇的逆向文件频率。

优选的，所述将电力设备数据中的描述信息输入预先训练的短文本分类接口模型，得到电力设备的标准编码，包括：

将电力设备数据中的描述信息输入一级分类层模型，得到所述描述信息对应的最高层类别；

根据最高层类别选择对应的二级分类层模型，并将描述信息输入选中的二级分类层模型，得到所述描述信息对应的最底层类别；

根据所述最底层类别查找得到电力设备的标准编码。

基于同一发明构思，本申请还提供了一种基于电力短文本分类的异常设备编码检测系统，包括：数据获取模块、标准编码模块和异常判断模块；

所述数据获取模块，用于获取电力设备数据；

所述标准编码模块，用于将电力设备数据中的描述信息输入预先训练的短文本分类接口模型，得到电力设备的标准编码；

所述异常判断模块，用于对比所述标准编码与电力设备数据中的设备编码，若存在差异，则所述电力设备数据中的设备编码为异常数据。

优选的，所述短文本分类接口模型的训练，包括：

获取各电力设备的标准编码和对应的标准化描述信息；

优选的，所述标准编码模块具体用于：

根据所述最底层类别查找得到电力设备的标准编码。

与最接近的现有技术相比，本发明具有的有益效果如下：

附图说明

图1为本发明涉及的FastText模型示意图；

图2为本发明提供的一种基于电力短文本分类的异常设备编码检测方法流程示意图；

图3为本发明提供的Bert-CNN模型结构示意图；

图4为本发明提供的一种基于电力短文本分类的异常设备编码检测系统结构示意图。

具体实施方式

为了使发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。在符合本发明的技术构思前提下，在某个特定实施例中描述的特征、结构、特性或表达细节不排除可以以合适的方式结合字一个或者更多其他的实施例中。附图中所示的流程图仅为示例性说明，不是必须所包括的内容和操作步骤，也不是必须按所描述的顺序进行。例如，有的操作步骤还可以分解，而有的操作步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

实施例1：

本发明提供的一种基于电力短文本分类的异常设备编码检测方法流程示意图如图2所示，包括：

步骤1：获取电力设备数据；

步骤2：将电力设备数据中的描述信息输入预先训练的短文本分类接口模型，得到电力设备的标准编码；

步骤3：对比标准编码与电力设备数据中的设备编码，若存在差异，则电力设备数据中的设备编码为异常数据。

步骤1之前，需要训练短文本分类接口模型，具体包括：

A1：以国网数据中台中的电力设备数据库为数据源，根据表结构，从电力设备数据库中选取编写sql脚本获取电力设备数据(简称数据)，并将收集的数据去重复、标准化、错误修正等等，保存成数据库文件。对收集到的数据进行进一步的处理，包括处理特殊字符、数据规范化。电力设备数据中包括描述信息与设备编码。

A2：设备类型标准化，即获取各设备的标准化描述信息。

根据设备标准编码表，对设备类型文本进行分词、标准转换、词向量聚类等预处理，将地区字段和编码对应到总部编码(即标准编码)上，为数据标注提供支持。采用规则筛选加人工辅助的方式，先根据数据本身的类别进行筛选，然后小批量抽取查看准确率，如果准确率太低则进行人工标注。根据标注后的结果，计算不同类别样本数比例，根据不平衡程度，采用SMOTE过采样算法对于占比小于平均样本数1/10的设备类型进行样本补充。在数据层面采用SMOTE过采样算法生成更多样本，降低样本不均衡带来的影响。

在本发明中，在训练短文本分类接口模型前，要对原始数据(即设备的描述信息)进行标注，而样本标注需要借助原始数据的设备类型，但大部分地区没有使用标准编码，需要做标准化转换，具体步骤为：通过该条数据的地区和该地区特有的设备编码将数据的编码对应到设备名称(即描述信息)上，最后利用设备名称找到标准编码，即完成设备编码标准化。

在处理实际数据时发现，在利用设备名称找到标准编码时，地区的设备名称与标准设备名称并非一一对应，存在以下复杂情况：

I.名称中存在层级关系，例如“通信设备-通道设备-天线”；

II.无意义字符，例如“(2)发电及供热设备-锅炉设备-锅炉辅机”；

III.同一个设备的不同表达，例如“离心通风机”、“离心风机”、“通风机”都对应“离心通风机”设备；

针对前两种情况，通过正则表达式、分词等方法来进行文本预处理，而第三种情况，如果依赖人工则需有丰富业务领域经验的专家来制作标准化词典，用到大量的人力成本和时间。而查看样例可知，同一设备的不同表达之间相似度较高，借助人工智能技术中的聚类方法，对设备名称文本转化为词向量后，通过聚类比较相似度，可将同一类别的设备进行标准化。

具体步骤如下：

III-1：对设备文本进行切分，去除空格、括号等无意义字符。

III-2：根据切分出来的字词建立词库，统计第i个词汇在第j个设备文本中出现的次数n_ij，设备文本d_j(即第j个设备的描述信息)中所有词汇出现的总次数∑_qn_qj，计算第i个词汇在第j个设备的描述信息中出现的词频tf_ij。

III-3：计算逆向文件频率，即第i个词汇的逆向文件频率idf_i，可以由总设备文本数目除以包含该词语的设备文本的数目，再将得到的商取对数得到。如果包含词条t的设备文本越少,idf_i越大，则说明词条具有很好的类别区分能力。

其中，|D|表示设备的描述信息的总数，|{j:t_i∈d_j}|表示包含第i个词汇t_i的设备的描述信息的总数(即n_ij≠0的文本数目)。如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用1+|{j:t_i∈d_j}|表示某一特定设备文本内的高词语频率，以及该词语在整个设备文本集合中的低文件频率，可以产生出高权重的TF-IDF值。因此，TF-IDF值倾向于过滤掉常见的词语，保留重要的词语。

(tf-idf)_ij＝tf_ij*idf_i

式中，(tf-idf)_ij表示第i个词汇在第j个设备的描述信息中的TF-IDF值。

III-4：计算出词语的TF-IDF值后，将特定设备类型对应的设备文本转化为词向量(通常是将TF-IDF值超过预设阈值的词汇对应的描述信息转化为词向量)，组成数据集。这种方式有利于保留设备文本中的关键词，即捕捉关键特征，便于下面的聚类、找出相似词。

III-5：随机从数据集中选择k个点作为初始的聚类中心，划分数据，使得所有数据点与所属聚类中心的总距离最小。将每个聚类中的均值作为新的聚类中心再次聚类，重复上述步骤直到聚类均值等于聚类中心。最终将数据划分至k个集合中。

III-6：改变k值，求出不同k值对应的误差平方和，即SSE。用SSE即手肘法找到最佳k值。原理如下：随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。

III-7：根据聚类结果，将设备类型标准化，即解决问题3中同一个设备的不同表达，例如“离心通风机”、“离心风机”、“通风机”都对应“离心通风机”设备，则可统一设备描述。

A3：将预处理好的文本输入到深度学习模型前，对于文本中每个词，转换为词向量，词向量表征了每个词的句法和语义信息。利用电力设备文本数据，训练BERT-CNN多层级分类模型(即短文本分类接口模型)，通过验证集分类效果选择恰当的模型参数，完成模型训练。

电力设备的类别是分层级的，如表1所示，最底层类别数量过多，类别之间区分不明显，直接划分难度相对较大，而最高层类别数量较少，类别区分性强，分类难度相对较小。

表1设备编码及设备类型表

因此，采用训练层级模型。对于输入的电力设备描述，先划分相应的最高层类别，在划分结果的基础上，再划分相应的最底层类别。分别训练划分最高层类别以及划分最底层类别的分类模型，即一级分类层模型和二级分类层模型。如图3所示，最高层类别分类采用Bert模型，而底层类别通过CNN(即卷积神经网络)模型来实现。Bert模型由多层双向Transformer构成，每个Transformer利用多头自注意力机制建立词与词之间的联系强弱。谷歌开源了两种不同规模的BERT模型，分别为BERT-Base和BERT-Large。其中，BERT-Base拥有12个Transformer层，768个隐含单元，12个自注意力层，总共含有1.1亿个参数；BERT-Large拥有24个Transformer层，1024个隐含单元，16个自注意力层，总共含有3.4亿个参数。本发明选取BERT-Base作为预训练模型。BERT-CNN采用BERT中的后四层Transformer层的输出作为下游CNN模型的输入。本专利中，取其最后四层L12、L11、L10、L9作为CNN的输入矩阵I(768×4)。然后用32个滤波器F(3×4)，步长为1，扫描输入矩阵I，目的是提取文本3-Gram特征，通过

内积获得32个特征向量。为了降低计算的复杂度，CNN通常使用池化计算降低矩阵的维度。池化计算有最大池化与平均池化两种方式，一般采用最大池化，即在池化窗口中选取最大的元素。由于文本分类对于局部的某些关键词或术语比较敏感，本专利选取最大池化方式。经过最大池化层后拼接并通过Softmax层获得设备分类的概率分布。在网络训练过程中，滤波器的参数是不共享的，并且与网络间的连接参数同时更新。

采用该网络结构进行模型训练，模型分为两层L1和L2，其中L1为一级分类层模型，L2为二级分类层模型。模型首先获取所有训练样本输入，经过Bert模型训练一级分类YL1。随后，在中间设置数据转换层。该层的作用是根据L1层的标签筛选L2层网络。具体做法是根据L1层的输出的标签值Ym获取所有一级分类为Ym的样本作为L2层的训练样本。例如，若L1层输出为‘Y2’，则L2层将只获取所有一级分类为‘Y2’的数据进行训练。

A4：模型经过剪枝和压缩后，封装为短文本分类接口，输入为设备描述，输出为设备类型对应的标准编码。

步骤2具体包括：

2-1：将电力设备数据中的描述信息输入一级分类层模型，得到描述信息对应的最高层类别；

2-2：根据最高层类别选择对应的二级分类层模型，并将描述信息输入选中的二级分类层模型，到描述信息对应的最底层类别；

2-3：根据最底层类别查找得到电力设备的标准编码。

实施例2：

基于同一发明构思，本发明还提供了一种基于电力短文本分类的异常设备编码检测系统，该系统结构如图4所示，包括：数据获取模块、标准编码模块和异常判断模块；

其中，所述数据获取模块，用于获取电力设备数据；

其中，所述短文本分类接口模型的训练，包括：

获取各电力设备的标准编码和对应的标准化描述信息；

其中，各电力设备的标准化描述信息的获取，包括：

采集电力设备数据库中各设备的描述信息；

其中，对各设备的描述信息通过词向量聚类处理，得到各电力设备的标准化描述信息，包括：

其中，所述词频的计算式如下：

其中，所述逆向文件频率的计算式如下：

其中，所述TF-IDF值的计算式如下：

(tf-idf)_ij＝tf_ij*idf_i

其中，所述标准编码模块具体用于：

根据所述最底层类别查找得到电力设备的标准编码。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本发明后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种基于电力短文本分类的异常设备编码检测方法，其特征在于，包括：

获取电力设备数据；

2.如权利要求1所述的方法，其特征在于，所述短文本分类接口模型的训练，包括：

获取各电力设备的标准编码和对应的标准化描述信息；

3.如权利要求2所述的方法，其特征在于，所述各电力设备的标准化描述信息的获取，包括：

采集电力设备数据库中各设备的描述信息；

4.如权利要求3所述的方法，其特征在于，对各设备的描述信息通过词向量聚类处理，得到各电力设备的标准化描述信息，包括：

5.如权利要求4所述的方法，其特征在于，所述词频的计算式如下：

6.如权利要求4所述的方法，其特征在于，所述逆向文件频率的计算式如下：

7.如权利要求4所述的方法，其特征在于，所述TF-IDF值的计算式如下：

(tf-idf)_ij＝tf_ij*idf_i

8.如权利要求2所述的方法，其特征在于，所述将电力设备数据中的描述信息输入预先训练的短文本分类接口模型，得到电力设备的标准编码，包括：

根据所述最底层类别查找得到电力设备的标准编码。

9.一种基于电力短文本分类的异常设备编码检测系统，其特征在于，包括：数据获取模块、标准编码模块和异常判断模块；

所述数据获取模块，用于获取电力设备数据；

10.如权利要求9所述的系统，其特征在于，所述短文本分类接口模型的训练，包括：

获取各电力设备的标准编码和对应的标准化描述信息；

11.如权利要求10所述的系统，其特征在于，所述标准编码模块具体用于：

根据所述最底层类别查找得到电力设备的标准编码。