CN113377745A

CN113377745A - 一种统一标准的试验数据结构体系的构建方法

Info

Publication number: CN113377745A
Application number: CN202110747606.1A
Authority: CN
Inventors: 赵超; 文屹; 吕黔苏; 张迅; 王冕; 黄军凯; 范强; 陈沛龙; 李欣; 吴建蓉; 丁江桥
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-09-10

Abstract

本发明公开了一种统一标准的试验数据结构体系的构建方法，该方法为：提取文本要素数据特征，结合并行计算技术，基于各类设备建立标准数据结构模型，形成数据标准体系，构建新的标准试验数据库。本发明基于统一标准的试验数据结构体系，提取要素数据特征，结合并行计算技术，基于各类设备建立标准数据结构模型，形成数据标准体系，构建新的标准试验数据库，为后续进行的智能数据诊断分析与策略制定提供充分的数据支撑。

Description

一种统一标准的试验数据结构体系的构建方法

技术领域

本发明涉及试验数据结构构建技术领域，具体涉及一种统一标准的试验数据结构体系的构建方法。

背景技术

电力设备预防性试验是电力设备运行和维护工作中一个重要环节,是保证电力设备安全运行的有效手段之一。多年来,电力企业的高压电力设备基本上都是按照标准DL/T596—1996《电力设备预防性试验规程》的要求进行试验的,目前南网已发布最新新的《电力设备检修试验规程》CSG-2017006，它能够准确地诊断出电气设备的运行状况,对及时发现、诊断设备风险起到重要作用。

由于目前6+1生产管理系统的作业指导书模块可任意定制，并且省电网公司、地市局、班组各不相同，同时旧数据结构存储多样，与新的试验数据结构差异大，难以转换并统一，总体造成易录入难取出的问题。

发明内容

本发明要解决的技术问题是：提供一种统一标准的试验数据结构体系的构建方法，以解决现有技术中存在的技术问题。

本发明采取的技术方案为：一种统一标准的试验数据结构体系的构建方法，该方法为：提取文本要素数据特征，结合并行计算技术，基于各类设备建立标准数据结构模型，形成数据标准体系，构建新的标准试验数据库。

上述一种统一标准的试验数据结构体系的构建方法包括以下具体步骤：

步骤1：从生产管理系统获取试验数据结构体系模型：梳理所有设备在做预防性试验相关的作业指导书，从生产系统获取梳理出来的作业指导书模板和预防性试验数据；

步骤2：构建基于统一标准的试验数据结构体系模型：从生产系统获取的作业指导书模板和预防性试验数据，构成作业指导书模板；分析从生产系统获取的作业指导书模板，并根据实际需要对模板进行完善，形成统一标准模板；同时对于设备出厂交接的试验数据模板，从厂商获取（在做出厂交接试验的时候，厂商会有一个出厂交接试验word模板，同时模板中填写设备出厂交接试验数据）试验数据模板并在系统中生成交接试验版本模板，最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型。

步骤3：试验数据补录：对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录，补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板，根据已定制的模板在系统中实现试验数据补录功能。

上述文本数据特征提取方法为：从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据，采用文档频数特征选择算法技术，找到出现次数较多的字段，形成数据标准体系。

上述文档频数特征选择算法为：在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。

上述并行计算技术为：用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。

本发明的有益效果：与现有技术相比，本发明基于统一标准的试验数据结构体系，提取要素数据特征，结合并行计算技术，基于各类设备建立标准数据结构模型，形成数据标准体系，构建新的标准试验数据库，为后续进行的智能数据诊断分析与策略制定提供充分的数据支撑。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合具体的实施例对本发明进行进一步介绍。

实施例1：一种统一标准的试验数据结构体系的构建方法，该方法为：提取文本要素数据特征，结合并行计算技术，基于各类设备建立标准数据结构模型，形成数据标准体系，构建新的标准试验数据库。

步骤3：试验数据补录：试验数据挖掘智能作业管控系统中的试验数据源头有两个：

1）对于外部系统已经存在的试验数据直接通过接口从外部系统获取，主要包括从以前旧系统中一次性拿到历史试验数据，从生产系统中每天获取实时试验数据。

2）对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录，补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板，根据已定制的模板在系统中实现试验数据补录功能。

文档频数(Document Frequency, DF)是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。在训练文本集中对每个特征计一算它的文档频次，并且根据预先设定的阑值去除那些文档频次特别低和特别高的特征。文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集，计算复杂度较低，能够适用于任何语料，因此是特征降维的常用方法。

在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2 种极端的情况。DF 特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。DF 的优点在于计算量很小,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。

文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征选择。不仅如此,文档频数还非常地高效,在有监督的特征选择应用中当删除90%单词的时候其性能与信息增益和x2 统计的性能还不相上下。DF 是最简单的特征项选取方法,而且该方法的计算复杂度低, 能够胜任大规模的分类任务。

但如果某一稀有词条主要出现在某类训练集中,却能很好地反映类别的特征,而因低于某个设定的阈值而滤除掉,这样就会对分类精度有一定的影响。

并行计算（Parallel Computing）是指同时使用多种计算资源解决计算问题的过程，是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机，也可以是以某种方式互连的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理，再将处理的结果返回给用户。

并行计算可分为时间上的并行和空间上的并行。

时间上的并行：是指流水线技术，比如说工厂生产食品的时候步骤分为：

（1）清洗：将食品冲洗干净。

（2）消毒：将食品进行消毒处理。

（3）切割：将食品切成小块。

（4）包装：将食品装入包装袋。

如果不采用流水线，一个食品完成上述四个步骤后，下一个食品才进行处理，耗时且影响效率。但是采用流水线技术，就可以同时处理四个食品。这就是并行算法中的时间并行，在同一时间启动两个或两个以上的操作，大大提高计算性能。

空间上的并行：是指多个处理机并发的执行计算，即通过网络将两个以上的处理机连接起来，达到同时计算同一个任务的不同部分，或者单个处理机无法解决的大型问题。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种统一标准的试验数据结构体系的构建方法，其特征在于：该方法为：提取文本要素数据特征，结合并行计算技术，基于各类设备建立标准数据结构模型，形成数据标准体系，构建新的标准试验数据库。

2.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法，其特征在于：该方法包括以下具体步骤：

步骤2：构建基于统一标准的试验数据结构体系模型：从生产系统获取的作业指导书模板和预防性试验数据，构成作业指导书模板；分析从生产系统获取的作业指导书模板，并根据实际需要对模板进行完善，形成统一标准模板；同时对于设备出厂交接的试验数据模板，从厂商获取试验数据模板并在系统中生成交接试验版本模板，最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型；

3.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法，其特征在于：文本数据特征提取方法为：从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据，采用文档频数特征选择算法技术，找到出现次数较多的字段，形成数据标准体系。

4.根据权利要求3所述的一种统一标准的试验数据结构体系的构建方法，其特征在于：文档频数特征选择算法为：在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。

5.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法，其特征在于：并行计算技术为：用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。

6.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法，其特征在于：并行计算的系统既为含有多个处理器的超级计算机或互连的若干台的独立计算机构成的集群，通过并行计算集群完成数据的处理，再将处理的结果返回给用户。

7.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法，其特征在于：并行计算包括时间上的并行计算和空间上的并行计算。

8.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法，其特征在于：空间上的并行：是指多个处理机并发的执行计算，即通过网络将两个以上的处理机连接起来，达到同时计算同一个任务的不同部分。