CN113377746B

CN113377746B - 一种试验报告数据库构建和智能诊断分析系统

Info

Publication number: CN113377746B
Application number: CN202110747609.5A
Authority: CN
Inventors: 赵超; 文屹; 吕黔苏; 张迅; 王冕; 黄军凯; 陈沛龙; 李欣; 欧阳泽宇; 范强
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-08-18
Anticipated expiration: 2041-07-02
Also published as: CN113377746A

Abstract

本发明公开了一种试验报告数据库构建和智能诊断分析系统，包括试验报告数据库构建模块和试验报告智能诊断分析模块，试验报告数据库构建模块用于构建标准试验数据库；试验报告智能诊断分析模块用于根据构建标准试验数据库进行试验报告智能诊断分析。本发明通过构建统一标准的试验报告数据库，为后续进行的试验报告智能数据诊断分析与策略制定提供充分的数据，使得智能诊断分析更准确。

Description

一种试验报告数据库构建和智能诊断分析系统

技术领域

本发明涉及试验报告智能诊断技术领域，具体涉及一种试验报告数据库构建和智能诊断分析系统。

背景技术

电力设备预防性试验是电力设备运行和维护工作中一个重要环节,是保证电力设备安全运行的有效手段之一。多年来,电力企业的高压电力设备基本上都是按照标准DL/T596—1996《电力设备预防性试验规程》的要求进行试验的,目前南网已发布最新新的《电力设备检修试验规程》CSG-2017006，它能够准确地诊断出电气设备的运行状况,对及时发现、诊断设备风险起到重要作用。

由于目前6+1生产管理系统的作业指导书模块可任意定制，并且省电网公司、地市局、班组各不相同，同时旧数据结构存储多样，与新的试验数据结构差异大，难以转换并统一，总体造成易录入难取出的问题，也导致试验报告诊断难以精确诊断。

现有的电力设备试验报告在诊断过程中，无法精确诊断出试验设备的问题所在。

发明内容

本发明要解决的技术问题是：提供一种试验报告数据库构建和智能诊断分析系统，以解决现有技术中存在的技术问题。

本发明采取的技术方案为：一种试验报告数据库构建和智能诊断分析系统，包括试验报告数据库构建模块和试验报告智能诊断分析模块，试验报告数据库构建模块用于构建标准试验数据库；试验报告智能诊断分析模块用于根据构建标准试验数据库进行试验报告智能诊断分析。

优选的，上述试验报告数据库构建模块实现方法为：提取文本要素数据特征，结合并行计算技术，基于各类设备建立标准数据结构模型，形成数据标准体系，构建新的标准试验数据库。

优选的，上述试验报告数据库构建模块实现方法包括以下具体步骤：

步骤1：从生产管理系统获取试验数据结构体系模型：梳理所有设备在做预防性试验相关的作业指导书，从生产系统获取梳理出来的作业指导书模板和预防性试验数据；

步骤2：构建基于统一标准的试验数据结构体系模型：从生产系统获取的作业指导书模板和预防性试验数据，构成作业指导书模板；分析从生产系统获取的作业指导书模板，并根据实际需要对模板进行完善，形成统一标准模板；同时对于设备出厂交接的试验数据模板，从厂商获取试验数据模板并在系统中生成交接试验版本模板，最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型。

步骤3：试验数据补录：对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录，补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板，根据已定制的模板在系统中实现试验数据补录功能。

优选的，上述文本数据特征提取方法为：从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据，采用文档频数特征选择算法技术，找到出现次数较多的字段，形成数据标准体系。

优选的，上述文档频数特征选择算法为：在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。

优选的，上述试验报告智能诊断分析模块的实现方法包括以下步骤：

步骤1：建立试验规程库模型：根据电力设备检修试验规程，建立主变、断路器和GIS主设备的试验规程库，支持版本维护；内容包括：维护类别、项目、专业、工作要求及审查规则；

步骤2：试验规程库模型强特征智能配对与提取分析：根据试验规程库模型中的工作要求，对这些工作要求进行强特征智能配对与采用自然语言处理方法提取分析，生成审查规则并量化到相应的试验规程库模型中，并跟试验报告里面作业过程中填写的值进行比较；

步骤3：试验报告规范性审查：根据试验规程库模型中的审查规则，审查试验报告文本内容的规范性，比如文本内容应该是数字，却填写了字符串文本；

步骤4：试验报告缺项审查：根据试验规程库模型中的审查规则，判断试验报告中是否存在缺项；

步骤5：试验报告数值区间合格性审查：根据试验规程库模型中的审查规则，审查数值是否符合区间判据的合格性。

优选的，上述一种试验报告数据库构建和智能诊断分析系统包括步骤6：展示智能分析结果：根据对试验报告规范性审查、试验报告缺项审查及试验报告数值区间合格性审查结果进行合并，并生成智能分析结果报告。

优选的，上述智能分析结果的分析方法采用探索性数据分析方法、定性数据分析方法、离线数据分析方法或在线数据分析方法。

优选的，上述强特征智能配对方法采用结构匹配和语义匹配、精确匹配和近似匹配、静态图匹配和动态图匹配和最优算法和近似算法。

优选的，上述步骤5中还包括：同时还要根据上次试验数据结果进行比较，若超过或低于设置的阀值，也判定试验报告数据区间不合格。

优选的，上述自然语言处理方法步骤为：1）获取语料；2）数据预处理；3）特征工程；4）特征选择；5）模型选择：采用机器学习模型或深度学习模型；6）模型训练；7）模型评估；8）投产上线。

本发明的有益效果：与现有技术相比，本发明的效果如下：

（1）本发明通过构建统一标准的试验报告数据库，为后续进行的试验报告智能数据诊断分析与策略制定提供充分的数据，使得智能诊断分析更准确；

（2）基于统一标准的试验数据结构体系，提取要素数据特征，结合并行计算技术，基于各类设备建立标准数据结构模型，形成数据标准体系，构建新的标准试验数据库；

（3）对于试验报告质量管理中，利用已形成的试验管理规程规范，通过基于自然语言处理的试验报告智能诊断分析，建立智能诊断模型，将试验报告与试验管理规程规范进行强特征智能配对与提取分析，结合自然语言处理中的词汇规范化、命名实体识别、标准化数据词典等方法，进行关键词抽取、层次分类、精确推理，重点开展主变、断路器、GIS主设备试验报告的审查，审查的试验报告文本内容的规范性，是否存在缺项、数值是否符合区间判据等合格性要求，从而实现试验报告的精确智能诊断。

附图说明

图1是试验报告数据库构建流程图；

图2是试验报告智能诊断分析流程图。

具体实施方式

下面结合具体的实施例对本发明进行进一步介绍。

实施例1：一种试验报告数据库构建和智能诊断分析系统，一种试验报告数据库构建和智能诊断分析系统，包括试验报告数据库构建模块和试验报告智能诊断分析模块，试验报告数据库构建模块用于构建标准试验数据库；试验报告智能诊断分析模块用于根据构建标准试验数据库进行试验报告智能诊断分析。

上述一种统一标准的试验数据结构体系的构建方法包括以下具体步骤：

步骤2：构建基于统一标准的试验数据结构体系模型：从生产系统获取的作业指导书模板和预防性试验数据，构成作业指导书模板；分析从生产系统获取的作业指导书模板，并根据实际需要对模板进行完善，形成统一标准模板；同时对于设备出厂交接的试验数据模板，从厂商获取（在做出厂交接试验的时候，厂商会有一个出厂交接试验word模板，同时模板中填写设备出厂交接试验数据）试验数据模板并在系统中生成交接试验版本模板，最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型。

步骤3：试验数据补录：试验数据挖掘智能作业管控系统中的试验数据源头有两个：

1）对于外部系统已经存在的试验数据直接通过接口从外部系统获取，主要包括从以前旧系统中一次性拿到历史试验数据，从生产系统中每天获取实时试验数据。

2）对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录，补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板，根据已定制的模板在系统中实现试验数据补录功能。

上述文本数据特征提取方法为：从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据，采用文档频数特征选择算法技术，找到出现次数较多的字段，形成数据标准体系。

文档频数(Document Frequency, DF)是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。在训练文本集中对每个特征计一算它的文档频次，并且根据预先设定的阑值去除那些文档频次特别低和特别高的特征。文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集，计算复杂度较低，能够适用于任何语料，因此是特征降维的常用方法。

在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2 种极端的情况。DF 特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。DF 的优点在于计算量很小,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。

文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征选择。不仅如此,文档频数还非常地高效,在有监督的特征选择应用中当删除90%单词的时候其性能与信息增益和x2 统计的性能还不相上下。DF 是最简单的特征项选取方法,而且该方法的计算复杂度低, 能够胜任大规模的分类任务。

但如果某一稀有词条主要出现在某类训练集中,却能很好地反映类别的特征,而因低于某个设定的阈值而滤除掉,这样就会对分类精度有一定的影响。

并行计算（Parallel Computing）是指同时使用多种计算资源解决计算问题的过程，是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机，也可以是以某种方式互连的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理，再将处理的结果返回给用户。

并行计算可分为时间上的并行和空间上的并行。

时间上的并行：是指流水线技术，比如说工厂生产食品的时候步骤分为：

（1）清洗：将食品冲洗干净。

（2）消毒：将食品进行消毒处理。

（3）切割：将食品切成小块。

（4）包装：将食品装入包装袋。

如果不采用流水线，一个食品完成上述四个步骤后，下一个食品才进行处理，耗时且影响效率。但是采用流水线技术，就可以同时处理四个食品。这就是并行算法中的时间并行，在同一时间启动两个或两个以上的操作，大大提高计算性能。

空间上的并行：是指多个处理机并发的执行计算，即通过网络将两个以上的处理机连接起来，达到同时计算同一个任务的不同部分，或者单个处理机无法解决的大型问题。

试验报告智能诊断分析的实现方法为：通过试验报告智能诊断分析组件，建立智能诊断模型，支持将试验报告与试验管理规程规范进行强特征智能配对与提取分析，结合自然语言处理中的词汇规范化、命名实体识别、标准化数据词典等方法，进行关键词抽取、层次分类、精确推理，重点开展主变、断路器、GIS主设备试验报告的审查，审查试验报告文本内容的规范性，判断是否存在缺项、审查数值是否符合区间判据的合格性；智能诊断分析组件应能通过软件界面或文件导入实现修编规程规范、诊断模型等日常维护；

包括以下具体步骤：

步骤2：试验规程库模型强特征智能配对与提取分析：根据试验规程库模型中的工作要求，对这些工作要求进行强特征智能配对与提取分析，生成审查规则并量化到相应的试验规程库模型中，并跟试验报告里面作业过程中填写的值进行比较；

同时还要根据上次试验数据结果进行比较，若超过或低于设置的阀值，也判定试验报告数据区间不合格。

步骤6：展示智能分析结果：根据对试验报告规范性审查、试验报告缺项审查及试验报告数值区间合格性审查结果进行合并，并生成智能分析结果报告。

优选的，上述智能分析结果的分析方法采用探索性数据分析方法、定性数据分析方法、离线数据分析方法或在线数据分析方法；

数据分析指用适当的统计、分析方法对收集来的大量数据进行分析，将它们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据也称为观测值，是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别，但不区分顺序的，是定类数据，如性别、品牌等；定性数据中表现为类别，但区分顺序的，是定序数据，如学历、商品的质量等级等。

1）数据分析的类型

（1）探索性数据分析：探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法，是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。

（2）定性数据分析：定性数据分析又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”，是指对诸如词语、照片、观察结果之类的非数值型数据（或者说资料）的分析。

（3）离线数据分析：离线数据分析用于较复杂和耗时的数据分析和处理，一般通常构建在云计算平台之上，如开源的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器，存储了数PB乃至数十PB的数据，每天运行着成千上万的离线数据分析作业，每个作业处理几百MB到几百TB甚至更多的数据，运行时间为几分钟、几小时、几天甚至更长。

（4）在线数据分析：在线数据分析也称为联机分析处理，用来处理用户的在线请求，它对响应时间的要求比较高（通常不超过若干秒）。与离线数据分析相比，在线数据分析能够实时处理用户的请求，允许用户随时更改分析的约束和限制条件。与离线数据分析相比，在线数据分析能够处理的数据量要小得多，但随着技术的发展，当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上，而在线大数据分析系统构建在云计算平台的NoSQL系统上。如果没有大数据的在线分析和处理，则无法存储和索引数量庞大的互联网网页，就不会有当今的高效搜索引擎，也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。

2）数据分析的步骤

数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步：

1）探索性数据分析：当数据刚取得时，可能杂乱无章，看不出规律，通过作图、造表、用各种形式的方程拟合，计算某些特征量等手段探索规律性的可能形式，即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。

2）模型选定分析，在探索性分析的基础上提出一类或几类可能的模型，然后通过进一步的分析从中挑选一定的模型。

3）推断分析：通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。

数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。

识别需求：识别信息需求是确保数据分析过程有效性的首要条件，可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求，提出对信息的需求。就过程控制而言，管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。

收集数据：有目的的收集数据，是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑：

①将识别的需求转化为具体的要求，如评价供方时，需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据；

②明确由谁在何时何处，通过何种渠道和方法收集数据；

③记录表应便于使用； ④采取有效措施，防止数据丢失和虚假数据对系统的干扰。

优选的，上述强特征智能配对方法采用结构匹配和语义匹配、精确匹配和近似匹配、静态图匹配和动态图匹配和最优算法和近似算法，图匹配问题按图数据是否在节点和边上包含语义信息分为语义匹配和结构匹配。

1) 结构匹配和语义匹配

图匹配问题按图数据是否在节点和边上包含语义信息分为语义匹配和结构匹配。

结构匹配主要保证所匹配的节点周围具有相同的连通结构，代表性算法包括1976年最早提出的Ullman算法以及今年买了在该算法基础上改进的VF2，QuickSI，GraphQL，Spath等算法。

语义匹配中，数据的节点和边带有丰富的语义信息，需要同时保证匹配结果在结构和语义信息上与模式图一致。目前的研究主要针对予以匹配问题，如典型的GraphGrep算法。

语义匹配算法一方面可以在已有的结构匹配算法基础上引入对节点和边的语义约束改进而成，也可以如GraphGrep等算法通过设计基于语义信息的索引特征实现对语义图的快速匹配。

2) 精确匹配和近似匹配

精确匹配指匹配的结果和模式图的结构及属性完全一致，这种匹配方式主要应用于对匹配结果的准确率要求较高的领域。（前面的结构匹配和语义匹配都属于此类）

近似匹配是可以容忍结果中存在噪声和错误的匹配算法。代表性的近似匹配算法包括SUBDUE，LAW等，主要通过定义编辑距离，最大公共子图，最小公共超图等方法衡量两个图的相似程度。

3) 静态图匹配和动态图匹配

静态图匹配要求所有的数据图不随着时间推移而变化，匹配算法通常会对所有数据图进行分析挖掘，根据数据特点提取有效特征建立索引，从而提高匹配效率。典型算法GIndex，Tree+Delta，FG-Index。

动态图匹配主要采用增量处理基础，仅对更新的数据图进行分析，选择简单且有辨别力的特征简历索引，并采用近似算法提高匹配速度，目前还处于起步阶段。

4) 最优算法和近似算法

最优算法保证匹配结果完全精确。

近似算法不同于近似匹配，通常基于概率统计等数学模型，优点是具有多项式级的时间复杂度，非常适合动态图匹配等对算法实时性要求高且只需满足一定准确率的匹配问题。

优选的，上述自然语言处理方法是计算机科学，人工智能，语言学关注计算机和人类（自然）语言之间的相互作用的领域。自然语言处理 (Natural Language Processing)是人工智能（AI）的一个子领域。NLP 的主要研究方向主要包括：信息抽取、文本生成、问答系统、对话系统、文本挖掘、语音识别、语音合成、舆情分析、机器翻译等。NLP 自然语言处理的一般处理流程主要包括：

1）获取语料

语料是 NLP 任务研究的内容，通常用一个文本集作为语料库（Corpus），语料可以通过已有数据、公开数据集、爬虫抓取等方式获取。

2）数据预处理

语料预处理主要包括以下步骤：

（1）语料清洗：保留有用的数据，删除噪音数据，常见的清洗方式有：人工去重、对齐、删除、标注等。

（2）分词：将文本分成词语，比如通过基于规则的、基于统计的分词方法进行分词。

（3）词性标注：给词语标上词类标签，比如名词、动词、形容词等，常用的词性标注方法有基于规则的、基于统计的算法，比如：最大熵词性标注、HMM 词性标注等。

（4）去停用词：去掉对文本特征没有任何贡献作用的字词，比如：标点符号、语气、“的”等。

3）特征工程

这一步主要的工作是将分词表示成计算机识别的计算类型，一般为向量，常用的表示模型有：词袋模型（Bag of Word, BOW），比如：TF-IDF 算法；词向量，比如 one-hot 算法、word2vec 算法等。

4）特征选择

特征选择主要是基于第三部特征工程得到的特征，选择合适的、表达能力强的特征，常见的特征选择方法有：DF、MI、IG、WFO 等。

5）模型选择

当选择好特征后，需要进行模型选择，选择什么样的模型进行训练。常用的有机器学习模型，比如：KNN、SVM、Naive Bayes、决策树、K-means等；深度学习模型，比如：RNN、CNN、LSTM、Seq2Seq、FastText、TextCNN 等。

6）模型训练

当选择好模型后，则进行模型训练，其中包括了模型微调等。在模型训练的过程中要注意由于在训练集上表现很好，但在测试集上表现很差的过拟合问题以及模型不能很好地拟合数据的欠拟合问题。同时，也要防止出现梯度消失和梯度爆炸问题。

7）模型评估

模型的评价指标主要有：错误率、精准度、准确率、召回率、F1 值、ROC 曲线、AUC曲线等。

8）投产上线

模型的投产上线方式主要有两种：一种是线下训练模型，然后将模型进行线上部署提供服务；另一种是在线训练模型，在线训练完成后将模型 pickle 持久化，提供对外服务。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种试验报告数据库构建和智能诊断分析系统，其特征在于：包括试验报告数据库构建模块和试验报告智能诊断分析模块，试验报告数据库构建模块用于构建标准试验数据库；试验报告智能诊断分析模块用于根据构建标准试验数据库进行试验报告智能诊断分析；试验报告智能诊断分析模块的实现方法包括以下步骤：

步骤3：试验报告规范性审查：根据试验规程库模型中的审查规则，审查试验报告文本内容的规范性；

2.根据权利要求1所述的一种试验报告数据库构建和智能诊断分析系统，其特征在于：试验报告数据库构建模块实现方法为：提取文本要素数据特征，结合并行计算技术，基于各类设备建立标准数据结构模型，形成数据标准体系，构建新的标准试验数据库。

3.根据权利要求2所述的一种试验报告数据库构建和智能诊断分析系统，其特征在于：试验报告数据库构建模块实现方法包括以下具体步骤：

步骤2：构建基于统一标准的试验数据结构体系模型：从生产系统获取的作业指导书模板和预防性试验数据，构成作业指导书模板；分析从生产系统获取的作业指导书模板，并根据实际需要对模板进行完善，形成统一标准模板；同时对于设备出厂交接的试验数据模板，从厂商获取试验数据模板并在系统中生成交接试验版本模板，最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型，

4.根据权利要求3所述的一种试验报告数据库构建和智能诊断分析系统，其特征在于：文本数据特征提取方法为：从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据，采用文档频数特征选择算法技术，找到出现次数较多的字段，形成数据标准体系。

5.根据权利要求4所述的一种试验报告数据库构建和智能诊断分析系统，其特征在于：文档频数特征选择算法为：在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。

6.根据权利要求1所述的一种试验报告数据库构建和智能诊断分析系统，其特征在于：该方法包括步骤6：展示智能分析结果：根据对试验报告规范性审查、试验报告缺项审查及试验报告数值区间合格性审查结果进行合并，并生成智能分析结果报告。

7.根据权利要求1所述的一种试验报告数据库构建和智能诊断分析系统，其特征在于：智能分析结果的分析方法采用探索性数据分析方法、定性数据分析方法、离线数据分析方法或在线数据分析方法。

8.根据权利要求1所述的一种试验报告数据库构建和智能诊断分析系统，其特征在于：强特征智能配对方法采用结构匹配和语义匹配、精确匹配和近似匹配、静态图匹配和动态图匹配和最优算法和近似算法。

9.根据权利要求1所述的一种试验报告数据库构建和智能诊断分析系统，其特征在于：步骤5中还包括：同时还要根据上次试验数据结果进行比较，若超过或低于设置的阈值，也判定试验报告数据区间不合格。