CN113378560A

CN113378560A - 一种基于自然语言处理的试验报告智能诊断分析方法

Info

Publication number: CN113378560A
Application number: CN202110747467.2A
Authority: CN
Inventors: 赵超; 文屹; 吕黔苏; 张迅; 黄军凯; 陈沛龙; 刘君; 许逵; 李欣; 范强
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-09-10
Anticipated expiration: 2041-07-02
Also published as: CN113378560B

Abstract

本发明公开了一种基于自然语言处理的试验报告智能诊断分析方法，该方法为：通过试验报告智能诊断分析组件，建立智能诊断模型，支持将试验报告与试验管理规程规范进行强特征智能配对与提取分析，结合自然语言处理中的词汇规范化、命名实体识别、标准化数据词典等方法，进行关键词抽取、层次分类、精确推理，重点开展主变、断路器、GIS主设备试验报告的审查，审查试验报告文本内容的规范性，判断是否存在缺项、审查数值是否符合区间判据的合格性。实现实验报告的精确诊断。

Description

一种基于自然语言处理的试验报告智能诊断分析方法

技术领域

本发明涉及试验报告智能诊断技术领域，具体涉及一种基于自然语言处理的试验报告智能诊断分析方法。

背景技术

电力设备预防性试验是电力设备运行和维护工作中一个重要环节,是保证电力设备安全运行的有效手段之一。多年来,电力企业的高压电力设备基本上都是按照标准DL/T596—1996《电力设备预防性试验规程》的要求进行试验的,目前南网已发布最新新的《电力设备检修试验规程》CSG-2017006，它能够准确地诊断出电气设备的运行状况,对及时发现、诊断设备风险起到重要作用。

现有的电力设备试验报告在诊断过程中，无法精确诊断出试验设备的问题所在。

发明内容

本发明要解决的技术问题是：提供一种基于自然语言处理的试验报告智能诊断分析方法，以解决现有技术中存在的技术问题。

本发明采取的技术方案为：一种基于自然语言处理的试验报告智能诊断分析方法，该方法为：建立智能诊断模型，支持将试验报告与试验管理规程规范进行强特征智能配对与提取分析，结合自然语言处理中的词汇规范化、命名实体识别、标准化数据词典的方法，进行关键词抽取、层次分类、精确推理，重点开展主变、断路器、GIS主设备试验报告的审查，审查试验报告文本内容的规范性，判断是否存在缺项、审查数值是否符合区间判据的合格性。

一种基于自然语言处理的试验报告智能诊断分析方法，该方法包括以下具体步骤：

步骤1：建立试验规程库模型：根据电力设备检修试验规程，建立主变、断路器和GIS主设备的试验规程库，支持版本维护；内容包括：维护类别、项目、专业、工作要求及审查规则；

步骤2：试验规程库模型强特征智能配对与提取分析：根据试验规程库模型中的工作要求，对这些工作要求进行强特征智能配对与采用自然语言处理方法提取分析，生成审查规则并量化到相应的试验规程库模型中，并跟试验报告里面作业过程中填写的值进行比较；

步骤3：试验报告规范性审查：根据试验规程库模型中的审查规则，审查试验报告文本内容的规范性，比如文本内容应该是数字，却填写了字符串文本；

步骤4：试验报告缺项审查：根据试验规程库模型中的审查规则，判断试验报告中是否存在缺项；

步骤5：试验报告数值区间合格性审查：根据试验规程库模型中的审查规则，审查数值是否符合区间判据的合格性。

优选的，上述一种基于自然语言处理的试验报告智能诊断分析方法包括步骤6：展示智能分析结果：根据对试验报告规范性审查、试验报告缺项审查及试验报告数值区间合格性审查结果进行合并，并生成智能分析结果报告。

优选的，上述智能分析结果的分析方法采用探索性数据分析方法、定性数据分析方法、离线数据分析方法或在线数据分析方法。

优选的，上述强特征智能配对方法采用结构匹配和语义匹配、精确匹配和近似匹配、静态图匹配和动态图匹配和最优算法和近似算法。

优选的，上述步骤5中还包括：同时还要根据上次试验数据结果进行比较，若超过或低于设置的阀值，也判定试验报告数据区间不合格。

优选的，上述自然语言处理方法步骤为：1）获取语料；2）数据预处理；3）特征工程；4）特征选择；5）模型选择：采用机器学习模型或深度学习模型；6）模型训练；7）模型评估；8）投产上线。

本发明的有益效果：与现有技术相比，本发明对于试验报告质量管理中，利用已形成的试验管理规程规范，通过基于自然语言处理的试验报告智能诊断分析，建立智能诊断模型，将试验报告与试验管理规程规范进行强特征智能配对与提取分析，结合自然语言处理中的词汇规范化、命名实体识别、标准化数据词典等方法，进行关键词抽取、层次分类、精确推理，重点开展主变、断路器、GIS主设备试验报告的审查，审查的试验报告文本内容的规范性，是否存在缺项、数值是否符合区间判据等合格性要求，从而实现试验报告的精确智能诊断。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合具体的实施例对本发明进行进一步介绍。

实施例1：一种基于自然语言处理的试验报告智能诊断分析方法，该方法为：通过试验报告智能诊断分析组件，建立智能诊断模型，支持将试验报告与试验管理规程规范进行强特征智能配对与提取分析，结合自然语言处理中的词汇规范化、命名实体识别、标准化数据词典等方法，进行关键词抽取、层次分类、精确推理，重点开展主变、断路器、GIS主设备试验报告的审查，审查试验报告文本内容的规范性，判断是否存在缺项、审查数值是否符合区间判据的合格性；智能诊断分析组件应能通过软件界面或文件导入实现修编规程规范、诊断模型等日常维护；

包括以下具体步骤：

步骤2：试验规程库模型强特征智能配对与提取分析：根据试验规程库模型中的工作要求，对这些工作要求进行强特征智能配对与提取分析，生成审查规则并量化到相应的试验规程库模型中，并跟试验报告里面作业过程中填写的值进行比较；

同时还要根据上次试验数据结果进行比较，若超过或低于设置的阀值，也判定试验报告数据区间不合格。

步骤6：展示智能分析结果：根据对试验报告规范性审查、试验报告缺项审查及试验报告数值区间合格性审查结果进行合并，并生成智能分析结果报告。

优选的，上述智能分析结果的分析方法采用探索性数据分析方法、定性数据分析方法、离线数据分析方法或在线数据分析方法；

数据分析指用适当的统计、分析方法对收集来的大量数据进行分析，将它们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据也称为观测值，是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别，但不区分顺序的，是定类数据，如性别、品牌等；定性数据中表现为类别，但区分顺序的，是定序数据，如学历、商品的质量等级等。

1）数据分析的类型

（1）探索性数据分析：探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法，是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。

（2）定性数据分析：定性数据分析又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”，是指对诸如词语、照片、观察结果之类的非数值型数据（或者说资料）的分析。

（3）离线数据分析：离线数据分析用于较复杂和耗时的数据分析和处理，一般通常构建在云计算平台之上，如开源的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器，存储了数PB乃至数十PB的数据，每天运行着成千上万的离线数据分析作业，每个作业处理几百MB到几百TB甚至更多的数据，运行时间为几分钟、几小时、几天甚至更长。

（4）在线数据分析：在线数据分析也称为联机分析处理，用来处理用户的在线请求，它对响应时间的要求比较高（通常不超过若干秒）。与离线数据分析相比，在线数据分析能够实时处理用户的请求，允许用户随时更改分析的约束和限制条件。与离线数据分析相比，在线数据分析能够处理的数据量要小得多，但随着技术的发展，当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上，而在线大数据分析系统构建在云计算平台的NoSQL系统上。如果没有大数据的在线分析和处理，则无法存储和索引数量庞大的互联网网页，就不会有当今的高效搜索引擎，也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。

2）数据分析的步骤

数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步：

1）探索性数据分析：当数据刚取得时，可能杂乱无章，看不出规律，通过作图、造表、用各种形式的方程拟合，计算某些特征量等手段探索规律性的可能形式，即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。

2）模型选定分析，在探索性分析的基础上提出一类或几类可能的模型，然后通过进一步的分析从中挑选一定的模型。

3）推断分析：通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。

数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。

识别需求：识别信息需求是确保数据分析过程有效性的首要条件，可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求，提出对信息的需求。就过程控制而言，管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。

收集数据：有目的的收集数据，是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑：

①将识别的需求转化为具体的要求，如评价供方时，需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据；

②明确由谁在何时何处，通过何种渠道和方法收集数据；

③记录表应便于使用； ④采取有效措施，防止数据丢失和虚假数据对系统的干扰。

优选的，上述强特征智能配对方法采用结构匹配和语义匹配、精确匹配和近似匹配、静态图匹配和动态图匹配和最优算法和近似算法，图匹配问题按图数据是否在节点和边上包含语义信息分为语义匹配和结构匹配。

1) 结构匹配和语义匹配

图匹配问题按图数据是否在节点和边上包含语义信息分为语义匹配和结构匹配。

结构匹配主要保证所匹配的节点周围具有相同的连通结构，代表性算法包括1976年最早提出的Ullman算法以及今年买了在该算法基础上改进的VF2，QuickSI，GraphQL，Spath等算法。

语义匹配中，数据的节点和边带有丰富的语义信息，需要同时保证匹配结果在结构和语义信息上与模式图一致。目前的研究主要针对予以匹配问题，如典型的GraphGrep算法。

语义匹配算法一方面可以在已有的结构匹配算法基础上引入对节点和边的语义约束改进而成，也可以如GraphGrep等算法通过设计基于语义信息的索引特征实现对语义图的快速匹配。

2) 精确匹配和近似匹配

精确匹配指匹配的结果和模式图的结构及属性完全一致，这种匹配方式主要应用于对匹配结果的准确率要求较高的领域。（前面的结构匹配和语义匹配都属于此类）

近似匹配是可以容忍结果中存在噪声和错误的匹配算法。代表性的近似匹配算法包括SUBDUE，LAW等，主要通过定义编辑距离，最大公共子图，最小公共超图等方法衡量两个图的相似程度。

3) 静态图匹配和动态图匹配

静态图匹配要求所有的数据图不随着时间推移而变化，匹配算法通常会对所有数据图进行分析挖掘，根据数据特点提取有效特征建立索引，从而提高匹配效率。典型算法GIndex，Tree+Delta，FG-Index。

动态图匹配主要采用增量处理基础，仅对更新的数据图进行分析，选择简单且有辨别力的特征简历索引，并采用近似算法提高匹配速度，目前还处于起步阶段。

4) 最优算法和近似算法

最优算法保证匹配结果完全精确。

近似算法不同于近似匹配，通常基于概率统计等数学模型，优点是具有多项式级的时间复杂度，非常适合动态图匹配等对算法实时性要求高且只需满足一定准确率的匹配问题。

优选的，上述自然语言处理方法是计算机科学，人工智能，语言学关注计算机和人类（自然）语言之间的相互作用的领域。自然语言处理 (Natural Language Processing)是人工智能（AI）的一个子领域。NLP 的主要研究方向主要包括：信息抽取、文本生成、问答系统、对话系统、文本挖掘、语音识别、语音合成、舆情分析、机器翻译等。NLP 自然语言处理的一般处理流程主要包括：

1）获取语料

语料是 NLP 任务研究的内容，通常用一个文本集作为语料库（Corpus），语料可以通过已有数据、公开数据集、爬虫抓取等方式获取。

2）数据预处理

语料预处理主要包括以下步骤：

（1）语料清洗：保留有用的数据，删除噪音数据，常见的清洗方式有：人工去重、对齐、删除、标注等。

（2）分词：将文本分成词语，比如通过基于规则的、基于统计的分词方法进行分词。

（3）词性标注：给词语标上词类标签，比如名词、动词、形容词等，常用的词性标注方法有基于规则的、基于统计的算法，比如：最大熵词性标注、HMM 词性标注等。

（4）去停用词：去掉对文本特征没有任何贡献作用的字词，比如：标点符号、语气、“的”等。

3）特征工程

这一步主要的工作是将分词表示成计算机识别的计算类型，一般为向量，常用的表示模型有：词袋模型（Bag of Word, BOW），比如：TF-IDF 算法；词向量，比如 one-hot 算法、word2vec 算法等。

4）特征选择

特征选择主要是基于第三部特征工程得到的特征，选择合适的、表达能力强的特征，常见的特征选择方法有：DF、MI、IG、WFO 等。

5）模型选择

当选择好特征后，需要进行模型选择，选择什么样的模型进行训练。常用的有机器学习模型，比如：KNN、SVM、Naive Bayes、决策树、K-means等；深度学习模型，比如：RNN、CNN、LSTM、Seq2Seq、FastText、TextCNN 等。

6）模型训练

当选择好模型后，则进行模型训练，其中包括了模型微调等。在模型训练的过程中要注意由于在训练集上表现很好，但在测试集上表现很差的过拟合问题以及模型不能很好地拟合数据的欠拟合问题。同时，也要防止出现梯度消失和梯度爆炸问题。

7）模型评估

模型的评价指标主要有：错误率、精准度、准确率、召回率、F1 值、ROC 曲线、AUC曲线等。

8）投产上线

模型的投产上线方式主要有两种：一种是线下训练模型，然后将模型进行线上部署提供服务；另一种是在线训练模型，在线训练完成后将模型 pickle 持久化，提供对外服务。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于自然语言处理的试验报告智能诊断分析方法，其特征在于：该方法为：建立智能诊断模型，支持将试验报告与试验管理规程规范进行强特征智能配对与提取分析，结合自然语言处理中的词汇规范化、命名实体识别、标准化数据词典的方法，进行关键词抽取、层次分类、精确推理，重点开展主变、断路器、GIS主设备试验报告的审查，审查试验报告文本内容的规范性，判断是否存在缺项、审查数值是否符合区间判据的合格性。

2.根据权利要求1所述的一种基于自然语言处理的试验报告智能诊断分析方法，其特征在于：该方法包括以下具体步骤：

步骤3：试验报告规范性审查：根据试验规程库模型中的审查规则，审查试验报告文本内容的规范性；

3.根据权利要求2所述的一种基于自然语言处理的试验报告智能诊断分析方法，其特征在于：该方法包括步骤6：展示智能分析结果：根据对试验报告规范性审查、试验报告缺项审查及试验报告数值区间合格性审查结果进行合并，并生成智能分析结果报告。

4.根据权利要求3所述的一种基于自然语言处理的试验报告智能诊断分析方法，其特征在于：智能分析结果的分析方法采用探索性数据分析方法、定性数据分析方法、离线数据分析方法或在线数据分析方法。

5.根据权利要求2所述的一种基于自然语言处理的试验报告智能诊断分析方法，其特征在于：强特征智能配对方法采用结构匹配和语义匹配、精确匹配和近似匹配、静态图匹配和动态图匹配和最优算法和近似算法。

6.根据权利要求2所述的一种基于自然语言处理的试验报告智能诊断分析方法，其特征在于：步骤5中还包括：同时还要根据上次试验数据结果进行比较，若超过或低于设置的阀值，也判定试验报告数据区间不合格。

7.根据权利要求1所述的一种基于自然语言处理的试验报告智能诊断分析方法，其特征在于：提取分析采用自然语言处理方法，

步骤为：1）获取语料；2）数据预处理；3）特征工程；4）特征选择；5）模型选择：采用机器学习模型或深度学习模型；6）模型训练；7）模型评估；8）投产上线。

8.根据权利要求1所述的一种基于自然语言处理的试验报告智能诊断分析方法，其特征在于：智能诊断模型通过软件界面或文件导入实现修编规程规范、诊断模型的日常维护。