CN113377746B - 一种试验报告数据库构建和智能诊断分析系统 - Google Patents
一种试验报告数据库构建和智能诊断分析系统 Download PDFInfo
- Publication number
- CN113377746B CN113377746B CN202110747609.5A CN202110747609A CN113377746B CN 113377746 B CN113377746 B CN 113377746B CN 202110747609 A CN202110747609 A CN 202110747609A CN 113377746 B CN113377746 B CN 113377746B
- Authority
- CN
- China
- Prior art keywords
- test
- data
- test report
- intelligent
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Remote Sensing (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种试验报告数据库构建和智能诊断分析系统,包括试验报告数据库构建模块和试验报告智能诊断分析模块,试验报告数据库构建模块用于构建标准试验数据库;试验报告智能诊断分析模块用于根据构建标准试验数据库进行试验报告智能诊断分析。本发明通过构建统一标准的试验报告数据库,为后续进行的试验报告智能数据诊断分析与策略制定提供充分的数据,使得智能诊断分析更准确。
Description
技术领域
本发明涉及试验报告智能诊断技术领域,具体涉及一种试验报告数据库构建和智能诊断分析系统。
背景技术
电力设备预防性试验是电力设备运行和维护工作中一个重要环节,是保证电力设备安全运行的有效手段之一。多年来,电力企业的高压电力设备基本上都是按照标准DL/T596—1996《电力设备预防性试验规程》的要求进行试验的,目前南网已发布最新新的《电力设备检修试验规程》CSG-2017006,它能够准确地诊断出电气设备的运行状况,对及时发现、诊断设备风险起到重要作用。
由于目前6+1生产管理系统的作业指导书模块可任意定制,并且省电网公司、地市局、班组各不相同,同时旧数据结构存储多样,与新的试验数据结构差异大,难以转换并统一,总体造成易录入难取出的问题,也导致试验报告诊断难以精确诊断。
现有的电力设备试验报告在诊断过程中,无法精确诊断出试验设备的问题所在。
发明内容
本发明要解决的技术问题是:提供一种试验报告数据库构建和智能诊断分析系统,以解决现有技术中存在的技术问题。
本发明采取的技术方案为: 一种试验报告数据库构建和智能诊断分析系统,包括试验报告数据库构建模块和试验报告智能诊断分析模块,试验报告数据库构建模块用于构建标准试验数据库;试验报告智能诊断分析模块用于根据构建标准试验数据库进行试验报告智能诊断分析。
优选的,上述试验报告数据库构建模块实现方法为:提取文本要素数据特征,结合并行计算技术,基于各类设备建立标准数据结构模型,形成数据标准体系,构建新的标准试验数据库。
优选的,上述试验报告数据库构建模块实现方法包括以下具体步骤:
步骤1:从生产管理系统获取试验数据结构体系模型:梳理所有设备在做预防性试验相关的作业指导书,从生产系统获取梳理出来的作业指导书模板和预防性试验数据;
步骤2:构建基于统一标准的试验数据结构体系模型:从生产系统获取的作业指导书模板和预防性试验数据,构成作业指导书模板;分析从生产系统获取的作业指导书模板,并根据实际需要对模板进行完善,形成统一标准模板;同时对于设备出厂交接的试验数据模板,从厂商获取试验数据模板并在系统中生成交接试验版本模板,最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型。
步骤3:试验数据补录:对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录,补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板,根据已定制的模板在系统中实现试验数据补录功能。
优选的,上述文本数据特征提取方法为:从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据,采用文档频数特征选择算法技术,找到出现次数较多的字段,形成数据标准体系。
优选的,上述文档频数特征选择算法为:在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。
优选的,上述试验报告智能诊断分析模块的实现方法包括以下步骤:
步骤1:建立试验规程库模型:根据电力设备检修试验规程,建立主变、断路器和GIS主设备的试验规程库,支持版本维护;内容包括:维护类别、项目、专业、工作要求及审查规则;
步骤2:试验规程库模型强特征智能配对与提取分析:根据试验规程库模型中的工作要求,对这些工作要求进行强特征智能配对与采用自然语言处理方法提取分析,生成审查规则并量化到相应的试验规程库模型中,并跟试验报告里面作业过程中填写的值进行比较;
步骤3:试验报告规范性审查:根据试验规程库模型中的审查规则,审查试验报告文本内容的规范性,比如文本内容应该是数字,却填写了字符串文本;
步骤4:试验报告缺项审查:根据试验规程库模型中的审查规则,判断试验报告中是否存在缺项;
步骤5:试验报告数值区间合格性审查:根据试验规程库模型中的审查规则,审查数值是否符合区间判据的合格性。
优选的,上述一种试验报告数据库构建和智能诊断分析系统包括步骤6:展示智能分析结果:根据对试验报告规范性审查、试验报告缺项审查及试验报告数值区间合格性审查结果进行合并,并生成智能分析结果报告。
优选的,上述智能分析结果的分析方法采用探索性数据分析方法、定性数据分析方法、离线数据分析方法或在线数据分析方法。
优选的,上述强特征智能配对方法采用结构匹配和语义匹配、精确匹配和近似匹配、静态图匹配和动态图匹配和最优算法和近似算法。
优选的,上述步骤5中还包括:同时还要根据上次试验数据结果进行比较,若超过或低于设置的阀值,也判定试验报告数据区间不合格。
优选的,上述自然语言处理方法步骤为:1)获取语料;2)数据预处理;3)特征工程;4)特征选择;5)模型选择:采用机器学习模型或深度学习模型;6)模型训练;7)模型评估;8)投产上线。
本发明的有益效果:与现有技术相比,本发明的效果如下:
(1)本发明通过构建统一标准的试验报告数据库,为后续进行的试验报告智能数据诊断分析与策略制定提供充分的数据,使得智能诊断分析更准确;
(2)基于统一标准的试验数据结构体系,提取要素数据特征,结合并行计算技术,基于各类设备建立标准数据结构模型,形成数据标准体系,构建新的标准试验数据库;
(3)对于试验报告质量管理中,利用已形成的试验管理规程规范,通过基于自然语言处理的试验报告智能诊断分析,建立智能诊断模型,将试验报告与试验管理规程规范进行强特征智能配对与提取分析,结合自然语言处理中的词汇规范化、命名实体识别、标准化数据词典等方法,进行关键词抽取、层次分类、精确推理,重点开展主变、断路器、GIS主设备试验报告的审查,审查的试验报告文本内容的规范性,是否存在缺项、数值是否符合区间判据等合格性要求,从而实现试验报告的精确智能诊断。
附图说明
图1是试验报告数据库构建流程图;
图2是试验报告智能诊断分析流程图。
具体实施方式
下面结合具体的实施例对本发明进行进一步介绍。
实施例1: 一种试验报告数据库构建和智能诊断分析系统, 一种试验报告数据库构建和智能诊断分析系统,包括试验报告数据库构建模块和试验报告智能诊断分析模块,试验报告数据库构建模块用于构建标准试验数据库;试验报告智能诊断分析模块用于根据构建标准试验数据库进行试验报告智能诊断分析。
优选的,上述试验报告数据库构建模块实现方法为:提取文本要素数据特征,结合并行计算技术,基于各类设备建立标准数据结构模型,形成数据标准体系,构建新的标准试验数据库。
上述一种统一标准的试验数据结构体系的构建方法包括以下具体步骤:
步骤1:从生产管理系统获取试验数据结构体系模型:梳理所有设备在做预防性试验相关的作业指导书,从生产系统获取梳理出来的作业指导书模板和预防性试验数据;
步骤2:构建基于统一标准的试验数据结构体系模型:从生产系统获取的作业指导书模板和预防性试验数据,构成作业指导书模板;分析从生产系统获取的作业指导书模板,并根据实际需要对模板进行完善,形成统一标准模板;同时对于设备出厂交接的试验数据模板,从厂商获取(在做出厂交接试验的时候,厂商会有一个出厂交接试验word模板,同时模板中填写设备出厂交接试验数据)试验数据模板并在系统中生成交接试验版本模板,最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型。
步骤3:试验数据补录:试验数据挖掘智能作业管控系统中的试验数据源头有两个:
1)对于外部系统已经存在的试验数据直接通过接口从外部系统获取,主要包括从以前旧系统中一次性拿到历史试验数据,从生产系统中每天获取实时试验数据。
2)对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录,补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板,根据已定制的模板在系统中实现试验数据补录功能。
上述文本数据特征提取方法为:从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据,采用文档频数特征选择算法技术,找到出现次数较多的字段,形成数据标准体系。
文档频数(Document Frequency, DF)是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。在训练文本集中对每个特征计一算它的文档频次,并且根据预先设定的阑值去除那些文档频次特别低和特别高的特征。文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集,计算复杂度较低,能够适用于任何语料,因此是特征降维的常用方法。
在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2 种极端的情况。DF 特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。DF 的优点在于计算量很小,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。
文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征选择。不仅如此,文档频数还非常地高效,在有监督的特征选择应用中当删除90%单词的时候其性能与信息增益和x2 统计的性能还不相上下。DF 是最简单的特征项选取方法,而且该方法的计算复杂度低, 能够胜任大规模的分类任务。
但如果某一稀有词条主要出现在某类训练集中,却能很好地反映类别的特征,而因低于某个设定的阈值而滤除掉,这样就会对分类精度有一定的影响。
并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机,也可以是以某种方式互连的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理,再将处理的结果返回给用户。
并行计算可分为时间上的并行和空间上的并行。
时间上的并行:是指流水线技术,比如说工厂生产食品的时候步骤分为:
(1)清洗:将食品冲洗干净。
(2)消毒:将食品进行消毒处理。
(3)切割:将食品切成小块。
(4)包装:将食品装入包装袋。
如果不采用流水线,一个食品完成上述四个步骤后,下一个食品才进行处理,耗时且影响效率。但是采用流水线技术,就可以同时处理四个食品。这就是并行算法中的时间并行,在同一时间启动两个或两个以上的操作,大大提高计算性能。
空间上的并行:是指多个处理机并发的执行计算,即通过网络将两个以上的处理机连接起来,达到同时计算同一个任务的不同部分,或者单个处理机无法解决的大型问题。
试验报告智能诊断分析的实现方法为:通过试验报告智能诊断分析组件,建立智能诊断模型,支持将试验报告与试验管理规程规范进行强特征智能配对与提取分析,结合自然语言处理中的词汇规范化、命名实体识别、标准化数据词典等方法,进行关键词抽取、层次分类、精确推理,重点开展主变、断路器、GIS主设备试验报告的审查,审查试验报告文本内容的规范性,判断是否存在缺项、审查数值是否符合区间判据的合格性;智能诊断分析组件应能通过软件界面或文件导入实现修编规程规范、诊断模型等日常维护;
包括以下具体步骤:
步骤1:建立试验规程库模型:根据电力设备检修试验规程,建立主变、断路器和GIS主设备的试验规程库,支持版本维护;内容包括:维护类别、项目、专业、工作要求及审查规则;
步骤2:试验规程库模型强特征智能配对与提取分析:根据试验规程库模型中的工作要求,对这些工作要求进行强特征智能配对与提取分析,生成审查规则并量化到相应的试验规程库模型中,并跟试验报告里面作业过程中填写的值进行比较;
步骤3:试验报告规范性审查:根据试验规程库模型中的审查规则,审查试验报告文本内容的规范性,比如文本内容应该是数字,却填写了字符串文本;
步骤4:试验报告缺项审查:根据试验规程库模型中的审查规则,判断试验报告中是否存在缺项;
步骤5:试验报告数值区间合格性审查:根据试验规程库模型中的审查规则,审查数值是否符合区间判据的合格性。
同时还要根据上次试验数据结果进行比较,若超过或低于设置的阀值,也判定试验报告数据区间不合格。
步骤6:展示智能分析结果:根据对试验报告规范性审查、试验报告缺项审查及试验报告数值区间合格性审查结果进行合并,并生成智能分析结果报告。
优选的,上述智能分析结果的分析方法采用探索性数据分析方法、定性数据分析方法、离线数据分析方法或在线数据分析方法;
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据也称为观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别,但不区分顺序的,是定类数据,如性别、品牌等;定性数据中表现为类别,但区分顺序的,是定序数据,如学历、商品的质量等级等。
1)数据分析的类型
(1)探索性数据分析:探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。
(2)定性数据分析:定性数据分析又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。
(3)离线数据分析:离线数据分析用于较复杂和耗时的数据分析和处理,一般通常构建在云计算平台之上,如开源的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器,存储了数PB乃至数十PB的数据,每天运行着成千上万的离线数据分析作业,每个作业处理几百MB到几百TB甚至更多的数据,运行时间为几分钟、几小时、几天甚至更长。
(4)在线数据分析:在线数据分析也称为联机分析处理,用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)。与离线数据分析相比,在线数据分析能够实时处理用户的请求,允许用户随时更改分析的约束和限制条件。与离线数据分析相比,在线数据分析能够处理的数据量要小得多,但随着技术的发展,当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上,而在线大数据分析系统构建在云计算平台的NoSQL系统上。如果没有大数据的在线分析和处理,则无法存储和索引数量庞大的互联网网页,就不会有当今的高效搜索引擎,也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。
2)数据分析的步骤
数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步:
1)探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。
2)模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。
3)推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。
数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。
识别需求:识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。
收集数据:有目的的收集数据,是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑:
①将识别的需求转化为具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据;
②明确由谁在何时何处,通过何种渠道和方法收集数据;
③记录表应便于使用; ④采取有效措施,防止数据丢失和虚假数据对系统的干扰。
优选的,上述强特征智能配对方法采用结构匹配和语义匹配、精确匹配和近似匹配、静态图匹配和动态图匹配和最优算法和近似算法,图匹配问题按图数据是否在节点和边上包含语义信息分为语义匹配和结构匹配。
1) 结构匹配和语义匹配
图匹配问题按图数据是否在节点和边上包含语义信息分为语义匹配和结构匹配。
结构匹配主要保证所匹配的节点周围具有相同的连通结构,代表性算法包括1976年最早提出的Ullman算法以及今年买了在该算法基础上改进的VF2,QuickSI,GraphQL,Spath等算法。
语义匹配中,数据的节点和边带有丰富的语义信息,需要同时保证匹配结果在结构和语义信息上与模式图一致。目前的研究主要针对予以匹配问题,如典型的GraphGrep算法。
语义匹配算法一方面可以在已有的结构匹配算法基础上引入对节点和边的语义约束改进而成,也可以如GraphGrep等算法通过设计基于语义信息的索引特征实现对语义图的快速匹配。
2) 精确匹配和近似匹配
精确匹配指匹配的结果和模式图的结构及属性完全一致,这种匹配方式主要应用于对匹配结果的准确率要求较高的领域。(前面的结构匹配和语义匹配都属于此类)
近似匹配是可以容忍结果中存在噪声和错误的匹配算法。代表性的近似匹配算法包括SUBDUE,LAW等,主要通过定义编辑距离,最大公共子图,最小公共超图等方法衡量两个图的相似程度。
3) 静态图匹配和动态图匹配
静态图匹配要求所有的数据图不随着时间推移而变化,匹配算法通常会对所有数据图进行分析挖掘,根据数据特点提取有效特征建立索引,从而提高匹配效率。典型算法GIndex,Tree+Delta,FG-Index。
动态图匹配主要采用增量处理基础,仅对更新的数据图进行分析,选择简单且有辨别力的特征简历索引,并采用近似算法提高匹配速度,目前还处于起步阶段。
4) 最优算法和近似算法
最优算法保证匹配结果完全精确。
近似算法不同于近似匹配,通常基于概率统计等数学模型,优点是具有多项式级的时间复杂度,非常适合动态图匹配等对算法实时性要求高且只需满足一定准确率的匹配问题。
优选的,上述自然语言处理方法是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理 (Natural Language Processing)是人工智能(AI)的一个子领域。NLP 的主要研究方向主要包括:信息抽取、文本生成、问答系统、对话系统、文本挖掘、语音识别、语音合成、舆情分析、机器翻译等。NLP 自然语言处理的一般处理流程主要包括:
1)获取语料
语料是 NLP 任务研究的内容,通常用一个文本集作为语料库(Corpus),语料可以通过已有数据、公开数据集、爬虫抓取等方式获取。
2)数据预处理
语料预处理主要包括以下步骤:
(1)语料清洗:保留有用的数据,删除噪音数据,常见的清洗方式有:人工去重、对齐、删除、标注等。
(2)分词:将文本分成词语,比如通过基于规则的、基于统计的分词方法进行分词。
(3)词性标注:给词语标上词类标签,比如名词、动词、形容词等,常用的词性标注方法有基于规则的、基于统计的算法,比如:最大熵词性标注、HMM 词性标注等。
(4)去停用词:去掉对文本特征没有任何贡献作用的字词,比如:标点符号、语气、“的”等。
3)特征工程
这一步主要的工作是将分词表示成计算机识别的计算类型,一般为向量,常用的表示模型有:词袋模型(Bag of Word, BOW),比如:TF-IDF 算法;词向量,比如 one-hot 算法、word2vec 算法等。
4)特征选择
特征选择主要是基于第三部特征工程得到的特征,选择合适的、表达能力强的特征,常见的特征选择方法有:DF、MI、IG、WFO 等。
5)模型选择
当选择好特征后,需要进行模型选择,选择什么样的模型进行训练。常用的有机器学习模型,比如:KNN、SVM、Naive Bayes、决策树、K-means等;深度学习模型,比如:RNN、CNN、LSTM、Seq2Seq、FastText、TextCNN 等。
6)模型训练
当选择好模型后,则进行模型训练,其中包括了模型微调等。在模型训练的过程中要注意由于在训练集上表现很好,但在测试集上表现很差的过拟合问题以及模型不能很好地拟合数据的欠拟合问题。同时,也要防止出现梯度消失和梯度爆炸问题。
7)模型评估
模型的评价指标主要有:错误率、精准度、准确率、召回率、F1 值、ROC 曲线、AUC曲线等。
8)投产上线
模型的投产上线方式主要有两种:一种是线下训练模型,然后将模型进行线上部署提供服务;另一种是在线训练模型,在线训练完成后将模型 pickle 持久化,提供对外服务。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种试验报告数据库构建和智能诊断分析系统,其特征在于:包括试验报告数据库构建模块和试验报告智能诊断分析模块,试验报告数据库构建模块用于构建标准试验数据库;试验报告智能诊断分析模块用于根据构建标准试验数据库进行试验报告智能诊断分析;试验报告智能诊断分析模块的实现方法包括以下步骤:
步骤1:建立试验规程库模型:根据电力设备检修试验规程,建立主变、断路器和GIS主设备的试验规程库,支持版本维护;内容包括:维护类别、项目、专业、工作要求及审查规则;
步骤2:试验规程库模型强特征智能配对与提取分析:根据试验规程库模型中的工作要求,对这些工作要求进行强特征智能配对与采用自然语言处理方法提取分析,生成审查规则并量化到相应的试验规程库模型中,并跟试验报告里面作业过程中填写的值进行比较;
步骤3:试验报告规范性审查:根据试验规程库模型中的审查规则,审查试验报告文本内容的规范性;
步骤4:试验报告缺项审查:根据试验规程库模型中的审查规则,判断试验报告中是否存在缺项;
步骤5:试验报告数值区间合格性审查:根据试验规程库模型中的审查规则,审查数值是否符合区间判据的合格性。
2.根据权利要求1所述的一种试验报告数据库构建和智能诊断分析系统,其特征在于:试验报告数据库构建模块实现方法为:提取文本要素数据特征,结合并行计算技术,基于各类设备建立标准数据结构模型,形成数据标准体系,构建新的标准试验数据库。
3.根据权利要求2所述的一种试验报告数据库构建和智能诊断分析系统,其特征在于:试验报告数据库构建模块实现方法包括以下具体步骤:
步骤1:从生产管理系统获取试验数据结构体系模型:梳理所有设备在做预防性试验相关的作业指导书,从生产系统获取梳理出来的作业指导书模板和预防性试验数据;
步骤2:构建基于统一标准的试验数据结构体系模型:从生产系统获取的作业指导书模板和预防性试验数据,构成作业指导书模板;分析从生产系统获取的作业指导书模板,并根据实际需要对模板进行完善,形成统一标准模板;同时对于设备出厂交接的试验数据模板,从厂商获取试验数据模板并在系统中生成交接试验版本模板,最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型,
步骤3:试验数据补录:对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录,补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板,根据已定制的模板在系统中实现试验数据补录功能。
4.根据权利要求3所述的一种试验报告数据库构建和智能诊断分析系统,其特征在于:文本数据特征提取方法为:从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据,采用文档频数特征选择算法技术,找到出现次数较多的字段,形成数据标准体系。
5.根据权利要求4所述的一种试验报告数据库构建和智能诊断分析系统,其特征在于:文档频数特征选择算法为:在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。
6.根据权利要求1所述的一种试验报告数据库构建和智能诊断分析系统,其特征在于:该方法包括步骤6:展示智能分析结果:根据对试验报告规范性审查、试验报告缺项审查及试验报告数值区间合格性审查结果进行合并,并生成智能分析结果报告。
7.根据权利要求1所述的一种试验报告数据库构建和智能诊断分析系统,其特征在于:智能分析结果的分析方法采用探索性数据分析方法、定性数据分析方法、离线数据分析方法或在线数据分析方法。
8.根据权利要求1所述的一种试验报告数据库构建和智能诊断分析系统,其特征在于:强特征智能配对方法采用结构匹配和语义匹配、精确匹配和近似匹配、静态图匹配和动态图匹配和最优算法和近似算法。
9.根据权利要求1所述的一种试验报告数据库构建和智能诊断分析系统,其特征在于:步骤5中还包括:同时还要根据上次试验数据结果进行比较,若超过或低于设置的阈值,也判定试验报告数据区间不合格。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110747609.5A CN113377746B (zh) | 2021-07-02 | 2021-07-02 | 一种试验报告数据库构建和智能诊断分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110747609.5A CN113377746B (zh) | 2021-07-02 | 2021-07-02 | 一种试验报告数据库构建和智能诊断分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113377746A CN113377746A (zh) | 2021-09-10 |
CN113377746B true CN113377746B (zh) | 2023-08-18 |
Family
ID=77580752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110747609.5A Active CN113377746B (zh) | 2021-07-02 | 2021-07-02 | 一种试验报告数据库构建和智能诊断分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113377746B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2029495A1 (en) * | 1989-11-17 | 1991-05-18 | Robert Lee Osborne | Expert system tester |
CN101657765A (zh) * | 2007-03-12 | 2010-02-24 | 艾默生过程管理电力和水力解决方案有限公司 | 利用从统计和实时数据得到的可达到性能对设备进行通用性能评估的方法和装置 |
CN104731955A (zh) * | 2015-04-02 | 2015-06-24 | 龙源(北京)风电工程技术有限公司 | 风电机组油液监测诊断标准建立及智能诊断方法及系统 |
CN107368957A (zh) * | 2017-07-04 | 2017-11-21 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测体系的构建方法 |
CN107526820A (zh) * | 2017-08-29 | 2017-12-29 | 广东省技术经济研究发展中心 | 一种多源多库企业创新监测大数据标准数据库构建方法 |
CN108399154A (zh) * | 2017-12-28 | 2018-08-14 | 北京金科汇智科技有限公司 | 工程试验数据采集系统 |
CN109978495A (zh) * | 2019-03-05 | 2019-07-05 | 中广核工程有限公司 | 一种核电站调试试验报告编制方法和系统 |
WO2019143590A1 (en) * | 2018-01-18 | 2019-07-25 | Penelope Manasco | Techniques for monitoring, overseeing, and directing the workflow of clinical trials |
CN110472896A (zh) * | 2019-09-20 | 2019-11-19 | 上海华慧检测技术有限公司 | 一种建筑材料燃烧特性综合测评服务系统及方法 |
CN111627546A (zh) * | 2020-06-04 | 2020-09-04 | 曹庆恒 | 一种医疗器械使用规则的管理方法、系统和设备 |
CN111861787A (zh) * | 2020-06-30 | 2020-10-30 | 深圳供电局有限公司 | 变电操作票处理方法、装置、计算机设备和存储介质 |
CN112181379A (zh) * | 2020-10-20 | 2021-01-05 | 山东泰开电力电子有限公司 | 一种出厂试验过程信息化平台及其操作方法 |
CN112487058A (zh) * | 2020-11-30 | 2021-03-12 | 北京航空航天大学 | 一种基于数据挖掘的数控机床故障监测与诊断系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7873589B2 (en) * | 2001-04-02 | 2011-01-18 | Invivodata, Inc. | Operation and method for prediction and management of the validity of subject reported data |
US9959199B2 (en) * | 2015-06-17 | 2018-05-01 | Oracle International Corporation | Diagnosis of test failures in software programs |
-
2021
- 2021-07-02 CN CN202110747609.5A patent/CN113377746B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2029495A1 (en) * | 1989-11-17 | 1991-05-18 | Robert Lee Osborne | Expert system tester |
CN101657765A (zh) * | 2007-03-12 | 2010-02-24 | 艾默生过程管理电力和水力解决方案有限公司 | 利用从统计和实时数据得到的可达到性能对设备进行通用性能评估的方法和装置 |
CN104731955A (zh) * | 2015-04-02 | 2015-06-24 | 龙源(北京)风电工程技术有限公司 | 风电机组油液监测诊断标准建立及智能诊断方法及系统 |
CN107368957A (zh) * | 2017-07-04 | 2017-11-21 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测体系的构建方法 |
CN107526820A (zh) * | 2017-08-29 | 2017-12-29 | 广东省技术经济研究发展中心 | 一种多源多库企业创新监测大数据标准数据库构建方法 |
CN108399154A (zh) * | 2017-12-28 | 2018-08-14 | 北京金科汇智科技有限公司 | 工程试验数据采集系统 |
WO2019143590A1 (en) * | 2018-01-18 | 2019-07-25 | Penelope Manasco | Techniques for monitoring, overseeing, and directing the workflow of clinical trials |
CN109978495A (zh) * | 2019-03-05 | 2019-07-05 | 中广核工程有限公司 | 一种核电站调试试验报告编制方法和系统 |
CN110472896A (zh) * | 2019-09-20 | 2019-11-19 | 上海华慧检测技术有限公司 | 一种建筑材料燃烧特性综合测评服务系统及方法 |
CN111627546A (zh) * | 2020-06-04 | 2020-09-04 | 曹庆恒 | 一种医疗器械使用规则的管理方法、系统和设备 |
CN111861787A (zh) * | 2020-06-30 | 2020-10-30 | 深圳供电局有限公司 | 变电操作票处理方法、装置、计算机设备和存储介质 |
CN112181379A (zh) * | 2020-10-20 | 2021-01-05 | 山东泰开电力电子有限公司 | 一种出厂试验过程信息化平台及其操作方法 |
CN112487058A (zh) * | 2020-11-30 | 2021-03-12 | 北京航空航天大学 | 一种基于数据挖掘的数控机床故障监测与诊断系统 |
Non-Patent Citations (1)
Title |
---|
基于文本挖掘技术的电力设备缺陷分析;曹靖;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》(第(2020)12期);C042-142 * |
Also Published As
Publication number | Publication date |
---|---|
CN113377746A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | A data-driven approach for constructing the component-failure mode matrix for FMEA | |
CN113379313B (zh) | 一种具有智能化的预防性试验作业管控系统 | |
CN108985467A (zh) | 基于人工智能的二次设备精益化管控方法 | |
Bodas-Sagi et al. | Using GDELT data to evaluate the confidence on the spanish government energy policy | |
CN112966259A (zh) | 电力监控系统运维行为安全威胁评估方法及设备 | |
CN112308230A (zh) | 一种资产管理全生命周期知识库的构建及应用方法 | |
Arnarsson et al. | Supporting knowledge re-use with effective searches of related engineering documents-a comparison of search engine and natural language processing-based algorithms | |
CN115063035A (zh) | 基于神经网络的客户评估方法、系统、设备及存储介质 | |
Massie et al. | From anomaly reports to cases | |
Karaoğlu et al. | Applications of machine learning in aircraft maintenance | |
Sampada et al. | A review on advanced techniques of requirement elicitation and specification in software development stages | |
Gräßler et al. | Efficient extraction of technical requirements applying data augmentation | |
Nikitin et al. | Human-in-the-loop large-scale predictive maintenance of workstations | |
Dong et al. | Scene-based big data quality management framework | |
CN113377746B (zh) | 一种试验报告数据库构建和智能诊断分析系统 | |
CN113378560B (zh) | 一种基于自然语言处理的试验报告智能诊断分析方法 | |
Rubei et al. | A lightweight approach for the automated classification and clustering of metamodels | |
Wen et al. | A Cross-Project Defect Prediction Model Based on Deep Learning With Self-Attention | |
Hu et al. | A classification model of power operation inspection defect texts based on graph convolutional network | |
Pei | Construction of a legal system of corporate social responsibility based on big data analysis technology | |
Mishra et al. | Fault Log Text Classification Using Natural Language Processing And Machine Learning For Decision Support | |
Jubair et al. | A multi‐agent K‐means with case‐based reasoning for an automated quality assessment of software requirement specification | |
Wang et al. | Improving failures prediction by exploring weighted shape‐based time‐series clustering | |
CN112215006A (zh) | 机构命名实体归一化方法和系统 | |
Naqvi et al. | Generating semantic matches between maintenance work orders for diagnostic decision support |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |