CN114462399A - 一种核电厂质量缺陷报告与状态报告的精确匹配方法 - Google Patents
一种核电厂质量缺陷报告与状态报告的精确匹配方法 Download PDFInfo
- Publication number
- CN114462399A CN114462399A CN202011240359.8A CN202011240359A CN114462399A CN 114462399 A CN114462399 A CN 114462399A CN 202011240359 A CN202011240359 A CN 202011240359A CN 114462399 A CN114462399 A CN 114462399A
- Authority
- CN
- China
- Prior art keywords
- score
- field
- equipment
- report
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims description 15
- 238000007689 inspection Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000003466 welding Methods 0.000 claims description 12
- 238000000227 grinding Methods 0.000 claims description 9
- XKRFYHLGVUSROY-UHFFFAOYSA-N Argon Chemical compound [Ar] XKRFYHLGVUSROY-UHFFFAOYSA-N 0.000 claims description 6
- 239000007789 gas Substances 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 5
- 206010013647 Drowning Diseases 0.000 claims description 3
- 229910052786 argon Inorganic materials 0.000 claims description 3
- 230000007797 corrosion Effects 0.000 claims description 3
- 238000005260 corrosion Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种核电厂质量缺陷报告与状态报告的精确匹配方法,包括以下步骤,步骤1:设备编码计算规则;步骤2:核电专用语义相似度计算规则;步骤3:具体各电厂堆型的设备编码与语义相似度分值计算;步骤4:关键词处理,增强经验反馈数据的有效性;步骤5:智能推荐。本发明的有益效果在于:现有的核电厂在进行质量缺陷报告填报工作时,只能通过手动查询的方式查找历史状态报告信息,面临效率低下以及准确率不高的问题。通过本发明提供的方法,可以在质量缺陷报告填报时自动快速定位并推送状态报告这一经验反馈数据,为质量缺陷报告的填报提供参考,减轻质量缺陷报告填报人员的时间和精力。
Description
技术领域
本发明涉及核电领域,具体属于一种应用于核电厂根据质量缺陷报告精确匹配状态报告数据的方法,它为质量缺陷报告填写人在填写质量缺陷报告时提供经验反馈信息的精准推送。
背景技术
核电基地经过多年的运行,在现有已建设投用的经验反馈系统和业务系统中分别积累了大量质量缺陷报告数据和状态报告数据。由于这些数据均分散在不同的业务系统中,形成了信息孤岛,未得到有效的整合,业务部门主要通过经验反馈部门的定期推送进行学习,但定期推送无法满足业务人员对当前工作中历史经验反馈的实时需求,往往无法及时得到最想要的经验反馈数据信息。
一般产生质量缺陷报告后,就会相应的开发状态报告对其进行原因分析,并制定相应的纠正行动。因此有必要提供一种经验反馈智能推送方法应用于质量缺陷报告准备期间,在核电厂质量缺陷报告填写人填报质量缺陷报告时,实现对历史状态报告信息的精准推送。
发明内容
本发明的目的是提供一种核电厂质量缺陷报告与状态报告的精确匹配方法,它能够基于历史质量缺陷报告进行数据分析,具有较高准确度的推荐方法,能够作为核电厂智能经验反馈规则的指导和参考。
本发明的技术方案如下:一种核电厂质量缺陷报告与状态报告的精确匹配方法,包括以下步骤,
步骤1:设备编码计算规则;
步骤2:核电专用语义相似度计算规则;
步骤3:具体各电厂堆型的设备编码与语义相似度分值计算;
步骤4:关键词处理,增强经验反馈数据的有效性;
步骤5:智能推荐。
所述的步骤1包括,
统计各种设备编码的规则,以及电厂与堆型之间的规则,将堆型和设备编码归类计算;
利用相关正则表达式判断该数据的设备编码是否符合其电厂的设备编码规则;
设备编码不符合该电厂的设备编码规则
如不符合,则基于自然语言处理将质量缺陷报告的“QDR主题”字段与状态报告中的“CR主题”字段剔除相关设备编码与相关干扰符号后根据语义相似度方法进行自然语言语义相似度匹配,对相似度的打分进行归一化,得到匹配分值w主题得分如果w主题得分大于等于给定的相关分值w限定分值,则计入集合S得分集合,
设备编码符合该电厂的设备编码规则
如果输入的设备编码符合该电厂的规则,获取质量缺陷报告的设备编码字段数据与已经预处理的数据库设备编码相关数据进行匹配比较:
具体设备编码匹配规则:
获取状态报告的涉及设备字段,与输入的设备编码进行完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码去机组后再完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码提取系统代码+设备编号后再完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码提取系统代码后再完全匹配,相等则获得相关的设备编码分数,
如果以上规则都不成立,使用正则表达式提取主题等关系字段中的相关设备编码,与输入的设备编码进行完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码去机组后再完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码提取系统代码+设备编号后再完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码提取系统代码后再完全匹配,相等则获得相关的设备编码分数。
所述的步骤2包括,
在采用堆型和设备编码类型匹配的基础上,引入核电专用分词语义相似度匹配方法,达到更高的精确度,基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,调用了Viterbi算法,根据分词结果调用余弦相似度算法获得相似度值;此处用输入的(质量缺陷报告)QDR主题和主题相关描述与状态报告的CR主题和相关字段进行语义相似度计算乘设定的权重得到语义相似度分值,
所述的步骤3包括,
(1)质量缺陷报告属于秦一厂QS0
a)若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段全部一致(同一设备)时,设备编码分值为wa,考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,最高分值wb,匹配的总得分w设备+主题得分=wa+wb,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合,
b)若质量缺陷报告的“设备编码”字段与状态报告的“涉及设备”字段不一致,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码,如果质量缺陷报告的“设备编码”字段与提取的设备编码字段能匹配上,分值为wc,考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,最高分值wd,匹配的总得分w设备提取+主题得分=wc+wd,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合,
c)若质量缺陷报告的“设备编码”字段与状态报告的“涉及设备”字段不一致,且与从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码都匹配不上,用缺陷报告数据QDR中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,匹配的总得分we,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合,
(2)质量缺陷报告属于秦三厂QS3:
a)若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段全部一致(同一设备),分值为wf;若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段中除第一位机组号,其他全部相同,分值为wg;若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段中除去第一位机组号开始,截取到第二个″-″号之后的第一个数字之前的字段相同;分值为wh,考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,最高分值wi,匹配的总得分w系统得分=wf、wg、wh中的最高分值+wi,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合,
b)质量缺陷报告数据QDR的“设备编码”字段非a)的情况,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码,如果质量缺陷报告的“设备编码”字段与提取的设备编码字段根据a)中能匹配上,分值为wj,然后考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,最高分值wk,匹配的总得分w设备提取+主题得分=wj+wk,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合,
c)若质量缺陷报告的“设备编码”字段非a)的情况,且与从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码根据a)中都匹配不上,用缺陷报告数据QDR中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化到1分,匹配的总得分wl,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合,
(3)质量缺陷报告属于其他电厂:
a)若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段全部一致(同一设备),分值为wm;若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段中除第一位机组号,其他全部相同;分值为wn;若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段中除第一位机组号和中间数字编码不同,其他的相同;分值为wo,考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,最高分值wp,匹配的总得分w设备+主题得分=wm、wn、wo中的最高分值wp,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合,
b)质量缺陷报告的“设备编码”字段非a)的情况,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码,如果质量缺陷报告的“设备编码”字段与提取的设备编码字段根据a)中的规则能匹配上,分值为wq,然后考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配(剔除设备编码与干扰符号),对相似度的打分进行归一化,最高分值wr,匹配的总得分w设备提取+主题得分=wq+wr,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合,
c)质量缺陷报告的“设备编码”字段非a)的情况,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码,如果质量缺陷报告的“设备编码”字段与提取的设备编码字段能匹配上缺陷报告数据QDR的“设备编码”字段与提取出的设备编码根据a)中规则都匹配不上,用缺陷报告数据QDR中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,匹配的总得分ws,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合。
所述的步骤4包括,
对关键词的数据进行加分处理,比如,质量缺陷报告所属电厂中S得分集合中的分值相同的状态报告其它字段,
(1)如果有得分相同的情况,则判断状态报告数据中的“CR级别”字段,为A则额外加a分,为B则加b分,为C则加c分,为D或者为空则不加分;
(2)如果有得分相同的情况,则判断状态报告数据中的“进一步行动建议”字段,不为空(不考虑“无”字),则加d分;
(3)权重值修正得分,如果有得分相同的情况,状态报告的“状态描述”与质量缺陷报告中“QDR主题”可语义匹配到如下关键字时,匹配到任一关键词并且相同,增加e,比如关键字包括以下内容:“巡检”、“高处作业”、“淹溺”、“焊接”、“射线”、“RT”、“探伤”、“腐蚀检查”、“脚手架”、“超声检查”、“射线检查”、“电焊”,“气割”,“砂轮打磨切割”、“研磨”,“烘烤”、“氩弧焊”、“气焊”、“在役检查”,如匹配上,则推荐度分数相同的情况下优先推送。
所述的步骤5包括,
根据以上匹配规则,将质量缺陷报告对应状态报告的每个S得分集合,按照分值从高到低的顺序进行推荐,根据业务规则和相似度计算方法,调整各分数之间的比重,统计数据之间的相似度、准确率、匹配率,得出最佳匹配结果,实现精准推送功能。
本发明的有益效果在于:现有的核电厂在进行质量缺陷报告填报工作时,只能通过手动查询的方式查找历史状态报告信息,面临效率低下以及准确率不高的问题。通过本发明提供的方法,可以在质量缺陷报告填报时自动快速定位并推送状态报告这一经验反馈数据,为质量缺陷报告的填报提供参考,减轻质量缺陷报告填报人员的时间和精力。
附图说明
图1为数据关系图-质量缺陷报告与状态报告匹配示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
本发明提供一种核电厂质量缺陷报告与状态报告的精确匹配方法,在输入质量缺陷报告后,根据该质量缺陷报告里的电厂、QDR主题、设备编码、设备名称字段,以及状态报告里的CR主题、涉及设备、CR级别、状态描述字段,在基于数据准确率的基础上按调试后的权重比例规则进行关联匹配,将规则匹配和自然语言处理相似度分值最高结果归一化后作为数据的预估值。本发明在在自然语言分词精确模式的基础上,通过语义相似度匹配方法,根据特定的规则调节各分值的比重,达到质量缺陷报告和状态报告的精准匹配。
本发明一种核电厂质量缺陷报告与状态报告的精确匹配方法,该方法可以为核电厂提供一种量化技术手段,实现状态报告这一经验反馈案例的精准推送,促进经验反馈信息得到有效的利用。所涉及的自然语言处理相似度匹配中的语义相似度方法基于核电专业词库对匹配数据进行分词,对分词结果向量化(特征工程),然后对这两个向量进行相似度计算,计算得到的数值越大,表示相似度越高,反之,相似度越低。最后通过业务数据得分和语义相似度匹配得分形成最终的权重分值,按照权重分值从高到低顺序进行自动推送。
一种核电厂质量缺陷报告与状态报告的精确匹配方法,包括以下步骤:
步骤1:设备编码计算规则
统计各种设备编码的规则,以及电厂与堆型之间的规则,将堆型和设备编码归类计算,利用设备编码的匹配规则匹配,能够减少计算误差与时间,同时提升数据匹配的精准度。
所述的设备编码根据电厂与堆型类型划分为:
秦一厂QS0(例:“PYLQ-LQS-01-TPC”:机组+系统代码(3位字母)+设备编号(2/4位数字)+设备类型(2/3位字母))、
秦三厂QS3(例:“1-21203-EP10008”:机组-系统代码(5位数字)-设备类型(1/2/3位字母)+设备编号(2/3位数字))、
其他电厂(秦二厂QS2、方家山QS1、昌江核电厂CJ1、福清5-6号机组FQH、福清1-4号机组FQM)(例:“1GSS207LP”:机组+系统代码(3位字母)+设备编号(3/4位数字)+设备类型(2/3位字母))。
利用相关正则表达式判断该数据的设备编码是否符合其电厂的设备编码规则。
1.设备编码不符合该电厂的设备编码规则
如不符合,则基于自然语言处理将质量缺陷报告的“QDR主题”字段与状态报告中的“CR主题”字段剔除相关设备编码与相关干扰符号后根据步骤3中的语义相似度方法进行自然语言语义相似度匹配,对相似度的打分进行归一化,得到匹配分值w主题得分。如果w主题得分大于等于给定的相关分值w限定分值,则计入集合S得分集合。
2.设备编码符合该电厂的设备编码规则
如果输入的设备编码符合该电厂的规则,获取质量缺陷报告的设备编码字段数据与已经预处理的数据库设备编码相关数据进行匹配比较:
具体设备编码匹配规则:
获取状态报告的涉及设备字段,与输入的设备编码进行完全匹配,相等则获得相关的设备编码分数。如果不相等,将两边设备编码去机组后再完全匹配,相等则获得相关的设备编码分数。如果不相等,将两边设备编码提取系统代码+设备编号后再完全匹配,相等则获得相关的设备编码分数。如果不相等,将两边设备编码提取系统代码后再完全匹配,相等则获得相关的设备编码分数。
如果以上规则都不成立,使用正则表达式提取主题等关系字段中的相关设备编码,与输入的设备编码进行完全匹配,相等则获得相关的设备编码分数。如果不相等,将两边设备编码去机组后再完全匹配,相等则获得相关的设备编码分数。如果不相等,将两边设备编码提取系统代码+设备编号后再完全匹配,相等则获得相关的设备编码分数。如果不相等,将两边设备编码提取系统代码后再完全匹配,相等则获得相关的设备编码分数。
步骤2:核电专用语义相似度计算规则
在采用堆型和设备编码类型匹配的基础上,引入核电专用分词语义相似度匹配方法,达到更高的精确度。基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,调用了Viterbi算法。根据分词结果调用余弦相似度算法获得相似度值;此处用输入的(质量缺陷报告)QDR主题和主题相关描述与状态报告的CR主题和相关字段进行语义相似度计算乘设定的权重得到语义相似度分值。
步骤3:具体各电厂堆型的设备编码与语义相似度分值计算
(1)质量缺陷报告属于秦一厂QS0
a)若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段全部一致(同一设备)时,设备编码分值为wa。然后考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配(剔除设备编码与干扰符号),对相似度的打分进行归一化。最高分值wb。匹配的总得分w设备+主题得分=wa+wb,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合。
b)若质量缺陷报告的“设备编码”字段与状态报告的“涉及设备”字段不一致,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码。如果质量缺陷报告的“设备编码”字段与提取的设备编码字段能匹配上,分值为wc。然后考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配(剔除设备编码与干扰符号),对相似度的打分进行归一化。最高分值wd。匹配的总得分w设备提取+主题得分=wc+wd,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合。
c)若质量缺陷报告的“设备编码”字段与状态报告的“涉及设备”字段不一致,且与从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码都匹配不上,用缺陷报告数据QDR中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配(剔除设备编码与干扰符号),对相似度的打分进行归一化,匹配的总得分we,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合。
(2)质量缺陷报告属于秦三厂QS3:
a)若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段全部一致(同一设备),分值为wf;若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段中除第一位机组号,其他全部相同,分值为wg;若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段中除去第一位机组号开始,截取到第二个″-″号之后的第一个数字之前的字段相同;分值为wh。考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配(剔除设备编码与干扰符号),对相似度的打分进行归一化。最高分值wi。匹配的总得分w系统得分=wf、wg、wh中的最高分值+wi,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合。
b)质量缺陷报告数据QDR的“设备编码”字段非a)的情况,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码。如果质量缺陷报告的“设备编码”字段与提取的设备编码字段根据a)中能匹配上,分值为wj。然后考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配(剔除设备编码与干扰符号),对相似度的打分进行归一化。最高分值wk。匹配的总得分w设备提取+主题得分=wj+wk,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合。
c)若质量缺陷报告的“设备编码”字段非a)的情况,且与从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码根据a)中都匹配不上,用缺陷报告数据QDR中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配(剔除设备编码与干扰符号),对相似度的打分进行归一化到1分,匹配的总得分wl,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合。
(3)质量缺陷报告属于其他电厂:
a)若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段全部一致(同一设备),分值为wm;若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段中除第一位机组号,其他全部相同;分值为wn;若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段中除第一位机组号和中间数字编码不同,其他的相同;分值为wo。考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配(剔除设备编码与干扰符号),对相似度的打分进行归一化。最高分值wp。匹配的总得分w设备+主题得分=wm、wn、wo中的最高分值wp,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合。
b)质量缺陷报告的“设备编码”字段非a)的情况,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码。如果质量缺陷报告的“设备编码”字段与提取的设备编码字段根据a)中的规则能匹配上,分值为wq。然后考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配(剔除设备编码与干扰符号),对相似度的打分进行归一化。最高分值wr。匹配的总得分w设备提取+主题得分=wq+wr,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合。
c)质量缺陷报告的“设备编码”字段非a)的情况,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码。如果质量缺陷报告的“设备编码”字段与提取的设备编码字段能匹配上缺陷报告数据QDR的“设备编码”字段与提取出的设备编码根据a)中规则都匹配不上,用缺陷报告数据QDR中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配(剔除设备编码与干扰符号),对相似度的打分进行归一化。匹配的总得分ws,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合。
注:以上w限定分值介于0.6至1之间的某一值。
步骤4:关键词处理,增强经验反馈数据的有效性
对关键词的数据进行加分处理,比如,质量缺陷报告所属电厂中S得分集合中的分值相同的状态报告其它字段。
(1)如果有得分相同的情况,则判断状态报告数据中的“CR级别”字段,为A则额外加a分,为B则加b分,为C则加c分,为D或者为空则不加分;
(2)如果有得分相同的情况,则判断状态报告数据中的“进一步行动建议”字段,不为空(不考虑“无”字),则加d分;
(3)权重值修正得分,如果有得分相同的情况,状态报告的“状态描述”与质量缺陷报告中“QDR主题”可语义匹配到如下关键字时,匹配到任一关键词并且相同,增加e,比如关键字包括以下内容:“巡检”、“高处作业”、“淹溺”、“焊接”、“射线”、“RT”、“探伤”、“腐蚀检查”、“脚手架”、“超声检查”、“射线检查”、“电焊”,“气割”,“砂轮打磨切割”、“研磨”,“烘烤”、“氩弧焊”、“气焊”、“在役检查”。如匹配上,则推荐度分数相同的情况下优先推送。
步骤5:智能推荐
根据以上匹配规则,将质量缺陷报告对应状态报告的每个S得分集合,按照分值从高到低的顺序进行推荐。根据业务规则和相似度计算方法,调整各分数之间的比重,统计数据之间的相似度、准确率、匹配率,得出最佳匹配结果,实现精准推送功能。
Claims (7)
1.一种核电厂质量缺陷报告与状态报告的精确匹配方法,其特征在于:包括以下步骤,
步骤1:设备编码计算规则;
步骤2:核电专用语义相似度计算规则;
步骤3:具体各电厂堆型的设备编码与语义相似度分值计算;
步骤4:关键词处理,增强经验反馈数据的有效性;
步骤5:智能推荐。
2.如权利要求1所述的一种核电厂质量缺陷报告与状态报告的精确匹配方法,其特征在于:所述的步骤1包括,
统计各种设备编码的规则,以及电厂与堆型之间的规则,将堆型和设备编码归类计算;
利用相关正则表达式判断该数据的设备编码是否符合其电厂的设备编码规则;
设备编码不符合该电厂的设备编码规则
如不符合,则基于自然语言处理将质量缺陷报告的“QDR主题”字段与状态报告中的“CR主题”字段剔除相关设备编码与相关干扰符号后根据语义相似度方法进行自然语言语义相似度匹配,对相似度的打分进行归一化,得到匹配分值w主题得分如果w主题得分大于等于给定的相关分值w限定分值,则计入集合S得分集合;
设备编码符合该电厂的设备编码规则
如果输入的设备编码符合该电厂的规则,获取质量缺陷报告的设备编码字段数据与已经预处理的数据库设备编码相关数据进行匹配比较:
具体设备编码匹配规则:
获取状态报告的涉及设备字段,与输入的设备编码进行完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码去机组后再完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码提取系统代码+设备编号后再完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码提取系统代码后再完全匹配,相等则获得相关的设备编码分数,
如果以上规则都不成立,使用正则表达式提取主题等关系字段中的相关设备编码,与输入的设备编码进行完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码去机组后再完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码提取系统代码+设备编号后再完全匹配,相等则获得相关的设备编码分数,如果不相等,将两边设备编码提取系统代码后再完全匹配,相等则获得相关的设备编码分数。
4.如权利要求1所述的一种核电厂质量缺陷报告与状态报告的精确匹配方法,其特征在于:所述的步骤3包括,
(1)质量缺陷报告属于秦一厂QS0
a)若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段全部一致(同一设备)时,设备编码分值为wa,考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,最高分值wb,匹配的总得分w设备+主题得分=wa+wb,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合;
b)若质量缺陷报告的“设备编码”字段与状态报告的“涉及设备”字段不一致,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码,如果质量缺陷报告的“设备编码”字段与提取的设备编码字段能匹配上,分值为wc,考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,最高分值wd,匹配的总得分w设备提取+主题得分=wc+wd,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合;
c)若质量缺陷报告的“设备编码”字段与状态报告的“涉及设备”字段不一致,且与从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码都匹配不上,用缺陷报告数据QDR中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,匹配的总得分we,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集得;
(2)质量缺陷报告属于秦三厂QS3:
a)若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段全部一致(同一设备),分值为wf;若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段中除第一位机组号,其他全部相同,分值为wg;若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段中除去第一位机组号开始,截取到第二个″-″号之后的第一个数字之前的字段相同;分值为wh,考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,最高分值wi,匹配的总得分w系统得分=wf、wg、wh中的最高分值+wi,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合;
b)质量缺陷报告数据QDR的“设备编码”字段非a)的情况,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码,如果质量缺陷报告的“设备编码”字段与提取的设备编码字段根据a)中能匹配上,分值为wj,然后考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,最高分值wk,匹配的总得分w设备提取+主题得分=wj+wk,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合;
c)若质量缺陷报告的“设备编码”字段非a)的情况,且与从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码根据a)中都匹配不上,用缺陷报告数据QDR中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化到1分,匹配的总得分wl,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合;
(3)质量缺陷报告属于其他电厂:
a)若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段全部一致(同一设各),分值为wm;若质量缺陷报告“设各编码”字段与状态报告的“涉及设备”字段中除第一位机组号,其他全部相同;分值为wn;若质量缺陷报告“设备编码”字段与状态报告的“涉及设备”字段中除第一位机组号和中间数字编码不同,其他的相同;分值为wo,考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,最高分值wp,匹配的总得分w设备+主题得分=wm、wn、wo中的最高分值wp,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合;
b)质量缺陷报告的“设备编码”字段非a)的情况,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码,如果质量缺陷报告的“设备编码”字段与提取的设备编码字段根据a)中的规则能匹配上,分值为wq,然后考虑质量缺陷报告中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配(剔除设备编码与干扰符号),对相似度的打分进行归一化,最高分值wr,匹配的总得分w设备提取+主题得分=wq+wr,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合;
c)质量缺陷报告的“设备编码”字段非a)的情况,则考虑从状态报告的“CR主题”和“状态描述”字段按照电厂设备编码准则提取设备编码,如果质量缺陷报告的“设备编码”字段与提取的设备编码字段能匹配上缺陷报告数据QDR的“设备编码”字段与提取出的设备编码根据a)中规则都匹配不上,用缺陷报告数据QDR中的“QDR主题”字段与状态报告中的“CR主题”字段进行自然语言语义相似度匹配,对相似度的打分进行归一化,匹配的总得分ws,只推送总得分在给定的相关分值w限定分值及以上分数的数据计入集合S得分集合。
5.如权利要求1所述的一种核电厂质量缺陷报告与状态报告的精确匹配方法,其特征在于:所述的步骤4包括,
对关键词的数据进行加分处理,比如,质量缺陷报告所属电厂中S得分集合中的分值相同的状态报告其它字段,
(1)如果有得分相同的情况,则判断状态报告数据中的“CR级别”字段,为A则额外加a分,为B则加b分,为C则加c分,为D或者为空则不加分;
(2)如果有得分相同的情况,则判断状态报告数据中的“进一步行动建议”字段,不为空,则加d分;
(3)权重值修正得分,如果有得分相同的情况,状态报告的“状态描述”与质量缺陷报告中“QDR主题”可语义匹配到如下关键字时,匹配到任一关键词并且相同,增加e,比如关键字包括以下内容:“巡检”、“高处作业”、“淹溺”、“焊接”、“射线”、“RT”、“探伤”、“腐蚀检查”、“脚手架”、“超声检查”、“射线检查”、“电焊”,“气割”,“砂轮打磨切割”、“研磨”,“烘烤”、“氩弧焊”、“气焊”、“在役检查”,如匹配上,则推荐度分数相同的情况下优先推送。
6.如权利要求1所述的一种核电厂质量缺陷报告与状态报告的精确匹配方法,其特征在于:所述的步骤5包括,
根据以上匹配规则,将质量缺陷报告对应状态报告的每个S得分集合,按照分值从高到低的顺序进行推荐,根据业务规则和相似度计算方法,调整各分数之间的比重。
7.如权利要求1所述的一种核电厂质量缺陷报告与状态报告的精确匹配方法,其特征在于:所述的步骤5包括,
统计数据之间的相似度、准确率、匹配率,得出最佳匹配结果,实现精准推送功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011240359.8A CN114462399A (zh) | 2020-11-09 | 2020-11-09 | 一种核电厂质量缺陷报告与状态报告的精确匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011240359.8A CN114462399A (zh) | 2020-11-09 | 2020-11-09 | 一种核电厂质量缺陷报告与状态报告的精确匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114462399A true CN114462399A (zh) | 2022-05-10 |
Family
ID=81403860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011240359.8A Pending CN114462399A (zh) | 2020-11-09 | 2020-11-09 | 一种核电厂质量缺陷报告与状态报告的精确匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462399A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080687A (zh) * | 2022-06-10 | 2022-09-20 | 中核核电运行管理有限公司 | 一种核电厂工单任务与质量缺陷报告信息精准匹配方法 |
CN115098625A (zh) * | 2022-06-10 | 2022-09-23 | 中核核电运行管理有限公司 | 一种核电厂ncr与完工报告数据精准匹配系统和方法 |
CN115098624A (zh) * | 2022-06-10 | 2022-09-23 | 中核核电运行管理有限公司 | 一种ncr与外部事件信息精准匹配方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008148322A (ja) * | 2006-12-08 | 2008-06-26 | Fujitsu Ltd | 文字符号化処理方法及びシステム |
CN109165382A (zh) * | 2018-08-03 | 2019-01-08 | 南京工业大学 | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 |
CN110991163A (zh) * | 2019-11-29 | 2020-04-10 | 达而观信息科技(上海)有限公司 | 一种文档比对分析方法、装置、电子设备及存储介质 |
CN111339272A (zh) * | 2020-02-21 | 2020-06-26 | 南方科技大学 | 代码缺陷报告检索方法及装置 |
CN111507071A (zh) * | 2020-04-17 | 2020-08-07 | 上海电气风电集团股份有限公司 | 风电场的编码方法、编码装置及计算机可读存储介质 |
-
2020
- 2020-11-09 CN CN202011240359.8A patent/CN114462399A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008148322A (ja) * | 2006-12-08 | 2008-06-26 | Fujitsu Ltd | 文字符号化処理方法及びシステム |
CN109165382A (zh) * | 2018-08-03 | 2019-01-08 | 南京工业大学 | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 |
CN110991163A (zh) * | 2019-11-29 | 2020-04-10 | 达而观信息科技(上海)有限公司 | 一种文档比对分析方法、装置、电子设备及存储介质 |
CN111339272A (zh) * | 2020-02-21 | 2020-06-26 | 南方科技大学 | 代码缺陷报告检索方法及装置 |
CN111507071A (zh) * | 2020-04-17 | 2020-08-07 | 上海电气风电集团股份有限公司 | 风电场的编码方法、编码装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
王都: "短文本中特殊信息的识别及其在数据挖掘引擎中的应用", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, 15 February 2017 (2017-02-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080687A (zh) * | 2022-06-10 | 2022-09-20 | 中核核电运行管理有限公司 | 一种核电厂工单任务与质量缺陷报告信息精准匹配方法 |
CN115098625A (zh) * | 2022-06-10 | 2022-09-23 | 中核核电运行管理有限公司 | 一种核电厂ncr与完工报告数据精准匹配系统和方法 |
CN115098624A (zh) * | 2022-06-10 | 2022-09-23 | 中核核电运行管理有限公司 | 一种ncr与外部事件信息精准匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114462399A (zh) | 一种核电厂质量缺陷报告与状态报告的精确匹配方法 | |
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
CN110633960A (zh) | 一种基于大数据的人力资源智能匹配、推荐的方法 | |
CN112579707A (zh) | 一种日志数据的知识图谱构建方法 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN112231451A (zh) | 指代词恢复方法、装置、对话机器人及存储介质 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN110704638A (zh) | 一种基于聚类算法的电力文本词典构造方法 | |
CN110265019A (zh) | 一种语音识别的方法及语音机器人系统 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN114462736A (zh) | 一种核电厂辐射工作许可证申请的经验反馈智能推荐方法 | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN111881258A (zh) | 一种自学习事件抽取方法及其应用 | |
CN110738989A (zh) | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 | |
CN115238705A (zh) | 语义解析结果重排序方法及系统 | |
CN111488448B (zh) | 一种机器阅读标注数据的生成方法和装置 | |
CN116955524A (zh) | 一种核电厂质量缺陷报告与外部事件信息的精准匹配方法 | |
CN114238595A (zh) | 一种基于知识图谱的冶金知识问答方法及系统 | |
CN111814457A (zh) | 一种电网工程合同文本生成方法 | |
CN108897888B (zh) | 语音客服培训场景下的人机对练方法 | |
CN117743556B (zh) | 一种基于知识库的多轮问答意图识别方法及装置 | |
JP2000148770A (ja) | 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体 | |
CN115146630B (zh) | 基于专业领域知识的分词方法、装置、设备及存储介质 | |
Nyandag et al. | Keyword extraction based on statistical information for Cyrillic Mongolian script |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |