CN110458397A - 一种核电材料服役性能信息提取方法 - Google Patents
一种核电材料服役性能信息提取方法 Download PDFInfo
- Publication number
- CN110458397A CN110458397A CN201910604461.2A CN201910604461A CN110458397A CN 110458397 A CN110458397 A CN 110458397A CN 201910604461 A CN201910604461 A CN 201910604461A CN 110458397 A CN110458397 A CN 110458397A
- Authority
- CN
- China
- Prior art keywords
- information
- military service
- material military
- service performance
- nuclear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000011824 nuclear material Substances 0.000 title claims abstract description 26
- 239000000463 material Substances 0.000 claims abstract description 33
- 238000010801 machine learning Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000004140 cleaning Methods 0.000 claims abstract description 15
- 239000003550 marker Substances 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种核电材料服役性能信息提取方法,包括以下步骤:步骤1:利用基于机器学习的信息清洗系统和术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,得到清洗后的信息;步骤2:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,获得若干信息样本,再按照对应的排布规则对信息样本进行排序,获得样本库;步骤3:利用样本库进行机器学习而得到信息提取系统,利用信息提取系统处理清洗后的信息,得到所要提取的信息。本发明利用机器学习后的系统实现对核电材料服役性能信息的提取,可以提高信息提取的效率和准确性,适用于核电厂中对各类与材料服役性能相关的信息的处理。
Description
技术领域
本发明属于核电厂信息处理领域,具体涉及一种核电材料服役性能信息提取方法。
背景技术
核电厂的材料服役性能是关于核电厂运行的安全性、可靠性和经济性的研究内容,是核电领域重要的研究方向。进行相关研究所需的相关的数据,种类繁多,数量巨大。同时由于国内核电厂的建设、运行经历了从无到有的摸索过程,设备、材料的国产化程度也从低到高,所以整个过程中各种数据的记录方式并不统一,同时数据的产生、传递过程的巨大差别也造成了数据种类多,整体结构化程度低。
针对现状,需要一种可以适用于大量、低结构化程度数据的核电厂服役性能信息提取方法。核电材料服役性能相关的数据描述的专业性、对于同类问题描述的差异性较大,还可能存在不同的缩写、简写、不规范表达等情况,现有的通用文本挖掘和处理技术无法直接应用,且面对核电厂与材料服役性能相关数据中普遍的短文本等问题也存在根本上的技术障碍。故需要一套适用于核电材料服役性能信息特征的数据清洗、模型训练方法和信息提取方法。
发明内容
本发明的目的是提供一种适用于核电厂信息处理,能够提高准确性和效率的核电材料服役性能信息提取方法。
为达到上述目的,本发明采用的技术方案是:
一种核电材料服役性能信息提取方法,包括以下步骤:
步骤1:数据清洗:利用基于机器学习的信息清洗系统和为提取材料服役性能相关信息所专门建立的术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,从而得到清洗后的信息;
步骤2:建模:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,从而获得满足数量要求的若干项信息样本,再按照对应的排布规则对各项所述信息样本进行排序,从而获得样本库;
步骤3:信息提取:利用所述样本库进行机器学习而得到用于提取信息的信息提取系统,利用所述信息提取系统处理清洗后的信息,从而得到所要提取的信息
所述步骤1中,所述信息清洗系统进行机器学习的方法为:建立核电材料服役性能专用术语集以及惯用表达规则表,利用所述核电材料服役性能专用术语集和所述惯用表达规则表进行机器学习而得到所述信息清洗系统。
所述步骤2包括以下子步骤:
子步骤a:目标信息筛选:按照与材料服役性能的相关性强弱,从部分由核电厂获取的各类与材料服役性能相关的信息中筛选出若干类待处理的信息;
子步骤b:确定分类方法:针对各类所述待处理的信息,确定其对应的分类原则和/或阈值;
子步骤c:人工标记:对各类所述待处理的信息,依据其对应的分类原则和/或阈值结合指定的标记原则进行人工分类标记和信息提取,从而获得所述信息样本;
子步骤d:样本排布:依据选定的排布规则将各项所述信息样本进行排序,从而获得所述样本库。
所述子步骤a中,筛选出的所述待处理的信息包括核电厂设备材料/机理分析数据、核电厂运行经验反馈信息、设备专项评估结论和审查结论。
所述子步骤b中,依据所述待处理信息的价值密度、获取形式、与材料服役性能表征之间的关系,确定其对应的分类原则和/或阈值。
所述子步骤c中,随着分类标记的进行而优化所述标记原则。
所述子步骤d中,以提高机器学习的准确性为目标而选定所述排布规则。
所述步骤3中,采用通过所述样本库优化后的基于预训练的双向编码器表征方案,来进行机器学习。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:本发明利用机器学习后的系统实现对核电材料服役性能信息的提取,可以提高信息提取的效率和准确性,适用于核电厂中对各类材料服役性能相关信息进行处理。
具体实施方式
下面结合实施例对本发明作进一步描述。
实施例一:一种核电材料服役性能信息提取方法,包括以下步骤:
步骤1:
数据清洗:利用基于机器学习的信息清洗系统和为提取材料服役性能相关信息所专门建立的术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,从而得到清洗后的信息。
在该步骤中,信息清洗系统进行机器学习的方法为:建立核电材料服役性能专用术语集以及惯用表达规则表,利用核电材料服役性能专用术语集和惯用表达规则表进行机器学习而得到信息清洗系统。进而利用信息清洗系统对由核电厂获取的各类信息,即原始数据进行处理,提取主题词和表达,将简写、缩写等标准化,并判断可能的笔误、遗漏等,从而提高信息的规范化程度和可用度。
步骤2:
建模:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,从而获得满足数量要求的若干项信息样本,再按照对应的排布规则对各项信息样本进行排序,从而获得样本库。
该步骤具体包括以下子步骤:
子步骤a:
目标信息筛选:按照与材料服役性能的相关性强弱,从部分由核电厂获取的各类与材料服役性能相关的信息中筛选出若干类待处理的信息。筛选出的待处理的信息包括核电厂设备材料/机理分析数据、核电厂运行经验反馈信息、设备专项评估结论和审查结论等。
子步骤b:
确定分类方法:针对各类待处理的信息,依据待处理信息的价值密度、获取形式、与材料服役性能表征之间的关系,确定其对应的分类原则和/或阈值,其中阈值针对存在可量化数据的待处理的信息。例如,对于核电厂运行经验反馈等价值密度较低数据,其分类原则应尽可能普适,提高其可操作性,一般只注重其定性分类;对于机理分析数据、专项评估数据等高价值密度数据,应尽量提取其专业特征并充分利用可定量的特征以提高其与材料服役性能表征之间的相关性。
子步骤c:
人工标记:对各类待处理的信息,依据其对应的分类原则和/或阈值结合指定的标记原则进行人工分类标记和信息提取,从而获得信息样本。在人工标记过程中,首先,需要确定所需的人工标记资质,例如工作年限、专业、标记一致性等,并且需随着分类标记的进行而优化标记原则,通过有效的可追溯记录以及有反馈的优化体系保证其标记的持续有效性。在标记初期,可通过先验知识制定初始的标记原则,并通过渐进明细的方式不断优化标记原则来逼近其不同特征真实区别。对于标记原则的优化应反映至整个待标记的数据样本上,不断提升整个标记数据样本的价值。
子步骤d:
样本排布:以提高机器学习的准确性为目标而选定排布规则,依据选定的排布规则将各项信息样本进行排序,从而获得样本库。该子步骤中,对于子步骤c中人工标记后的信息样本,需要针对机器学习特点以及数据特点,确定其排布规则,以便提高利用其进行机器学习的准确性。例如通过不同的表达精度、覆盖度等进行合理排序,以充分利用标记后的数据价值。
步骤3:
信息提取:利用样本库进行机器学习,针对核电材料服役性能相关数据的特点,采用不同于传统技术的基于预训练的双向编码器表征,并使用步骤2中的样本库对其进行针对性优化,使之适用于核电厂的与材料服役性能相关信息的机器学习过程,而得到专门用于提取与材料服役性能相关信息的信息提取系统,利用信息提取系统处理清洗后的信息,从而得到所要提取的信息。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种核电材料服役性能信息提取方法,其特征在于:所述核电材料服役性能信息提取方法包括以下步骤:
步骤1:数据清洗:利用基于机器学习的信息清洗系统和为提取材料服役性能相关信息所专门建立的术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,从而得到清洗后的信息;
步骤2:建模:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,从而获得满足数量要求的若干项信息样本,再按照对应的排布规则对各项所述信息样本进行排序,从而获得样本库;
步骤3:信息提取:利用所述样本库进行机器学习而得到用于提取信息的信息提取系统,利用所述信息提取系统处理清洗后的信息,从而得到所要提取的信息。
2.根据权利要求1所述的一种核电材料服役性能信息提取方法,其特征在于:所述步骤1中,所述信息清洗系统进行机器学习的方法为:建立核电材料服役性能专用术语集以及惯用表达规则表,利用所述核电材料服役性能专用术语集和所述惯用表达规则表进行机器学习而得到所述信息清洗系统。
3.根据权利要求1所述的一种核电材料服役性能信息提取方法,其特征在于:所述步骤2包括以下子步骤:
子步骤a:目标信息筛选:按照与材料服役性能的相关性强弱,从部分由核电厂获取的各类与材料服役性能相关的信息中筛选出若干类待处理的信息;
子步骤b:确定分类方法:针对各类所述待处理的信息,确定其对应的分类原则和/或阈值;
子步骤c:人工标记:对各类所述待处理的信息,依据其对应的分类原则和/或阈值结合指定的标记原则进行人工分类标记和信息提取,从而获得所述信息样本;
子步骤d:样本排布:依据选定的排布规则将各项所述信息样本进行排序,从而获得所述样本库。
4.根据权利要求3所述的一种核电材料服役性能信息提取方法,其特征在于:所述子步骤a中,筛选出的所述待处理的信息包括核电厂设备材料/机理分析数据、核电厂运行经验反馈信息、设备专项评估结论和审查结论。
5.根据权利要求3所述的一种核电材料服役性能信息提取方法,其特征在于:所述子步骤b中,依据所述待处理信息的价值密度、获取形式、与材料服役性能表征之间的关系,确定其对应的分类原则和/或阈值。
6.根据权利要求3所述的一种核电材料服役性能信息提取方法,其特征在于:所述子步骤c中,随着分类标记的进行而优化所述标记原则。
7.根据权利要求3所述的一种核电材料服役性能信息提取方法,其特征在于:所述子步骤d中,以提高机器学习的准确性为目标而选定所述排布规则。
8.根据权利要求1所述的一种核电材料服役性能信息提取方法,其特征在于:所述步骤3中,采用通过所述样本库优化后的基于预训练的双向编码器表征方案,来进行机器学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910604461.2A CN110458397A (zh) | 2019-07-05 | 2019-07-05 | 一种核电材料服役性能信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910604461.2A CN110458397A (zh) | 2019-07-05 | 2019-07-05 | 一种核电材料服役性能信息提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110458397A true CN110458397A (zh) | 2019-11-15 |
Family
ID=68482214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910604461.2A Pending CN110458397A (zh) | 2019-07-05 | 2019-07-05 | 一种核电材料服役性能信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458397A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107944454A (zh) * | 2017-11-08 | 2018-04-20 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种针对变电站的基于机器学习的语义标注方法 |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
CN109885607A (zh) * | 2019-01-11 | 2019-06-14 | 中广核工程有限公司 | 一种工业海量非结构化数据处理方法及系统 |
-
2019
- 2019-07-05 CN CN201910604461.2A patent/CN110458397A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107944454A (zh) * | 2017-11-08 | 2018-04-20 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种针对变电站的基于机器学习的语义标注方法 |
CN109885607A (zh) * | 2019-01-11 | 2019-06-14 | 中广核工程有限公司 | 一种工业海量非结构化数据处理方法及系统 |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
Non-Patent Citations (2)
Title |
---|
袁长江,戴永: "核电厂调试试验信息化与结构化方法研究", 《中国核电》 * |
高扬: "《智能摘要与深度学习》", 30 April 2019, 北京:北京理工大学出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
LaPorte et al. | What is the Leninist legacy? Assessing twenty years of scholarship | |
CN109492549A (zh) | 一种训练样本集处理、模型训练方法及系统 | |
CN110222715B (zh) | 一种基于动态行为链和动态特征的样本同源分析方法 | |
CN106503074B (zh) | 一种题目细化分类方法 | |
Yang et al. | A CNN-based active learning framework to identify mycobacteria in digitized Ziehl-Neelsen stained human tissues | |
CN107103005A (zh) | 问答语料的收集方法及装置 | |
CN109634994A (zh) | 一种简历与职位的匹配推送方法及计算机设备和存储介质 | |
CN110472256B (zh) | 一种基于篇章的机器翻译引擎测评优选方法及系统 | |
CN108804558A (zh) | 一种基于语义模型的缺陷报告自动分类方法 | |
CN109389109A (zh) | 一种ocr全文本识别正确率的自动化测试方法及设备 | |
CN112257740B (zh) | 基于知识图谱的图像隐患识别方法及其系统 | |
Sriliasta et al. | Overview of life cycle assessment of current emerging technologies | |
CN110458397A (zh) | 一种核电材料服役性能信息提取方法 | |
Tafelmaier et al. | Methods for the analysis of stone artefacts: An overview | |
CN108615124B (zh) | 基于词频分析的企业评价方法及系统 | |
CN106528412B (zh) | 一种安卓应用的相关手势投放测试框架 | |
Sekiya et al. | Investigation on university websites for semi-automated syllabus crawling | |
Paris et al. | Novel uses of task models: two case studies | |
Humble et al. | Learning Analytics For Programming Education: Obstacles And Opportunities | |
Jang et al. | Using machine learning to understand students’ learning patterns in simulations | |
Vooijs et al. | CytosafePLUS A Workstation for Screening, Supervision, Reviewing, Quality Assurance and Education in Cytopathology | |
Ani | Empirical analysis on factors affecting the Employee Retention practices in the private Organizations: A survey in Bangladesh | |
CN113344114A (zh) | 一种人工智能模型训练系统及训练方法 | |
CN118470325A (zh) | 一种钢板腐蚀像素级定位以及腐蚀程度识别方法及系统 | |
CN117133010A (zh) | 一种面向焊接坡口示意图的坡口尺寸信息自动解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191115 |
|
RJ01 | Rejection of invention patent application after publication |