CN117877039A - 一种炼油化工设备定期检验报告的数据识别与数据治理方法 - Google Patents

一种炼油化工设备定期检验报告的数据识别与数据治理方法 Download PDF

Info

Publication number
CN117877039A
CN117877039A CN202311316666.3A CN202311316666A CN117877039A CN 117877039 A CN117877039 A CN 117877039A CN 202311316666 A CN202311316666 A CN 202311316666A CN 117877039 A CN117877039 A CN 117877039A
Authority
CN
China
Prior art keywords
inspection
information
data
equipment
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311316666.3A
Other languages
English (en)
Inventor
陈章淼
于凤昌
苗普
张宏飞
于慧文
朱琬莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Petroleum and Chemical Corp
Sinopec Engineering Group Co Ltd
Original Assignee
China Petroleum and Chemical Corp
Sinopec Engineering Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Petroleum and Chemical Corp, Sinopec Engineering Group Co Ltd filed Critical China Petroleum and Chemical Corp
Priority to CN202311316666.3A priority Critical patent/CN117877039A/zh
Publication of CN117877039A publication Critical patent/CN117877039A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Testing Resistance To Weather, Investigating Materials By Mechanical Methods (AREA)

Abstract

本发明提供一种炼油化工设备定期检验报告的数据识别与数据治理方法。通过报告识别与管理对报告信息执行识别与整理归档,基于报告识别结果执行数据治理过程,将检验数据与腐蚀风险评估应用模型结合,转换为可以量化的设备评价信息,基于评价信息执行设备的管理,设备管理人员利用腐蚀风险评估数据对装置设备进行针对性的检测与维修,方便设备管理人员分析判断设备运行状态及时发现故障隐患,从而降低设备检修成本,提高腐蚀风险评估数据的附加检验价值。

Description

一种炼油化工设备定期检验报告的数据识别与数据治理方法
技术领域
本发明属于炼油化工设备腐蚀管理领域,尤其涉及到一种炼油化工设备定期检验报告的数据识别与数据治理方法。
背景技术
炼油化工企业每年都会有大量的设备检验报告。目前主要采取人工录入的方式进行识别录入,采用人工分析的方式进行数据检索查询。人工方式既费时、费力,又不利于对数据的挖掘利用。在现有技术条件下,设备检验报告的结论将是一次性的,无法根据历史检验数据对设备腐蚀进行评估、预测等分析,客观上造成较大的浪费。
针对炼油化工设备检验报告开发检验报告的数据识别与数据治理方法,利用了图像识别处理技术,主要包括二值化、噪声去除、倾斜较正、版面分析、字符切割、字符识别等技术,实现检验报告数据识别和数据治理功能。通过对设备检验报告进行结构化识别利用,充分挖掘数据的附加价值,达到降低企业管理成本,提升管理效率作用。
发明内容
本发明的目的在于提供一种炼油化工设备定期检验报告的数据识别与数据治理方法。通过报告识别与管理对报告信息执行识别与归档,基于报告识别结果执行数据治理过程,将检验数据与腐蚀风险评估结合,转换为可以量化的设备评价信息,基于评价信息执行设备的管理,设备管理人员利用腐蚀风险评估数据对装置设备进行针对性的检测与维修,方便设备管理人员分析判断设备运行状态及时发现故障隐患,从而降低设备检修成本,提高腐蚀风险评估数据的附加检验价值。
本发明采用的技术方案为:一种炼油化工设备定期检验报告的数据识别与数据治理方法,包括如下步骤:
S1:通过设置检验单位类型字典、识别类型字典、模型类型字典识别检验报告特征,作为区分检验报告的初级索引信息,根据检验报告特征进行报告的区分与识别;
S2:选定关联的装置或设备配置模板信息,模板信息包括装置名称或设备名称,及ERP编码,将各检验报告特征与对应的模板信息关联绑定后进行存储;
S3:基于检验报告的分组结果对历史检验报告进行分类并上传系统,便于通过索引查找到设备的历史检验报告,支持系统查看功能;
S4:基于字符自动识别模块提取分类后的检验报告的字符信息,将分类后的字符信息保存为文档,文档按照字符信息中的装置编码+设备管道位号+年份的文本格式命名;
S5:将识别得到的字符信息输入腐蚀风险评估模型输出腐蚀风险评估数据。
所述S1步骤为:
S11:基于检验单位字典实现检验报告与检验单位的关联;
S12:基于识别类型字典对提交的检验报告类型进行区分;
S13:基于模型类型字典对设备进行区分,实现快速调换的识别类型。
所述的S2包括:
S21:对选定的相关联的装置、设备执行识别操作,建立识别模型,识别模型具有的模板信息包括装置名称或设备名称,及ERP编码;
S22:提取各检验报告特征,将各检验报告特征与对应的识别模型关联,生成Excel识别结果文件进行存储。
所述的S3包括:按照初级索引信息:检验单位、设备类型,和模板信息:和模板信息:装置名称、设备名称、ERP编码规则对大量历史检验报告进行分组,实现检验报告与设备关联。
所述的S5中的执行步骤为:
S51:基于根据索引读取每个文档的各参数的数据信息和属性信息;
S52:根据腐蚀风险评估模型所需数据信息及其默认属性信息,使字符信息的属性信息对映腐蚀风险评估模型所需的属性信息,通过映射将腐蚀风险评估模型所需的数据信息更新为字符信息中对应的数据信息,实现动态腐蚀评估的数据更新;
S53:新增检验报告按步骤S1~S52处理得到的数据信息及属性信息填充到腐蚀风险评估模型中,并按检验报告的检验时间排序,得到各装置的不同时间下的不同部位的腐蚀状态信息;
S54:基于腐蚀状态信息提取得到各装置的不同时间下的不同部位的最小厚度值,最大硬度,存在裂纹标志,裂纹扩展标志;
S55:基于各装置的不同时间下的不同部位最小厚度值计算得到腐蚀速率。
腐蚀速率=(上次检验最小厚度-当前检验最小厚度)/(当前时间-上次检验时间),若无历史数据,则用原始壁厚作为最早检验最小厚度,投用日期作为最早检验时间。本发明所述的一种炼油化工设备定期检验报告的数据识别与数据治理方法,所述检验报告的字典的属性信息为:字典的属性信息是对采用装置编码+设备管道位号+年份的形式命名的文档通过装置名称、位号、ERP编码标签进行索引管理。
数据信息(Value)为属性信息的数值,属性信息包括:参数名称、设备名称、和装置名称或设备名称,提取的属性信息和数据信息采用Key-Value结构进行存储,每个Value最多采用两个Key定义,分别为检验指标1、检验指标2,检验指标2(JYZB2)直接对应Value值,检验指标1(JYZB1)用于实现对检验指标2的修饰。检验指标1对应设备部位和设备名称,检验指标2对应参数名称。
检验指标1为设备部位和设备名称;检验指标2为检验指标1的一个二级扩展,通过检验指标2可以实现2级指标的获取比如测厚作为一个指标,当需要将第一次测厚、第二次测厚、第三次测厚等等数据进行识别时可以采用检验指标2。为检验指标2指定获取检验指标1的子指标。
本发明的目的在于提供一种炼油化工设备定期检验报告的数据识别与数据治理方法。通过报告识别与管理对报告信息执行识别与整理归档,基于报告识别结果执行数据治理过程,将检验数据与腐蚀风险评估应用结合,转换为可以量化的设备评价信息,基于评价信息执行设备的管理,设备管理人员利用腐蚀风险评估数据对装置设备进行针对性的检测与维修,方便设备管理人员分析判断设备运行状态及时发现故障隐患,从而降低设备检修成本,提高腐蚀风险评估数据的附加检验价值。
附图说明
图1是检验报告的报告识别与管理操作流程图;
图2是PDF文本中表格内的资料;
图3是OCR图片检验报告影像内的文字;
图4是转换得到的计算机文字;
图5-图8是检验报告内容;
图9是系统识别内容;
图10-图11是检验报告的数据识别和数据治理工艺流程图;
图12是智能学习模型。
具体实施方式
下面结合具体实施例对本发明作进一步详细描述说明,但不能以下述实施例来限定本发明的保护范围。
实施例1:
如图1所示:本发明提供一种炼油化工设备定期检验报告的数据识别与数据治理方法,本发明采用的技术方案为一种炼油化工设备定期检验报告的数据识别与数据治理方法,本方案的具体执行步骤为:
S1:通过设置检验单位类型字典、识别类型字典、模型类型字典识别检验报告特征,作为区分检验报告的初级索引信息,根据检验报告特征进行报告的区分与识别;
S2:选定关联的装置或设备配置模板信息,模板信息包括装置名称或设备名称,及ERP编码,将各检验报告特征与对应的模板信息关联绑定后进行存储;
S3:基于检验报告的分组结果对历史检验报告进行分类并上传系统,便于通过索引查找到设备的历史检验报告,支持系统查看功能;
S4:基于字符自动识别模块提取分类后的检验报告的字符信息,将分类后的字符信息保存为文档,文档按照字符信息中的装置编码+设备管道位号+年份的文本格式命名;
S5:将识别得到的字符信息输入腐蚀风险评估模型输出腐蚀风险评估数据。
其中,步骤1通过ZL202110164862.8的方法对检验报告扫描图像表格进行图像处理提取检验报告的特征,对获得的各检验报告的特征采用检验单位类型字典、识别类型字典、模型类型字典进一步提取索引信息,检验单位字典主要是维护新增检验单位,用途是为后续实现检验报告与相应检验单位的绑定;识别字典类型主要用途是对提交的检验报告类型加以区分,是PDF文本识别还是图片OCR识别;模型类型字典是区分各种设备(换热器、反应器、管道),便于快速调换识别类型。
同时这几种字典类型起到了数据库索引的作用,索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。如果想按特定检验单位或者设备类型查找相关信息,与在表中搜索所有的行相比,索引有助于更快地获取信息。
对于S1中:S11:基于检验单位字典实现检验报告与检验单位的关联;
S12:基于识别类型字典对提交的检验报告类型进行区分;
S13:基于模型类型字典对设备进行区分,实现快速调换的识别类型。
对于S2包括:对选定的相关联的装置、设备执行识别操作,建立识别模型,识别模型具有的模板信息包括装置名称或设备名称,及ERP编码。对选定相关联的装置或设备执行采用人工方式并基于工艺图纸的知识选定实现。
提取各检验报告特征,将各检验报告特征与对应的识别模型关联,生成Excel识别结果文件,该文件存储在web服务器的指定文件夹下。通过数据库连接配置和config文件配置,读取Excel中的结果并存储进数据库对应表中。
其中步骤S3包括:按照初级索引信息:检验单位、设备类型,和模板信息:装置名称、设备名称、ERP编码规则对大量历史检验报告进行分组,实现检验报告与设备关联。
本实施例的步骤S4提取字符信息使影像资料的储存量减少,识别出的文字可再使用及分析,检验报告的处理过程包括影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正。
其中文档及影像做转换的数据格式主要涉及Word、PDF和图片格式。PDF文本识别是将PDF文件中的文本内容提取出来,以便编辑和搜索。此类PDF文档属于可编辑文本,是数字化的文本,可以直接编辑和搜索。图片OCR文档属于扫描文本,是通过扫描纸质文档创建的图像,需通过OCR技术将其转换为可编辑文本。本技术采用图片切割+OCR识别法,对模型中左上角到右下角之间形成的矩形框进行切割,形成新的图片,然后对切割形成的新图片上的内容进行OCR识别,识别出来的结果即为最终匹配结果。
基于上述步骤S4得到识别获取结果后,基于识别结果进行识别结果治理,通过将识别的数据抽取、清洗转换之后加载到数据仓库,将分散、零乱、标准不统一的数据整合到一起,为进一步通过BI(商业智能)进行数据应用提供支撑。
检验报告识别完成后作为相对粗糙的信息半成品不宜直接应用,而应该通过数据治理工序进行打磨,步骤S5包括:
J1:根据索引读取每个文档的字符信息,提取数据信息(Value)和属性信息:参数名称、设备名称、和装置名称或设备名称,具体是根据定义的对象和属性信息,在检验报告进行图像处理提取特征的过程中采用匹配规则进行实际数据的抽取,其中包括按照不同的数据类型进行识别,如字符型、数值型、日期型、组合型。所述字符型包括多属性的组合解析,数值型包括纯数值以及与量纲单位的组合,日期型包括中英文日期格式,以及不同分隔符,组合型包括数值与符号或量纲的多段组合。
识别属性信息时,根据关键参数的名称以及别名规则来进行内容的识别,并对检验报告中关键参数名称的不规范表达进行更正。其中,更正的方法如下:提取每个关键参数核心属性的特征,形成特定的特征码,用特征码进行统一规范描述。提取数据信息(Value)和属性信息时单元格内的属性信息与数据信息的切分,是先按照ZL202110164862.8中方法定位表格线框的边界,再从表格线框的边界,根据线框的边界对单元格内的属性信息与数据信息进行分割。
提取的属性信息和数据信息采用Key-Value结构进行存储,每个Value最多采用两个Key定义,分别为检验指标1、检验指标2,如图5检验指标2(JYZB2)直接对应Value值,检验指标1(JYZB1)用于实现对检验指标2的修饰。检验指标1对应设备部位和设备名称,检验指标2对应参数名称。
参数值为装置或设备测量点的厚度。
图5以容器为例,“衬里状态”、“最小厚度_mm”、“最大硬度_HB”通常为部位信息,应在【检验指标1】中标明设备部位。
其余指标通常为设备信息,默认【检验指标1】为空时,指标信息为设备信息。
检验指标1为设备部位,在系统内置了部位节点名称对照功能页。如果检验指标1识别的结果是筒体,根据图6的对照规则,自动治理后,数据治理页面“部位名称”就会自动填上/设备部位/容器/筒体的Key值对映腐蚀风险评估的Key,通过映射将腐蚀风险评估中的Value更新为文本信息对应的Value,实现动态腐蚀风险评估的数据更新。检验报告与腐蚀风险评估实现联动,用户不在需要手动更新各类参数,提升了腐蚀风险评估的准确性;
J2:完成识别的数据进行在进行规则对应的治理后,仍可手动修改值,确保数据准确。
J3:最新检验报告/历史检验报告按步骤S1~S52处理后的得到的数据信息及属性信息按生成的索引追加进填充到腐蚀风险评估模型中完成关联索引。
如图7所示,更新腐蚀风险评估模型得到各装置或设备不同部位的腐蚀状态主要包括:最小厚度值,最大硬度,存在裂纹标志,裂纹扩展标志和腐蚀速率。其中,腐蚀速率=(上次检验最小厚度-当前检验最小厚度)/(当前时间-上次检验时间),若无历史数据,则用原始壁厚作为最早检验最小厚度,投用日期作为最早检验时间。
实施例2:
如图12所示:步骤S4字符自动识别模块可以选择深度学习OCR文档检测技术,具体包含两部分:深度学习文本检测与深度学习文本识别,具体实施方案为:
Step1:按照企业、装置、设备类型、设备名称、ERP编码规则进行分组的文档信息执行文本检测;
Step2:基于文本报告执行基于Faster RCNN执行特征提取和分类;Step3:对检测到的文本区域进行合并、去重和排序步骤的处理得到关于文本区域特征信息;
Step4:基于Step3中得到的文本特征信息执行基于OCR的字符检测;Step5:基于字符检测信息的预测信息执行文字符号的识别与预警;
实施例3:
作为字符自动识别模块中的基于深度学习的文本识别与检测的一组优选实施例,具体实施方案如下:
Step1:调用ocr识别方法,对文档进行全文扫描将文本信息(含:中文、英文、数字、标点符号等)全部提取转换为String类型数据。
Step2:对获取的String类型数据进行处理进行断句。软件经比对训练模型发现与模型规定相同的关键字文档如:“温度:XX℃”进行断句。将杂乱的文本转换若干行文本。
Step3:程序将进行循环,每次获取一行文本并输入模型进行判断,模型将判断此行文本是否包含需要提取的信息,如:装置、位号、温度、压力、设备等级、检验日期等。如包含需要的信息则将信息进行提取,不含则抛弃。
Step4:程序执行完毕获取的数据将按照Key:Value的形式排序后输出。人工通过比对Key:Value的数据内容是否正确,并将修正的数据输入模型完成模型修正。因此当程序的使用次数越多,识别量越大,获取的模型数据越多,模型匹配则越准确。模型识别率将有所提升。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种炼油化工设备定期检验报告的数据识别与数据治理方法,包括如下步骤:
S1:通过设置检验单位类型字典、识别类型字典、模型类型字典识别检验报告特征,作为区分检验报告的初级索引信息,根据检验报告特征进行报告的区分与识别;
S2:选定关联的装置或设备配置模板信息,模板信息包括装置名称或设备名称,及ERP编码,将各检验报告特征与对应的模板信息关联绑定后进行存储;
S3:基于检验报告的分组结果对历史检验报告进行分类并上传系统,便于通过索引查找到设备的历史检验报告,支持系统查看功能;
S4:基于字符自动识别模块提取分类后的检验报告的字符信息,将分类后的字符信息保存为文档,文档按照字符信息中的装置编码+设备管道位号+年份的文本格式命名;
S5:将识别得到的字符信息输入腐蚀风险评估模型输出腐蚀风险评估数据。
2.根据权利要求1所述的一种炼油化工设备定期检验报告的数据识别与数据治理方法,其特征在于,所述S1步骤为:
S11:基于检验单位字典实现检验报告与检验单位的关联;
S12:基于识别类型字典对提交的检验报告类型进行区分;
S13:基于模型类型字典对设备进行区分,实现快速调换的识别类型。
3.根据权利要求1所述的一种炼油化工设备定期检验报告的数据识别与数据治理方法,其特征在于,所述的S2包括:
S21:对选定的相关联的装置、设备执行识别操作,建立识别模型,识别模型具有的模板信息包括装置名称或设备名称,及ERP编码;
S22:提取各检验报告特征,将各检验报告特征与对应的识别模型关联,生成Excel识别结果文件进行存储。
4.根据权利要求1所述的一种炼油化工设备定期检验报告的数据识别与数据治理方法,其特征在于,所述的S3包括:
按照初级索引信息:检验单位、设备类型,和模板信息:和模板信息:装置名称、设备名称、ERP编码规则对大量历史检验报告进行分组,实现检验报告与设备关联。
5.根据权利要求1所述的一种炼油化工设备定期检验报告的数据识别与数据治理方法,其特征在于,所述的S5中的执行步骤为:
S51:基于根据索引读取每个文档的各参数的数据信息和属性信息;
S52:根据腐蚀风险评估模型所需数据信息及其默认属性信息,使字符信息的属性信息对映腐蚀风险评估模型所需的属性信息,通过映射将腐蚀风险评估模型所需的数据信息更新为字符信息中对应的数据信息,实现动态腐蚀评估的数据更新;
S53:新增检验报告按步骤S1~S52处理得到的数据信息及属性信息填充到腐蚀风险评估模型中,并按检验报告的检验时间排序,得到各装置的不同时间下的不同部位的腐蚀状态信息;
S54:基于腐蚀状态信息提取得到各装置的不同时间下的不同部位的最小厚度值,最大硬度,存在裂纹标志,裂纹扩展标志;
S55:基于各装置的不同时间下的不同部位最小厚度值计算得到腐蚀速率。
6.根据权利要求5所述的一种炼油化工设备定期检验报告的数据识别与数据治理方法,其特征在于,腐蚀速率=(上次检验最小厚度-当前检验最小厚度)/(当前时间-上次检验时间),若无历史数据,则用原始壁厚作为最早检验最小厚度,投用日期作为最早检验时间。
CN202311316666.3A 2023-10-12 2023-10-12 一种炼油化工设备定期检验报告的数据识别与数据治理方法 Pending CN117877039A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311316666.3A CN117877039A (zh) 2023-10-12 2023-10-12 一种炼油化工设备定期检验报告的数据识别与数据治理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311316666.3A CN117877039A (zh) 2023-10-12 2023-10-12 一种炼油化工设备定期检验报告的数据识别与数据治理方法

Publications (1)

Publication Number Publication Date
CN117877039A true CN117877039A (zh) 2024-04-12

Family

ID=90590773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311316666.3A Pending CN117877039A (zh) 2023-10-12 2023-10-12 一种炼油化工设备定期检验报告的数据识别与数据治理方法

Country Status (1)

Country Link
CN (1) CN117877039A (zh)

Similar Documents

Publication Publication Date Title
CN112800113B (zh) 一种基于数据挖掘分析技术的招投标审计方法及系统
US8775433B2 (en) Self-indexing data structure
AU2019263758A1 (en) Systems and methods for generating a contextually and conversationally correct response to a query
US8019761B2 (en) Recording medium storing a design support program, design support method, and design support apparatus
US9367581B2 (en) System and method of quality assessment of a search index
US11263714B1 (en) Automated document analysis for varying natural languages
US20180253416A1 (en) Automatic Human-emulative Document Analysis Enhancements
US11880435B2 (en) Determination of intermediate representations of discovered document structures
CN112307741B (zh) 保险行业文档智能化解析方法和装置
CN113159969A (zh) 一种金融长文本复核系统
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN115510181A (zh) 一种核电厂即时知识管理方法和系统
Dannélls et al. Evaluation and refinement of an enhanced OCR process for mass digitisation.
CN117435777B (zh) 一种产业链图谱自动构建方法与系统
CN117877039A (zh) 一种炼油化工设备定期检验报告的数据识别与数据治理方法
CN117573876A (zh) 一种业务数据分类分级方法及装置
Bartoli et al. Semisupervised wrapper choice and generation for print-oriented documents
CN117421333A (zh) 一种企业文档库构建和检索方法及系统
CN111814457B (zh) 一种电网工程合同文本生成方法
CN113343051B (zh) 一种异常sql检测模型构建方法及检测方法
CN113254583B (zh) 一种基于语义向量的文档标记方法、装置及介质
CN116126790A (zh) 铁路工程档案归档方法、装置、电子设备、存储介质
CN115617689A (zh) 一种基于cnn模型和领域特征的软件缺陷定位方法
JP2020502687A (ja) 特許クレームにおける参照を特定するためのシステム及び方法
CN115098585A (zh) 一种基于大数据的法律法规数据自动处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination