CN110688445B - 一种数字化档案建设方法 - Google Patents

一种数字化档案建设方法 Download PDF

Info

Publication number
CN110688445B
CN110688445B CN201810630262.4A CN201810630262A CN110688445B CN 110688445 B CN110688445 B CN 110688445B CN 201810630262 A CN201810630262 A CN 201810630262A CN 110688445 B CN110688445 B CN 110688445B
Authority
CN
China
Prior art keywords
engineering
form image
image
parameter data
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810630262.4A
Other languages
English (en)
Other versions
CN110688445A (zh
Inventor
邹桐
孙丽丽
朱春田
张华�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sinopec Engineering Inc
Sinopec Engineering Group Co Ltd
Original Assignee
Sinopec Engineering Inc
Sinopec Engineering Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sinopec Engineering Inc, Sinopec Engineering Group Co Ltd filed Critical Sinopec Engineering Inc
Priority to CN201810630262.4A priority Critical patent/CN110688445B/zh
Publication of CN110688445A publication Critical patent/CN110688445A/zh
Application granted granted Critical
Publication of CN110688445B publication Critical patent/CN110688445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明提出了一种数字化档案建设方法。该方法主要包括:首先创建工程属性集以及与之对应的参数数据集,并通过机器学习算法创建表格图像和字符图像的增强分类器;对于待处理电子档案,首先基于所创建的增强分类器识别表格图像和其中的单个文字,再通过将单个文字的重新组合与现有工程属性集进行匹配,由此确定每个表格图像中的工程属性;基于所识别的工程属性表格以及参数数据表格与工程属性表格的位置关系确定参数数据表格以及其中的参数数据。本发明能够从电子档案中自动获取所需属性和参数数据,替代了传统的人工录入方法,并且识别效率高。

Description

一种数字化档案建设方法
技术领域
本发明涉及电子档案的数字化技术,具体地,涉及一种数字化档案建设方法。
背景技术
国内的工程建设领域经过近20年的飞速发展,积累了大量的工程建设资料。目前工程档案的管理方式通常是首先通过扫描、格式转换的方法将纸质文件或者在某特定软件中的内容变成电子版文件。文件管理过程会统一文件命名,一般包含项目代码、专业代码、文件类型代码、流水号等,通过在档案资料中人工提取部分其他属性,形成综合电子档案的管理。
伴随着电子档案资料越来越多,传统档案管理方式的弊端凸显出来。无论是技术人员或者管理人员都难以快速找到所需的内容,检索只能按照项目、专业、文件类型等几种简单的维度进行。在项目结束后,电子档案的管理依赖于大量的人工录入工作,耗时耗力,并且在集中录入处理时数据质量往往难以保证。在信息时代进入大数据应用的情况下,更好地对档案资料进行数据挖掘,形成行业的工程大数据和工业大数据,对于工程企业、生产企业、制造企业都有重要意义。
因此,有必要提出一种数字化档案建设方法,能够对档案资料进行多维度的检索、查询、数据挖掘和应用。
公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
为解决现有数字化档案建设过程中存在的问题,本发明提供一种数字化档案建设方法,通过机器学习算法将电子档案中非结构化文件中的表格和符号进行结构化,以识别并提取设备属性和特征参数,从而取代异构系统中数据的繁杂人工录入,提高数字化档案的建设效率和信息质量。
本发明的数字化档案建设方法包括:
1)将预先获取的电子档案的表格图像和字符图像分别作为训练数据集,创建工程属性集以及与之对应的参数数据集;
2)基于所述训练数据集,通过机器学习算法创建表格图像和字符图像的增强分类器;
3)对于待处理电子档案,定位表格图像和字符图像位置;
4)基于步骤2)中创建的增强分类器,识别表格图像以及表格图像中的单个文字;
5)将步骤4)识别的单个文字进行重新组合,将重新组合后的结果与步骤1)中创建的工程属性集进行匹配;
6)基于步骤4)中识别表格图像与步骤5)的文字匹配结果确定每个表格图像中的工程属性;
7)基于步骤3)的定位结果和步骤6)中确定的工程属性,定位与工程属性对应的参数表格的位置;
8)对步骤7)中定位的参数表格中的字符进行识别作为参数数据值;
9)将步骤6)中确定的工程属性和步骤8)中确定的参数数据值存储在数据库中。
优选地,所述数字化档案建设方法还包括:
基于统计学方法对步骤9)中确定的工程属性及其对应的参数数据值进行置信度判断,并将误差反馈至步骤2)对机器学习算法的分类器进行训练。
优选地步骤2)包括:对所定位的每个表格图像通过基于卷积神经网络的机器学习算法进行分类,对所定位的每个字符图像通过基于支持向量机的机器学习算法进行分类,组合成增强分类器。
优选地,所述电子档案包括扫描的工程图纸和文档资料。
优选地,按照统一设定的尺寸、清晰度扫描工程图纸和文档资料。
优选地,在步骤3)中通过以下方式定位表格图像:
通过版面分析、表格线检测、记录表格线位置,从而识别出数据栏位置,并进一步判断出每个表格图像。
优选地,在步骤3)中通过投影法确定字符图像在表格图像中的位置。
优选地,在步骤2)之前,建立电子档案文件类型的决策树,通过命名规则将不同专业、不同类型的电子档案区分开。
优选地,所述数字化档案建设方法还包括:
通过对训练数据集进行放大、缩小、旋转、局部扭曲来增加训练数据集的数量来训练分类器。
本发明通过机器学习算法以及检验反馈,能够对电子档案进行属性及其对应的参数数据的自动识别和提取,有利于建设具有工程文档内部属性的数字化档案,以及进行检索、查询等数据分析与挖掘功能,并且本发明所提出的方法可以作为数字化工厂建设的参照、部分数据来源,对于利用增强机器学习算法建设的数字化工厂有校验作用。
附图说明
通过结合附图对本发明示例性实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施例中,相同的参考标号通常代表相同部件。
图1为根据本发明的示例性实施方案的数字化档案建设方法的流程图;
图2为基于命名规则的文件类型决策树的示意图;
图3为示例性竣工图纸,其中所圈部分为数据栏;
图4为示例性数据栏,其中所圈部分为单个数据表格;
图5示出投影法确定字符图像方法的示意图。
具体实施方式
下面将参照附图更详细地描述本发明。虽然附图中显示了本发明的优选实施例,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
以下参考图1详细描述根据本发明示例性实施方案的数字化档案建设方法,其主要包括以下步骤:
步骤1:将预先获取的电子档案的表格图像和字符图像分别作为训练数据集,创建工程属性集以及与之对应的参数数据集。
电子档案可以是工程资料、运维技术资料、制造资料等,包括数据表、材料表、规格书、索引表、记录文件、说明文件、计算文件,可以扩展至具有表格和符号的企业管理类、项目管理类、金融经济类、法律合同等电子档案资料。
其中,工程资料可以是扫描的工程图纸,优选将所有的工程图纸按照统一设定的尺寸、清晰度进行扫描。
工程属性集是指从表格图像中整理出的所有工程属性的集合,以字符串的形式表示;参数数据集是指从表格图像中整理出的工程属性对应的值、类别等的集合,同样以字符串的形式表示。
具体地,对于所有需要收集的工程属性名称进行整理并编号,将属性对应数据表的图像进行采集和标注,图像采集用统一的像素尺寸,标注为属性名称。例如容器类别编号001,设计温度编号002,腐蚀余量编号003,以此类推,将所有属性名称整理成数据集,以使分类器回归后能够更准确地匹配。
步骤2:基于所述训练数据集以及所创建的工程属性集和参数数据集,通过机器学习算法创建表格图像和字符图像的增强分类器。
对每个表格图像通过基于卷积神经网络的机器学习算法分类进行分类,基于步骤1中创建的工程属性集和参数数据集的分类结果对分类器进行训练;
对每个字符图像通过基于支持向量机的机器学习算法进行分类,基于步骤1中创建的工程属性集和参数数据集的分类结果对分类器进行训练;
将表格图像和字符图像的分类器优化组合成增强分类器。
优选地,通过对训练数据集进行放大、缩小、旋转、局部扭曲来增加训练数据集的数量来训练分类器,即统一像素尺寸的图像经过数据增广后再作为初始训练样本。
通过训练数据集,提高特定图纸中数据表格的识别率,再将属性与参数数据存储到数字化档案的数据仓库;对于识别率不高的表格或者数据,进行训练数据集的反馈,对于数据部分采用对于特定设备名称数据集中,统计学的方法判断数据的置信度,将误差反馈到系统,通过机器学习的算法迭代不断提高识别率,替代传统人工录入的方法。
优选地,在步骤2之前,建立电子档案文件类型的决策树,通过命名规则将不同专业、不同类型的电子档案区分开。
以竣工资料的电子档案为例,第一级按照专业进行分类,可将竣工图纸资料分为工艺、设备、仪表等等,第二级按照电子档案的类型进行分类,以设备的电子档案为例,可将其分为工程图纸、数据表、说明书等等,将不同专业、不同类型的电子文档区分开后,再将训练样本分类汇总。通过文档命名规则即能够自动识别图纸类别,以及设备的名称、种类,如图2所示。
步骤3:对于待处理的电子档案,定位表格图像和字符图像位置。
可以通过以下方式定位表格图像:
首先,对待处理电子档案进行版面分析、表格线检测、记录表格线位置,从而识别出数据栏位置并判断出每个表格图像。
工程资料有其规定的表达形式,一般某种类型的文件,数据栏会出现在固定的位置。例如设备图纸数据栏要求设置在右上角,因此通过版面分析即能够提取非文字区域,利用表格线检测方法提取该区域水平与垂直方向上的线框;记录表格线框的位置并进行组合运算,从而能够识别出数据栏位置,并且能够判断出每个表格图像。
具体地,版面分析可以采用定位和色差法的结合;表格线检测可以采用投影法与形态学的结合。
以图3所示的电子档案的竣工图纸为例,所圈部分即为数据栏所在位置;图4中所圈部分即为所定位的表格图像。
可以通过投影法确定表格图像中的字符图像。具体地,利用二值化的表格图像内部的像素分布直方图进行分析,判断投影的每一列,即可找出相邻字符的分割点,从而能够判断出每个字符图像,如图5所示。
步骤4:基于步骤2中创建的增强分类器,识别属于工程属性集的表格图像以及表格图像中的单个文字。
步骤5:将步骤4识别的单个文字进行重新组合,将重新组合后的结果与步骤1)中创建的工程属性集进行匹配。
例如,将步骤5中所识别的单个文字组合成属性,例如设计温度,与现有工程术语集(例如设计温度、设计压力、设计类别等)进行匹配。
步骤6:基于步骤4中识别的表格图像与步骤5的文字匹配结果确定每个表格图像中的工程属性。
在利用增强分类器识别出属于工程属性集的表格图像的基础上,再通过单个文字的组合与现有工程属性集进行匹配的方法,能够更准确地识别出工程属性。
步骤7:基于步骤3的定位结果和步骤6中确定的工程属性,定位与工程属性对应的参数表格的位置。
在工程图纸中,工程属性表格通常与参数数据表格并列,因此在确定了工程属性表格的基础上,即可以定位出与工程属性对应的参数表格的位置。
步骤8:对步骤7中定位的参数表格中的字符进行识别作为参数数据值。
步骤9:将步骤6中确定的工程属性和步骤8中确定的参数数据值存储在数据库中。
在一个示例中,该方法还包括基于统计学方法对步骤5中识别的属性和对应的参数数据进行置信度的判断,并将误差反馈至步骤2对增强分类器进行训练,以达到工程级项目应用的需求。
通过已经积累的数字化档案资料,查找相同装置中相同名称的设备,其属性值应该在同一范围内,如果超出此范围,给出警告,需要人工再判断。例如,对于待处理电子档案,设备名称为“重整反应器”,识别其工程属性中的“设计温度”,进一步地,识别其参数数据值为“550”;查找同类型装置“120万吨-重整反应器-设计温度”,其参数数据集中的中位数为554,根据预先设定的允许偏差比例,判断出置信度为高,即识别的参数数据准确度为高。如果识别为“350”,则判断准确度过低,需要人工再判断。
以上方法称为检验反馈,是指通过在图纸识别阶段确定的设备名称和设备类别,采用数理统计方法计算该数据样本的置信度。石油化工装置类型和设备类型有一定的重复性,其他工厂也有类型情况,某种类型的设备属性会在一定的范围内。由于类似装置非常多,同种类型的设备也很多,但是同一种参数可能会在一定范围内变化,通过数理统计实现自动的误差反馈,进而提高整体的识别率。

Claims (8)

1.一种数字化档案建设方法,其特征在于,所述方法包括:
1)将预先获取的电子档案的表格图像和字符图像分别作为训练数据集,创建工程属性集以及与之对应的参数数据集;
2)基于所述训练数据集以及步骤1)中创建的工程属性集和参数数据集,通过机器学习算法创建表格图像和字符图像的增强分类器;
3)对于待处理电子档案,定位表格图像和字符图像;
4)基于步骤2)中创建的增强分类器,识别出属于工程属性集的表格图像以及表格图像中的单个文字;
5)将步骤4)识别的单个文字进行重新组合,将重新组合后的结果与步骤1)中创建的工程属性集进行匹配;
6)基于步骤4)中识别的表格图像与步骤5)的文字匹配结果确定每个表格图像中的工程属性;
7)基于步骤3)的定位结果和步骤6)中确定的工程属性,定位与工程属性对应的参数表格的位置;
8)对步骤7)中定位的参数表格中的字符进行识别作为参数数据值;
9)将步骤6)中确定的工程属性和步骤8)中确定的参数数据值存储在数据库中;
在所述步骤2)中,对每个表格图像通过基于卷积神经网络的机器学习算法进行分类,基于步骤1)中创建的工程属性集和参数数据集的分类结果对表格图像的分类器进行训练;
对每个字符图像通过基于支持向量机的机器学习算法进行分类,基于步骤1)中创建的工程属性集和参数数据集的分类结果对字符图像的分类器进行训练;
将表格图像和字符图像的分类器组合成增强分类器。
2.根据权利要求1所述的数字化档案建设方法,其特征在于,还包括:
基于统计学方法对步骤9)中确定的工程属性及其对应的参数数据值进行置信度判断,并将误差反馈至步骤2)对所述增强分类器进行训练。
3.根据权利要求1所述的数字化档案建设方法,其特征在于,所述电子档案包括扫描的工程图纸和文档资料。
4.根据权利要求3所述的数字化档案建设方法,其特征在于,按照统一设定的尺寸、清晰度扫描工程图纸和文档资料。
5.根据权利要求1所述的数字化档案建设方法,其特征在于,在步骤3)中通过以下方式定位表格图像:
进行版面分析、表格线检测、记录表格线位置,从而识别出数据栏位置并判断出每个表格图像。
6.根据权利要求3所述的数字化档案建设方法,其特征在于,在步骤3)中通过投影法确定字符图像在表格图像中的位置。
7.根据权利要求1所述的数字化档案建设方法,其特征在于,在步骤2)之前,建立电子档案文件类型的决策树,通过命名规则将不同专业、不同类型的电子档案区分开。
8.根据权利要求1所述的数字化档案建设方法,其特征在于,还包括:
通过对训练数据集进行放大、缩小、旋转、局部扭曲来增加训练数据集的数量来训练分类器。
CN201810630262.4A 2018-06-19 2018-06-19 一种数字化档案建设方法 Active CN110688445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810630262.4A CN110688445B (zh) 2018-06-19 2018-06-19 一种数字化档案建设方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810630262.4A CN110688445B (zh) 2018-06-19 2018-06-19 一种数字化档案建设方法

Publications (2)

Publication Number Publication Date
CN110688445A CN110688445A (zh) 2020-01-14
CN110688445B true CN110688445B (zh) 2022-06-17

Family

ID=69106242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810630262.4A Active CN110688445B (zh) 2018-06-19 2018-06-19 一种数字化档案建设方法

Country Status (1)

Country Link
CN (1) CN110688445B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906717A (zh) * 2021-03-04 2021-06-04 广联达科技股份有限公司 一种工程文件内容的识别方法及系统
CN116343210B (zh) * 2023-03-24 2023-10-17 广州慧信档案技术有限公司 档案数字化的管理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110188759A1 (en) * 2003-06-26 2011-08-04 Irina Filimonova Method and System of Pre-Analysis and Automated Classification of Documents

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法

Also Published As

Publication number Publication date
CN110688445A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
US20070168382A1 (en) Document analysis system for integration of paper records into a searchable electronic database
US20070156749A1 (en) Detection of patterns in data records
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
CN112307741B (zh) 保险行业文档智能化解析方法和装置
CN110704880B (zh) 一种工程图纸的关联方法
JP7396568B2 (ja) 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
CN110688445B (zh) 一种数字化档案建设方法
CN111078979A (zh) 一种基于ocr和文本处理技术识别网贷网站的方法及系统
Rane et al. Chartreader: Automatic parsing of bar-plots
CN113326797A (zh) 一种pdf文档提取的表格信息转换为结构化知识的方法
KR20010082661A (ko) 공학도면의 관리를 위한 컴퓨터 자동화된 시스템
CN116664944A (zh) 一种基于属性特征知识图谱的葡萄园害虫识别方法
WO2020237480A1 (zh) 基于图像识别的控制方法与装置
CN107797979B (zh) 分析装置和分析方法
CN117520561A (zh) 直升机装配领域知识图谱构建的实体关系抽取方法及系统
WO2007070010A1 (en) Improvements in electronic document analysis
KR100655916B1 (ko) 방대한 데이터의 디지털화를 위한 문서영상처리 및검증시스템 및 그 방법
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
US11900705B2 (en) Intelligent engineering data digitization
JP6896260B1 (ja) レイアウト解析装置、その解析プログラムおよびその解析方法
CN110826326B (zh) 一种基于文本分类的小样本数据描述规范化预处理方法
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
CN111177301A (zh) 一种关键信息识别提取方法及系统
CN115640758B (zh) 一种基于知识构建的三维模型数模质检方法
CN116127105B (zh) 一种大数据平台的数据汇集方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant