CN113360506B - 一种基于公路工程bim的纸质档案数字化处理方法及系统 - Google Patents
一种基于公路工程bim的纸质档案数字化处理方法及系统 Download PDFInfo
- Publication number
- CN113360506B CN113360506B CN202110846056.9A CN202110846056A CN113360506B CN 113360506 B CN113360506 B CN 113360506B CN 202110846056 A CN202110846056 A CN 202110846056A CN 113360506 B CN113360506 B CN 113360506B
- Authority
- CN
- China
- Prior art keywords
- file
- paper
- archive
- highway engineering
- structured data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000003860 storage Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于公路工程BIM的纸质档案数字化处理方法及系统,所述方法包括:对公路工程的纸质档案进行数字化处理;将数字化处理后的结构化数据与公路工程BIM对应的构件进行挂接;根据查询请求,结合公路工程的BIM对应的构件展示数字化处理后的纸质档案。本发明实施例将纸质档案的电子档及相关的结构化数据与公路工程BIM各对应构件关联存储,实现基于空间位置信息的交互查询和联动管理,为公路工程信息化管理提供便利,创新了一种信息化、高效化的档案管理模式。
Description
技术领域
本发明及公路工程信息化管理,尤其涉及一种基于公路工程BIM的纸质档案数字化处理方法和系统。
背景技术
公路工程的纸质档案通常数量非常巨大,归整复杂,人工查询速度慢,无法产生应有的效益,并且由于大部分档案信息在保存期间受制于档案保存环境影响,以及档案利用者的重复调用影响,有可能造成原件的受损或破坏,为档案的复查以及重复利用带来极大的困难。
目前多数做法是将纸质档案经扫描或拍摄形成图像,转化成以电子形式存在的文件,而非真正意义上的文本文件,即计算机只能认识档案外表,并不了解其包含的内容信息,用户只能通过已有目录索引翻阅单个档案的原貌,却不能根据关键内容信息检索操作。在实际应用中,由于档案的数量庞大,种类繁多,档案管理的不规范导致档案检索效率低,不易查找,无法获取全部关联档案、利用率低等问题。
近年来,随着建筑业信息化技术的不断发展,对BIM(Building InformationModeling,建筑信息模型)的研究也正处于快速增长的阶段。在BIM技术实际应用方面,越来越多的建筑也依靠BIM进行全寿命周期管理,在此行业大背景之下,BIM技术对公路工程全生命周期的各个方面都会产生重大的影响。利用BIM模型的可视化、信息全面性、一致性、唯一关联性等技术优势,结合纸质档案数据结构化,实现基于BIM模型的公路工程的纸质档案的电子数据归档、查询、管理和利用,是值得研究的课题。
发明内容
本发明实施例提供了一种基于公路工程BIM的纸质档案数字化处理方法,对数字化处理的纸质档案电子档及结构化数据关联挂接至公路工程BIM的对应构件,实现基于公路工程BIM的纸质档案数据归档、查询、管理和利用,为公路工程信息化管理提供便利,创新了一种信息化、高效化的档案管理模式。
本发明实施例一种基于公路工程BIM的纸质档案数字化处理方法,其包括:对公路工程的纸质档案进行数字化处理;将数字化处理后的纸质档案与公路工程BIM对应的构件进行挂接;当接收到数字化处理后的纸质档案的查询请求时,根据查询请求结合公路工程BIM查询并展示数字化处理后的纸质档案。
优选地,所述对公路工程的纸质档案进行数字化处理,具体包括:
获得公路工程的纸质档案样本,扫描生成纸质档案样本图片;
对纸质档案图片样本提取关键词进行文本识别,生成结构化数据的训练样本,并使用结构化数据的训练样本进行训练,得到纸质档案识别模型类别;
结合得到的纸质档案识别模型类别,通过OCR对纸质档案进行识别和关键词提取,将提取内容存储为结构化数据,生成标注对应纸质档案识别模型类别和结构化数据的电子档。
优选地,所述将数字化处理的纸质档案数据与公路工程BIM对应的构件挂接,具体包括:
将数字化处理后的纸质档案生成数据库文件,所述数据库文件中包括标注对应纸质档案识别模型类别和结构化数据的电子档,通过结构化数据建立公路工程BIM的各构件ID与标注对应纸质档案识别模型类别和结构化数据的电子档之间对应关系,根据对应关系数据库文件与公路工程BIM的各对应构件进行关联存储。
优选地,所述建立公路工程BIM的各构件ID与标注对应纸质档案识别模型类别和结构化数据的电子档之间对应关系,具体包括:
设置公路工程BIM的各构件ID;
通过标注的结构化数据中的桩号区间、档案号、案卷题名涉及到的BIM构件,建立标注对应纸质档案识别模型类别和结构化数据的电子档与公路工程BIM的各构件ID对应关系。
优选地,所述根据查询请求结合公路工程BIM查询并展示数字化处理后的纸质档案,具体包括:
解析接收到的查询请求,根据查询请求读取相应的数据库文件,并将相应的数据库文件中的标注对应纸质档案识别模型类别和结构化数据的电子档定位至公路工程BIM的各对应构件,其中,所述查询请求包括档案卷题名、档案卷号和桩号区间;
在定位各对应具体构件后,将所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档挂接至各对应构件,在展示各对应构件信息时,并展示所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档。
结构化数据包括档案卷题名、档案卷号、档案卷内目录、结构编号、图像页数和扫描代号;其中,所述结构编号包括桥梁结构编号和公路桩号区间编号。
优选地,所述训练生成纸质档案识别模型类型具体包括:桥梁纸质档案模型、路面与路基纸质档案模型、隧道与涵洞纸质档案模型、以及匝道纸质档案模型;其中,
所述桥梁纸质档案模型对应的结构化数据包括:桥梁名称、档案号、案卷题名、卷内目录、图像页数、扫描代号和桥梁结构编号;
所述路面与路基纸质档案模型的结构化数据包括:桩号区间、档案号、案卷题名、桩号区间、卷内目录、图像页数和扫描代号;
所述隧道与涵洞模型的结构化数据包括:桩号区间、档案号、案卷题名、卷内目录、图像页数和扫描代号;
所述匝道模型的结构化数据包括:匝道名称、桩号区间、档案号、案卷题名、卷内目录、图像页数和扫描代号。
优选地,当纸质档案为表格时,纸质档案数字化处理还包括:
利用预先训练的表格检测模型对纸质档案图像样本提取表格区域,检测出待解析文档图像中的表格区域;
利用预先训练的文字检测模型,检测出该表格区域中所包含的内部文字块;
确定表格的空间结构,根据表格的空间结构对每个单元格中的文字块进行文字识别,将检测出的文字信息转换为结构化数据。
本发明实施例还提供了一种基于公路工程BIM的纸质档案数字化处理系统,包括:客户端、服务端和公路工程的纸质档案数字化处理设备;
所述客户端,用于向服务端发送数字化处理的纸质档案的查询请求,在查询展示各对应构件信息时,展示所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档;
所述服务端,用于接收所述客户端发送的数字化处理纸质档案的查询请求,根据查询请求结合公路工程BIM查询将关联存储的数据库文件中标注对应纸质档案,识别模型类别和结构化数据的电子档定位至公路工程BIM的各对应构件;在定位到各对应具体构件后,将标注对应纸质档案识别模型类别和结构化数据的电子档挂接至各对应构件;
所述公路工程的纸质档案数字化处理设备,用于对公路工程的纸质档案进行数字化处理,通过分析所述纸质档案的内容生成结构化数据,根据结构化数据训练生成纸质档案识别模型类型,结合纸质档案识别模型类别通过OCR对纸质档案进行识别,生成标注对应纸质档案识别模型类别和结构化数据的电子档。
具体地,所述客户端包括查询请求模块和查询展示模块,所述服务端包括查询响应模块、公路工程BIM数据库、纸质档案电子档和关联存储模块;
所述查询请求模块,用于向服务端发送数字化处理的纸质档案的查询请求,所述查询请求中包括档案卷题名、档案卷号和桩号区间;
所述查询展示模块,用于在查询展示各对应构件信息时,展示所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档;
所述查询请求响应模块,用于响应客户端发送的查询请求,将关联存储的数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档定位挂接至公路工程BIM的对应构件;
所述公路工程BIM数据库,用于存储公路工程BIM构件数据信息;
所述纸质档案电子档,用于存储标注对应纸质档案识别模型类别和结构化数据的电子档;
所述关联存储模块,用于对数字化处理后的纸质档案与公路工程BIM对应的构件进行挂接,通过结构化数据建立公路工程BIM的各构件ID与标注对应纸质档案识别模型类别和结构化数据的电子档之间对应关系,根据对应关系数据库文件与公路工程BIM的各对应构件进行关联存储。
本发明实施例中结合公路工程BIM进行纸质档案数字化处理,对数字化处理的纸质档案电子档及结构化数据关联挂接至公路工程BIM的对应构件,实现基于BIM模型的公路工程的纸质档案的电子数据归档、查询、管理和利用,为公路工程信息化管理提供便利,创新了一种信息化、高效化的档案管理模式。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例一种基于公路工程BIM的纸质档案数字化处理的系统架构示意图;
图2是本发明实施例一种基于公路工程BIM的纸质档案数字化查询处理系统的模块示意图;
图3是本发明实施例一种基于公路工程BIM的纸质档案数字化处理方法的流程示意图;
图4是本发明实施例一种纸质档案结构化数据处理的示意图;
图5是本发明实施例一种结构化数据和非结构化数据的格式转换示意图;
图6是本发明实施例一种电子设备结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
建筑信息模型(Building Information Modeling,BIM)是应用在建筑全生命周期管理的信息模型,其以建筑工程项目的各项相关信息数据为基础,建筑在设计、施工、运营等每个阶段的数据都可储存于BIM中,以实现建筑业精细化、信息化管理。BIM还可称为其余名称,比如建筑信息化管理(Building Information Management)或者建筑信息制造(Building Information Manufacture)等等,本申请不做限定。地理信息系统(GeographicInformation System或Geo-Information system,GIS)是一种特定的十分重要的空间信息系统。它能够对整个或部分地球表层(包括大气层)空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。本发明实施例中的数字化是指:应用信息技术(如BIM、GIS等技术),将工程设计、采购、施工等信息转化为结构化和非结构化数据,建立数据组织模型,并运用计算机进行表达、传输和处理的过程。
请参阅图1所示,本发明实施例一种基于公路工程BIM的档案数字化处理系统架构示意图,该系统架构包括:服务端、客户端和公路工程的纸质档案数字化处理设备,客户端用于向服务端发送数字化处理的纸质档案的查询请求,在查询展示各对应构件信息时,展示所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档;服务端用于接收所述客户端发送的数字化处理纸质档案的查询请求,根据查询请求结合公路工程BIM查询将关联存储的数据库文件中标注对应纸质档案,识别模型类别和结构化数据的电子档定位至公路工程BIM的各对应构件;在定位到各对应具体构件后,将标注对应纸质档案识别模型类别和结构化数据的电子档挂接至各对应构件;公路工程的纸质档案数字化处理设备用于对公路工程的纸质档案进行数字化处理,通过分析所述纸质档案的内容生成结构化数据,根据结构化数据训练生成纸质档案识别模型类型,结合纸质档案识别模型类别通过OCR对纸质档案进行识别,生成标注对应纸质档案识别模型类别和结构化数据的电子档。
具体的,公路工程的纸质档案数字化处理设备对公路工程的纸质档案进行数字化处理,通过分析所述纸质档案的内容生成结构化数据,根据结构化数据训练生成纸质档案识别模型类型,结合纸质档案识别模型类别通过OCR对纸质档案进行识别,生成标注对应纸质档案识别模型类别和结构化数据的电子档;
将数字化处理后的纸质档案生成数据库文件,通过结构化数据建立公路工程BIM的各构件ID与标注对应纸质档案识别模型类别和结构化数据的电子档之间对应关系,根据对应关系数据库文件与公路工程BIM的各对应构件进行关联存储;
根据接收到的查询请求将关联存储的数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档定位至公路工程BIM的各对应构件;在定位到各对应具体构件后,将标注对应纸质档案识别模型类别和结构化数据的电子档挂接至各对应构件,在查询展示各对应构件信息时,并展示所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档。
本实施例中所揭示服务器用在硬件层面上具体可以是工作站、超级计算机等设备,或者是由多台服务器组成的一种用于数据处理的服务器集群。本实施例中的客户端,可通过WEB端或APP端应用访问服务端。
请参阅图2所示,本发明实施例一种基于公路工程BIM的档案数字化查询处理系统模块示意图,包括客户端和服务端,所述客户端包括查询请求模块和查询展示模块,所述服务端包括查询响应模块、公路工程BIM数据库、纸质档案电子电子档和关联存储模块;
所述查询请求模块,用于向服务端发送数字化处理的纸质档案的查询请求,所述查询请求中包括档案卷题名、档案卷号和桩号区间;
所述查询展示模块,用于在查询展示各对应构件信息时,展示所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档;
所述查询请求响应模块,用于响应客户端发送的查询请求,将关联存储的数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档定位挂接至公路工程BIM的对应构件;
所述公路工程BIM数据库,用于存储公路工程BIM构件数据信息;
所述纸质档案电子档,用于存储标注对应纸质档案识别模型类别和结构化数据的电子档;
所述关联存储模块,用于对数字化处理后的纸质档案与公路工程BIM对应的构件进行挂接,通过结构化数据建立公路工程BIM的各构件ID与标注对应纸质档案识别模型类别和结构化数据的电子档之间对应关系,根据对应关系数据库文件与公路工程BIM的各对应构件进行关联存储。
请参阅图3所示,本发明实施例一种基于公路工程BIM的纸质档案数字化处理方法,对数字化处理的纸质档案电子档及结构化数据关联挂接至公路工程BIM的对应构件,实现基于公路工程BIM的纸质档案数据归档、查询、管理和利用。本发明实施例基于公路工程BIM的纸质档案数字化处理方法包括:对公路工程的纸质档案进行数字化处理,将数字化处理后的纸质档案与公路工程BIM对应的构件进行挂接,当接收到数字化处理后的纸质档案的查询请求时,根据查询请求结合公路工程BIM查询并展示数字化处理后的纸质档案。
具体地,对公路工程的纸质档案进行数字化处理,通过分析所述纸质档案的内容生成结构化数据,根据结构化数据训练生成纸质档案识别模型类型,结合纸质档案识别模型类别通过OCR对纸质档案进行识别,生成标注对应纸质档案识别模型类别和结构化数据的电子档,数字化处理后的纸质档案与公路工程BIM对应的构件进行关联存储,将数字化处理后的纸质档案生成数据库文件,其中数据库文件中包括标注对应纸质档案识别模型类别和结构化数据的电子档,通过结构化数据建立公路工程BIM的各构件ID与标注对应纸质档案识别模型类别和结构化数据的电子档之间对应关系,根据对应关系数据库文件与公路工程BIM的各对应构件进行关联存储;当接收到数字化处理后的纸质档案的查询请求时,根据查询请求结合公路工程BIM查询并展示数字化处理后的纸质档案,根据接收到的查询请求读取所述数据库文件,并将所述数据库文件中的标注对应纸质档案识别模型类别和结构化数据的电子档定位至公路工程BIM的各对应构件;在定位到各对应具体构件后,将所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档挂接至各对应构件,在查询展示各对应构件信息时,并展示所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档。
请参阅图4所示,本发明实施例一种纸质档案结构化数据处理的示意图,以公路工程的纸质档案样本,扫描生成纸质档案样本图片;对纸质档案图片样本提取关键词进行文本识别,生成结构化数据的训练样本,并使用结构化数据的训练样本进行训练,得到纸质档案识别模型类别;结合得到的纸质档案识别模型类别,通过OCR对纸质档案进行识别和关键词提取,将提取内容存储为结构化数据,生成标注对应纸质档案识别模型类别和结构化数据的电子档,形成纸质档案数据库文件。
纸质档案的样本图片内容可以通过ORC识别提取关键数据,生成结构化数据。例如,通过建立关键数据字典库,对纸质档案进行扫描,对扫描件进行文字定位和分割,识别档案中的关键数据,生成结构化数据。可根据结构化数据,例如档案的头部标题中关键数据,训练纸质档案识别模型,进行纸质档案识别模型类别区分。
其中,结构化数据具体包括:档案卷题名、档案卷号、档案卷内目录、结构编号、图像页数和扫描代号等;结构编号包括桥梁结构编号和公路桩号区间编号等。当然结构化数据还可以包括:年度、责任者、形成日期、保管期限、页数总和。
其中,纸质档案识别模型类别具体包括:桥梁纸质档案模型、路面与路基纸质档案模型、隧道与涵洞纸质档案模型、以及匝道纸质档案模型;其中,桥梁纸质档案模型对应的结构化数据包括:桥梁名称、档案号、案卷题名、卷内目录、图像页数、扫描代号和桥梁结构编号;路面与路基纸质档案模型的结构化数据包括:桩号区间、档案号、案卷题名、桩号区间、卷内目录、图像页数和扫描代号;隧道与涵洞模型的结构化数据包括:桩号区间、档案号、案卷题名、卷内目录、图像页数和扫描代号;匝道模型的结构化数据包括:匝道名称、桩号区间、档案号、案卷题名、卷内目录、图像页数和扫描代号。
在结合得到的纸质档案识别模型类别,通过OCR对纸质档案类别进行识别和关键词提取,将提取内容存储为结构化数据,生成标注对应纸质档案识别模型类别和结构化数据的电子档,形成纸质档案数据库文件。
本发明实施例,通过扫描纸质档案样本生成带标签的结构化数据文本,训练得到纸质档案识别模型类别,结合纸质档案识别模型能够快速、高效地OCR识别并提取出公路工程各纸质档案,得到结构化数据,以及生成公路工程各纸质档案的数据。公路工程各纸质档案的数据包括标注对应纸质档案识别模型类别和结构化数据的电子档,以及对应的数据库文件。
其中,纸质档案的电子档及结构化数据的具体格式可以是PDF格式,再将结构化数据附加至电子档的属性数据中。
以公路工程表格纸质档案的数字化处理为例,根据表格纸质档案样本训练生成的表格检测模型,检测出待表格纸质档案样本图像中的表格区域;根据表格纸质档案样本训练生成的文字检测模型,检测出该表格区域中所包含的内部文字块。确定表格的空间结构,根据表格的空间结构对每个单元格中的文字块进行文字识别,从而解析得到可编辑的结构化数据,将检测出的所有元素和文字信息转换为结构化数据。
在本发明实施例中,表格纸质档案结构化数据处理的另一种示例。扫描表格纸质档案样本,转换得到电子档表格;为所述电子档表格中的每一单元格设置编号;通过OCR识别其中一个单元格中的文字,得到识别结果;根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;直至所有单元格均被遍历;实现了将表格纸质档转化为结构化数据。
公路工程某桥梁纸质档案的结构化数据示例,如下表所示。其中,结构化数据包括了桥梁名称、档案号、案卷题名、标段号、墩桩基号、卷内目录、图像页数、扫描代码等。扫描代码4105-1与具体的HSZ-JS7标段K31+325荷花荡大桥3#墩桩设置对应关系,以便与公路工程BIM的对应构件进行关联。
请参阅图5所示,本发明实施例结构化数据和非结构化数据的格式转换示意图。根据数据类型可分为结构化数据或非结构化数据,对于结构化数据将其中间数据格式进行转换,或者利用数据转换插件,进而对数据进行解析、转换并转换成IFC格式数据,然后将其与预设BIM数据库相关联;对于非结构化数据将其结构分析,特征提取以及IFC化,经过数据的解析转换形成IFC格式数据,然后将其与预设BIM数据库相关联。
本发明实施例中,一种基于公路工程BIM的纸质档案数字化处理方法和系统。具体地,当接收到数字化处理后的纸质档案的查询请求时,根据查询请求结合公路工程BIM查询并展示数字化处理后的纸质档案,根据接收到的查询请求读取所述数据库文件,并将所述数据库文件中的标注对应纸质档案识别模型类别和结构化数据的电子档定位至公路工程BIM的各对应构件;在定位到各对应具体构件后,将所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档挂接至各对应构件,在查询展示各对应构件信息时,并展示所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档。本发明实施例通过结合公路工程BIM进行纸质档案数字化处理,对数字化处理的纸质档案电子档及结构化数据关联挂接至公路工程BIM的对应构件,实现基于公路工程BIM的纸质档案数据归档、查询、管理和利用,为公路工程信息化管理提供便利,创新了一种信息化、高效化的档案管理模式。
请参阅图6所示,本发明实施例可以应用于客户端、服务端的一种电子设备的结构示意图,该电子设备包括存储器和处理器,存储器中存储有计算机程序,处理器,用于在运行计算机程序时执行上述任一方法。具体的,该电子设备可以是终端、服务器或其他可能的设备,图6只是示出了电子设备的一种可选的示意性结构。其中,处理器和存储器相连,如通过总线相连。处理器可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。存储器可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically Erasable Programmable Read OnlyMemory,电可擦可编程只读存储器)、CD-ROM(Compact Disc Read Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器用于存储执行本申请方案的应用程序代码,并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码,以实现上面方法实施例所示的内容。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种基于公路工程BIM的纸质档案数字化处理方法,其特征在于,包括:
对公路工程的纸质档案进行数字化处理;
将数字化处理后的纸质档案与公路工程BIM对应的构件进行挂接;
当接收到数字化处理后的纸质档案的查询请求时,根据查询请求结合公路工程BIM查询并展示数字化处理后的纸质档案;
所述对公路工程的纸质档案进行数字化处理,具体包括:获得公路工程的纸质档案样本,扫描生成纸质档案样本图片;
对纸质档案图片样本提取关键词进行文本识别,生成结构化数据的训练样本,并使用结构化数据的训练样本进行训练,得到纸质档案识别模型类别;
结合得到的纸质档案识别模型类别,通过OCR对纸质档案进行识别和关键词提取,将提取内容存储为结构化数据,生成标注对应纸质档案识别模型类别和结构化数据的电子档;
将数字化处理的纸质档案数据与公路工程BIM对应的构件挂接,具体包括:将数字化处理后的纸质档案生成数据库文件,所述数据库文件中包括标注对应纸质档案识别模型类别和结构化数据的电子档,通过结构化数据建立公路工程BIM的各构件ID与标注对应纸质档案识别模型类别和结构化数据的电子档之间对应关系,根据对应关系数据库文件与公路工程BIM的各对应构件进行关联存储;
所述通过结构化数据建立公路工程BIM的各构件ID与标注对应纸质档案识别模型类别和结构化数据的电子档之间对应关系,具体包括:设置公路工程BIM的各构件ID;
通过标注的结构化数据中的桩号区间、档案号、案卷题名涉及到的BIM构件,建立标注对应纸质档案识别模型类别和结构化数据的电子档与公路工程BIM的各构件ID对应关系。
2.根据权利要求1所述的一种基于公路工程BIM的纸质档案数字化处理方法,其特征在于,所述根据查询请求结合公路工程BIM查询并展示数字化处理后的纸质档案,具体包括:解析接收到的查询请求,根据查询请求读取相应的数据库文件,并将相应的数据库文件中的标注对应纸质档案识别模型类别和结构化数据的电子档定位至公路工程BIM的各对应构件;其中,所述查询请求包括档案卷题名、档案卷号和桩号区间;
在定位各对应具体构件后,将所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档挂接至各对应构件,在展示各对应构件信息时,并展示所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档。
3.根据权利要求1所述的一种基于公路工程BIM的纸质档案数字化处理方法,其特征在于,所述结构化数据包括档案卷题名、档案卷号、档案卷内目录、结构编号、图像页数和扫描代号;其中,所述结构编号包括桥梁结构编号和公路桩号区间编号。
4.根据权利要求1所述的一种基于公路工程BIM的纸质档案数字化处理方法,其特征在于,所述纸质档案识别模型类型具体包括:桥梁纸质档案模型、路面与路基纸质档案模型、隧道与涵洞纸质档案模型、以及匝道纸质档案模型;其中,所述桥梁纸质档案模型对应的结构化数据包括:桥梁名称、档案号、案卷题名、卷内目录、图像页数、扫描代号和桥梁结构编号;
所述路面与路基纸质档案模型的结构化数据包括:桩号区间、档案号、案卷题名、桩号区间、卷内目录、图像页数和扫描代号;
所述隧道与涵洞模型的结构化数据包括:桩号区间、档案号、案卷题名、卷内目录、图像页数和扫描代号;
所述匝道模型的结构化数据包括:匝道名称、桩号区间、档案号、案卷题名、卷内目录、图像页数和扫描代号。
5.根据权利要求1所述的一种基于公路工程BIM的纸质档案数字化处理方法,其特征在于,当纸质档案为表格时,纸质档案数字化处理还包括:利用预先训练的表格检测模型对纸质档案图像样本提取表格区域,检测出待解析文档图像中的表格区域;
利用预先训练的文字检测模型,检测出该表格区域中所包含的内部文字块;
确定表格的空间结构,根据表格的空间结构对每个单元格中的文字块进行文字识别,将检测出的文字信息转换为结构化数据。
6.一种基于公路工程BIM的纸质档案数字化处理系统,其特征在于,包括:客户端、服务端和公路工程的纸质档案数字化处理设备;
所述客户端,用于向服务端发送数字化处理的纸质档案的查询请求,在查询展示各对应构件信息时,展示数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档;
所述服务端,用于接收所述客户端发送的数字化处理纸质档案的查询请求,根据查询请求结合公路工程BIM查询将关联存储的数据库文件中标注对应纸质档案,识别模型类别和结构化数据的电子档定位至公路工程BIM的各对应构件;在定位到各对应具体构件后,将标注对应纸质档案识别模型类别和结构化数据的电子档挂接至各对应构件;
所述公路工程的纸质档案数字化处理设备,用于对公路工程的纸质档案进行数字化处理,通过分析所述纸质档案的内容生成结构化数据,根据结构化数据训练生成纸质档案识别模型类型,结合纸质档案识别模型类别通过OCR对纸质档案进行识别,生成标注对应纸质档案识别模型类别和结构化数据的电子档;
所述客户端包括查询请求模块和查询展示模块,所述服务端包括查询响应模块、公路工程BIM数据库、纸质档案电子档和关联存储模块;
所述查询请求模块,用于向服务端发送数字化处理的纸质档案的查询请求,所述查询请求中包括档案卷题名、档案卷号和桩号区间;
所述查询展示模块,用于在查询展示各对应构件信息时,展示所述数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档;
所述查询请求响应模块,用于响应客户端发送的查询请求,将关联存储的数据库文件中标注对应纸质档案识别模型类别和结构化数据的电子档定位挂接至公路工程BIM的对应构件;
所述公路工程BIM数据库,用于存储公路工程BIM构件数据信息;
所述纸质档案电子档,用于存储标注对应纸质档案识别模型类别和结构化数据的电子档;
所述关联存储模块,用于对数字化处理后的纸质档案与公路工程BIM对应的构件进行挂接,通过结构化数据建立公路工程BIM的各构件ID与标注对应纸质档案识别模型类别和结构化数据的电子档之间对应关系,根据对应关系数据库文件与公路工程BIM的各对应构件进行关联存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846056.9A CN113360506B (zh) | 2021-07-26 | 2021-07-26 | 一种基于公路工程bim的纸质档案数字化处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846056.9A CN113360506B (zh) | 2021-07-26 | 2021-07-26 | 一种基于公路工程bim的纸质档案数字化处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113360506A CN113360506A (zh) | 2021-09-07 |
CN113360506B true CN113360506B (zh) | 2024-03-26 |
Family
ID=77540626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110846056.9A Active CN113360506B (zh) | 2021-07-26 | 2021-07-26 | 一种基于公路工程bim的纸质档案数字化处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360506B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304266B (zh) * | 2023-03-03 | 2024-02-27 | 苏州工业园区航星信息技术服务有限公司 | 档案管理系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901389A (zh) * | 2009-05-27 | 2010-12-01 | 北京正辰科技发展有限责任公司 | 基于短程无线技术的档案管理系统 |
CN104881751A (zh) * | 2015-06-04 | 2015-09-02 | 北京建工土木工程有限公司 | 一种基于建筑信息模型的施工资料管理系统及方法 |
CN105512197A (zh) * | 2015-11-27 | 2016-04-20 | 广州宝钢南方贸易有限公司 | 一种文档数字化归档的装置及其归档和查询方法 |
CN107958083A (zh) * | 2017-12-17 | 2018-04-24 | 江西睿创科技有限公司 | 一种档案一体化管理系统 |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN108427806A (zh) * | 2017-08-12 | 2018-08-21 | 中民筑友科技投资有限公司 | 一种基于bim的构件信息显示方法及装置 |
CN109885626A (zh) * | 2019-01-30 | 2019-06-14 | 北京筑业志远软件开发有限公司 | 基于结构化数据和bim模型的城建数字档案智能管理系统 |
CN110059150A (zh) * | 2019-04-24 | 2019-07-26 | 中水北方勘测设计研究有限责任公司 | 基于bim+gis的水利工程数字档案系统 |
CN110796435A (zh) * | 2019-10-28 | 2020-02-14 | 湖北精工钢结构有限公司 | 基于bim的无纸化办公管理系统 |
CN111832437A (zh) * | 2020-06-24 | 2020-10-27 | 万翼科技有限公司 | 建筑图纸识别方法、电子设备及相关产品 |
CN112434364A (zh) * | 2020-11-26 | 2021-03-02 | 上海市城市建设设计研究总院(集团)有限公司 | 基于ifc的建筑项目前期数字化交付与评审系统及方法 |
CN112597579A (zh) * | 2020-12-25 | 2021-04-02 | 江苏燕宁工程科技集团有限公司 | 基于bim的工程项目数字化交付方法及系统 |
CN112613854A (zh) * | 2021-01-04 | 2021-04-06 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 基于web实时造型的铁路BIM系统与GIS系统结合的数字化交付方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11232652B2 (en) * | 2019-06-25 | 2022-01-25 | Scientia Potentia Est, LLC. | System for management of verification of project commencement and completion |
-
2021
- 2021-07-26 CN CN202110846056.9A patent/CN113360506B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901389A (zh) * | 2009-05-27 | 2010-12-01 | 北京正辰科技发展有限责任公司 | 基于短程无线技术的档案管理系统 |
CN104881751A (zh) * | 2015-06-04 | 2015-09-02 | 北京建工土木工程有限公司 | 一种基于建筑信息模型的施工资料管理系统及方法 |
CN105512197A (zh) * | 2015-11-27 | 2016-04-20 | 广州宝钢南方贸易有限公司 | 一种文档数字化归档的装置及其归档和查询方法 |
CN108427806A (zh) * | 2017-08-12 | 2018-08-21 | 中民筑友科技投资有限公司 | 一种基于bim的构件信息显示方法及装置 |
CN107958083A (zh) * | 2017-12-17 | 2018-04-24 | 江西睿创科技有限公司 | 一种档案一体化管理系统 |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN109885626A (zh) * | 2019-01-30 | 2019-06-14 | 北京筑业志远软件开发有限公司 | 基于结构化数据和bim模型的城建数字档案智能管理系统 |
CN110059150A (zh) * | 2019-04-24 | 2019-07-26 | 中水北方勘测设计研究有限责任公司 | 基于bim+gis的水利工程数字档案系统 |
CN110796435A (zh) * | 2019-10-28 | 2020-02-14 | 湖北精工钢结构有限公司 | 基于bim的无纸化办公管理系统 |
CN111832437A (zh) * | 2020-06-24 | 2020-10-27 | 万翼科技有限公司 | 建筑图纸识别方法、电子设备及相关产品 |
CN112434364A (zh) * | 2020-11-26 | 2021-03-02 | 上海市城市建设设计研究总院(集团)有限公司 | 基于ifc的建筑项目前期数字化交付与评审系统及方法 |
CN112597579A (zh) * | 2020-12-25 | 2021-04-02 | 江苏燕宁工程科技集团有限公司 | 基于bim的工程项目数字化交付方法及系统 |
CN112613854A (zh) * | 2021-01-04 | 2021-04-06 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 基于web实时造型的铁路BIM系统与GIS系统结合的数字化交付方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于BIM的高速公路工程档案管理模式探讨;王玲;;福建交通科技(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113360506A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5856618B2 (ja) | 地理空間データベース統合方法、およびデバイス | |
Mummidi et al. | Discovering points of interest from users’ map annotations | |
CN112541490A (zh) | 一种基于深度学习的档案影像信息结构化构建方法及装置 | |
US20110078206A1 (en) | Tagging method and apparatus based on structured data set | |
US20080281827A1 (en) | Using structured database for webpage information extraction | |
CN111522901B (zh) | 文本中地址信息的处理方法及装置 | |
CN111125086B (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
CN101297319A (zh) | 在电子文档中嵌入热点 | |
CN101093489A (zh) | 图像搜索方法及装置 | |
CN112307180A (zh) | 一种基于标签对象的快速检索方法及设备 | |
CN113360506B (zh) | 一种基于公路工程bim的纸质档案数字化处理方法及系统 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
JP2005151127A5 (zh) | ||
CN112363996B (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
Karsvall et al. | SDHK meets NER: Linking Place Names with Medieval Charters and Historical Maps. | |
Zhang et al. | Deep-learning generation of POI data with scene images | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
De Rouck et al. | Georeferencing Wikipedia pages using language models from Flickr | |
CN113255369B (zh) | 文本相似度分析的方法、装置及存储介质 | |
CN115687566A (zh) | 一种全文检索及显示检索结果的方法及装置 | |
CN114218347A (zh) | 多个文件内容的快速索引查找方法 | |
CN113722278A (zh) | 一种基于pdf文件的知识元抽取方法、设备及介质 | |
CN114549802A (zh) | 一种基于ocr技术的三维模型数据自动关联与定位方法 | |
CN1841372A (zh) | 帮用户根据非结构化信息源形成结构化图表的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |