CN113850060A - 民航文档数据识别录入方法及系统 - Google Patents

民航文档数据识别录入方法及系统 Download PDF

Info

Publication number
CN113850060A
CN113850060A CN202111159702.0A CN202111159702A CN113850060A CN 113850060 A CN113850060 A CN 113850060A CN 202111159702 A CN202111159702 A CN 202111159702A CN 113850060 A CN113850060 A CN 113850060A
Authority
CN
China
Prior art keywords
civil aviation
image
identifying
text
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111159702.0A
Other languages
English (en)
Inventor
张智
雷锦泽
易华挥
王宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation University of China
Original Assignee
Civil Aviation University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation University of China filed Critical Civil Aviation University of China
Priority to CN202111159702.0A priority Critical patent/CN113850060A/zh
Publication of CN113850060A publication Critical patent/CN113850060A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种民航文档数据识别录入系统及方法,属于信息处理技术领域,包括:S1、获取民航文档的图像;S2、图像预处理;S3、连通域分析进行文本块分割;S4、表格线识别;S5、以识别出的表格线为基准,基于CTPN+CRNN网络模型对图像文本进行检测和识别,CTPN检测文本区域,CRNN对检测到的文本区域进行文本识别;S6、还原表格;S7、通过将检测识别的结果,与工号、姓名、日期、业务等已有信息进行规则匹配,完成进一步信息验证,最终实现民航文档结构化信息录入。本发明能够高效准确地录入民航文档,如飞行记录本等的信息,达到减轻人力成本,快捷信息录入的目的。

Description

民航文档数据识别录入方法及系统
技术领域
本发明属于信息处理技术领域,特别是涉及一种民航文档数据识别录入方法及系统。
背景技术
民航全流程信息化是民航业发展的必经之路。随着我国民航业的快速发展,更有质量,更高效率的工作要求也随之而来。民航系统每年会进行大量的飞行工本数据录入操作,目前最常用的录入方式为人工录入,使得过程繁琐、耗时长、易出错且管理不方便;因此,如何将民航文档快速高效录入存储,实现一个民航文档数据识别录入方法及系统显得尤为重要。
本发明使用各类高清图像获取设备拍摄民航文档,对民航文档图像预处理操作后,通过连通域分析,获取对应连通域的外接矩形进行版面分析精确定位到信息区域;进一步通过对区域中的表格进行提取识别,基于表格坐标信息定位,用已训练好的检测和识别模型对表格框内的文字进行检测和识别;最后基于表格坐标和像素信息对表格进行还原,并将结果与已有信息进行匹配校正,最终将结构化信息实现录入。
发明内容
技术目的
本发明提供一种民航文档数据识别录入方法及系统;高效准确地录入民航文档,如飞行记录本等的信息,达到减轻人力成本,快捷信息录入的目的。
技术方案
本发明的第一目的是提供一种民航文档数据识别录入方法,包括如下步骤:
S1、获取民航文档的图像;
S2、图像预处理,具体包括对图像进行灰度化、二值化,霍夫变化和镜头畸变校正和基于空间域的图像增强;
S3、连通域分析进行文本块分割;
S4、识别表格线;
S5、以识别出的表格线为基准,以识别出的表格线为基准,基于CTPN+CRNN网络模型对图像文本进行检测和识别,CTPN负责检测文本区域,CRNN对检测到的文本区域进行文本识别;
S6、还原表格;还原表格结构,并将S5中识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中
S7、将检测识别的结果,与工号、姓名、日期、业务等已有信息进行规则匹配,完成进一步信息验证,最终实现民航文档结构化信息录入。
优选地,所述S1具体为:使用设备为扫描仪、手机、摄像机或各种高清图像获取设备对民航文档进行拍摄。
优选地,所述S3具体为:先将图像转化为二值图像,然后进行膨胀腐蚀处理,作连通性分析后对每个连通域取外接矩形得到分割的文本块。
优选地,所述S4具体为:通过腐蚀膨胀卷积核识别表格横竖线,并标识出表格交点位置坐标,通过相减擦除表格线。
优选地,所述S6具体为:通过S4中得到的表格线交点坐标,利用XlsxWriter函数将交点间存在像素的点进行连接合并,将表格重新还原至EXCEL图表中。与此同时,对S5中识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中。
本发明的第二目的是提供一种民航文档数据识别录入系统,包括:
图像获取模块、获取民航文档的图像;
图像预处理模块、图像预处理,具体包括对图像进行灰度化、二值化,霍夫变化和镜头畸变校正和基于空间域的图像增强;
分割模块、连通域分析进行文本块分割;
表格线识别模块、识别表格线;
检测识别模块、以识别出的表格线为基准,基于CTPN+CRNN网络模型对图像文本进行检测和识别,CTPN负责检测文本区域,CRNN对检测到的文本区域进行文本识别;
表格还原模块、还原表格结构,并将识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中
结果输出模块、通过将检测识别的结果,与工号、姓名、日期、业务等已有信息进行规则匹配,完成进一步信息验证,最终实现民航文档结构化信息录入。
优选地,分割模块中:先将图像转化为二值图像、进行膨胀处理,作连通性分析后对每个连通域取外接矩形得到分割的文本块;
优选地,表格线识别模块中:通过腐蚀膨胀卷积核识别表格横竖线,并标识出表格交点位置坐标,通过相减擦除表格线。
优选地,表格还原模块中:通过表格线识别模块得到的表格线交点坐标,利用XlsxWriter函数将交点间存在像素的点进行连接合并,将表格重新还原至EXCEL图表中。与此同时,对检测识别模块中识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中。
本专利的第三发明目的是提供一种实现上述民航文档数据识别录入方法的信息数据处理终端。
本专利的第四发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的民航文档数据识别录入方法。
本发明的优点及积极效果为:
本发明能够高效准确地录入民航文档,如飞行记录本等的信息,达到减轻人力成本,快捷信息录入的目的。
附图说明
图1是本发明优选实施例中的流程图;
图2是本发明优选实施例中民航文档数据识别录入方法的中间结果图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并结合附图详细说明如下。
请参阅图1至图2:
请参阅图1,用各类高清图像获取设备扫描民航文档,对民航文档图像预处理操作后,通过连通域分析,获取对应连通域的外接矩形进行版面分析精确定位到信息区域;进一步通过对区域中的表格进行提取识别,基于表格坐标信息定位,用已训练好的检测和识别模型对表格框内的文字进行检测和识别;最后基于表格坐标和像素信息对表格进行还原,并将结果与已有信息进行匹配校正,最终将结构化信息实现录入。
包括以下几个步骤:
1)使用设备为扫描仪、手机、摄像机或各种高清图像获取设备对民航文档进行拍摄;
2)图像预处理,图像预处理,具体包括对图像进行灰度化、二值化,霍夫变化和镜头畸变校正和基于空间域的图像增强;
3)连通域分析进行文本块分割。将图像转化为二值图像、进行膨胀处理,作连通性分析后对每个连通域取外接矩形得到分割的文本块;
4)识别表格线;通过腐蚀膨胀卷积核识别表格横竖线,并标识出表格交点位置坐标,通过相减擦除表格线
5)以识别出的表格线为基准,基于CTPN+CRNN网络模型对图像文本进行检测和识别,CTPN负责检测文本区域,CRNN对检测到的文本区域进行文本识别;
6)还原表格;还原表格结构,并将5)中识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中
7)通过将检测识别的结果,与工号、姓名、日期、业务等已有信息进行规则匹配,完成进一步信息验证,最终实现民航文档结构化信息录入。
请参阅图2:民航文档数据识别录入方法的中间结果图,其中图2(a)为对飞行记录本进行表格识别后的二值化结果,从结果可以看出,本方法将图像中的表格进行了准确的识别,为后面表格内信息的结构化录入奠定了基础。图2(b)为飞行记录本版面分析结果,从结果可以看出,本方法将图像中的区域实现了较好的定位,再结合(a)中表格识别结果,可将民航文档数据实现准确高效的信息录入。
一种民航文档数据识别录入系统,包括:
图像获取模块、使用设备为扫描仪、手机、摄像机或各种高清图像获取设备对民航文档进行拍摄;
图像预处理模块、图像预处理,具体包括对图像进行灰度化、二值化,霍夫变化和镜头畸变校正和基于空间域的图像增强;
分割模块、将图像转化为二值图像、进行膨胀处理,作连通性分析后对每个连通域取外接矩形得到分割的文本块;
表格线识别模块、识别表格线,通过腐蚀膨胀卷积核识别表格横竖线,并标识出表格交点位置坐标,通过相减擦除表格线
检测识别模块、以识别出的表格线为基准,基于CTPN+CRNN网络模型对图像文本进行检测和识别,CTPN负责检测文本区域,CRNN对检测到的文本区域进行文本识别;
表格还原模块、还原表格结构,并将检测识别模块中识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中
结果输出模块、通过将检测识别的结果,与工号、姓名、日期、业务等已有信息进行规则匹配,完成进一步信息验证,最终实现民航文档结构化信息录入。
上述技术方案包括图像采集定位技术、图像预处理技术、版面分析技术、表格识别技术、文字检测和识别技术、表格还原技术、信息结构化录入和管理等技术。
一种实现上述民航文档数据识别录入方法的信息数据处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的民航文档数据识别录入方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (10)

1.一种民航文档数据识别录入方法,其特征在于,包括如下步骤:
S1、获取民航文档的图像;
S2、图像预处理,具体包括对图像进行灰度化、二值化,霍夫变化和镜头畸变校正和基于空间域的图像增强;
S3、连通域分析进行文本块分割;
S4、表格线识别;
S5、文本检测识别,以识别出的表格线为基准,基于CTPN+CRNN网络模型对图像文本进行检测和识别,CTPN负责检测文本区域,CRNN对检测到的文本区域进行文本识别;
S6、还原表格;
S7、过将检测识别的结果,与工号、姓名、日期、业务等已有信息进行规则匹配,完成进一步信息验证,最终实现民航文档结构化信息录入。
2.根据权利要求1所述的民航文档数据识别录入方法,其特征在于,所述S1具体为:使用设备为扫描仪、手机、摄像机或各种高清图像获取设备对民航文档进行拍摄。
3.根据权利要求1所述的民航文档数据识别录入方法,其特征在于,所述S3具体为:先将图像转化为二值图像,然后进行膨胀腐蚀处理,作连通性分析后对每个连通域取外接矩形得到分割的文本块。
4.根据权利要求1所述的民航文档数据识别录入方法,其特征在于,所述S4具体为:通过腐蚀膨胀卷积核识别表格横竖线,并标识出表格交点位置坐标,通过相减擦除表格线。
5.根据权利要求1所述的民航文档数据识别录入方法,其特征在于,所述S6具体为:通过S4中得到的表格线交点坐标,利用XlsxWriter函数将交点间存在像素的点进行连接合并,将表格重新还原至EXCEL图表中;对S5中识别文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中。
6.一种民航文档数据识别录入系统,其特征在于,包括:
图像获取模块、获取民航文档的图像;
图像预处理模块、图像预处理,具体包括对图像进行灰度化、二值化,霍夫变化和镜头畸变校正和基于空间域的图像增强;
分割模块、连通域分析进行文本块分割;
表格线识别模块、识别表格线;
检测识别模块、以识别出的表格线为基准,基于CTPN+CRNN网络模型对图像文本进行检测和识别,CTPN负责检测文本区域,CRNN对检测到的文本区域进行文本识别;
表格还原模块、还原表格结构,并将S5中识别的文字结果的包围框位置进行排序,将其分别放置在对应的表格模块中
结果输出模块、通过将检测识别的结果,与工号、姓名、日期、业务等已有信息进行规则匹配,完成进一步信息验证,最终实现民航文档结构化信息录入。
7.根据权利要求6所述的民航文档数据识别录入系统,其特征在于,分割模块中:先将图像转化为二值图像、进行膨胀处理,作连通性分析后对每个连通域获取外接矩形得到分割的文本块;
表格线识别模块中:通过腐蚀膨胀卷积核识别表格横竖线,并标识出表格交点位置坐标,通过相减擦除表格线。
8.根据权利要求6所述的民航文档数据识别录入系统,其特征在于,表格还原模块中:通过表格线识别模块中得到的表格线交点坐标,利用XlsxWriter函数将交点间存在像素的点进行连接合并,将表格重新还原至EXCEL图表中。
9.一种实现权利要求1至5任一项所述民航文档数据识别录入方法的信息数据处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至5任一项所述民航文档数据识别录入方法。
CN202111159702.0A 2021-09-30 2021-09-30 民航文档数据识别录入方法及系统 Pending CN113850060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111159702.0A CN113850060A (zh) 2021-09-30 2021-09-30 民航文档数据识别录入方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111159702.0A CN113850060A (zh) 2021-09-30 2021-09-30 民航文档数据识别录入方法及系统

Publications (1)

Publication Number Publication Date
CN113850060A true CN113850060A (zh) 2021-12-28

Family

ID=78977327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111159702.0A Pending CN113850060A (zh) 2021-09-30 2021-09-30 民航文档数据识别录入方法及系统

Country Status (1)

Country Link
CN (1) CN113850060A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419647A (zh) * 2021-12-31 2022-04-29 北京译图智讯科技有限公司 一种表格信息提取方法及系统
CN114783584A (zh) * 2022-03-09 2022-07-22 广州方舟信息科技有限公司 一种药品随货同行单的录单方法及装置
CN115713777A (zh) * 2023-01-06 2023-02-24 山东科技大学 一种合同文件内容识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419647A (zh) * 2021-12-31 2022-04-29 北京译图智讯科技有限公司 一种表格信息提取方法及系统
CN114783584A (zh) * 2022-03-09 2022-07-22 广州方舟信息科技有限公司 一种药品随货同行单的录单方法及装置
CN115713777A (zh) * 2023-01-06 2023-02-24 山东科技大学 一种合同文件内容识别方法

Similar Documents

Publication Publication Date Title
AU2017302250B2 (en) Optical character recognition in structured documents
CN113850060A (zh) 民航文档数据识别录入方法及系统
CN111460138B (zh) 一种基于bim的数字化工程监理方法与系统
US11106891B2 (en) Automated signature extraction and verification
CN111369545A (zh) 边缘缺陷检测方法、装置、模型、设备及可读存储介质
WO2021012382A1 (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN108304815B (zh) 一种数据获取方法、装置、服务器及存储介质
CN107748780B (zh) 一种回收站文件的恢复方法和装置
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
CN116052193B (zh) Rpa界面动态表格的拾取和匹配方法及系统
CN110738030A (zh) 表格重建方法、装置、电子设备及存储介质
US20230045715A1 (en) Text detection method, text recognition method and apparatus
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN114495146A (zh) 图像文本检测方法、装置、计算机设备及存储介质
CN114283416A (zh) 车险理赔图片的处理方法和装置
CN113159029A (zh) 一种图片中局部信息精准抓取的方法和系统
CN116050379A (zh) 文档对比方法及存储介质
CN111291758B (zh) 用于识别印章文字的方法和装置
CN112364790B (zh) 基于卷积神经网络的机场工作单信息识别方法及系统
Van Nguyen et al. Digitalization of Administrative Documents A Digital Transformation Step in Practice
CN113158999B (zh) 基于模板匹配的电气设计图纸中端子跳线识别方法及装置
CN114998906B (zh) 文本检测方法、模型的训练方法、装置、电子设备及介质
CN116090422A (zh) 一种电力业扩表单的录入方法及装置
CN117496539A (zh) 形近字确定方法及装置、电子设备、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination