CN110413979A - 基于图像识别技术的行业表格数字化处理方法 - Google Patents

基于图像识别技术的行业表格数字化处理方法 Download PDF

Info

Publication number
CN110413979A
CN110413979A CN201910715902.6A CN201910715902A CN110413979A CN 110413979 A CN110413979 A CN 110413979A CN 201910715902 A CN201910715902 A CN 201910715902A CN 110413979 A CN110413979 A CN 110413979A
Authority
CN
China
Prior art keywords
model
text
industry
file
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910715902.6A
Other languages
English (en)
Inventor
李炯梅
李婵一
杨彦
薛龙江
王祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golden Tax Bridge Big Data Technology Co Ltd
Original Assignee
Golden Tax Bridge Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golden Tax Bridge Big Data Technology Co Ltd filed Critical Golden Tax Bridge Big Data Technology Co Ltd
Priority to CN202211571003.1A priority Critical patent/CN115828874A/zh
Priority to CN201910715902.6A priority patent/CN110413979A/zh
Publication of CN110413979A publication Critical patent/CN110413979A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于图像识别技术的行业表格数字化处理方法,通过加载深度学习训练出的OCR文字检测模型和文字识别模型以及各行业相关各类表格的模型数据,区分普通的图片或者pdf类型的文件,对于pdf类型文件还可以根据每页的内容区分每页的表格属于那种报表类型;其次检测表格中的文字区域,预测表格的形态,对于没有表格的文件根据文本预测出排列的规则,根据用户指定的类型,或者系统内置类型自动生成新的表格。对检测出的表格内容进行文字识别,提取关键字以及数值,形成数字化的输出结果;从而为后续的应用提供可靠的数据支持,应用在财税类型这个最为复杂的行业中,可大大提高工作效率。

Description

基于图像识别技术的行业表格数字化处理方法
技术领域
本发明涉及计算机信息处理技术领域,特别是一种表格的数字化处理方法。
背景技术
伴随各行各业信息化进程地不断加快,产生了大量多源、异构、多维、海量的业务数据,而很多历史数据是纸质的并且包含各式各样的表格,或者本身文件中没有表格,但是在后续处理中行业分析人员需要将数据按表格分布的规则进行处理,将这类纸质文件进行识别,并根据各行业不同类型文件的特殊性质进行进一步的处理,将关键字和其相对应的数值提取出来,最终将纸质文件数字化并进行后续的分析处理。因此表格的数字化处理具有非常大的现实意义和应用空间。
相关的技术包括阿里云通用OCR识别接口、百度OCR识别接口以及有道表格识别接口等。但是这些识别接口对于表格的处理功能非常有限,有的无法识别出带表格的文件,有的支持表格类专项识别,但是只能处理非常简单的二维行列表格,一遇到合并单元格的情况就无法正确的进行识别,对于专业行业类表格也没有专门提供接口支持,大部分文件都不能够正确的返回识别结果,所以更加无法参与下一步数据与键值相对应、进行数字化处理分析的过程中去。
中国专利CN105589841B公开了一种PDF文档表格识别的方法,首先获取页面中字符集,并将所述字符集合并成行,建立行集合;再提取页面路径中水平线与垂直线,建立线集合;之后检测行集合中的疑似表标题与线集合中的疑似表格线;若同时存在疑似表标题和疑似表格线,则采用基于表标题和线集合的区域生长法识别表格;若仅存在疑似表格线,则用线集合和行集合先检测全线表再检测三线表;若仅存在疑似表标题,则用基于表标题和行集合的区域生长法识别表格;若既无疑似表格线也无疑似表标题,则判定该页无表格;检测表头、表注表格附属元素,输出该页表格识别结果。
中国专利申请CN109522816A提供了一种表格识别方法及装置、计算机存储介质。所述方法包括:检测待处理图像中第一表格的表格结构获得表格结构信息,并识别第一表格的表格内容获得与所述表格内容相对应的文本信息;根据所述表格结构信息绘制第二表格;将所述文本信息填充到第二表格中。
上述两篇文件虽然能够对表格进行专项处理,但是只适用于普通的表格,无法实现对复杂业务表格例如财税类型复杂多样的表格类型进行归纳处理,并且不能将识别出的结果进行进一步关键字和数值对应的处理,这样就难对复杂的表格类文件输出完全符合要求的数据,也就无法进行后续数字化的应用。同时,对于没有表格的文件就会直接输出无表格的结果,并没有考虑到如果仅仅是在形式上没有表格,但是数据的排列还是按照表的规则排列的这种更为复杂的情况。
发明内容
本发明需要解决的技术问题是提供一种行业表格的数字化处理方法,能够针对不同类型的表格进行处理,并形成数字化的处理结果,为后续工作提供基础。
为解决上述技术问题,本发明所采取的技术方案如下。
基于图像识别技术的行业表格数字化处理方法,主要包括以下步骤:
A.初始化系统,加载OCR文字检测模型、文字识别模型、行业报表数据模以及行业规范数据模型;
B.输入文件,并对文件进行预处理;
C.判断文件类型,如为PDF文件进行步骤D,如非,直接进行步骤E;
D.拆分PDF文件,预测文字位置,切割小部分图片进行识别判断表格类型;
E.判断是否包含表格,如包含表格,则加载表格模型数据,进行文本识别;如不包含表格,则进行图片文本识别,并根据文本预测出排列的规则;
F.根据用户指定的类型,或者系统内置类型自动生成新的表格,将步骤E 中的文本填充到表格中,进行表格修复修正;
G.对步骤F中表格的内容进行文字识别,提取关键字和数值,生成excel 表,输出数字化结果。
上述图像识别技术的行业表格数字化处理方法,步骤C判断文件类型非PDF 文件时,首先预测表格类型,再进行步骤E。
上述图像识别技术的行业表格数字化处理方法,步骤A中所述OCR文字检测模型为CTPN,PIXEL_LINK模型,文字识别模型采用的是CRNN,DENSENET 模型,行业报表数据模型为自编基于四则运算已经符合行业计算方法的数学计算模型。
由于采用了以上技术方案,本发明所取得技术进步如下。
本发明不但可以处理普通的图片或者pdf类型的文件,同时还能够对复杂多样的表格类型进行归纳处理,对于普通表格可以完全复原表格的结构,对于没有表格的文件根据文本预测出排列的规则,并能够根据用户指定的类型或者系统内置类型自动生成新的表格,之后进行进一步关键字和数值对应的处理,形成数字化的输出结果,为后续的应用提供可靠的数据支持,应用在财税类型这个最为复杂的行业中,可大大提高工作效率。
附图说明
图1为本发明的流程图;
图2为本发明实施例中输入文件拆分后的原图;
图3为本发明实施例中对文件处理后的示意图;
图4为本发明实施例中产生的结果图。
具体实施方式
下面将结合附图和具体实施例对本发明进行进一步详细说明。
一种基于图像识别技术的行业表格数字化处理方法,用于对纸质文档中的表格数据进行数字化处理,并形成电子版的excel表格,为后续工作提供数据支持,该方法的流程如图1所示,主要包括以下步骤。
A.初始化系统,加载OCR文字检测模型、文字识别模型、行业报表数据模以及行业规范数据模型。OCR文字检测模型为CTPN,PIXEL_LINK模型,文字识别模型采用的是CRNN,DENSENET模型,行业报表数据模型为自编基于四则运算已经符合行业计算方法的数学计算模型。
B.输入文件,并对文件进行预处理。预处理的方式包括去水印,旋转矫正,噪点去除。
C.判断文件类型,即输入的文件是PDF文件还是普通的图片文件,如为PDF 文件进行步骤D,如为图片文件,首先预测表格类型,再进行步骤E。
D.拆分PDF文件,预测文字位置,切割小部分图片进行识别判断表格类型。
本实施例,输入一个pdf文件,该pdf文件包含3张图片,按照步骤D中将pdf按页数拆分成分别的图片,之后在对每张图片进行单独处理。
E.判断是否包含表格,如包含表格,则加载表格模型数据,进行文本识别;如不包含表格,则进行图片文本识别,并根据文本预测出排列的规则。
本实施例中,图片中的2幅图本身没有表格,但是使用者可以指定他需要按照表格进行识别,所以根据文件类型来为图片添加上表格。例如原图如图2 所示,自动添加线后预览图如图3所示。
F.根据用户指定的类型,或者系统内置类型自动生成新的表格,将步骤E 中的文本填充到表格中,进行表格修复修正。
G.对步骤F中表格的内容进行文字识别,提取关键字和数值,生成excel 表,输出数字化结果。
本步骤对新的带表格的图片进行识别,提取关键字和竖直,生成Excel格式的识别结果,如图4所示。

Claims (3)

1.基于图像识别技术的行业表格数字化处理方法,其特征在于,主要包括以下步骤:
A.初始化系统,加载OCR文字检测模型、文字识别模型、行业报表数据模以及行业规范数据模型;
B.输入文件,并对文件进行预处理;
C.判断文件类型,如为PDF文件进行步骤D,如非,直接进行步骤E;
D.拆分PDF文件,预测文字位置,切割小部分图片进行识别判断表格类型;
E.判断是否包含表格,如包含表格,则加载表格模型数据,进行文本识别;如不包含表格,则进行图片文本识别,并根据文本预测出排列的规则;
F.根据用户指定的类型,或者系统内置类型自动生成新的表格,将步骤E中的文本填充到表格中,进行表格修复修正;
G.对步骤F中表格的内容进行文字识别,提取关键字和数值,生成excel表,输出数字化结果。
2.根据权利要求1所述的图像识别技术的行业表格数字化处理方法,其特征在于:步骤C判断文件类型非PDF文件时,首先预测表格类型,再进行步骤E。
3.根据权利要求1所述的图像识别技术的行业表格数字化处理方法,其特征在于:步骤A中所述OCR文字检测模型为CTPN,PIXEL_LINK模型,文字识别模型采用的是CRNN,DENSENET模型,行业报表数据模型为自编基于四则运算已经符合行业计算方法的数学计算模型。
CN201910715902.6A 2019-08-05 2019-08-05 基于图像识别技术的行业表格数字化处理方法 Pending CN110413979A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211571003.1A CN115828874A (zh) 2019-08-05 2019-08-05 基于图像识别技术的行业表格数字化处理方法
CN201910715902.6A CN110413979A (zh) 2019-08-05 2019-08-05 基于图像识别技术的行业表格数字化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910715902.6A CN110413979A (zh) 2019-08-05 2019-08-05 基于图像识别技术的行业表格数字化处理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202211571003.1A Division CN115828874A (zh) 2019-08-05 2019-08-05 基于图像识别技术的行业表格数字化处理方法

Publications (1)

Publication Number Publication Date
CN110413979A true CN110413979A (zh) 2019-11-05

Family

ID=68365805

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211571003.1A Pending CN115828874A (zh) 2019-08-05 2019-08-05 基于图像识别技术的行业表格数字化处理方法
CN201910715902.6A Pending CN110413979A (zh) 2019-08-05 2019-08-05 基于图像识别技术的行业表格数字化处理方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202211571003.1A Pending CN115828874A (zh) 2019-08-05 2019-08-05 基于图像识别技术的行业表格数字化处理方法

Country Status (1)

Country Link
CN (2) CN115828874A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507230A (zh) * 2020-04-11 2020-08-07 创景未来(北京)科技有限公司 一种文档和表格数据的识别和提取方法及系统
CN112528599A (zh) * 2020-12-15 2021-03-19 信号旗智能科技(上海)有限公司 基于xml的多页文档处理方法、装置、计算机设备及介质
CN112905733A (zh) * 2021-02-02 2021-06-04 嘉应学院 一种基于ocr识别技术的图书保存方法、系统及装置
CN116935396A (zh) * 2023-06-16 2023-10-24 北京化工大学 一种基于crnn算法的ocr高考招生指南智能采集方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976232A (zh) * 2010-09-19 2011-02-16 深圳市万兴软件有限公司 一种识别文档中数据表格的方法及装置
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN109271613A (zh) * 2018-09-25 2019-01-25 四川译讯信息科技有限公司 一种pdf文件解析方法
CN109670477A (zh) * 2018-12-28 2019-04-23 上海大智慧财汇数据科技有限公司 面向pdf表格的自动识别系统和方法
CN109840519A (zh) * 2019-01-25 2019-06-04 青岛盈智科技有限公司 一种自适应的智能单据识别录入装置及其使用方法
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976232A (zh) * 2010-09-19 2011-02-16 深圳市万兴软件有限公司 一种识别文档中数据表格的方法及装置
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN109271613A (zh) * 2018-09-25 2019-01-25 四川译讯信息科技有限公司 一种pdf文件解析方法
CN109670477A (zh) * 2018-12-28 2019-04-23 上海大智慧财汇数据科技有限公司 面向pdf表格的自动识别系统和方法
CN109840519A (zh) * 2019-01-25 2019-06-04 青岛盈智科技有限公司 一种自适应的智能单据识别录入装置及其使用方法
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507230A (zh) * 2020-04-11 2020-08-07 创景未来(北京)科技有限公司 一种文档和表格数据的识别和提取方法及系统
CN112528599A (zh) * 2020-12-15 2021-03-19 信号旗智能科技(上海)有限公司 基于xml的多页文档处理方法、装置、计算机设备及介质
CN112528599B (zh) * 2020-12-15 2024-05-10 信号旗智能科技(上海)有限公司 基于xml的多页文档处理方法、装置、计算机设备及介质
CN112905733A (zh) * 2021-02-02 2021-06-04 嘉应学院 一种基于ocr识别技术的图书保存方法、系统及装置
CN116935396A (zh) * 2023-06-16 2023-10-24 北京化工大学 一种基于crnn算法的ocr高考招生指南智能采集方法
CN116935396B (zh) * 2023-06-16 2024-02-23 北京化工大学 一种基于crnn算法的ocr高考招生指南智能采集方法

Also Published As

Publication number Publication date
CN115828874A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN110413979A (zh) 基于图像识别技术的行业表格数字化处理方法
Neudecker et al. A survey of OCR evaluation tools and metrics
KR20160132842A (ko) 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법
US9740995B2 (en) Coordinate-based document processing and data entry system and method
CN111259873B (zh) 一种表格数据提取方法及装置
AU2022305355A1 (en) Ai-augmented auditing platform including techniques for automated document processing
CN105631393A (zh) 信息识别方法及装置
CN105912645A (zh) 一种智能问答方法及装置
US11341319B2 (en) Visual data mapping
US20220121821A1 (en) Extracting data from documents using multiple deep learning models
US11887011B2 (en) Schema augmentation system for exploratory research
WO2014064803A1 (ja) 文書処理プログラム、文書処理装置、文書処理システム、文書処理方法
US20170286386A1 (en) Method and apparatus for extracting areas
CN110765402A (zh) 一种基于网络资源的可视化采集系统及采集方法
CN116090560B (zh) 基于教材的知识图谱建立方法、装置及系统
CN113050933B (zh) 脑图数据处理方法、装置、设备及存储介质
CN113407678B (zh) 知识图谱构建方法、装置和设备
CN115455930A (zh) 一种报告文档处理方法、装置、电子设备及存储介质
CN116798055A (zh) 表单录入方法及装置、电子设备和计算机可读介质
CN114115831A (zh) 数据处理方法、装置、设备和存储介质
CN114461809A (zh) 中文文摘语义知识图谱自动生成方法和设备
KR20220058257A (ko) 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치
CN110457659B (zh) 条款文档生成方法及终端设备
US20230305863A1 (en) Self-Supervised System for Learning a User Interface Language
JP2762934B2 (ja) テスト項目設計支援システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191105