CN102855232B - 一种表格分析编改加工方法 - Google Patents
一种表格分析编改加工方法 Download PDFInfo
- Publication number
- CN102855232B CN102855232B CN201210338748.3A CN201210338748A CN102855232B CN 102855232 B CN102855232 B CN 102855232B CN 201210338748 A CN201210338748 A CN 201210338748A CN 102855232 B CN102855232 B CN 102855232B
- Authority
- CN
- China
- Prior art keywords
- word
- adapts
- analysis
- line
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种表格分析编改加工方法,所述方法包括:扫描文档、并对扫描后的文档图像进行处理;对扫描处理后的图像通过表格版面分析算法生成表格版面,并对生成的表格版面进行分析调整;将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对;对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对;对纵向编改后的字进行横向编改;根据表格版面信息和文字纵横向编改信息,合成电子表格文件。本发明对正常的纸质表格文档,编改效率可提高11倍,达到50万字/8小时;同时表格版面层次错误率低于3‰,编改文字错误率降低50%以上,低于0.5‰。
Description
技术领域
本发明涉及可应用于纸质表格电子化过程中表格数字化加工过程,尤其涉及一种表格分析编改加工方法。
背景技术
在纸质表格电子化的过程中,OCR软件很难准确的直接设别出复杂表格的结构和文字,因此OCR识别前的版面调整和识别后的文字编改工作均耗费了极大的人力,它是一项人力密集性工作,劳动强度也很高。目前的应用现状是:用普通OCR软件进行表格图像版面分析,对分析不准的表格结构进行调整或重画版面,经过识别后再进行一次编改校正,在保证没人4万字/8小时正常编改的速度下,编改的错误率通常也会超过1‰,而表格结构的错误率更加难以控制,通常会在1%以上。
由于表格数据的加工对精度要求极高,往往一字之差谬以千里,现有的数据加工模式远不能满足对精度的要求,而且应对海量数据加工的人工成本过高,因此需要开发一套符合特定生产要求的表格数据加工系统,提供一个自动化高效的数据加工平台辅助人工处理各种文献资料中大量的表格数据,以达到提高效率和质量,降低成本的目的。
发明内容
为解决上述中存在的表格数字化加工过程中人工编改效率低,错误率高的问题与缺陷,本发明提供了一种表格分析编改加工方法,该方法可以极大地提高人工编改的效率,降低成本。所述技术方案如下:
一种表格分析编改加工方法,包括:
步骤10扫描文档、并对扫描后的文档图像进行处理;
步骤20对扫描处理后的图像通过表格版面分析算法生成表格版面,并对生成的表格版面信息进行调整;
步骤30将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对;
步骤40对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对;
步骤50对纵向编改后的字进行横向编改;
步骤60根据表格版面信息和文字纵横向编改后的文字,合成电子表格文件。
本发明提供的技术方案的有益效果是:
对正常的纸质表格文档,编改效率可提高11倍,达到50万字/8小时;同时表格版面层次错误率低于3‰,编改文字错误率降低50%以上,低于0.5‰。
附图说明
图1是表格分析编改加工方法流程图;
图2是基于网络和数据库的表格分析编改加工流程系统图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
本实施例提供了一种表格分析编改加工方法,所述方法包括:
扫描文档、并对扫描后的文档图像进行处理;
对扫描处理后的图像通过表格版面分析算法生成表格版面,并对生成的表格版面信息进行调整;
将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对;
对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对;
对纵向编改后的字进行横向编改;
根据表格版面信息和文字纵横向编改信息,合成电子表格文件。
为提高OCR识别软件识别正确率,对文档统一采用300DPI精度进行扫描,随后对图像进行矫正、去污、去噪等处理。
上述表格版面信息包括:表格版面的单元格位置、语种、行列表头及数据区属性。
上述对扫描后的图像通过表格版面分析算法生成表格版面,检查版面分析结果,纠正错误结果,检查后,对图像缺陷进行必要的修补,保证表格结构分析正确。
上述表格版面分析算法包含以下内容:
表格线调整算法
经过初始行列扫描获得初始表格线存在较多干扰:由于表格图像页眉页脚线及文字粘连及加粗而错识的非表格线;由于图像质量造成的文字断线;由于表格样式规定省略的外围框线或者数据区的表格线等;因此要将这些初始表格线进行整理规则。非表格线剔除:利用页眉页脚线与表格线的位置及行列交叉交叉属性去除页眉页脚线,文字线周围联通区域特征性去除文字线。根据表格线的规则及数据排列特性实现数据区域表格线添加,表格断线处理。
单元格生成算法
运用基于表格知识的单元格生成算法,不只考虑单元格矩形的封闭特性,综合考虑直线包围棉结的大小等特征。单元格生成算法的主要内容:将检索处理后的横向表格线与纵向表格线分别按从上到下、从左到右排序。
嵌套单元格处理
针对统计年鉴中出现较多的嵌套表格,运用置虚边的方式将包含单元格分裂为两个具有虚边特征的单元格,在表格还原时利用虚边重构为包含特征的单元格。
单元格虚边处理
根据表格行表头区域单元格结构复杂但数据区多为通行同列的特性,分别采用基于单元格和基于表格整行整列线的分析方法:包括行表头根据每个单元格的边界局部特征分析虚边;对于数据区分析整个数据区表格线位置附近的像素特征,根据有效像素长度判断表格线的虚实情况,实现较好的效果。
单元格文字矩形分析
分析每个单元格内文字框易受到表格线的影响,采用先擦除表格线然后再利用算法跳过表格线以找到准确文字框。
无线、通栏及三线表格识别
通过选中单元格区域分析或者默认单个表格分析此类单元格。
表头表尾块的自动识别
根据表头表尾与表格的位置关系特征确定表头表尾块的起始终止位置,并根据文字的行列添加表格的表头表尾块信息。
列表头层次自动分析
从图像中的列表头每行的文字起始位置自动分析出其层次递进关系。
上述扫描图像和调整后的版面信息分别传入“FineReader”和“汉王”OCR识别软件进行双路识别。
“FineReader”和“汉王”是国内外对中文和英文都具有较高识别率的OCR系统,它们对清晰印刷体汉字图像识别率都在98%以上。通过对比测试,“FineReader”和“汉王”识别软件具有很强的互补性,我们利用它们的识别结果并进行逐个单元格逐字对比,过滤出具有相同的识别结果的文字,不进行人工编改;将识别不同字进行编改校对。
实际应用统计说明,对正常印刷体中英文字为主体的表格,无需编改的文字抛出率可达到95%,这部分文字的错误率达到0.3‰以下。
在双路比对前,针对应用需求,还对一些字符做了必要的全角字符转半角字符的归一化处理。这些字符包括A-Z、a-z、0-9、“!”、“[”、“]”等,共计80个字符。
上述对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对,所谓纵向编改,是将需要改的常见字汇集到一起集中批量修改,所有需要纵编的字都在段落中标红,编过的字标蓝,且图文对照。按40万字一批形成任务批次,可在一天内完成。
正常情况下,上述过程的编改量只占全部应编改工作量的5%。纵编有效的提高了编改的效率,减轻了编改的劳动强度。
为了提高系统整体的正确率,主动加入了一些易混字和易错字,并对易混字和易错字全部进行纵编。如“人、入、一、二、卜、白、儿等字。
对上述纵向编改后的字进行横向编改。横向编改即和图片对照逐个修改识别后的文字,所有需横编的字都在段落中标红,已纵编的字在段落中标绿,编过的字标蓝,且图文对照。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种表格分析编改加工方法,其特征在于,所述方法包括:
扫描文档、并对扫描后的文档图像进行处理;
对扫描处理后的图像通过表格版面分析算法生成表格版面,并对生成的表格版面信息进行调整,所述表格版面分析算法包括表格线调整算法、单元格生成算法、嵌套单元格处理、单元格虚边处理单元格文字矩形分析、无线、通栏及三线表格识别、表头表尾块的自动识别及列表头层次自动分析;
将扫描图像和调整后的版面信息分别传入识别软件进行双路识别和编改校对;
对双路识别中有矛盾且重复出现两次以上的字进行纵向编改校对;
对纵向编改后的字进行横向编改;
根据表格版面信息和纵横向编改后的文字,合成电子表格文件;
所述表格版面信息包括:表格版面的单元格位置、语种、行列表头及数据区属性;
所述表格线调整算法通过行列扫描获得初始表格线,合并表格线并剔除干扰线;剔除干扰线是利用页眉页脚与表格线的位置及行列交叉属性去除页眉页脚线;
所述单元格生成算法采用基于单元格知识的表格线遍历方法生成单元格;单元格生成算法的主要内容是将检索处理后的横向表格线与纵向表格线分别按从上到下、从左到右排序。
2.根据权利要求1所述的表格分析编改加工方法,其特征在于,所述对扫描后的文档图像进行处理包括矫正、去污、去噪。
3.根据权利要求1所述的表格分析编改加工方法,其特征在于,所述双路识别包括“FineReader”和“汉王”OCR识别软件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210338748.3A CN102855232B (zh) | 2012-09-14 | 2012-09-14 | 一种表格分析编改加工方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210338748.3A CN102855232B (zh) | 2012-09-14 | 2012-09-14 | 一种表格分析编改加工方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102855232A CN102855232A (zh) | 2013-01-02 |
CN102855232B true CN102855232B (zh) | 2016-02-24 |
Family
ID=47401825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210338748.3A Active CN102855232B (zh) | 2012-09-14 | 2012-09-14 | 一种表格分析编改加工方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102855232B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9397723B2 (en) | 2014-08-26 | 2016-07-19 | Microsoft Technology Licensing, Llc | Spread spectrum wireless over non-contiguous channels |
US9513671B2 (en) | 2014-08-01 | 2016-12-06 | Microsoft Technology Licensing, Llc | Peripheral retention device |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10191986B2 (en) | 2014-08-11 | 2019-01-29 | Microsoft Technology Licensing, Llc | Web resource compatibility with web applications |
US9705637B2 (en) | 2014-08-19 | 2017-07-11 | Microsoft Technology Licensing, Llc | Guard band utilization for wireless data communication |
US9805483B2 (en) | 2014-08-21 | 2017-10-31 | Microsoft Technology Licensing, Llc | Enhanced recognition of charted data |
US9524429B2 (en) | 2014-08-21 | 2016-12-20 | Microsoft Technology Licensing, Llc | Enhanced interpretation of character arrangements |
US9424048B2 (en) | 2014-09-15 | 2016-08-23 | Microsoft Technology Licensing, Llc | Inductive peripheral retention device |
CN106126491B (zh) * | 2016-06-29 | 2018-12-28 | 江苏中威科技软件系统有限公司 | 一种纸质表单转换为网页表单的方法及系统 |
CN107832676B (zh) * | 2017-10-16 | 2024-02-02 | 平安科技(深圳)有限公司 | 表格信息换行识别方法、电子设备及计算机可读存储介质 |
CN107844468A (zh) * | 2017-10-16 | 2018-03-27 | 平安科技(深圳)有限公司 | 表格信息跨页识别方法、电子设备及计算机可读存储介质 |
CN107818075A (zh) * | 2017-10-16 | 2018-03-20 | 平安科技(深圳)有限公司 | 表格信息结构化提取方法、电子设备及计算机可读存储介质 |
CN109190611A (zh) * | 2018-08-14 | 2019-01-11 | 江西师范大学 | 一种基于众包的互联网编修家谱系统 |
CN110399878B (zh) * | 2019-06-14 | 2023-05-26 | 南京火眼锐视信息科技有限公司 | 表格版式恢复方法,计算机可读介质以及计算机 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
CN110991144A (zh) * | 2019-12-03 | 2020-04-10 | 盛科网络(苏州)有限公司 | 固定格式文档的维护方法及维护系统 |
CN111753717B (zh) * | 2020-06-23 | 2023-07-28 | 北京百度网讯科技有限公司 | 用于提取文本的结构化信息的方法、装置、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923643A (zh) * | 2010-08-11 | 2010-12-22 | 中科院成都信息技术有限公司 | 通用表格识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452523B (zh) * | 2007-12-07 | 2011-01-26 | 汉王科技股份有限公司 | 一种识别手写表格的方法及装置 |
CN101676930A (zh) * | 2008-09-17 | 2010-03-24 | 北大方正集团有限公司 | 一种识别扫描图像中表格单元的方法及装置 |
CN101840514B (zh) * | 2009-03-19 | 2014-12-31 | 株式会社理光 | 图像对象分类装置及方法 |
CN101887519B (zh) * | 2010-08-16 | 2012-04-18 | 同方知网(北京)技术有限公司 | 文字识别、编改的方法 |
-
2012
- 2012-09-14 CN CN201210338748.3A patent/CN102855232B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923643A (zh) * | 2010-08-11 | 2010-12-22 | 中科院成都信息技术有限公司 | 通用表格识别方法 |
Non-Patent Citations (5)
Title |
---|
《一种改进的自动表格框线检测方法》;郑秀清等;《中国民航飞行学院学报》;20040722;第15卷(第4期);第3(2)断裂框线的补全与伪直线的去除小节 * |
《印刷表格文本分析识别系统的研究》;曾湘宁等;《中文信息学报》;19971210;第11卷(第4期);图6,图8(a),图8(b) * |
《基于多引擎的印刷体汉字识别系统的设计》;梁莹;《广西科学院学报》;20120421;第27卷(第4期);第2 系统的主要流程节,第1-6行;第3.1.2识别节,第5-8行; * |
《文本图像处理与表格图像识别算法研究》;王绪;《中国优秀硕士学位论文全文数据库(电子期刊)》;20100415;第3.2.1节;第3.3.4节;图36;第44页,第18-19行 * |
《版面分析中表格与图形的鉴别》;卜飞宇;《计算机工程与应用》;20040421(第12期);图1 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9513671B2 (en) | 2014-08-01 | 2016-12-06 | Microsoft Technology Licensing, Llc | Peripheral retention device |
US9397723B2 (en) | 2014-08-26 | 2016-07-19 | Microsoft Technology Licensing, Llc | Spread spectrum wireless over non-contiguous channels |
Also Published As
Publication number | Publication date |
---|---|
CN102855232A (zh) | 2013-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102855232B (zh) | 一种表格分析编改加工方法 | |
CN107633239B (zh) | 基于深度学习和ocr的票据分类及票据字段提取方法 | |
CN107133571A (zh) | 一种将纸质发票自动生成财务报表的系统及方法 | |
CN103049750B (zh) | 字符识别方法 | |
CN102567764A (zh) | 一种提高电子影像识别效率的票据凭证及系统 | |
CN107633055B (zh) | 一种将图片转成html文档的方法 | |
WO2019041527A1 (zh) | 文档图表抽取方法、电子设备及计算机可读存储介质 | |
CN102184383B (zh) | 一种印刷体字符图像样本的自动生成方法 | |
CN102722475A (zh) | 一种PDF文档中的表格转换成Excel表格的方法 | |
CN108830269B (zh) | 确定满文单词中轴线宽度的方法 | |
CN111626036B (zh) | 一种图文排版处理方法 | |
US10417516B2 (en) | System and method for preprocessing images to improve OCR efficacy | |
US20150070361A1 (en) | Character conversion system and a character conversion method | |
CN110163030A (zh) | 一种基于图像信息的pdf有边框表格抽取方法 | |
WO2019041442A1 (zh) | 图表数据结构化提取方法、系统、电子设备及计算机可读存储介质 | |
CN111368695A (zh) | 一种表格结构提取方法 | |
WO2023045277A1 (zh) | 一种将图像中表格转换为电子表格的方法及装置 | |
CN101887519A (zh) | 文字识别、编改的方法 | |
EP2110758B1 (en) | Searching method based on layout information | |
CN111914805A (zh) | 表格结构化方法、装置、电子设备及存储介质 | |
ZA200600238B (en) | System and method for storing a document in a serial binary format | |
CN109726369A (zh) | 一种基于标准文献的智能模板化题录技术实现方法 | |
CN103136453A (zh) | 文档操作题的自动组卷方法和自动阅卷方法 | |
CN106776527B (zh) | 电子书数据的显示方法、装置及终端设备 | |
CN117058157A (zh) | 一种cad图纸的切割与标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent for invention or patent application | ||
CB02 | Change of applicant information |
Address after: 100084 Beijing city Haidian District Huaye building of Tsinghua University Applicant after: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY CO., LTD. Address before: 100084 Beijing city Haidian District Tsinghua University Tsinghua Yuan 36 zone B1410, Huaye building 1412, room 1414 Applicant before: Tongfang Optical Disc Co., Ltd. |
|
COR | Change of bibliographic data |
Free format text: CORRECT: APPLICANT; FROM: TONGFANG OPTICAL DISC CO., LTD. TO: TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY CO., LTD. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |