CN103714047A - 横向校对和输出双层pdf的方法和装置 - Google Patents

横向校对和输出双层pdf的方法和装置 Download PDF

Info

Publication number
CN103714047A
CN103714047A CN201310558843.9A CN201310558843A CN103714047A CN 103714047 A CN103714047 A CN 103714047A CN 201310558843 A CN201310558843 A CN 201310558843A CN 103714047 A CN103714047 A CN 103714047A
Authority
CN
China
Prior art keywords
character
picture
image
character picture
double
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310558843.9A
Other languages
English (en)
Other versions
CN103714047B (zh
Inventor
段雅东
陈永生
高志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhong Xian Electronic Technology Development Co ltd
Original Assignee
INTELLECTUAL PROPERTY PUBLISHING HOUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INTELLECTUAL PROPERTY PUBLISHING HOUSE filed Critical INTELLECTUAL PROPERTY PUBLISHING HOUSE
Priority to CN201310558843.9A priority Critical patent/CN103714047B/zh
Publication of CN103714047A publication Critical patent/CN103714047A/zh
Application granted granted Critical
Publication of CN103714047B publication Critical patent/CN103714047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

一种横向校对和输出双层PDF的方法和装置,涉及文字处理领域。本发明实施例提供的方法,包括如下步骤:从OCR识别引擎记录的每个字符在图像中的外接矩形的位置导入行图像和字符图像的位置;修改错误文字和修改文字位置;根据字符图像位置和大小输出双层PDF文件。本发明适用于文字校对、双层PDF文件加工系统。本发明为解决目前书籍资料电子化生成双层PDF过程中文字位置校正精度低、效率低的问题而发明。利用OCR识别的文字位置信息导入行图像和字符图像的位置,在文字校对的过程中,通过拆分、合并和调整字符图像位置,使输出的双层PDF文件文字层和图像层完全重合,相对之前的双层PDF生成方法,本发明大大减少了修改工作量,提高了双层PDF质量,以所见即所得的方式生成双层PDF文件。

Description

横向校对和输出双层PDF的方法和装置
技术领域
本发明属于文字处理领域,涉及一种数据校对和输出双层PDF的方法和装置,具体涉及一种横向校对和输出双层PDF的方法和装置。
背景技术
一个完整的数据校对和输出双层PDF的系统分为以下部分:纸质资料的扫描、图像处理、图像版面分析、字符识别、横向校对、输出双层PDF、修改PDF文字层字符大小和位置。
横向校对就是以字符为背景,调用字符所对应的图像与字符进行比对,同时,以颜色标记识别可信度和修改过的文字。由于以字符为背景,无法在校对过程中修改字符图像拆分错误和调整字符图像精度,使输出的双层PDF文件文字层和图像层对应的精度低,字符大小不准确。后期使用其他工具修改字符大小和位置的工作量非常大。
发明内容
本发明所要解决的技术问题是提出一种横向校对方法和装置,将对于文档中识别转换时拆分错误的字符图像进行合并和拆分,调整字符图像位置,使字符位置和字符图像位置一一精确对应,使输出的双层PDF文件和该装置校对时的效果达到所见即所得的效果。提高了校对效率和输出精度。
本发明公开了一种横向校对和输出双层PDF的方法,包括以下步骤:
步骤1:从OCR识别引擎记录的每个字符在图像中的外接矩形的位置导入行图像和字符图像的位置;
步骤2:修改字符和字符图像位置;
步骤3:根据字符图像位置和大小输出双层PDF文件;
所述步骤1包括以下步骤:
步骤1.1:根据每个字符在图像中的位置,分析出行图像,计算出行图像的位置。
步骤1.2:根据每个字符在图像中的位置和所在行图像的位置,使用行图像的上下边界和字符图像左右边界形成的矩形框得到字符图像的位置。
所述步骤2包括以下步骤:
步骤2.1:浏览字符图像和字符文字,查找错误字符和位置错误的文字图像;
步骤2.2:对识别成多个字符结果的字符图像进行合并处理;对识别成单个字符结果的多个字符图像进行拆分处理;修改错误的文字;调整字符图像的位置和大小; 
所述步骤2.1中,有以下几种显示方式:
方式3.1:以图像为背景,文字行显示在图像行的上方或下方;
方式3.2:以图像为背景,文字行和图像行完全重合;
方式3.3:文字行和图像行交错显示;
所述步骤2.1中,文字行和图像行有以下几种对齐方式:
方式4.1:文字行中每个字符相对于图像行中的字符图像居中对齐;
方式4.2:文字行整行相对于图像行居中对齐;
所述步骤2.2的合并处理是:合并所述多个字符结果的外接矩形,得到正确的字符图像。
所述步骤2.2的拆分处理是:将选中的字符图像外接矩形分成左右两个字符图像。
所述步骤2.2的调整字符图像的位置和大小是:调整字符图像的外接矩形的大小和位置,选中字符图像,调整外接矩形框的宽度、高度或者位置。
所述步骤3中输出双层PDF文件时根据行图像高度计算字体大小,根据文字图像中心位置计算输出字符的中心位置。
本发明还公开了一种横向校对和输出双层PDF的装置,其特征在于:包括以下模块:
输入模块,从OCR识别引擎记录的每个字符在图像中的外接矩形的位置导入行图像和字符图像的位置;
校对模块,修改字符和字符图像位置; 
输出模块,根据字符图像位置和大小输出双层PDF文件。
 
OCR识别过程中,存在文字识别错误和文字图像拆分错误,一个字符图像被识别成多个字符,多个字符图像被识别成一个字符。传统的校对方式是以识别后的文字为背景,只能修改识别错误的文字,无法修改文字和图像的对应关系。本发明横向校对和输出双层PDF的方法和装置的优点在于:在横向校对时以图像为背景,提取每个文字图像行对应的字符行进行校对,校对过程中可以相对于每个字符图像对齐显示字符,可以拆分、合并和调整文字对应的图像位置。在输出双层PDF时,使用文字对应的图像的大小计算文字大小和位置输出。使输出的双层PDF文件和该装置校对时的效果达到所见即所得的效果。提高了校对效率和输出精度。
附图说明
图1为本发明横向校对方法和输出双层PDF的流程图;
图2为本发明横向校对和输出双层PDF方法在拆分前显示状态图;
图3为本发明横向校对和输出双层PDF方法在拆分后显示状态图;
图4为本发明横向校对和输出双层PDF方法在合并前显示状态图;
图5为本发明横向校对和输出双层PDF方法在合并后显示状态图;
图6为本发明横向校对和输出双层PDF方法在改正文字和调整字符图像位置后显示状态图;
图7为本发明横向校对和输出双层PDF方法在输出前显示状态图;
图8为本发明横向校对和输出双层PDF方法在输出后显示状态图;
图9为本发明数据标引导入字符外接矩形和生成文字行的算法流程。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明公开了一种横向校对和输出双层PDF的方法,如图1所示,包括以下步骤:
步骤1:从OCR识别引擎记录的每个字符在图像中的外接矩形的位置,根据每个文字外接矩形构建文字行的位置。如果文字外接矩形上边缘小于文字行下边缘,文字行上边缘小于文字外接矩形下边缘,那么认定该文字在该行中。文字行外接矩形是该行中所有文字外接矩形的合并结果。具体算法流程见附图9。
步骤2:修改字符和字符图像位置;
逐行比对字符图像和字符图像对应的字符文字,找到错误字符和位置错误的文字图像。本实施例中,字符图像和对应的字符居中显示时,很容易发现错误的字符和不正确的字符拆分。如图2所示的是多个字符被识别成单个字符图像的情况。如图4所示的是单个字符被识别成多个字符图像的情况。
当一个字符图像被识别成多个字符结果时,进行合并处理,选中多个字符,合并这些字符的外接矩形,得到正确的字符图像。如图5所示的是合并后的处理结果。对识别成单个字符结果的多个字符图像进行拆分处理,将选中的字符图像外接矩形分成左右两个字符图像,如图3所示的是拆分后的处理结果。修改错误的文字;调整字符图像的外接矩形的大小和位置,选中字符图像,调整外接矩形框的宽度、高度或者位置。如图6所示的是改正文字和调整字符图像位置后的处理结果。
所述步骤2中,本实施例中有以下几种显示方式:
如图2、图3和图6所示以图像为背景,文字行显示在图像行的上方或下方;
如图7所示以图像为背景,文字行和图像行完全重合;
如图4和图5所示,文字行和图像行交错显示;
所述步骤2中,本实施例中文字行和图像行有以下几种对齐方式:
如图2和图4所示,文字行中每个字符相对于图像行中的字符图像居中对齐;
如图3和图5所示,文字行整行相对于图像行居中对齐;
所述步骤3中,本实施例先向PDF文件输出图像层,然后根据校对后字符图像位置,得到文本层的输出位置,根据字符图像外接矩形宽度得到文字大小,输出文本层。得到双层PDF文件,如图7所示是输出前,如图8所示是输出后同时显示文字和图像的效果图。
本发明还公开了一种横向校对和输出双层PDF的装置,包括以下模块:
一种横向校对和输出双层PDF的装置,包括以下模块:
输入模块,从OCR识别引擎记录的每个字符在图像中的外接矩形的位置导入行图像和字符图像的位置;其中,导入行图像和字符图像的位置包括:根据每个字符在图像中的位置,分析出行图像,计算出行图像的位置;根据每个字符在图像中的位置和所在行图像的位置,使用行图像的上下边界和字符图像左右边界形成的矩形框得到字符图像的位置;
校对模块,修改字符和字符图像位置;其中,修改字符和字符图像位置包括:浏览字符图像和字符文字,查找错误字符和位置错误的文字图像;对识别成多个字符结果的字符图像进行合并处理;对识别成单个字符结果的多个字符图像进行拆分处理;修改错误的文字;调整字符图像的位置和大小;
输出模块,根据字符图像位置和大小输出双层PDF文件。
本发明首先对于文档中识别成单个字符的多个字符图像进行拆分,对于文档中识别成多个字符的单个字符图像进行合并,对精度错误的字符位置进行调整,得到字符图像和字符完全对应的结果,并且按多种显示方式显示,方便检查和改错。使字符位置和字符图像位置一一精确对应,使输出的双层PDF文件和该装置校对时的效果达到所见即所得的效果。提高了校对效率和输出精度。

Claims (8)

1.一种横向校对和输出双层PDF的方法,包括以下步骤:
步骤1:从OCR识别引擎记录的每个字符在图像中的外接矩形的位置导入行图像和字符图像的位置;
步骤2:修改字符和字符图像位置;
步骤3:根据字符图像位置和大小输出双层PDF文件;
其中,
所述步骤1的导入行图像和字符图像的位置,包括以下步骤:
步骤1.1:根据每个字符在图像中的位置,分析出行图像,计算出行图像的位置;
步骤1.2:根据每个字符在图像中的位置和所在行图像的位置,使用行图像的上下边界和字符图像左右边界形成的矩形框得到字符图像的位置;
所述步骤2的修改字符和字符图像位置,包括以下步骤:
步骤2.1:浏览字符图像和字符文字,查找错误字符和位置错误的文字图像;
步骤2.2:对识别成多个字符结果的字符图像进行合并处理;对识别成单个字符结果的多个字符图像进行拆分处理;修改错误的文字;调整字符图像的位置和大小。
2.根据权利要求1所述的方法,所述步骤2.1中,有以下几种显示方式:
方式3.1:以图像为背景,文字行显示在图像行的上方或下方;
方式3.2:以图像为背景,文字行和图像行完全重合;
方式3.3:文字行和图像行交错显示。
3.根据权利要求1所述的方法,所述步骤2.1中,文字行和图像行有以下几种对齐方式:
方式4.1:文字行中每个字符相对于图像行中的字符图像居中对齐;
方式4.2:文字行整行相对于图像行居中对齐。
4.根据权利要求1所述的方法,所述步骤2.2的合并处理是:合并所述多个字符结果的外接矩形,得到正确的字符图像。
5.根据权利要求1所述的方法,所述步骤2.2的拆分处理是:将选中的字符图像外接矩形分成左右两个字符图像。
6.根据权利要求1所述的方法,所述步骤2.2的调整字符图像的位置和大小是:调整字符图像的外接矩形的大小和位置,选中字符图像,调整外接矩形框的宽度、高度或者位置。
7.根据权利要求1所述的方法,所述步骤3中,输出双层PDF文件时根据行图像高度计算字体大小,根据文字图像中心位置计算输出文字的中心位置。
8.一种横向校对和输出双层PDF的装置,包括以下模块:
输入模块,从OCR识别引擎记录的每个字符在图像中的外接矩形的位置导入行图像和字符图像的位置;其中,导入行图像和字符图像的位置包括:根据每个字符在图像中的位置,分析出行图像,计算出行图像的位置;根据每个字符在图像中的位置和所在行图像的位置,使用行图像的上下边界和字符图像左右边界形成的矩形框得到字符图像的位置;
校对模块,修改字符和字符图像位置;其中,修改字符和字符图像位置包括:浏览字符图像和字符文字,查找错误字符和位置错误的文字图像;对识别成多个字符结果的字符图像进行合并处理;对识别成单个字符结果的多个字符图像进行拆分处理;修改错误的文字;调整字符图像的位置和大小;
输出模块,根据字符图像位置和大小输出双层PDF文件。
CN201310558843.9A 2013-11-12 2013-11-12 横向校对和输出双层pdf的方法和装置 Active CN103714047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310558843.9A CN103714047B (zh) 2013-11-12 2013-11-12 横向校对和输出双层pdf的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310558843.9A CN103714047B (zh) 2013-11-12 2013-11-12 横向校对和输出双层pdf的方法和装置

Publications (2)

Publication Number Publication Date
CN103714047A true CN103714047A (zh) 2014-04-09
CN103714047B CN103714047B (zh) 2017-10-10

Family

ID=50407040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310558843.9A Active CN103714047B (zh) 2013-11-12 2013-11-12 横向校对和输出双层pdf的方法和装置

Country Status (1)

Country Link
CN (1) CN103714047B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
CN109815187A (zh) * 2017-11-22 2019-05-28 江苏文心古籍数字产业有限公司 一种双层pdf生成装置的支撑结构
CN109948123A (zh) * 2018-11-27 2019-06-28 阿里巴巴集团控股有限公司 一种图像合并方法及装置
CN110083812A (zh) * 2018-01-26 2019-08-02 珠海金山办公软件有限公司 电子文档的图片布局方法及装置、电子设备
CN112667115A (zh) * 2020-12-22 2021-04-16 科大讯飞股份有限公司 文字显示方法以及电子设备、存储装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430676A (zh) * 2007-11-05 2009-05-13 北大方正集团有限公司 一种电子校对方法、系统及电子校对终端
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和系统
US8331739B1 (en) * 2009-01-21 2012-12-11 Google Inc. Efficient identification and correction of optical character recognition errors through learning in a multi-engine environment
CN102968407A (zh) * 2011-08-31 2013-03-13 汉王科技股份有限公司 双层pdf文件的构造方法及装置
CN103336759A (zh) * 2013-07-04 2013-10-02 力嘉包装(深圳)有限公司 一种印前图文自动校对装置与方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430676A (zh) * 2007-11-05 2009-05-13 北大方正集团有限公司 一种电子校对方法、系统及电子校对终端
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和系统
US8331739B1 (en) * 2009-01-21 2012-12-11 Google Inc. Efficient identification and correction of optical character recognition errors through learning in a multi-engine environment
CN102968407A (zh) * 2011-08-31 2013-03-13 汉王科技股份有限公司 双层pdf文件的构造方法及装置
CN103336759A (zh) * 2013-07-04 2013-10-02 力嘉包装(深圳)有限公司 一种印前图文自动校对装置与方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
安艳辉: "中英文混排字符切分方法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
郭金光: "双层PDF 技术及在档案数字化中的应用", 《陕西档案》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815187A (zh) * 2017-11-22 2019-05-28 江苏文心古籍数字产业有限公司 一种双层pdf生成装置的支撑结构
CN110083812A (zh) * 2018-01-26 2019-08-02 珠海金山办公软件有限公司 电子文档的图片布局方法及装置、电子设备
CN110083812B (zh) * 2018-01-26 2023-06-06 珠海金山办公软件有限公司 电子文档的图片布局方法及装置、电子设备
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
CN109492199B (zh) * 2018-10-17 2023-04-28 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
CN109948123A (zh) * 2018-11-27 2019-06-28 阿里巴巴集团控股有限公司 一种图像合并方法及装置
CN109948123B (zh) * 2018-11-27 2023-06-02 创新先进技术有限公司 一种图像合并方法及装置
CN112667115A (zh) * 2020-12-22 2021-04-16 科大讯飞股份有限公司 文字显示方法以及电子设备、存储装置

Also Published As

Publication number Publication date
CN103714047B (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
CN101206639B (zh) 一种基于pdf的复杂版面的标引方法
CN103714047A (zh) 横向校对和输出双层pdf的方法和装置
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
CN105159877B (zh) 一种跨媒体自动排版系统及其方法
CN110442744A (zh) 提取图像中目标信息的方法、装置、电子设备及可读介质
US8755595B1 (en) Automatic extraction of character ground truth data from images
CN103455814B (zh) 用于文档图像的文本行分割方法和系统
US8208737B1 (en) Methods and systems for identifying captions in media material
US20170220858A1 (en) Optical recognition of tables
US20130223743A1 (en) Model-based methods of document logical structure recognition in ocr systems
CN107679442A (zh) 单证信息录入的方法、装置、计算机设备及存储介质
CN110287998A (zh) 一种基于Faster-RCNN的科技文献图片提取方法
US8386943B2 (en) Method for query based on layout information
CN113901933B (zh) 基于人工智能的电子发票信息抽取方法、装置及设备
JP2004258706A (ja) 帳票定義データ作成方法および帳票処理装置
JP2011188465A (ja) 原稿レイアウトの方向検出方法及び装置
CN103440239A (zh) 一种基于功能区域识别的网页切分方法及装置
CN109726369B (zh) 一种基于标准文献的智能模板化题录技术实现方法
US20160180164A1 (en) Method for converting paper file into electronic file
CN103176956B (zh) 用于提取文档结构的方法和装置
CN102682457A (zh) 一种对平面媒体图像进行适应屏幕阅读的重排方法
CN107145888A (zh) 视频字幕实时翻译方法
CN101770452B (zh) 一种内容块自动排版的方法
US9886629B2 (en) Techniques for restoring content from a torn document

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: BEIJING ZHONGXIAN ELECTRONIC TECHNOLOGY DEVELOPMEN

Free format text: FORMER OWNER: INTELLECTUAL PROPERTY PRESS CO., LTD.

Effective date: 20140902

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 100088 No. 1 Madian South Village, Beijing, Haidian District

Applicant after: INTELLECTUAL PROPERTY PUBLISHING HOUSE CO.,LTD.

Address before: 100088 No. 1 Madian South Village, Beijing, Haidian District

Applicant before: INTELLECTUAL PROPERTY PUBLISHING HOUSE

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: INTELLECTUAL PROPERTY PUBLISHING HOUSE CO., LTD. TO: INTELLECTUAL PROPERTY PRESS CO., LTD.

TA01 Transfer of patent application right

Effective date of registration: 20140902

Address after: 100088 No. 1 Madian South Village, Beijing, Haidian District

Applicant after: BEIJING ZHONGXIAN ELECTRONIC TECHNOLOGY DEVELOPMENT CENTER

Address before: 100088 No. 1 Madian South Village, Beijing, Haidian District

Applicant before: INTELLECTUAL PROPERTY PUBLISHING HOUSE CO.,LTD.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100088 No. 1 South Village, Beijing, Madian

Patentee after: Beijing Zhong Xian Electronic Technology Development Co.,Ltd.

Address before: 100088 No. 1 South Village, Beijing, Madian

Patentee before: Beijing Zhongxian Electronic Technology Development Center

CP01 Change in the name or title of a patent holder