CN109492199B - 一种基于ocr预判断的pdf文件转换方法 - Google Patents
一种基于ocr预判断的pdf文件转换方法 Download PDFInfo
- Publication number
- CN109492199B CN109492199B CN201811206109.5A CN201811206109A CN109492199B CN 109492199 B CN109492199 B CN 109492199B CN 201811206109 A CN201811206109 A CN 201811206109A CN 109492199 B CN109492199 B CN 109492199B
- Authority
- CN
- China
- Prior art keywords
- ocr
- page
- text
- pdf file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于OCR预判断的PDF文件转换方法,包括以下步骤:解析PDF文件,判断该PDF文件中各页面是否需要进行ocr;针对需要进行ocr的页面进行ocr,得到文本信息;针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息;通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。本发明通过对PDF文件的预解析,提高了PDF文字提取的正确率,在减少不必要的ocr识别的同时保证了文字提取的准确度并提高了PDF文件的转换效率,适用性强,转换效果好。
Description
技术领域
本发明属于PDF文件转换技术领域,具体涉及一种基于OCR预判断的PDF文件转换方法。
背景技术
PDF是Portable Document Format的缩写,是由Adobe公司开发的一种开放式的电子文件格式。PDF由PostScript编程语言发展而来,而PostScript当前依然作为主流的打印机编程语言广泛应用于专业出版领域。
PDF文件格式的优点在于,文件格式与软硬件以及操作系统平台无关,在Windows、Unix或Mac OS操作系统中都可以达到相同的显示效果,因此PDF成为网络上主流的电子文档格式,在数字化信息传播中充当着重要角色。但由于PDF文件中的文本信息不易提取、编辑、查询,通常需要通过一定的方法将PDF转换为便于编辑、处理、管理其内容的文件格式。
PDF文字提取方法即是提取PDF文件中包含的文字信息,并通过系列的信息处理过程转换为便于编辑的文件格式。
专利CN108038093A中公开了一种PDF文字提取方法和装置,具体是通过获取PDF页面中的各个文本对象的第一编码、字形位图、内嵌信息和字体信息判断该PDF页面是否需要进行ocr,由于PDF文件的特殊性,会有部分需要进行OCR识别的PDF文件被其判断为不需要进行ocr识别,判断准确性不高,提取出的文字可能出现较大偏差。
发明内容
本发明的目的在于:解决上述现有技术中的不足,提供一种基于OCR预判断的PDF文件转换方法,在减少不必要的ocr识别的同时保证了文字提取的准确度,适用性强,转换效果好。
为了实现上述目的,本发明采用的技术方案为:
一种基于OCR预判断的PDF文件转换方法,包括以下步骤:
步骤一:解析PDF文件,判断该PDF文件中各页面是否需要进行ocr;
步骤二:针对需要进行ocr的页面进行ocr,得到文本信息;针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息;
步骤三:通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。
进一步的,上述的步骤二中文本信息包括文字的内容、位置和尺寸。
进一步的,上述的步骤一中解析PDF文件后得到该PDF文件的单页图片对象数量、图片对象大小和整体页面大小的比值、文本对象长度、文本对象位置和文本对象内容。
进一步的,上述的步骤一中判断该PDF文件中各页面是否需要进行ocr的步骤具体为:
获取该PDF文件中各页面的字体信息,若该页面不包含字体信息或包含OCR字体,判定该页面需要进行OCR;
获取该PDF文件中各页面的文档属性信息,读取文档属性信息中的制作程序信息,若制作程序信息中显示该PDF文件由扫描软件或图片转换软件生成,判定该页面需要进行OCR;
获取该PDF文件中各页面的各个文本对象的渲染信息,若文本对象的渲染模式为不可见,判定该页面需要进行OCR;
获取该PDF文件中各页面的图片对象的数量信息和文字对象的数量信息,若图片对象的数量大于0,同时文字对象的数量为0或仅包含制作程序信息,判定该页面需要进行OCR;
若上述所有步骤中均未判定该页面需要进行OCR,则判定该页面不需要进行ocr。
进一步的,上述的步骤二中对需要进行ocr的页面进行ocr的步骤具体为:
步骤201:将需要进行ocr的页面转换为图片格式并进行图像增强;
步骤202:根据深度学习图像识别算法对bmp图片进行文字识别,得到bmp图片中所有文字的内容、位置和尺寸;
步骤203:将单个文字的内容,根据其位置和尺寸合并成段落并布局。
由于采用了上述技术方案,本发明的有益效果是:
本发明的基于OCR预判断的PDF文件转换方法通过对PDF文件的预解析,提高了PDF文字提取的正确率,在减少不必要的ocr识别的同时保证了文字提取的准确度并提高了PDF文件的转换效率,适用性强,转换效果好。
附图说明
图1为本发明的PDF文件转换方法流程示意图。
图2为本发明的判断是否需要ocr的实例示意图。
图3为本发明的判断是否需要ocr的实例示意图。
图4为本发明的判断是否需要ocr的实例示意图。
具体实施方式
参照附图1-4对本发明的实施方式做具体的说明。
如图1所示,一种基于OCR预判断的PDF文件转换方法,包括以下步骤:
步骤一:解析PDF文件,判断该PDF文件中各页面是否需要进行ocr;
步骤二:针对需要进行ocr的页面进行ocr,得到文本信息;针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息;
步骤三:通过PDF解析算法和Office文件重构算法将得到的文本信息为对应的可编辑文档。
我们将pdf扫描件、图片转成的PDF等以图片为主体的pdf文件称为图片类,图片类PDF无法直接提取到其文字信息,我们对这种PDF文件进行解析是无法获取到它的文本的,只有整页的图片。需通过光学字符识别(OCR)技术识别出图片中的文字。我们将可以直接解析出文本信息的pdf文件称为文本类pdf。比较直观的感受是,这类PDF中的文字可以通过鼠标选定,并且可以被复制出来成为和原文一致的文字。
本质上讲,通过PDF解析技术会发现PDF文件中存储有其文档的内容,文件中的图片存储为图片对象,文本通过一定的编码存储为文本对象。没有文本对象的PDF文件必定为图片类PDF,但反之是不成立的,因为实际情况是很复杂的,有文本对象的PDF文件不一定就不是图片类PDF。
进一步的,上述的步骤二中文本信息包括文字的内容、位置和尺寸。
进一步的,上述的步骤一中解析PDF文件后得到该PDF文件的单页图片对象数量、图片对象大小和整体页面大小的比值、文本对象长度、文本对象位置和文本对象内容。
进一步的,上述的步骤一中判断该PDF文件中各页面是否需要进行ocr的步骤具体为:
判断1:获取该PDF文件中各页面的字体信息,若该页面不包含字体信息或包含OCR字体,判定该页面需要进行OCR;
对于判断1来说,pdf文件中的OCR字体是由OCR功能的软件生成的,由于具体哪款软件生成的无从得知,其OCR识别效果是不可靠的,所以这种情况下,我们判断为需要进行OCR。若该pdf文件没有字体信息,表明该pdf是纯图片组成的,显然需要进行OCR。
判断2:获取该PDF文件中各页面的文档属性信息,读取文档属性信息中的制作程序信息,若制作程序信息中显示该PDF文件由扫描软件或图片转换软件生成,判定该页面需要进行OCR;
对于判断2来说,PDF文件中会带有其文件属性的描述,一些扫描软件或图片软件在生成pdf时会将自己的信息写入pdf文件属性中的制作程序信息,通过这个信息我们可以直接判断出需要进行OCR。
判断3:获取该PDF文件中各页面的各个文本对象的渲染信息,若文本对象的渲染模式为不可见,判定该页面需要进行OCR;
对于判断3来说,若文本对象的渲染模式是“不可见”,则该文本对象不会被显示出来。这种情况常见于一些通过扫描生成的OCR文件。如图2的文本对象的渲染模式就是不可见,扫描软件这样做是为了不让系统字体遮挡了原文字体的情况下展现出可以选定的效果。
判断4:获取该PDF文件中各页面的图片对象的数量信息和文字对象的数量信息,若图片对象的数量大于0,同时文字对象的数量为0或仅包含制作程序信息,判定该页面需要进行OCR;
对于判断4来说,不含有图片对象的文件必然不是扫描件、图片生成的pdf,所以必然不需要进行OCR。反之,不含有文字对象说明该PDF是由纯图片组成的,必然需要进行OCR。但对于既含有图片对象,又含有文字对象的PDF:
若其文本对象数量接近0,如只含有一个破折号文本对象的图3,而在图4中,其文字对象只包含制作程序信息(如“由……创建”),这种情况同样需要进行OCR。
若上述所有步骤中均未判定该页面需要进行OCR,则判定该页面不需要进行ocr。
进一步的,上述的步骤二中对需要进行ocr的页面进行ocr的步骤具体为:
步骤201:将需要进行ocr的页面转换为图片格式并进行图像增强;
步骤202:根据深度学习图像识别算法对bmp图片进行文字识别,得到bmp图片中所有文字的内容、位置和尺寸;
步骤203:将单个文字的内容,根据其位置和尺寸合并成段落并布局。
本发明的基于OCR预判断的PDF文件转换方法通过对PDF文件的预解析,提高了PDF文字提取的正确率,在减少不必要的ocr识别的同时保证了文字提取的准确度并提高了PDF文件的转换效率,适用性强,转换效果好。
Claims (3)
1.一种基于OCR预判断的PDF文件转换方法,其特征在于:包括以下步骤:
步骤一:解析PDF文件,判断该PDF文件中各页面是否需要进行ocr;
步骤二:针对需要进行ocr的页面进行ocr,得到文本信息;针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息;
步骤三:通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档;
所述的步骤一中判断该PDF文件中各页面是否需要进行ocr的步骤具体为:
获取该PDF文件中各页面的字体信息,若该页面不包含字体信息或包含OCR字体,判定该页面需要进行OCR;
获取该PDF文件中各页面的文档属性信息,读取文档属性信息中的制作程序信息,若制作程序信息中显示该PDF文件由扫描软件或图片转换软件生成,判定该页面需要进行OCR;
获取该PDF文件中各页面的各个文本对象的渲染信息,若文本对象的渲染模式为不可见,判定该页面需要进行OCR;
获取该PDF文件中各页面的图片对象的数量信息和文字对象的数量信息,若图片对象的数量大于0,同时文字对象的数量为0或仅包含制作程序信息,判定该页面需要进行OCR;
若上述所有步骤中均未判定该页面需要进行OCR,则判定该页面不需要进行ocr;
所述的步骤二中对需要进行ocr的页面进行ocr的步骤具体为:
步骤201:将需要进行ocr的页面转换为图片格式并进行图像增强;
步骤202:根据深度学习图像识别算法对bmp图片进行文字识别,得到bmp图片中所有文字的内容、位置和尺寸;
步骤203:将单个文字的内容,根据其位置和尺寸合并成段落并布局。
2.根据权利要求1所述的一种基于OCR预判断的PDF文件转换方法,其特征在于:所述的步骤二中文本信息包括文字的内容、位置和尺寸。
3.根据权利要求1所述的一种基于OCR预判断的PDF文件转换方法,其特征在于:所述的步骤一中解析PDF文件后得到该PDF文件的单页图片对象数量、图片对象大小和整体页面大小的比值、文本对象长度、文本对象位置和文本对象内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811206109.5A CN109492199B (zh) | 2018-10-17 | 2018-10-17 | 一种基于ocr预判断的pdf文件转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811206109.5A CN109492199B (zh) | 2018-10-17 | 2018-10-17 | 一种基于ocr预判断的pdf文件转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492199A CN109492199A (zh) | 2019-03-19 |
CN109492199B true CN109492199B (zh) | 2023-04-28 |
Family
ID=65690865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811206109.5A Active CN109492199B (zh) | 2018-10-17 | 2018-10-17 | 一种基于ocr预判断的pdf文件转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492199B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038093B (zh) * | 2017-11-10 | 2021-06-15 | 深圳市亿图软件有限公司 | Pdf文字提取方法和装置 |
CN110377885B (zh) * | 2019-06-14 | 2023-09-26 | 北京百度网讯科技有限公司 | 转换pdf文件的方法、装置、设备和计算机存储介质 |
CN110457276B (zh) * | 2019-08-06 | 2022-02-25 | 超级知识产权顾问(北京)有限公司 | Pdf文档可用程度解析系统及方法 |
CN111258963A (zh) * | 2019-11-04 | 2020-06-09 | 北京易优联科技有限公司 | Pdf文件的解析方法及装置 |
CN112084748A (zh) * | 2020-09-19 | 2020-12-15 | 神思电子技术股份有限公司 | 一种文本比对方法 |
CN112446373B (zh) * | 2020-12-15 | 2023-06-06 | 万兴科技(湖南)有限公司 | 识别转换图像文件的方法、系统、计算机设备及存储介质 |
CN113157642A (zh) * | 2021-03-19 | 2021-07-23 | 浪潮云信息技术股份公司 | 一种实现电子材料数字化流程自动化的方法 |
CN112861820A (zh) * | 2021-04-06 | 2021-05-28 | 刘羽 | 基于pdf文件解析的图谱截图抓取方法 |
CN113128175B (zh) * | 2021-04-19 | 2023-01-24 | 福建福昕软件开发股份有限公司 | 一种大批量pdf文件合并的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004078672A (ja) * | 2002-08-20 | 2004-03-11 | Canon Inc | 検索可能な文書フォーマットでのスキャン装置 |
CN103714047A (zh) * | 2013-11-12 | 2014-04-09 | 知识产权出版社 | 横向校对和输出双层pdf的方法和装置 |
CN107358208A (zh) * | 2017-07-14 | 2017-11-17 | 北京神州泰岳软件股份有限公司 | 一种pdf文档结构化信息提取方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441713B (zh) * | 2007-11-19 | 2010-12-08 | 汉王科技股份有限公司 | 一种pdf文件的光学字符识别方法及装置 |
CN101782896B (zh) * | 2009-01-21 | 2011-11-30 | 汉王科技股份有限公司 | 结合ocr技术的pdf文字提取方法 |
CN102110102A (zh) * | 2009-12-29 | 2011-06-29 | 北大方正集团有限公司 | 数据处理方法及装置、文件识别方法及工具 |
CN108038093B (zh) * | 2017-11-10 | 2021-06-15 | 深圳市亿图软件有限公司 | Pdf文字提取方法和装置 |
-
2018
- 2018-10-17 CN CN201811206109.5A patent/CN109492199B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004078672A (ja) * | 2002-08-20 | 2004-03-11 | Canon Inc | 検索可能な文書フォーマットでのスキャン装置 |
CN103714047A (zh) * | 2013-11-12 | 2014-04-09 | 知识产权出版社 | 横向校对和输出双层pdf的方法和装置 |
CN107358208A (zh) * | 2017-07-14 | 2017-11-17 | 北京神州泰岳软件股份有限公司 | 一种pdf文档结构化信息提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109492199A (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492199B (zh) | 一种基于ocr预判断的pdf文件转换方法 | |
JP5274305B2 (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
JP5528121B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
US8954845B2 (en) | Image processing device, method and storage medium for two-way linking between related graphics and text in an electronic document | |
RU2437152C2 (ru) | Устройство обработки изображений, способ и компьютерная программа обработки изображений | |
US8718364B2 (en) | Apparatus and method for digitizing documents with extracted region data | |
JP4590433B2 (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
US8355578B2 (en) | Image processing apparatus, image processing method, and storage medium | |
US8571359B2 (en) | Image processing device, method and storage medium for storing and displaying an electronic document | |
US6801673B2 (en) | Section extraction tool for PDF documents | |
US20070192687A1 (en) | Document content and structure conversion | |
JP2007042106A (ja) | 文書処理方法、文書処理メディア、文書管理方法、文書処理システム及び文書管理システム | |
CN101458699A (zh) | 图像处理装置和图像处理方法 | |
US8514462B2 (en) | Processing document image including caption region | |
CN109271613B (zh) | 一种pdf文件解析方法 | |
US20150138220A1 (en) | Systems and methods for displaying scanned images with overlaid text | |
US9330323B2 (en) | Redigitization system and service | |
US20070116363A1 (en) | Image processing device, image processing method, and storage medium storing image processing program | |
JPH08147446A (ja) | 電子ファイリング装置 | |
RU2648636C2 (ru) | Сохранение контента в конвертированных документах | |
US20010016068A1 (en) | Electronic document generating apparatus, electronic document generating method, and program thereof | |
JP5197694B2 (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
JP5159588B2 (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
CN117391045B (zh) | 可复制蒙文的可携带文件格式文件输出方法 | |
Agamamidi et al. | Extraction of textual information from images using mobile devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |