CN109492199B

CN109492199B - 一种基于ocr预判断的pdf文件转换方法

Info

Publication number: CN109492199B
Application number: CN201811206109.5A
Authority: CN
Inventors: 马万炯
Original assignee: Sichuan Esontech Information Technology Co ltd
Current assignee: Sichuan Esontech Information Technology Co ltd
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2023-04-28
Anticipated expiration: 2038-10-17
Also published as: CN109492199A

Abstract

本发明公开了一种基于OCR预判断的PDF文件转换方法，包括以下步骤：解析PDF文件，判断该PDF文件中各页面是否需要进行ocr；针对需要进行ocr的页面进行ocr，得到文本信息；针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息；通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。本发明通过对PDF文件的预解析，提高了PDF文字提取的正确率，在减少不必要的ocr识别的同时保证了文字提取的准确度并提高了PDF文件的转换效率，适用性强，转换效果好。

Description

一种基于OCR预判断的PDF文件转换方法

技术领域

本发明属于PDF文件转换技术领域，具体涉及一种基于OCR预判断的PDF文件转换方法。

背景技术

PDF是Portable Document Format的缩写，是由Adobe公司开发的一种开放式的电子文件格式。PDF由PostScript编程语言发展而来，而PostScript当前依然作为主流的打印机编程语言广泛应用于专业出版领域。

PDF文件格式的优点在于，文件格式与软硬件以及操作系统平台无关，在Windows、Unix或Mac OS操作系统中都可以达到相同的显示效果，因此PDF成为网络上主流的电子文档格式，在数字化信息传播中充当着重要角色。但由于PDF文件中的文本信息不易提取、编辑、查询，通常需要通过一定的方法将PDF转换为便于编辑、处理、管理其内容的文件格式。

PDF文字提取方法即是提取PDF文件中包含的文字信息，并通过系列的信息处理过程转换为便于编辑的文件格式。

专利CN108038093A中公开了一种PDF文字提取方法和装置，具体是通过获取PDF页面中的各个文本对象的第一编码、字形位图、内嵌信息和字体信息判断该PDF页面是否需要进行ocr，由于PDF文件的特殊性，会有部分需要进行OCR识别的PDF文件被其判断为不需要进行ocr识别，判断准确性不高，提取出的文字可能出现较大偏差。

发明内容

本发明的目的在于：解决上述现有技术中的不足，提供一种基于OCR预判断的PDF文件转换方法，在减少不必要的ocr识别的同时保证了文字提取的准确度，适用性强，转换效果好。

为了实现上述目的，本发明采用的技术方案为：

一种基于OCR预判断的PDF文件转换方法，包括以下步骤：

步骤一：解析PDF文件，判断该PDF文件中各页面是否需要进行ocr；

步骤二：针对需要进行ocr的页面进行ocr，得到文本信息；针对不需要进行ocr的页面直接从该PDF页面中文本对象的文字编码信息提取文本信息；

步骤三：通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档。

进一步的，上述的步骤二中文本信息包括文字的内容、位置和尺寸。

进一步的，上述的步骤一中解析PDF文件后得到该PDF文件的单页图片对象数量、图片对象大小和整体页面大小的比值、文本对象长度、文本对象位置和文本对象内容。

进一步的，上述的步骤一中判断该PDF文件中各页面是否需要进行ocr的步骤具体为：

获取该PDF文件中各页面的字体信息，若该页面不包含字体信息或包含OCR字体，判定该页面需要进行OCR；

获取该PDF文件中各页面的文档属性信息，读取文档属性信息中的制作程序信息，若制作程序信息中显示该PDF文件由扫描软件或图片转换软件生成，判定该页面需要进行OCR；

获取该PDF文件中各页面的各个文本对象的渲染信息，若文本对象的渲染模式为不可见，判定该页面需要进行OCR；

获取该PDF文件中各页面的图片对象的数量信息和文字对象的数量信息，若图片对象的数量大于0，同时文字对象的数量为0或仅包含制作程序信息，判定该页面需要进行OCR；

若上述所有步骤中均未判定该页面需要进行OCR，则判定该页面不需要进行ocr。

进一步的，上述的步骤二中对需要进行ocr的页面进行ocr的步骤具体为：

步骤201：将需要进行ocr的页面转换为图片格式并进行图像增强；

步骤202：根据深度学习图像识别算法对bmp图片进行文字识别，得到bmp图片中所有文字的内容、位置和尺寸；

步骤203：将单个文字的内容，根据其位置和尺寸合并成段落并布局。

由于采用了上述技术方案，本发明的有益效果是：

本发明的基于OCR预判断的PDF文件转换方法通过对PDF文件的预解析，提高了PDF文字提取的正确率，在减少不必要的ocr识别的同时保证了文字提取的准确度并提高了PDF文件的转换效率，适用性强，转换效果好。

附图说明

图1为本发明的PDF文件转换方法流程示意图。

图2为本发明的判断是否需要ocr的实例示意图。

图3为本发明的判断是否需要ocr的实例示意图。

图4为本发明的判断是否需要ocr的实例示意图。

具体实施方式

参照附图1-4对本发明的实施方式做具体的说明。

如图1所示，一种基于OCR预判断的PDF文件转换方法，包括以下步骤：

步骤三：通过PDF解析算法和Office文件重构算法将得到的文本信息为对应的可编辑文档。

我们将pdf扫描件、图片转成的PDF等以图片为主体的pdf文件称为图片类，图片类PDF无法直接提取到其文字信息，我们对这种PDF文件进行解析是无法获取到它的文本的，只有整页的图片。需通过光学字符识别(OCR)技术识别出图片中的文字。我们将可以直接解析出文本信息的pdf文件称为文本类pdf。比较直观的感受是，这类PDF中的文字可以通过鼠标选定，并且可以被复制出来成为和原文一致的文字。

本质上讲，通过PDF解析技术会发现PDF文件中存储有其文档的内容，文件中的图片存储为图片对象，文本通过一定的编码存储为文本对象。没有文本对象的PDF文件必定为图片类PDF，但反之是不成立的，因为实际情况是很复杂的，有文本对象的PDF文件不一定就不是图片类PDF。

判断1：获取该PDF文件中各页面的字体信息，若该页面不包含字体信息或包含OCR字体，判定该页面需要进行OCR；

对于判断1来说，pdf文件中的OCR字体是由OCR功能的软件生成的，由于具体哪款软件生成的无从得知，其OCR识别效果是不可靠的，所以这种情况下，我们判断为需要进行OCR。若该pdf文件没有字体信息，表明该pdf是纯图片组成的，显然需要进行OCR。

判断2：获取该PDF文件中各页面的文档属性信息，读取文档属性信息中的制作程序信息，若制作程序信息中显示该PDF文件由扫描软件或图片转换软件生成，判定该页面需要进行OCR；

对于判断2来说，PDF文件中会带有其文件属性的描述，一些扫描软件或图片软件在生成pdf时会将自己的信息写入pdf文件属性中的制作程序信息，通过这个信息我们可以直接判断出需要进行OCR。

判断3：获取该PDF文件中各页面的各个文本对象的渲染信息，若文本对象的渲染模式为不可见，判定该页面需要进行OCR；

对于判断3来说，若文本对象的渲染模式是“不可见”，则该文本对象不会被显示出来。这种情况常见于一些通过扫描生成的OCR文件。如图2的文本对象的渲染模式就是不可见，扫描软件这样做是为了不让系统字体遮挡了原文字体的情况下展现出可以选定的效果。

判断4：获取该PDF文件中各页面的图片对象的数量信息和文字对象的数量信息，若图片对象的数量大于0，同时文字对象的数量为0或仅包含制作程序信息，判定该页面需要进行OCR；

对于判断4来说，不含有图片对象的文件必然不是扫描件、图片生成的pdf，所以必然不需要进行OCR。反之，不含有文字对象说明该PDF是由纯图片组成的，必然需要进行OCR。但对于既含有图片对象，又含有文字对象的PDF：

若其文本对象数量接近0,如只含有一个破折号文本对象的图3，而在图4中，其文字对象只包含制作程序信息(如“由……创建”)，这种情况同样需要进行OCR。

Claims

1.一种基于OCR预判断的PDF文件转换方法，其特征在于：包括以下步骤：

步骤三：通过PDF解析算法和Office文件重构算法将该PDF文件转换为对应的可编辑文档；

所述的步骤一中判断该PDF文件中各页面是否需要进行ocr的步骤具体为：

若上述所有步骤中均未判定该页面需要进行OCR，则判定该页面不需要进行ocr；

所述的步骤二中对需要进行ocr的页面进行ocr的步骤具体为：

2.根据权利要求1所述的一种基于OCR预判断的PDF文件转换方法，其特征在于：所述的步骤二中文本信息包括文字的内容、位置和尺寸。

3.根据权利要求1所述的一种基于OCR预判断的PDF文件转换方法，其特征在于：所述的步骤一中解析PDF文件后得到该PDF文件的单页图片对象数量、图片对象大小和整体页面大小的比值、文本对象长度、文本对象位置和文本对象内容。