CN109739981B

CN109739981B - 一种pdf文件类别判定方法及文字提取方法

Info

Publication number: CN109739981B
Application number: CN201811540758.9A
Authority: CN
Inventors: 马万炯; 陈俊周; 杨龙杰; 左林翼; 李剑
Original assignee: Sichuan Esontech Information Technology Co ltd
Current assignee: Sichuan Esontech Information Technology Co ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2020-12-29
Anticipated expiration: 2038-12-17
Also published as: CN109739981A

Abstract

本发明公开了一种PDF文件类别判定方法及文字提取方法，类别判定方法包括：根据制作程序判定类别的步骤、根据文件字体判定类别的步骤、根据文件文档结构判定类别的步骤、根据CMAP字符映射表判定类别的步骤和根据文件包含的图片的信息判定类别的步骤。文字提取方法在判定出文件类别后，选择对应与文件类别的文字提取方法识别和提取文件中的文字。本发明采用逐级判定的方式，可对所有PDF文件的类别进行准确、快速的判定，判定效率高、消耗资源少，通用性强。

Description

一种PDF文件类别判定方法及文字提取方法

技术领域

本发明涉及内容识别领域，尤其是一种PDF文件类别判定方法及文字提取方法。

背景技术

PDF文档是现今一种普遍通用的文件格式，它能保存源文档的字体、格式、颜色和图形，文档中的文字在传输或者分享的过程中不会发生改变，也不支持编辑。同时由于生成来源不同，PDF格式文档分为两类：电子文件直接转换生成PDF文件，即文本类PDF；非电子文件（图片、手机拍的照片等）通过扫描生成PDF文本，即图片类PDF。这两类PDF文件都能维持源文件的完整性，但其不可编辑的属性也具有极大不便，比如不能用于二次编辑、自动翻译、格式重构等再加工场景。

目前已有的一些PDF文字提取工具，如Apache PDFbox（由Apache公司开发）、iTextSharp等可以将文本类PDF中的文字提取出用于二次加工，但此类应用不能自动判别文件的类别，对所有输入的文件均采用同一种方法提取文字，不具备对文件的通用性。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种自动判别文件类别，进而自动采用相应文字提取方法的方案，可以对输入文件的类别（文本类或图片类）进行自动判断，能够对输入的文件的文字进行自动提取。

本发明采用的技术方案如下：

一种PDF文件类别判定方法，包括以下步骤：

A．读取PDF文件的制作程序，根据读取结果，判断PDF文件是图片类还是非图片类，若是非图片类，则进行下一步；

B．读取PDF文件的字体，根据读取结果，判断PDF文件是图片类还是非图片类，若是非图片类，则进行下一步；

C．识别PDF文件是否包含透明字体，若包含透明字体，则判定为图片类，否则，进行下一步；

D．查找PDF文件的CMAP（计算机语言函数）字符映射表，根据查找结果，判断PDF文件是图片类还是非图片类，若是非图片类，则进行下一步；

E．读取出PDF文件中的图片，识别出图片信息，根据图片信息，从预设文件类别判定步骤中，选择对应的文件类别判定步骤，以判定PDF文件为图片类或文本类文件类别。

上述方法采用对信息的判断由简单到复杂的步骤，逐级对文件的类别进行判断，可在准确判断出文件的类别的前提下，确保花费的数据识别开销尽量少。同时，采用多级判别的方式，可以从多个方面逐一判定文件的类型，相对于多条件笼统的判定方式，准确度更高。

进一步的，上述步骤E中的图片信息包括：图片数量、图片尺寸和图片中的字符数。

根据图片数量、图片尺寸和图片中的字符数等参数间的联合判断，可以快速、准确地判定文件的类别。

进一步的，上述步骤E中，预设的文件类别判定步骤包括：分别针对含一张图片和含超过一张图片的文件类别判定步骤。

在已进行多项条件判定的基础上，即消耗了一定算力的基础上，通过文件中图片的数量来确定对文件类别的判定方法，可以有效节省最终判定所消耗的算力，同时增加细节判断，提高类别判定的准确性。

进一步的，上述步骤E中，针对仅含一张图片的PDF文件类别判定步骤为：

计算图片的尺寸；在图片尺寸满足预定尺寸时，识别图片中的字符数，检测文件是否含有水印，在检测到文件含有水印时，识别出该水印的信息；在图片尺寸满足预定尺寸、图片中的字符数达到对应于所述预定尺寸的预定阈值、文件不含水印或水印的信息满足预定条件时，判定PDF文件为文本类文件。

对文件中图片的尺寸判断，可以过滤掉对类别判断影响较小的参数，对图片的字符数判断可以使判定方法相对简单有效，基于水印的关键词判断，可以起到快速定位文件类别的效果。

进一步的，上述方法所设定的预定尺寸包括第一预定尺寸和第二预定尺寸；对应于第一预定尺寸，所设定的预定阈值为第一预定阈值；对应于第二预定尺寸，所设定的预定阈值为第二预定阈值。

针对不同的图片尺寸设定不同的字符数阈值，可以提高字符数量与图片尺寸的适配性，进一步提高类别判定的准确率。

进一步的，上述步骤E中，针对含超过一张图片的PDF文件类别判定步骤为：

计算当前页面的文本量，检测当前文件页面是否含有水印，在检测到当前页面含有水印时，识别出该水印的信息；在文本量达到第三预定阈值，且文件不含水印或水印的信息满足预定条件时，判定文件为文本类类别。

针对包含多张图片的文件，通过对文件页面的抽取，仅判断当前页面的文本量，可以大幅减小对文件进行判定所需的计算量，同时，基于水印的关键词判断，可以起到快速定位文件类别的效果。

一种自动提取PDF文件文字的方法，包括以下步骤：

采用上述PDF文件类别判定方法判定PDF文件的类别；根据判定结果，采取对应的文字提取方法提取PDF文件中的文字。本方案可以在自动判定文件类别的情况下，自适应地选用相应的文字识别方法，从而提高文字提取方法的通用性。

进一步的，所述文字提取方法包括针对文本类文件的文字提取方法以及针对图片类文件的文字提取方法，所述文本类文件的文字提取方法为：遍历PDF文件的所有页面，提取所遍历页面中的文字；所述图片类文件的文字提取方法为：将PDF文件转换为若干单张的图片，对每一张图片采用OCR（Optical Character Recognition，光学字符识别）工具进行文字识别，根据将PDF文件转换成图片的顺序，将从每一张图片识别出的文字整合为一份文档。

通过简单的工具，即可实现针对不同类别的文件的文字的自动识别和提取，通用性强，文字提取效率高。

进一步的，上述图片类文件的文字提取方法具体为：将PDF文件转换为若干单张的图片，并对每一张图片按顺序进行标记，对每一张图片采用OCR工具进行文字识别，根据对图片标记的顺序，将从每一张图片识别出的文字整合为一份文档。对于图片在拆分过程中进行顺序标记，可以减少后续整合文字顺序时计算的复杂度。

进一步的，方法还包括：在识别出文件的文字后，将文字转换为预定格式的文件进行输出。

上述方案使得本发明可以自动将PDF文件转换为定制格式的文档，提高了文件编辑的自动化效果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明方法可对所有PDF文件的类别进行准确、快速的判定，通用性强。

2、本发明的方法对文件类型进行逐级判定，可以确保在判定文件类别时消耗的计算量最少。多级别的细节判定，可以提高判定效果的准确性。

3、本发明可自适应地选择针对不同类别的PDF文件的文字提取方法，具有自适应强、通用性高、识别准确的特点。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是一种PDF文件文字提取方法流程图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书（包括任何附加权利要求、摘要）中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

参照附图1，本实施例公开了一种PDF文件类别判定方法，可判定PDF文件为图片类文件还是文本类文件，判定包括以下步骤：

A．读取PDF文件的制作程序；根据读取结果，判断PDF文件是图片类还是非图片类，若是非图片类，则进行下一步。

PDF文件的制作程序即制作PDF文件的方法或应用，通常的，通过Image2PDF、Scan等制作程序所制作的PDF文件为图片类PDF文件。在本实施例中，通过将读取的PDF文件的制作程序与预设的制作程序字典进行匹配，即可确定出PDF文件的类别。所谓的制作程序字典为通过对大量PDF文件样本进行采集，将各样本制作程序与其类别进行对照统计所得到的对照表。对于PDF文件的制作程序，可通过如Solid Framework等技术读取出。

B．读取PDF文件的字体；根据读取结果，判断PDF文件是图片类还是非图片类，若是非图片类，则进行下一步。

对于图片类PDF文件而言，部分文件的字体会带有如HiddenHorzOCR或HiddenVertOCR的标识，即带有此类标识的PDF文件可直接判定为图片类文件。对于文件字体的识别，可以通过如Solid Framework等技术读取出。

C．识别PDF文件是否包含透明字体，若包含透明字体，则判定为图片类，否则，进行下一步。

有些PDF文件上的文本可选中，但这一类情况是选中了悬浮在图片上的字体，这一类悬浮在图片上的文字被称为透明字体，如果选中该部分文本进行复制粘贴，其结果实际上是复制了图片上的悬浮字体，这一类文件实际属于图片类文件。因此，通过判断文件是否包含透明字体，则可判断PDF文件是否属于图片类文件，若包含透明字体，则可判定为图片类文件类别。在一个实施例中，通过读取PDF文件的文档结构，若读取出文件中含有“3 Tr”标签则表明该PDF含有透明字体，判定文件为图片类文件类别。

D．查找PDF文件的CMAP（计算机语言函数）字符映射表；根据查找结果，判断PDF文件是图片类还是非图片类，若是非图片类，则进行下一步。

文本类PDF文件中每个字符将对应一个编码值，CMAP字符映射表能反映文件字符与显示文本的编码的对应关系，若PDF文件中的字符在CMAP字符映射表中没有对应的值，则表明映射表内容丢失，此类文件则判定为图片类文件类别。对于文件的CMAP字符映射表，可以采用如iTextSharp等技术查找出。

E．读取出PDF文件中的图片；根据对图片进行识别所识别出的图片信息，从预设文件类别判定步骤中，选择对应的文件类别判定步骤，以判定PDF文件为图片类或文本类文件类别。具体为：读取出PDF文件中的图片，根据图片数量、图片尺寸、和图片中的字符数，从预设文件类别判定步骤中，选择对应的文件类别判定步骤，以判定PDF文件为图片类或文本类文件类别。

本实施例中，根据图片数量，设定有分别针对含一张图片和含超过一张图片的文件类别判定步骤。针对不含图片的文件，直接判定为文本类文件类别。

具体而言，针对一张图片的文件类别判定步骤为：计算图片的尺寸；在图片尺寸满足预定尺寸时，识别图片中的字符数，检测文件是否含有水印，在检测到图片含有水印时，检测该水印中是否含有预设关键字（即水印信息）；在图片尺寸满足预定尺寸、图片中的字符数达到对应于所述预定尺寸的预定阈值、文件不含水印或水印不含预设关键字（即预定条件）时，判定PDF文件为文本类文件。其它情况则判定为图片类文件。检测文件中是否含有水印，是对文件中的图片或文件中的文本进行的检测。

更具体地，所设定的预定尺寸包括第一预定尺寸和第二预定尺寸；对应于第一预定尺寸，所设定的预定阈值为第一预定阈值；对应于第二预定尺寸，所设定的预定阈值为第二预定阈值。

在一个实施例中，第一预定尺寸为PDF页面尺寸的[50%-100%]，第二预定尺寸为超过PDF页面尺寸的100%。即判定步骤为：在图片尺寸达到50%且未超过PDF页面尺寸时，图片的字符数达到第一预定阈值时，且文件不含水印或水印不含预设关键字时，判定文件为文本类文件；在图片尺寸超过PDF页面尺寸时，图片的字符数达到第二预定阈值时，且文件不含水印或水印不含预设关键字时，判定文件为文本类文件。其它情况则判定为图片类文件。

针对超过一张图片的文件类别判定步骤为：计算当前页面（即正在检测的页面）的文本量（PDF文件页面的非图片部分），检测当前页面是否含有水印，在检测到当前页面含有水印时，检测该水印中是否含有预设关键字；在文本量达到第三预定阈值，且文件不含水印或水印不含预设关键字时，判定文件为文本类类别。其它情况则判定为图片类文件类别。

上述实施例中的预设关键字，包括“由***生成”、“扫描”、“Scanner”等文字。包含这一类文字，则表明是由相应的PDF制作应用所制作的PDF文件，属于图片类文件。

本实施例公开了一种PDF文件类别判定方法，包括以下步骤：

S1：读取PDF文件的制作程序，将读取的PDF文件的制作程序与预设的制作程序字典进行匹配，该制作程序字典包含制作程序与文件类别的对应关系，在匹配结果为对应于图片类文件的制作程序（如Image2PDF、Scan等）时，判定文件为图片类文件类别，结束流程，否则，执行S2；

S2：读取PDF文件的字体，判断所读取字体是否包含图片类文件的字体标识（如HiddenHorzOCR、HiddenVertOCR等），若是，则判定为图片类文件类别，结束流程，否则，执行S3；

S3：识别PDF文件的文档结构，判断文档结构中是否包含“3 Tr”标签，若是，则判定为图片类文件类别，结束流程，否则，执行S4；

S4：查找PDF文件的CMAP字符映射表，判断PDF文件中字符是否在CMAP字符映射表中存在对应的编码值，若否，则判定为图片类文件类别，结束流程，否则，执行S5；

S5：读取出PDF文件中的图片，若PDF文件不含图片，则判定为文本类文件类别；

若PDF文件仅包含一张图片，则计算图片的尺寸；在图片尺寸满足预定尺寸时，识别图片中的字符数，检测文件是否含有水印，在检测到文件中含有水印时，检测该水印中是否含有预设关键字；在图片尺寸满足预定尺寸、图片中的字符数达到预定阈值、文件不含水印或水印不含预设关键字时，判定PDF文件为文本类文件，其它情况则判定为图片类文件；

若PDF文件包含的图片超过一张，则计算当前页面的文本量，检测当前页面是否含有水印，在检测到当前页面含有水印时，检测该水印中是否含有预设关键字；在文本量达到第三预定阈值，且文件不含水印或水印不含预设关键字时，判定文件为文本类类别，其它情况则判定为图片类文件。

本实施例公开了上述实施例中，步骤S5中针对PDF文件仅含一张图片的文件类别判定步骤：计算图片的尺寸；在图片尺寸达到50%时，识别图片中的字符数，检测文件是否含有水印，在检测到文件中含有水印时，检测该水印中是否含有如“由***生成”、“扫描”、“Scanner”等预设关键字；在图片尺寸达到50%且未超过PDF页面尺寸时，图片的字符数达到第一预定阈值时，且文件不含水印或水印不含预设关键字时，判定文件为文本类文件；在图片尺寸超过PDF页面尺寸时，图片的字符数达到第二预定阈值时，且文件不含水印或水印不含预设关键字时，判定文件为文本类文件；其它情况则判定为图片类文件。

本实施例公开了一种PDF文件文字提取方法，其流程为：

采用上述实施例中的PDF文件类别判定方法判定PDF文件的类别，根据判定结果，采取对应的文字提取方法提取PDF文件中的文字。

具体而言，设定的文字提取方法包括针对文本类文件的文字提取方法以及针对图片类文件的文字提取方法：

文本类文件的文字提取方法为：遍历PDF文件的所有页面，提取所遍历页面中的文字。

对于文本类文件的文字提取，可以采用如PDFbox工具对文件进行遍历和文字提取。所提取出的文字为纯文本格式。

图片类文件的文字提取方法为：将PDF文件转换为若干单张的图片，对每一张图片采用OCR工具进行文字识别，根据将PDF文件转换成图片的顺序，将从每一张图片识别出的文字整合为一份文档。具体而言，在将PDF文件转换为若干单张的图片时，对每一张图片均进行了顺序标记，在识别出每一张图片的文字后，根据对应图片的标记顺序，将文字整合入一份文档中。

基于上一实施例，本实施例中，PDF文件文字提取方法还包括：在识别出文件的文字后，将文字转换为预定格式的文件进行输出。以用于文件语言检测、自动翻译、格式重构、文档排版难度判断等场景。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种PDF文件类别判定方法，其特征在于，包括以下步骤：

B．读取PDF文件的字体，根据读取结果，判断PDF文件是图片类还是非图片类：读取PDF文件的字体，判断所读取字体是否包含图片类文件的字体标识，若是，则判定为图片类文件类别；若是非图片类，则进行下一步；

C．识别PDF文件是否包含透明字体，若包含透明字体，则判定为图片类，否则，进行下一步，所述透明字体为悬浮在图片上的文字；

D．查找PDF文件的CMAP字符映射表，根据查找结果，判断PDF文件是图片类还是非图片类，若是非图片类，则进行下一步；

2.如权利要求1所述的类别判定方法，其特征在于，所述步骤E中的图片信息包括：图片数量、图片尺寸和图片中的字符数。

3.如权利要求2所述的类别判定方法，其特征在于，所述步骤E中，预设的文件类别判定步骤包括：分别针对含一张图片和含超过一张图片的文件类别判定步骤。

4.如权利要求3所述的类别判定方法，其特征在于，所述步骤E中，针对仅含一张图片的PDF文件类别判定步骤为：

计算图片的尺寸；在图片尺寸满足预定尺寸时，识别图片中的字符数，检测文件中是否含有水印，在检测到文件中含有水印时，识别出该水印的信息；在图片尺寸满足预定尺寸、图片中的字符数达到对应于所述预定尺寸的预定阈值、文件不含水印或水印的信息满足预定条件时，判定PDF文件为文本类文件。

5.如权利要求4所述的类别判定方法，其特征在于，所设定的预定尺寸包括第一预定尺寸和第二预定尺寸；对应于第一预定尺寸，所设定的预定阈值为第一预定阈值；对应于第二预定尺寸，所设定的预定阈值为第二预定阈值。

6.如权利要求3所述的类别判定方法，其特征在于，所述步骤E中，针对含超过一张图片的PDF文件类别判定步骤为：

7.一种自动提取PDF文件文字的方法，其特征在于，包括以下步骤：

采用如权利要求1-6之一所述PDF文件类别判定方法判定PDF文件的类别；

根据判定结果，采取对应的文字提取方法提取PDF文件中的文字。

8.如权利要求7所述的自动提取PDF文件文字的方法，其特征在于，所述文字提取方法包括针对文本类文件的文字提取方法以及针对图片类文件的文字提取方法，所述文本类文件的文字提取方法为：遍历PDF文件的所有页面，提取所遍历页面中的文字；所述图片类文件的文字提取方法为：将PDF文件转换为若干单张的图片，对每一张图片采用OCR工具进行文字识别，根据将PDF文件转换成图片的顺序，将从每一张图片识别出的文字整合为一份文档。

9.如权利要求8所述的自动提取PDF文件文字的方法，其特征在于，所述图片类文件的文字提取方法具体为：将PDF文件转换为若干单张的图片，并对每一张图片按顺序进行标记，对每一张图片采用OCR工具进行文字识别，根据对图片标记的顺序，将从每一张图片识别出的文字整合为一份文档。

10.如权利要求7所述的自动提取PDF文件文字的方法，其特征在于，还包括：在识别出文件的文字后，将文字转换为预定格式的文件进行输出。