PDF文字提取方法和装置
技术领域
本发明属于文字识别技术领域,尤其涉及PDF文字提取方法和装置。
背景技术
PDF是Portable Document Format(可移植文档格式)的缩写,是由Adobe公司开发的一种开放式的电子文件格式。PDF由PostScript(附言)编程语言发展而来,而PostScript编程语言当前依然作为主流的打印机编程语言广泛应用于专业出版领域。PDF大量延续了PostScript编程语言中的页面描述方式,采用了PostScript编程语言中定义的字符编码方式。
PDF文字提取是提取出PDF文件中包括的文字信息,并通过系列的信息处理过程,将所述文字信息转换为便于编辑的文件格式,如Word(文字)、PowerPoint(演示文稿)、Excel(表格)、RTF(Rich Text Format,多文体格式)等。目前,对PDF的文字提取有两种方法,一种是利用OCR(Optical Character Recognition,光学字符识别)技术将PDF转换成图像,经过版面分析、段落划分和文字识别将结果输出,此方法的所有PDF的文字信息都要进行OCR识别,不仅浪费时间,还会出现引入错误,存在识别率不够高的问题;另一种方法是利用PDF文件进行解析,提取文字编码,但是在PDF文件中,存在字符编码和显示的字符不对应的情况,导致该方法提取的字符不准确。例如,PDF格式规范定义了部分字体的编码到Unicode(统一码)编码的映射,但仍然有部分PDF字体无法实现由字体编码到Unicode编码的映射,所以字符编码和显示的字符不对应,识别率也不理想。
发明内容
有鉴于此,本发明实施例提供了一种PDF文字提取方法和装置,以解决现有技术中PDF文字提取的正确率低,并且所有PDF文字都进行OCR识别花费了大量时间的问题。
本发明实施例的第一方面提供了一种PDF文字提取方法,包括:
获取PDF页面中的各个文本对象的第一编码、字形位图、内嵌信息和字体信息;
根据所述文本对象的字体信息判断所述文本对象的字体类型得到第一判断结果,根据所述文本对象的内嵌信息判断所述文本对象是否内嵌在所述PDF页面中得到第二判断结果;
根据所述第一判断结果和所述第二判断结果对所述文本对象进行提取。
可选的,所述根据所述第一判断结果和所述第二判断结果对所述文本对象进行提取具体为:
若所述第一判断结果中所述文本对象的字体类型为第一字体类型,所述文本对象的字形位图进行OCR识别并得到所述文本对象的第一提取结果;
若所述第一判断结果中所述文本对象的字体类型为第二字体类型,且所述第二判断结果中所述文本对象不是内嵌在所述PDF页面中,则所述文本对象的第一编码为所述文本对象的第二提取结果;
若所述第一判断结果中所述文本对象的字体类型为第二字体类型,且所述第二判断结果中所述文本对象是内嵌在所述PDF页面中,所述文本对象的字形位图进行所述OCR识别并得到所述文本对象的第三提取结果。
可选的,所述文本对象的字形位图进行OCR识别并得到所述文本对象的第一提取结果具体为:
所述文本对象的字形位图进行所述OCR识别得到所述文本对象的第二编码和第一识别可信度;
若所述文本对象的第一识别可信度大于预设的识别可信度阈值,则所述文本对象的第二编码为所述文本对象的第一提取结果;
若所述文本对象的第一识别可信度小于所述预设的识别可信度阈值,则所述文本对象的字形位图为所述文本对象的第一提取结果。
可选的,所述文本对象的字形位图进行所述OCR识别并得到所述文本对象的第三提取结果具体为:
所述文本对象的所述字形位图进行所述OCR识别得到所述文本对象的第三编码和第二识别可信度;
若所述文本对象的第二识别可信度大于所述预设的识别可信度阈值,则所述文本对象的第三编码为所述文本对象的第三提取结果;
若所述文本对象的第二识别可信度小于所述预设的识别可信度阈值,则所述文本对象的字形位图为所述文本对象的第三提取结果。
可选的,所述文本对象还包括:字号信息;
所述PDF页面包括至少一个所述文本对象,所述PDF页面的至少一个文本对象包括的内嵌信息、字体信息和字号信息构成文本对象列表;
所述方法还包括:
根据所述文本对象列表的每个文本对象的所述内嵌信息、所述字体信息和所述字号信息导出相对应的文本对象的第一提取结果、第二提取结果和第三提取结果;根据所述文本对象列表的每个文本对象的所述内嵌信息、所述字体信息和所述字号信息,对所述相对应的文本对象的第一提取结果、第二提取结果和第三提取结果进行排序以及聚类操作,进行所述PDF页面的版面重构。
本发明实施例的第二方面提供了一种PDF文字提取装置,包括:
PDF解析模块,用于获取PDF页面中的文本对象的第一编码、字形位图、内嵌信息、字体信息和字号信息;
判断模块,用于根据获取的所述字体信息判断所述文本对象的字体类型属于第一字体类型或第二字体类型,还根据获取的所述内嵌信息判断所述文本对象是否内嵌在所述PDF页面中;
控制模块,用于对属于所述第一字体类型的所述文本对象进行OCR识别并得到第一识别结果,还用于提取属于所述第二字体类型且不是内嵌在所述PDF页面中的所述文本对象的第一编码,并作为第二识别结果,还用于对属于所述第二字体类型且是内嵌在所述PDF页面中的所述文本对象进行所述OCR识别,并得到第三识别结果。
可选的,所述判断模块包括:
第一判断单元,用于根据获取的所述字体信息判断所述文本对象的字体类型属于第一字体类型或第二字体类型;
第二判断单元,用于根据获取的所述内嵌信息判断所述文本对象是否内嵌在所述PDF页面中。
可选的,所述装置还包括:
调整模块,用于获取所述文本对象的所述第一识别结果、所述第二识别结果和所述第三识别结果,根据所述文本对象列表的每个文本对象的所述内嵌信息、所述字体信息和所述字号信息,对所述文本对象的所述第一识别结果、所述第二识别结果和所述第三识别结果进行排序以及聚类操作,对所述PDF页面的版面重构;
所述PDF页面包括至少一个所述文本对象。
本发明实施例的第三方面提供了一种PDF文字提取的控制装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述任一项所述方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,包括:所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过获取PDF页面中的各个文本对象的第一编码、字形位图、内嵌信息和字体信息;根据所述文本对象的字体信息判断所述文本对象的字体类型得到第一判断结果,根据所述文本对象的内嵌信息判断所述文本对象是否内嵌在所述PDF页面中得到第二判断结果;根据所述第一判断结果和所述第二判断结果对所述文本对象进行提取,提高了PDF文字提取的正确率,实现了不需要将所有PDF文字进行OCR识别,节约了PDF文字提取的时间。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的PDF文字提取方法的实现流程示意图;
图2是图1中步骤S103的实现流程示意图;
图3是图2中步骤S201的实现流程示意图;
图4是图2中步骤S203的实现流程示意图;
图5是本发明实施例提供的PDF文字提取方法的判断流程示意图;
图6是本发明实施例提供的另一种PDF文字提取方法的实现流程示意图;
图7是本发明实施例提供的PDF文字提取装置的结构框图;
图8是本发明实施例提供的PDF文字提取的控制装置的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
参见图1提供了一种PDF文字提取方法的一个实施例实现流程示意图,详述如下:
步骤S101,获取PDF页面中的各个文本对象的第一编码、字形位图、内嵌信息和字体信息。
具体的,对PDF页面进行解析获取PDF页面中的各个文本对象的第一编码、字形位图、内嵌信息和字体信息。可选的,PDF页面解析的方法可以将PDF页面进行切分得到每个文本对象的第一编码、内嵌信息和字体信息,也可以对PDF页面进行整体提取文本对象信息,获取每个文本对象的的第一编码、内嵌信息和字体信息,并对每个文本对象进行渲染,得到每个文本对象的所述字体位图信息。本实施例对PDF页面解析的方法不限定。
其中,所述文本对象的字形位图也称为点阵图,是由所述文本对象的像素的单个点组成的,这些点可以进行不同的排列和渲染以构成图样。进一步地,所述文本对象的字形位图颜色的编码方法可以用红、绿、蓝三原色的光学强度对所述文本对象的字形位图上色,这是最常见的位图颜色编码方法。可选的,所述文本对象的字形位图颜色的编码方法也可以通过渲染的方式对所述文本对象的字形位图上色,本实施例对所述文本对象的字形位图颜色的编码方法不做限定。
步骤S102,根据所述文本对象的字体信息判断所述文本对象的字体类型得到第一判断结果,根据所述文本对象的内嵌信息判断所述文本对象是否内嵌在所述PDF页面中得到第二判断结果。
具体的,所述PDF页面中的各个文本对象依次进行所述根据所述文本对象的字体信息判断所述文本对象的字体类型得到第一判断结果,再依次根据所述文本对象的内嵌信息判断所述文本对象是否内嵌在所述PDF页面中得到第二判断结果的步骤,所述PDF页面中包括至少一个文本对象。
其中,所述文本对象的字体信息为字体类型信息,所述字体类型包括第一字体类型和第二字体类型。具体的,第一判断结果可以包括文本对象的字体类型为第一字体类型和文本对象的字体类型为第二字体类型,即所述PDF页面中的各个文本对象依次根据所述文本对象的字体信息判断所述文本对象的字体类型是第一字体类型或者第二字体类型。
所述文本对象的内嵌信息为所述文本对象是否内嵌在所述PDF页面中。具体的,所述文本对象嵌入PDF页面中为了防止因在其它未安装相关字体的电脑中打开PDF文档时出现文字乱码的情况。所述第二判断结果可以包括文本对象是内嵌在所述PDF页面中和文本对象不是内嵌在所述PDF页面中。
步骤S103,根据所述第一判断结果和所述第二判断结果对所述文本对象进行提取。
具体的,根据文本对象的字体类型是第一字体类型或文本对象的字体类型是第二字体类型对所述文本对象进行提取,根据文本对象是内嵌在所述PDF页面中或文本对象不是内嵌在所述PDF页面中对所述文本对象进行提取。
进一步地,参见图2和图5,一个实施例中,步骤S103中所述的根据所述第一判断结果和所述第二判断结果对所述文本对象进行提取的实现过程可以包括:
步骤S201,若所述第一判断结果中所述文本对象的字体类型为第一字体类型,所述文本对象的字形位图进行OCR识别并得到所述文本对象的第一提取结果。
具体的,所述第一字体类型为第一简单字体类型,例如Type3字体类型。若所述第一判断结果中所述文本对象的字体类型为第一简单字体类型,所述文本对象的字形位图进行OCR识别并得到所述文本对象的第一提取结果。
其中,OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,用字符识别方法将形状翻译成计算机文字的过程。例如,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别程序将图像中的文字转换成文本字符,供文字处理软件进一步编辑加工的技术。
进一步地,若所述第一判断结果中所述文本对象的字体类型为第一简单字体类型,所述文本对象的字形位图进行OCR识别,利用光学识别的方式将所述文本对象的字形位图转换成文本对象的文本字符,并得到所述第二编码。
具体的,所述文本对象的字形位图进行OCR识别得到的所述文本对象的第一提取结果还包括第一识别可信度。所述第一识别可信度为所述文本对象的第二编码是否为所述文本对象的真实文字的可信度。
步骤S202,若所述第一判断结果中所述文本对象的字体类型为第二字体类型,且所述第二判断结果中所述文本对象不是内嵌在所述PDF页面中,则所述文本对象的第一编码为所述文本对象的第二提取结果。
具体的,所述第二字体类型包括第二简单字体类型和复合字体类型,例如Type1和TrueType为第二简单字体类型。
所述复合字体类型是指CID字体类型,例如Type0字体类型、TrueType字体类型和Type1字体类型。应理解,所述CID是Adobe公司专为亚洲字库设计的字体文件格式,它打破了只能容纳256个字符的限制,可以支持双字节和多字节等大字符集,极大的方便了各领域用户。
进一步地,若所述第一判断结果中所述文本对象的字体类型为第二简单字体类型或复合字体类型,且所述第二判断结果中所述文本对象不是内嵌在所述PDF页面中,则所述文本对象的第一编码作为所述文本对象的真实文字。
步骤S203,若所述第一判断结果中所述文本对象的字体类型为第二字体类型,且所述第二判断结果中所述文本对象是内嵌在所述PDF页面中,所述文本对象的字形位图进行所述OCR识别并得到所述文本对象的第三提取结果。
具体的,若所述第一判断结果中所述文本对象的字体类型为第二简单字体类型或复合字体类型,且所述第二判断结果中所述文本对象是内嵌在所述PDF页面中,所述文本对象的字形位图进行OCR识别,利用光学识别将所述文本对象的字形位图转换成文本对象的文本字符,并得到所述文本对象的第三编码。
进一步地,所述文本对象的字形位图进行OCR识别得到的所述文本对象的第三提取结果还包括第二识别可信度。所述第二识别可信度为所述文本对象的第三编码是否为所述文本对象的真实文字的可信度。
进一步地,参见图3和图5,一个实施例中,步骤S201中所述的所述文本对象的字形位图进行OCR识别并得到所述文本对象的第一提取结果的实现过程可以包括:
步骤S301,所述文本对象的字形位图进行所述OCR识别得到所述文本对象的第二编码和第一识别可信度。
具体的,若所述第一判断结果中所述文本对象的字体类型为第一简单字体类型,所述文本对象的字形位图进行OCR识别,利用光学识别将所述文本对象的字形位图转换成文本对象的文本字符得到所述第二编码和所述第一识别可信度。所述文本对象的文本字符作为所述文本对象的第二编码。
步骤S302,若所述文本对象的第一识别可信度大于预设的识别可信度阈值,则所述文本对象的第二编码为所述文本对象的第一提取结果。
具体的,所述文本对象进行OCR识别得到所述第二编码和所述第一识别可信度,设置所述文本对象的真实文字的可信度阈值,即预设的识别可信度阈值,若所述文本对象的第一识别可信度大于预设的识别可信度阈值,则所述文本对象的第二编码为所述文本对象的第一提取结果。例如,所述识别可信度阈值为80%,当所述文本对象的第一识别可信度大于80%时,所述第二编码为所述文本对象的真实文字。
步骤S303,若所述文本对象的第一识别可信度小于所述预设的识别可信度阈值,则所述文本对象的字形位图为所述文本对象的第一提取结果。
具体的,若所述文本对象的第一识别可信度小于所述预设的识别可信度阈值,则所述文本对象的字形位图为所述文本对象的第一提取结果。例如,所述识别可信度阈值为80%,当所述文本对象的第一识别可信度小于80%时,所述文本对象的字形位图为所述文本对象的真实文字。
进一步地,参见图4和图5,一个实施例中,步骤S203中所述的所述文本对象的字形位图进行所述OCR识别并得到所述文本对象的第三提取结果的实现过程可以包括:
步骤S401,所述文本对象的所述字形位图进行所述OCR识别得到所述文本对象的第三编码和第二识别可信度。
其中,所述第三提取结果包括所述第三编码和所述第二识别可信度。所述第二识别可信度为所述文本对象进行OCR识别之后的文本字符是否为所述文本对象的真实文字的可信度,即所述文本对象的第三编码是否为所述文本对象的真实文字的可信度。
具体的,若所述第一判断结果中所述文本对象的字体类型为第二简单字体类型或复合字体类型,且所述第二判断结果中所述文本对象是内嵌在所述PDF页面中,所述文本对象的字形位图进行OCR识别,利用光学识别将所述文本对象的字形位图转换成文本对象的文本字符并得到第二识别可信度。所述文本对象的文本字符作为所述文本对象的第三编码。
步骤S402,若所述文本对象的第二识别可信度大于所述预设的识别可信度阈值,则所述文本对象的第三编码为所述文本对象的第三提取结果。
具体的,所述文本对象进行OCR识别将所述文本对象的字形位图转换成文本对象的文本字符,设置预设的识别可信度阈值,若所述文本对象的第二识别可信度大于所述预设的识别可信度阈值,则所述文本对象的第三编码为所述文本对象的第三提取结果。例如,所述识别可信度阈值为80%,当所述文本对象的第二识别可信度大于80%时,所述第三编码为所述文本对象的真实文字。
步骤S403,若所述文本对象的第二识别可信度小于所述预设的识别可信度阈值,则所述文本对象的字形位图为所述文本对象的第三提取结果。
具体的,若所述文本对象的第二识别可信度小于所述预设的识别可信度阈值,则所述文本对象的字形位图为所述文本对象的第三提取结果。例如,所述识别可信度阈值为80%,当所述文本对象的第二识别可信度小于80%时,所述文本对象的字形位图为所述文本对象的真实文字。
可选的,所述文本对象还包括:字号信息。所述PDF页面包括至少一个所述文本对象,所述PDF页面的至少一个文本对象包括的内嵌信息、字体信息和字号信息构成文本对象列表。
可选的,所述PDF文字提取方法还包括:
根据所述文本对象列表的每个文本对象的所述内嵌信息、所述字体信息和所述字号信息导出相对应的文本对象的第一提取结果、第二提取结果和第三提取结果;根据所述文本对象列表的每个文本对象的所述内嵌信息、所述字体信息和所述字号信息,对所述相对应的文本对象的第一提取结果、第二提取结果和第三提取结果进行排序以及聚类操作,进行所述PDF页面的版面重构。
具体的,所述每个文本对象的所述内嵌信息、所述字体信息和所述字号信息组成相对应文本对象的地址,即所述PDF页面的至少一个文本对象的地址构成文本对象列表。当程序导出所述文本对象列表中一个文本对象的第一提取结果、第二提取结果和第三提取结果时,则程序可以直接调用相对应文本对象的地址得到相对应文本对象的第一提取结果、第二提取结果和第三提取结果;如果程序导出所述文本对象列表中多个文本对象的第一提取结果、第二提取结果和第三提取结果时,则程序可以直接调用多个相对应文本对象的地址得到多个相对应文本对象的第一提取结果、第二提取结果和第三提取结果,对所述多个相对应的文本对象的第一提取结果、第二提取结果和第三提取结果进行排序以及聚类操作,进行所述PDF页面的版面重构。
所述对所述多个相对应的文本对象的第一提取结果、第二提取结果和第三提取结果进行排序以及聚类操作,进行所述PDF页面的版面重构具体为:
根据所述多个相对应的文本对象的内嵌信息、字体信息和字号信息对所述多个相对应的文本对象的第一提取结果、第二提取结果和第三提取结果进行排序和分类,并将所述多个相对应的文本对象的第一提取结果、第二提取结果和第三提取结果按照所述多个相对应的文本对象在PDF页面中的位置进行版面重构,所述重构的版面为可编辑版面。
上述PDF文字提取方法中,通过获取PDF页面中的各个文本对象的第一编码、字形位图、内嵌信息和字体信息;根据所述文本对象的所述字体信息判断所述文本对象的字体类型得到第一判断结果,根据所述文本对象的所述内嵌信息判断所述文本对象是否内嵌在所述PDF页面中得到第二判断结果;根据所述第一判断结果和所述第二判断结果对所述文本对象进行提取,提高了PDF文字提取的正确率,实现了不需要将所有PDF文字进行OCR识别,节约PDF文字提取的时间。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例二
参见图6,为本实施例提供的另一种PDF文字提取方法的实现流程示意图。
步骤S601,对PDF页面进行解析获取元素列表,提取元素列表中所有文本对象的第一编码、字形位图、内嵌信息、字体信息和字号信息。
其中,所述元素列表中包括至少一个文本对象,提取元素列表中至少一个文本对象的第一编码、字形位图、内嵌信息、字体信息和字号信息。
步骤S602,根据文本对象的字体信息将所述元素列表中所有文本对象分为第一字体类型文本对象和第二字体类型文本对象,对所述第一字体类型文本对象进行OCR识别并得到第一提取结果。
其中,所述第一字体类型文本对象包括至少一个文本对象,所述第二字体类型文本对象包括至少一个文本对象。
具体的,所述第一字体类型文本对象的字形位图进行OCR识别得到所述第一字体类型文本对象的第二编码和第一识别可信度。
若所述第一字体类型文本对象的第一识别可信度大于预设的识别可信度阈值,则所述第一字体类型文本对象的第二编码为所述第一字体类型文本对象的第一提取结果。
若所述第一字体类型文本对象的第一识别可信度小于所述预设的识别可信度阈值,则所述第一字体类型文本对象的字形位图为所述第一字体类型文本对象的第一提取结果。
步骤S603,根据所述第二字体类型文本对象的内嵌信息判断所述第二字体类型文本对象是否内嵌在所述PDF页面中,将不内嵌在所述PDF页面中的文本对象的第一编码为第二提取结果,将内嵌在所述PDF页面中的文本对象进行OCR识别并得到第三提取结果。
其中,所述内嵌在所述PDF页面中的文本对象包括至少一个文本对象,所述不内嵌在所述PDF页面中的文本对象包括至少一个文本对象。
具体的,所述内嵌在所述PDF页面中的文本对象的所述字形位图进行所述OCR识别,得到所述内嵌在所述PDF页面中的文本对象的第三编码和第二识别可信度。
若所述内嵌在所述PDF页面中的文本对象的第二识别可信度大于所述预设的识别可信度阈值,则所述内嵌在所述PDF页面中的文本对象的第三编码为所述内嵌在所述PDF页面中的文本对象的第三提取结果。
若所述内嵌在所述PDF页面中的文本对象的第二识别可信度小于所述预设的识别可信度阈值,则所述内嵌在所述PDF页面中的文本对象的字形位图为所述内嵌在所述PDF页面中的文本对象的第三提取结果。
本实施例PDF文字提取方法还包括:
根据所述元素列表的每个文本对象的内嵌信息、字体信息和字号信息导出相对应的文本对象的第一提取结果、第二提取结果和第三提取结果;根据所述元素列表的每个文本对象的内嵌信息、字体信息和字号信息对所述相对应的文本对象的第一提取结果、第二提取结果和第三提取结果进行排序以及聚类操作,进行所述PDF页面的版面重构。
上述PDF文字提取方法,通过对PDF页面进行解析获取元素列表,提取元素列表中所有文本对象的第一编码、字形位图、内嵌信息、字体信息和字号信息;根据文本对象的字体信息将所述元素列表中所有文本对象分为第一字体类型文本对象和第二字体类型文本对象,对所述第一字体类型文本对象进行OCR识别并得到第一提取结果;根据所述第二字体类型文本对象的内嵌信息判断所述第二字体类型文本对象是否内嵌在所述PDF页面中,将不内嵌在所述PDF页面中的文本对象的第一编码为第二提取结果,将内嵌在所述PDF页面中的文本对象进行OCR识别并得到第三提取结果,提高了PDF文字提取的正确率,实现了不需要将所有PDF文字进行OCR识别,节约PDF文字提取的时间。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例三
对应于上文实施例一所述的PDF文字提取方法,图7中示出了本发明实施例提供的PDF文字提取装置。为了便于说明,仅示出了与本实施例相关的部分。
该装置包括PDF解析模块110、判断模块120和控制模块130。
PDF解析模块110,用于获取PDF页面中的文本对象的第一编码、字形位图、内嵌信息、字体信息和字号信息。
判断模块120,用于根据获取的所述字体信息判断所述文本对象的字体类型属于第一字体类型或第二字体类型,还根据获取的所述内嵌信息判断所述文本对象是否内嵌在所述PDF页面中。
控制模块130,用于对属于所述第一字体类型的所述文本对象进行OCR识别并得到第一识别结果,还用于提取属于所述第二字体类型且不是内嵌在所述PDF页面中的所述文本对象的第一编码并作为第二识别结果,还用于对属于所述第二字体类型且是内嵌在所述PDF页面中的所述文本对象进行所述OCR识别并得到第三识别结果。
可选的,判断模块120包括:第一判断单元121和第二判断单元122。
第一判断单元121,用于根据获取的所述字体信息判断所述文本对象的字体类型属于第一字体类型或第二字体类型。
第二判断单元122,用于根据获取的所述内嵌信息判断所述文本对象是否内嵌在所述PDF页面中。
可选的,所述装置还包括:调整模块140。
调整模块140,用于获取所述文本对象的所述第一识别结果、所述第二识别结果和所述第三识别结果,根据所述文本对象列表的每个文本对象的所述内嵌信息、所述字体信息和所述字号信息,对所述文本对象的所述第一识别结果、所述第二识别结果和所述第三识别结果进行排序以及聚类操作,对所述PDF页面的版面重构。
其中,所述PDF页面包括至少一个所述文本对象。
上述PDF文字提取装置,通过PDF解析模块110获取PDF页面中的各个文本对象的第一编码、字形位图、内嵌信息和字体信息;判断模块120根据获取的所述字体信息判断所述文本对象的字体类型属于第一字体类型或第二字体类型,还根据获取的所述内嵌信息判断所述文本对象是否内嵌在所述PDF页面中;控制模块130,对所述第一字体类型的所述文本对象进行OCR识别并得到第一识别结果,还用于提取属于所述第二字体类型且不是内嵌在所述PDF页面中的所述文本对象的第一编码并作为第二识别结果,还用于对所述第二字体类型且是内嵌在所述PDF页面中的所述文本对象进行所述OCR识别并得到第三识别结果,提高了PDF文字提取的正确率,实现了不需要将所有PDF文字进行OCR识别,节约PDF文字提取的时间。
实施例四
图8是本发明实施例四提供的PDF文字提取的控制装置100的示意图。如图8所示,该实施例的PDF文字提取的控制装置100包括:处理器150、存储器160以及存储在所述存储器160中并可在所述处理器150上运行的计算机程序161,例如PDF文字提取的控制程序。所述处理器150在执行所述计算机程序161时实现上述各个PDF文字提取方法实施例中的步骤,例如图1所示的步骤S101至S103。或者,所述处理器150执行所述计算机程序161时实现上述各装置实施例中各模块/单元的功能,例如图7所示模块110至140的功能。
示例性的,所述计算机程序161可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器160中,并由所述处理器150执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序161在所述PDF文字提取的控制装置100中的执行过程。例如,所述计算机程序161可以被分割成PDF解析模块、判断模块、控制模块和调整模块,各模块具体功能如下:
PDF解析模块,用于获取PDF页面中的文本对象的第一编码、字形位图、内嵌信息、字体信息和字号信息。
判断模块,用于根据获取的所述字体信息判断所述文本对象的字体类型属于第一字体类型或第二字体类型,还根据获取的所述内嵌信息判断所述文本对象是否内嵌在所述PDF页面中。
控制模块,用于对属于所述第一字体类型的所述文本对象进行OCR识别并得到第一识别结果,还用于提取属于所述第二字体类型且不是内嵌在所述PDF页面中的所述文本对象的第一编码,并作为第二识别结果,还用于对属于所述第二字体类型且是内嵌在所述PDF页面中的所述文本对象进行所述OCR识别,并得到第三识别结果。
可选的,所述判断模块包括:第一判断单元和第二判断单元。
第一判断单元,用于根据获取的所述字体信息判断所述文本对象的字体类型属于第一字体类型或第二字体类型。
第二判断单元,用于根据获取的所述内嵌信息判断所述文本对象是否内嵌在所述PDF页面中。
调整模块,用于获取所述文本对象的所述第一识别结果、所述第二识别结果和所述第三识别结果,根据所述文本对象列表的每个文本对象的所述内嵌信息、所述字体信息和所述字号信息,对所述文本对象的所述第一识别结果、所述第二识别结果和所述第三识别结果进行排序以及聚类操作,对所述PDF页面的版面重构。
所述PDF页面包括至少一个所述文本对象。
所述PDF文字提取的控制装置100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述PDF文字提取的控制装置100可包括,但不仅限于,处理器150、存储器160。本领域技术人员可以理解,图7仅仅是PDF文字提取的控制装置100的示例,并不构成对PDF文字提取的控制装置100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述PDF文字提取的控制装置100还可以包括输入输出设备、网络接入设备、总线等。
所称处理器150可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器160可以是所述PDF文字提取的控制装置100的内部存储单元,例如PDF文字提取的控制装置100的硬盘或内存。所述存储器160也可以是所述PDF文字提取的控制装置100的外部存储设备,例如所述PDF文字提取的控制装置100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器160还可以既包括所述PDF文字提取的控制装置100的内部存储单元也包括外部存储设备。所述存储器160用于存储所述计算机程序以及所述PDF文字提取的控制装置100所需的其他程序和数据。所述存储器160还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包括的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包括在本发明的保护范围之内。