CN101782896A

CN101782896A - 结合ocr技术的pdf文字提取方法

Info

Publication number: CN101782896A
Application number: CN200910076809A
Authority: CN
Inventors: 江世盛; 刘强
Original assignee: Hanwang Technology Co Ltd
Current assignee: Wuhan Rongguan Technology Development Co ltd
Priority date: 2009-01-21
Filing date: 2009-01-21
Publication date: 2010-07-21
Anticipated expiration: 2029-01-21
Also published as: CN101782896B

Abstract

本发明提供了一种结合OCR技术的PDF文字提取方法，属于模式识别技术领域，该方法包括：(1)PDF数据提取；(2)结合OCR技术确认字符内容；(3)对字符的第二编码进行处理；(4)根据字符的位置、字体和字号，导出经过步骤(3)处理的字符的第二编码。本发明中，在字符计算机内码确认过程中结合OCR技术，有效提高了PDF文字提取的准确性，解决了部分PDF文件字符内容无法提取的问题。

Description

结合OCR技术的PDF文字提取方法

技术领域

本发明涉及模式识别技术领域，特别涉及在PDF文件中提取文字的方法。

背景技术

PDF是Portable Document Format的缩写，是由Adobe公司开发的一种开放式的电子文件格式。PDF由PostScript编程语言发展而来，而PostScript当前依然作为主流的打印机编程语言广泛应用于专业出版领域。PDF大量延续了PostScript中的页面描述方式，采用了PostScript中定义的字符编码方式。

PDF文件格式的优点在于，文件格式与软硬件以及操作系统平台无关，无论在Windows、Unix还是在苹果公司的Mac OS操作系统中都可以无障碍的使用，并且可以达到相同的显示效果。这一特点使得PDF成为Internet上主要的电子文档格式，在数字化信息传播中充当着重要角色。

PDF文件格式产生的初衷即在于精确的描绘页面，满足电子出版领域高质量的要求。而将文件内容编辑的需要置于较为次要的位置。因此，在实际应用中时常出现PDF文件“只能看不能改”的现象。

PDF文字提取方法即是提取出PDF文件中包含的文字信息，并通过系列的信息处理过程，转换为便于编辑的文件格式。

目前对PDF的文字提取存在两种方法，一种是利用OCR识别技术，将PDF转换成图像，经过版面分析，行字切分、文字识别，将结果输出，此方法在上述各个步骤中都需要做智能分析，都可能引入错误，存在识别率不够高的问题；另一种方法是利用PDF文件进行解析，提取文字信息，直接将结果输出，但是，在PDF文件中，允许编码和显示的字符不完全对应，这样，导致该方法无法通过提取所有字符的计算机内码来提取字符。为了内容提取的需要，PDF格式规范定义了部分字体的编码到Unicode编码的映射，但仍然有部分PDF字体无法实现由字体编码到Unicode编码的映射。所以也不理想。

发明内容

本发明的目的在于提供一种结合OCR技术的PDF文字提取方法，以克服现有技术缺陷，提高PDF文字提取的准确性并解决部分PDF文件字符内容无法提取的问题。

为实现上述目的，本发明提供了一种结合OCR技术的PDF文字提取方法，该方法包括以下步骤：

(1)PDF数据提取：提取PDF文件中字符的第一编码、点阵图像数据、位置、字体和字号；

(2)结合OCR技术确认字符内容：基于字符的点阵图像数据进行字符的OCR识别，获得识别结果以及识别可信度，根据识别结果、识别可信度与步骤(1)中提取到的字符的第一编码，得到字符第二编码；

(3)对可靠的字符编码进行处理：对字符的第二编码进行排序以及聚类操作，并根据需要进行版面重构；

(4)根据字符的位置、字体和字号，导出经过步骤(3)处理的字符的第二编码。

优选地，步骤(1)中PDF数据提取包括以下步骤：

(11)提取PDF页面描述指令：解析PDF文件结构并进行数据解码，根据页号获取相应页面的页面描述指令；

(12)分析页面描述指令：将页面描述指令中对文字的描述分解为对单个字符的描述，并提取单个字符的第一编码、位置、字体和字号；

(13)按照设定的图像分辨率，将提取的字符的第一编码转换为字符的点阵图像数据；

(14)如果页面描述指令中还有其他的待处理字符，则重复以上(12)、(13)步骤。

优选地，步骤(2)中结合OCR技术确认字符内容包括以下步骤：

(21)用OCR技术识别字符的点阵图像数据，得到识别结果和识别可信度；

(22)将步骤(12)中得到的字符的第一编码与识别结果进行比对；

如果一致，将字符的第一编码视为字符的第二编码；

如果不一致，则判断识别可信度是否高于预先设定的阈值，识别可信度高于预先设定的阈值则采用OCR识别结果作为字符的第二编码。

优选地，步骤(3)中进行有效的排序是根据所述的字符的位置进行排序输出。

优选地，步骤(3)中进行聚类操作是根据所述的字符的位置、字体和字号，计算字符输出时所处的行、列和段落，使得解析或识别前位于同一块或同一段落的字符，在输出时依然保留原有的相对位置。

优选地，步骤(3)中进行版面重构是按照字符输出时所处的行、列和段落，输出每一个字符，并且与原有版面保持一致。

本发明中，在字符计算机内码确认过程中结合OCR(Optical CharacterRecognition，光学字符识别)技术，通过解析和转换获得PDF中字符的编码、位置、字符图像、字体、字号等信息，有效提高了PDF文字提取的准确性，解决了部分PDF文件字符内容无法提取的问题。

附图说明

图1是表示本发明思想的示意图；

图2是本发明的方法的步骤流程图；

图3是根据本发明的方法，提取PDF数据的具体步骤流程图；

图4是根据本发明的方法，结合OCR技术确认字符内容的具体步骤流程图；

图5是根据本发明的方法，对可靠的字符编码进行处理的具体步骤流程图。

具体实施方式

图1是表示本发明思想的示意图。如图1所示，通过对PDF文件进行信息的提取，获得PDF文档中文字的编码信息、文字的图像信息和文字的坐标信息，对文字的图像信息进行ORC识别，得到文字编码信息形式的识别结果，然后将文字的编码信息与识别结果进行综合决策得出可靠的文字编码信息，再结合文字的坐标信息等以特定版式和格式输出文字。

图2是本发明的方法的步骤流程图，下面结合该图详细解释本发明的方法。如图2所示，本发明的PDF文字提取方法结合了OCR技术，其包括步骤：

(201)PDF数据提取：提取PDF文件中字符的第一编码、点阵图像数据、位置、字体和字号。

(202)结合OCR技术确认字符内容：基于步骤(201)中得到的字符的点阵图像数据进行字符的OCR识别，获得识别结果以及识别可信度，根据识别结果、识别可信度与步骤(201)中提取到的字符的第一编码，得到字符的第二编码。这里得到的字符的第二编码视为可靠的字符编码。

(203)对可靠的字符编码进行处理：对字符的第二编码进行有效的排序以及聚类操作，并根据需要进行版面重构；

(204)以正确的文件格式导出：根据字符的位置、字体和字号，导出经过步骤(3)处理的作为可靠的字符编码的字符的第二编码。例如以txt、doc或rtf等文件格式导出字符的第二编码。

具体地，图3是根据本发明的方法，提取PDF数据的具体步骤。如图3所示，提取PDF数据可以但不局限于包括：

(301)解析PDF文件结构并进行数据解码，根据页号获取相应页面的页面描述指令；

(302)分析页面描述指令，将页面描述指令中对文字的描述分解为对单个字符的描述；

(303)进行坐标变换和编码转换，提取单个字符的第一编码、位置、字体和字号，字符的第一编码可以采用Unicode编码的形式；

(304)按照设定的图像分辨率，将提取的字符的第一编码转换为字符点阵图像数据。

通过步骤(302)至(304)，得到了PDF文件中字符的第一编码、点阵图像数据、位置、字体和字号，还可以根据需要得出其它字符相关的信息。在下面根据字符的第一编码和点阵图像数据进一步获取可靠的字符编码，根据字符的位置、字体和字号等能够计算字符的位置以便于按正确的版面输出。

(305)如果页面描述指令中还有其他的待处理字符，则重复以上(303)、(304)步骤；如果没有待处理字符，则进行步骤(202)。

具体地，图4是根据本发明的方法，结合OCR技术确认字符内容的具体步骤，如图4所示，结合OCR技术确认字符内容可以但不局限于包括：

(401)用OCR技术识别字符的点阵图像数据，得到识别结果和识别可信度；

(402)将步骤(203)中得到的字符的第一编码与识别结果进行比对；

如果字符的第一编码与识别结果一致，则视为可靠的字符编码，即字符的第二编码；

如果字符的第一编码与识别结果不一致，则判断识别可信度是否高于预先设定的阈值，识别可信度高于预先设定的阈值则采用OCR识别结果作为字符的第二编码，否则采用步骤(303)中得到的字符的第一编码作为字符的第二编码。识别可信度指的是识别正确的概率，通过计算点阵图像数据与字典数据之间的差异得到。识别可信度的高低可以通过将识别可信度与预先设置的阈值相比较，高于阈值视为识别可信度高。

具体地，图5是根据本发明的方法，对可靠的字符编码进行处理的具体步骤，如图5所示，对可靠的字符编码进行处理可以但不局限于包括：

(501)进行有效的排序：根据所述的字符的位置进行排序输出。

(502)进行聚类操作：根据所述的字符的位置、字体和字号，计算字符输出时所处的行、列和段落，使得解析或识别前位于同一块或同一段落的字符，在输出时依然保留原有的相对位置。

(503)进行版面重构：按照字符输出时所处的行、列和段落，输出每一个字符，并且与原有版面保持一致。

本实施例中，在字符计算机内码确认过程中结合OCR(Optical CharacterRecognition，光学字符识别)技术，通过解析和转换获得PDF中字符的编码、位置、字符图像、字体、字号等信息，有效提高了PDF文字提取的准确性，解决了部分PDF文件字符内容无法提取的问题。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种结合OCR技术的PDF文字提取方法，其特征在于，该方法包括以下步骤：

(2)结合OCR技术确认字符内容：基于字符的点阵图像数据进行字符的OCR识别，获得识别结果以及识别可信度，根据识别结果、识别可信度与步骤(1)中提取到的字符的第一编码，得到字符的第二编码；

(3)对字符的第二编码进行处理：对字符的第二编码进行排序以及聚类操作，并根据需要进行版面重构；

2.如权利要求1所述的PDF文字提取方法，其特征在于，步骤(1)中PDF数据提取包括以下步骤：

3.如权利要求2所述的PDF文字提取方法，其特征在于，步骤(2)中结合OCR技术确认字符内容包括以下步骤：

如果一致，将字符的第一编码视为字符的第二编码；

4.如权利要求1所述的PDF文字提取方法，其特征在于，步骤(3)中进行有效的排序是根据所述的字符的位置进行排序输出。

5.如权利要求4所述的PDF文字提取方法，其特征在于，步骤(3)中进行聚类操作是根据所述的字符的位置、字体和字号，计算字符输出时所处的行、列和段落，使得解析或识别前位于同一块或同一段落的字符，在输出时依然保留原有的相对位置。

6.如权利要求5所述的PDF文字提取方法，其特征在于，步骤(3)中进行版面重构是按照字符输出时所处的行、列和段落，输出每一个字符，并且与原有版面保持一致。