CN114926840A

CN114926840A - 一种影印pdf转可复制pdf方法及系统

Info

Publication number: CN114926840A
Application number: CN202210517186.2A
Authority: CN
Inventors: 孙俊; 苟刚
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-08-19

Abstract

本发明公开了一种影印PDF转可复制PDF方法及系统，涉及办公文档信息处理技术领域，具体为一种影印PDF转可复制PDF方法及系统，包括步骤：S1、载入代转换PDF文档数据，提取其中的格式信息，转数值为对应的像素分辨率，使用fitz工具提取每页图片，放大分辨率并提升清晰度；S2、对每一张图片进行笛卡尔坐标系统转换到极坐标霍夫空间系统的直线霍夫变换，对图片进行可能的位置纠正。本发明解决了日常生活中大量图片影印型分辨率低、布局倾斜、无法复制等难以充分阅读、利用和目前转换方法提取文本信息却丢失排版信息，带来重复处理的问题。

Description

一种影印PDF转可复制PDF方法及系统

技术领域

本发明涉及办公文档信息处理技术领域，具体为一种影印PDF转可复制PDF方法及系统。

背景技术

PDF为可便携文档格式，是目前一种应用最广泛的跨程序跨操作系统的文件格式。PDF承载了目前日常办公、教育学习和信息留证等大量的数据。当但作为一种排版优良所见即所得的文档格式，其编辑的难度要比常用的office系列文档要高得多，并且目前大部分数据的交互变动仍在office系列格式文档场景中。面对工作生活中大量易于生成但难以编辑利用的图片影印型PDF，往往只能自行打字排版或求助于OCR文本工具。传统的OCR文本工具存在手动效率低，缺少排版信息等问题。近年来深度学习在OCR技术的不断技术创新，文字识别率不断提升，能自动PDF转换文字并保留排版的研究已经有了一些有益的尝试，但都存在一些缺陷或不足，如市场上普遍使用的PDF转word产品转换后，丢失大量图片和背景，并且排版效果也不尽人意。

传统意义上的OCR技术可以解决文字的检测和识别需求，但在实际影印型PDF中，需要获取的是结构化的信息。目前影印型PDF转换成带排版文字的思路与实践是文档结构化识别，结合版面分析与OCR转文字处理。利用端到端的边缘检测等深度学习模型对PDF进行布局划分，然后结合OCR技术。如身份证、发票的信息格式化抽取，表格的结构化识别等等，然而目前只能在特定领域落地，泛化能力差，无法对包含各种元素的影印型PDF文档很好地处理。

发明内容

针对现有技术的不足，本发明提供了一种影印PDF转可复制PDF方法及系统，解决了上述背景技术中提出的问题。

为实现以上目的，本发明通过以下技术方案予以实现：一种影印PDF转可复制PDF方法及系统，其特征在于，包括步骤：

S1、载入代转换PDF文档数据，提取其中的格式信息，转数值为对应的像素分辨率，使用fitz工具提取每页图片，放大分辨率并提升清晰度；

S2、对每一张图片进行笛卡尔坐标系统转换到极坐标霍夫空间系统的直线霍夫变换，对图片进行可能的位置纠正；

S3、创建新的空白PDF，使用探测层对每一页进行文本位置区域探测，保留区域位置信息，使用识别模型识别每页的文本区域块，生成对应的文本信息；

S4、在新创建的PDF上使用一层Canvas，保留排版地把文本以确定的大小写上，然后附上每一张对应图片。

可选的，所述步骤S1进一步的，包括以下步骤：

S11、导入待处理PDF文档数据；

S12、根据PDF格式的结构，提取出布局信息，如实际尺寸(cm)等；

S13、转数值为对应的像素分辨率(px)，A4纸，dpi=72，是595×842，不同dpi下参数意义不同，需要数值统一化，由于尺度的不同为了达到一一对应的排版效果必需进行尺度单位的转换，像素是指由图像的小方格组成的，这些小方块都有一个明确的位置和被分配的色彩数值，而像素与dpi(dots per inch)密不可分，dpi指打印分辨率（每英寸所能打印的点数，即打印精度）更严谨的说法是ppi(pixels per inch)，图像的采样率；依据公式windows系统默认dpi为90；A4纸张，宽21cm，高度29.7cm，左右边距各3.17cm，上下边距各2.54cm；如果要以A4纸张打印，其宽度：14.66*90/2.54=519px；

S14、使用fitz工具把每页PDF转成图片，并放大分辨率，提升清晰度。

可选的，所述步骤S13对不同文档的单位转换和步骤S14对PDF进行切分并生成图片。

可选的，所述步骤S2进一步的，包括以下步骤：

S21、已经生成的图片进行灰度转换；

S22、通过霍夫变换检测直线，设置一般的检测阈值，由于图像不同，阈值不好设定，阈值设定过高会导致无法检测直线，其中，步骤S22中，进行霍夫变换提取边界信息来进行图片的纠正。霍夫变换预先设想把一条线（边界）用点来处理。直线在直线坐标参数空间进行空间变换后得到霍夫空间；直角坐标系（x，y）空间中，每条直线y=ax+b可以由两个参数确认：斜率a与截距b；如果将a，b看成是自变量，有b=-xa+y，这个（a，b）值构成的空间就是霍夫空间。在霍夫空间中，统计直线的焦点次数设立阈值判断检测直线；

S23、依次画出每条线段，所画出的所有线条，只选角度最小的作为旋转角度，对所有角度求平均，这样做旋转效果会更稳定。

可选的，所述步骤S22通过选择合适地由大到小候选阈值设置，以对不同的图片设置一个较合理的阈值进行直线检测。

可选的，所述步骤S3进一步的，包括以下步骤：

S31、按照图片的像素尺寸以dpi=300下的PDF制式创建空白PDF；

S32、通过模块检测标注技术划分出所有可能的四边形文本块，记录位置信息，截取出这些小片段；通过一定dpi下像素和字体大小的转换得到文本的字体大小信息；

S33、使用OCR技术识别图片片段，使用构造的数据结构保留位置信息对应的文本信息和字体大小；步骤S33中，把图片信息在探测模块进行可能的文本区域探测，得到探测位置信息和图片分析探测图；利用得到的探测信息，切分小文字图片利用PaddleOCR技术便可转写出文本；该方法使用MobileV2 Paddle-OCR模型快速的训练文本并可部署常用微机上，对算力依赖小，并可以使用GPU进行训练。基于规则的文本采用Sequence2Sequence算法，基于Sequence2Sequence的方法则是把序列接入循环神经网络(Recurrent NeuralNetwork，RNN)模块进行循环解码；对于不规则的文本采用基于校正的方法基于校正的方法利用一些视觉变换模块，将非规则的文本尽量转换为规则文本，然后使用常规方法进行识别。

可选的，所述步骤S32使用基于深度学习网络的光学图像转文字技术，并把图片信息与文本排版信息结合。

可选的，所述步骤S4进一步的，包括以下步骤：

S41、添加一层画布Canvas层；

S42、使用已存储信息，在对应位置上按字依次以具体字体大小写入对应的文本信息；

S43、以对应每页的图像覆盖文字层，保留原有的信息量。

一种影印PDF转可复制PDF系统，包括：

数据处理主模块：用于通过路径，导入原影印型PDF的数据，并传送、接收各模块请求，进行系统功能开始前的文档信息读入等准备工作；

尺度转换模块：根据原影印型PDF的尺寸格式，按照转换公式和设定好的参数进行相对尺寸单位转换，这是排版基本一致的重要前提；

文档切分模块：对影印型PDF的数据层进行拆分出页面图片，可以使用多种工具实现，模块使用fitz拆分页面，并结合尺度转换模块的布局数值信息进行常用的图片分辨率转换，把小分辨率图片进行提升，提高识别的准确率；

图形纠正模块：对页面图片进行灰度转换、二值化等处理后，像素数据对应在笛卡尔坐标系下，通过极坐标霍夫变换进行基本的倾斜的纠正，为后续的边界探测、文本识别提供合适的图形数据；

文本边界探测模块：该模块定位出输入图像中的四边形文字区域，以采用基于回归的算法，通过设定anchor回归检测框，取得可能的文本区域边界位置信息，并标注文本区域，由于图像的位置以此页面ppi下像素位置，仍需尺度转换对应在PDF的位置；

识别处理模块：对标注文本区域进行文本识别，并通过尺度转换和设定在系统中的公式计算图像中文本的字体大小；

图层写入模块：基于尺度变换模块的布局信息、文本边界探测模块的文本边界信息和识别处理模块的文本信息及字体大小，新建空白PDF以这些排版格式写入文字层，附加页面图片得到保留排版且可复制PDF。

本发明提供了一种影印PDF转可复制PDF方法及系统，具备以下有益效果：

本发明对影印型PDF能快速进行提取文字，并结合布局考量实现转换前后的相对排版信息基本一致；对图片进行预先位置和分辨率的提升提高了OCR技术的准确率；本发明易于使用，对计算机性能要求较同类技术产品低，可以使用在便携设备上，处理过程花费时间较少，保留的文字排版便于复制影印型PDF中的信息和阅读。

本发明实现了对影印型PDF中各页进行文本信息探测，转换文字，形成新的PDF文档，保留排版地在PDF文档中添加文字信息，附加图片形成排版良好，清晰阅读的PDF文档；合理探测切分的文字区域块结合高识别的OCR技术，自动快速的转换影印型PDF；这便于有办公需求的人员直接复制PDF对于信息而无需手动单页转换或直接打字输入。

本发明利用图片转换技术、尺度转换技术、分辨率增强、探测技术和图形位置纠正技术，使得后续识别的良好工作和整体的排版保留。

本发明得到了影印型PDF每页的自动纠正的分辨率增强的页面图片，便于后续处理。

本发明得到了每页图片的文本区域探测标注图，增强了中途故障的解决，无需从头开始，增强鲁棒性，并更加便于OCR的处理；

本发明进行了各单位制式下的尺度变换，同时保留了基本的排版位置信息，避免了额外的排版调整信息，整体与原PDF排版结构一致，便于信息的保留和阅读。

附图说明

图1为本发明的所述方法的步骤图；

图2为本发明的所述方法的进一步详细步骤图；

图3为本发明的所述方法实现系统的模块间调用顺序图；

图4为实施例3的中的整理自然辩证法思考题答案PDF的文本区域探测标注图；

图5为实施例3的中的整理自然辩证法思考题答案PDF的转换效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

如图1和图2所示，本发明提出了一种影印型PDF转保留排版且可复制PDF的方法，该方法包括以下步骤：

S1、载入代转换PDF文档数据，提取其中的格式信息，转数值为对应的像素分辨率(px)，使用fitz工具提取每页图片，放大分辨率并提升清晰度。

例如原文档100页，分辨率595×842切分成100张分辨率892.5×1263。

S11、导入待处理PDF文档数据。

S12、根据PDF格式的结构，提取出布局信息，如实际尺寸(cm)等。

S13、转数值为对应的像素分辨率(px)，A4纸，dpi=72，是595×842，不同dpi下参数意义不同，需要数值统一化。

对每一张图片进行笛卡尔坐标系统转换到极坐标霍夫空间系统的直线霍夫变换，对图片进行可能的位置纠正。

S21、已经生成的图片进行灰度转换。

S22、通过霍夫变换检测直线，设置合适的检测阈值，由于图像不同，阈值不好设定，阈值设定过高会导致无法检测直线。

创建新的空白PDF，使用探测层对每一页进行文本位置区域探测，保留区域位置信息，使用识别模型识别每页的文本区域块，生成对应的文本信息。

S31、按照图片的像素尺寸以dpi=300的PDF尺寸创建空白PDF。

S32、通过模块检测标注模块划分出所有可能的四边形文本块，记录位置信息，截取出这些小片段；通过一定dpi下像素和字体大小的转换得到文本的字体大小信息。

S33、使用OCR技术识别图片片段，使用构造的数据结构保留位置信息对应的文本信息和字体大小。

S41、添加一层画布Canvas层。

S42、使用已存储信息，在对应位置上按字依次以具体字体大小写入对应的文本信息。

S43、对应每页的图像覆盖文字层，保留原有的信息量。

具体的，把已经划分好文字区域的页面图，截取每一图片片段，减少OCR识别模块视觉目标检测的时间；预处理进行的基于霍夫变换的图像纠正，该变换可以一定程度上校正倾斜的页面文本区域，纠正后在序列识别网络能得到较好地解码；整个所应用的文本识别方法中，任务分为3个步骤，即图像预处理、文本区域边界探测和字符识别；通过主体的视觉特征提取、序列特征提取、文本预测和文本排版结构重写达到目标功能实现。

实施案例2

一种影印PDF转可复制PDF系统，包括：

由于得到了保留排版且可复制的PDF，在方便人员办公使用外，充分保留了PDF格式文档的不同系统、不同界面依旧原样显示的特点；本发明转换影印型PDF，保留了基本的排版位置信息，避免了额外的排版调整信息，整体与原PDF排版结构一致，便于信息的保留和阅读。

实施例3

如图4至图5所示，作为实施例1和实施例2的进一步体现，本实施例包含了实施例1和实施例2的所有技术特征，并包括以下细化的技术特征，以一份整理自然辩证法思考题答案PDF进行保留排版且可复制的PDF转换为例。

该文档具有以下特点：段落结构不是标准的文档，如标题没有居中、每段缩进不一致；文档的字体大小不一致，明显可见有些字体大小不同。

在步骤S32中，对所有可能的文本区域进行边界探测，并以随机颜色进行标注，如图4所示，具体方式使用基于回归的文本探测，并以画布对图像进行标注。

在步骤S42和步骤S43中，对应文本信息以相对的字体大小和边界位置，在新建PDF写入文本层中，得到良好排版且可复制的PDF，如图5所示。值得说明的是，由于每一行内有不同字体大小的文本，且为了贴近文档格式中的字距设置，以按字的方式依次进行写入。

与目前市面上的技术相比，本技术有解决以下问题：第一，对影印型PDF的文字信息进行提取，并较好地保留了其在文档页面中的排版信息。第二，可处理多类型地影印型PDF，对于纯文字、图与文字混合和非常规排版影印型PDF都能进行转换并得到较好结果。第三，选择易于使用且性能要求低的OCR识别模型，并且把部分识别功能提取出以计算机常规手段实现，使识别模型专注与文本识别，减少时间和性能要求，如图像纠正功能。

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种影印PDF转可复制PDF方法，其特征在于，包括步骤：

S4、在新创建的PDF上使用一层Canvas，保留排版地把文本以确定的字体大小写上，然后附上每一张对应图片。

2.根据权利要求1所述的一种影印PDF转可复制PDF方法，其特征在于，所述步骤S1进一步的，包括以下步骤：

S11、导入待处理PDF文档数据；

S12、根据PDF格式的结构，提取出布局信息，如实际尺寸；

S13、转此规格下数值为对应的像素分辨率，不同dpi下参数意义不同，需要数值归一化；

3.根据权利要求2所述的一种影印PDF转可复制PDF方法及系统，其特征在于：所述步骤S13对不同文档的单位转换和步骤S14对PDF进行切分并生成图片。

4.根据权利要求3所述的一种影印PDF转可复制PDF方法及系统，其特征在于，所述步骤S2进一步的，包括以下步骤：

S21、已经生成的图片进行灰度转换；

S22、通过霍夫变换检测直线，设置一般的检测阈值，由于图像不同，阈值不好设定，阈值设定过高会导致无法检测直线；

5.根据权利要求4所述的一种影印PDF转可复制PDF方法及系统，其特征在于：所述步骤S22通过选择合适地由大到小候选阈值设置，以对不同的图片设置一个较合理的阈值进行直线检测。

6.根据权利要求1所述的一种影印PDF转可复制PDF方法及系统，其特征在于，所述步骤S3进一步的，包括以下步骤：

S31、按照图片的像素尺寸以dpi＝300下的PDF制式创建空白PDF；

S33、使用OCR技术识别图片片段，使用构造的数据结构以保留位置信息对应的文本信息和字体大小。

7.根据权利要求6所述的一种影印PDF转可复制PDF方法及系统，其特征在于：所述步骤S32使用基于深度学习网络的光学图像转文字技术，并把图片信息与文本排版信息结合。

8.根据权利要求7所述的一种影印PDF转可复制PDF方法及系统，其特征在于，所述步骤S4进一步的，包括以下步骤：

S41、添加一层画布Canvas层；

S43、以对应每页的图像覆盖文字层，保留原有的信息量。

9.一种影印PDF转可复制PDF系统，其特征在于，包括：

数据处理主模块：用于引入文件路径，导入原影印型PDF的数据，并传送、接收各模块请求，进行系统功能开始前的文档信息读入等准备工作；