CN110363102B

CN110363102B - 一种pdf文件的对象识别处理方法及装置

Info

Publication number: CN110363102B
Application number: CN201910549537.6A
Authority: CN
Inventors: 罗彤; 周占文; 曹德亮; 赵红军
Original assignee: Beijing Ronghui Jinxin Information Technology Co ltd
Current assignee: Beijing Ronghui Jinxin Information Technology Co ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2022-05-17
Anticipated expiration: 2039-06-24
Also published as: CN110363102A

Abstract

本发明实施例公开了一种PDF文件的对象识别处理方法及装置，方法包括：将PDF文件的当前页面转换为待识别图像并进行灰度转换处理、二值化处理和闭合处理，得到识别背景后的背景图像；识别背景图像中的表格和图片，并根据识别到的表格和图片对背景图像进行自动化标记，得到标记图像；将标记图像输入训练好的深度学习模型中，得到深度学习模型输出的带有对象识别结果的识别图像。通过对待识别图像进行灰度转换处理、二值化处理和闭合处理，进行图像背景的识别；通过预设规则识别背景图像中的表格和图片并进行标记，最后通过训练好的深度学习模型输出的带有对象识别结果的识别图像，不仅快速简单、节约了大量人工标注的人力成本，而且识别准确率高。

Description

一种PDF文件的对象识别处理方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种PDF文件的对象识别处理方法及装置。

背景技术

PDF(Portable Document Format，便携式文档格式)是一种独立于硬件、操作系统和应用程序的电子文档格式。由于其具有跨平台、多媒体集成、安全等优点，PDF已成为目前使用最为广泛的电子文档格式之一。随着PDF格式文档的应用越来越广泛，大量有价值的数据均以PDF文件的形式进行呈现。因此，如何从PDF文件中提取所需数据，尤其是结构化、半结构化的表格数据和图片，是一个被广泛关注和研究的问题。

现有的PDF表格识别工具采用先将PDF文件转换为一种中间格式的文档(如HTML(Hyper Text Markup Language，超文本标记语言)、XML(Extensible Markup Language，可扩展标记语言)、DOC(Document，文档)等)，然后再从这种中间格式的文档中提取出所需要的数据。该方法不仅多引入了一次转换到中间文件的操作，而且转换得到的中间文件难以准确地保持数据在原有PDF文件中的位置和结构，因此不一定能得到准确的表格数据解析结果，从而难以进行后续的处理。

PDF格式的文档结构与HTML、XML等格式不同，PDF文件对表格没有特殊的定义，而只是线条与文字的位置组合，因此很难直接从PDF文件中提取出所需要的表格数据。也正是因为这一原因，虽然目前从PDF文件中识别表格的相关工具众多，然而成熟稳定、识别准确率高的工具却很少；同样地，现有工具对PDF文件的图片识别的准确率也较低。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种PDF文件的对象识别处理方法及装置。

第一方面，本发明实施例提出一种PDF文件的对象识别处理方法，包括：

将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像，对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理，得到识别背景后的背景图像；

根据第一预设规则识别所述背景图像中的表格，根据第二预设规则识别所述背景图像中的图片，并根据识别到的表格和图片对所述背景图像进行自动化标记，得到标记图像；

将所述标记图像输入训练好的深度学习模型中，得到所述深度学习模型输出的带有对象识别结果的识别图像；

其中，所述对象识别结果包括背景、图片、表格和文字。

可选地，所述根据第一预设规则识别所述背景图像中的表格，具体包括：

根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别，若识别到格线状对象，则确定所述格线状对象为表格；

其中，所述目标区域为所述背景图像中去除背景之后的区域。

可选地，所述根据第二预设规则识别所述背景图像中的图片，具体包括：

若判断所述目标区域的若干子区域之间相连，则分别获取所述若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置，根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域，并确定所述最小区域对应的对象为图片。

可选地，所述PDF文件的对象识别处理方法还包括：

对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计，将词频大于预设词频的文字作为页首页尾候选文字，将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算，将相似性大于相似性预设值的文字作为页首页尾文字，并将所述页首页尾文字从所述识别图像识别到的文字中进行删除，得到更新后的识别图像。

第二方面，本发明实施例还提出一种PDF文件的对象识别处理装置，包括：

背景识别模块，用于将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像，对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理，得到识别背景后的背景图像；

图像标记模块，用于根据第一预设规则识别所述背景图像中的表格，根据第二预设规则识别所述背景图像中的图片，并根据识别到的表格和图片对所述背景图像进行自动化标记，得到标记图像；

图像识别模块，用于将所述标记图像输入训练好的深度学习模型中，得到所述深度学习模型输出的带有对象识别结果的识别图像；

其中，所述对象识别结果包括背景、图片、表格和文字。

可选地，所述图像标记模块具体用于：

可选地，所述PDF文件的对象识别处理装置还包括：

文字删除模块，用于对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计，将词频大于预设词频的文字作为页首页尾候选文字，将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算，将相似性大于相似性预设值的文字作为页首页尾文字，并将所述页首页尾文字从所述识别图像识别到的文字中进行删除，得到更新后的识别图像。

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过对待识别图像进行灰度转换处理、二值化处理和闭合处理，进行图像背景的识别；通过预设规则识别背景图像中的表格和图片并进行标记，最后通过训练好的深度学习模型输出的带有对象识别结果的识别图像，不仅快速简单、节约了大量人工标注的人力成本，而且识别准确率高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种PDF文件的对象识别处理方法的流程示意图；

图2(A)(B)分别为本发明一实施例提供的待识别图像和背景识别结果示意图；

图3(A)(B)分别为本发明一实施例提供的垂直方向和水平方向的表格识别结果示意图；

图4(A)(B)分别为本发明一实施例提供的表格格线识别结果和表格标记结果示意图；

图5(A)(B)分别为本发明一实施例提供的图片识别前后的示意图；

图6为本发明一实施例提供的一种PDF文件的对象识别处理装置的结构示意图；

图7为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种PDF文件的对象识别处理方法的流程示意图，包括：

S101、将PDF文件的当前页面转换为图像格式的待识别图像，对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理，得到识别背景后的背景图像。

其中，所述灰度转换处理是将原先彩色的待识别图像转换为灰度图像。

所述二值化处理是将灰度图像转换为黑白图像。

所述背景图像为识别到背景后的图像。

所述闭合处理是将黑白图像中距离较近的区域处理为连通闭合区域的图像，如图2(A)为待识别图像，图2(B)为闭合处理的效果，其中黑色部分即为识别得到的背景。

S102、根据第一预设规则识别所述背景图像中的表格，根据第二预设规则识别所述背景图像中的图片，并根据识别到的表格和图片对所述背景图像进行自动化标记，得到标记图像。

其中，所述标记图像为对所述背景图像中的表格和图片进行标记后的图像。

具体地，可以采用PDF阅读软件(例如PDFBox等)的文字块位置进行无格线表格的检测，首先将文字块进行水平聚类，将同一水平的文字块纪录，若在同一水平上有过多短文字块则判定为表格候选，接着对候选水平文字块进行聚类，完成表格最终的框线检测，并输出最终的检测结果。

也可以采用PDF阅读软件(例如PDFBox等)的图片识别结果进行进一步地图片检测，识别背景图像中的图片。

S103、将所述标记图像输入训练好的深度学习模型中，得到所述深度学习模型输出的带有对象识别结果的识别图像。

其中，所述深度学习模型是根据多个待识别图像和对应的识别结果预先训练好的模型。

通过深度学习，能够解决传统算法难以检测出不规则或不明显的图片和表格的问题，确保图片或表格内文字不会混入到文本中。

所述对象识别结果包括背景、图片、表格和文字。

首先将标记图像作为输入，利用深度学习方法，将画面中每个像素点分类成4个类别，分别是背景、图片、表格和文字，最后结果会生成一张图像，该图像包括4种像素值，各像素值代表各个类别。

在具体执行过程中，可以首先将PDF文件通过PDF阅读软件(例如PDFBox等)抓取出该文档中的所有文字和部分图片；然后将PDF的页面转成图像，通过图像处理的方式进一步对PDF文件进行分析；接着把转成图像格式的PDF页面通过图片和表格的检测方式，将PDF阅读软件(例如PDFBox等)抓取不到的图片与表格找出，并将上述的两种方式找出的图片、表格和文字数据进行结合；最后通过深度学习的image segmentation方法，利用训练好的深度学习模型对标记图像进行像素级的分类，分为四类，分别是：背景、图片、表格和文字，分类完之后会先做个初步处理，筛选出表格和图片的个别数据，并与传统算法的结果做结合，再进行后续的分析，找出大部分图片和表格的各自文字内容，保护文本的输出不会混入图表的数据。

本实施例通过对待识别图像进行灰度转换处理、二值化处理和闭合处理，进行图像背景的识别；通过预设规则识别背景图像中的表格和图片并进行标记，最后通过训练好的深度学习模型输出的带有对象识别结果的识别图像，不仅快速简单、节约了大量人工标注的人力成本，而且识别准确率高。

进一步地，在上述方法实施例的基础上，S102中所述根据第一预设规则识别所述背景图像中的表格，具体包括：

具体地，对背景图像进行表格识别时，首先对图像之两个维度各别进行一维形态学断开处理，各别产生一张垂直和水平方向的线段检测结果，如图3(A)和(B)所示；并将其合并成一张格线状图像，如图4(A)所示；再经过二维形态学进行重复膨胀操作，接着对此图像进行连通物件找寻，并对返回的各个连通物件计算面积及ROI(region of interest，感兴趣区域)，以面积及该ROI的长宽进行筛选，得到最后的有格线的表格，并对该表格进行标记，如图4(B)所示对识别到的两个表格用框线标记，方便提取和查看。

进一步地，在上述方法实施例的基础上，S102中所述根据第二预设规则识别所述背景图像中的图片，具体包括：

举例来说，如图5(A)所示为采用闭合处理或PDF阅读软件(例如PDFBox等)识别得到的图片识别结果，其中包括多个子区域，这些子区域间通过线条相连；可以通过灰度值判断来确定若干子区域之间是否相连。

当确定若干子区域之间相连后，分别获取所述若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置，即分别获取相连的所有子区域的最大边界，并根据四个最大边界得到对应的矩形框，即包围所述若干相连的子区域的最小区域，如图5(B)所示。

通过上述方法，能够准备地识别PDF中的图片。

进一步地，在上述方法实施例的基础上，所述PDF文件的对象识别处理方法还包括：

S104、对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计，将词频大于预设词频的文字作为页首页尾候选文字，将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算，将相似性大于相似性预设值的文字作为页首页尾文字，并将所述页首页尾文字从所述识别图像识别到的文字中进行删除，得到更新后的识别图像。

其中，可以使用PDF阅读软件(例如PDFBox等)对PDF进行文字及图片的初步分析，解析所有文字之后，对整个PDF所有页面的顶部以及底部范围内的文字分别进行词频计算，选取词频较高的当作页首页尾候选文字，并以此页首页尾候选文字对所有页面高度内的文字进行相似性计算，若相似性高则可判定为页首或页尾。采用相似性计算的目的是为了防止一份PDF文件内的页首页尾的不规则性，最终利用计算出来的页首页尾，对页首页尾的文字进行删除，保留中间区段进行输出，并将过滤的文字结果、PDF阅读软件(例如PDFBox等)所抓取的图片结果以及计算求得的页首页尾阈值进行进一步处理。

执行完本实施例提供的PDF文件的对象识别处理方法后，整合所有识别结果，并对结果进行筛选、呈现及输出。首先会将各个图片及表格检测结果进行调整，合并重叠部分，产生一张定义对象位置及类别的遮罩以便于后续对象重叠判断；再对文字结果进行文字检测以及筛选，利用文字位置以及遮罩，佐以关键字判断，判断文字是否为表格内容，并记录文字所对应的表格。从文字中筛选删除内容之后，对所有文字块进行无格线表格检测，利用水平方向的关联性进行短文字块聚类，产生无格线的表格结果；然后进行图表的分析，修正传统算法得到的图片和表格的错误，并结合深度学习的结果改善图片和表格的分析；最后当图片和表格都成功得到之后，会针对目前还没有文字的图片和表格进行检测，改善有文字但未被识别出来的问题。最后将所有图、表、文字进行标记、调整，并输出至相对应的资料夹内完成分析。

对图像进行无格线表格的检测时，以电脑视觉技术对待识别图像进行处理，保留深色像素点，以HSV(Hue Saturation Value，色调、饱和度、明亮度)色彩空间的明亮度进行二值化处理，通过二维影像闭合技术使琐碎的文字像素点进行连通，再将连通的图片进行连通区域分析，找出相连对象，并且滤除原先为图像及表格的位置，产生初步的文字块位置；并根据这些文字块的水平位置进行水平对象分析：若在同一水平上有过多短小文字块，则初步判定为式无格线的表格。将这些被判定的水平文字块进行聚类，合成无格线表格最终的位置并返回位置列表；最后利用已知的文字位置和图片与表格的位置进行内文删除的动作，通过各自的位置坐标进行判断，将应该为图片或表格内的文字以及页首页尾的文字从识别文字中删除，最后剩下未被删除的文字确定是最终输出的文字。

现有技术中仅通过PDF阅读软件(例如PDFBox等)进行PDF文件分析，无法准确将图片和表格识别出来，也无法使该图片或表格对应到各自的文字内容，同时遇到复杂的PDF文件往往容易出错。本实施例除了可以完整地将图片和表格识别出来，还可以找出他们对应到的文字内容，并将侧边栏的不重要数据从文本中滤除，页首和页尾的文字也进行滤除，以保留真正的内文数据，可以得到较好的文本内容、图片以及表格；另外，通过图像处理与深度学习结合的方式，可以让PDF文件解析后得到更干净的文本和分类过的图片和表格；同时将得到的图片、表格结果与文字进行整合，输出最后结果。

图6示出了本实施例提供的一种PDF文件的对象识别处理装置的结构示意图，所述装置包括：背景识别模块601、图像标记模块602和图像识别模块603，其中：

所述背景识别模块601用于将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像，对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理，得到识别背景后的背景图像；

所述图像标记模块602用于根据第一预设规则识别所述背景图像中的表格，根据第二预设规则识别所述背景图像中的图片，并根据识别到的表格和图片对所述背景图像进行自动化标记，得到标记图像；

所述图像识别模块603用于将所述标记图像输入训练好的深度学习模型中，得到所述深度学习模型输出的带有对象识别结果的识别图像；

其中，所述对象识别结果包括背景、图片、表格和文字。

具体地，所述背景识别模块601将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像，对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理，得到识别背景后的背景图像；所述图像标记模块602根据第一预设规则识别所述背景图像中的表格，根据第二预设规则识别所述背景图像中的图片，并根据识别到的表格和图片对所述背景图像进行标记，得到标记图像；所述图像识别模块603将所述标记图像输入训练好的深度学习模型中，得到所述深度学习模型输出的带有对象识别结果的识别图像。

进一步地，在上述装置实施例的基础上，所述图像标记模块602具体用于：

进一步地，在上述装置实施例的基础上，所述PDF文件的对象识别处理装置还包括：

本实施例所述的PDF文件的对象识别处理装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

参照图7，所述电子设备，包括：处理器(processor)701、存储器(memory)702和总线703；

其中，

所述处理器701和存储器702通过所述总线703完成相互间的通信；

所述处理器701用于调用所述存储器702中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种PDF文件的对象识别处理方法，其特征在于，包括：

根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别，若识别到格线状对象，则确定所述格线状对象为表格；其中，所述目标区域为所述背景图像中去除背景之后的区域，根据第二预设规则识别所述背景图像中的图片，并根据识别到的表格和图片对所述背景图像进行自动化标记，得到标记图像；

将所述标记图像输入训练好的深度学习模型中，通过所述深度学习模型基于所述标记图像的像素对所述标记图像进行分类，得到所述深度学习模型输出的带有对象识别结果的识别图像；其中，所述对象识别结果包括背景、图片、表格和文字；所述深度学习模型是根据多个待识别图像和对应的识别结果预先训练好的模型；

对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计，将词频大于预设词频的文字作为页首页尾候选文字，将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算，将相似性大于相似性预设值的文字作为页首页尾文字，并将所述页首页尾文字从所述识别图像识别到的文字中进行删除，得到更新后的识别图像；

利用水平方向的关联性进行短文字块聚类，对所述更新后的识别图像进行无格线表格检测。

2.根据权利要求1所述的PDF文件的对象识别处理方法，其特征在于，所述根据第二预设规则识别所述背景图像中的图片，具体包括：

若判断所述目标区域的若干子区域之间相连，则分别获取若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置，根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域，并确定所述最小区域对应的对象为图片。

3.一种PDF文件的对象识别处理装置，其特征在于，包括：

图像标记模块，用于根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别，若识别到格线状对象，则确定所述格线状对象为表格；其中，所述目标区域为所述背景图像中去除背景之后的区域，根据第二预设规则识别所述背景图像中的图片，并根据识别到的表格和图片对所述背景图像进行自动化标记，得到标记图像；

图像识别模块，用于将所述标记图像输入训练好的深度学习模型中，通过所述深度学习模型基于所述标记图像的像素对所述标记图像进行分类，得到所述深度学习模型输出的带有对象识别结果的识别图像；其中，所述对象识别结果包括背景、图片、表格和文字；所述深度学习模型是根据多个待识别图像和对应的识别结果预先训练好的模型；

文字删除模块，用于对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计，将词频大于预设词频的文字作为页首页尾候选文字，将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算，将相似性大于相似性预设值的文字作为页首页尾文字，并将所述页首页尾文字从所述识别图像识别到的文字中进行删除，得到更新后的识别图像；

检测模块，用于利用水平方向的关联性进行短文字块聚类，对所述更新后的识别图像进行无格线表格检测。

4.根据权利要求3所述的PDF文件的对象识别处理装置，其特征在于，所述图像标记模块具体用于：

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至2任一所述的PDF文件的对象识别处理方法。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至2任一所述的PDF文件的对象识别处理方法。