CN110363102B - 一种pdf文件的对象识别处理方法及装置 - Google Patents

一种pdf文件的对象识别处理方法及装置 Download PDF

Info

Publication number
CN110363102B
CN110363102B CN201910549537.6A CN201910549537A CN110363102B CN 110363102 B CN110363102 B CN 110363102B CN 201910549537 A CN201910549537 A CN 201910549537A CN 110363102 B CN110363102 B CN 110363102B
Authority
CN
China
Prior art keywords
image
characters
background
recognition
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910549537.6A
Other languages
English (en)
Other versions
CN110363102A (zh
Inventor
罗彤
周占文
曹德亮
赵红军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ronghui Jinxin Information Technology Co ltd
Original Assignee
Beijing Ronghui Jinxin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ronghui Jinxin Information Technology Co ltd filed Critical Beijing Ronghui Jinxin Information Technology Co ltd
Priority to CN201910549537.6A priority Critical patent/CN110363102B/zh
Publication of CN110363102A publication Critical patent/CN110363102A/zh
Application granted granted Critical
Publication of CN110363102B publication Critical patent/CN110363102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明实施例公开了一种PDF文件的对象识别处理方法及装置,方法包括:将PDF文件的当前页面转换为待识别图像并进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;识别背景图像中的表格和图片,并根据识别到的表格和图片对背景图像进行自动化标记,得到标记图像;将标记图像输入训练好的深度学习模型中,得到深度学习模型输出的带有对象识别结果的识别图像。通过对待识别图像进行灰度转换处理、二值化处理和闭合处理,进行图像背景的识别;通过预设规则识别背景图像中的表格和图片并进行标记,最后通过训练好的深度学习模型输出的带有对象识别结果的识别图像,不仅快速简单、节约了大量人工标注的人力成本,而且识别准确率高。

Description

一种PDF文件的对象识别处理方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种PDF文件的对象识别处理方法及装置。
背景技术
PDF(Portable Document Format,便携式文档格式)是一种独立于硬件、操作系统和应用程序的电子文档格式。由于其具有跨平台、多媒体集成、安全等优点,PDF已成为目前使用最为广泛的电子文档格式之一。随着PDF格式文档的应用越来越广泛,大量有价值的数据均以PDF文件的形式进行呈现。因此,如何从PDF文件中提取所需数据,尤其是结构化、半结构化的表格数据和图片,是一个被广泛关注和研究的问题。
现有的PDF表格识别工具采用先将PDF文件转换为一种中间格式的文档(如HTML(Hyper Text Markup Language,超文本标记语言)、XML(Extensible Markup Language,可扩展标记语言)、DOC(Document,文档)等),然后再从这种中间格式的文档中提取出所需要的数据。该方法不仅多引入了一次转换到中间文件的操作,而且转换得到的中间文件难以准确地保持数据在原有PDF文件中的位置和结构,因此不一定能得到准确的表格数据解析结果,从而难以进行后续的处理。
PDF格式的文档结构与HTML、XML等格式不同,PDF文件对表格没有特殊的定义,而只是线条与文字的位置组合,因此很难直接从PDF文件中提取出所需要的表格数据。也正是因为这一原因,虽然目前从PDF文件中识别表格的相关工具众多,然而成熟稳定、识别准确率高的工具却很少;同样地,现有工具对PDF文件的图片识别的准确率也较低。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种PDF文件的对象识别处理方法及装置。
第一方面,本发明实施例提出一种PDF文件的对象识别处理方法,包括:
将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;
根据第一预设规则识别所述背景图像中的表格,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行自动化标记,得到标记图像;
将所述标记图像输入训练好的深度学习模型中,得到所述深度学习模型输出的带有对象识别结果的识别图像;
其中,所述对象识别结果包括背景、图片、表格和文字。
可选地,所述根据第一预设规则识别所述背景图像中的表格,具体包括:
根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别,若识别到格线状对象,则确定所述格线状对象为表格;
其中,所述目标区域为所述背景图像中去除背景之后的区域。
可选地,所述根据第二预设规则识别所述背景图像中的图片,具体包括:
若判断所述目标区域的若干子区域之间相连,则分别获取所述若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置,根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域,并确定所述最小区域对应的对象为图片。
可选地,所述PDF文件的对象识别处理方法还包括:
对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计,将词频大于预设词频的文字作为页首页尾候选文字,将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算,将相似性大于相似性预设值的文字作为页首页尾文字,并将所述页首页尾文字从所述识别图像识别到的文字中进行删除,得到更新后的识别图像。
第二方面,本发明实施例还提出一种PDF文件的对象识别处理装置,包括:
背景识别模块,用于将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;
图像标记模块,用于根据第一预设规则识别所述背景图像中的表格,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行自动化标记,得到标记图像;
图像识别模块,用于将所述标记图像输入训练好的深度学习模型中,得到所述深度学习模型输出的带有对象识别结果的识别图像;
其中,所述对象识别结果包括背景、图片、表格和文字。
可选地,所述图像标记模块具体用于:
根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别,若识别到格线状对象,则确定所述格线状对象为表格;
其中,所述目标区域为所述背景图像中去除背景之后的区域。
可选地,所述图像标记模块具体用于:
若判断所述目标区域的若干子区域之间相连,则分别获取所述若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置,根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域,并确定所述最小区域对应的对象为图片。
可选地,所述PDF文件的对象识别处理装置还包括:
文字删除模块,用于对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计,将词频大于预设词频的文字作为页首页尾候选文字,将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算,将相似性大于相似性预设值的文字作为页首页尾文字,并将所述页首页尾文字从所述识别图像识别到的文字中进行删除,得到更新后的识别图像。
第三方面,本发明实施例还提出一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述方法。
第四方面,本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述方法。
由上述技术方案可知,本发明实施例通过对待识别图像进行灰度转换处理、二值化处理和闭合处理,进行图像背景的识别;通过预设规则识别背景图像中的表格和图片并进行标记,最后通过训练好的深度学习模型输出的带有对象识别结果的识别图像,不仅快速简单、节约了大量人工标注的人力成本,而且识别准确率高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的一种PDF文件的对象识别处理方法的流程示意图;
图2(A)(B)分别为本发明一实施例提供的待识别图像和背景识别结果示意图;
图3(A)(B)分别为本发明一实施例提供的垂直方向和水平方向的表格识别结果示意图;
图4(A)(B)分别为本发明一实施例提供的表格格线识别结果和表格标记结果示意图;
图5(A)(B)分别为本发明一实施例提供的图片识别前后的示意图;
图6为本发明一实施例提供的一种PDF文件的对象识别处理装置的结构示意图;
图7为本发明一实施例提供的电子设备的逻辑框图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本实施例提供的一种PDF文件的对象识别处理方法的流程示意图,包括:
S101、将PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像。
其中,所述灰度转换处理是将原先彩色的待识别图像转换为灰度图像。
所述二值化处理是将灰度图像转换为黑白图像。
所述背景图像为识别到背景后的图像。
所述闭合处理是将黑白图像中距离较近的区域处理为连通闭合区域的图像,如图2(A)为待识别图像,图2(B)为闭合处理的效果,其中黑色部分即为识别得到的背景。
S102、根据第一预设规则识别所述背景图像中的表格,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行自动化标记,得到标记图像。
其中,所述标记图像为对所述背景图像中的表格和图片进行标记后的图像。
具体地,可以采用PDF阅读软件(例如PDFBox等)的文字块位置进行无格线表格的检测,首先将文字块进行水平聚类,将同一水平的文字块纪录,若在同一水平上有过多短文字块则判定为表格候选,接着对候选水平文字块进行聚类,完成表格最终的框线检测,并输出最终的检测结果。
也可以采用PDF阅读软件(例如PDFBox等)的图片识别结果进行进一步地图片检测,识别背景图像中的图片。
S103、将所述标记图像输入训练好的深度学习模型中,得到所述深度学习模型输出的带有对象识别结果的识别图像。
其中,所述深度学习模型是根据多个待识别图像和对应的识别结果预先训练好的模型。
通过深度学习,能够解决传统算法难以检测出不规则或不明显的图片和表格的问题,确保图片或表格内文字不会混入到文本中。
所述对象识别结果包括背景、图片、表格和文字。
首先将标记图像作为输入,利用深度学习方法,将画面中每个像素点分类成4个类别,分别是背景、图片、表格和文字,最后结果会生成一张图像,该图像包括4种像素值,各像素值代表各个类别。
在具体执行过程中,可以首先将PDF文件通过PDF阅读软件(例如PDFBox等)抓取出该文档中的所有文字和部分图片;然后将PDF的页面转成图像,通过图像处理的方式进一步对PDF文件进行分析;接着把转成图像格式的PDF页面通过图片和表格的检测方式,将PDF阅读软件(例如PDFBox等)抓取不到的图片与表格找出,并将上述的两种方式找出的图片、表格和文字数据进行结合;最后通过深度学习的image segmentation方法,利用训练好的深度学习模型对标记图像进行像素级的分类,分为四类,分别是:背景、图片、表格和文字,分类完之后会先做个初步处理,筛选出表格和图片的个别数据,并与传统算法的结果做结合,再进行后续的分析,找出大部分图片和表格的各自文字内容,保护文本的输出不会混入图表的数据。
本实施例通过对待识别图像进行灰度转换处理、二值化处理和闭合处理,进行图像背景的识别;通过预设规则识别背景图像中的表格和图片并进行标记,最后通过训练好的深度学习模型输出的带有对象识别结果的识别图像,不仅快速简单、节约了大量人工标注的人力成本,而且识别准确率高。
进一步地,在上述方法实施例的基础上,S102中所述根据第一预设规则识别所述背景图像中的表格,具体包括:
根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别,若识别到格线状对象,则确定所述格线状对象为表格;
其中,所述目标区域为所述背景图像中去除背景之后的区域。
具体地,对背景图像进行表格识别时,首先对图像之两个维度各别进行一维形态学断开处理,各别产生一张垂直和水平方向的线段检测结果,如图3(A)和(B)所示;并将其合并成一张格线状图像,如图4(A)所示;再经过二维形态学进行重复膨胀操作,接着对此图像进行连通物件找寻,并对返回的各个连通物件计算面积及ROI(region of interest,感兴趣区域),以面积及该ROI的长宽进行筛选,得到最后的有格线的表格,并对该表格进行标记,如图4(B)所示对识别到的两个表格用框线标记,方便提取和查看。
进一步地,在上述方法实施例的基础上,S102中所述根据第二预设规则识别所述背景图像中的图片,具体包括:
若判断所述目标区域的若干子区域之间相连,则分别获取所述若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置,根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域,并确定所述最小区域对应的对象为图片。
举例来说,如图5(A)所示为采用闭合处理或PDF阅读软件(例如PDFBox等)识别得到的图片识别结果,其中包括多个子区域,这些子区域间通过线条相连;可以通过灰度值判断来确定若干子区域之间是否相连。
当确定若干子区域之间相连后,分别获取所述若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置,即分别获取相连的所有子区域的最大边界,并根据四个最大边界得到对应的矩形框,即包围所述若干相连的子区域的最小区域,如图5(B)所示。
通过上述方法,能够准备地识别PDF中的图片。
进一步地,在上述方法实施例的基础上,所述PDF文件的对象识别处理方法还包括:
S104、对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计,将词频大于预设词频的文字作为页首页尾候选文字,将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算,将相似性大于相似性预设值的文字作为页首页尾文字,并将所述页首页尾文字从所述识别图像识别到的文字中进行删除,得到更新后的识别图像。
其中,可以使用PDF阅读软件(例如PDFBox等)对PDF进行文字及图片的初步分析,解析所有文字之后,对整个PDF所有页面的顶部以及底部范围内的文字分别进行词频计算,选取词频较高的当作页首页尾候选文字,并以此页首页尾候选文字对所有页面高度内的文字进行相似性计算,若相似性高则可判定为页首或页尾。采用相似性计算的目的是为了防止一份PDF文件内的页首页尾的不规则性,最终利用计算出来的页首页尾,对页首页尾的文字进行删除,保留中间区段进行输出,并将过滤的文字结果、PDF阅读软件(例如PDFBox等)所抓取的图片结果以及计算求得的页首页尾阈值进行进一步处理。
执行完本实施例提供的PDF文件的对象识别处理方法后,整合所有识别结果,并对结果进行筛选、呈现及输出。首先会将各个图片及表格检测结果进行调整,合并重叠部分,产生一张定义对象位置及类别的遮罩以便于后续对象重叠判断;再对文字结果进行文字检测以及筛选,利用文字位置以及遮罩,佐以关键字判断,判断文字是否为表格内容,并记录文字所对应的表格。从文字中筛选删除内容之后,对所有文字块进行无格线表格检测,利用水平方向的关联性进行短文字块聚类,产生无格线的表格结果;然后进行图表的分析,修正传统算法得到的图片和表格的错误,并结合深度学习的结果改善图片和表格的分析;最后当图片和表格都成功得到之后,会针对目前还没有文字的图片和表格进行检测,改善有文字但未被识别出来的问题。最后将所有图、表、文字进行标记、调整,并输出至相对应的资料夹内完成分析。
对图像进行无格线表格的检测时,以电脑视觉技术对待识别图像进行处理,保留深色像素点,以HSV(Hue Saturation Value,色调、饱和度、明亮度)色彩空间的明亮度进行二值化处理,通过二维影像闭合技术使琐碎的文字像素点进行连通,再将连通的图片进行连通区域分析,找出相连对象,并且滤除原先为图像及表格的位置,产生初步的文字块位置;并根据这些文字块的水平位置进行水平对象分析:若在同一水平上有过多短小文字块,则初步判定为式无格线的表格。将这些被判定的水平文字块进行聚类,合成无格线表格最终的位置并返回位置列表;最后利用已知的文字位置和图片与表格的位置进行内文删除的动作,通过各自的位置坐标进行判断,将应该为图片或表格内的文字以及页首页尾的文字从识别文字中删除,最后剩下未被删除的文字确定是最终输出的文字。
现有技术中仅通过PDF阅读软件(例如PDFBox等)进行PDF文件分析,无法准确将图片和表格识别出来,也无法使该图片或表格对应到各自的文字内容,同时遇到复杂的PDF文件往往容易出错。本实施例除了可以完整地将图片和表格识别出来,还可以找出他们对应到的文字内容,并将侧边栏的不重要数据从文本中滤除,页首和页尾的文字也进行滤除,以保留真正的内文数据,可以得到较好的文本内容、图片以及表格;另外,通过图像处理与深度学习结合的方式,可以让PDF文件解析后得到更干净的文本和分类过的图片和表格;同时将得到的图片、表格结果与文字进行整合,输出最后结果。
图6示出了本实施例提供的一种PDF文件的对象识别处理装置的结构示意图,所述装置包括:背景识别模块601、图像标记模块602和图像识别模块603,其中:
所述背景识别模块601用于将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;
所述图像标记模块602用于根据第一预设规则识别所述背景图像中的表格,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行自动化标记,得到标记图像;
所述图像识别模块603用于将所述标记图像输入训练好的深度学习模型中,得到所述深度学习模型输出的带有对象识别结果的识别图像;
其中,所述对象识别结果包括背景、图片、表格和文字。
具体地,所述背景识别模块601将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;所述图像标记模块602根据第一预设规则识别所述背景图像中的表格,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行标记,得到标记图像;所述图像识别模块603将所述标记图像输入训练好的深度学习模型中,得到所述深度学习模型输出的带有对象识别结果的识别图像。
本实施例通过对待识别图像进行灰度转换处理、二值化处理和闭合处理,进行图像背景的识别;通过预设规则识别背景图像中的表格和图片并进行标记,最后通过训练好的深度学习模型输出的带有对象识别结果的识别图像,不仅快速简单、节约了大量人工标注的人力成本,而且识别准确率高。
进一步地,在上述装置实施例的基础上,所述图像标记模块602具体用于:
根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别,若识别到格线状对象,则确定所述格线状对象为表格;
其中,所述目标区域为所述背景图像中去除背景之后的区域。
进一步地,在上述装置实施例的基础上,所述图像标记模块602具体用于:
若判断所述目标区域的若干子区域之间相连,则分别获取所述若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置,根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域,并确定所述最小区域对应的对象为图片。
进一步地,在上述装置实施例的基础上,所述PDF文件的对象识别处理装置还包括:
文字删除模块,用于对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计,将词频大于预设词频的文字作为页首页尾候选文字,将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算,将相似性大于相似性预设值的文字作为页首页尾文字,并将所述页首页尾文字从所述识别图像识别到的文字中进行删除,得到更新后的识别图像。
本实施例所述的PDF文件的对象识别处理装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
参照图7,所述电子设备,包括:处理器(processor)701、存储器(memory)702和总线703;
其中,
所述处理器701和存储器702通过所述总线703完成相互间的通信;
所述处理器701用于调用所述存储器702中的程序指令,以执行上述各方法实施例所提供的方法。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种PDF文件的对象识别处理方法,其特征在于,包括:
将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;
根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别,若识别到格线状对象,则确定所述格线状对象为表格;其中,所述目标区域为所述背景图像中去除背景之后的区域,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行自动化标记,得到标记图像;
将所述标记图像输入训练好的深度学习模型中,通过所述深度学习模型基于所述标记图像的像素对所述标记图像进行分类,得到所述深度学习模型输出的带有对象识别结果的识别图像;其中,所述对象识别结果包括背景、图片、表格和文字;所述深度学习模型是根据多个待识别图像和对应的识别结果预先训练好的模型;
对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计,将词频大于预设词频的文字作为页首页尾候选文字,将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算,将相似性大于相似性预设值的文字作为页首页尾文字,并将所述页首页尾文字从所述识别图像识别到的文字中进行删除,得到更新后的识别图像;
利用水平方向的关联性进行短文字块聚类,对所述更新后的识别图像进行无格线表格检测。
2.根据权利要求1所述的PDF文件的对象识别处理方法,其特征在于,所述根据第二预设规则识别所述背景图像中的图片,具体包括:
若判断所述目标区域的若干子区域之间相连,则分别获取若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置,根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域,并确定所述最小区域对应的对象为图片。
3.一种PDF文件的对象识别处理装置,其特征在于,包括:
背景识别模块,用于将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;
图像标记模块,用于根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别,若识别到格线状对象,则确定所述格线状对象为表格;其中,所述目标区域为所述背景图像中去除背景之后的区域,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行自动化标记,得到标记图像;
图像识别模块,用于将所述标记图像输入训练好的深度学习模型中,通过所述深度学习模型基于所述标记图像的像素对所述标记图像进行分类,得到所述深度学习模型输出的带有对象识别结果的识别图像;其中,所述对象识别结果包括背景、图片、表格和文字;所述深度学习模型是根据多个待识别图像和对应的识别结果预先训练好的模型;
文字删除模块,用于对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计,将词频大于预设词频的文字作为页首页尾候选文字,将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算,将相似性大于相似性预设值的文字作为页首页尾文字,并将所述页首页尾文字从所述识别图像识别到的文字中进行删除,得到更新后的识别图像;
检测模块,用于利用水平方向的关联性进行短文字块聚类,对所述更新后的识别图像进行无格线表格检测。
4.根据权利要求3所述的PDF文件的对象识别处理装置,其特征在于,所述图像标记模块具体用于:
若判断所述目标区域的若干子区域之间相连,则分别获取若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置,根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域,并确定所述最小区域对应的对象为图片。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一所述的PDF文件的对象识别处理方法。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至2任一所述的PDF文件的对象识别处理方法。
CN201910549537.6A 2019-06-24 2019-06-24 一种pdf文件的对象识别处理方法及装置 Active CN110363102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910549537.6A CN110363102B (zh) 2019-06-24 2019-06-24 一种pdf文件的对象识别处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910549537.6A CN110363102B (zh) 2019-06-24 2019-06-24 一种pdf文件的对象识别处理方法及装置

Publications (2)

Publication Number Publication Date
CN110363102A CN110363102A (zh) 2019-10-22
CN110363102B true CN110363102B (zh) 2022-05-17

Family

ID=68217437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910549537.6A Active CN110363102B (zh) 2019-06-24 2019-06-24 一种pdf文件的对象识别处理方法及装置

Country Status (1)

Country Link
CN (1) CN110363102B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826619A (zh) * 2019-11-01 2020-02-21 北京华宇信息技术有限公司 电子卷宗的文件分类方法、装置及电子设备
CN110889341A (zh) * 2019-11-12 2020-03-17 广州供电局有限公司 基于ai的表单图像识别方法、装置、计算机设备和存储介质
CN111401312B (zh) * 2020-04-10 2024-04-26 深圳新致软件有限公司 Pdf图纸文字识别方法、系统以及设备
CN111507230A (zh) * 2020-04-11 2020-08-07 创景未来(北京)科技有限公司 一种文档和表格数据的识别和提取方法及系统
CN111783735B (zh) * 2020-07-22 2021-01-22 欧冶云商股份有限公司 一种基于人工智能的钢材单据解析系统
CN111968048B (zh) * 2020-07-30 2024-03-26 国网智能科技股份有限公司 电力巡检少样本图像数据增强方法及系统
CN113065396A (zh) * 2021-03-02 2021-07-02 国网湖北省电力有限公司 基于深度学习的扫描档案图像的自动化归档处理系统及方法
CN112861822B (zh) * 2021-04-06 2024-03-12 刘羽 基于pdf文件解析的图谱数据处理方法
CN112861821B (zh) * 2021-04-06 2024-04-19 刘羽 基于pdf文件解析的图谱数据还原方法
CN112800727B (zh) * 2021-04-14 2021-07-20 北京三维天地科技股份有限公司 给pdf文件加批注的方法及应用系统
CN113033541B (zh) * 2021-04-15 2024-04-30 北京合众鼎成科技有限公司 发行公告版面分析方法
CN113191277B (zh) * 2021-05-06 2023-12-19 北京惠朗时代科技有限公司 一种基于熵值校验的表格图像区域识别方法及系统
CN113255501B (zh) * 2021-05-18 2023-08-04 北京百度网讯科技有限公司 生成表格识别模型的方法、设备、介质及程序产品
CN113326797A (zh) * 2021-06-17 2021-08-31 上海电气集团股份有限公司 一种pdf文档提取的表格信息转换为结构化知识的方法
CN113643408A (zh) * 2021-08-20 2021-11-12 Oppo广东移动通信有限公司 图像生成方法及装置、计算机可读存储介质和电子设备
CN116523544B (zh) * 2023-06-25 2023-11-14 江西省机电设备招标有限公司 一种软件价格测算方法、系统、存储介质以及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN105988979A (zh) * 2015-02-16 2016-10-05 北京邮电大学 基于pdf文件的表格提取方法和装置
CN106777048A (zh) * 2016-12-09 2017-05-31 全国组织机构代码管理中心 企业质量信用数据获取方法和系统
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN109086714A (zh) * 2018-07-31 2018-12-25 国科赛思(北京)科技有限公司 表格识别方法、识别系统及计算机装置
CN109685065A (zh) * 2018-12-11 2019-04-26 中国科学院自动化研究所 试卷内容自动分类的版面分析方法、系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN105988979A (zh) * 2015-02-16 2016-10-05 北京邮电大学 基于pdf文件的表格提取方法和装置
CN106777048A (zh) * 2016-12-09 2017-05-31 全国组织机构代码管理中心 企业质量信用数据获取方法和系统
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN109086714A (zh) * 2018-07-31 2018-12-25 国科赛思(北京)科技有限公司 表格识别方法、识别系统及计算机装置
CN109685065A (zh) * 2018-12-11 2019-04-26 中国科学院自动化研究所 试卷内容自动分类的版面分析方法、系统

Also Published As

Publication number Publication date
CN110363102A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
CN111027297A (zh) 一种对图像型pdf财务数据关键表格信息的处理方法
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
US6532302B2 (en) Multiple size reductions for image segmentation
CN116052193B (zh) Rpa界面动态表格的拾取和匹配方法及系统
CN111291572A (zh) 一种文字排版方法、装置及计算机可读存储介质
CN113221711A (zh) 一种信息提取方法及装置
US9396389B2 (en) Techniques for detecting user-entered check marks
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
Akinbade et al. An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images
Ayesh et al. A robust line segmentation algorithm for Arabic printed text with diacritics
CN115761773A (zh) 基于深度学习的图像内表格识别方法及系统
Sajjad Automatic license plate recognition using python and opencv
CN114565927A (zh) 表格识别方法、装置、电子设备及存储介质
RU2597163C2 (ru) Сравнение документов с использованием достоверного источника
Goel et al. Vehicle registration plate recognition system using template matching
US9870632B2 (en) Information processing apparatus and non-transitory computer readable medium
Koushik et al. Automated marks entry processing in handwritten answer scripts using character recognition techniques
Lin et al. Multilingual corpus construction based on printed and handwritten character separation
US20220237397A1 (en) Identifying handwritten signatures in digital images using ocr residues
Ranka et al. Automatic table detection and retention from scanned document images via analysis of structural information
Biswas et al. Text extraction from scanned land map images
Rani et al. Object Detection in Natural Scene Images Using Thresholding Techniques
Aparna et al. A complete OCR system development of Tamil magazine documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant