CN104156345B

CN104156345B - 识别便携文件格式文件中图注的方法和装置

Info

Publication number: CN104156345B
Application number: CN201410379218.2A
Authority: CN
Inventors: 雷陆峰
Original assignee: CHINA SOUTH PUBLISHING & MEDIA GROUP Co Ltd
Current assignee: CHINA SOUTH PUBLISHING & MEDIA GROUP Co Ltd
Priority date: 2014-08-04
Filing date: 2014-08-04
Publication date: 2017-06-20
Anticipated expiration: 2034-08-04
Also published as: CN104156345A

Abstract

本发明公开了一种识别便携文件格式文件中图注的方法和装置，该方法包括：解析并识别出PDF文件当前页的文本块对象和图片块对象；对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象；判断最相邻的文本块对象是否含有用于标识图片的标识字符，若是则判定最相邻的文本块对象为对应的图注块对象；将识别出的图注块对象与对应的图片块对象匹配并关联。本发明识别PDF文件中图注的方法和装置，通过对识别出的文本块对象和图片块对象进行匹配，实现了PDF文件中图片块对象和作为图注的文本块对象的自动关联，免去了编辑文档时对图片手动添加图注的操作，即提高了工作效率，又提高了图注添加的准确性。

Description

识别便携文件格式文件中图注的方法和装置

技术领域

本发明涉及便携文件格式PDF文本识别领域，特别地，涉及一种识别PDF文件中图注的方法和装置。

背景技术

PDF是Portable Document Format(便携文件格式)的缩写，是由Adobe公司开发的一种开放式的电子文件格式。PDF文件格式的优点在于，文件格式与软硬件以及操作系统的平台无关，无论在Windows、Unix还是苹果的Mac OS操作系统中都可以无障碍的使用，并且能够达到相同的显示效果。PDF文件格式以其卓越的特性成为在互联网上进行电子文档发行和格式化信息传播的理想文件格式。当前，在互联网上发布的科技论文和电子书籍大部分是以PDF格式提交。但是，PDF文件格式产生的初衷即在于精确的描绘页面，满足电子出版领域高质量的要求，而将文件内容的编辑需要置于次要的位置，故PDF格式文件的着重点在于描述文档的打印格式，而没有描述原始文档内的数据结构，因此，在实际应用中时常出现PDF文件“只能看不能改”的现象。

在制作电子书，需要调整编辑打印文档，故需解析PDF文档，从PDF文档里抽取出想要的元素，比如文本段落、图片、表格、公式等。在PDF电子书中，如果该文档有插图，一般在编辑的时候都会给插图附注一个图片的说明，即图注。在抽取pdf文档里的图片元素时，现有技术只能从pdf文档里抽取出该文档里的插图，然后在用抽取出的插图编辑文档的时候，手动给抽取出的插图加上图注。这种方式不仅效率不高，而且准确性也无法保证，因为看到图片，不知道图注，编辑人员是不太清楚这张图片想说明什么，且若图片数量过大，不仅会造成手动编辑的工作量大，耗时长，而且容易造成图注错标或者漏标等问题。

发明内容

本发明目的在于提供一种识别PDF文件中图注的方法和装置，以解决现有的PDF文件中图注无法自动识别导致的编辑工作量大及图片的图注容易漏标或者错标的技术问题。

为实现上述目的，本发明采用的技术方案如下：

根据本发明的一个方面，提供一种识别PDF文件中图注的方法，该方法包括：

解析并识别出PDF文件当前页的文本块对象和图片块对象；

对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象；

判断最相邻的文本块对象是否含有用于标识图片的标识字符，若是则判定最相邻的文本块对象为对应的图注块对象；

将识别出的图注块对象与对应的图片块对象匹配并关联。

进一步地，在对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象的步骤之前，该方法还包括：

从识别出的文本块对象中选择在垂直方向上的高度低于待匹配的图片块对象的高度的文本块对象作为候选的图注块对象；

再在候选的图注块对象中确定与待匹配的图片块对象在垂直方向上最相邻的文本块对象。

从识别出的文本块对象中选择字体字号不同于PDF文件正文的字体字号的文本块对象作为候选的图注块对象；

进一步地，在判断最相邻的文本块对象是否含有用于标识图片的标识字符的步骤之前，该方法还包括：

判断最相邻的文本块对象的行高是否为一行或者两行文字高度，若是则执行后续步骤，若否则判定待匹配的图片块对象无图注。

判断待匹配的图片块对象是否位于当前页的最下方，若是则判定下一页最上方的文本块对象为其图注块对象。

根据本发明的另一方面，提供一种识别PDF文件中图注的装置，包括：

解析识别模块，用于解析并识别出PDF文件当前页的文本块对象和图片块对象；

间距匹配模块，用于对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象；

字符判断模块，用于判断最相邻的文本块对象是否含有用于标识图片的标识字符，若是则判定最相邻的文本块对象为图注块对象；

关联模块，用于将识别出的图注块对象与对应的图片块对象匹配并关联。

进一步地，该装置还包括：

第一选择模块，用于对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象之前，从识别出的文本块对象中选择在垂直方向上的高度低于待匹配的图片块对象的高度的文本块对象作为候选的图注块对象。

进一步地，该装置还包括：

第二选择模块，用于对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象之前，从识别出的文本块对象中选择字体字号不同于PDF文件正文的字体字号的文本块对象作为候选的图注块对象。

进一步地，该装置还包括：

行高判断模块，用于在判断最相邻的文本块对象是否含有用于标识图片的标识字符之前，判断最相邻的文本块对象的行高是否为一行或者两行文字高度，若是则跳转至字符判断模块，若否则判定待匹配的图片块对象无图注。

进一步地，该装置还包括：

位置判断模块，用于判断待匹配的图片块对象是否位于当前页的最下方，若是则判定下一页最上方的文本块对象为其图注块对象。

本发明具有以下有益效果：

本发明识别PDF文件中图注的方法和装置，通过对识别出的文本块对象和图片块对象进行匹配，实现了PDF文件中图片块对象和作为图注的文本块对象的自动关联，免去了编辑文档时对图片手动添加图注的操作，即提高了工作效率，又提高了图注添加的准确性。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例一识别PDF文件中图注的方法的步骤流程示意图；

图2是本发明优选实施例二识别PDF文件中图注的方法的步骤流程示意图；

图3是本发明优选实施例三识别PDF文件中图注的方法的步骤流程示意图；

图4是本发明优选实施例四识别PDF文件中图注的方法的步骤流程示意图；

图5是本发明优选实施例五识别PDF文件中图注的方法的步骤流程示意图；

图6是本发明优选实施例识别PDF文件中图注的装置的原理方框示意图；以及

图7是本发明优选实施例识别PDF文件中图注的装置的另一原理方框示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

参照图1，本发明的优选实施例一提供一种识别PDF文件中图注的方法，该方法包括：

步骤S101，解析并识别出PDF文件当前页的文本块对象和图片块对象；

可选地，本实施例中，解析PDF文件包括解析PDF文件格式的协议，如本实施例中，使用的PDF文件格式为Adobe的PDF协议1.5版本；其次，解析PDF文档的内容，从中抽取出文本段落、图片、表格、公式等数据，具体可采用xpdf、podofo等开源技术来解析PDF文档的内容，优选地，本实施例采用mupdf开源技术解析以识别出PDF文件当前页的内容。在解析PDF文档的内容时，pdf文档里的图片、文本段落等被一个个矩形框圈起来，识别成block，即一个块，可以有图片块对象的矩形框和文本块对象的矩形框。块对象里记录了该矩形框的对角两个点的坐标信息。在解析的过程中，图注也是一个文本块对象，即也当成一个block处理，亦对应有矩形框。

在本实施例中，在解析PDF文档的时候，是按页为单位进行处理的。首先，解析出PDF文档一页的所有的block对象。这里面的block对象既包括文本块对象，也包括图片块对象，根据block结构体中的objecttype参数来分辨出哪些block对象是文本块对象，哪些是图片块对象。本实施例的block数据结构如下：

本实施例通过解析PDF文件，并根据block数据结构中的objecttype参数来识别出各文本块对象和图片块对象。

步骤S103，对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象；

由于图片的图注一般都紧邻该图片，故通过判断与图片块对象在垂直方向上最相邻的文本块对象，即可初步确定该图片块对象的图注对应的文本块对象。本实施例中，对识别出的每个图片块对象分别进行处理。首先，定义PDF文件当前页的坐标零点，然后根据待匹配的图片块对象的矩形框的右下角的坐标的y轴(即垂直方向上)的值与各文本块对象的矩形框的右下角的坐标的y轴的值相比较，选择差值最小的文本块对象，即为在垂直方向上与待匹配的图片块对象最相邻的文本块对象。

步骤S105，判断最相邻的文本块对象是否含有用于标识图片的标识字符，若是则判定最相邻的文本块对象为对应的图注块对象；

由于作为图注的文本块对象一般均包含用于标识图片的标识字符，如中文文字“图”或者英文字符“FIG”，故进一步判断最相邻的文本块对象是否包含该标识字符，则可以准确判断最相邻的文本块对象是否为待匹配的图片块对象对应的图注块对象。

步骤S107，若该最相邻的文本块对象不包含用于标识图片的标识字符，则判断该图片块对象无图注。

步骤S109，对识别出的图注块对象与对应的图片块对象匹配并关联，以省去手动对图片加图注的操作。

本实施例，利用了图片对应的图注紧邻该图片及图注的文本块中包含类似“图”的标识字符的特征，通过解析及识别PDF文件的文本块对象和图片块对象，并对待匹配的图片块对象与各文本块对象之间在垂直方向上的间距进行比对，选取与该图片块对象最相邻的文本块对象，进一步通过判断该最相邻的文本块对象是否包含标识字符，以自动准确识别出各图片块对象对应的图注块对象，既省去手工加图注的繁琐操作，又提高了编辑效率及准确率，能够广泛应用于电子书编辑领域。

图2是本发明优选实施例二识别PDF文件中图注的方法的步骤流程示意图，参照图2，实施例二与实施例一的区别在于，为了提高识别出图片块对象的图注的效率，优选地，在对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象的步骤之前，从识别出的文本块对象中选择在垂直方向上的高度低于待匹配的图片块对象的高度的文本块对象作为候选的图注块对象。由于，作为图注的文本块对象一般位于该图片块对象的下方，故本实施例通过剔除位于图片块对象上方的文本块对象，提高了图注的匹配效率，从而提高了文件编辑的效率。参照图2，实施例二的方法具体包括以下步骤：

步骤S201，解析并识别出PDF文件当前页的文本块对象和图片块对象；此步骤与步骤S101类似，在此不再赘述。

步骤S203，从识别出的文本块对象中选择在垂直方向上的高度低于待匹配的图片块对象的高度的文本块对象作为候选的图注块对象；

本实施例中，在选取候选的文本块对象时，仅选取本块对象的矩形框的右下角的坐标的y轴的值大于待匹配的图片块对象的y轴的值的文本块对象，假定两个块对象的右下角坐标的y轴的值的差值为两个块对象的矩形框之间的垂直距离，仅选取出垂直方向上高度低于待匹配的图片块对象的文本块对象作为候选的图注块对象，以提高匹配的效率。

步骤S205，从候选的图注块对象中确定与待匹配的图片块对象在垂直方向上最相邻的文本块对象，本实施例中，根据待匹配的图片块对象的矩形框的右下角的坐标的y轴(即垂直方向上)的值与各文本块对象的矩形框的右下角的坐标的y轴的值相比较，选择差值最小的文本块对象，即为在垂直方向上与待匹配的图片块对象最相邻的文本块对象。

本实施例中，步骤S207-S211的实现过程与实施例一中的步骤S105-S109对应，在此不再赘述。

图3是本发明优选实施例三识别PDF文件中图注的方法的步骤流程示意图，参照图3，实施例三与实施例一或者实施例二的区别在于，为了更进一步地提高识别出图片块对象的图注的效率，优选地，在对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象的步骤之前，该方法还包括：从识别出的文本块对象中选择字体字号不同于PDF文件正文的字体字号的文本块对象作为候选的图注块对象。由于作为图注的字体字号一般都有别于PDF文件正文的字体字号，根据该特征可以快速锁定作为图注的文本块对象。本实施例中从识别出的文本块对象中选择字体字号不同于PDF文件正文的字体字号的文本块对象作为候选的图注块对象的步骤既可以应用于实施例一中，亦可以应用在实施例二中。优选地，实施例三是在实施例二的基础上增加了比对字体字号的步骤，参照图3，实施例三包括以下步骤：

步骤S301，解析并识别出PDF文件当前页的文本块对象和图片块对象；此步骤与步骤S101类似，在此不再赘述。

步骤S303，从识别出的文本块对象中选择字体字号不同于PDF文件正文的字体字号的文本块对象作为候选的图注块对象，优选地，由于作为图注的文字的字体字号一般小于正文的字体字号，本实施例中，选择字体字号小于PDF正文的字体字号的文本块对象作为候选的图注块对象。

本实施例中，步骤S305-S313的实现过程与实施例二中的步骤S203-S211对应，在此不再赘述。

图4是本发明优选实施例四识别PDF文件中图注的方法的步骤流程示意图，参照图4，实施例四是在前述实施例的基础上，对文本块对象的属性做进一步判定，以提高图注与图片匹配的准确性。本实施例中，在判断最相邻的文本块对象是否含有用于标识图片的标识字符的步骤之前，该方法还包括：判断最相邻的文本块对象的行高是否为一行或者两行文字高度，若是则执行后续步骤，若否则判定待匹配的图片块对象无图注。由于作为图注的文本内容一般是一行，顶多不超过两行，故通过判断最相邻的文本块对象的行高是否为一行或者两行文字高度，即可判定该最相邻的文本块对象是否为图注，从而避免错标的情形，提高了匹配的准确性。本实施例中，判断最相邻的文本块对象的行高是否为一行或者两行文字高度的步骤既可以应用于实施例一中，亦可以应用在实施例二或者实施例三中。优选地，实施例四是在实施例三的基础上增加了判断最相邻的文本块对象行高的步骤，参照图4，实施例四中步骤S401-S407与实施例三中的步骤S301-S307对应，步骤S411-S415与实施例三中的步骤S309-S313对应，其中，步骤S409为：判断最相邻的文本块对象的行高是否为一行或者两行文字高度，若是则执行步骤S411，若否则执行步骤S413。

图5是本发明优选实施例五识别PDF文件中图注的方法的步骤流程示意图，参照图5，实施例五在前述实施例的基础上做了进一步改进，本实施中，在对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象的步骤之前，该方法还包括：判断待匹配的图片块对象是否位于当前页的最下方，若是则判定下一页最上方的文本块对象为其图注块对象。由于图片块对象位于PDF文件当前页的最下方时，容易出现该图片无图注的误判情形，本实施例中，通过增加判断该特例情形的步骤，从而确保了图注信息的完整准确，亦能大大提高图注匹配的效率，因为由于在对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象的步骤之前，预先判定了图片块对象是否处于当前页的最下方，故对于位于当前页最下方的图片块对象的图注匹配，省去了后续的垂直方向距离比较、行高的比较、标识字符的判断等环节的运算时间，从而节省了比较步骤，提高了匹配效率及准确性。参照图5，本实施例是在实施例四的基础上做进一步改进，本领域技术人员可以理解，本实施例的改进亦可建立在实施例一至实施例三中任一的基础之上。

参照图5，实施例五包括以下步骤：

步骤S501，解析并识别出PDF文件当前页的文本块对象和图片块对象；此步骤与步骤S101类似，在此不再赘述。

步骤S503，判断待匹配的图片块对象是否位于当前页的最下方，若是则执行步骤S505，若否则执行步骤S509；

步骤S505，判定下一页最上方的文本块对象为该待匹配的图片块对象的图注块对象。

步骤S507，对识别出的图注块对象与对应的图片块对象匹配并关联，以省去手动对图片加图注的操作。

本实施例中，步骤S509-S5019与实施例四中步骤S403-S413对应，在此不再赘述。

根据本发明的另一方面，提供一种识别PDF文件中图注的装置，该装置与上述实施例的方法一致，参照图6，该装置包括：

解析识别模块101，用于解析并识别出PDF文件当前页的文本块对象和图片块对象；

间距匹配模块103，用于对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象；

字符判断模块105，用于判断最相邻的文本块对象是否含有用于标识图片的标识字符，若是则判定最相邻的文本块对象为图注块对象；

关联模块107，用于将识别出的图注块对象与对应的图片块对象匹配并关联。

优选地，该装置还包括：

第一选择模块109，用于对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象之前，从识别出的文本块对象中选择在垂直方向上的高度低于待匹配的图片块对象的高度的文本块对象作为候选的图注块对象。

优选地，该装置还包括：

第二选择模块111，用于对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象之前，从识别出的文本块对象中选择字体字号不同于PDF文件正文的字体字号的文本块对象作为候选的图注块对象。

优选地，该装置还包括：

行高判断模块113，用于在判断最相邻的文本块对象是否含有用于标识图片的标识字符之前，判断文本块对象的行高是否为一行或者两行文字高度，若是则跳转至字符判断模块105，若否则判定待匹配的图片块对象无图注。

优选地，由于图片块对象位于PDF文件当前页的最下方时，容易出现该图片无图注的误判情形，本实施例中，通过增加判断该特例情形的步骤，从而确保了图注信息的完整准确，参照图7，该装置还包括：位置判断模块115，用于判断待匹配的图片块对象是否位于当前页的最下方，若是则判定下一页最上方的文本块对象为其图注块对象。通过增加位置判断模块115，能大大提高图注匹配的效率，因为由于在对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象的步骤之前，预先判定了图片块对象是否处于当前页的最下方，故对于位于当前页最下方的图片块对象的图注匹配，省去了后续的垂直方向距离比较、行高的比较、标识字符的判断等环节的运算时间，从而节省了比较步骤，提高了匹配效率及准确性。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种识别便携文件格式文件中图注的方法，用于电子书编辑领域，其特征在于，包括：

解析并识别出便携文件格式PDF文件当前页的文本块对象和图片块对象；

从识别出的文本块对象中选择字体字号不同于PDF文件正文的字体字号的文本块对象作为第一候选的图注块对象；

从所述第一候选的图注块对象中选择在垂直方向上的高度低于待匹配的所述图片块对象的高度的文本块对象作为第二候选的图注块对象；

从所述第二候选的图注块对象中对待匹配的所述图片块对象确定与其在垂直方向上最相邻的文本块对象；

判断所述最相邻的文本块对象是否含有用于标识图片的标识字符，若是则判定所述最相邻的文本块对象为对应的图注块对象；

将识别出的所述图注块对象与对应的所述图片块对象匹配并关联；

在所述对待匹配的所述图片块对象确定与其在垂直方向上最相邻的文本块对象的步骤之前，还包括：

判断待匹配的所述图片块对象是否位于当前页的最下方，若是则判定下一页最上方的文本块对象为其图注块对象。

2.根据权利要求1所述的方法，其特征在于，在判断所述最相邻的文本块对象是否含有用于标识图片的标识字符的步骤之前，还包括：

判断所述最相邻的文本块对象的行高是否为一行或者两行文字高度，若是则执行后续步骤，若否则判定待匹配的所述图片块对象无图注。

3.一种识别便携文件格式文件中图注的装置，用于电子书编辑领域，其特征在于，包括：

解析识别模块，用于解析并识别出便携文件格式PDF文件当前页的文本块对象和图片块对象；

第一选择模块，用于对待匹配的所述图片块对象确定与其在垂直方向上最相邻的文本块对象之前，从识别出的文本块对象中选择在垂直方向上的高度低于待匹配的所述图片块对象的高度的文本块对象作为候选的图注块对象；

第二选择模块，用于对待匹配的所述图片块对象确定与其在垂直方向上最相邻的文本块对象之前，从识别出的文本块对象中选择字体字号不同于PDF文件正文的字体字号的文本块对象作为候选的图注块对象；

间距匹配模块，用于对待匹配的所述图片块对象确定与其在垂直方向上最相邻的文本块对象；

字符判断模块，用于判断所述最相邻的文本块对象是否含有用于标识图片的标识字符，若是则判定所述最相邻的文本块对象为图注块对象；

关联模块，用于将识别出的图注块对象与对应的所述图片块对象匹配并关联；

位置判断模块，用于判断待匹配的所述图片块对象是否位于当前页的最下方，若是则判定下一页最上方的文本块对象为其图注块对象。

4.根据权利要求3所述的装置，其特征在于，该装置还包括：

行高判断模块，用于在判断所述最相邻的文本块对象是否含有用于标识图片的标识字符之前，判断所述最相邻的文本块对象的行高是否为一行或者两行文字高度，若是则跳转至所述字符判断模块，若否则判定待匹配的所述图片块对象无图注。