CN109635268A

CN109635268A - Pdf文件中表格信息的提取方法

Info

Publication number: CN109635268A
Application number: CN201811630768.1A
Authority: CN
Inventors: 孟泽洋; 王俊
Original assignee: Nanjing Wudao Zhixin Information Technology Co Ltd
Current assignee: Nanjing Wudao Zhixin Information Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-16
Anticipated expiration: 2038-12-29
Also published as: CN109635268B

Abstract

本发明公开了一种PDF文件中表格信息的提取方法，其特征在于，包括：读取PDF文件；解析PDF文件的属性；找到并整理页面内所有横线以及竖线的集合；判断当前页面的横竖线集合能否组成完整的表格边框，若能则按照有边框表格处理，反之则按照无边框表格处理；得到表格的行列以及单元格的元信息；判断是否为跨页表格，如果是跨页表格则合并跨页表格；若不是跨页表格则直接存储表格；存储表格的行列信息，以及所在的页和页面内位置等提取得到的信息。本发明实现了PDF表格的更精确识别、更好的还原率以及更完整的表格提取过程。

Description

PDF文件中表格信息的提取方法

技术领域

本发明涉及图文处理技术领域，具体是一种PDF文件中表格信息的提取。

背景技术

现有的方法可以识别文本线段的组合并检测到表格，但是往往会有一些信噪比不高(因为有干扰线段存在)的情况错误地还原表格的行、列以及合并单元格的情况。

发明内容

本发明所要解决的技术问题是针对上述现有技术存在的不足，而提供一种能更正确的还原PDF文件中的表格信息的一种PDF文件中表格信息的提取方法。

为解决上述技术问题，本发明采用的技术方案是：

一种PDF文件中表格信息的提取方法，其特征在于，包括：

[S10]读取PDF文件到内存，读取x-refs以及所有的页面；

[S20]解析页面内所有x-objects(包括文字、线段、曲线以及矩形)的位置等属性；

[S30]找到并整理页面内所有横线(水平线)以及竖线(垂直线)的集合；

[S40]判断当前页面的横竖线集合能否组成完整的表格边框，若能则按照步骤[S50A]处理，反之则按照步骤[S50B]处理；

[S50]两种不同类型的表格处理方案；

[S50A]有边框表格处理：

[S50A1]提选出整理得到的原始线段；

[S50A2]合并横纵向距离小于某个小量的临近平行线段；

[S50A3]延长并连接端点之间距离小于某个小量的线段；

[S50A4]对于某些表格单元格横竖线不对齐的状况，如果不对齐的值小于某个小量，则强行将其对齐；否则对不对齐的单元格所在的同行同列的单元格拆分成合并单元格；

[S50B]无边框表格处理：

[S50B1]收集页面内的散落文本框；

[S50B2]确定文本框整体的边界，并将之作为当前表格的外边框；

[S50B3]分别通过三种方案获取表格的内分割线：

[S50B3I]根据文本框字符的对齐状况获得行和列的分割线；

[S50B3II]通过文本框的平均字符大小为单位，逐行逐列扫描得到文本的共同边界作为分割线；

[S50B3III]直接计算的到文本框之间的空白区域，并以此确定表格的内边框；

[S50B4]根据新增的辅助内边框线段重新尝试有边框表格的处理方案；

[S60]得到表格的行列以及单元格的元信息；

[S70]判断是否为跨页表格，如果是跨页表格则合并跨页表格；若不是跨页表格则直接存储表格；

[S80]存储表格的行列信息，以及所在的页和页面内位置等提取得到的信息。

判断是否跨页以及合并跨页表格的具体方法是：

[S701]将表格开始页面作为当前页，查看当前页面(去除页眉页脚以及水印等不相关信息后)是否为最底部一枚元素，若是则结束跨页表格合并；

[S702]如果当前表格是页面最底部的元素，则查看下一页的最上方的元素是否为表格，若否则提前结束表格的跨页合并过程；

[S703]若上一步为是，则对比开始页的表头和下一页的表格首行去除重复的表头；

[S704]归一化跨页表格的总宽度和高度，如果列数相同则采用等比例缩放后的宽度，若列数不同则采用相同的行总宽度作为缩放比例；

[S705]合并归一化后的跨页表格，并前进一页(将下一页设置为当前页)；

对步骤[S30]中找到的集合进行预处理，具体步骤包括：

[S301]将矩形(左上角坐标[x1,y1],右下角坐标[x2,y2])拆分成四条单独的线段：([x1,y1],[x2,y1])、([x1,y2],[x2,y2])、([x1,y1],[x1,y2])、([x2,y1],[x2,y2])，其中x、y分别为以页面左上角为原点，以文字排版方向为坐标轴正方向计算得到的坐标值；

[S302]将某些厚度非常接近零的线段剔除掉；

[S303]将端点从坐标点[x1,y1]出发至终点[x2,y2]的非封闭曲线用最小的矩形包络，并把该矩形拆分成与[S301]类似的四条独立线段；

[S304]从每条线段的较长边两侧方向截取一段狭长的矩形，分析后去除周边颜色不为纯色(或者与线段相同颜色)的线段(比如一些透明或者纯白色的交叉线以及与文字重叠的线段)；

[S305]在两个任意最近距离的横线段之间，若检测到一些竖线段，则在横线的左右两侧极值出分别增加一条辅助线段，竖线亦做类似处理；

[S306]计算页面内的平均字体大小以及平均行间距，并以此组值，合并一些间距小于此值的线段(并忽略后续识别出的高度或宽度小于它们的单元格)；

与现有技术相比，本发明实现了PDF表格的更精确识别、更好的还原率以及更完整的表格提取过程。

附图说明

图1是本发明PDF文件中表格信息提取方法流程图；

图2是对集合进行预处理的流程图；

图3是S50A有边框表格处理方法流程图；

图4是S50B无边框表格处理方法流程图；

图5是S80跨页表格处理方法流程图。

具体实施方式

下面结合附图，对本发明作详细说明：

本发明PDF文件中表格信息提取方法，流程图参考图1，详细的步骤如下：

[S10]读取PDF文件到内存，读取对象号、代号引用表(x-refs)以及所有的页面；

[S20]解析页面内所有x-objects即对象(包括文字、线段、曲线以及矩形)的位置等属性；

[S30]找到并整理页面内所有横线(水平线)以及竖线(垂直线)的集合，并对它们进行一些预处理；

预处理的具体流程参见图2，步骤包括：

[S301]将矩形([x1,y1],[x2,y2])拆分成四条单独的线段：([x1,y1],[x2,y1])、([x1,y2],[x2,y2])、([x1,y1],[x1,y2])、([x2,y1],[x2,y2])，其中x、y分别为以页面左上角为原点，以文字排版方向为坐标轴正方向计算得到的坐标值；

[S302]将某些厚度非常接近零的线段剔除掉，因为毫无粗度的线段完全无法在页面上被显示出来并识别为有效的表格分割线；

[S303]将从[x1,y1]出发至[x2,y2]的曲线同样拆分成四条独立的线段；

[S40]判断当前页面的横竖线集合能否组成完整的表格边框，若能则采用有边框表格的处理方案[S50A]，反之采用无边框表格的处理方案[S50B]；

[S50]两种不同类型的表格处理方案，分别见图3以及图4；

[S50A]有边框表格处理(图3)：

[S50A1]提选出整理得到的原始线段；

[S50A2]合并横纵向距离小于某个小量的临近平行线段；

[S50A3]延长并连接端点之间距离小于某个小量的线段；

[S50A4]对于某些表格单元格横竖线不对齐的状况，如果不对齐的值小于某个小量，则强行将其对齐；否则对不对齐的单元格所在的同行同列的单元格拆分成合并单元格。

[S50B]无边框表格处理(图4)：

[S50B1]收集页面内的散落文本框(舍弃为段落所在的文本行)；

[S50B3]分别通过三种方案获取表格的内分割线：

[S50B3I]更具文本框字符的对齐状况获得行和列的分割线(对文本排版要求严格)；

[S50B3II]通过文本框的平均字符大小为单位，逐行逐列扫描得到文本的共同边界作为的分割线；

[S50B3III]直接计算的到文本框之间的空白区域，并以此确定变革的内边框；

[S60]得到表格的行列以及单元格(长宽以及文本等)的元信息；

[S70]判断是否为跨页表格如果是跨页表格则合并跨页表格；若不是跨页表格则直接存储表格；

[S80]具体的判断以及合并跨页表格的方案(见图5)：

[S801]将表格开始页面作为当前页，查看当前页面(去除页眉页脚以及水印等不相关信息后)是否为最底部一枚元素，若是则结束跨页表格合并；

[S802]如果当前表格是页面最底部的元素，则查看下一页的最上方的元素是否为表格，若否则提前结束表格的跨页合并过程；

[S803]若上一步为是，则对比开始页的表头和下一页的表格首行去除重复的表头；

[S804]归一化跨页表格的总宽度和高度，如果列数相同则采用等比例缩放后的宽度，若列数不同则采用相同的行总宽度作为缩放比例；

[S805]合并归一化后的跨页表格，并前进一页(将下一页设置为当前页)；

[S90]存储表格的行列信息，以及所在的页和页面内位置等提取得到的信息。

实施例1

采用本发明方法对如下PDF表格进行提取：

提取后的表格信息为：

上市公司	东华软件股份公司
		上市地点	深圳证券交易所
股票简称	东华软件
		股票代码	002065

从本实施例的提取结果来看，采用本发明提取方法，很好的实现了对线段的降噪处理。

实施例2

采用本发明方法对如下PDF表格进行提取：

提取后的表格信息为：

交易对方	住所地址
		黄麟雏	西安市碑林区交大三村24舍506号
侯丹军	北京市东城区香河园街1号院7楼1911号
		侯丹云	北京市朝阳区西坝河南路3号C座1807号
其他15名自然人交易对方	具体信息详见报告书之第三节交易对方基本情况
		配套融资投资者	待定

Claims

1.一种PDF文件中表格信息的提取方法，其特征在于，包括：

[S10] 读取PDF文件到内存，读取x-refs以及所有的页面；

[S20] 解析页面内所有对象的属性，其中对象包括文字、线段、曲线以及矩形；

[S30] 找到并整理页面内所有横线以及竖线的集合；

[S40] 判断当前页面的横竖线集合能否组成完整的表格边框，若能则按照步骤[S50A]处理，反之则按照步骤[S50B]处理；

[S50A] 有边框表格处理：

[S50A1] 提选出整理得到的原始线段；

[S50A2] 合并横纵向距离小于某个小量的临近平行线段；

[S50A3] 延长并连接端点之间距离小于某个小量的线段；

[S50A4] 对于某些表格单元格横竖线不对齐的状况，如果不对齐的值小于某个小量，则强行将其对齐；否则对不对齐的单元格所在的同行同列的单元格拆分成合并单元格；

[S50B] 无边框表格处理：

[S50B1] 收集页面内的散落文本框；

[S50B2] 确定文本框整体的边界，并将之作为当前表格的外边框；

[S50B3] 分别通过三种方案获取表格的内分割线：

[S50B3I] 根据文本框字符的对齐状况获得行和列的分割线；

[S50B3II] 通过文本框的平均字符大小为单位，逐行逐列扫描得到文本的共同边界作为分割线；

[S50B3III] 直接计算的到文本框之间的空白区域，并以此确定表格的内边框；

[S50B4] 根据新增的辅助内边框线段重新尝试有边框表格的处理方案；

[S60] 得到表格的行列以及单元格的元信息；

[S70] 判断是否为跨页表格，如果是跨页表格则合并跨页表格；若不是跨页表格则直接存储表格；

[S80] 存储表格的行列信息，以及所在的页和页面内位置等提取得到的信息。

2.根据权利要求1所述的提取方法，其特征在于：判断是否跨页以及合并跨页表格的具体方法是：

[S701] 将表格开始页面作为当前页，查看当前页面（去除页眉页脚以及水印等不相关信息后）是否为最底部一枚元素，若是则结束跨页表格合并；

[S702] 如果当前表格是页面最底部的元素，则查看下一页的最上方的元素是否为表格，若否则提前结束表格的跨页合并过程；

[S703] 若上一步为是，则对比开始页的表头和下一页的表格首行去除重复的表头；

[S704] 归一化跨页表格的总宽度和高度，如果列数相同则采用等比例缩放后的宽度，若列数不同则采用相同的行总宽度作为缩放比例；

[S705] 合并归一化后的跨页表格，并前进一页。

3.根据权利要求1所述的提取方法，其特征在于：对步骤[S30]中找到的集合进行预处理，具体步骤包括：

[S301] 将矩形 (左上角坐标[x1, y1], 右下角坐标[x2, y2])拆分成四条单独的线段：([x1, y1], [x2, y1])、([x1, y2], [x2, y2])、([x1, y1], [x1, y2])、([x2, y1],[x2, y2])，其中x、y分别为以页面左上角为原点，以文字排版方向为坐标轴正方向计算得到的坐标值；

[S302] 将某些厚度非常接近零的线段剔除掉；

[S303] 将端点从坐标点[x1, y1]出发至终点[x2, y2] 的非封闭曲线用最小的矩形包络，并把该矩形按照[S301]的方法拆分成四条独立线段；

[S304] 从每条线段的较长边两侧方向截取一段狭长的矩形，分析后去除周边颜色不为纯色的线段；

[S305] 在两个任意最近距离的横线段之间，若检测到一些竖线段，则在横线的左右两侧极值出分别增加一条辅助线段，竖线亦做类似处理；

[S306] 计算页面内的平均字体大小以及平均行间距，并以此组值，合并一些间距小于此值的线段。

4.根据权利要求1所述的提取方法，其特征在于：所述对象的属性包括位置信息。