CN113609906A

CN113609906A - 一种面向文献的表格信息抽取方法

Info

Publication number: CN113609906A
Application number: CN202110736883.2A
Authority: CN
Inventors: 胡祥奔; 江结林; 胡志臣; 许小龙
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-11-05
Anticipated expiration: 2041-06-30
Also published as: CN113609906B

Abstract

本发明涉及一种面向文献的表格信息抽取方法，属于数据处理以及计算机视觉领域。该方法包括以下步骤：1：利用规则获取所有可能含表格的候选页面；2：将获取的页面转化为图片文件；3：采用深度学习方法，获取图片文件的特征；4：根据获取的图片文件的特征，对图片进行特征融合；获取融合后的特征；5：根据获取的特征融合后的特征，对表格的位置进行初步定位；6：针对获得的表格定位信息，根据表格元素的长宽关系，将横板表格旋转为竖版表格；7：根据获得的竖版表格，读取单元格字符流。本发明能自动对表格位置进行准确的定位，能够精确的从表格中读取表格的字符流。

Description

一种面向文献的表格信息抽取方法

技术领域

本发明涉及一种面向文献的表格信息抽取方法，属于数据处理以及计算机视觉领域。

背景技术

网络的无处不在和文献的免费访问使人类越来越容易获得越来越多的学术文献，可利用的实验数据的数量在迅速增加，几乎在所有研究领域中都在使用人工收集处理可用数据，这种方式效率低下。因此，为了使将来的研究能够充分的利用前人的数据和成果,并更进一步创新,需要一种用于自动提取和处理数据的系统。

无论科学学科如何，研究和实验的结果通常都以表格的形式报告。表是一种报告大量数据集的直观和有效的方法。然而，虽然文献中的实验结果一般使用表格的形式在呈现，但在不同学科或者期刊之间的表格结构,存在任何形式的标准化。因此，用于提取这些表格数据的软件工具需要高度适应性，以便能够从不同类型表格中正确提取数据。

目标检测技术已经应用于生活的各个方面。通过目标检测技术可以实现对不同类别的物体进行定位。“Tsung-Yi Lin,Priya Goyal,Ross B.Girshick,Kaiming He,andPiotr Dollar.一种焦点损失用于目标检测′IEEE TPAMI,42(2):318–327,2020”主要运用框回归神经网络和分类网络对位置的图片进行预测。“M.Ruffolo and E.Oro.PDF-TREX:一种从PDF提取识别表格内容的方法In Proc.Of ICDAR 2009,pages 906–910,2009.提出一种启发式的表格信息抽取方法，通过对表格元素的位置拟合，实现了面向文本的表格信息萃取。当前的表格信息萃取召回率极低，会将文本中的噪声当成表格读取。因此，需要设计基于关键词语和可扩展词性的文本挖掘方法，以实现表格数据的精准抽取。

发明内容

针对学术文献中表格边线不确定的特点，本发明提出了一种面向文献的表格信息抽取方法，适用于自动化提取表格信息，特别适用于学术文献信息抽取。

本发明为解决其技术问题采用如下技术方案：

一种面向文献的表格信息抽取方法，包括以下步骤：

步骤1：利用规则获取所有可能含表格的候选页面；

步骤2：将步骤1中获取的页面转化为图片文件；

步骤3：采用深度学习方法，获取步骤2中图片文件的特征；

步骤4：根据步骤3中获取的图片文件的特征，对图片进行特征融合；获取融合后的特征。

步骤5：根据步骤4中获取的特征融合后的特征，对表格的位置进行初步定位；

步骤6：针对步骤5获得的表格定位信息，根据表格元素的长宽关系，将横板表格旋转为竖版表格；

步骤7：根据步骤6中获得的竖版表格，读取单元格字符流。

步骤3的具体过程如下：

首先用凯明正态分布初始化神经网络中的权重，然后将图片矢量化，最终将矢量化后的图片作为输入参数传入残差神经网络，获取特征图。

步骤7的具体过程如下：

对于已经旋转为竖版表格，计算每个元素的中线和边线的坐标，如果中线和

边线的横竖坐标相同，则定位成单元格，并读取该位置的元素，将其转化为CSV文件。

本发明的有益效果如下：

1)能自动对表格位置进行准确的定位。

2)能够精确的从表格中读取表格的字符流。

附图说明

图1是本发明实例图。

图2是表格定位的效果图。

图3为表格定位的准确率示意图。

图4是读取表格字符流效果图。

具体实施方式：

为了使本领域研究人员更好地理解本申请中的技术问题和技术方案，并实现申请所能达到的技术效果，下面结合附图和具体实施方式对本发明作进一步详细说明。

本发明提出的一种面向文献的表格信息抽取方法，包括下述步骤，流程如图1所示：

步骤1：利用多种规则，获取所有可能含表格的候选页面；

地质文献数据集是关于地质文献的集合Pd＝{Pd₁，Pd₂，...，Pd_N}，其中，N代表地质文献数据集中地质文献的数量；

对于单个文献Pd_j∈Pd，存在页面集合Pa＝{Pa₁，Pa₂，....Pa_N}，对任意页面Pa_j，存在句子集合Wa＝{Wa₁，Wa₂，....Wa_N}，如果正则表达式table[/d+]∈Wa，则Pa_j为候选页面，获取候选页面的多元属性组pdf_i＝{doc_i，page_，i，hight_i，width_i)其中doc_i为PDF候选页面文件，page_i为候选页面。，hight_i为PDF文件的高度，width_i为PDF文件的宽度。

步骤2：将步骤1中获取的页面转化为图片文件；

对于多元属性组pdf_i对PDF文件进行截屏，截屏之后的生成的多元属性组picpdf_i＝(png_i，picage_，i，pichight_i，picwidth_i)其中png_i为PDF候选页面文件的图片文件，picpage_j为候选页面图片文件的页数。，pichight_i为PDF候选页面文件的图片文件，，picwidth_i为候选页面文件的图片文件宽度。由于PDF文件的坐标和图片文件的坐标表示方式不同，需要计算图标和PDF坐标的关系.对于候选页面图片文件多元属性组集合Picpdf＝{picpdf₁，picpdf₂，......，picpdf_N}，以及候选页面集合Pdf＝{pdf₁，pdf₂，......，pdf_N}设缩放比例为K，截距为b，对于高度计算公式如式(1)所示：

∑_i＜NK*hight_i+∑_i＜N b＝∑_i＜N pichight_i (1)

其中：i表示当前的页面值，N为页面的个数。

步骤3：采用深度学习技术，获取步骤2中图片文件的特征。

对于步骤2中所叙述的图片多元属性组picpdf_i，用计算机知识对多元属性组中的图片文件中的表格进行定位，首先用凯明正态分布初始化神经网络中的全连接层的参数，然后将图片矢量化，最终作为输入参数传入残差神经网络，获取特征图。

具体的操作流程如下

首先利用凯明正态分布对模型进行初始化，模型服从0均值的正态分布N，公式如式(2)所示：

N～(0，std) (2)

其中a为激活函数的负半轴的斜率，在这里用Relu函数，所以为0，fan_in为输入的维度。

对于第i个残差块，输入为x_i，输入为x_i+1两层之间的公式如式(4)所示：

x_i+1＝Relu(h(x_i)+F(x_i，W_i)) (4)

h(x_i)＝W_l′x (5)

其中F(x_i，W_i)表示残差部分，由于卷积网络中x_i+1会和x_i的维度不同，W_l′x为1X1的卷积操作，使特征图的两端的维度相同。Relu函数为激活函数对于第L层的残差块x_L与第i层的关系如式(6)所示：

其中：F(x_j，W_j)表示第L层和第i层之间的残差块；

经过50层的残差层最终得到特征图sp_i。

步骤4：根据步骤3中获取的图片文件的特征，对图片进行特征融合。

由于在步骤2所述的特征图中的表格有大有小，需要对表格进行特征融合，从而捕获在不同尺寸的目标的特征。

具体实施做法如下，对步骤3中所描述的特征分别sp_i利用步长为2，4，8，16，32的卷积核提取图片在不同尺寸的特征C＝{C₁，C₂，......，C_N}，对不同尺寸的特征图进行自上而下的特征融合，公式如式(7)所示：

P_i＝h(C_i)+h(P_i+1)(i＜N-1) (7)

P_N＝h(C_i) (8)

F＝∑_i＜N P_i (9)

其中h(C_i)表示进行1x1卷积核升维之后的向量，h(P_i+1)表示升维后的特征，P_i表示第i层的特征，P_N表示最顶层的特征，N为参与特征融合的特征图层数，最后将这些特征累加，成为图片总体的特征F。

步骤5：根据步骤4中获取的图片文件的特征，对表格的位置进行初步定位；对于步骤4中所述的特征融合过后的特征图集合P，对于每个P，利用框回归网络j(x)生成回归框集合A＝{A₁，A₂，......，A_N}，对于第i个框A_i，x_i，y_i为框左上顶点的坐标，w_i，h_i为框的长宽，对于该特征图P_i实际的左上角坐标

实际的长宽

利用focaloss(焦点损失)来计算损失，从而解决背景和目标样本失衡的问题，公式如式(10)所示：

(x_i，y_i，w_i，h_i)＝j(F) (10)

F_Lx(z_tx)＝-(1-z_tx)^γlog(z_tx) (11)

F_Lx(z_ty)＝-(1-z_ty)^γlog(z_ty) (13)

F_Lw(z_tw)＝-(1-z_tw)^γlog(z_tw) (15)

F_Lh(z_th)＝-(1-z_th)^γlog(z_th) (17)

其中j(F)为边框回归网络生成的框属性。对于左上顶点的横坐标z_tx，利用focaloss计算真实值和预测值的损失，其中F_Lx(z_tx)为左上顶点横坐标的focaloss，z_tx为左上顶点的横坐标的真实值

和预测值x_i的交叉熵。F_Lx(z_ty)为左上顶点纵坐标的focaloss，z_ty为左上顶点的纵坐标真实值

和预测值y_i的交叉熵。F_Lw(z_tw)为预测框宽度的focaloss，z_tw为预测框宽度的真实值

和预测值w_i的交叉熵，F_Lh(z_th)为预测框高度的focaloss，z_th为预测框高度的真实值

和预测值h_i的交叉熵，_γ为调制系数，为了减少易分类样本的权重，从而使得模型在训练时更专注于难分类的样本。

当预测的时候，通过边框回归网络就能预测出框的大小。表格的定位效果如图2所示，表格的定位的成功率如图3所示。

步骤6：针对步骤5获得的表格位置，根据表格元素的长宽关系，将横板表格旋转；

在文献中，表格的方向往往是不同，如果不处理方向就会导致表格错位。对于步骤5中所定位到的表格(x_i，y_i，w_i，h_i)对其进行坐标转化，得到(p_xlti，p_ylti，p_xrfi，p_yrfi)其中p_xlti，p_ylti为PDF中左上角点的坐标，p_xrfi_，p_yrfi为PDF中右下角点的坐标。转化公式如(23)，(24)所示：

p_xlti＝kx_i+b (19)

p_hi＝kh_i+b (20)

p_wi＝kw_i+b (21)

p_vlti＝ky_i+b (22)

p_xrfi＝p_xlti+p_hi (23)

p_yrfi＝p_ylti+p_wi (24)

其中k，b为步骤2中计算得到的缩放比例和截距，p_wi，p_hi为PDF中表格的宽高，读取从坐标大于p_xlti，p_ylti到p_xrfi，p_yrfi的元素，判断每个元素字符流的长度和每个元素长宽，当字符流长度大于3的时候，判断元素的长和宽的关系，如果长小于宽，则判断为利用pdfminer工具包将PDF页面旋转。

步骤7：根据步骤6中获得的竖版表格，读取单元格字符流。

对于已经旋转为竖版表格，计算每个元素的中线和边线的坐标，如果中线和边线的横竖坐标相同，则定位成单元格，并读取该位置的元素，将其转化为CSV(逗号分隔值)文件。步骤5-7的样例如图4所示。

Claims

1.一种面向文献的表格信息抽取方法，其特征在于：包括以下步骤：

步骤1：利用规则获取所有可能含表格的候选页面；

步骤2：将步骤1中获取的页面转化为图片文件；

步骤3：采用深度学习方法，获取步骤2中图片文件的特征；

步骤4：根据步骤3中获取的图片文件的特征，对图片进行特征融合；获取融合后的特征；

步骤7：根据步骤6中获得的竖版表格，读取单元格字符流。

2.根据权利要求1所述的一种面向文献的表格信息抽取方法，其特征在于：步骤3的具体过程如下：

3.根据权利要求1所述的一种面向文献的表格信息抽取方法，其特征在于：步骤7的具体过程如下：