CN113609906A - 一种面向文献的表格信息抽取方法 - Google Patents

一种面向文献的表格信息抽取方法 Download PDF

Info

Publication number
CN113609906A
CN113609906A CN202110736883.2A CN202110736883A CN113609906A CN 113609906 A CN113609906 A CN 113609906A CN 202110736883 A CN202110736883 A CN 202110736883A CN 113609906 A CN113609906 A CN 113609906A
Authority
CN
China
Prior art keywords
picture
acquiring
file
vertical
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110736883.2A
Other languages
English (en)
Inventor
胡祥奔
江结林
胡志臣
许小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202110736883.2A priority Critical patent/CN113609906A/zh
Publication of CN113609906A publication Critical patent/CN113609906A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种面向文献的表格信息抽取方法,属于数据处理以及计算机视觉领域。该方法包括以下步骤:1:利用规则获取所有可能含表格的候选页面;2:将获取的页面转化为图片文件;3:采用深度学习方法,获取图片文件的特征;4:根据获取的图片文件的特征,对图片进行特征融合;获取融合后的特征;5:根据获取的特征融合后的特征,对表格的位置进行初步定位;6:针对获得的表格定位信息,根据表格元素的长宽关系,将横板表格旋转为竖版表格;7:根据获得的竖版表格,读取单元格字符流。本发明能自动对表格位置进行准确的定位,能够精确的从表格中读取表格的字符流。

Description

一种面向文献的表格信息抽取方法
技术领域
本发明涉及一种面向文献的表格信息抽取方法,属于数据处理以及计算机视觉领域。
背景技术
网络的无处不在和文献的免费访问使人类越来越容易获得越来越多的学术文献,可利用的实验数据的数量在迅速增加,几乎在所有研究领域中都在使用人工收集处理可用数据,这种方式效率低下。因此,为了使将来的研究能够充分的利用前人的数据和成果,并更进一步创新,需要一种用于自动提取和处理数据的系统。
无论科学学科如何,研究和实验的结果通常都以表格的形式报告。表是一种报告大量数据集的直观和有效的方法。然而,虽然文献中的实验结果一般使用表格的形式在呈现,但在不同学科或者期刊之间的表格结构,存在任何形式的标准化。因此,用于提取这些表格数据的软件工具需要高度适应性,以便能够从不同类型表格中正确提取数据。
目标检测技术已经应用于生活的各个方面。通过目标检测技术可以实现对不同类别的物体进行定位。“Tsung-Yi Lin,Priya Goyal,Ross B.Girshick,Kaiming He,andPiotr Dollar.一种焦点损失用于目标检测′IEEE TPAMI,42(2):318–327,2020”主要运用框回归神经网络和分类网络对位置的图片进行预测。“M.Ruffolo and E.Oro.PDF-TREX:一种从PDF提取识别表格内容的方法In Proc.Of ICDAR 2009,pages 906–910,2009.提出一种启发式的表格信息抽取方法,通过对表格元素的位置拟合,实现了面向文本的表格信息萃取。当前的表格信息萃取召回率极低,会将文本中的噪声当成表格读取。因此,需要设计基于关键词语和可扩展词性的文本挖掘方法,以实现表格数据的精准抽取。
发明内容
针对学术文献中表格边线不确定的特点,本发明提出了一种面向文献的表格信息抽取方法,适用于自动化提取表格信息,特别适用于学术文献信息抽取。
本发明为解决其技术问题采用如下技术方案:
一种面向文献的表格信息抽取方法,包括以下步骤:
步骤1:利用规则获取所有可能含表格的候选页面;
步骤2:将步骤1中获取的页面转化为图片文件;
步骤3:采用深度学习方法,获取步骤2中图片文件的特征;
步骤4:根据步骤3中获取的图片文件的特征,对图片进行特征融合;获取融合后的特征。
步骤5:根据步骤4中获取的特征融合后的特征,对表格的位置进行初步定位;
步骤6:针对步骤5获得的表格定位信息,根据表格元素的长宽关系,将横板表格旋转为竖版表格;
步骤7:根据步骤6中获得的竖版表格,读取单元格字符流。
步骤3的具体过程如下:
首先用凯明正态分布初始化神经网络中的权重,然后将图片矢量化,最终将矢量化后的图片作为输入参数传入残差神经网络,获取特征图。
步骤7的具体过程如下:
对于已经旋转为竖版表格,计算每个元素的中线和边线的坐标,如果中线和
边线的横竖坐标相同,则定位成单元格,并读取该位置的元素,将其转化为CSV文件。
本发明的有益效果如下:
1)能自动对表格位置进行准确的定位。
2)能够精确的从表格中读取表格的字符流。
附图说明
图1是本发明实例图。
图2是表格定位的效果图。
图3为表格定位的准确率示意图。
图4是读取表格字符流效果图。
具体实施方式:
为了使本领域研究人员更好地理解本申请中的技术问题和技术方案,并实现申请所能达到的技术效果,下面结合附图和具体实施方式对本发明作进一步详细说明。
本发明提出的一种面向文献的表格信息抽取方法,包括下述步骤,流程如图1所示:
步骤1:利用多种规则,获取所有可能含表格的候选页面;
地质文献数据集是关于地质文献的集合Pd={Pd1,Pd2,...,PdN},其中,N代表地质文献数据集中地质文献的数量;
对于单个文献Pdj∈Pd,存在页面集合Pa={Pa1,Pa2,....PaN},对任意页面Paj,存在句子集合Wa={Wa1,Wa2,....WaN},如果正则表达式table[/d+]∈Wa,则Paj为候选页面,获取候选页面的多元属性组pdfi={doci,page,i,highti,widthi)其中doci为PDF候选页面文件,pagei为候选页面。,highti为PDF文件的高度,widthi为PDF文件的宽度。
步骤2:将步骤1中获取的页面转化为图片文件;
对于多元属性组pdfi对PDF文件进行截屏,截屏之后的生成的多元属性组picpdfi=(pngi,picage,i,pichighti,picwidthi)其中pngi为PDF候选页面文件的图片文件,picpagej为候选页面图片文件的页数。,pichighti为PDF候选页面文件的图片文件,,picwidthi为候选页面文件的图片文件宽度。由于PDF文件的坐标和图片文件的坐标表示方式不同,需要计算图标和PDF坐标的关系.对于候选页面图片文件多元属性组集合Picpdf={picpdf1,picpdf2,......,picpdfN},以及候选页面集合Pdf={pdf1,pdf2,......,pdfN}设缩放比例为K,截距为b,对于高度计算公式如式(1)所示:
i<NK*highti+∑i<N b=∑i<N pichighti (1)
其中:i表示当前的页面值,N为页面的个数。
步骤3:采用深度学习技术,获取步骤2中图片文件的特征。
对于步骤2中所叙述的图片多元属性组picpdfi,用计算机知识对多元属性组中的图片文件中的表格进行定位,首先用凯明正态分布初始化神经网络中的全连接层的参数,然后将图片矢量化,最终作为输入参数传入残差神经网络,获取特征图。
具体的操作流程如下
首先利用凯明正态分布对模型进行初始化,模型服从0均值的正态分布N,公式如式(2)所示:
N~(0,std) (2)
Figure BDA0003141952880000041
其中a为激活函数的负半轴的斜率,在这里用Relu函数,所以为0,fan_in为输入的维度。
对于第i个残差块,输入为xi,输入为xi+1两层之间的公式如式(4)所示:
xi+1=Relu(h(xi)+F(xi,Wi)) (4)
h(xi)=Wl′x (5)
其中F(xi,Wi)表示残差部分,由于卷积网络中xi+1会和xi的维度不同,Wl′x为1X1的卷积操作,使特征图的两端的维度相同。Relu函数为激活函数对于第L层的残差块xL与第i层的关系如式(6)所示:
Figure BDA0003141952880000042
其中:F(xj,Wj)表示第L层和第i层之间的残差块;
经过50层的残差层最终得到特征图spi
步骤4:根据步骤3中获取的图片文件的特征,对图片进行特征融合。
由于在步骤2所述的特征图中的表格有大有小,需要对表格进行特征融合,从而捕获在不同尺寸的目标的特征。
具体实施做法如下,对步骤3中所描述的特征分别spi利用步长为2,4,8,16,32的卷积核提取图片在不同尺寸的特征C={C1,C2,......,CN},对不同尺寸的特征图进行自上而下的特征融合,公式如式(7)所示:
Pi=h(Ci)+h(Pi+1)(i<N-1) (7)
PN=h(Ci) (8)
F=∑i<N Pi (9)
其中h(Ci)表示进行1x1卷积核升维之后的向量,h(Pi+1)表示升维后的特征,Pi表示第i层的特征,PN表示最顶层的特征,N为参与特征融合的特征图层数,最后将这些特征累加,成为图片总体的特征F。
步骤5:根据步骤4中获取的图片文件的特征,对表格的位置进行初步定位;对于步骤4中所述的特征融合过后的特征图集合P,对于每个P,利用框回归网络j(x)生成回归框集合A={A1,A2,......,AN},对于第i个框Ai,xi,yi为框左上顶点的坐标,wi,hi为框的长宽,对于该特征图Pi实际的左上角坐标
Figure BDA0003141952880000051
Figure BDA0003141952880000052
实际的长宽
Figure BDA0003141952880000053
利用focaloss(焦点损失)来计算损失,从而解决背景和目标样本失衡的问题,公式如式(10)所示:
(xi,yi,wi,hi)=j(F) (10)
FLx(ztx)=-(1-ztx)γlog(ztx) (11)
Figure BDA0003141952880000054
FLx(zty)=-(1-zty)γlog(zty) (13)
Figure BDA0003141952880000055
FLw(ztw)=-(1-ztw)γlog(ztw) (15)
Figure BDA0003141952880000061
FLh(zth)=-(1-zth)γlog(zth) (17)
Figure BDA0003141952880000062
其中j(F)为边框回归网络生成的框属性。对于左上顶点的横坐标ztx,利用focaloss计算真实值和预测值的损失,其中FLx(ztx)为左上顶点横坐标的focaloss,ztx为左上顶点的横坐标的真实值
Figure BDA0003141952880000063
和预测值xi的交叉熵。FLx(zty)为左上顶点纵坐标的focaloss,zty为左上顶点的纵坐标真实值
Figure BDA0003141952880000064
和预测值yi的交叉熵。FLw(ztw)为预测框宽度的focaloss,ztw为预测框宽度的真实值
Figure BDA0003141952880000065
和预测值wi的交叉熵,FLh(zth)为预测框高度的focaloss,zth为预测框高度的真实值
Figure BDA0003141952880000066
和预测值hi的交叉熵,γ为调制系数,为了减少易分类样本的权重,从而使得模型在训练时更专注于难分类的样本。
当预测的时候,通过边框回归网络就能预测出框的大小。表格的定位效果如图2所示,表格的定位的成功率如图3所示。
步骤6:针对步骤5获得的表格位置,根据表格元素的长宽关系,将横板表格旋转;
在文献中,表格的方向往往是不同,如果不处理方向就会导致表格错位。对于步骤5中所定位到的表格(xi,yi,wi,hi)对其进行坐标转化,得到(pxlti,pylti,pxrfi,pyrfi)其中pxlti,pylti为PDF中左上角点的坐标,pxrfipyrfi为PDF中右下角点的坐标。转化公式如(23),(24)所示:
pxlti=kxi+b (19)
phi=khi+b (20)
pwi=kwi+b (21)
pvlti=kyi+b (22)
pxrfi=pxlti+phi (23)
pyrfi=pylti+pwi (24)
其中k,b为步骤2中计算得到的缩放比例和截距,pwi,phi为PDF中表格的宽高,读取从坐标大于pxlti,pylti到pxrfi,pyrfi的元素,判断每个元素字符流的长度和每个元素长宽,当字符流长度大于3的时候,判断元素的长和宽的关系,如果长小于宽,则判断为利用pdfminer工具包将PDF页面旋转。
步骤7:根据步骤6中获得的竖版表格,读取单元格字符流。
对于已经旋转为竖版表格,计算每个元素的中线和边线的坐标,如果中线和边线的横竖坐标相同,则定位成单元格,并读取该位置的元素,将其转化为CSV(逗号分隔值)文件。步骤5-7的样例如图4所示。

Claims (3)

1.一种面向文献的表格信息抽取方法,其特征在于:包括以下步骤:
步骤1:利用规则获取所有可能含表格的候选页面;
步骤2:将步骤1中获取的页面转化为图片文件;
步骤3:采用深度学习方法,获取步骤2中图片文件的特征;
步骤4:根据步骤3中获取的图片文件的特征,对图片进行特征融合;获取融合后的特征;
步骤5:根据步骤4中获取的特征融合后的特征,对表格的位置进行初步定位;
步骤6:针对步骤5获得的表格定位信息,根据表格元素的长宽关系,将横板表格旋转为竖版表格;
步骤7:根据步骤6中获得的竖版表格,读取单元格字符流。
2.根据权利要求1所述的一种面向文献的表格信息抽取方法,其特征在于:步骤3的具体过程如下:
首先用凯明正态分布初始化神经网络中的权重,然后将图片矢量化,最终将矢量化后的图片作为输入参数传入残差神经网络,获取特征图。
3.根据权利要求1所述的一种面向文献的表格信息抽取方法,其特征在于:步骤7的具体过程如下:
对于已经旋转为竖版表格,计算每个元素的中线和边线的坐标,如果中线和
边线的横竖坐标相同,则定位成单元格,并读取该位置的元素,将其转化为CSV文件。
CN202110736883.2A 2021-06-30 2021-06-30 一种面向文献的表格信息抽取方法 Pending CN113609906A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110736883.2A CN113609906A (zh) 2021-06-30 2021-06-30 一种面向文献的表格信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110736883.2A CN113609906A (zh) 2021-06-30 2021-06-30 一种面向文献的表格信息抽取方法

Publications (1)

Publication Number Publication Date
CN113609906A true CN113609906A (zh) 2021-11-05

Family

ID=78337017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110736883.2A Pending CN113609906A (zh) 2021-06-30 2021-06-30 一种面向文献的表格信息抽取方法

Country Status (1)

Country Link
CN (1) CN113609906A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3999161A (en) * 1973-07-30 1976-12-21 De Staat Der Nederlanden, Te Dezen Vertegenwoordigd Door De Directeur-Generaal Der Posterijen, Telegrafie En Telefonie Method and device for the recognition of characters, preferably of figures
CN103488711A (zh) * 2013-09-09 2014-01-01 北京大学 一种快速制作矢量字库的方法及系统
CN106909941A (zh) * 2017-02-27 2017-06-30 广东工业大学 基于机器视觉的多表字符识别系统及方法
CN109241894A (zh) * 2018-08-28 2019-01-18 南京安链数据科技有限公司 一种基于表格定位和深度学习的针对性票据内容识别系统和方法
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110210303A (zh) * 2019-04-29 2019-09-06 山东大学 一种北斗视觉融合精准车道辨识与定位方法及其实现装置
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN111639637A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 表格识别方法、装置、电子设备和存储介质
CN111967538A (zh) * 2020-09-25 2020-11-20 北京百度网讯科技有限公司 应用于小目标检测的特征融合方法、装置、设备以及存储介质
US20210133474A1 (en) * 2018-05-18 2021-05-06 Nec Corporation Image processing apparatus, system, method, and non-transitory computer readable medium storing program
CN112883926A (zh) * 2021-03-24 2021-06-01 泰康保险集团股份有限公司 表格类医疗影像的识别方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3999161A (en) * 1973-07-30 1976-12-21 De Staat Der Nederlanden, Te Dezen Vertegenwoordigd Door De Directeur-Generaal Der Posterijen, Telegrafie En Telefonie Method and device for the recognition of characters, preferably of figures
CN103488711A (zh) * 2013-09-09 2014-01-01 北京大学 一种快速制作矢量字库的方法及系统
CN106909941A (zh) * 2017-02-27 2017-06-30 广东工业大学 基于机器视觉的多表字符识别系统及方法
US20210133474A1 (en) * 2018-05-18 2021-05-06 Nec Corporation Image processing apparatus, system, method, and non-transitory computer readable medium storing program
CN109241894A (zh) * 2018-08-28 2019-01-18 南京安链数据科技有限公司 一种基于表格定位和深度学习的针对性票据内容识别系统和方法
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110210303A (zh) * 2019-04-29 2019-09-06 山东大学 一种北斗视觉融合精准车道辨识与定位方法及其实现装置
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN111639637A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 表格识别方法、装置、电子设备和存储介质
CN111967538A (zh) * 2020-09-25 2020-11-20 北京百度网讯科技有限公司 应用于小目标检测的特征融合方法、装置、设备以及存储介质
CN112883926A (zh) * 2021-03-24 2021-06-01 泰康保险集团股份有限公司 表格类医疗影像的识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨明伟: "基于深度学习的复杂票据表格分割算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 3, pages 138 - 511 *
谢阳: "基于深度学习的发票识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, 15 February 2021 (2021-02-15), pages 138 - 1825 *

Similar Documents

Publication Publication Date Title
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN109086714B (zh) 表格识别方法、识别系统及计算机装置
US20200089946A1 (en) System and method for extracting tabular data from electronic document
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
JP7132050B2 (ja) テキスト行の区分化方法
CN101149801A (zh) 一种复杂结构文档图像倾斜快速检测方法
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
Kumar et al. Offline handwritten Gurmukhi character recognition: Study of different feature-classifier combinations
CN111914612A (zh) 一种基于改进的卷积神经网络的施工图图元自适应识别方法
US20230222643A1 (en) Semantic deep learning and rule optimization for surface corrosion detection and evaluation
Ning et al. MT-YOLOv5: Mobile terminal table detection model based on YOLOv5
RU2633182C1 (ru) Определение направления строк текста
CN114581928A (zh) 一种表格识别方法及系统
Sathya Narayanan et al. RETRACTED ARTICLE: An efficient recognition system for preserving ancient historical documents of English characters
CN113609906A (zh) 一种面向文献的表格信息抽取方法
CN111414917A (zh) 一种低像素密度文本的识别方法
Edan Cuneiform symbols recognition based on k-means and neural network
CN108460772B (zh) 基于卷积神经网络的广告骚扰传真图像检测系统及方法
CN115861956A (zh) 一种基于解耦头部的Yolov3道路垃圾检测方法
CN113516114B (zh) 一种自然场景文本检测方法、设备和介质
Polyakova et al. Combined method for scanned documents images segmentation using sequential extraction of regions
CN114283431A (zh) 一种基于可微分二值化的文本检测方法
CN107392225A (zh) 基于椭圆傅立叶描述符和加权稀疏表示的植物识别方法
CN114419313A (zh) 影像辨识方法及影像辨识系统
Liebl et al. On the accuracy of CRNNs for line-based OCR: A multi-parameter evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination