CN114387608A - 一种联合卷积与图神经网络的表格结构识别方法 - Google Patents

一种联合卷积与图神经网络的表格结构识别方法 Download PDF

Info

Publication number
CN114387608A
CN114387608A CN202210293274.9A CN202210293274A CN114387608A CN 114387608 A CN114387608 A CN 114387608A CN 202210293274 A CN202210293274 A CN 202210293274A CN 114387608 A CN114387608 A CN 114387608A
Authority
CN
China
Prior art keywords
neural network
graph
convolution
table structure
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210293274.9A
Other languages
English (en)
Other versions
CN114387608B (zh
Inventor
黄双萍
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou
South China University of Technology SCUT
Original Assignee
Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou, South China University of Technology SCUT filed Critical Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou
Priority to CN202210293274.9A priority Critical patent/CN114387608B/zh
Publication of CN114387608A publication Critical patent/CN114387608A/zh
Application granted granted Critical
Publication of CN114387608B publication Critical patent/CN114387608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述方法包括:构建联合卷积图神经网络,所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络;利用不确定度加权的多任务学习损失函数训练所述的联合卷积图神经网络;使用二维卷积神经网络预测表格各单元格中心点坐标,基于中心点构建表格结构的图,利用所述的图神经网络对图的每条边进行分类;后处理算法处理分好类的表格结构的图,得到各单元格的结构属性,并转换为描述表格结构的标记语言。本发明方法提供一种端到端可训练的基于图神经网络显示建模表格结构的方法来高效识别表格结构。

Description

一种联合卷积与图神经网络的表格结构识别方法
技术领域
本发明属于图像处理及模式识别技术领域,尤其涉及一种联合卷积与图神经网络的表格结构识别方法。
背景技术
表格是易于人理解的,强有力的信息展现工具,常出现在纸张照片或电子扫描图片形式的文档中,用于直观展示信息。但图像中的表格为非结构化数据,无法直接被计算机解析理解。而且表格存在共用行列单元格的情况,具有复杂的结构,加大了表格结构解析算法的开发难度。这些困难阻碍了文档中表格信息自动解析、识别及数字化技术的发展,因此亟需发明具有高精度识别图像中表格结构的计算机算法,以解决上述问题。
深度学习技术在表格结构识别任务上取得长足进展,目前基于深度学习的表格结构识别方法可以分为三种:基于分割及后处理的方式、基于图像到序列端到端的方式和基于图神经网络的方式。基于分割的方式得到的是各单元格、行或列的位置信息,还须依赖进一步的复杂后处理才能得到表格结构,这增加了算法的步骤以及引入了复杂后处理出错时新的识别误差。基于图像到序列端到端的方式,虽然省略了后续的处理步骤,一步到位地实现了图像结构的标记语言(如Latex、HTML等)的预测输出,但是现有模型没有显示地利用表格结构天然的逻辑关系信息,限制了模型的精度上限。基于图神经网络的方式,根据表格单元格结构关系,显示地建立图后应用图神经网络对图顶点、边进行分类或回归得到各单元格结构属性,实现表格结构的预测,但是该方法通常需要使用文本检测算法预先得到单元格各文本行的区域,然后再利用这些区域坐标来构建图,而非端到端可训练的方式,这导致一方面降低了模型的识别效率,另一方面没有在训练过程中结合单元格分割任务及图分类任务的标签信息以提高精度。
综上所述,现有表格结构识别方法还没有能显示建模表格结构的端到端识别方法,以同时提高模型识别精度及效率。因此,需要提供一种端到端可训练的基于图神经网络显示建模表格结构的方法来识别表格结构。
发明内容
有鉴于此,有必要针对上述技术问题,提供一种联合卷积与图神经网络的表格结构识别方法,所述方法提供了一种端到端可训练的基于图神经网络显示建模表格结构的方式,能够高精度、高效地识别表格结构。
一种联合卷积与图神经网络的表格结构识别方法,包括以下步骤:
步骤1,构建联合卷积图神经网络,所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络,所述的深度二维卷积神经网络输出的图像特征,作为所述的二维卷积神经网络和所述的图神经网络的输入;
步骤2,利用不确定度加权的多任务学习损失函数训练所述的联合卷积图神经网络;
步骤3,所述的深度二维卷积神经网络用于提取表格图像高维语义特征,使用二维卷积神经网络预测表格各单元格中心点坐标,基于中心点构建表格结构的图,利用所述的图神经网络对图的每条边进行分类;
步骤4,后处理算法处理分好类的表格结构的图,得到各单元格的结构属性,并转换为描述表格结构的标记语言。
具体地,所述的深度二维卷积神经网络
Figure 324017DEST_PATH_IMAGE001
为关键点识别深度卷积神经网络HRNet的前3个阶段:
Figure 340294DEST_PATH_IMAGE002
其中,
Figure 447927DEST_PATH_IMAGE003
为输入3通道RGB图像,stage i 为HRNet网络中第i个包含图像不同分辨率特征提取分支的卷积模块;
所述的二维卷积神经网络为
Figure 921765DEST_PATH_IMAGE004
为关键点识别深度卷积神经网络HRNet的第4阶段部分:
Figure 204978DEST_PATH_IMAGE005
可选地,所述的图神经网络
Figure 355337DEST_PATH_IMAGE006
采用图注意力网络:
Figure 435420DEST_PATH_IMAGE007
其中,g为基于中心点构建的表达表格结构的图,
Figure 962216DEST_PATH_IMAGE008
表示图注意力网络。
可选地,所述图神经网络
Figure 178565DEST_PATH_IMAGE006
采用图卷积神经网络:
Figure 640770DEST_PATH_IMAGE009
其中,g为基于中心点构建的表达表格结构的图,
Figure 722996DEST_PATH_IMAGE010
表示图卷积神经网络。
进一步地,所述的基于中心点构建表格结构的图,包括如下步骤:
计算CNN特征张量
Figure 801286DEST_PATH_IMAGE011
,其中
Figure 793512DEST_PATH_IMAGE012
为与
Figure 551253DEST_PATH_IMAGE013
结构相同,权重不共享的卷积模块;
对每个顶点采用K-NN算法,构建图g的边;
根据各中心点坐标
Figure 261720DEST_PATH_IMAGE014
索引CNN特征张量
Figure 615472DEST_PATH_IMAGE015
得到图每个顶点的CNN特征向量
Figure 852418DEST_PATH_IMAGE016
,其中hw为图像高与宽方向上的坐标;
拼接CNN特征向量
Figure 390847DEST_PATH_IMAGE016
与中心点坐标及中心点相对坐标,得到每个顶点的特征向量f n ,其中n为顶点编号;
根据边两个顶点的CNN特征向量,取均值得边的CNN特征向量,并拼接两顶点的x轴绝对与相对距离、y轴绝对与相对距离和绝对与相对欧式距离,得到每个边的特征向量v m ,其中m为边的编号:
Figure 463976DEST_PATH_IMAGE017
其中H,W分别为图像的高与宽,由此获得图g=({f n }, {v m }, A),其中A为图g的邻接矩阵。
更进一步地,所述的训练联合卷积图神经网络的过程中,单元格中心点坐标预测网络的损失函数
Figure 11632DEST_PATH_IMAGE018
采用均方误差损失:
Figure 103085DEST_PATH_IMAGE019
其中
Figure 343573DEST_PATH_IMAGE020
为单元格中心点坐标预测网络的输出,为二阶张量,WH分别为
Figure 638420DEST_PATH_IMAGE015
的宽与高,
Figure 989767DEST_PATH_IMAGE021
为各单元格中心点对应的热力图标签;
图分类任务的损失函数
Figure 935726DEST_PATH_IMAGE022
采用交叉熵损失函数:
Figure 953973DEST_PATH_IMAGE023
其中
Figure 860749DEST_PATH_IMAGE024
为图神经网络的输出,为二阶张量,高等于类别数3,宽为边的个数
Figure 874841DEST_PATH_IMAGE025
Figure 550673DEST_PATH_IMAGE026
为每条边的类别标签,3种类别分别是相邻同行、相邻同列和不相邻;
总损失函数
Figure 8331DEST_PATH_IMAGE027
采用如下以任务不确定度倒数平方
Figure 261458DEST_PATH_IMAGE028
Figure 954607DEST_PATH_IMAGE029
为权重的
Figure 360312DEST_PATH_IMAGE018
Figure 113504DEST_PATH_IMAGE022
的加权求和形式:
Figure 119506DEST_PATH_IMAGE030
以最小化
Figure 616347DEST_PATH_IMAGE027
为目标,利用Adam优化算法数值求解
Figure 876558DEST_PATH_IMAGE031
Figure 535072DEST_PATH_IMAGE032
Figure 28370DEST_PATH_IMAGE004
Figure 63323DEST_PATH_IMAGE001
Figure 706269DEST_PATH_IMAGE006
网络参数的最优解。
优选地,所述的预测表格各单元格中心点坐标,包括以下步骤:
二值化单元格中心点坐标预测网络
Figure 535685DEST_PATH_IMAGE004
的输出
Figure 516279DEST_PATH_IMAGE015
寻找二值图
Figure 354922DEST_PATH_IMAGE015
中所有连通区域的轮廓;
利用轮廓中心矩求解每个轮廓的几何中心得到各单元格中心点的预测坐标。
具体地,所述利用图神经网络
Figure 324146DEST_PATH_IMAGE006
对构建的图g的每条边进行分类,具体包括,第j条边的分类预测结果为
Figure 449097DEST_PATH_IMAGE033
具体地,所述各单元格的结构属性,包括起始行、列号和结束行列、列号。
更进一步地,所述后处理算法,包括以下步骤:
对分好类的图g的每个顶点按行进行排序,对于跨多行的节点,将行号取值为所有左同行相邻顶点中y值最小的顶点的行号,得到每个单元格起始行号;
g每个顶点按行进行排序,对于跨多行的节点,将行号取值为所有左同行相邻顶点中y值最大的顶点的行号,得到每个单元格结束行号;
g每个顶点按列进行排序,对于跨多列的节点,将列号取值为所有下同列相邻顶点中x值最小的顶点的列号,得到每个单元格起始列号;
g每个顶点按列进行排序,对于跨多列的节点,将列号取值为所有下同列相邻顶点中x值最大的顶点的列号,得到每个单元格结束列号。
与现有技术相比,本发明的有益效果在于,本发明方法能够同时完成表格各单元格中心点坐标预测任务与表格结构的图分类任务,通过多任务学习方式联合训练中心点预测卷积神经网络与用于表格结构图分类的图神经网络,提高了网络整体预测的性能,能够高精度地对表格各单元格中心点连接构成的图的边关系进行分类,基于边分好类的图通过后处理计算各单元格结构属性,完成表格(全线表、各类省线表)结构的识别。
附图说明
图1示出了本发明实施方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了更好地理解本实施例的技术内容,先介绍一下本实施例中涉及到的术语解释。
端到端可训练:深度学习提供了一种端到端的学习范式,整个学习的流程并不进行人为的子问题划分,而是完全交给深度学习模型直接学习从原始数据到期望输出的映射。
卷积神经网络:卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。
图神经网络:图神经网络(GNNs)是一种连接主义模型,它通过图节点之间的消息传递来捕获图的依赖性。
图卷积神经网络(GCN, Graph Convolutional Network):模型由图上的卷积操作构成的一种图神经网络。
图注意力网络(GAT, Graph Attention Network):模型由自注意力模块构成的一种图神经网络。
多任务学习:多任务学习(Multi-task learning)是和单任务学习(single-tasklearning)相对的一种机器学习方法。在机器学习领域,标准的算法理论是一次学习一个任务,也就是系统的输出为实数的情况,而多任务学习是一种联合学习,多个任务并行学习,结果相互影响。
损失函数:损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。
表格结构:一般用表格各单元格的结构属性来表示。结构属性包括单元格的起始行号、起始列号,结束行号、结束列号。
标记语言:是一种将文本以及文本相关的其他信息结合起来,展现出关于文档结构和数据处理细节的电脑文字编码。
HTML语言:超文本标记语言(HTML,Hyper Text Markup Language)是一种标记语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。
HRNet(High Resolution Net):高分辨率网络模型。
图1示出了本发明实施例的流程示意图。一种联合卷积与图神经网络的表格结构识别方法,包括以下步骤:
步骤1,构建联合卷积图神经网络,所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络,所述的深度二维卷积神经网络,分别接入所述的二维卷积神经网络和所述的图神经网络;
步骤2,利用不确定度加权的多任务学习损失函数训练所述的联合卷积图神经网络;
步骤3,所述的深度二维卷积神经网络用于提取表格图像高维语义特征,使用二维卷积神经网络预测表格各单元格中心点坐标,基于中心点构建表格结构的图,利用所述的图神经网络对图的每条边进行分类;
步骤4,后处理算法处理分好类的表格结构的图,得到各单元格的结构属性,并转换为描述表格结构的标记语言。
下面结合实例具体说明联合卷积与图神经网络的表格结构识别过程。
下面结合实例具体说明联合卷积与图神经网络的表格结构识别过程。
执行步骤1,构建联合卷积图神经网络,所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络,所述的深度二维卷积神经网络,分别接入所述的二维卷积神经网络和所述的图神经网络。
所述的深度二维卷积神经网络
Figure 526774DEST_PATH_IMAGE034
为关键点识别深度卷积神经网络HRNet的前3个阶段:
Figure 778895DEST_PATH_IMAGE035
其中,
Figure 383052DEST_PATH_IMAGE036
为输入3通道RGB图像,stagei为HRNet网络中第i个包含图像不同分辨率特征提取分支的卷积模块;
所述的二维卷积神经网络为
Figure 819850DEST_PATH_IMAGE037
为关键点识别深度卷积神经网络HRNet的第4阶段部分:
Figure 260189DEST_PATH_IMAGE038
可选地,所述的图神经网络
Figure 440635DEST_PATH_IMAGE039
采用图注意力网络:
Figure 899298DEST_PATH_IMAGE040
其中,g为基于中心点构建的表达表格结构的图,
Figure 506997DEST_PATH_IMAGE041
表示图注意力网络。
可选地,所述图神经网络
Figure 431703DEST_PATH_IMAGE042
采用图卷积神经网络:
Figure 150260DEST_PATH_IMAGE043
其中,g为基于中心点构建的表达表格结构的图,
Figure 729009DEST_PATH_IMAGE044
表示图卷积神经网络。
进一步地,所述的基于中心点构建表格结构的图,包括如下步骤:
计算CNN特征张量
Figure 507609DEST_PATH_IMAGE045
,其中
Figure 922541DEST_PATH_IMAGE046
为与
Figure 444790DEST_PATH_IMAGE047
结构相同,权重不共享的卷积模块。
对每个顶点采用K-NN算法,构建图g的边。首先取K值为20,然后构建以中心点为图顶点的完全图,并计算每条边的欧式距离;下一步,裁剪距离较远的边,以减少图的边数从而提高算法的计算速度,具体地,遍历完全图的每个顶点,遍历到某顶点时,具体的处理方式为,对该顶点的每条边按距离从小到大排序,仅保留前20条边(包括20),去除后20条边,当总边数小于20时则保留全部边,遍历地处理完所有顶点后,便完成图g的构建。
根据各中心点坐标
Figure 878045DEST_PATH_IMAGE048
索引CNN特征张量
Figure 827546DEST_PATH_IMAGE049
得到图每个顶点的CNN特征向量
Figure 464195DEST_PATH_IMAGE050
,其中h,w为图像高与宽方向上的坐标。
拼接CNN特征向量
Figure 790134DEST_PATH_IMAGE051
与中心点坐标及中心点相对坐标,得到每个顶点的特征向量fn,其中n为顶点编号。
根据边两个顶点的CNN特征向量,取均值得边的CNN特征向量,并拼接两顶点的x轴绝对与相对距离、y轴绝对与相对距离和绝对与相对欧式距离,得到每个边的特征向量vm,其中m为边的编号:
Figure 77896DEST_PATH_IMAGE052
其中H,W分别为图像的高与宽,由此获得图g=({fn}, {vm}, A),其中A为图g的邻接矩阵。
执行步骤2,利用不确定度加权的多任务学习损失函数训练所述的联合卷积图神经网络。
所述的训练联合卷积图神经网络的过程中,单元格中心点坐标预测网络的损失函数
Figure 463878DEST_PATH_IMAGE053
采用均方误差损失:
Figure 978036DEST_PATH_IMAGE054
其中
Figure 717453DEST_PATH_IMAGE055
为单元格中心点坐标预测网络的输出,为二阶张量,W、H分别为
Figure 735088DEST_PATH_IMAGE056
的宽与高,
Figure 682184DEST_PATH_IMAGE057
为各单元格中心点对应的热力图标签;
图分类任务的损失函数
Figure 418059DEST_PATH_IMAGE058
采用交叉熵损失函数:
Figure 958237DEST_PATH_IMAGE059
其中
Figure 830378DEST_PATH_IMAGE060
为图神经网络的输出,为二阶张量,高等于类别数3,宽为边的个数
Figure 682797DEST_PATH_IMAGE061
Figure 905968DEST_PATH_IMAGE062
为每条边的类别标签,3种类别分别是相邻同行、相邻同列和不相邻;
总损失函数
Figure 987187DEST_PATH_IMAGE063
采用如下以任务不确定度倒数平方
Figure 979414DEST_PATH_IMAGE064
Figure 2734DEST_PATH_IMAGE065
为权重的
Figure 447621DEST_PATH_IMAGE066
Figure 722745DEST_PATH_IMAGE067
的加权求和形式:
Figure 710424DEST_PATH_IMAGE068
以最小化
Figure 514432DEST_PATH_IMAGE069
为目标,利用Adam优化算法数值求解
Figure 836829DEST_PATH_IMAGE070
Figure 384485DEST_PATH_IMAGE071
Figure 492249DEST_PATH_IMAGE072
Figure 467158DEST_PATH_IMAGE073
Figure 276851DEST_PATH_IMAGE074
网络参数的最优解。
执行步骤3,使用二维卷积神经网络预测表格各单元格中心点坐标,基于中心点构建表格结构的图,利用所述的图神经网络对图的每条边进行分类。
所述的预测表格各单元格中心点坐标,包括以下步骤:
采用基于自适应阈值的二值化方法大津法,对单元格中心点坐标预测网络
Figure 628198DEST_PATH_IMAGE075
的输出
Figure 321960DEST_PATH_IMAGE076
进行二值化,得到二值图;
寻找二值图中所有连通区域的轮廓;
利用轮廓中心矩求解每个轮廓的几何中心得到各单元格中心点的预测坐标。
具体地,所述利用图神经网络
Figure 733350DEST_PATH_IMAGE077
对构建的图g的每条边进行分类,具体包括,第j条边的分类预测结果为
Figure 905705DEST_PATH_IMAGE078
具体地,所述各单元格的结构属性,包括起始行、列号和结束行列、列号。
更进一步地,所述后处理算法,包括以下步骤:
对分好类的图g的每个顶点按行进行排序,对于跨多行的节点,将行号取值为所有左同行相邻顶点中y值最小的顶点的行号,得到每个单元格起始行号;
对g每个顶点按行进行排序,对于跨多行的节点,将行号取值为所有左同行相邻顶点中y值最大的顶点的行号,得到每个单元格结束行号;
对g每个顶点按列进行排序,对于跨多列的节点,将列号取值为所有下同列相邻顶点中x值最小的顶点的列号,得到每个单元格起始列号;
对g每个顶点按列进行排序,对于跨多列的节点,将列号取值为所有下同列相邻顶点中x值最大的顶点的列号,得到每个单元格结束列号。
本发明方法的技术原理是:本发明实施例中提出一个联合卷积神经网络及图神经网络的统一框架,支持端到的训练,从而提高了模型的预测以及训练效率。因为本方法显示地构建了表达表格结构的图,并用图神经网络进行边的分类,因此提升了模型整体识别结构的精度,且同时利用多任务损失函数联合训练了卷积神经网络以及图神经网络,充分地利用了各任务标签信息,因此进一步提升了识别精度。
执行步骤4,后处理算法处理分好类的表格结构的图,得到各单元格的结构属性,并转换为描述表格结构的标记语言。
具体的,基于各单元格的结构属性,转换成HTML语法描述的表格(HTML表格)。首先根据所有单元格的最大起始行号,确定HTML的<tr></tr>标签对个数,得到HTML表格的行数,然后依次根据每行的单元格数量,确定每个<tr></tr>标签对中<td></td>标签对的个数,最后根据结束行/列号与起始行/列号的差值得到各单元格的跨行/列属性值并回填到对应<td></td>标签对的属性赋值区,得到表格结构的完整HTML描述,完成标记语言HTML的转换过程。
以上实施例的各技术特征或步骤可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征或步骤所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (10)

1.一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述方法包括:
构建联合卷积图神经网络,所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络,所述的深度二维卷积神经网络输出的图像特征,作为所述的二维卷积神经网络和所述的图神经网络的输入;
利用不确定度加权的多任务学习损失函数训练所述的联合卷积图神经网络;
所述的深度二维卷积神经网络用于提取表格图像高维语义特征,使用二维卷积神经网络预测表格各单元格中心点坐标,基于中心点构建表格结构的图,利用所述的图神经网络对图的每条边进行分类;
后处理算法处理分好类的表格结构的图,得到各单元格的结构属性,并转换为描述表格结构的标记语言。
2.如权利要求1所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述的深度二维卷积神经网络
Figure 238874DEST_PATH_IMAGE001
为关键点识别深度卷积神经网络HRNet的前3个阶段:
Figure 242602DEST_PATH_IMAGE002
其中,
Figure 496997DEST_PATH_IMAGE003
为输入3通道RGB图像,stage i 为HRNet网络中第i个包含图像不同分辨率特征提取分支的卷积模块;
所述的二维卷积神经网络为
Figure 953386DEST_PATH_IMAGE004
为关键点识别深度卷积神经网络HRNet的第4阶段部分:
Figure 584219DEST_PATH_IMAGE005
3.如权利要求2所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述的图神经网络
Figure 442454DEST_PATH_IMAGE006
采用图注意力网络:
Figure 133329DEST_PATH_IMAGE007
其中,g为基于中心点构建的表达表格结构的图,
Figure 77014DEST_PATH_IMAGE008
表示图注意力网络。
4.如权利要求2所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述图神经网络
Figure 245959DEST_PATH_IMAGE006
采用图卷积神经网络:
Figure 958700DEST_PATH_IMAGE009
其中,g为基于中心点构建的表达表格结构的图,
Figure 820476DEST_PATH_IMAGE010
表示图卷积神经网络。
5.如权利要求3或4所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,基于中心点构建表达表格结构的图,包括如下步骤:
计算CNN特征张量
Figure 251458DEST_PATH_IMAGE011
,其中
Figure 224093DEST_PATH_IMAGE012
为与
Figure 525761DEST_PATH_IMAGE013
结构相同,权重不共享的卷积模块;
对每个顶点采用K-NN算法,构建图g的边;
根据各中心点坐标
Figure 844526DEST_PATH_IMAGE014
索引CNN特征张量
Figure 762804DEST_PATH_IMAGE015
得到图每个顶点的CNN特征向量
Figure 7972DEST_PATH_IMAGE016
,其中hw为图像高与宽方向上的坐标;
拼接CNN特征向量
Figure 695305DEST_PATH_IMAGE016
与中心点坐标及中心点相对坐标,得到每个顶点的特征向量f n ,其中n为顶点编号;
根据边两个顶点的CNN特征向量,取均值得边的CNN特征向量,并拼接两顶点的x轴绝对与相对距离、y轴绝对与相对距离和绝对与相对欧式距离,得到每个边的特征向量v m ,其中m为边的编号:
Figure 898884DEST_PATH_IMAGE017
其中HW分别为图像的高与宽,
Figure 38879DEST_PATH_IMAGE018
Figure 618896DEST_PATH_IMAGE019
表示两个顶点x轴坐标分量,
Figure 160735DEST_PATH_IMAGE020
Figure 535216DEST_PATH_IMAGE021
表示两个顶点y轴坐标分量,由此获得图g=({f n}, {v m }, A),其中A为图g的邻接矩阵。
6.如权利要求5所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述的训练联合卷积图神经网络的过程中,单元格中心点坐标预测网络的损失函数
Figure 162506DEST_PATH_IMAGE022
采用均方误差损失:
Figure 15056DEST_PATH_IMAGE023
其中
Figure 676981DEST_PATH_IMAGE024
为单元格中心点坐标预测网络的输出,为二阶张量,W map H map 分别为
Figure 222363DEST_PATH_IMAGE015
的宽与高,
Figure 71371DEST_PATH_IMAGE025
为各单元格中心点对应的热力图标签;
图分类任务的损失函数
Figure 852245DEST_PATH_IMAGE026
采用交叉熵损失函数:
Figure 244043DEST_PATH_IMAGE027
其中
Figure 84960DEST_PATH_IMAGE028
为图神经网络的输出,为二阶张量,高等于类别数3,宽为边的个数
Figure 559279DEST_PATH_IMAGE029
Figure 143844DEST_PATH_IMAGE030
为每条边的类别标签,3种类别分别是相邻同行、相邻同列和不相邻;
总损失函数
Figure 390149DEST_PATH_IMAGE031
采用如下以任务不确定度倒数平方
Figure 401967DEST_PATH_IMAGE032
Figure 100933DEST_PATH_IMAGE033
为权重的
Figure 223610DEST_PATH_IMAGE022
Figure 590000DEST_PATH_IMAGE026
的加权求和形式:
Figure 772720DEST_PATH_IMAGE034
以最小化
Figure 224561DEST_PATH_IMAGE031
为目标,利用Adam优化算法数值求解
Figure 885350DEST_PATH_IMAGE035
Figure 840667DEST_PATH_IMAGE036
Figure 459867DEST_PATH_IMAGE004
Figure 133425DEST_PATH_IMAGE001
Figure 597905DEST_PATH_IMAGE006
网络参数的最优解。
7.如权利要求6所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述的预测表格各单元格中心点坐标,包括以下步骤:
二值化单元格中心点坐标预测网络
Figure 673308DEST_PATH_IMAGE004
的输出
Figure 728989DEST_PATH_IMAGE015
寻找二值图
Figure 621334DEST_PATH_IMAGE015
中所有连通区域的轮廓;
利用轮廓中心矩求解每个轮廓的几何中心得到各单元格中心点的预测坐标。
8.如权利要求7所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述利用图神经网络
Figure 155083DEST_PATH_IMAGE006
对构建的图g的每条边进行分类,具体包括,第j条边的分类预测结果为
Figure 84993DEST_PATH_IMAGE037
9.如权利要求8所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述各单元格的结构属性,包括起始行、列号和结束行列、列号。
10.如权利要求9所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述后处理算法,包括以下步骤:
对分好类的图g的每个顶点按行进行排序,对于跨多行的节点,将行号取值为所有左同行相邻顶点中y值最小的顶点的行号,得到每个单元格起始行号;
g每个顶点按行进行排序,对于跨多行的节点,将行号取值为所有左同行相邻顶点中y值最大的顶点的行号,得到每个单元格结束行号;
g每个顶点按列进行排序,对于跨多列的节点,将列号取值为所有下同列相邻顶点中x值最小的顶点的列号,得到每个单元格起始列号;
g每个顶点按列进行排序,对于跨多列的节点,将列号取值为所有下同列相邻顶点中x值最大的顶点的列号,得到每个单元格结束列号。
CN202210293274.9A 2022-03-24 2022-03-24 一种联合卷积与图神经网络的表格结构识别方法 Active CN114387608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210293274.9A CN114387608B (zh) 2022-03-24 2022-03-24 一种联合卷积与图神经网络的表格结构识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210293274.9A CN114387608B (zh) 2022-03-24 2022-03-24 一种联合卷积与图神经网络的表格结构识别方法

Publications (2)

Publication Number Publication Date
CN114387608A true CN114387608A (zh) 2022-04-22
CN114387608B CN114387608B (zh) 2022-06-21

Family

ID=81205718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210293274.9A Active CN114387608B (zh) 2022-03-24 2022-03-24 一种联合卷积与图神经网络的表格结构识别方法

Country Status (1)

Country Link
CN (1) CN114387608B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115639935A (zh) * 2022-12-14 2023-01-24 亿海蓝(北京)数据技术股份公司 表格操作方法、装置和可读存储介质
CN117576699A (zh) * 2023-11-06 2024-02-20 华南理工大学 一种基于深度学习的机车工单信息智能识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717617A (zh) * 2019-09-09 2020-01-21 广东工业大学 一种基于深度图网络自编码器的无监督关系预测方法
CN110751038A (zh) * 2019-09-17 2020-02-04 北京理工大学 一种基于图注意力机制的pdf表格结构识别方法
CN113221181A (zh) * 2021-06-09 2021-08-06 上海交通大学 具有隐私保护的表格类信息抽取系统及方法
CN113297975A (zh) * 2021-05-25 2021-08-24 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
US20210319314A1 (en) * 2020-04-09 2021-10-14 Naver Corporation End-To-End Graph Convolution Network
US20210349954A1 (en) * 2020-04-14 2021-11-11 Naver Corporation System and method for performing cross-modal information retrieval using a neural network using learned rank images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717617A (zh) * 2019-09-09 2020-01-21 广东工业大学 一种基于深度图网络自编码器的无监督关系预测方法
CN110751038A (zh) * 2019-09-17 2020-02-04 北京理工大学 一种基于图注意力机制的pdf表格结构识别方法
US20210319314A1 (en) * 2020-04-09 2021-10-14 Naver Corporation End-To-End Graph Convolution Network
US20210349954A1 (en) * 2020-04-14 2021-11-11 Naver Corporation System and method for performing cross-modal information retrieval using a neural network using learned rank images
CN113297975A (zh) * 2021-05-25 2021-08-24 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
CN113221181A (zh) * 2021-06-09 2021-08-06 上海交通大学 具有隐私保护的表格类信息抽取系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李一仁等: "基于图卷积网络的表格结构提取", 《信息系统工程 》, no. 01, 20 January 2021 (2021-01-20), pages 132 - 134 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115639935A (zh) * 2022-12-14 2023-01-24 亿海蓝(北京)数据技术股份公司 表格操作方法、装置和可读存储介质
CN117576699A (zh) * 2023-11-06 2024-02-20 华南理工大学 一种基于深度学习的机车工单信息智能识别方法及系统

Also Published As

Publication number Publication date
CN114387608B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN114387608B (zh) 一种联合卷积与图神经网络的表格结构识别方法
Adhikari et al. Iterative bounding box annotation for object detection
CN112434721A (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
RU2767162C2 (ru) Сверточная нейронная сеть на основе октодерева
CN108334805B (zh) 检测文档阅读顺序的方法和装置
Moitra et al. Cluster-based data reduction for persistent homology
CN113936287A (zh) 基于人工智能的表格检测方法、装置、电子设备及介质
CN111178196B (zh) 一种细胞分类的方法、装置及设备
Jiang et al. Tabcellnet: Deep learning-based tabular cell structure detection
CN115797962A (zh) 基于装配式建筑ai设计的墙柱识别方法及装置
Juyal et al. Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset
Zhang et al. Using BLSTM for interpretation of 2-D languages: case of handwritten mathematical expressions
CN115471833A (zh) 一种动态局部自注意力卷积网络点云分析系统及方法
Leon-Garza et al. An interval type-2 fuzzy-based system to create building information management models from 2D floor plan images
CN114821188A (zh) 图像处理方法、场景图生成模型的训练方法以及电子设备
CN114154572A (zh) 一种基于异构平台的异构数据集中接入分析方法
CN114565752A (zh) 一种基于类不可知前景挖掘的图像弱监督目标检测方法
Aggarwal et al. Object Detection Based Approaches in Image Classification: A Brief Overview
Anggoro et al. Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm
CN117608545B (zh) 一种基于知识图谱的标准作业程序生成方法
Mafipour et al. Heuristic optimization for digital twin modeling of existing bridges from point cloud data by parametric prototype models
Zhou et al. Deep learning and visual perception
Yang et al. A precise and robust clustering approach using homophilic degrees of graph kernel
Moradi et al. Revealing connectivity in residential Architecture: An algorithmic approach to extracting adjacency matrices from floor plans

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant