CN110751038A - 一种基于图注意力机制的pdf表格结构识别方法 - Google Patents
一种基于图注意力机制的pdf表格结构识别方法 Download PDFInfo
- Publication number
- CN110751038A CN110751038A CN201910875019.3A CN201910875019A CN110751038A CN 110751038 A CN110751038 A CN 110751038A CN 201910875019 A CN201910875019 A CN 201910875019A CN 110751038 A CN110751038 A CN 110751038A
- Authority
- CN
- China
- Prior art keywords
- attention
- point
- layer
- edge
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于图注意力机制的PDF表格结构识别方法,属于数据挖掘技术中的文档分析技术领域;包括以下步骤:一、预处理:获取表格中的所有单元格以及它们的位置坐标;二、图构建:对得到的单元格建立无向图;三、关系预测:通过对构建的无向图上的边进行分类,使用神经网络模型预测出单元格之间的邻接关系。对比现有技术,本发明首次提出解决PDF中复杂表格结构的识别方法,在两个表格结构识别数据集上都取得了最好的效果,尤其在复杂表格结构识别上,效果有明显的提高。
Description
技术领域
本发明涉及一种表格结构识别方法,具体涉及基于图注意力机制的PDF表格结构识别技术,属于数据挖掘技术中的文档分析技术领域。
背景技术
表格结构识别,是识别表格的内部结构的任务,它是让机器能够理解表格的一个重要步骤。识别出的机器可理解的表格有非常多的应用,如问答系统、对话系统、表格生成文本。
如今,在诸如文本、HTML和图片等格式上进行表格结构识别都有相关研究。作为一种流行并广泛使用的文件格式,PDF上进行表格结构识别也引起了广泛关注。现有方法可以分为基于规则的方法和数据驱动的方法。基于规则的方法主要通过人工设定一些规则来确定表格结构。例如,通过文本的垂直重合长度,来确定是否在同一列。数据驱动的方法则利用深度学习的技术来处理这一任务。现有的数据驱动方法有两个,一个是利用图像语义分割技术将表格图片分割为若干行和列作为识别出的表格结构。另一个方法是使用图像描述技术,通过训练一个图片到序列的模型,将输入的表格图片编码为中间表示,然后解码为一个标记符号序列,这个标记符号序列就描述了表格的结构。
然而,现有方法都难以准确识别出PDF文件中的复杂表格的结构。复杂表格在这里指至少有一个跨行或跨列单元格的表格。这种跨行、跨列单元格虽然在复杂表格中只占有很小的比例,但是这些单元格更倾向于成为表头,而理解表头对理解整个表格是至关重要的。因此复杂表格的结构识别是一个需要解决的重要问题。
发明内容
本发明的目的是为了解决现有方法难以准确识别出PDF格式的复杂表格的结构问题,为了提高复杂表格上的结构识别的准确率和召回率,提出了一种基于图注意力机制的PDF表格结构识别方法。本方法将PDF格式的表格作为输入,最终识别出表格中单元格之间的邻接关系,作为表格结构识别的结果。
为实现上述目的,本发明所采用的技术方案如下:
一种基于图注意力机制的PDF表格结构关系识别方法,包括以下步骤:
一、预处理:获取表格中的所有单元格以及它们的位置坐标;
二、图构建:对得到的单元格建立无向图;
三、关系预测:通过对构建的无向图上的边进行分类,使用神经网络模型预测出单元格之间的邻接关系。
作为优选,所述获取表格中的所有单元格及其位置坐标为根据PDF的存储格式,抽取出文档中所有的文本字符,并将所有距离小于阈值d的字符组成一个单元格,记录下每个单元格的位置坐标。
作为优选,所述对获取的所述单元格建立无向图为采用K近邻的方法对所述单元格建立无向图。
作为优选,所述分类为垂直相邻、水平相邻、不相邻。
作为优选,所述神经网络模型为基于图注意力机制的边分类模型。
作为优选,所述基于图注意力机制的边分类模型由两个处理点特征和边特征的线性层、2N个图注意力构件、最后的线性层和Softmax层组成,其中,2N个图注意力构件包括N个点到边注意力构件和N个边到点注意力构件,点到边注意力构件负责将点的特征信息融入到边的特征中,边到点注意力构件负责将边的特征信息融入到点的特征中,点到边注意力构件和边到点注意力构件内部结构完全相同;输入的点特征矩阵与边特征矩阵分别输入两个线性层后的输出均与第一层点到边注意力构件和边到点注意力构件相连,每一层点到边注意力构件和边到点注意力构件都与下一层点到边注意力构件和边到点注意力构件相连,最后一层的点到边注意力构件与最后的线性层相连,最后的线性层与Softmax 层相连,输入的点和边的邻接关系矩阵B分别与每一层的点到边注意力构件和边到点注意力构件相连。
作为优选,所述图注意力构件由线性层、图注意力层、Add&Norm层、前馈神经网络层和Add&Norm层依次连接而成,输入的边特征矩阵HE经过线性变换后,得到“查询”特征矩阵Q,点特征矩阵HV分别经过两个线性层后,得到“键”特征矩阵K和“值”特征矩阵V,Q、K、V和输入的点和边的邻接关系矩阵B在图注意力层使用下述公式进行计算得到H′E:
其中,KT表示K矩阵的转置,d表示特征的维度,softmaxB表示以邻接矩阵B为掩码的softmax操作,即只对B矩阵中值为1的位置计算,忽略掉B矩阵中值为0的位置;
HE″=Add&Norm(HE,HE′)=LayerNorm(HE+HE′) H″′E=FFN(H″E)
其中,LayerNorm是层标准化(Layer Normalization)运算;FFN(x)= W2 max(0,W1x+b1)+b2,W1,W2,b1,b2是可学习的参数。
有益效果
本发明方法,对比现有技术,首次提出解决PDF中复杂表格结构的识别方法,在两个表格结构识别数据集上都取得了最好的效果,尤其在复杂表格结构识别上,效果有明显的提高。
附图说明
图1为本发明实施例一种基于图注意力机制的PDF表格结构关系识别方法流程示意图;
图2为本发明的基于图注意力机制的边分类模型结构示意图;
图3为图注意力构件结构示意图。
具体实施方式
下面结合附图和实施例,对本发明方法作进一步详细说明。
实施例1
如图1所示,一种基于图注意力机制的PDF表格结构关系识别方法,包括以下步骤:
步骤一、预处理:获取表格中的所有单元格以及它们的位置坐标。
步骤1:根据PDF的存储格式,抽取出文档中所有的文本字符,所有距离小于阈值d的字符组成一个单元格,记录下每个单元格的位置坐标和大小。设共得到n个单元格,我们将这n个单元格记为w1,w2,…,wn。如图1(步骤一)所示。
步骤二、图构建:对得到的单元格建立无向图。
步骤2:使用K近邻的方法,对得到的单元格建立无向图。如图1(步骤二) 所示。
步骤2.1:将每个单元格作为图中的一个节点,节点在图1的右上图中用圆圈表示。
步骤2.2:对于每个节点,计算它到其它节点之间的欧式距离,找到与它距离最近的K个点,将这个点与这K个点用边连接,记得到的边的总数为m,这样就将整个表格转换为了一个n个点m条边无向图。
步骤三、关系预测:通过对构建的无向图上的边进行分类,使用神经网络模型预测出单元格之间的邻接关系。
步骤3:首先提取出每个单元格(节点)以及每条边的特征信息,然后将这些特征输入我们提出的基于图注意力机制的边分类模型,模型将每个边分类为三种邻接关系中的一种,分别是:垂直相邻、水平相邻、不相邻,这样就得到了单元格之间的邻接关系,也就是识别出了表格的结构信息。如图1(步骤三) 所示,右下图中去掉了被标记为不相邻的边,用不同线型标记了垂直相邻的边和水平相邻的边。
步骤3.1:提取每个单元格和每条边的特征信息。
根据无向图中点的空间位置关系,提取点和边上的特征。记点特征的维度为dv,边特征的维度为de,将每个点的特征向量作为点特征矩阵中的一行,得到点特征矩阵为将每条边的特征向量作为边特征矩阵中一行,得到边特征矩阵用一个B∈{0,1}n×m记录点和边的邻接关系,矩阵中只有0和1两种值,矩阵的每一行表示一个节点,每一列表示一条边,如果节点i与节点j之间有边相连,边的编号为k,那么有Bik=1,Bjk=1。下面具体介绍节点和边的特征。
点特征有三种,分别是单元格的大小,位置,相对于表格大小的相对位置。边特征包括边的长度,水平方向长度和竖直方向长度,每个长度都包括实际的长度和相对于表格大小的相对长度。
例如,假设单元格wi在PDF文档中的坐标为 其中表示单元格左上顶点的坐标,表示文字块右下顶点的坐标。又设单元格wj在PDF文档中的坐标为表格宽度为W=20,高度为H=10,那么单元格wi和连接单元格wi和wj的边的特征如下表所示。
表1单元格特征举例
表2边特征举例
步骤3.2:将上一步得到的点特征矩阵N,边特征矩阵E作为输入,通过基于图注意力机制的边分类模型将所有边进行分类。邻接矩阵B的作用是记录无向图的结构信息,也就是图中节点和边之间的连接关系。在模型内部的计算中使用到矩阵B,其值在整个计算过程中不发生改变。
本发明提出的基于图注意力机制的边分类模型,如图2所示,由两个处理点特征和边特征的线性层、2N个图注意力构件,和最后的线性层和Softmax层组成。2N个图注意力构件包括N个点到边注意力构件和N个边到点注意力构件,点到边注意力构件负责将点的特征信息融入到边的特征中,边到点注意力构件负责将边的特征信息融入到点的特征中。这两种构件的内部结构完全相同,图注意力构件的内部结构在下文中详细介绍。
其中
将上一层的点特征矩阵和边特征矩阵依次通过每一层的点到边注意力构件和边到点注意力构件,得到当前层的特征矩阵和最后,将最后一层的边特征矩阵经过线性层和softmax计算后,得到每条边的类别,也就是将每条边分类为水平邻接边、垂直邻接边和不邻接边三类,完成表格结构识别。
下面具体介绍图注意力构件的内部细节,因为两种构件内部结构完全相同,这里就以点到边的注意力构件为例介绍,如图3所示。
为叙述方便,这里将特征矩阵的上标省略。输入的边特征矩阵HE经过线性层(图中标记L的组件)的变换之后,得到“查询”特征矩阵Q,点特征矩阵HV分别经过两个线性层变换后,得到“键”特征矩阵K和“值”特征矩阵V。
Q=LinearQ(HE)
K=LinearK(HN)
V=Linear(HN)
图注意力构件的核心是其中的图注意力层。点到边图注意力构件中的图注意力层负责将点的特征信息融合到边的特征信息中,执行的计算如下式所示,其中用到了邻接矩阵B。
其中KT表示K矩阵的转置,d表示特征的维度,softmaxB表示以邻接矩阵B 为掩码的softmax操作,即只对B矩阵中值为1的位置计算,忽略掉B矩阵中值为 0的位置。边特征矩阵E经过图注意力操作后的隐表示用H′E来表示。
HE″=Add&Norm(HE,HE′)=LayerNorm(HE+HE′)
H″′E=FFN(H″E)
其中LayerNorm是层标准化(Layer Normalization)运算;FFN(x)= W2 max(0,W1x+b1)+b2,W1,W2,b1,b2是可学习的参数。
实施例2
本实施例阐述了本发明在两个公共表格结构识别数据集上进行表格结构识别,所采用的流程,涉及的参数设计与实验结果。
在本实施例中,涉及三个阶段,首先在公共表格结构识别数据集上对基于图注意力机制的边分类模型进行训练,得到模型的参数;然后,实施本发明的技术方案中的四个步骤对测试集中的表格进行结构识别;最后,将识别出的表格结构与正确结果进行比对,对本发明和现有方法进行比较。
(A)模型训练
步骤A:使用训练集对基于图注意力机制的边分类模型进行训练,得到模型的参数。
步骤A.1:准备数据集。
在本实施例中,使用SciTSR数据集作为训练集和测试集,ICDAR-2013作为测试集。SciTSR总共包含15,000个PDF格式的表格以及它们对应的表格结构标签,其中12,000个表格作为训练集,3,000个作为测试集。SciTSR还提供了一个只包含复杂表格的子测试集SciTSR-COMP,包含716个复杂表格。 ICDAR-2013提供了156个PDF格式的表格作为测试集。
步骤A.2:实现基于图注意力机制的边分类模型,配置模型参数。
在本实施例中使用Python3.6编程语言,基于PyTorch 0.4.1深度学习库进行了基于图注意力机制的边分类模型的实现。基于图注意力机制的边分类模型使用了N=4个注意力构件,并且每个构件中q,k,v维度设置为d=64。模型通过最小化交叉熵损失函数来进行参数优化,参数优化使用Adam优化器,并设置初始学习率为0.0005。大多数边的标签是“不相邻”,因此对交叉熵目标函数在不同标签上进行了缩放,设置“垂直相邻”和“水平相邻”类别权重为1.0,设置“不相邻”类别权重为0.2。为了防止过拟合,训练过程中增加了L2正则化损失和在每个子层使用p=0.4的dropout。
步骤A.3:执行模型训练文件,对模型进行训练。训练时,使用批大小为1 的分批梯度下降,在Intel Xeon处理器上训练15轮,每一轮训练集中全部12,000 个表格,需要约20分钟。
(B)表格结构识别
步骤B:按照技术方案中的四个步骤对测试集中的表格进行结构识别。
步骤B.1:预处理:从测试集的PDF文件中读取每个字符的内容和其对应的四个顶点的坐标,然后合并相邻字符内容和坐标得到单元格内容和对应的边界坐标。
步骤B.2:图构建,以步骤B.1得到的每个单元格作为点,使用K近邻的方法设置K=20连接单元格,得到了以单元格为点的且每个点度不大于20的无向图。
步骤B.3:在构建好的无向图上进行特征提取,然后使用步骤A训练好的基于图注意力机制的边分类模型,对所有边进行分类。
步骤B.4:在完成边分类的图上进行后处理,得到最终的表格结构。
(C)结果比对与比较
步骤C:将识别出的表格结构与数据集中标注的表格结构进行转换,然后计算不同方法在测试数据上的宏/微平均准确率、召回率和F1值。
步骤C.1:分析表格单元格之间的位置关系,得到表格中相邻单元格三元组集合,表示为:<单元格1内容,垂直/水平相邻,单元格2内容>。
步骤C.2:将方法得出的相邻单元格三元组集合与数据集给出的准确相邻单元格三元组集合进行比对,计算出宏/微平均准确率、召回率和F1值。
在ICDAR-2013和SciTSR表格结构识别数据集上,实验结果如表1-6所示,其中Tabby、DeepDeSRT和Adobe为现有方法。
表1:ICDAR-2013数据集上的宏平均准确率/召回率/F1值
准确率 | 召回率 | F1值 | |
Tabby | 0.789 | 0.845 | 0.816 |
DeepDeSRT | 0.573 | 0.564 | 0.568 |
Adobe | - | - | - |
本发明 | 0.819 | 0.855 | 0.837 |
表2:ICDAR-2013数据集上的微平均准确率/召回率/F1值
表3:SciTSR数据集上的宏平均准确率/召回率/F1值
准确率 | 召回率 | F1值 | |
Tabby | 0.914 | 0.910 | 0.912 |
DeepDeSRT | 0.898 | 0.897 | 0.897 |
Adobe | 0.829 | 0.796 | 0.812 |
本发明 | 0.936 | 0.931 | 0.934 |
表4:SciTSR数据集上的微平均准确率/召回率/F1值
准确率 | 召回率 | F1值 | |
Tabby | 0.926 | 0.920 | 0.921 |
DeepDeSRT | 0.906 | 0.887 | 0.890 |
Adobe | 0.930 | 0.784 | 0.851 |
本发明 | 0.959 | 0.948 | 0.953 |
表5:SciTSR-COMP数据集上的宏平均准确率/召回率/F1值
准确率 | 召回率 | F1值 | |
Tabby | 0.869 | 0.841 | 0.855 |
DeepDeSRT | 0.811 | 0.813 | 0.812 |
Adobe | 0.796 | 0.737 | 0.765 |
本发明 | 0.943 | 0.925 | 0.934 |
表6:SciTSR-COMP数据集上的微平均准确率/召回率/F1值
测试结果表明,本发明所采用的方法在两个数据集上一致地超越了现有方法。在复杂表格测试集SciTSR-COMP上,现有方法的效果均出现不同程度的下降,而本发明仍保持很高的准确率/召回率/F1值。此外,由于ICDAR-2013数据集没有提供训练数据,因此在本实施例中使用了SciTSR的训练集作为模型训练数据,但是从结果来看,本发明在ICDAR-2013得到了最好的效果,说明本发明方法更具有泛化性。
Claims (7)
1.一种基于图注意力机制的PDF表格结构关系识别方法,其特征在于:包括以下步骤:
步骤一、预处理:获取表格中的所有单元格及其位置坐标;
步骤二、图构建:对获取的所述单元格建立无向图;
步骤三、关系预测:通过对所述无向图上的边进行分类,使用神经网络模型预测单元格之间的邻接关系。
2.根据权利要求1所述的方法,其特征在于:所述获取表格中的所有单元格及其位置坐标为根据PDF的存储格式,抽取出文档中所有的文本字符,并将所有距离小于阈值d的字符组成一个单元格,记录下每个单元格的位置坐标。
3.根据权利要求1所述的方法,其特征在于:所述对获取的所述单元格建立无向图为采用K近邻的方法对所述单元格建立无向图。
4.根据权利要求1所述的方法,其特征在于:所述分类为垂直相邻、水平相邻、不相邻。
5.根据权利要求4所述的方法,其特征在于:所述神经网络模型为基于图注意力机制的边分类模型。
6.根据权利要求5所述的方法,其特征在于:所述基于图注意力机制的边分类模型由两个处理点特征和边特征的线性层、2N个图注意力构件、最后的线性层和Softmax层组成,其中,2N个图注意力构件包括N个点到边注意力构件和N个边到点注意力构件,点到边注意力构件负责将点的特征信息融入到边的特征中,边到点注意力构件负责将边的特征信息融入到点的特征中,点到边注意力构件和边到点注意力构件内部结构完全相同;输入的点特征矩阵与边特征矩阵分别输入两个线性层后的输出均与第一层点到边注意力构件和边到点注意力构件相连,每一层点到边注意力构件和边到点注意力构件都与下一层点到边注意力构件和边到点注意力构件相连,最后一层的点到边注意力构件与最后的线性层相连,最后的线性层与Softmax层相连,输入的点和边的邻接关系矩阵B分别与每一层的点到边注意力构件和边到点注意力构件相连。
7.根据权利要求6所述的方法,其特征在于:所述图注意力构件由线性层、图注意力层、Add&Norm层、前馈神经网络层和Add&Norm层依次连接而成,输入的边特征矩阵HE经过线性变换后,得到“查询”特征矩阵Q,点特征矩阵HV分别经过两个线性层后,得到“键”特征矩阵K和“值”特征矩阵V,Q、K、V和输入的点和边的邻接关系矩阵B在图注意力层使用下述公式进行计算得到HE′:
其中,KT表示K矩阵的转置,d表示特征的维度,softmaxB表示以邻接矩阵B为掩码的softmax操作,即只对B矩阵中值为1的位置计算,忽略掉B矩阵中值为0的位置;
HE″=Add&Norm(HE,HE′)=LayerNorm(HE+HE′)
HE″′=FFN(HE″)
其中,LayerNorm是层标准化(Layer Normalization)运算;FFN(x)=W2 max(0,W1x+b1)+b2,W1,W2,b1,b2是可学习的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910875019.3A CN110751038A (zh) | 2019-09-17 | 2019-09-17 | 一种基于图注意力机制的pdf表格结构识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910875019.3A CN110751038A (zh) | 2019-09-17 | 2019-09-17 | 一种基于图注意力机制的pdf表格结构识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110751038A true CN110751038A (zh) | 2020-02-04 |
Family
ID=69276505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910875019.3A Pending CN110751038A (zh) | 2019-09-17 | 2019-09-17 | 一种基于图注意力机制的pdf表格结构识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751038A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597943A (zh) * | 2020-05-08 | 2020-08-28 | 杭州火石数智科技有限公司 | 一种基于图神经网络的表格结构识别方法 |
CN111695517A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 图像的表格提取方法、装置、电子设备及存储介质 |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
CN112699234A (zh) * | 2020-12-08 | 2021-04-23 | 上海深杳智能科技有限公司 | 一种通用文档识别方法、系统、终端及存储介质 |
CN113095267A (zh) * | 2021-04-22 | 2021-07-09 | 上海携宁计算机科技股份有限公司 | 统计图的数据提取方法、电子设备和存储介质 |
CN113268982A (zh) * | 2021-06-03 | 2021-08-17 | 湖南四方天箭信息科技有限公司 | 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质 |
CN113312498A (zh) * | 2021-06-09 | 2021-08-27 | 上海交通大学 | 用无向图嵌入知识图谱的文本信息抽取方法 |
CN113378789A (zh) * | 2021-07-08 | 2021-09-10 | 京东数科海益信息科技有限公司 | 单元格位置的检测方法、装置和电子设备 |
CN114387608A (zh) * | 2022-03-24 | 2022-04-22 | 华南理工大学 | 一种联合卷积与图神经网络的表格结构识别方法 |
CN117271959A (zh) * | 2023-11-21 | 2023-12-22 | 中南大学 | 一种pm2.5浓度预测结果的不确定性评估方法及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426856A (zh) * | 2015-11-25 | 2016-03-23 | 成都数联铭品科技有限公司 | 一种图像表格文字识别方法 |
CN106407883A (zh) * | 2016-08-10 | 2017-02-15 | 北京工业大学 | 一种复杂表格及其内部手写数字识别方法 |
-
2019
- 2019-09-17 CN CN201910875019.3A patent/CN110751038A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426856A (zh) * | 2015-11-25 | 2016-03-23 | 成都数联铭品科技有限公司 | 一种图像表格文字识别方法 |
CN106407883A (zh) * | 2016-08-10 | 2017-02-15 | 北京工业大学 | 一种复杂表格及其内部手写数字识别方法 |
Non-Patent Citations (1)
Title |
---|
ZEWEN CHI,ET AL.: "Complicated Table Structure Recognition", 《ARXIV:1908.04729V2》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597943A (zh) * | 2020-05-08 | 2020-08-28 | 杭州火石数智科技有限公司 | 一种基于图神经网络的表格结构识别方法 |
CN111709339B (zh) * | 2020-06-09 | 2023-09-19 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
US11854246B2 (en) | 2020-06-09 | 2023-12-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device and storage medium for recognizing bill image |
CN111695517A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 图像的表格提取方法、装置、电子设备及存储介质 |
CN111695517B (zh) * | 2020-06-12 | 2023-08-18 | 北京百度网讯科技有限公司 | 图像的表格提取方法、装置、电子设备及存储介质 |
CN112699234A (zh) * | 2020-12-08 | 2021-04-23 | 上海深杳智能科技有限公司 | 一种通用文档识别方法、系统、终端及存储介质 |
CN113095267A (zh) * | 2021-04-22 | 2021-07-09 | 上海携宁计算机科技股份有限公司 | 统计图的数据提取方法、电子设备和存储介质 |
CN113268982A (zh) * | 2021-06-03 | 2021-08-17 | 湖南四方天箭信息科技有限公司 | 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质 |
CN113268982B (zh) * | 2021-06-03 | 2024-05-28 | 湖南四方天箭信息科技有限公司 | 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质 |
CN113312498A (zh) * | 2021-06-09 | 2021-08-27 | 上海交通大学 | 用无向图嵌入知识图谱的文本信息抽取方法 |
CN113378789B (zh) * | 2021-07-08 | 2023-09-26 | 京东科技信息技术有限公司 | 单元格位置的检测方法、装置和电子设备 |
WO2023279847A1 (zh) * | 2021-07-08 | 2023-01-12 | 京东科技信息技术有限公司 | 单元格位置的检测方法、装置和电子设备 |
CN113378789A (zh) * | 2021-07-08 | 2021-09-10 | 京东数科海益信息科技有限公司 | 单元格位置的检测方法、装置和电子设备 |
CN114387608A (zh) * | 2022-03-24 | 2022-04-22 | 华南理工大学 | 一种联合卷积与图神经网络的表格结构识别方法 |
CN117271959A (zh) * | 2023-11-21 | 2023-12-22 | 中南大学 | 一种pm2.5浓度预测结果的不确定性评估方法及设备 |
CN117271959B (zh) * | 2023-11-21 | 2024-02-20 | 中南大学 | 一种pm2.5浓度预测结果的不确定性评估方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751038A (zh) | 一种基于图注意力机制的pdf表格结构识别方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN110084216B (zh) | 人脸识别模型训练和人脸识别方法、系统、设备及介质 | |
Le et al. | Training an end-to-end system for handwritten mathematical expression recognition by generated patterns | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN107832458B (zh) | 一种字符级的基于嵌套深度网络的文本分类方法 | |
CN111626063A (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
Zhi et al. | Action unit analysis enhanced facial expression recognition by deep neural network evolution | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN111401156B (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
CN110263174B (zh) | —基于焦点关注的主题类别分析方法 | |
CN112256866A (zh) | 一种基于深度学习的文本细粒度情感分析方法 | |
Elleuch et al. | Towards unsupervised learning for Arabic handwritten recognition using deep architectures | |
CN105868796A (zh) | 基于核空间的线性鉴别稀疏表示分类器的设计方法 | |
Shan et al. | Robust encoder-decoder learning framework towards offline handwritten mathematical expression recognition based on multi-scale deep neural network | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
Khayyat et al. | A deep learning based prediction of arabic manuscripts handwriting style. | |
Cheng et al. | Student action recognition based on deep convolutional generative adversarial network | |
Dan et al. | Pf-vit: Parallel and fast vision transformer for offline handwritten chinese character recognition | |
CN108388918B (zh) | 具有结构保持特性的数据特征选择方法 | |
CN113255543A (zh) | 基于图卷积网络的面部表情识别方法 | |
CN115640401B (zh) | 文本内容提取方法及装置 | |
CN116450823A (zh) | 一种基于对比学习的多标签文本分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200204 |
|
WD01 | Invention patent application deemed withdrawn after publication |