CN113901924A - 一种文档表格的检测方法及装置 - Google Patents

一种文档表格的检测方法及装置 Download PDF

Info

Publication number
CN113901924A
CN113901924A CN202111183198.8A CN202111183198A CN113901924A CN 113901924 A CN113901924 A CN 113901924A CN 202111183198 A CN202111183198 A CN 202111183198A CN 113901924 A CN113901924 A CN 113901924A
Authority
CN
China
Prior art keywords
features
fusion
feature
abstract semantic
anchors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111183198.8A
Other languages
English (en)
Inventor
李艺飞
瞿翊
崔渊
孙科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kingstar Fintech Co Ltd
Original Assignee
Shanghai Kingstar Fintech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kingstar Fintech Co Ltd filed Critical Shanghai Kingstar Fintech Co Ltd
Priority to CN202111183198.8A priority Critical patent/CN113901924A/zh
Publication of CN113901924A publication Critical patent/CN113901924A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种文档表格的检测方法及装置包括:基于Table Residual Block中的长方形卷积核提取待检测表格图像的抽象语义特征,提取的语义特征更充分,基于Bottom‑up Path Augmentation和ASFF对抽象语义特征进行融合,对多尺度特征进行有效融合,得到多尺度融合特征,其中,基于ASFF自适应融合的方式,增加融合的灵活性;对训练集中的表格框的高宽比作K‑means聚类,基于聚类结果确定anchors种类,在Head中将种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框,提高了目标表格框的准确性。

Description

一种文档表格的检测方法及装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种文档表格的检测方法及装置。
背景技术
智能文档分析是当今办公智能化的一个主题,文档的扫描件或拍照照片,通过相关技术,分析出文档中章节分布和文本内容,实现文档图片的电子化。文档中的表格具有较多信息,例如银行和证券公司的公告文章、财务报表以及医院的药物清单等,这些文档中的表格都包含丰富的信息,如果能够实现纸质文档的电子化,对于提高办公效率非常有帮助。
文档表格电子化的第一个步骤是表格检测,传统的表格检测算法一般是基于openCV的方法,首先通过灰度化和二值化等操作做预处理,然后经过边缘检测算子找到其中的行列线段;检测出的线段多数情况下断断续续,因此还需要形态学方法,将符合要求的线段连接在一起,从而检测出表格的初步轮廓,再经过一些过滤优化等方法,使得最终获取的表格更加清晰。检测过程中,边缘的检测非常依赖于人为设计的检测算子,比如RobertsCross算子、Prewitt算子、Sobel算子和Marr-Hildreth算子等。传统方法在处理简单场景下的文档图片,能大致检测出表格的位置;但是对于褶皱,倾斜放置、只有行线段没有列线段、噪声多的文档图片,这些边缘检测算子的效果就会下降许多,继而影响最终表格检测的准确性。
发明内容
有鉴于此,本发明提供了一种文档表格的检测方法及装置,用以解决传统方法在处理简单场景下的文档图片,能大致检测出表格的位置;但是对于褶皱,倾斜放置、只有行线段没有列线段、噪声多的文档图片,这些边缘检测算子的效果就会下降许多,继而影响最终表格检测的准确性的问题。具体方案如下:
一种文档表格的检测方法,其特征在于,包括:
基于Backbone中的Table Residual Block提取待检测表格图像的抽象语义特征,其中,所述Table Residual Block包括:短路连接和长方形卷积核;
将所述抽象语义特征传递给FPN,基于所述FPN中的Bottom-up PathAugmentation和ASFF对所述抽象语义特征进行融合,得到多尺度融合特征;
对训练集中的表格框的高宽比作K-means聚类,基于聚类结果确定anchors种类;
在Head中将所述种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框。
上述的方法,可选的,所述长方形卷积核包括:第一长方形卷积核和第二长方形卷积核,基于Backbone中的Table Residual Block提取待检测表格图像的抽象语义特征,包括:
基于所述第一长方形卷积核提取所述待检测表格图像的行特征矩阵;
基于所述第二长方形卷积核提取所述待检测表格图像的列特征矩阵;
基于所述短路连接提取所述待检测表格图像的图特征矩阵;
基于所述行特征矩阵,所述列特征矩阵和所述图特征矩阵进行累加,得到抽象语义特征。
上述的方法,可选的,还包括:
将所述Backbone中stage3阶段的1×1卷积的操作次数由7次调整至5次。
上述的方法,可选的,基于所述FPN中的Bottom-up Path Augmentation和ASFF对所述抽象语义特征进行融合,得到多尺度融合特征,包括:
基于Bottom-up Path Augmentation将所述抽象语义特征中的浅层特征通过下采样方式转换为浅层特征图;
将所述抽象语义特征中的浅层特征基于上采样的方式转换为第一特征图;
基于所述浅层特征图和所述第一特征图确定各个第二特征图;
基于ASFF对所述各个第二特征图分配自适应权重,基于所述自适应权重和所述各个第二特征图进行多特征融合,得到多尺度融合特征。
上述的方法,可选的,在Head中将所述种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框,包括:
针对每个anchors,遍历所述多尺度融合特征确定满足当前anchors的表格框位置和置信度
将各个置信度与预设的置信度阈值进行比较,筛选出满足预设置信度阈值要求的目标表格框。
一种文档表格的检测装置,包括:
提取模块,用于基于Backbone中的Table Residual Block提取待检测表格图像的抽象语义特征,其中,所述Table Residual Block包括:短路连接和长方形卷积核;
融合模块,用于将所述抽象语义特征传递给FPN,基于所述FPN中的Bottom-upPath Augmentation和ASFF对所述抽象语义特征进行融合,得到多尺度融合特征;
聚类模块,用于对训练集中的表格框的高宽比作K-means聚类,基于聚类结果确定anchors种类;
确定模块,用于在Head中将所述种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框。
上述的装置,可选的,所述长方形卷积核包括:第一长方形卷积核和第二长方形卷积核,所述提取模块包括:
第一提取单元,用于基于所述第一长方形卷积核提取所述待检测表格图像的行特征矩阵;
第二提取单元,用于基于所述第二长方形卷积核提取所述待检测表格图像的列特征矩阵;
第三提取单元,用于基于所述短路连接提取所述待检测表格图像的图特征矩阵;
累加单元,用于基于所述行特征矩阵,所述列特征矩阵和所述图特征矩阵进行累加,得到抽象语义特征。
上述的装置,可选的,还包括:
调整单元,用于将所述Backbone中stage3阶段的1×1卷积的操作次数由7次调整至5次。
上述的装置,可选的,所述融合模块包括:
第一转换单元,用于基于Bottom-up Path Augmentation将所述抽象语义特征中的浅层特征通过下采样方式转换为浅层特征图;
第二转换单元,用于将所述抽象语义特征中的浅层特征基于上采样的方式转换为第一特征图;
第一确定单元,用于基于所述浅层特征图和所述第一特征图确定各个第二特征图;
融合单元,用于基于ASFF对所述各个第二特征图分配自适应权重,基于所述自适应权重和所述各个第二特征图进行多特征融合,得到多尺度融合特征。
上述的装置,可选的,所述确定模块包括:
第二确定单元,用于针对每个anchors,遍历所述多尺度融合特征确定满足当前anchors的表格框位置和置信度
比较和筛选单元,用于将各个置信度与预设的置信度阈值进行比较,筛选出满足预设置信度阈值要求的目标表格框。
与现有技术相比,本发明包括以下优点:
本发明公开了一种文档表格的检测方法及装置,包括:基于Table ResidualBlock提取待检测表格图像的抽象语义特征,Table Residual Block包括:短路连接和长方形卷积核;基于Bottom-up Path Augmentation和ASFF对抽象语义特征进行融合,得到多尺度融合特征;对训练集中的表格框的高宽比作K-means聚类,基于聚类结果确定anchors种类在Head中将种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框。上述过程,基于长方形卷积核提取抽象语义特征,提取的语义特征更充分,基于ASFF自适应融合的方式,对多尺度特征进行有效融合,增加融合的灵活性,基于表格框的高宽比确定anchors,提高了目标表格框的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种文档表格的检测方法流程图;
图2为本申请实施例公开的一种Table Residual Block示意图;
图3为本申请实施例公开的一种Bottom-up Path Augmentation示意图;
图4为本申请实施例公开的一种Bottom-up Path Augmentation处理过程示意图;
图5为本申请实施例公开了的一种ASFF示意图;
图6为本申请实施例公开的一种文档表格检测模型示意图;
图7为本申请实施例公开的一种文档表格的检测装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种文档表格的检测方法及装置,应用于对表格图像中文档表格的检测过程中,本发明实施例中,基于深度学习的目标检测算法利用深度神经网络强大的特征学习能力,通过大量图像数据的训练,使得模型参数能够很好的从中学习,提取出有效的特征,在实际场景中能够应对更多更复杂的文档图片,在目标检测等图像任务中取得不错的效果。现阶段常用的目标检测网络算法一般应用于自然界的通用场景,在文档表格检测任务中效果不是很好,表格检测不够完整,较小的表格会遗漏检测。因此,本发明在常用目标检测算法的基础上,根据文档中表格的特点,对网络模型做出针对性改进,使得通用目标检测算法在具体的场景业务中取得较好的效果,满足实际要求。
现有技术中,表格检测的一般模型处理流程是特征提取、多尺度特征融合和目标表格框检测。现阶段工业界常用的模型,一般基于自然界的通用场景,在特定的任务场景,泛化表现不好,所以需要对各个阶段做出针对性的改进。工业界常用的模型一般用于通用场景,在特征提取阶段,没有充分利用到表格丰富的横竖线段,本发明在特征提取阶段,对卷积核进行改进,使其能够充分提取到表格线特征。特征融合方面,常用模型中一般是固定权重的融合,缺乏灵活性;考虑到不同尺度特征的差异性,本发明使用自适应权重的方式来融合,提高融合后特征的有效性。anchor设计阶段,在通用场景中,一般是根据经验值来设计,没有结合表格较高的高宽比特点,本发明在训练集中,根据所有表格的高宽比,来针对性地设计anchors,提高最终模型预测的效果。
本发明实施例中,基于深度学习的目标检测模型,常用目标检测模型为YOLOv3模型,在文档表格检测任务进行针对性的改进,常用目标检测模型多数采用Backbone+FPN+Head方式组网,backbone用于提取抽象的语义特征,FPN用于实现多尺度特征融合,head对特征后处理,对目标定位和分类。常用检测方法的执行流程如图1所示,包括步骤:
S101、基于Backbone中的Table Residual Block提取待检测表格图像的抽象语义特征,其中,所述Table Residual Block包括:短路连接和长方形卷积核;
本发明实施例中,选用的是shuffleNetv2轻量级网络模型,获取抽象语义特征,shuffleNetV2是一种现有的轻量级网络模型,本发明选用其中的前部分网络,并根据表格特征进行改进,作为该发明网络的backbone,backbone网络的前端加入类似于ResNet的模块,在其中常规的卷积通道旁边增加两条支路,一个使用1×5的卷积核,用来检测行特征,另一条支路使用5×1的卷积核,用来检测列特征;然后将三条支路的特征进行融合,进入backbone的后续阶段。
本发明中使用的backbone是基于shuffleNet v2做出针对性修改的模型,网络结构如表1所示,在第一层的Conv1之后,本发明加入了Table Residual Block模块,具体如图2所示,这里有三条支路,中间一条是短接支路,Conv1的特征图直接传过来,左边一条支路是1×5conv+BN+ReLu+1×5conv+BN,右边一条支路是5×1conv+BN+ReLu+5×1conv+BN,最后将三条支路的结果相加add(即特征矩阵相加),实现三种特征图融合,得到所述抽象语义特征,其中,1×5的卷积核(第一长方形卷积)可以在低级别高分辨的特征图上有效提取表格中的行线段,5×1的卷积核(第二长方形卷积)则可以有效提取表格中的列线段,通过这两条支路来增强特征图中的表格特征,为后续深层次的特征提取提供有效的帮助。可选的,所述第一长方形卷积也可以为1×3的卷积核,所述第二长方形卷积可以为3×1的卷积核。
表1
Figure BDA0003298100870000081
另一方面,为了实现表格检测模型的轻量化,本发明将原始shuffleNet v2中stage3阶段的1×1卷积操作的重复次数减少两次,从7减到5;去除conv5层后的其他操作,最终模型对输入图像实现4次下采样,从输入的224×224到7×7。
S102、将所述抽象语义特征传递给FPN,基于所述FPN中的Bottom-up PathAugmentaion和ASFF对所述抽象语义特征进行融合,得到多尺度融合特征;
本发明实施例中,将所述抽象语义特征传递给FPN,Backbone在提取所述抽象语义特征的过程中,浅层特征中包含大量边缘形状等特征,这对后面Head阶段的目标检测任务相当重要。因此,为了保留更多的浅层特征,本发明在这里引入Bottom-up PathAugmentaion。
如图3所示,在常用的FPN模型中(D2、D3、D4和D5到P3、P4和P5),因为要走自底向上的过程,浅层的特征传递到顶层需要经过几十个网络层,因此经过多网络层的传递后,浅层的特征信息丢失就比较严重。本发明添加的Bottom-up Path Augmentation结构,这个结构本身不到10层,这样浅层特征横向连接到
Figure BDA0003298100870000082
再从
Figure BDA0003298100870000083
沿着Bottom-up Path Augmentation传递到顶层,经过的层数不到10层,能较好的保存浅层特征信息。
Bottom-up Path Augmentation结构如图4所示,特征图Di+1经过一个步长为2大小为3×3的卷积后,特征图尺寸减小为原来的一半,然后和对应尺度的特征图Pi做add相加操作,得到的结果再经过ReLu激化函数,得到特征图Pi+1。因此,
Figure BDA0003298100870000098
Figure BDA0003298100870000099
分别是三种尺度上,经过相加方式初步融合得到的特征图。
本发明实施例中,各个方框图均表示特征图feature map,其中右下角的数字从小到大,表示提取的特征越来越抽象,层次越深。D系列代表Backbone阶段提取的特征,P系列代表从D5上采样后的特征与左边D系列特征融合后的特征,融合方式为矩阵相加。
本发明实施例中,初步的特征融合,只是在单一的尺度上进行,为了将不同尺度的特征进行融合,本发明在初步融合特征图P上,引入自适应空间特征融合(AdaptiveSpatial Feature Fusion,ASFF)。ASFF的思想:原来的FPN add方式现在变成在add基础上多了一个可学习系数,该参数是自动学习的,可以实现自适应融合效果,类似于全连接参数。
ASFF的融合方式如图5所示,其在每个尺度层都进行不同尺度特征融合,得到融合结果分别为ASFF-1、ASFF-2和ASFF-3。为了方便特征融合,每层特征与目的层特征融合前,要通过上采样或下采样的方式改变输出特征的尺寸,以及输出通道的数量,例如level1特征要通过上采样方式扩大特征图分辨率,与level2或level3特征图保持一致;level3通过下采样缩小分辨率,与level1或level2保持一致;level2上采样与level3一致,下采样与level1一致。
Figure BDA0003298100870000091
自适应特征融合方式如公式1所示,
Figure BDA0003298100870000092
代表第l层融合特征输出,例如ASFF-l,
Figure BDA0003298100870000093
Figure BDA0003298100870000094
分别代表level1、level2和level3层在第l层特征融合时的权重系数,其在该层的所有通道上共享权重系数,例如在第l层特征融合,level1在该层有c个通道层,则c个通道层上共享权重系数
Figure BDA0003298100870000095
代表第一级特征图level1经过采样后在第l层的特征,
Figure BDA0003298100870000096
代表第二级特征图level2经过采样后在第2层的特征,
Figure BDA0003298100870000097
代表第三级特征图level3经过采样后在第3层的特征,三个尺度特征的通道数相同,分别在对应的通道上进行加权线性叠加,获取融合后的多尺度融合特征
Figure BDA0003298100870000101
公式中的自适应权重,经模块中另一条支路输出的特征图得到。超参数n表示这条支路上的一个通道数,对每个尺度的特征图
Figure BDA0003298100870000102
使用1×1卷积核将其通道数压缩至n,三个尺度层获取的特征图分别为p1、p2和p3。然后将p1、p2和p3沿通道方向进行拼接,得到一个通道数为3n的特征图q;再经过1×1卷积核将q的通道数降至3,继而三个通道的特征图上分别做全局平均池化,得到三维向量v。为了保证权重α、β和γ之和为1,对三维向量v使用softmax函数做归一化处理,从而得到自适应权重系数α、β和γ。
相比于传统的多尺度特征直接相加,这种自适应特征融合方式,使得网络模型在训练时可以不断地更新对应阶段的模型参数,使得模型参数向着减小损失,提高最终效果的方向更新。
进一步的,融合过程中,将Bottom-up Path Augmentation和ASFF相结合,一方面使得不同尺度特征能够更加有效地融合低层语义信息,另一方面加入了自适应机制,增加模型在多尺度特征融合上的灵活性,使得融合后的特征图更加丰富有效。
S103、对训练集中的表格框的高宽比作K-means聚类,基于聚类结果确定anchors种类;
本发明实施例中,经过前期特征抽取,多尺度特征融合,网络模型Head阶段对其进行目标检测,该阶段在各个尺度融合后的特征图上使用anchors,常规目标检测面向的是通用自然场景,在文档表格检测任务中的表现一般。为了增强表格检测任务的针对性,本发明实施例中,在模型训练之前,将训练集中的表格框全部列出,计算其宽高比R,使用k-means聚类算法对表格框的宽高比R做k聚类,k代表种类,k是一个实验值,设置一个范围值,然后根据实验来确定一个最优值作为k,即anchors的种类。同样的原理,通过聚类来选择anchors的尺寸。将这k类的宽高比应用到各个尺度的特征图上,根据对应特征图的感受野计算对应的anchors,作为该模型设定的anchors。在具体任务中针对性地设计anchors等超参数,能够在任务中有效的提高模型最终的效果。
S104、在Head中将所述种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框。
本发明实施例中,根据之前设定的anchors,对FPN阶段输出的多尺度融合特征进行预测,获取表格框的位置和置信度。其中,位置和类别置信度的确定是目标检测的最后一步,即Head阶段,根据输入多尺度的特征ASFF,获取检测框的类别和位置。简单来说,输入特征ASFF,经过reshape、全连接层和softmax等过程,得到两个矩阵,一个矩阵是类别矩阵,行向量表示检测框的类别置信度,即每个检测框属于各个类别的概率,也叫做置信度。另一个矩阵是位置矩阵,行向量表示各个检测框的四个角的位置。
可选的,预先设定预设置信度阈值,其中,所述预设置信度阈值可以基于经验或者具体情况进行设定,本发明实施例中不进行具体仔细限定,将各个置信度与预设的置信度阈值进行比较,筛选出满足预设置信度阈值要求的目标表格框。
本发明公开了一种文档表格的检测方法,包括:基于Table Residual Block提取待检测表格图像的抽象语义特征,Table Residual Block包括:短路连接和长方形卷积核;基于Bottom-up Path Augmentation和ASFF对抽象语义特征进行融合,得到多尺度融合特征;对训练集中的表格框的高宽比作K-means聚类,基于聚类结果确定anchors种类在Head中将种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框。上述过程,基于长方形卷积核提取抽象语义特征,提取的语义特征更充分,基于ASFF自适应融合的方式,对多尺度特征进行有效融合,增加融合的灵活性,基于表格框的高宽比确定anchors,提高了目标表格框的准确性。
本发明是实施例中,基于上述方法的整体处理流程如图6所示,TableDetNet是一种端到端的检测模型,其中分为Backbone、FPN和Head三个阶段,Backbone从原始图像rawimage中提取抽象语义特征,FPN对backbone阶段获取抽象语义特征,基于D2、D3、D4和D5到P3、P4和P5和P3、P4、P5、α、β、γ、N2、N3、N4和N5进行多尺度特征进行融合Bottom-up pathAugmentation Fusion,得到ASFF-1、ASFF-2和ASFF-3,具体的融合过程如S102所示,在此不再赘述,Head阶段在不同尺寸上,对FPN阶段的多尺度融合特征进行检预测prediction,得到Loss/Results,基于Loss/Results获取表格框、置信度和类别。训练网络时,还会根据真实标注结果,计算损失;预测时,则不用计算损失。
本发明提出的文档表格检测模型是一种端到端的目标检测模型,因此在训练时直接将训练集中的原始文档图片和对应的表格标注文件送入网络中训练。由于模型对backbone进行了更改,不能直接使用各大人工智能公司或研究机构在大型数据集上训练好的模型参数。因此在实际场景中,可以选择文档表格分析相关比赛的大型数据集,对网络模型进行端到端的调优训练,使得模型能够在其测试集上有较好效果,在该阶段结束后,保存网络模型参数,作为预训练模型参数。
在实际工程环境中,要预测的文档图片与比赛文档图像有所区别。为了保证实际文档图片预测效果,需要在上一步预训练模型的基础上进行微调训练;为了防止数据分布差异过大,导致微调训练时模型参数变化剧烈,微调训练时,将两种数据集按照一定的比例组合作为训练集,送入到模型中进行训练,经过一段时间的调优训练,使得模型效果满足实际工程需求。
基于上述的一种文档表格的检测方法,本发明实施例中,还提供了一种文档表格的检测装置,所述检测装置的结构框图如图7所示,包括:
提取模块201、融合模块202、聚类模块203和确定模块204。
其中,
所述提取模块201,用于基于Backbone中的Table Residual Block提取待检测表格图像的抽象语义特征,其中,所述Table Residual Block包括:短路连接和长方形卷积核;
所述融合模块202,用于将所述抽象语义特征传递给FPN,基于所述FPN中的Bottom-up Path Augmentation和ASFF对所述抽象语义特征进行融合,得到多尺度融合特征;
所述聚类模块203,用于对训练集中的表格框的高宽比作K-means聚类,基于聚类结果确定anchors种类;
所述确定模块204,用于在Head中将所述种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框。
本发明公开了一种文档表格的检测装置。包括:基于Table Residual Block提取待检测表格图像的抽象语义特征,Table Residual Block包括:短路连接和长方形卷积核;基于Bottom-up Path Augmentation和ASFF对抽象语义特征进行融合,得到多尺度融合特征;对训练集中的表格框的高宽比作K-means聚类,基于聚类结果确定anchors种类在Head中将种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框。上述过程,基于长方形卷积核提取抽象语义特征,提取的语义特征更充分,基于ASFF自适应融合的方式,对多尺度特征进行有效融合,增加融合的灵活性,基于表格框的高宽比确定anchors,提高了目标表格框的准确性。
本发明实施例中所述长方形卷积核包括:第一长方形卷积核和第二长方形卷积核,所述提取模块201包括:
第一提取单元205、第二提取单元206、第三提取单元207和累加单元208。
其中,
所述第一提取单元205,用于基于所述第一长方形卷积核提取所述待检测表格图像的行特征矩阵;
所述第二提取单元206,用于基于所述第二长方形卷积核提取所述待检测表格图像的列特征矩阵;
所述第三提取单元207,用于基于所述短路连接提取所述待检测表格图像的图特征矩阵;
所述累加单元208,用于基于所述行特征矩阵,所述列特征矩阵和所述图特征矩阵进行累加,得到抽象语义特征。
本发明实施例中,所述提取模块201还包括:调整单元209。
其中,
所述调整单元209,用于将所述Backbone中stage3阶段的1×1卷积的操作次数由7次调整至5次。
本发明实施例中,所述融合模块202包括:
第一转换单元210、第二转换单元211、第一确定单元212和融合单元213。
其中,
所述第一转换单元210,用于基于Bottom-up Path Augmentation将所述抽象语义特征中的浅层特征通过下采样方式转换为浅层特征图;
所述第二转换单元211,用于将所述抽象语义特征中的浅层特征基于上采样的方式转换为第一特征图;
所述第一确定单元212,用于基于所述浅层特征图和所述第一特征图确定各个第二特征图;
所述融合单元213,用于基于ASFF对所述各个第二特征图分配自适应权重,基于所述自适应权重和所述各个第二特征图进行多特征融合,得到多尺度融合特征。
本发明实施例中,所述确定模块204包括:
第二确定单元214和比较和筛选单元215。
其中,
所述第二确定单元214,用于针对每个anchors,遍历所述多尺度融合特征确定满足当前anchors的表格框位置和置信度
所述比较和筛选单元215,用于将各个置信度与预设的置信度阈值进行比较,筛选出满足预设置信度阈值要求的目标表格框。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种文档表格的检测方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文档表格的检测方法,其特征在于,包括:
基于Backbone中的Table Residual Block提取待检测表格图像的抽象语义特征,其中,所述Table Residual Block包括:短路连接和长方形卷积核;
将所述抽象语义特征传递给FPN,基于所述FPN中的Bottom-up Path Augmentation和ASFF对所述抽象语义特征进行融合,得到多尺度融合特征;
对训练集中的表格框的高宽比作K-means聚类,基于聚类结果确定anchors种类;
在Head中将所述种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框。
2.根据权利要求1所述的方法,其特征在于,所述长方形卷积核包括:第一长方形卷积核和第二长方形卷积核,基于Backbone中的Table Residual Block提取待检测表格图像的抽象语义特征,包括:
基于所述第一长方形卷积核提取所述待检测表格图像的行特征矩阵;
基于所述第二长方形卷积核提取所述待检测表格图像的列特征矩阵;
基于所述短路连接提取所述待检测表格图像的图特征矩阵;
基于所述行特征矩阵,所述列特征矩阵和所述图特征矩阵进行累加,得到抽象语义特征。
3.根据权利要求2所述的方法,其特征在于,还包括:
将所述Backbone中stage3阶段的1×1卷积的操作次数由7次调整至5次。
4.根据权利要求1所述的方法,其特征在于,基于所述FPN中的Bottom-up PathAugmentation和ASFF对所述抽象语义特征进行融合,得到多尺度融合特征,包括:
基于Bottom-up Path Augmentation将所述抽象语义特征中的浅层特征通过下采样方式转换为浅层特征图;
将所述抽象语义特征中的浅层特征基于上采样的方式转换为第一特征图;
基于所述浅层特征图和所述第一特征图确定各个第二特征图;
基于ASFF对所述各个第二特征图分配自适应权重,基于所述自适应权重和所述各个第二特征图进行多特征融合,得到多尺度融合特征。
5.根据权利要求1所述的方法,其特征在于,在Head中将所述种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框,包括:
针对每个anchors,遍历所述多尺度融合特征确定满足当前anchors的表格框位置和置信度
将各个置信度与预设的置信度阈值进行比较,筛选出满足预设置信度阈值要求的目标表格框。
6.一种文档表格的检测装置,其特征在于,包括:
提取模块,用于基于Backbone中的Table Residual Block提取待检测表格图像的抽象语义特征,其中,所述Table Residual Block包括:短路连接和长方形卷积核;
融合模块,用于将所述抽象语义特征传递给FPN,基于所述FPN中的Bottom-up PathAugmentation和ASFF对所述抽象语义特征进行融合,得到多尺度融合特征;
聚类模块,用于对训练集中的表格框的高宽比作K-means聚类,基于聚类结果确定anchors种类;
确定模块,用于在Head中将所述种类的anchors应用到所述多尺度融合特征中,得到待抽象表格图像中的各个目标表格框。
7.根据权利要求6所述的装置,其特征在于,所述长方形卷积核包括:第一长方形卷积核和第二长方形卷积核,所述提取模块包括:
第一提取单元,用于基于所述第一长方形卷积核提取所述待检测表格图像的行特征矩阵;
第二提取单元,用于基于所述第二长方形卷积核提取所述待检测表格图像的列特征矩阵;
第三提取单元,用于基于所述短路连接提取所述待检测表格图像的图特征矩阵;
累加单元,用于基于所述行特征矩阵,所述列特征矩阵和所述图特征矩阵进行累加,得到抽象语义特征。
8.根据权利要求7所述的装置,其特征在于,还包括:
调整单元,用于将所述Backbone中stage3阶段的1×1卷积的操作次数由7次调整至5次。
9.根据权利要求6所述的方装置,其特征在于,所述融合模块包括:
第一转换单元,用于基于Bottom-up Path Augmentation将所述抽象语义特征中的浅层特征通过下采样方式转换为浅层特征图;
第二转换单元,用于将所述抽象语义特征中的浅层特征基于上采样的方式转换为第一特征图;
第一确定单元,用于基于所述浅层特征图和所述第一特征图确定各个第二特征图;
融合单元,用于基于ASFF对所述各个第二特征图分配自适应权重,基于所述自适应权重和所述各个第二特征图进行多特征融合,得到多尺度融合特征。
10.根据权利要求6所述的方装置,其特征在于,所述确定模块包括:
第二确定单元,用于针对每个anchors,遍历所述多尺度融合特征确定满足当前anchors的表格框位置和置信度
比较和筛选单元,用于将各个置信度与预设的置信度阈值进行比较,筛选出满足预设置信度阈值要求的目标表格框。
CN202111183198.8A 2021-10-11 2021-10-11 一种文档表格的检测方法及装置 Pending CN113901924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111183198.8A CN113901924A (zh) 2021-10-11 2021-10-11 一种文档表格的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111183198.8A CN113901924A (zh) 2021-10-11 2021-10-11 一种文档表格的检测方法及装置

Publications (1)

Publication Number Publication Date
CN113901924A true CN113901924A (zh) 2022-01-07

Family

ID=79191434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111183198.8A Pending CN113901924A (zh) 2021-10-11 2021-10-11 一种文档表格的检测方法及装置

Country Status (1)

Country Link
CN (1) CN113901924A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067108A (zh) * 2022-01-13 2022-02-18 深圳比特微电子科技有限公司 一种基于神经网络的目标检测方法、装置
CN114782122A (zh) * 2022-03-15 2022-07-22 福建亿力电力科技有限责任公司 一种投标材料中竞标者信息自动化分析方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067108A (zh) * 2022-01-13 2022-02-18 深圳比特微电子科技有限公司 一种基于神经网络的目标检测方法、装置
CN114782122A (zh) * 2022-03-15 2022-07-22 福建亿力电力科技有限责任公司 一种投标材料中竞标者信息自动化分析方法和系统

Similar Documents

Publication Publication Date Title
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111160249A (zh) 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN110135446B (zh) 文本检测方法及计算机存储介质
CN113901924A (zh) 一种文档表格的检测方法及装置
CN112232371B (zh) 一种基于YOLOv3与文本识别的美式车牌识别方法
CN111680705B (zh) 适于目标检测的mb-ssd方法和mb-ssd特征提取网络
CN112381763A (zh) 一种表面缺陷检测方法
CN113361432B (zh) 一种基于深度学习的视频文字端到端检测与识别的方法
CN114187311A (zh) 一种图像语义分割方法、装置、设备及存储介质
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN112883887B (zh) 一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法
CN113052039B (zh) 一种交通路网行人密度检测的方法、系统及服务器
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN113449811A (zh) 一种基于ms-wsda的低照度目标检测方法
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN111553361B (zh) 一种病理切片标签识别方法
CN111339950B (zh) 一种遥感图像目标检测方法
Li A deep learning-based text detection and recognition approach for natural scenes
CN112365451A (zh) 图像质量等级的确定方法、装置、设备及计算机可读介质
Rakowski et al. Hand shape recognition using very deep convolutional neural networks
Zhang et al. An industrial interference-resistant gear defect detection method through improved YOLOv5 network using attention mechanism and feature fusion
CN116092179A (zh) 一种改进的yolox跌倒检测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination