CN111709338A - 一种用于表格检测的方法、装置及检测模型的训练方法 - Google Patents
一种用于表格检测的方法、装置及检测模型的训练方法 Download PDFInfo
- Publication number
- CN111709338A CN111709338A CN202010513142.3A CN202010513142A CN111709338A CN 111709338 A CN111709338 A CN 111709338A CN 202010513142 A CN202010513142 A CN 202010513142A CN 111709338 A CN111709338 A CN 111709338A
- Authority
- CN
- China
- Prior art keywords
- network
- convolution
- feature map
- deconvolution
- combined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 title claims abstract description 42
- 238000010586 diagram Methods 0.000 claims abstract description 82
- 230000004927 fusion Effects 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims description 67
- 238000004590 computer program Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 19
- 230000009467 reduction Effects 0.000 claims description 14
- 230000001902 propagating effect Effects 0.000 claims description 7
- 238000007689 inspection Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 235000002566 Capsicum Nutrition 0.000 claims description 2
- 239000006002 Pepper Substances 0.000 claims description 2
- 235000016761 Piper aduncum Nutrition 0.000 claims description 2
- 235000017804 Piper guineense Nutrition 0.000 claims description 2
- 244000203593 Piper nigrum Species 0.000 claims description 2
- 235000008184 Piper nigrum Nutrition 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 150000003839 salts Chemical class 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 11
- 238000005096 rolling process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种用于表格检测的方法、装置及检测模型的训练方法,将待检测的表格文档图像输入至对称网络,其中,对称网络包括卷积网络和反卷积网络,通过卷积网络中的各层组合卷积块对表格文档图像进行卷积运算,得到对应的表格特征图,并输入至反卷积网络;通过反卷积网络中的组合卷积块对卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合;通过反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。通过将组合卷积块应用于对称网络中,不仅提高了模型的特征性能,而且实现了表格线条的高精度检测。
Description
技术领域
本申请涉及图像分割技术领域,特别是涉及一种用于表格检测的方法、装置及检测模型的训练方法。
背景技术
随着深度学习更加广泛的应用于各个领域,以检测及识别文本图像信息为目的的光学字符识别(Optical Character Recognition)技术得到的了快速发展。文本检测的过程中常伴有表格文档的检测,为保障表格内容的逻辑化输出,需要检测并识别表格文档图像中的表格框线信息。
传统技术中,通常采用图像特征提取表格框线,比如文本块特征、表格区域逻辑关系特征、线交点特征等。利用该方法对清晰图像进行检测,表格线的检测效果较好。但是对于模糊或者表格线信息缺失的图像,表格线的检测效果并不理想,存在表格框线误检的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现表格结构信息精确检测的表格检测方法、装置、计算机设备、存储介质及表格检测模型的训练方法。
一种表格检测方法,所述方法包括:
将待检测的表格文档图像输入至对称网络,其中,所述对称网络包括卷积网络和反卷积网络,且所述卷积网络与所述反卷积网络连接成对称结构,所述卷积网络与所述反卷积网络分别包括若干层组合卷积块;通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络;通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。
一种表格检测模型的训练方法,所述方法包括:
构建训练样本集,其中,所述训练样本集包括若干表格文档图像,所述表格文档图像具有对应的表格结构坐标文件;将所述表格文档图像以及对应的表格结构坐标文件输入至搭建的对称网络,其中,所述对称网络包括卷积网络和反卷积网络,且所述卷积网络与所述反卷积网络连接成对称结构,所述卷积网络与所述反卷积网络分别包括若干层组合卷积块;通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络;通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。根据所述表格结构特征图以及所述表格结构坐标文件计算模型损失值,并反向传播优化所述表格检测模型的参数。
一种表格检测装置,所述装置包括:
输入模块,用于将待检测的表格文档图像输入至对称网络,其中,所述对称网络包括卷积网络和反卷积网络,且所述卷积网络与所述反卷积网络连接成对称结构,所述卷积网络与所述反卷积网络分别包括若干层组合卷积块;
第一运算模块,用于通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络;
第二运算模块,用于通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;
第三运算模块,用于通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例中的方法步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中的方法步骤。
上述表格检测方法、装置、计算机设备、存储介质及表格检测模型的训练方法,将待检测的表格文档图像输入至对称网络,其中,所述对称网络包括卷积网络和反卷积网络,且所述卷积网络与所述反卷积网络连接成对称结构,所述卷积网络与所述反卷积网络分别包括若干层组合卷积块;通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络;通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。通过将组合卷积块应用于对称网络中,不仅提高了模型的特征性能,而且实现了表格线条的高精度检测。
附图说明
图1a为一个实施例中表格检测方法的应用环境图;
图1b为一个实施例中表格检测方法的流程示意图;
图2a为一个实施例中表格检测方法的流程示意图;
图2b为一个实施例中U型网络模型的框架示意图;
图2c为一个实施例中组合卷积块的框架示意图;
图3a至3d为一个实施例中表格文档图像的示意图;
图4为另一个实施例中表格检测方法的流程示意图;
图5a为一个实施例中表格检测模型的训练方法的流程示意图;
图5b为一个实施例中表格检测模型的训练方法的流程示意图;
图6为一个实施例中表格检测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着深度学习更加广泛的应用于各个领域,以检测及识别文本图像信息为目的的光学字符识别(Optical Character Recognition)技术得到的了快速发展。在文本检测中,常伴有表格文档,为保障表格内容的逻辑化输出,需要检测及识别表格文档中的表格信息。传统特征检测在检测线条时,对图像质量要求较高,将其应用于表格文档的检测时,泛化性较弱。传统的表格线特征提取方法多是应用图像特征提取线条,并进一步地判断优化。其对于清晰的文本图像中的表格线检测效果较好,但是对于模糊且表格线信息缺失的文本图像中的表格线检测效果不理想。
在传统技术中,一方面,通过霍夫变换实现直线检测,其基本原理是利用点与线的对偶性,在直线检测任务中,图像空间中的直线与参数空间中的点是一一对应的,把在图像空间中的直线检测问题转换到参数空间中对点的检测问题,通过在参数空间里寻找峰值来完成直线检测任务。将霍夫变换应用在表格检测中,不仅对表格的背景要求高,还将输出表格线外的其他非必要线条。另一方面,采用语义分割U-net(Convolutional Networks forBiomedical Image Segmentation)算法进行图像特征的提取,U-net算法主要用于图像的像素级分类,将图像区域的进行精细分割,分割线框为图像中各分割物体的边界线,实现图像信息的精确理解。U-net作为经典的图像分割算法的最大特点是U型结构和跳跃连接(Skip Connection),其中的编码器(Encoder)和解码器(Decoder)实现了特征的提取及恢复,跳跃连接通过综合不同层的特征信息实现信息的融合学习。但是U-net在特征提取过程中的卷积方式及下采样操作会导致图像中关键细节丢失,导致图像分割的精度不太理想。
基于此,本申请提供一种表格检测方法,可以应用于如图1a所示的应用环境中。该应用环境可以包括:第一计算机设备110、第二计算机设备120和图像采集设备130。其中,第一计算机设备110和第二计算机设备120是指具有较强的数据存储和计算能力的电子设备,例如第一计算机设备110、第二计算机设备120可以是PC(Personal Computer,个人计算机)或服务器。通过图像采集设备130进行表格文档图像的采集,即可得到多张原始表格文档图像。并通过网络连接将多张原始表格文档图像发送至第一计算机设备110。在进行表格检测之前,需要技术人员在第二计算机设备120上构建对称网络,并通过第二计算机设备120对构建的对称网络进行训练。完成训练的对称网络可以从第二计算机设备120发布至第一计算机设备110中,第一计算机设备110可以获取原始表格文档图像,并调整原始表格文档图像至预设尺寸;将尺寸调整后的原始表格文档图像转化为灰度图,得到待检测的表格文档图像;将待检测的表格文档图像输入至对称网络,其中,对称网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接构成对称结构,卷积网络与反卷积网络分别包括若干层组合卷积块;通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络;通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。可以理解的是,第一计算机设备110也可以采用终端的形式,终端可以是诸如手机、平板电脑、电子书阅读器、多媒体播放设备、可穿戴设备、PC等电子设备。终端通过域判定模型、域转换模型完成图像合成的工作。
在一个实施例中,如图1b所示,提供了一种表格检测方法,以该方法应用于图1中的第一计算机设备110为例进行说明,包括以下步骤:
S110、将待检测的表格文档图像输入至对称网络。
其中,对称网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接成对称结构。卷积网络的输出端连接至反卷积网络的输入端,示例性地,卷积网络与反卷积网络可以连接成U型或者V型等对称的结构。卷积网络与反卷积网络分别包括若干层组合卷积块。组合卷积块主要用于对输入的图像(待检测的表格文档图像或者上一层输出的表格特征图)进行特征提取。组合卷积块包括若干个不同大小的卷积核。具体地,将预设尺寸(比如512*512*1)的表格文档图像输入至U型网络。
S120、通过卷积网络中的各层组合卷积块对表格文档图像进行卷积运算,得到对应的表格特征图,并输入至反卷积网络。
其中,表格特征图可以用于表征表格图像中横向线条和纵向线条的位置。具体地,卷积网络包括若干层组合卷积块,各层对应不同尺寸的图像大小。将待检测的表格文档图像输入至对称网络的卷积网络中,则通过卷积网络中的各层组合卷积块对该表格文档图像进行卷积运算以提取图像特征,输出与该层对应尺寸的表格图像特征。由于卷积网络与反卷积网络连接,将卷积网络输出的表格特征图输入至反卷积网络。
S130、通过反卷积网络中的组合卷积块对卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合。
具体地,反卷积网络包括若干层组合卷积块,各层对应不同尺寸的图像大小。将卷积网络输出的表格特征图输入至对称网络的反卷积网络中,则通过反卷积网络中的各层组合卷积块对该表格特征图进行特征提取,输出与该层对应尺寸的表格图像特征。进一步地,将反卷积网络中本层输出的表格特征图与卷积网络中输出的相同尺寸的表格特征图进行融合。
S140、通过反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。
具体地,在反卷积网络中每个尺寸所对应的层上,利用该层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,并将该层输出的表格特征图与卷积网络中对应的相同尺寸的表格特征图融合后输入至下一组合卷积块,则下一组合卷积块再次进行反卷积运算,重复以上步骤直至反卷积网络的最后一层。最后一层上的组合卷积块对上一层融合后输出的表格特征图进行反卷积运算后,还可以经过卷积运算实现通道的变换,输出表格结构特征图。
本实施例中,将待检测的表格文档图像输入至对称网络,其中,所述对称网络包括卷积网络和反卷积网络,且所述卷积网络与所述反卷积网络连接成对称结构,所述卷积网络与所述反卷积网络分别包括若干层组合卷积块;通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络;通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。通过利用组合卷积块搭建包括卷积网络与反卷积网络的对称网络,将组合卷积块与对称网络进行结合,提升在特征提取过程中对于表格线条的检测性能,解决传统技术中表格检测时出现的表格线框漏检、误检的技术问题。
在一个实施例中,提供了一种表格检测方法,以该方法应用于图1中的第一计算机设备110为例进行说明,且对称网络采用U型网络的结构,如图2a所示,包括以下步骤:
S210、将待检测的表格文档图像输入至U型网络。
其中,U型网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接构成U型结构,卷积网络与反卷积网络分别包括若干层组合卷积块。组合卷积块主要用于对输入的图像(待检测的表格文档图像或者上一层输出的表格特征图)进行特征提取。组合卷积块包括若干个不同大小的卷积核。示例性地,如图2b所示,U型网络包括卷积网络210与反卷积网络220,卷积网络210与反卷积网络220分别包括若干层组合卷积块230。在U型网络中对输入的图像进行18次组合卷积的操作。卷积网络210采用四次降采样对待检测的表格文档图像进行特征信息的提取,反卷积网络220采用四次上采样对卷积网络210输出的表格特征图进行特征信息的恢复,并通过一次卷积240实现通道变换。具体地,将预设尺寸(比如512*512*1)的表格文档图像输入至U型网络。
S220、通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,输出对应的表格特征图。
其中,表格特征图可以用于表征表格图像中横向线条和纵向线条的位置。具体地,卷积网络包括若干层组合卷积块,各层对应不同尺寸的图像大小。将待检测的表格文档图像输入至U型网络的卷积网络中,则通过卷积网络中的第一层上的组合卷积块对该表格文档图像进行特征提取,输出与该层对应尺寸的表格图像特征。示例性地,如图2b所示,卷积网络中各层组合卷积块分别对应512*512、256*256、128*128、64*64。其中,第一层组合卷积块对应的尺寸为512*512,且在第一层上对待检测的表格文档图像进行了2次组合卷积的操作。
S230、依次通过卷积网络中的其他各层组合卷积块对上一层输出的表格特征图进行卷积运算,将卷积网络中最后一层输出的表格特征图输入至反卷积网络。
具体地,在卷积网络中每个尺寸所对应的层上,利用该层组合卷积块对上一层输出的表格特征图进行卷积运算,并将该层输出的表格特征图输入至下一层组合卷积块,则下一层组合卷积块再次进行卷积运算,重复以上步骤直至卷积网络的最后一层。由于卷积网络与反卷积网络连接,将卷积网络中最后一层输出的表格特征图输入至反卷积网络。
S240、通过反卷积网络中的第一层组合卷积块对卷积网络中最后一层输出的表格特征图进行特征提取,输出对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合。
具体地,反卷积网络包括若干层组合卷积块,各层对应不同尺寸的图像大小。将卷积网络中最后一层输出的表格特征图输入至U型网络的反卷积网络中,则通过反卷积网络中的第一层上的组合卷积块对该表格特征图进行特征提取,输出与该层对应尺寸的表格图像特征。进一步地,将反卷积网络中本层输出的表格特征图与卷积网络中输出的相同尺寸的表格特征图进行融合。具体地,应用跳跃连接(Kip Contatenate)将底层的下采样阶段和高层的上采样阶段的特征进行融合学习,底层信息有助于提取组成图像的基本单元信息,如点、线、边缘轮廓等,且高层信息有助于提取复杂特征。
示例性地,如图2b所示,反卷积网络中各层组合卷积块分别对应512*512、256*256、128*128、64*64。其中,将卷积网络中的尺寸64*64对应的表格图像特征与反卷积网络中的尺寸64*64对应的表格图像特征进行融合,且对融合后输出的表格特征图进行了2次组合卷积的操作。
S250、依次通过反卷积网络中的各层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,得到表格结构特征图。
具体地,在反卷积网络中每个尺寸所对应的层上,利用该层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,并将该层输出的表格特征图与卷积网络中对应的相同尺寸的表格特征图融合后输入至下一层组合卷积块,则下一层组合卷积块再次进行反卷积运算,重复以上步骤直至反卷积网络的最后一层。最后一层上的组合卷积块对上一层融合后输出的表格特征图进行反卷积运算后,可以经过卷积运算实现通道的变换,输出表格结构特征图。
本实施例中,通过将待检测的表格文档图像输入至U型网络,且U型网络包括连接构成U型结构的卷积网络和反卷积网络,且卷积网络与反卷积网络分别包括若干层组合卷积块;则通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,输出对应的表格特征图;依次通过卷积网络中的其他各层组合卷积块对上一层输出的表格特征图进行卷积运算,将卷积网络中最后一层输出的表格特征图输入至反卷积网络;通过反卷积网络中的第一层组合卷积块对卷积网络中最后一层输出的表格特征图进行特征提取,输出对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合;依次通过反卷积网络中的各层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,得到表格结构特征图。一方面,由于表格线条为细长型结构,则在横竖方向需要更大的感受野以提高模型的特征性能和实现表格线条的高精度检测,因此选用组合卷积块进行特征提取以提升模型检测表格线条的检测性能。另一方面,由于Unet语义分割算法应用于表格检测具有更强的泛化性,因此,本实施例中通过组合卷积块搭建U型网络,将组合卷积块与Unet语义分割算法进行结合,提升在特征提取过程中对于表格线条的检测性能,解决传统技术中表格检测时出现的表格线框漏检、误检的技术问题。
在一个实施例中,通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,输出对应的表格特征图,包括:通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,得到表格全局特征、横向线条特征以及纵向线条特征,将表格全局特征、横向线条特征以及纵向线条特征进行融合,并通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
其中,组合卷积块包括对称卷积核、第一非对称卷积核和第二非对称卷积核。具体地,通过对称卷积核对表格文档图像进行特征提取,得到表格全局特征;通过第一非对称卷积核对表格文档图像进行特征提取,得到横向线条特征;通过第二非对称卷积核对表格文档图像进行特征提取,得到纵向线条特征。接着,采用串联操作的方式对表格全局特征、横向线条特征以及纵向线条特征在深度上进行拼接。最后,通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
在一个实施例中,对称卷积核的大小为N*N;第一非对称卷积核的大小为N*1;第二非对称卷积核的大小为1*N。
其中,N为正整数,示例性地,N可以取3,可以取4,也可以取6或者7。优选地,结合表格线条的的细长型结构设计表格特征图上的一个点对应输入U型模型的表格文档图像上的区域大小,N等于5。如图2c所示,本实施例中应用了5*5+5*1+1*5三种组合卷积核构建组合卷积块。卷积核5*5用于全局特征提取,卷积核5*1用于提取横向线条特征,卷积核1*5用于提取纵向线条特征,设置卷积操作的padding为SAME,以达到输入特征尺寸和输出特征尺寸的一致。将三种卷积核的输出特征进行融合,提高表格线条的检出率。然后,应用卷积实现降采样,如图2c所示,通过1*1卷积层对融合得到的结果进行降维处理,相对于应用池化层降采样增加了可学习性,可特征信息实现有选择地保留。
在一个实施例中,在将待检测的表格文档图像输入至U型网络之前,该方法还包括:获取原始表格文档图像,并调整原始表格文档图像至预设尺寸;将尺寸调整后的原始表格文档图像转化为灰度图,得到待检测的表格文档图像。
具体地,如图3a至3d所示的原始表格文档图像,结合U型网络的尺寸,调整需要进行检测的原始表格文档图像至预设尺寸,比如,预设尺寸可以是512x512,得到预设尺寸的表格文档图像,并对其进行灰度处理,得到原始表格文档图像的灰度图,即待检测的表格文档图像。需要说明的是,图3a至3b所示的原始表格文档图像中表格是不完整的,图3c至3d所示的原始表格文档图像具有较为复杂的图像背景。利用上述实施例中的U型网络对其中的表格进行检测,可以实现表格结构信息的精确检测,解决了传统技术中出现的表格线的漏检、错检问题。
在一个实施例中,本申请提供一种表格检测方法,如图4所示,该方法包括以下步骤:
S410、获取原始表格文档图像,并调整原始表格文档图像至预设尺寸。
S420、将尺寸调整后的原始表格文档图像转化为灰度图,得到待检测的表格文档图像。
S430、将待检测的表格文档图像输入至U型网络。
其中,U型网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接构成U型结构,卷积网络与反卷积网络分别包括若干层组合卷积块;
S440、通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,输出对应的表格特征图。
具体的,通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,得到表格全局特征、横向线条特征以及纵向线条特征,将表格全局特征、横向线条特征以及纵向线条特征进行融合,并通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
进一步地,组合卷积块包括对称卷积核、第一非对称卷积核和第二非对称卷积核。对称卷积核的大小为N*N;第一非对称卷积核的大小为N*1;第二非对称卷积核的大小为1*N。通过对称卷积核对表格文档图像进行特征提取,得到表格全局特征;通过第一非对称卷积核对表格文档图像进行特征提取,得到横向线条特征;通过第二非对称卷积核对表格文档图像进行特征提取,得到纵向线条特征。
S450、依次通过卷积网络中的其他各层组合卷积块对上一层输出的表格特征图进行卷积运算,将卷积网络中最后一层输出的表格特征图输入至反卷积网络。
S460、通过反卷积网络中的第一层组合卷积块对卷积网络中最后一层输出的表格特征图进行特征提取,输出对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合。
S470、依次通过反卷积网络中的各层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,得到表格结构特征图。
在一个实施例中,本申请提供一种表格检测模型的训练方法,以该方法应用于图1中的第一计算机设备120为例进行说明,如图5a所示,该方法包括以下步骤:
S502、构建训练样本集。
其中,训练样本是含有表格的表格文本图像,训练样本集包括若干表格文档图像,表格文档图像具有对应的表格结构坐标文件(lable文件),lable文件包括图像中表格结构对应的位置坐标。进一步地,构建训练样本集包括:获取多张原始表格文档图像。从多张原始表格文档图像中,选取部分的原始表格文档图像进行以下任一种方式的预处理:对原始表格文档图像进行方框滤波或均值滤波,改变原始表格文档图像的模糊程度;或对原始表格文档图像添加高斯噪声或椒盐噪声。利用预处理得到的表格文档图像和未预处理的原始表格文档图像构建训练样本集。
S504、将表格文档图像以及对应的表格结构坐标文件输入至搭建的对称网络。
其中,对称网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接成对称结构,卷积网络与反卷积网络分别包括若干层组合卷积块。具体地,将训练样本集中的表格文档图像以及对应的label文件输入至对称网络。
S506、通过卷积网络中的各层组合卷积块对表格文档图像进行卷积运算,得到对应的表格特征图,并输入至反卷积网络。
具体地,卷积网络包括若干层组合卷积块,各层对应不同尺寸的图像大小。将表格文档图像输入至对称网络的卷积网络中,则通过卷积网络中的各层组合卷积块对该表格文档图像进行卷积运算以提取图像特征,输出与该层对应尺寸的表格图像特征。由于卷积网络与反卷积网络连接,将卷积网络输出的表格特征图输入至反卷积网络。
S508、通过反卷积网络中的组合卷积块对卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合。
具体地,反卷积网络包括若干层组合卷积块,各层对应不同尺寸的图像大小。将卷积网络输出的表格特征图输入至对称网络的反卷积网络中,则通过反卷积网络中的各层组合卷积块对该表格特征图进行特征提取,输出与该层对应尺寸的表格图像特征。进一步地,将反卷积网络中本层输出的表格特征图与卷积网络中输出的相同尺寸的表格特征图进行融合。
S510、通过反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。
具体地,在反卷积网络中每个尺寸所对应的层上,利用该层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,并将该层输出的表格特征图与卷积网络中对应的相同尺寸的表格特征图融合后输入至下一组合卷积块,则下一组合卷积块再次进行反卷积运算,重复以上步骤直至反卷积网络的最后一层。最后一层上的组合卷积块对上一层融合后输出的表格特征图进行反卷积运算后,还可以经过卷积运算实现通道的变换,输出表格结构特征图。
S512、根据表格结构特征图以及表格结构坐标文件计算模型损失值,并反向传播优化表格检测模型的参数。
具体地,将对称网络预测的表格结构特征图与真实标签数据(即表格结构坐标文件)进行对比,计算损失函数的值即模型损失值,结合模型损失值调整对称网络的参数,当损失函数趋于收敛或者稳定时,停止对称网络模型的训练。训练完成后,将训练过程中的网络结构及网络参数进行保存,并生成模型文件。其中,模型文件中的网络参数信息包括各层结构的参数数量及参数值。
本实施例中,通过搭建对称网络,对称网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络分别包括若干层组合卷积块,构建训练样本集对对称网络进行训练,得到可以用于检测表格文档图像的对称网络。本实施例中通过组合卷积块搭建对称网络,将组合卷积块与对称网络进行结合,提升在特征提取过程中对于表格线条的检测性能,解决传统技术中表格检测时出现的表格线框漏检、误检的技术问题。
在一个实施例中,本申请提供一种表格检测模型的训练方法,以该方法应用于图1中的第一计算机设备120为例进行说明,且对称网络采用U型网络的结构,如图5b所示,该方法包括以下步骤:
S510、构建训练样本集。
其中,训练样本是含有表格的表格文本图像,训练样本集包括若干表格文档图像,表格文档图像具有对应的表格结构坐标文件(lable文件),lable文件包括图像中表格结构对应的位置坐标。
S520、将表格文档图像以及对应的表格结构坐标文件输入至搭建的U型网络。
其中,U型网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接构成U型结构,卷积网络与反卷积网络分别包括若干层组合卷积块。具体地,将训练样本集中的表格文档图像以及对应的label文件输入至U型网络。
S530、通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,输出对应的表格特征图。
具体地,卷积网络包括若干层组合卷积块,各层对应不同尺寸的图像大小。将待检测的表格文档图像输入至U型网络的卷积网络中,则通过卷积网络中的第一层上的组合卷积块对该表格文档图像进行特征提取,输出与该层对应尺寸的表格图像特征。
S540、依次通过卷积网络中的其他各层组合卷积块对上一层输出的表格特征图进行卷积运算,将卷积网络中最后一层输出的表格特征图输入至反卷积网络。
具体地,在卷积网络中每个尺寸所对应的层上,利用该层组合卷积块对上一层输出的表格特征图进行卷积运算,并将该层输出的表格特征图输入至下一层组合卷积块,则下一层组合卷积块再次进行卷积运算,重复以上步骤直至卷积网络的最后一层。由于卷积网络与反卷积网络连接,将卷积网络中最后一层输出的表格特征图输入至反卷积网络。
S550、通过反卷积网络中的第一层组合卷积块对卷积网络中最后一层输出的表格特征图进行特征提取,输出对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合。
具体地,反卷积网络包括若干层组合卷积块,各层对应不同尺寸的图像大小。将卷积网络中最后一层输出的表格特征图输入至U型网络的反卷积网络中,则通过反卷积网络中的第一层上的组合卷积块对该表格特征图进行特征提取,输出与该层对应尺寸的表格图像特征。进一步地,将反卷积网络中本层输出的表格特征图与卷积网络中输出的相同尺寸的表格特征图进行融合。具体地,应用跳跃连接(Kip Contatenate)将底层的下采样阶段和高层的上采样阶段的特征进行融合学习,底层信息有助于提取组成图像的基本单元信息,如点、线、边缘轮廓等,且高层信息有助于提取复杂特征。
S560、依次通过反卷积网络中的各层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,得到表格结构特征图。
具体地,在反卷积网络中每个尺寸所对应的层上,利用该层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,并将该层输出的表格特征图与卷积网络中对应的相同尺寸的表格特征图融合后输入至下一层组合卷积块,则下一层组合卷积块再次进行反卷积运算,重复以上步骤直至反卷积网络的最后一层。最后一层上的组合卷积块对上一层融合后输出的表格特征图进行反卷积运算后,可以经过卷积运算实现通道的变换,输出表格结构特征图。
S570、根据表格结构特征图以及表格结构坐标文件计算模型损失值,并反向传播优化表格检测模型的参数。
具体地,将U型网络预测的表格结构特征图与真实标签数据(即表格结构坐标文件)进行对比,计算损失函数的值即模型损失值,结合模型损失值调整U型网络的参数,当损失函数趋于收敛或者稳定时,停止U型网络模型的训练。训练完成后,将训练过程中的网络结构及网络参数进行保存,并生成模型文件。其中,模型文件中的网络参数信息包括各层结构的参数数量及参数值。
本实施例中,通过搭建U型网络,U型网络包括连接构成U型结构的卷积网络和反卷积网络,且卷积网络与反卷积网络分别包括若干层组合卷积块,构建训练样本集对U型网络进行训练,得到可以用于检测表格文档图像的U型网络。一方面,由于表格线条为细长型结构,则在横竖方向需要更大的感受野以提高模型的特征性能和实现表格线条的高精度检测,因此选用组合卷积块进行特征提取以提升模型检测表格线条的检测性能。另一方面,由于Unet语义分割算法应用于表格检测具有更强的泛化性,因此,本实施例中通过组合卷积块搭建U型网络,将组合卷积块与Unet语义分割算法进行结合,提升在特征提取过程中对于表格线条的检测性能,解决传统技术中表格检测时出现的表格线框漏检、误检的技术问题。
在一个实施例中,通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,输出对应的表格特征图,包括:
通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,得到表格全局特征、横向线条特征以及纵向线条特征,将表格全局特征、横向线条特征以及纵向线条特征进行融合,并通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
其中,组合卷积块包括对称卷积核、第一非对称卷积核和第二非对称卷积核。具体地,通过对称卷积核对表格文档图像进行特征提取,得到表格全局特征;通过第一非对称卷积核对表格文档图像进行特征提取,得到横向线条特征;通过第二非对称卷积核对表格文档图像进行特征提取,得到纵向线条特征。接着,采用串联操作的方式对表格全局特征、横向线条特征以及纵向线条特征在深度上进行拼接。最后,通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
在一个实施例中,对称卷积核的大小为N*N;第一非对称卷积核的大小为N*1;第二非对称卷积核的大小为1*N。其中,N为正整数,示例性地,N可以取3,可以取4,也可以取6或者7。优选地,结合表格线条的的细长型结构设计表格特征图上的一个点对应输入U型模型的表格文档图像上的区域大小,N等于5。本实施例中应用了5*5+5*1+1*5三种组合卷积核构建组合卷积块。卷积核5*5用于全局特征提取,卷积核5*1用于提取横向线条特征,卷积核1*5用于提取纵向线条特征,设置卷积操作的padding为SAME,以达到输入特征尺寸和输出特征尺寸的一致。将三种卷积核的输出特征进行融合,提高表格线条的检出率。然后,应用卷积实现降采样,通过卷积层对融合得到的结果进行降维处理,相对于应用池化层降采样增加了可学习性,可特征信息实现有选择地保留。
应该理解的是,虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种表格检测装置600,包括:输入模块610、第一运算模块620、第二运算模块630和第三运算模块640,其中:
输入模块610,用于将待检测的表格文档图像输入至对称网络,其中,所述对称网络包括卷积网络和反卷积网络,且所述卷积网络与所述反卷积网络连接成对称结构,所述卷积网络与所述反卷积网络分别包括若干层组合卷积块;
第一运算模块620,用于通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络;
第二运算模块630,用于通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;
第三运算模块640,用于通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。
在一个实施例中,第一运算模块620,还用于通过所述卷积网络中的第一层组合卷积块对所述表格文档图像进行特征提取,输出对应的表格特征图;依次通过所述卷积网络中的其他各层组合卷积块对上一层输出的表格特征图进行卷积运算,将所述卷积网络中最后一层输出的表格特征图输入至所述反卷积网络;
第二运算模块630,还用于通过所述反卷积网络中的第一层组合卷积块对所述卷积网络中最后一层输出的表格特征图进行特征提取,输出对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;
第三运算模块640,还用于依次通过所述反卷积网络中的各层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,得到表格结构特征图。
在一个实施例中,第一运算模块620,还用于通过所述卷积网络中的第一层组合卷积块对所述表格文档图像进行特征提取,得到表格全局特征、横向线条特征以及纵向线条特征,将所述表格全局特征、所述横向线条特征以及所述纵向线条特征进行融合,并通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
在一个实施例中,所述组合卷积块包括对称卷积核、第一非对称卷积核和第二非对称卷积核;第一运算模块620,还用于通过所述对称卷积核对表格文档图像进行特征提取,得到所述表格全局特征;通过所述第一非对称卷积核对表格文档图像进行特征提取,得到所述横向线条特征;通过所述第二非对称卷积核对表格文档图像进行特征提取,得到所述纵向线条特征。
关于表格检测装置的具体限定可以参见上文中对于表格检测方法的限定,在此不再赘述。上述表格检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种表格检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将待检测的表格文档图像输入至对称网络,其中,对称网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接成对称结构,卷积网络与反卷积网络分别包括若干层组合卷积块;通过卷积网络中的各层组合卷积块对表格文档图像进行卷积运算,得到对应的表格特征图,并输入至反卷积网络;通过反卷积网络中的组合卷积块对卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合;通过反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将待检测的表格文档图像输入至对称网络,其中,对称网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接构成对称结构,卷积网络与反卷积网络分别包括若干层组合卷积块;通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,输出对应的表格特征图;依次通过卷积网络中的其他各层组合卷积块对上一层输出的表格特征图进行卷积运算,将卷积网络中最后一层输出的表格特征图输入至反卷积网络;通过反卷积网络中的第一层组合卷积块对卷积网络中最后一层输出的表格特征图进行特征提取,输出对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合;依次通过反卷积网络中的各层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,得到表格结构特征图。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,得到表格全局特征、横向线条特征以及纵向线条特征,将表格全局特征、横向线条特征以及纵向线条特征进行融合,并通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
在一个实施例中,组合卷积块包括对称卷积核、第一非对称卷积核和第二非对称卷积核;处理器执行计算机程序时还实现以下步骤:通过对称卷积核对表格文档图像进行特征提取,得到表格全局特征;通过第一非对称卷积核对表格文档图像进行特征提取,得到横向线条特征;通过第二非对称卷积核对表格文档图像进行特征提取,得到纵向线条特征。
在一个实施例中,对称卷积核的大小为N*N;第一非对称卷积核的大小为N*1;第二非对称卷积核的大小为1*N。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:构建训练样本集,其中,训练样本集包括若干表格文档图像,表格文档图像具有对应的表格结构坐标文件;将表格文档图像以及对应的表格结构坐标文件输入至搭建的对称网络,其中,对称网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接成对称结构,卷积网络与反卷积网络分别包括若干层组合卷积块;通过卷积网络中的各层组合卷积块对表格文档图像进行卷积运算,得到对应的表格特征图,并输入至反卷积网络;通过反卷积网络中的组合卷积块对卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合;通过反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。根据表格结构特征图以及表格结构坐标文件计算模型损失值,并反向传播优化表格检测模型的参数。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
构建训练样本集,其中,训练样本集包括若干表格文档图像,表格文档图像具有对应的表格结构坐标文件;将表格文档图像以及对应的表格结构坐标文件输入至搭建的对称网络,其中,对称网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接构成对称结构,卷积网络与反卷积网络分别包括若干层组合卷积块;通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,输出对应的表格特征图;依次通过卷积网络中的其他各层组合卷积块对上一层输出的表格特征图进行卷积运算,将卷积网络中最后一层输出的表格特征图输入至反卷积网络;通过反卷积网络中的第一层组合卷积块对卷积网络中最后一层输出的表格特征图进行特征提取,输出对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合;依次通过反卷积网络中的各层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,得到表格结构特征图;根据表格结构特征图以及表格结构坐标文件计算模型损失值,并反向传播优化表格检测模型的参数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,得到表格全局特征、横向线条特征以及纵向线条特征,将表格全局特征、横向线条特征以及纵向线条特征进行融合,并通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将待检测的表格文档图像输入至对称网络,其中,对称网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接构成对称结构,卷积网络与反卷积网络分别包括若干层组合卷积块;通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,输出对应的表格特征图;依次通过卷积网络中的其他各层组合卷积块对上一层输出的表格特征图进行卷积运算,将卷积网络中最后一层输出的表格特征图输入至反卷积网络;通过反卷积网络中的第一层组合卷积块对卷积网络中最后一层输出的表格特征图进行特征提取,输出对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合;依次通过反卷积网络中的各层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,得到表格结构特征图。在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,得到表格全局特征、横向线条特征以及纵向线条特征,将表格全局特征、横向线条特征以及纵向线条特征进行融合,并通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
在一个实施例中,组合卷积块包括对称卷积核、第一非对称卷积核和第二非对称卷积核;计算机程序被处理器执行时还实现以下步骤:通过对称卷积核对表格文档图像进行特征提取,得到表格全局特征;通过第一非对称卷积核对表格文档图像进行特征提取,得到横向线条特征;通过第二非对称卷积核对表格文档图像进行特征提取,得到纵向线条特征。
在一个实施例中,对称卷积核的大小为N*N;第一非对称卷积核的大小为N*1;第二非对称卷积核的大小为1*N。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
构建训练样本集,其中,训练样本集包括若干表格文档图像,表格文档图像具有对应的表格结构坐标文件;将表格文档图像以及对应的表格结构坐标文件输入至搭建的对称网络,其中,对称网络包括卷积网络和反卷积网络,且卷积网络与反卷积网络连接构成对称结构,卷积网络与反卷积网络分别包括若干层组合卷积块;通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,输出对应的表格特征图;依次通过卷积网络中的其他各层组合卷积块对上一层输出的表格特征图进行卷积运算,将卷积网络中最后一层输出的表格特征图输入至反卷积网络;通过反卷积网络中的第一层组合卷积块对卷积网络中最后一层输出的表格特征图进行特征提取,输出对应的表格特征图,并与卷积网络中对应的相同尺寸的表格特征图进行融合;依次通过反卷积网络中的各层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,得到表格结构特征图;根据表格结构特征图以及表格结构坐标文件计算模型损失值,并反向传播优化表格检测模型的参数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过卷积网络中的第一层组合卷积块对表格文档图像进行特征提取,得到表格全局特征、横向线条特征以及纵向线条特征,将表格全局特征、横向线条特征以及纵向线条特征进行融合,并通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种表格检测方法,其特征在于,所述方法包括:
将待检测的表格文档图像输入至对称网络,其中,所述对称网络包括卷积网络和反卷积网络,且所述卷积网络与所述反卷积网络连接成对称结构,所述卷积网络与所述反卷积网络分别包括若干层组合卷积块;
通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络;
通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;
通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。
2.根据权利要求1所述的方法,其特征在于,所述通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络,包括:
通过所述卷积网络中的第一层组合卷积块对所述表格文档图像进行特征提取,输出对应的表格特征图;
依次通过所述卷积网络中的其他各层组合卷积块对上一层输出的表格特征图进行卷积运算,将所述卷积网络中最后一层输出的表格特征图输入至所述反卷积网络;
所述通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合,包括:
通过所述反卷积网络中的第一层组合卷积块对所述卷积网络中最后一层输出的表格特征图进行特征提取,输出对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;
所述通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图,包括:
依次通过所述反卷积网络中的各层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,得到表格结构特征图。
3.根据权利要求2所述的方法,其特征在于,所述通过所述卷积网络中的第一层组合卷积块对所述表格文档图像进行特征提取,输出对应的表格特征图,包括:
通过所述卷积网络中的第一层组合卷积块对所述表格文档图像进行特征提取,得到表格全局特征、横向线条特征以及纵向线条特征,将所述表格全局特征、所述横向线条特征以及所述纵向线条特征进行融合,并通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
4.根据权利要求3所述的方法,其特征在于,所述组合卷积块包括对称卷积核、第一非对称卷积核和第二非对称卷积核;所述通过所述卷积网络中的第一层组合卷积块对所述表格文档图像进行特征提取,得到表格全局特征、横向线条特征以及纵向线条特征,包括:
通过所述对称卷积核对表格文档图像进行特征提取,得到所述表格全局特征;
通过所述第一非对称卷积核对表格文档图像进行特征提取,得到所述横向线条特征;
通过所述第二非对称卷积核对表格文档图像进行特征提取,得到所述纵向线条特征。
5.根据权利要求4所述的方法,其特征在于,所述对称卷积核的大小为N*N;所述第一非对称卷积核的大小为N*1;所述第二非对称卷积核的大小为1*N。
6.一种表格检测模型的训练方法,其特征在于,所述方法包括:
构建训练样本集,其中,所述训练样本集包括若干表格文档图像,所述表格文档图像具有对应的表格结构坐标文件;
将所述表格文档图像以及对应的表格结构坐标文件输入至搭建的对称网络,其中,所述对称网络包括卷积网络和反卷积网络,且所述卷积网络与所述反卷积网络连接成对称结构,所述卷积网络与所述反卷积网络分别包括若干层组合卷积块;
通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络;
通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;
通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。
根据所述表格结构特征图以及所述表格结构坐标文件计算模型损失值,并反向传播优化所述表格检测模型的参数。
7.根据权利要求6所述的方法,其特征在于,所述通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络,包括:
通过所述卷积网络中的第一层组合卷积块对所述表格文档图像进行特征提取,输出对应的表格特征图;
依次通过所述卷积网络中的其他各层组合卷积块对上一层输出的表格特征图进行卷积运算,将所述卷积网络中最后一层输出的表格特征图输入至所述反卷积网络;
所述通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合,包括:
通过所述反卷积网络中的第一层组合卷积块对所述卷积网络中最后一层输出的表格特征图进行特征提取,输出对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;
所述通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图,包括:
依次通过所述反卷积网络中的各层组合卷积块对上一层融合后输出的表格特征图进行反卷积运算,得到所述表格结构特征图。
8.根据权利要求7所述的方法,其特征在于,所述构建训练样本集包括:
获取多张原始表格文档图像;
从所述多张原始表格文档图像中,选取部分的原始表格文档图像进行以下任一种方式的预处理:
对所述原始表格文档图像进行方框滤波或均值滤波,改变所述原始表格文档图像的模糊程度;或对所述原始表格文档图像添加高斯噪声或椒盐噪声;
利用预处理得到的表格文档图像和未预处理的所述原始表格文档图像构建训练样本集。
9.根据权利要求7所述的方法,其特征在于,所述通过所述卷积网络中的第一层组合卷积块对所述表格文档图像进行特征提取,输出对应的表格特征图,包括:
通过所述卷积网络中的第一层组合卷积块对所述表格文档图像进行特征提取,得到表格全局特征、横向线条特征以及纵向线条特征,将所述表格全局特征、所述横向线条特征以及所述纵向线条特征进行融合,并通过卷积层对融合得到的结果进行降维处理,输出对应的表格特征图。
10.一种表格检测装置,其特征在于,所述装置包括:
输入模块,用于将待检测的表格文档图像输入至对称网络,其中,所述对称网络包括卷积网络和反卷积网络,且所述卷积网络与所述反卷积网络连接成对称结构,所述卷积网络与所述反卷积网络分别包括若干层组合卷积块;
第一运算模块,用于通过所述卷积网络中的各层组合卷积块对所述表格文档图像进行卷积运算,得到对应的表格特征图,并输入至所述反卷积网络;
第二运算模块,用于通过所述反卷积网络中的组合卷积块对所述卷积网络中输出的表格特征图进行反卷积运算,得到对应的表格特征图,并与所述卷积网络中对应的相同尺寸的表格特征图进行融合;
第三运算模块,用于通过所述反卷积网络中的组合卷积块对融合后得到的表格特征图进行反卷积运算,得到表格结构特征图。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010513142.3A CN111709338B (zh) | 2020-06-08 | 2020-06-08 | 一种用于表格检测的方法、装置及检测模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010513142.3A CN111709338B (zh) | 2020-06-08 | 2020-06-08 | 一种用于表格检测的方法、装置及检测模型的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709338A true CN111709338A (zh) | 2020-09-25 |
CN111709338B CN111709338B (zh) | 2024-02-27 |
Family
ID=72539063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010513142.3A Active CN111709338B (zh) | 2020-06-08 | 2020-06-08 | 一种用于表格检测的方法、装置及检测模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709338B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686377A (zh) * | 2021-03-18 | 2021-04-20 | 北京地平线机器人技术研发有限公司 | 利用卷积硬件对特征数据进行反卷积处理的方法和装置 |
CN113012075A (zh) * | 2021-04-22 | 2021-06-22 | 中国平安人寿保险股份有限公司 | 一种图像矫正方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190228529A1 (en) * | 2016-08-26 | 2019-07-25 | Hangzhou Hikvision Digital Technology Co., Ltd. | Image Segmentation Method, Apparatus, and Fully Convolutional Network System |
CN110097554A (zh) * | 2019-04-16 | 2019-08-06 | 东南大学 | 基于密集卷积和深度可分离卷积的视网膜血管分割方法 |
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
CN110738219A (zh) * | 2019-10-15 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 图像中线条提取方法和装置、存储介质及电子装置 |
-
2020
- 2020-06-08 CN CN202010513142.3A patent/CN111709338B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190228529A1 (en) * | 2016-08-26 | 2019-07-25 | Hangzhou Hikvision Digital Technology Co., Ltd. | Image Segmentation Method, Apparatus, and Fully Convolutional Network System |
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
CN110097554A (zh) * | 2019-04-16 | 2019-08-06 | 东南大学 | 基于密集卷积和深度可分离卷积的视网膜血管分割方法 |
CN110738219A (zh) * | 2019-10-15 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 图像中线条提取方法和装置、存储介质及电子装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686377A (zh) * | 2021-03-18 | 2021-04-20 | 北京地平线机器人技术研发有限公司 | 利用卷积硬件对特征数据进行反卷积处理的方法和装置 |
CN113012075A (zh) * | 2021-04-22 | 2021-06-22 | 中国平安人寿保险股份有限公司 | 一种图像矫正方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111709338B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475681B2 (en) | Image processing method, apparatus, electronic device and computer readable storage medium | |
CN112699937B (zh) | 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 | |
CN113221743B (zh) | 表格解析方法、装置、电子设备和存储介质 | |
US11538244B2 (en) | Extraction of spatial-temporal feature representation | |
CN110689012A (zh) | 一种端到端的自然场景文本识别方法及系统 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
WO2021208617A1 (zh) | 进出站识别方法、装置、终端及存储介质 | |
CN109299303B (zh) | 基于可变形卷积与深度网络的手绘草图检索方法 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN111709338B (zh) | 一种用于表格检测的方法、装置及检测模型的训练方法 | |
JP2023527615A (ja) | 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム | |
CN113498521A (zh) | 文本检测方法及装置、存储介质 | |
CN114529773A (zh) | 基于结构单元的表格识别方法、系统、终端及介质 | |
CN112001399A (zh) | 基于局部特征显著化的图像场景分类方法和装置 | |
CN111666931A (zh) | 基于混合卷积文字图像识别方法、装置、设备及存储介质 | |
CN111414913B (zh) | 一种文字识别方法以及识别装置、电子设备 | |
CN111144407A (zh) | 一种目标检测方法、系统、装置及可读存储介质 | |
CN113449726A (zh) | 文字比对及识别方法、装置 | |
CN114067339A (zh) | 图像识别方法及其装置、电子设备、计算机可读存储介质 | |
CN116259064B (zh) | 表格结构识别方法、表格结构识别模型的训练方法及装置 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN116469172A (zh) | 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统 | |
CN113837157B (zh) | 题目类型识别方法、系统和存储介质 | |
CN114093027A (zh) | 基于卷积神经网络的动态手势识别方法、装置及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |