CN110807404A - 基于深度学习的表格线检测方法、装置、终端、存储介质 - Google Patents
基于深度学习的表格线检测方法、装置、终端、存储介质 Download PDFInfo
- Publication number
- CN110807404A CN110807404A CN201911038212.8A CN201911038212A CN110807404A CN 110807404 A CN110807404 A CN 110807404A CN 201911038212 A CN201911038212 A CN 201911038212A CN 110807404 A CN110807404 A CN 110807404A
- Authority
- CN
- China
- Prior art keywords
- image
- line
- segmentation
- detection
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 88
- 238000013135 deep learning Methods 0.000 title claims abstract description 24
- 230000011218 segmentation Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000003709 image segmentation Methods 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 29
- 238000007781 pre-processing Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000003708 edge detection Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 230000007797 corrosion Effects 0.000 claims description 5
- 238000005260 corrosion Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000003628 erosive effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请提供基于深度学习的表格线检测方法、装置、终端、存储介质,本发明将分割网络引入文本表格中线检测,对文本表格内的线条实现了端到端快速检测,在一定程度上解决噪声线条干扰等问题,适合大多数复杂或多样背景下的线条的端到端检测,提高检测的鲁棒性和泛化性;同时,由于引入竖直线和交点的类别,使得可以根据分割结果将整表中的小表格框起来,形成碎片化的图片,而且通过连通域的检测,进一步提升了分割网络中线条的检测结果的连续性。降低了整表的文字识别难度,提升了识别的准确率,在整表和复杂表格检测识别、通用ocr识别等方面有很好的实用性。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及基于深度学习的表格线检测方法、装置、终端、存储介质。
背景技术
目前,许多自然场景下的线检测所使用到的方法种类众多,但一般分为基于特征描述的检测方法、基于模型的检测方法和基于深度学习的检测方法。
基于特征描述的方法主要是利用线的颜色灰度、纹理变化、几何特征等,运用诸如霍夫变换和卡尔曼滤波等检测线条;基于模型的检测方法主要是利用一些参数等属性建模出合适的数学模型,利用模型对于场景中的线条进行判别;基于深度学习的检测方法主要是利用训练学习线条特征的方式实现自动化快速检测。
一般而言,基于对大数据学习下深度学习技术能够对样本识别具有很好的鲁棒性,但目前仍存在下述不足:首先,有关深度学习的线检测应用主要集中在交通领域中车道线检测,对于用于文本表格类中的线检测方法较少;其次,基于opencv等传统图像处理方式对于线检测的方式单一,容易出现漏检、不连续等现象,无法实现语义理解。
申请内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供基于深度学习的表格线检测方法、装置、终端、存储介质,用于解决现有技术中尚无较好的检测表格类线条的技术问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种基于深度学习的表格线检测方法,其包括:对数据表格图像集进行图像预处理,以形成滤除了图像污染并计算了线条交点的位置数据的训练样本集;利用分割网络模型对所述训练样本集中的样本图像进行图像分割;在通过连通域检测算法检测图像分割结果合格的情况下,基于所述线条交点的位置数据分别提取表格的竖直线和水平线。
于本申请的第一方面的一些实施例中,所述对数据表格图像集进行图像预处理,包括:对数据表格图像集中的图像进行灰度阈值化,据以生成对应的灰度图像;对所述灰度图像进行边缘检测,据以生成对应的边缘二值图像;对所述边缘二值图像进行霍夫变换,据以计算两条或多条直线的交点的位置数据。
于本申请的第一方面的一些实施例中,所述利用分割网络模型对所述训练样本集中的样本图像进行图像分割,包括:将预处理后的数据表格图像中的线条和交点按照表格属性进行分类;利用PSPNet分割网络模型对各类图像进行训练分割,并基于MIOU值来衡量分割效果。
于本申请的第一方面的一些实施例中,所述方法包括:将预处理后的数据表格图像中的线条和交点按照表格属性分为水平直线类、竖直线类、交点类、或者背景类。
于本申请的第一方面的一些实施例中,所述方法包括:通过连通域检测算法检测图像分割结果是否合格;若合格,则基于所述线条交点的位置数据分别提取表格的竖直线和水平线;若不合格,则将分割结果不合格的数据表格图像加入训练样本集中,并重新利用分割网络模型对分割结果不合格的数据表格图像进行图像分割。
于本申请的第一方面的一些实施例中,所述方法包括:基于连通域检测算法检测图像分割结果是否满足线条的连续性要求;若满足线条的连续性要求,则确定为分割结果合格;若不满足线条的连续性要求,则在对图像进行图像膨胀和/或图像腐蚀操作后继续检测图像分割结果是否满足线条的连续性要求;若仍不满足线条的连续性要求,则确定为图像分割结果不合格。
为实现上述目的及其他相关目的,本申请的第二方面提供一种数据表格图像的线条检测装置,其包括:图像预处理模块,用于对数据表格图像集进行图像预处理,以形成滤除了图像污染并计算了线条交点的位置数据的训练样本集;图像分割模块,用于利用分割网络模型对所述训练样本集中的样本图像进行图像分割;线条检测模块,用于在通过连通域检测算法检测图像分割结果合格的情况下,基于所述线条交点的位置数据分别提取表格的竖直线和水平线。
于本申请的第二方面的一些实施例中,所述预处理模块包括:灰度处理模块,用于对数据表格图像集中的图像进行灰度阈值化,据以生成对应的灰度图像;边缘检测模块,用于对所述灰度图像进行边缘检测,据以生成对应的边缘二值图像;变换模块,用于对所述边缘二值图像进行霍夫变换,据以计算两条或多条直线的交点的位置数据。
为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于深度学习的表格线检测方法。
为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述基于深度学习的表格线检测方法。
如上所述,本申请的基于深度学习的表格线检测方法、装置、终端、存储介质,具有以下有益效果:本发明将分割网络引入文本表格中线检测,对文本表格内的线条实现了端到端快速检测,在一定程度上解决噪声线条干扰等问题,适合大多数复杂或多样背景下的线条的端到端检测,提高检测的鲁棒性和泛化性;同时,由于引入竖直线和交点的类别,使得可以根据分割结果将整表中的小表格框起来,形成碎片化的图片,而且通过连通域的检测,进一步提升了分割网络中线条的检测结果的连续性。降低了整表的文字识别难度,提升了识别的准确率,在整表和复杂表格检测识别、通用ocr识别等方面有很好的实用性。
附图说明
图1显示为本申请一实施例中基于深度学习的表格线检测方法的流程示意图。
图2显示为本申请实施例一种步骤S11的各子步骤的流程示意图。
图3显示为本申请一实施例中金字塔池化模块的结构示意图。
图4显示为本申请实施例一中步骤S12的各子步骤的流程示意图。
图5显示为本申请一实施例中基于深度学习的表格线检测方法的流程示意图。
图6显示为本申请一实施例中数据表格图像的线条检测装置的结构示意图。
图7显示为本申请一实施例中电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本发明为克服现有技术对于文本表格类线检测存在的一些不足,提出将分割网络用于线检测,以实现端到端的方式快速对文本表格内的线条进行自动化分割,并在一定程度上解决噪声线条干扰等问题,适合多种复杂背景下线条检测,提高检测的鲁棒性。下文,将结合多个实施例对本发明的技术方案做详尽的解释说明。
实施例一
如图1所示,展示了本发明一实施例中基于深度学习的表格线检测方法的流程示意图。本实施例的线条检测方法包括步骤S11~S15。
需说明的是,本实施例及下文实施例中所涉及的方法可应用于多种类型的硬件设备。所述硬件设备例如是控制器,所述控制器包括但不限于ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Micorcontroller Unit)控制器等等。所述硬件设备也可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述硬件设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成,本实施例并不作限定。
S11:对数据表格图像集进行图像预处理,以形成滤除了图像污染并计算了线条交点的位置数据的训练样本集。
对于任意一张原始的数据表格图像,前期的预处理非常重要,预处理的质量直接影响后续网络分割的质量。具体来说,所述对数据表格图像集进行图像预处理主要包括图2所示的子步骤S111~S113。
S111:对数据表格图像集中的图像进行灰度阈值化,据以生成对应的灰度图像。
具体而言,对于包括n(n为自然数)张数据报表的数据集,对其中任意第i(i∈n)张原始的数据表格图像先进行灰度阈值化操作,即按照预设的灰度阈值等级,对像素集合进行划分,以使划分所得的每个子集形成一个与现实物体类别相对应的区域,各区域内部具有相同的属性,而相邻区域之间表现出不同的属性。由此,可生成灰度二值图像,且增强图像边缘的可视化效果,以此过滤掉原始样本中的一些背景污染(如红章、水印、涂鸦等)。
应理解,图像二值化是图像处理的重要技术,是图像信息压缩、边缘提取和形状分析等方面的重要处理手段。二值化的目的在于将图像增强结果转换成黑白二值图像,从而能够得到清晰的边缘轮廓,更好地为边缘提取、图像分割、目标识别等后续处理服务。
S112:对所述灰度图像进行边缘检测,据以生成对应的边缘二值图像。
可选的,对所述灰度图像进行canny边缘检测,并将图像中的线条取出,以此过滤掉不需要的内容,如文字或者背景区域等等。
具体的,基于canny算子计算各像素点之间梯度的强度和方向。图像中边缘像素点较其他区域像素点的梯度会发生剧变,通过canny算子计算的梯度值进行边缘检测能够很好地保留原始样本的真实信息,计算过程如下式1)和2):
G=((Gx)2+(Gy)2)1/2;公式1)
Θ=arctan(Gx/Gy);公式2)
其中,Gx和Gy分别是某一点水平和垂直方向上的一阶导数值,Θ表示的是该点的梯度方向角。
S113:对所述边缘二值图像进行霍夫变换,据以计算两条或多条直线的交点的位置数据。
具体的,霍夫变换是将在一个空间中具有相同形状的曲线或直线映射到另一个坐标空间的一个点上形成峰值,从而把检测任意形状的问题转化为统计峰值的问题。这里先将边缘二值图像进行霍夫线变换,从笛卡尔坐标系下的直线方程用极径和极角(r,θ)两个参数来表示成:r=xcosθ+ysinθ;对应其一般的直线方程y=kx+b,即(k,b)对应固定的参数(r,θ),取曲线上不同点(x0,y0),(x1,y1),(x2,y2)......代入r=xcosθ+ysinθ,会得到一系列(r,θ)圆,以此通过各个曲线相交的交点作为直线中的某个点,并求得该交点的坐标。
S12:利用分割网络模型对所述训练样本集中的样本图像进行图像分割。
需说明的是,本实施例的分割网络模型包括但不限于:PSPnet神经网络模型、FCN神经网络模型、Segnet神经网络模型、RefineNet神经网络模型、Deeplabv1神经网络模型、Deeplabv2神经网络模型、Deeplabv3神经网络模型等等。
以其中的PSPnet神经网络模型为例:通常在CNN神经网络中的感受野粗略利用了上下文的信息,在许多网络中没有充分获取全局信息,这里的PSPNett神经网络利用全局优先级,包含了不同子区域之间的不同尺度的信息,即由金字塔池化产生不同层次的特征,最后被平滑地连接成一个全连接层做分类,这样可以去除因CNN神经网络的固定卷积核大小对图像分类的约束,减少不同区域之间的信息损失。
该金字塔池化模块结构示意图如图3所示,如虚线框所框选的网络结构,POOL表示池化层,CONV表示卷积层,UPSAMPLE表示上采样层,CONTACT表示全连接层。下文,将结合图4所示的子步骤S121~S122来说明利用PSPnet神经网络模型进行图像分割的原理。
S121:将预处理后的数据表格图像中的线条和交点按照表格属性进行分类。
可选的,按照表格属性可分为水平直线类、竖直线类、交点类、及其他区域(背景)类。例如:对数据集中其任意第i张数据报表所产生的线条和交点,将其按照属性分为四类训练样本;其中,“1”表示水平直线、“2”表示竖直线、“3”表示交点坐标、“0”表示样本中其他的区域,即背景类。
S122:利用PSPNet分割网络模型对各类图像进行训练分割,并基于MIOU值来衡量分割效果。
利用PSPNet分割网络模型对这四类样本进行训练分割,设定评判分割效果的指标MIOU,采用MIOU表示一张数据报表中四类分割结果与真值区域相比的重合度占比。一般而言,MIOU值越大表示分割出来的结果越接近于真实情况,通过这种方式对样本中的像素属性进行逐一判别,实现分割网络的线条检测。
具体来说,MIOU值一般采用如下计算表达式:
IOU=(DetectionResultПGroundTruth)/(DetectionResult U GroundTruth);公式3)
其中,DetectionResult表示模型分割的结果,GroundTruth表示真值区域,分别求取四类样本的IOU值,再求取四类样本的IOU值的平均值来作为最后的MIOU值。
S13:通过连通域检测算法检测图像分割结果是否合格。
在一些可选的实现方式中,判断图像分割结果是否合格的方式包括:基于连通域检测算法检测图像分割结果是否满足线条的连续性要求;若满足线条的连续性要求,则确定为分割结果合格;若不满足线条的连续性要求,则在对图像进行图像膨胀和/或图像腐蚀操作后继续检测图像分割结果是否满足线条的连续性要求;若仍不满足线条的连续性要求,则确定为图像分割结果不合格。
具体的,将图像分割结果中出现线条间断或者不连续等情况视为不满足线条的连续性要求,而将图像分割结果中线条连续的情况视为满足线条的连续性要求。因此,对数据集中任意第i张数据表格图像中所产生的分割结果进行连通域检测,判断分割结果中是否出现间断、不连续等情况,根据滤波算子的计算原理,对其进行膨胀腐蚀的操作,从而修复分割出的线条间断等问题。
图像腐蚀是指删除对象边界的某些像素;图像膨胀是指给图像中的对象边界添加像素。举例来说,图像膨胀的算法包括:采用3x3的结构元素来扫描图像的每一个像素,用结构元素与其覆盖的二值图像做“与”操作;如果都为0,则结果图像的该像素为0;否则为1;结果使二值图像扩大一圈。图像腐蚀的算法包括:采用3x3的结构元素来扫描图像的每一个像素,用结构元素与其覆盖的二值图像做“与”操作;如果都为1,则结果图像的该像素为1;否则为0;结果使二值图像缩小一圈。
S14:若合格,基于所述线条交点的位置数据分别提取表格的竖直线和水平线。
具体的,在增强分割出来的线条连续性的基础上,通过分割出的交点坐标,分别提取竖直线和水平线,从而提取整表中的独立小表格,达到最终的分割效果。
S15:若不合格,则结束。
因此,本发明在分割网络中添加水平线、竖直线、交点的类别,并判断连通域,以此能够根据交点位置将整张报表中的单独小表格勾画出来用于碎片化的文本识别,降低了识别难度;预处理过程中先使用边缘检测处理,再利用霍夫变换求取两条或多条直线的交点,根据线条位置和交点的坐标值作为分割网络的三种训练类别,实现快速获取训练样本,减轻了人工获取训练样本的代价。
实施例二
如图5所示,展示了本发明一实施例中基于深度学习的表格线检测方法的流程示意图。本实施例的线条检测方法包括步骤S51~S55。
S51:对数据表格图像集进行图像预处理,以形成滤除了图像污染并计算了线条交点的位置数据的训练样本集。
S52:利用分割网络模型对所述训练样本集中的样本图像进行图像分割。
S53:通过连通域检测算法检测图像分割结果是否合格。
S54:若合格,则基于所述线条交点的位置数据分别提取表格的竖直线和水平线。
需说明的是,本实施例提供的线条检测方法的步骤S41~S44的实施方式与上文实施例中的步骤S11~S14的实施方式类似,故不再赘述。
S55:若不合格,则将分割结果不合格的数据表格图像加入训练样本集中,并重新利用分割网络模型对分割结果不合格的数据表格图像进行图像分割。
具体的,对于经连通域检测、图像膨胀、图像腐蚀操作后效果仍不理想的分割结果,对其单独进行再处理,将其加入训练集中,然后重复步骤S12的操作,目的是提升分割效果进行模型的迭代优化,以达到更好的效果。
实施例三
如图6所示,展示了本发明一实施例中的数据表格图像的线条检测装置的结构示意图。本实施例的线条检测装置包括图像预处理模块61、图像分割模块62、线条检测模块63。
图像预处理模块61用于对数据表格图像集进行图像预处理,以形成滤除了图像污染并计算了线条交点的位置数据的训练样本集;图像分割模块62用于利用分割网络模型对所述训练样本集中的样本图像进行图像分割;线条检测模块63用于在通过连通域检测算法检测图像分割结果合格的情况下,基于所述线条交点的位置数据分别提取表格的竖直线和水平线。
其中,图像预处理模块61又包括未图示的灰度处理模块、边缘检测模块、变换模块;其中,灰度处理模块用于对数据表格图像集中的图像进行灰度阈值化,据以生成对应的灰度图像;边缘检测模块用于对所述灰度图像进行边缘检测,据以生成对应的边缘二值图像;变换模块用于对所述边缘二值图像进行霍夫变换,据以计算两条或多条直线的交点的位置数据。
需说明的是,本实施例的数据表格图像的线条检测装置,其实施方式与上文实施例的基于深度学习的表格线检测方法的实施方式类似,故不再赘述。
应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,图像预处理模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上图像预处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
实施例四
如图7所示,展示了本申请实施例提供的再一种电子终端的结构示意图。本实例提供的电子终端,包括:处理器71、存储器72、通信器73;存储器72通过系统总线与处理器71和通信器73连接并完成相互间的通信,存储器72用于存储计算机程序,通信器73用于和其他设备进行通信,处理器71用于运行计算机程序,使电子终端执行如上基于深度学习的表格线检测方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
实施例五
在本实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于深度学习的表格线检测方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供基于深度学习的表格线检测方法、装置、终端、存储介质,将分割网络引入文本表格中线检测,对文本表格内的线条实现了端到端快速检测,在一定程度上解决噪声线条干扰等问题,适合大多数复杂或多样背景下的线条的端到端检测,提高检测的鲁棒性和泛化性;同时,由于引入竖直线和交点的类别,使得可以根据分割结果将整表中的小表格框起来,形成碎片化的图片,而且通过连通域的检测,进一步提升了分割网络中线条的检测结果的连续性。降低了整表的文字识别难度,提升了识别的准确率,在整表和复杂表格检测识别、通用ocr识别等方面有很好的实用性。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (10)
1.一种基于深度学习的表格线检测方法,其特征在于,包括:
对数据表格图像集进行图像预处理,以形成滤除了图像污染并计算了线条交点的位置数据的训练样本集;
利用分割网络模型对所述训练样本集中的样本图像进行图像分割;
在通过连通域检测算法检测图像分割结果合格的情况下,基于所述线条交点的位置数据分别提取表格的竖直线和水平线。
2.根据权利要求1所述的方法,其特征在于,所述对数据表格图像集进行图像预处理,包括:
对数据表格图像集中的图像进行灰度阈值化,据以生成对应的灰度图像;
对所述灰度图像进行边缘检测,据以生成对应的边缘二值图像;
对所述边缘二值图像进行霍夫变换,据以计算两条或多条直线的交点的位置数据。
3.根据权利要求1所述的方法,其特征在于,所述利用分割网络模型对所述训练样本集中的样本图像进行图像分割,包括:
将预处理后的数据表格图像中的线条和交点按照表格属性进行分类;
利用PSPNet分割网络模型对各类图像进行训练分割,并基于MIOU值来衡量分割效果。
4.根据权利要求3所述的方法,其特征在于,所述方法包括:
将预处理后的数据表格图像中的线条和交点按照表格属性分为水平直线类、竖直线类、交点类、或者背景类。
5.根据权利要求1所述的方法,其特征在于,所述方法包括:
通过连通域检测算法检测图像分割结果是否合格;
若合格,则基于所述线条交点的位置数据分别提取表格的竖直线和水平线;
若不合格,则将分割结果不合格的数据表格图像加入训练样本集中,并重新利用分割网络模型对分割结果不合格的数据表格图像进行图像分割。
6.根据权利要求5所述的方法,其特征在于,所述方法包括:
基于连通域检测算法检测图像分割结果是否满足线条的连续性要求;
若满足线条的连续性要求,则确定为分割结果合格;
若不满足线条的连续性要求,则在对图像进行图像膨胀和/或图像腐蚀操作后继续检测图像分割结果是否满足线条的连续性要求;
若仍不满足线条的连续性要求,则确定为图像分割结果不合格。
7.一种数据表格图像的线条检测装置,其特征在于,包括:
图像预处理模块,用于对数据表格图像集进行图像预处理,以形成滤除了图像污染并计算了线条交点的位置数据的训练样本集;
图像分割模块,用于利用分割网络模型对所述训练样本集中的样本图像进行图像分割;
线条检测模块,用于在通过连通域检测算法检测图像分割结果合格的情况下,基于所述线条交点的位置数据分别提取表格的竖直线和水平线。
8.根据权利要求7所述的装置,其特征在于,所述预处理模块包括:
灰度处理模块,用于对数据表格图像集中的图像进行灰度阈值化,据以生成对应的灰度图像;
边缘检测模块,用于对所述灰度图像进行边缘检测,据以生成对应的边缘二值图像;
变换模块,用于对所述边缘二值图像进行霍夫变换,据以计算两条或多条直线的交点的位置数据。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述基于深度学习的表格线检测方法。
10.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至6中任一项所述基于深度学习的表格线检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911038212.8A CN110807404A (zh) | 2019-10-29 | 2019-10-29 | 基于深度学习的表格线检测方法、装置、终端、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911038212.8A CN110807404A (zh) | 2019-10-29 | 2019-10-29 | 基于深度学习的表格线检测方法、装置、终端、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110807404A true CN110807404A (zh) | 2020-02-18 |
Family
ID=69489426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911038212.8A Pending CN110807404A (zh) | 2019-10-29 | 2019-10-29 | 基于深度学习的表格线检测方法、装置、终端、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807404A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444922A (zh) * | 2020-03-27 | 2020-07-24 | Oppo广东移动通信有限公司 | 图片处理方法、装置、存储介质及电子设备 |
CN111914805A (zh) * | 2020-08-18 | 2020-11-10 | 科大讯飞股份有限公司 | 表格结构化方法、装置、电子设备及存储介质 |
CN112560820A (zh) * | 2021-02-22 | 2021-03-26 | 金陵科技学院 | 表格检测方法和装置 |
CN113283355A (zh) * | 2021-05-31 | 2021-08-20 | 平安国际智慧城市科技股份有限公司 | 一种表格图像的识别方法、装置、计算机设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622763A (zh) * | 2012-02-21 | 2012-08-01 | 芮挺 | 阴影检测与消除方法 |
CN105140145A (zh) * | 2015-07-01 | 2015-12-09 | 遵义师范学院 | 一种光伏电池栅线测量方法 |
CN106407883A (zh) * | 2016-08-10 | 2017-02-15 | 北京工业大学 | 一种复杂表格及其内部手写数字识别方法 |
CN108491788A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表单元格的智能提取方法及装置 |
CN109308465A (zh) * | 2018-09-14 | 2019-02-05 | 百度在线网络技术(北京)有限公司 | 表格线检测方法、装置、设备及计算机可读介质 |
CN109493383A (zh) * | 2018-11-23 | 2019-03-19 | 深圳市威尔德医疗电子有限公司 | 超声图像中内中膜厚度的测量方法、服务器及存储介质 |
CN109726628A (zh) * | 2018-11-05 | 2019-05-07 | 东北大学 | 一种表格图像的识别方法及系统 |
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
CN110163030A (zh) * | 2018-02-11 | 2019-08-23 | 鼎复数据科技(北京)有限公司 | 一种基于图像信息的pdf有边框表格抽取方法 |
CN110210409A (zh) * | 2019-06-04 | 2019-09-06 | 南昌市微轲联信息技术有限公司 | 表格单据中表格框线检测方法及系统 |
-
2019
- 2019-10-29 CN CN201911038212.8A patent/CN110807404A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622763A (zh) * | 2012-02-21 | 2012-08-01 | 芮挺 | 阴影检测与消除方法 |
CN105140145A (zh) * | 2015-07-01 | 2015-12-09 | 遵义师范学院 | 一种光伏电池栅线测量方法 |
CN106407883A (zh) * | 2016-08-10 | 2017-02-15 | 北京工业大学 | 一种复杂表格及其内部手写数字识别方法 |
CN110163030A (zh) * | 2018-02-11 | 2019-08-23 | 鼎复数据科技(北京)有限公司 | 一种基于图像信息的pdf有边框表格抽取方法 |
CN108491788A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表单元格的智能提取方法及装置 |
CN109308465A (zh) * | 2018-09-14 | 2019-02-05 | 百度在线网络技术(北京)有限公司 | 表格线检测方法、装置、设备及计算机可读介质 |
CN110163198A (zh) * | 2018-09-27 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种表格识别重建方法、装置和存储介质 |
CN109726628A (zh) * | 2018-11-05 | 2019-05-07 | 东北大学 | 一种表格图像的识别方法及系统 |
CN109493383A (zh) * | 2018-11-23 | 2019-03-19 | 深圳市威尔德医疗电子有限公司 | 超声图像中内中膜厚度的测量方法、服务器及存储介质 |
CN110210409A (zh) * | 2019-06-04 | 2019-09-06 | 南昌市微轲联信息技术有限公司 | 表格单据中表格框线检测方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444922A (zh) * | 2020-03-27 | 2020-07-24 | Oppo广东移动通信有限公司 | 图片处理方法、装置、存储介质及电子设备 |
CN111914805A (zh) * | 2020-08-18 | 2020-11-10 | 科大讯飞股份有限公司 | 表格结构化方法、装置、电子设备及存储介质 |
CN112560820A (zh) * | 2021-02-22 | 2021-03-26 | 金陵科技学院 | 表格检测方法和装置 |
CN113283355A (zh) * | 2021-05-31 | 2021-08-20 | 平安国际智慧城市科技股份有限公司 | 一种表格图像的识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807404A (zh) | 基于深度学习的表格线检测方法、装置、终端、存储介质 | |
CN109165538B (zh) | 基于深度神经网络的条形码检测方法及装置 | |
TWI821671B (zh) | 一種文本區域的定位方法及裝置 | |
JP6393230B2 (ja) | オブジェクト検出方法及び画像検索システム | |
US20180253852A1 (en) | Method and device for locating image edge in natural background | |
CN110751154B (zh) | 一种基于像素级分割的复杂环境多形状文本检测方法 | |
Mukherjee et al. | Enhancement of image resolution by binarization | |
CN110570442A (zh) | 一种复杂背景下轮廓检测方法、终端设备及存储介质 | |
CN110738030A (zh) | 表格重建方法、装置、电子设备及存储介质 | |
CN115273115A (zh) | 一种文档元素标注方法、装置、电子设备和存储介质 | |
CN111192279B (zh) | 基于边缘检测的物体分割方法、电子终端及存储介质 | |
CN110751156A (zh) | 用于表格线大块干扰去除方法、系统、设备及介质 | |
CN111325728A (zh) | 产品缺陷检测方法、装置、设备及存储介质 | |
CN108960246B (zh) | 一种用于图像识别的二值化处理装置及方法 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
Sarker et al. | A fast and robust license plate detection algorithm based on two-stage cascade adaboost | |
CN117593264A (zh) | 一种改进的联合YOLOv5和知识蒸馏的汽车发动机缸孔内壁检测方法 | |
CN115345895B (zh) | 用于视觉检测的图像分割方法、装置、计算机设备及介质 | |
CN114973300B (zh) | 一种构件类别识别方法、装置、电子设备及存储介质 | |
CN111507252A (zh) | 人体跌倒检测装置、方法、电子终端及存储介质 | |
Ghandour et al. | Building shadow detection based on multi-thresholding segmentation | |
CN113392455B (zh) | 基于深度学习的户型图比例尺检测方法、装置及电子设备 | |
CN115619678A (zh) | 一种图像变形的矫正方法、装置、计算机设备及存储介质 | |
CN114936395A (zh) | 一种户型图识别方法、装置、计算机设备及存储介质 | |
CN115082944A (zh) | 表格的智能识别切分方法、系统和终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200218 |
|
RJ01 | Rejection of invention patent application after publication |