CN116311318A - 一种表格识别方法、装置、设备及可读存储介质 - Google Patents

一种表格识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN116311318A
CN116311318A CN202310001887.5A CN202310001887A CN116311318A CN 116311318 A CN116311318 A CN 116311318A CN 202310001887 A CN202310001887 A CN 202310001887A CN 116311318 A CN116311318 A CN 116311318A
Authority
CN
China
Prior art keywords
endpoint
image
coordinates
preset
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310001887.5A
Other languages
English (en)
Inventor
余炅桦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glodon Co Ltd
Original Assignee
Glodon Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glodon Co Ltd filed Critical Glodon Co Ltd
Priority to CN202310001887.5A priority Critical patent/CN116311318A/zh
Publication of CN116311318A publication Critical patent/CN116311318A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/1607Correcting image deformation, e.g. trapezoidal deformation caused by perspective

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,公开了一种表格识别方法、装置、设备及可读存储介质。其中,该方法包括:获取待识别图像;将待识别图像输入至预设表格检测模型中,从待识别图像中识别出表格图像;将表格图像输入至预设表格识别模型中,确定表格图像中各个单元格的端点坐标以及各个端点之间的连接关系;基于端点坐标以及连接关系,生成目标表格。通过实施本发明,通过端点提取以及端点连接关系提取实现了表格识别,不再依赖于表格线的提取,保证了表格结构的识别精度,提高了表格信息的识别准确率。

Description

一种表格识别方法、装置、设备及可读存储介质
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种表格识别方法、装置、设备及可读存储介质。
背景技术
随着计算机技术的发展,文本识别已广泛应用于各个领域,而对图像中的表格进行结构化识别,也是文本识别任务中的关键任务之一。现有的表格识别方法,通常是基于计算机视觉算法或是深度神经网络模型将图像中的线条提取出来,进而以提取出来的线条绘制表格,实现对图像中表格的识别。
然而,在实际的应用场景中,表格识别算法面临各类干扰等情况,如由于拍摄问题造成的图像旋转、表格部分被遮挡、表格未拍全、纸张褶皱导致的表格扭曲等等情况。基于现有提取表格线条以绘制表格的方式进行表格识别,若受到表格图像质量等因素的影响,提取出来的表格线条可能会不连续或是检测错误,继而会导致识别得到的表格结构有误,识别准确率较低。
发明内容
有鉴于此,本发明实施例提供了一种表格识别方法、装置、设备及可读存储介质,以解决表格信息识别准确率较低的问题。
根据第一方面,本发明实施例提供了一种表格识别方法,包括:获取待识别图像;将所述待识别图像输入至预设表格检测模型中,从所述待识别图像中识别出表格图像;将所述表格图像输入至预设表格识别模型中,确定所述表格图像中各个单元格的端点坐标以及各个端点之间的连接关系;基于所述端点坐标以及所述连接关系,生成目标表格。
本发明实施例提供的表格识别方法,通过识别表格图像中各个单元格的端点坐标以及相邻端点之间的连接关系,继而确定出各个单元格的位置,以确定图像中的目标表格。该方法不依赖于表格线的提取,通过端点提取以及端点连接关系提取实现了表格识别,保证了表格结构的识别精度,提高了表格信息的识别准确率。
结合第一方面,在第一方面的第一实施方式中,所述将所述待识别图像输入至预设表格检测模型中,从所述待识别图像中识别出表格图像,包括:基于所述预设表格检测模型识别所述待识别图像,获取表格区域以及所述表格区域对应的边框端点;基于所述边框端点确定所述表格区域是否满足表格属性条件;当所述表格区域不满足表格属性条件时,基于所述边框端点矫正所述表格区域,得到所述表格图像。
本发明实施例提供的表格识别方法,通过检测表格区域的边框端点是否满足表格属性条件,以便在检测到不满足表格属性条件的表格区域时,对其进行矫正,得到满足表格属性条件的表格区域,由此能够克服因表格图像旋转或扭曲等问题所导致的表格结构识别不准确的问题,最大程度上保证了表格图像的识别精度。
结合第一方面第一实施方式,在第一方面的第二实施方式中,所述基于所述边框端点矫正所述表格区域,得到所述表格图像,包括:基于所述边框端点确定所述表格区域对应的最小外接矩形;基于所述最小外接矩形的宽度和高度进行透视变换,得到所述边框端点到透视变换坐标的透视变换矩阵;基于所述透视变换矩阵以及所述最小外接矩形对所述待识别图像中的表格区域进行矫正,得到所述表格图像。
本发明实施例提供的表格识别方法,通过边框端点对表格区域的外框进行矫正,以得到经过矫正的表格图像,实现了针对于表格外框的精准识别。
结合第一方面,在第一方面的第三实施方式中,所述将所述表格图像输入至预设表格识别模型中,确定所述表格图像中各个单元格的端点坐标以及各个端点之间的连接关系,包括:基于所述预设表格识别模型提取所述表格图像的端点区域特征图以及端点连接关系特征图;对所述端点区域特征图进行池化操作,得到端点区域池化特征图;从所述端点区域池化特征图中提取所述各个单元格的端点坐标;对所述连接关系特征图进行二值化处理,得到二值化连接关系特征图;从所述二值化连接关系特征图中提取所述各个端点之间的连接关系。
本发明实施例提供的表格识别方法,通过提取各个单元格的端点坐标以及各个端点之间的连接关系,以便根据各个端点之间的连接关系生成各个单元格,由此不必依赖于表格线条,避免了因线条扭曲或不连续而导致表格识别不准确的问题。
结合第一方面第三实施方式,在第一方面的第四实施方式中,所述从所述端点区域池化特征图中提取所述各个单元格的端点坐标,包括:获取所述端点区域特征图中各个端点区域的第一像素值,以及所述端点区域池化特征图中各个端点区域的第二像素值;从所述第一像素对比所述第一像素值和所述第二像素值,确定出所述第一像素值与所述第二像素值相同且均大于预设像素值的多个目标像素点;对所述多个目标像素点的坐标进行排序,得到所述各个单元格的端点坐标。
本发明实施例提供的表格识别方法,通过检测像素值以确定出作为单元格端点的目标像素点,继而根据像素点的坐标进行排序,得到每行单元格以及每列单元格的端点坐标,继而根据端点坐标进行单元格还原,提高了单元格的识别精度。
结合第一方面第四实施方式,在第一方面的第五实施方式中,所述对所述多个目标像素点的坐标进行排序,得到所述各个单元格的端点坐标,包括:将所述多个目标像素点的坐标按照预设的行排序方式进行行排列,得到行排序结果;遍历所述行排序结果中各个所述目标像素点的纵坐标,确定相邻两个所述目标像素点的纵坐标之差是否小于第一预设阈值;当相邻两个所述目标像素点的纵坐标之差小于所述第一预设阈值时,判定相邻两个所述目标像素点处于同一行;确定每行的起始单元格端点坐标和终点单元格端点坐标,得到按行排序的所述各个单元格的端点坐标。
本发明实施例提供的表格识别方法,通过预设的行排序方式对多个目标像素点的坐标进行排列,以便确定出处于同一行的各个单元格的端点坐标,提高了单元格的行识别准确度。
结合第一方面第四实施方式或第五实施方式,在第一方面的第六实施方式中,所述对所述多个目标像素点的坐标进行排序,得到所述各个单元格的端点坐标,包括:将所述多个目标像素点的坐标按照预设的列排序方式进行列排列,得到列排序结果;遍历所述列排序结果中各个所述目标像素点的横坐标,确定相邻两个所述目标像素点的横坐标之差是否小于第二预设阈值;当相邻两个所述目标像素点的纵坐标之差小于所述第二预设阈值时,判定相邻两个所述目标像素点处于同一列;确定每列的起始单元格端点坐标和终点单元格端点坐标,得到按列排序的所述各个单元格的端点坐标。
本发明实施例提供的表格识别方法,通过预设的列排序方式对多个目标像素点的坐标进行排列,以便确定出处于同一列的各个单元格的端点坐标,提高了单元格的列识别准确度。
结合第一方面第三实施方式,在第一方面的第七实施方式中,所述从所述二值化连接关系特征图中提取所述各个端点之间的连接关系,包括:获取所述二值化连接关系特征图中的相邻端点坐标;基于所述相邻端点坐标,确定相邻端点之间的连线像素点点集;当所述连线像素点点集对应的像素均值大于第三预设阈值时,判定所述相邻端点之间存在连接关系;其中,所述连接关系包括横向连接关系和纵向连接关系。
本发明实施例提供的表格识别方法,通过检测相邻端点之间的连线像素点点集的像素均值,以确定相邻端点之间是否存在连接关系,由此能够根据端点坐标确定相应的横向连接关系和纵向连接关系,实现了相邻端点之间的连线,从而实现了单元格的准确识别。
结合第一方面,在第一方面的第八实施方式中,所述方法还包括:确定所述各个单元格在所述目标表格中的目标位置;对所述各个单元格中的文本信息进行检测,得到文本信息;基于所述目标位置与所述文本信息,生成目标表格信息。
本发明实施例提供的表格识别方法,通过各个单元格的目标位置识别相应的文本信息,根据目标位置和文本信息确定出目标表格信息,由此实现了单元格及其文本信息的匹配。
根据第二方面,本发明实施例提供了一种表格识别装置,包括:获取模块,用于获取待识别图像;表格检测模块,用于将所述待识别图像输入至预设表格检测模型中,从所述待识别图像中识别出表格图像;表格识别模块,用于将所述表格图像输入至预设表格识别模型中,确定所述表格图像中各个单元格的端点坐标以及各个端点之间的连接关系;确定模块,用于基于所述端点坐标以及所述连接关系,确定所述各个单元格在所述表格图像中的目标位置;文本检测模块,用于对所述各个单元格中的文本信息进行检测,得到文本信息;生成模块,用于基于所述目标位置与所述文本信息,生成目标表格信息。
根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或第一方面任一实施方式所述的表格识别方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行第一方面或第一方面任一实施方式所述的表格识别方法。
需要说明的是,本发明实施例提供的表格识别装置、电子设备以及计算机可读存储介质的相应有益效果,请参见表格识别方法中相应内容的描述,在此不再赘述。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的表格识别方法的流程图;
图2是根据本发明实施例的表格识别方法的另一流程图;
图3是根据本发明实施例的表格识别方法的又一流程图;
图4是根据本发明实施例的表格识别装置的结构框图;
图5是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,相关技术中的表格识别方法,通常是基于计算机视觉算法或深度神经网络模型提取图像中的线条,进而以提取出来的线条绘制表格,实现对图像中表格的识别。然而,在实际的应用场景中,表格识别算法面临各类干扰等情况,如由于拍摄问题造成的图像旋转、表格部分被遮挡、表格未拍全、纸张褶皱导致的表格扭曲等等情况。基于现有提取表格线条以绘制表格的方式进行表格识别,若受到表格图像质量等因素的影响,提取出来的表格线条可能会不连续或是检测错误,继而会导致识别得到的表格结构有误,识别准确率较低。
基于此,本发明技术方案通过识别图像中的表格区域,并针对于该表格区域识别各个单元格的端点以及相邻端点之间的连接关系,不再依赖于线条识别,避免了表格线条不连续或检测错误而导致的表格识别错误,提高了表格的识别准确率。
根据本发明实施例,提供了一种表格识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种表格识别方法,可用于上述的移动终端,如手机、电脑、平板电脑等,图1是根据本发明实施例的表格识别方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取待识别图像。
待识别图像为包含表格的图像。电子设备可以通过响应用户的截图指令以获取待识别图像,还可以通过响应用户调用的摄像功能获取待识别图像,还可以是通过响应用户的上传指令以获取待识别图像。当然还可以通过其他方式获取,此处不作具体限定。
S12,将待识别图像输入至预设表格检测模型中,从待识别图像中识别出表格图像。
预设表格检测模型为基于YOLO V5的关键点检测模型。具体地,采集待训练的样本图像,样本图像中包含有表格图像,将样本图像作为输入,样本表格图像以及样本表格图像与样本图像的位置对应关系作为输出,对YOLO V5模型进行训练,得到表格检测模型。其中,位置对应关系表示样本表格图像在样本图像中的位置以及样本表格图像的边框端点位置。
将训练好的表格检测模型部署至电子设备中,当电子设备获取到待识别图像后,将该待识别图像输入至表格检测模型以使其进行表格检测,输出待识别图像中的表格图像以及表格图像在待识别图像中的位置对应关系。
S13,将表格图像输入至预设表格识别模型中,确定表格图像中各个单元格的端点坐标以及各个端点之间的连接关系。
预设表格识别模型为基于UNet模型的关键点识别模型。具体地,采集样本表格图像,样本表格中包含有单元格,将样本表格图像作为输入,样本表格图像中各单元格的端点坐标以及各端点之间的连接关系作为输出,对UNet模型进行训练,得到表格识别模型。其中,各单元格的端点坐标包括各端点区域的中心点在样本表格图像中的坐标信息;各端点之间的连接关系用于表征两个端点是否为同一单元格内相邻的两个端点。
将训练好的表格检测模型部署至电子设备中,当电子设备获取到待识别图像后,将该待识别图像输入至表格检测模型以使其进行表格检测,输出表格图像中各个单元格的端点坐标以及各个端点之间的连接关系,例如横向连接关系、纵向连接关系等。
S14,基于端点坐标以及连接关系,生成目标表格。
根据各个单元格的端点坐标确定各个单元格所处的行位置以及列位置,并根据各个端点之间的连接关系生成单元格的连接线(例如横向连接线、纵向连接线等),继而,根据各个连接线之间的几何关系生成目标表格。
本实施例提供的表格识别方法,通过识别表格图像中各个单元格的端点坐标以及相邻端点之间的连接关系,继而确定出各个单元格的位置,以确定图像中的目标表格。该方法不依赖于表格线的提取,通过端点提取以及端点连接关系提取实现了表格识别,保证了表格结构的识别精度,提高了表格信息的识别准确率。
在本实施例中提供了一种表格识别方法,可用于上述的移动终端,如手机、电脑、平板电脑等,图2是根据本发明实施例的表格识别方法的流程图,如图2所示,该流程包括如下步骤:
S21,获取待识别图像。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S22,将待识别图像输入至预设表格检测模型中,从待识别图像中识别出表格图像。
具体地,上述步骤S22可以包括:
S221,基于预设表格检测模型识别待识别图像,获取表格区域以及表格区域对应的边框端点。
边框端点为构成表格外框的四个端点。如上文所述,电子设备中部署有预设表格检测模型,预设表格检测模型可以对电子设备所获取到的待识别图像进行表格检测,以输出待识别图像中所存在的表格区域,并对构成表格区域的表格外框端点进行识别,输出表格区域所对应的边框端点。
S222,基于边框端点确定表格区域是否满足表格属性条件。
表格属性条件为预先设定的表格外框所具备的属性条件,具体地,表格区域对应的外框多边形应为矩形。电子设备根据其识别到的边框端点可以生成表格区域所对应的外框多边形,将该外框多边形与表格属性条件进行对比,确定其是否满足表格外框所具备的属性条件。当其不满足表格属性条件时,执行步骤S223,否则将边框端点所构成的多边形作为表格区域的外框多边形。
S223,当表格区域不满足表格属性条件时,基于边框端点矫正表格区域,得到表格图像。
当表格区域不满足表格属性条件时,表示表格区域对应的外框多边形发生了扭曲或者表格区域对应的外框多边形存在旋转角度。此时,电子设备可以通过识别到的边框端点构建表格区域的外接矩形,以对表格区域进行矫正,得到经过矫正的表格图像。
具体地,上述步骤S223可以包括:
(1)基于边框端点确定表格区域对应的最小外接矩形。
(2)基于最小外接矩形的宽度和高度进行透视变换,得到边框端点到透视变换坐标的透视变换矩阵。
(3)基于透视变换矩阵以及最小外接矩形对待识别图像中的表格区域进行矫正,得到表格图像。
在本实施例中,首先,根据表格区域的四个边框端点的坐标(记为src_p)计算最小外接矩形,并确定最小外接矩形的宽度(记为img_crop_width)和高度(img_crop_height)。其次,根据最小外接矩形的宽度和高度进行透视变换,计算经过透视变换之后的边框端点坐标(记为dst_p),具体地,该边框端点坐标可以表示为:[[0,0],[img_crop_width,0],[img_crop_width,img_crop_height],[0,img_crop_height]]。再次,调用OpenCV的cv2.getPerspectiveTransform函数,得到坐标scr_p到坐标dst_p的透视变换矩阵。继而,调用OpenCV的cv2.warpPerspective,结合待识别图像、透视变换矩阵以及最小外接矩形的宽度和高度,得到经过矫正的表格图像。
通过边框端点对表格区域的外框进行矫正,以得到经过矫正的表格图像,避免因纸张褶皱等因素而导致边框扭曲,实现了针对于表格外框的精准识别。
S23,将表格图像输入至预设表格识别模型中,确定表格图像中各个单元格的端点坐标以及各个端点之间的连接关系。
具体地,上述步骤S23可以包括:
S231,基于预设表格识别模型提取表格图像的端点区域特征图以及端点连接关系特征图。
端点区域特征图用于表征表格图像中各单元格端点位置的置信度特征图,端点连接关系特征图用于表征各个单元格端点与其相邻单元格端点之间的连接关系。
如上文所述,电子设备中部署有预设表格识别模型,通过预设表格识别模型可以对表格图像中各个单元格的端点区域的中心点像素进行检测,以确定各个单元格的端点位置的置信度,将置信度较高的像素点位置作为单元格的端点位置,由此即可得到各个单元格的端点区域特征图。
端点连接关系特征图包括横向连接关系特征图和纵向连接关系特征图。在进行端点位置识别的同时,检测各个端点位置与其相邻单元格端点是否为同一单元格在横向方向上的相邻端点,或者,检测各个端点位置与其相邻单元格端点是否为同一单元格在纵向方向上的相邻端点。
S232,对端点区域特征图进行池化操作,得到端点区域池化特征图。
电子设备对单元格的端点区域特征图(记为corner_map)进行最大池化操作,得到端点区域池化特征图(记为corner_pool_map),即池化后的端点区域特征图。
S233,从端点区域池化特征图中提取各个单元格的端点坐标。
电子设备从端点区域池化特征图中提取针对于端点位置的像素值,并从端点区域特征图中提取针对于端点位置的像素值。继而,对corner_map与corner_pool_map中的像素值进行对比,根据像素值的对比结果确定出各个单元格的端点坐标。
具体地,上述步骤S233可以包括:
(1)获取端点区域特征图中各个端点区域的第一像素值,以及端点区域池化特征图中各个端点区域的第二像素值。
(2)从第一像素对比第一像素值和第二像素值,确定出第一像素值与第二像素值相同且均大于预设像素值的多个目标像素点。
(3)对多个目标像素点的坐标进行排序,得到各个单元格的端点坐标。
第一像素值为端点区域特征图中针对于端点位置区域的像素值;第二像素值为端点区域池化特征图中针对于端点位置区域的像素值。电子设备可以根据端点位置的置信度确定出各个单元格的端点位置,由此根据该置信度即可从端点区域特征图中提取第一像素值,从端点区域池化特征图中的提取对应位置的第二像素值。
将端点区域所对应的第一像素值与第二像素值进行对比,确定出第一像素值与第二像素值相等的多个像素点,继而将各个像素点所对应的像素值与预设像素值进行比较,从多个像素点中确定出像素值大于预设像素值的多个目标像素点,并确定出多个目标像素点的坐标。其中,预设像素值为预先设定的端点像素值,例如0.5,此处对预设像素值不作限定,本领域技术人员可以根据实际需求予以确定。
将各个目标像素点的坐标确定为端点坐标,并将各个坐标按照一定的顺序进行排序(例如:以表格外框的左上角端点作为原点,将各个坐标按照从左到右、从上到下的顺序进行排序;或者,以表格外框的左上角端点作为原点,将各个坐标按照从上到下、从左到右的顺序进行排序),输出按行排序的各单元格的端点坐标与按列排序的各单元格的端点坐标。
通过检测像素值以确定出作为单元格端点的目标像素点,继而根据像素点的坐标进行排序,得到每行单元格以及每列单元格的端点坐标,继而根据端点坐标进行单元格还原,提高了单元格的识别精度。
作为一种可选的实施方式,上述步骤(3)具体可以包括:
(31)将多个目标像素点的坐标按照预设的行排序方式进行行排列,得到行排序结果。
(32)遍历行排序结果中各个目标像素点的纵坐标,确定相邻两个目标像素点的纵坐标之差是否小于第一预设阈值。
(33)当相邻两个目标像素点的纵坐标之差小于第一预设阈值时,判定相邻两个目标像素点处于同一行。
(34)确定每行的起始单元格端点坐标和终点单元格端点坐标,得到按行排序的各个单元格的端点坐标。
在本实施例中,首先按照各个单元格的端点坐标中的纵坐标y进行从小到大的排序;其次,按照各单元格端点坐标中的横坐标x进行从小到大的排序;再次,遍历排序后的各个单元格的端点坐标,计算各个单元格的端点坐标中的纵坐标y与其相邻的下一个单元格的端点坐标中的纵坐标y进行作差处理,得到纵坐标之差;再次,将该纵坐标之差与第一预设阈值进行对比,以确定该纵坐标之差是否小于第一预设阈值,若该纵坐标之差小于第一预设阈值,表示相邻两个目标像素点处于同一行,即相邻两个端点属于同一行单元格的两个端点,其中,第一预设阈值为预先设定的同一行单元格的纵坐标差值;继而,根据每行单元格的端点坐标可以确定出表格图像中每行单元格端点的起始单元格端点坐标与终点单元格端点坐标;最后,输出按行排序的各单元格端点的坐标信息。
通过预设的行排序方式对多个目标像素点的坐标进行排列,以便确定出处于同一行的各个单元格的端点坐标,提高了单元格的行识别准确度。
作为一种可选的实施方式,上述步骤(3)具体可以包括:
(41)将多个目标像素点的坐标按照预设的列排序方式进行列排列,得到列排序结果。
(42)遍历列排序结果中各个目标像素点的横坐标,确定相邻两个目标像素点的横坐标之差是否小于第二预设阈值。
(43)当相邻两个目标像素点的纵坐标之差小于第二预设阈值时,判定相邻两个目标像素点处于同一列。
(44)确定每列的起始单元格端点坐标和终点单元格端点坐标,得到按列排序的各个单元格的端点坐标。
在本实施例中,首先按照各个单元格的端点坐标中的横坐标x进行从小到大的排序;其次,按照各单元格端点坐标中的纵坐标y进行从小到大的排序;再次,遍历排序后的各个单元格的端点坐标,计算各个单元格的端点坐标中的横坐标x与其相邻的下一个单元格的端点坐标中的横坐标x进行作差处理,得到横坐标之差;再次,将该横坐标与之差第二预设阈值进行对比,以确定该横坐标之差是否小于第二预设阈值,若该横坐标之差小于第二预设阈值,表示相邻两个目标像素点处于同一列,即相邻两个端点属于同一列单元格的两个端点,其中,第二预设阈值为预先设定的同一列单元格的横坐标差值;继而,根据每行单元格的端点坐标可以确定出表格图像中每列单元格端点的起始单元格端点坐标与终点单元格端点坐标;最后,输出按列排序的各单元格端点的坐标信息。
通过预设的列排序方式对多个目标像素点的坐标进行排列,以便确定出处于同一列的各个单元格的端点坐标,提高了单元格的列识别准确度。
S234,对连接关系特征图进行二值化处理,得到二值化连接关系特征图。
二值化连接关系特征图包括二值化的横向连接关系特征图和纵向连接关系特征图。具体地,电子设备对单元格的横向连接关系特征图(记为hori_affinity_map)进行二值化操作,得到二值化后的相邻单元格端点横向连接关系特征图(记为hori_affinity_bin_map)。同时,对单元格的纵向连接关系特征图(记为vert_affinity_map)进行二值化操作,得到二值化后的相邻单元格端点纵向连接关系特征图(记为vert_affinity_bin_map)。
S235,从二值化连接关系特征图中提取各个端点之间的连接关系。
对于二值化后的横向连接关系特征图hori_affinity_bin_map以及纵向连接关系特征图vert_affinity_bin_map采用高斯热力图描述各个单元格端点与其相邻单元格端点之间是否存在横向连接关系或纵向连接关系。具体地,若两个端点之间存在横向连接关系或纵向连接关系,则在两个端点之间存在以两个端点为起始点与终止点的高斯热力图,若两个端点之间不存在横向连接关系或纵向连接关系,则两个端点之间不存在高斯热力图。
具体地,上述步骤S235可以包括:
(1)获取二值化连接关系特征图中的相邻端点坐标。
(2)基于相邻端点坐标,确定相邻端点之间的连线像素点点集。
(3)当连线像素点点集对应的像素均值大于第三预设阈值时,判定相邻端点之间存在连接关系。
其中,连接关系包括横向连接关系和纵向连接关系。
第三预设阈值表示预先设定的具备连接关系时的像素阈值,该第三预设阈值包括横向连接关系阈值和纵向连接关系阈值。
具体地,判定相邻端点之间是否存在横向连接关系的过程如下:
首先,遍历二值化后的横向连接关系特征图hori_affinity_bin_map中按行排序的各个单元格的端点坐标,比较相邻端点坐标之间的关系,以x坐标较小的单元格端点为hp1,x坐标较大的单元格端点为hp2;其次,在二值化后的横向连接关系特征图hori_affinity_bin_map上,获取位于端点hp1到端点hp2之间的横向连线像素点点集hp_list;再次,计算横向连线像素点点集hp_list的横向像素平均值,记为hp_score;继而,将横向像素平均值hp_score与横向连接关系阈值hp_thr进行比较,若横向像素平均值hp_score大于横向连接关系阈值hp_thr,表示端点hp1与端点hp2之间存在横向连接关系,若横向像素平均值hp_score小于横向连接关系阈值hp_thr,表示端点hp1与端点hp2之间不存在横向连接关系。
具体地,判定相邻端点之间是否存在纵向连接关系的过程如下:
首先,遍历二值化后的纵向连接关系特征图vert_affinity_bin_map中按列排序的各个单元格的端点坐标,比较相邻端点坐标之间的关系,以y坐标较小的单元格端点为vp1,y坐标较大的单元格端点为vp2;其次,在二值化后的纵向连接关系特征图vert_affinity_bin_map上,获取位于端点vp1到端点vp2之间的纵向连线像素点点集vp_list;再次,计算纵向连线像素点点集vp_list的纵向像素平均值,记为vp_score;继而,将纵向像素平均值vp_score与纵向连接关系阈值vp_thr进行比较,若纵向像素平均值vp_score大于纵向连接关系阈值vp_thr,表示端点vp1与端点vp2之间存在纵向连接关系,若纵向像素平均值vp_score小于纵向连接关系阈值vp_thr,表示端点vp1与端点vp2之间不存在纵向连接关系。
通过检测相邻端点之间的连线像素点点集的像素均值,以确定相邻端点之间是否存在连接关系,由此能够根据端点坐标确定相应的横向连接关系和纵向连接关系,实现了相邻端点之间的连线,从而实现了单元格的准确识别。
S24,基于端点坐标以及连接关系,生成目标表格。详细说明参见上述实施例对应的相关描述,此处不再赘述。
本实施例提供的表格识别方法,通过检测表格区域的边框端点是否满足表格属性条件,以便在检测到不满足表格属性条件的表格区域时,对其进行矫正,得到满足表格属性条件的表格区域,由此能够克服因表格图像旋转或扭曲等问题所导致的表格结构识别不准确的问题,最大程度上保证了表格图像的识别精度。通过提取各个单元格的端点坐标以及各个端点之间的连接关系,以便根据各个端点之间的连接关系生成各个单元格,由此不必依赖于表格线条,避免了因线条扭曲或不连续而导致表格识别不准确的问题。
在本实施例中提供了一种表格识别方法,可用于上述的移动终端,如手机、电脑、平板电脑等,图3是根据本发明实施例的表格识别方法的流程图,如图3所示,该流程包括如下步骤:
S31,获取待识别图像。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S32,将待识别图像输入至预设表格检测模型中,从待识别图像中识别出表格图像。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S33,将表格图像输入至预设表格识别模型中,确定表格图像中各个单元格的端点坐标以及各个端点之间的连接关系。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S34,基于端点坐标以及连接关系,生成目标表格。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S35,确定各个单元格在目标表格中的目标位置。
目标位置用于表征各个单元所处行位置以及所处列位置。具体地,电子设备可以根据各个单元格的端点坐标确定其在目标表格中的行坐标以及列坐标,结合行坐标以及列坐标即可确定出单元格在目标表格中的目标位置。
S36,对各个单元格中的文本信息进行检测,得到文本信息。
电子设备中部署有文本检测模型和文本识别模型。其中,文本检测模型用于识别各个单元格所对应的文本区域,该文本检测模型为基于dbNet、EAST等网络模型的深度学习模型;文本识别模型用于识别文本区域中的文本信息,该文本识别模型为基于CRNN,SVTR等网络模型的深度学习模型。
通过文本检测模型对各个单元格中的文本框进行检测,从单元格中提取出文本区域,并通过文本识别模型对检测到的文本区域进行文本识别,得到各个单元格中的文本信息。
S37,基于目标位置与文本信息,生成目标表格信息。
将各个单元格在目标表格中的目标位置以及各个单元格对应的文本信息进行合并,将文本信息填充至相应的单元格中,生成表格图像所对应的目标表格信息。
本实施例提供的表格识别方法,通过各个单元格的目标位置识别相应的文本信息,根据目标位置和文本信息确定出目标表格信息,由此实现了单元格及其文本信息的匹配。
在本实施例中还提供了一种表格识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种表格识别装置,如图4所示,包括:
获取模块41,用于获取待识别图像。
表格检测模块42,用于将待识别图像输入至预设表格检测模型中,从待识别图像中识别出表格图像。
表格识别模块43,用于将表格图像输入至预设表格识别模型中,确定表格图像中各个单元格的端点坐标以及各个端点之间的连接关系。
生成模块44,用于基于端点坐标以及连接关系,生成目标表格。
可选地,上述表格检测模块42具体包括:
端点获取子模块,用于基于预设表格检测模型识别待识别图像,获取表格区域以及表格区域对应的边框端点。
属性判断子模块,用于基于边框端点确定表格区域是否满足表格属性条件。
矫正子模块,用于当表格区域不满足表格属性条件时,基于边框端点矫正表格区域,得到表格图像。
具体地,上述矫正子模块用于:基于边框端点确定表格区域对应的最小外接矩形;基于最小外接矩形的宽度和高度进行透视变换,得到边框端点到透视变换坐标的透视变换矩阵;基于透视变换矩阵以及最小外接矩形对待识别图像中的表格区域进行矫正,得到表格图像。
可选地,上述表格识别模块43具体包括:
第一提取子模块,用于基于预设表格识别模型提取表格图像的端点区域特征图以及端点连接关系特征图。
池化子模块,用于对端点区域特征图进行池化操作,得到端点区域池化特征图。
第二提取子模块,用于从端点区域池化特征图中提取各个单元格的端点坐标。
二值化子模块,用于对连接关系特征图进行二值化处理,得到二值化连接关系特征图。
第三提取子模块,用于从二值化连接关系特征图中提取各个端点之间的连接关系。
具体地,上述第二提取子模块用于:获取端点区域特征图中各个端点区域的第一像素值,以及端点区域池化特征图中各个端点区域的第二像素值;从第一像素对比第一像素值和第二像素值,确定出第一像素值与第二像素值相同且均大于预设像素值的多个目标像素点;对多个目标像素点的坐标进行排序,得到各个单元格的端点坐标。
可选地,上述第二提取子模块具体还用于:将多个目标像素点的坐标按照预设的行排序方式进行行排列,得到行排序结果;遍历行排序结果中各个目标像素点的纵坐标,确定相邻两个目标像素点的纵坐标之差是否小于第一预设阈值;当相邻两个目标像素点的纵坐标之差小于第一预设阈值时,判定相邻两个目标像素点处于同一行;确定每行的起始单元格端点坐标和终点单元格端点坐标,得到按行排序的各个单元格的端点坐标。
可选地,上述第二提取子模块具体还用于:将多个目标像素点的坐标按照预设的列排序方式进行列排列,得到列排序结果;遍历列排序结果中各个目标像素点的横坐标,确定相邻两个目标像素点的横坐标之差是否小于第二预设阈值;当相邻两个目标像素点的纵坐标之差小于第二预设阈值时,判定相邻两个目标像素点处于同一列;确定每列的起始单元格端点坐标和终点单元格端点坐标,得到按列排序的各个单元格的端点坐标。
具体地,上述第三提取子模块用于:获取二值化连接关系特征图中的相邻端点坐标;基于相邻端点坐标,确定相邻端点之间的连线像素点点集;当连线像素点点集对应的像素均值大于第三预设阈值时,判定相邻端点之间存在连接关系。其中,连接关系包括横向连接关系和纵向连接关系。
可选地,上述表格识别装置还可以包括:
位置确定模块,用于确定各个单元格在目标表格中的目标位置。
文本检测模块,用于对各个单元格中的文本信息进行检测,得到文本信息。
表格信息生成模块,用于基于目标位置与文本信息,生成目标表格信息。
本实施例中的表格识别装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块以及各个子模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例提供的表格识别装置,通过识别表格图像中各个单元格的端点坐标以及相邻端点之间的连接关系,继而确定出各个单元格的位置,以确定图像中的目标表格。由此,无需依赖于表格线的提取,通过端点提取以及端点连接关系提取实现了表格识别,保证了表格结构的识别精度,提高了表格信息的识别准确率。
本发明实施例还提供一种电子设备,具有上述图4所示的表格识别装置。
请参阅图5,图5是本发明可选实施例提供的一种电子设备的结构示意图,如图5所示,该电子设备可以包括:至少一个处理器501,例如中央处理器(Central ProcessingUnit,CPU),至少一个通信接口503,存储器504,至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,通信接口503可以包括显示屏(Display)、键盘(Keyboard),可选通信接口503还可以包括标准的有线接口、无线接口。存储器504可以是高速易挥发性随机存取存储器(Random Access Memory,RAM),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器504可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图4所描述的装置,存储器504中存储应用程序,且处理器501调用存储器504中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线502可以是外设部件互连标准(peripheral componentinterconnect,PCI)总线或扩展工业标准结构(extended industry standardarchitecture,EISA)总线等。通信总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器504可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器504还可以包括上述种类的存储器的组合。
其中,处理器501可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP)或者CPU和NP的组合。
其中,处理器501还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmablelogic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
可选地,存储器504还用于存储程序指令。处理器501可以调用程序指令,实现如本申请上述实施例中所示的表格识别方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的表格识别方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (12)

1.一种表格识别方法,其特征在于,包括:
获取待识别图像;
将所述待识别图像输入至预设表格检测模型中,从所述待识别图像中识别出表格图像;
将所述表格图像输入至预设表格识别模型中,确定所述表格图像中各个单元格的端点坐标以及各个端点之间的连接关系;
基于所述端点坐标以及所述连接关系,生成目标表格。
2.根据权利要求1所述的方法,其特征在于,所述将所述待识别图像输入至预设表格检测模型中,从所述待识别图像中识别出表格图像,包括:
基于所述预设表格检测模型识别所述待识别图像,获取表格区域以及所述表格区域对应的边框端点;
基于所述边框端点确定所述表格区域是否满足表格属性条件;
当所述表格区域不满足表格属性条件时,基于所述边框端点矫正所述表格区域,得到所述表格图像。
3.根据权利要求2所述的方法,其特征在于,所述基于所述边框端点矫正所述表格区域,得到所述表格图像,包括:
基于所述边框端点确定所述表格区域对应的最小外接矩形;
基于所述最小外接矩形的宽度和高度进行透视变换,得到所述边框端点到透视变换坐标的透视变换矩阵;
基于所述透视变换矩阵以及所述最小外接矩形对所述待识别图像中的表格区域进行矫正,得到所述表格图像。
4.根据权利要求1所述的方法,其特征在于,所述将所述表格图像输入至预设表格识别模型中,确定所述表格图像中各个单元格的端点坐标以及各个端点之间的连接关系,包括:
基于所述预设表格识别模型提取所述表格图像的端点区域特征图以及端点连接关系特征图;
对所述端点区域特征图进行池化操作,得到端点区域池化特征图;
从所述端点区域池化特征图中提取所述各个单元格的端点坐标;
对所述连接关系特征图进行二值化处理,得到二值化连接关系特征图;
从所述二值化连接关系特征图中提取所述各个端点之间的连接关系。
5.根据权利要求4所述的方法,其特征在于,所述从所述端点区域池化特征图中提取所述各个单元格的端点坐标,包括:
获取所述端点区域特征图中各个端点区域的第一像素值,以及所述端点区域池化特征图中各个端点区域的第二像素值;
从所述第一像素对比所述第一像素值和所述第二像素值,确定出所述第一像素值与所述第二像素值相同且均大于预设像素值的多个目标像素点;
对所述多个目标像素点的坐标进行排序,得到所述各个单元格的端点坐标。
6.根据权利要求5所述的方法,其特征在于,所述对所述多个目标像素点的坐标进行排序,得到所述各个单元格的端点坐标,包括:
将所述多个目标像素点的坐标按照预设的行排序方式进行行排列,得到行排序结果;
遍历所述行排序结果中各个所述目标像素点的纵坐标,确定相邻两个所述目标像素点的纵坐标之差是否小于第一预设阈值;
当相邻两个所述目标像素点的纵坐标之差小于所述第一预设阈值时,判定相邻两个所述目标像素点处于同一行;
确定每行的起始单元格端点坐标和终点单元格端点坐标,得到按行排序的所述各个单元格的端点坐标。
7.根据权利要求5或6所述的方法,其特征在于,所述对所述多个目标像素点的坐标进行排序,得到所述各个单元格的端点坐标,包括:
将所述多个目标像素点的坐标按照预设的列排序方式进行列排列,得到列排序结果;
遍历所述列排序结果中各个所述目标像素点的横坐标,确定相邻两个所述目标像素点的横坐标之差是否小于第二预设阈值;
当相邻两个所述目标像素点的纵坐标之差小于所述第二预设阈值时,判定相邻两个所述目标像素点处于同一列;
确定每列的起始单元格端点坐标和终点单元格端点坐标,得到按列排序的所述各个单元格的端点坐标。
8.根据权利要求4所述的方法,其特征在于,所述从所述二值化连接关系特征图中提取所述各个端点之间的连接关系,包括:
获取所述二值化连接关系特征图中的相邻端点坐标;
基于所述相邻端点坐标,确定相邻端点之间的连线像素点点集;
当所述连线像素点点集对应的像素均值大于第三预设阈值时,判定所述相邻端点之间存在连接关系;
其中,所述连接关系包括横向连接关系和纵向连接关系。
9.根据权利要求1所述的方法,其特征在于,还包括:
确定所述各个单元格在所述目标表格中的目标位置;
对所述各个单元格中的文本信息进行检测,得到文本信息;
基于所述目标位置与所述文本信息,生成目标表格信息。
10.一种表格识别装置,其特征在于,包括:
获取模块,用于获取待识别图像;
表格检测模块,用于将所述待识别图像输入至预设表格检测模型中,从所述待识别图像中识别出表格图像;
表格识别模块,用于将所述表格图像输入至预设表格识别模型中,确定所述表格图像中各个单元格的端点坐标以及各个端点之间的连接关系;
生成模块,用于基于所述端点坐标以及所述连接关系,生成目标表格。
11.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-9任一项所述的表格识别方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-9任一项所述的表格识别方法。
CN202310001887.5A 2023-01-03 2023-01-03 一种表格识别方法、装置、设备及可读存储介质 Pending CN116311318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310001887.5A CN116311318A (zh) 2023-01-03 2023-01-03 一种表格识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310001887.5A CN116311318A (zh) 2023-01-03 2023-01-03 一种表格识别方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116311318A true CN116311318A (zh) 2023-06-23

Family

ID=86785862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310001887.5A Pending CN116311318A (zh) 2023-01-03 2023-01-03 一种表格识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116311318A (zh)

Similar Documents

Publication Publication Date Title
CN110046529B (zh) 二维码识别方法、装置及设备
CN110060237B (zh) 一种故障检测方法、装置、设备及系统
WO2020140698A1 (zh) 表格数据的获取方法、装置和服务器
CN110647882A (zh) 图像校正方法、装置、设备及存储介质
CN110866871A (zh) 文本图像矫正方法、装置、计算机设备及存储介质
CN111680690B (zh) 一种文字识别方法及装置
CN111368638A (zh) 电子表格的创建方法、装置、计算机设备和存储介质
CN109977944B (zh) 一种数字水表读数的识别方法
CN111737478B (zh) 文本检测方法、电子设备及计算机可读介质
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN111461070B (zh) 文本识别方法、装置、电子设备及存储介质
CN113486828A (zh) 图像处理方法、装置、设备和存储介质
CN111626249B (zh) 题目图像中几何图形的识别方法、装置和计算机存储介质
WO2021190155A1 (zh) 文本行中的空格识别方法、装置、电子设备及存储介质
CN109508716B (zh) 一种图像文字的定位方法及装置
CN112419207A (zh) 一种图像矫正方法及装置、系统
CN114119410B (zh) 校正畸变表格图像中的单元格的方法及装置
CN108304840B (zh) 一种图像数据处理方法以及装置
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN110751156A (zh) 用于表格线大块干扰去除方法、系统、设备及介质
CN111738272A (zh) 一种目标特征提取方法、装置及电子设备
CN113569859A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN113392455A (zh) 基于深度学习的户型图比例尺检测方法、装置及电子设备
CN112528724A (zh) 表格单元格抽出方法、装置、设备及计算机可读存储介质
CN116311318A (zh) 一种表格识别方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination