CN110210400A

CN110210400A - 一种表格文件检测方法及设备

Info

Publication number: CN110210400A
Application number: CN201910477150.4A
Authority: CN
Inventors: 周康明
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-09-06
Anticipated expiration: 2039-06-03
Also published as: CN110210400B

Abstract

本申请的目的是提供一种表格文件检测方法及设备，本申请通过获取输入图像，从所述输入图像中提取表格区域；对所述表格区域进行透视变换以及矫正得到处理后的表格区域图像；对所述处理后的表格区域图像进行图像裁剪并进行文本检测；将检测到的文本区域按照文本拼接顺序输出。从而适应复杂背景状态以及多种类型表格的文本检测，实用范围广，大大减小了针对每种表格做特殊处理时造成的资源浪费，后续维护简单，节约人工的同时降低了成本，实用价值高。

Description

一种表格文件检测方法及设备

技术领域

本申请涉及表格文件领域，尤其涉及一种表格文件检测方法及设备。

背景技术

在机动车安全技术检验的过程中，表格类项目的检验效率在整个检验过程中起着十分重要的作用，如机动车牌证申请表的检测、污染物检测报告单、机动车交通事故责任强制保险单等。一般车检表格类项目的检验流程分为“表格线矫正”、“兴趣文本检测”及“文本识别”三个模块，而由于拍摄不规范等问题，使得表格区域在图像中面积比不同，背景区域过大会对后续检测造成不良影响，且每一种类型表格的兴趣文本区域各异，在“兴趣文本检测”过程中需要根据不同表格的兴趣文本做不同的处理，这样会造成系统模块庞杂，维护成本高，检验效率低下。

发明内容

本申请的一个目的是提供一种表格文件检测方法及设备，解决现有技术中背景过大对表格文本检测的影响以及维护成本高、检验效率低的问题。

根据本申请的一个方面，提供了一种表格文件检测方法，该方法包括：

获取输入图像，从所述输入图像中提取表格区域；

对所述表格区域进行透视变换以及矫正得到处理后的表格区域图像；

对所述处理后的表格区域图像进行图像裁剪并进行文本检测；

将检测到的文本区域按照文本拼接顺序输出。

进一步地，所述方法还包括：

获取多个实际分布的图像；

使用四边形标注所述多个实际分布的图像中的表格区域，得到标注后的表格区域；

基于标注后的表格区域、预设损失函数及预设学习速率进行训练，得到预设的回归四边形检测模型，其中，所述预设损失函数由区域候选网络的相关信息确定。

进一步地，从所述输入图像中提取表格区域，包括：

根据所述预设的回归四边形检测模型检测表格区域的外接四边形，得到预测结果；

根据所述预测结果确定所述表格区域。

进一步地，所述预测结果满足以下条件：

其中，(P_x1，P_y1，P_x2，P_y2，P_x3，P_y3，P_x4，P_y4)表示所述预测结果中由左上角开始，顺时针方向上四个顶点的值；(G_x，G_y，G_w，G_h)表示所述区域候选网络的边框的左上角坐标以及边框宽和高的值； (d_x1(G)，d_y1(G)，d_x2(G)，d_y2(G)，d_x3(G)，d_y3(G)，d_x4(G)，d_y4(G))为所述预设的回归四边形检测模型的待学习参数。

进一步地，所述预设损失函数由区域候选网络的相关信息确定，包括由以下条件确定：

其中，α，σ分别表示分类损失函数和位置回归损失函数对所述预设损失函数的贡献比例，p表示当前框是目标的概率，p′表示当前框有目标则为1没有目标则为0，l表示预测框的位置，l′表示标注表格区域时的位置信息。

进一步地，对所述表格区域进行透视变换以及矫正得到处理后的表格区域图像，包括：

根据预设的透视变换规则对所述表格区域进行变换，得到变换后的表格区域的四个顶点的坐标，对变换后的表格区域进行矫正，得到处理后的表格区域图像，其中，所述预设透视变换规则为：

[x′，y′，w]＝F_p([x，y，1])；

其中，(x，y)为所述表格区域中的点，(x′/w，y′/w)为变换后的表格区域中的点，F_p为透视变换矩阵。

进一步地，对所述处理后的表格区域图像进行图像裁剪并进行文本检测，包括：

对所述处理后的表格区域图像按照预设像素进行缩放；

将缩放后的图像按照预设重叠比例进行滑窗裁剪，生成表格文本块组合；

使用矩形框标注所述文本块组合，作为训练样本；

根据所述训练样本、固有损失函数以及对应的学习速率对改进的SSD 目标检测模型进行训练，生成文本检测模型；

根据所述文本检测模型检测所述处理后的表格区域图像中的文本区域。

进一步地，所述改进的SSD目标检测模型是由对SSD的多层特征融合进行调整以及默认框的宽高比进行调整后确定的。

进一步地，将检测到的文本区域按照文本拼接顺序输出，包括：

按照裁剪时的顺序将所述文本块组合重叠还原，得到还原后的文本框；

将所述文本块组合中每一文本块上文本区域坐标信息转换为左上顶角图像的坐标系下；

将所述还原后的文本框的面积大于预设比例的文本框进行矩形框融合；

根据预设拼接方向将融合后的文本框进行输出。

根据本申请另一个方面，还提供了一种表格文件检测的设备，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。

根据本申请又一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述所述的方法。

与现有技术相比，本申请通过获取输入图像，从所述输入图像中提取表格区域；对所述表格区域进行透视变换以及矫正得到处理后的表格区域图像；对所述处理后的表格区域图像进行图像裁剪并进行文本检测；将检测到的文本区域按照文本拼接顺序输出。从而适应复杂背景状态以及多种类型表格的文本检测，实用范围广，大大减小了针对每种表格做特殊处理时造成的资源浪费，后续维护简单，节约人工的同时降低了成本，实用价值高。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一个方面提供的一种表格文件检测方法流程示意图；

图2示出本申请一实施例中使用一般四边形回归示意图；

图3示出本申请一实施例中透视变换示意图；

图4示出本申请一实施例中表格图像裁剪示意图；

图5示出本申请一实施例中文本检测模型的示意图；

图6示出本申请一实施例中文本检测模型默认框生成示意图；

图7示出本申请一实施例中表格图像拼接示意图；

图8示出本申请一实施例中表格文本检测的结构示意图；

图9示出本申请一实施例中检测流程示意图；

图10示出本申请一实施例中表格图像检测的流程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU))、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(DynamicRandom Access Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出根据本申请的一个方面提供的一种表格文件检测方法流程示意图，该方法包括：步骤S11～步骤S14，

在步骤S11中，获取输入图像，从所述输入图像中提取表格区域；在此，输入图像可以为通过拍照得到的图像，比如机动车进行车检时的有关图像，对获得的输入图像进行提取表格区域，以进行表格文件的检测。

在步骤S12中，对所述表格区域进行透视变换以及矫正得到处理后的表格区域图像；在此，对提取到的表格区域进行透视变换以及矫正处理，从而解决大背景下文本区域获取与矫正问题，解决背景过大对表格文本检测的影响。

在步骤S13中，对所述处理后的表格区域图像进行图像裁剪并进行文本检测；在此，对矫正后的表格区域图像进行裁剪，从而方便检测到表格区域中所有文本区域，进而在步骤S14中，将检测到的文本区域按照文本拼接顺序输出。按照裁剪策略反推将裁剪到的文本区域进行拼接成原图，按照拼接的顺序进行输出，实现表格文本区域的检测，为后续关键信息的识别比对提供了前提条件。

在本申请一实施例中，所述方法还包括：步骤S10，获取多个实际分布的图像；使用四边形标注所述多个实际分布的图像中的表格区域，得到标注后的表格区域；基于标注后的表格区域、预设损失函数及预设学习速率进行训练，得到预设的回归四边形检测模型，其中，所述预设损失函数由区域候选网络的相关信息确定。在此，进行表格区域的检测时，可使用本申请所述的预设的回归四边形检测模型，该预设的回归四边形检测模型是一种回归一般四边形的目标检测模型，输出结果包含候选兴趣区域的类别和四个顶点的坐标。该模型的获取通过以下方式实现：获取符合现实分布的表格图像，如车检表格图像；使用一般四边形标注图像中的车检表格区域，根据损失函数以及预设学习率驱动模型训练，得到预设的回归四边形检测模型。通过标注表格区域进行训练检测模型，使用训练出的检测模型检测出表格区域的外接四边形，并对四边形的四个顶点进行透视变换以对表格进行矫正。其中，损失函数可为L(p，p′，l，l′)，预设学习率为O.01，具体地，所述预设损失函数由区域候选网络的相关信息确定，包括由以下条件确定：

在本申请一实施例中，在步骤S11中，根据所述预设的回归四边形检测模型检测表格区域的外接四边形，得到预测结果；根据所述预测结果确定所述表格区域。在此，将原始模型回归(x，y，w，h)的矩形目标检测方式调整为回归(x1，y1，x2，y2，x3，y3，x4，y4)的一般四边形的目标检测方式，根据建立的检测模型对表格区域进行预测，根据预测结果提取出表格区域。如图2所示，通过区域候选网络(RPN)输出的默认框为G，对应的标签框为GT，该标签框为对表格区域进行标注的四边形构成的框，模型的预测结果为P，其中，G的值为(G_x，G_y，G_w，G_h)，GT的值为 (GT_x1，GT_y1GT_x2，GT_y2，GT_x3，GT_y3，GT_x4，GT_y4)，表示由标签框左上角开始，顺时针方向上四个顶点的值。P的值为(P_x1，P_y1，P_x2，P_y2，P_x3，P_y3，P_x4，P_y4)，所述预测结果满足以下条件：

其中，(P_x1，P_y1，P_x2，P_y2，P_x3，P_y3，P_x4，P_y4)表示所述预测结果中由左上角开始，顺时针方向上四个顶点的值；(G_x，G_y，G_w，G_h)表示所述区域候选网络的边框的左上角坐标以及边框宽和高的值； (d_x1(G)，d_y1(G)，d_x2(G)，d_y2(G)，d_x3(G)，d_y3(G)，d_x4(G)，d_y4(G))为所述预设的回归四边形检测模型的待学习参数。需要说明的是，待学习参数为求取P值的公式中的未知数，需要学习得到，通过学习到的参数以及求取P值的公式计算到的结果与标注的结果最大程度上近似。

在本申请一实施例中，在步骤S12中，根据预设的透视变换规则对所述表格区域进行变换，得到变换后的表格区域的四个顶点的坐标，对变换后的表格区域进行矫正，得到处理后的表格区域图像，其中，所述预设透视变换规则为：

[x′，y′，w]＝F_p([x，y，1])；

其中，(x，y))为所述表格区域中的点，(x′/w，y′/w)为变换后的表格区域中的点，F_p为透视变换矩阵。

在此，通过预设的透视变换规则将有旋转变形的表格矫正，如图3所示，对表格区域使用四边形进行标注，得到表格区域的四个顶点(A，B，C，D)，应用透视变换原理对该四个顶点进行变换，(A₁，B₁，C₁，D₁)为使用上述透视变换规则透视变换后的四边形顶点，其中，透视变换矩阵F_p如下所示：

通过(A₁,B₁,C₁,D₁)的坐标可将矫正后的表格区域从矫正后的图像中提取出来，以便后续操作。

在本申请一实施例中，在步骤S13中，对所述处理后的表格区域图像按照预设像素进行缩放；将缩放后的图像按照预设重叠比例进行滑窗裁剪，生成表格文本块组合；使用矩形框标注所述文本块组合，作为训练样本；根据所述训练样本、固有损失函数以及对应的学习速率对改进的SSD目标检测模型进行训练，生成文本检测模型；根据所述文本检测模型检测所述处理后的表格区域图像中的文本区域。在此，如图4所示，将表格区域图像缩放到像素为1200*1800的固定大小，以15％的重叠比例将表格区域图像滑窗裁剪成300*300大小的块，生成表格文本块组合，使用矩形框标注生成的文本块组合中每一文本块，根据固有损失函数L(x，c，l，g)以及学习率 0.01驱动模型训练，得到文本检测模型。其中，固有损失函数为SSD的损失函数L(x，c，l，g)：

其中，x表示当前预测框的预测类别，c表示当前预测框的类别标签， 1表示当前预测框的预测坐标值，g表示当前预测框对应的实际坐标值。

进一步地，所述改进的SSD目标检测模型是由对SSD的多层特征融合进行调整以及默认框的宽高比进行调整后确定的。在此，将SSD的多层特征融合的层数减少，优选地，将conv4_3，conv7，conv8_2，conv9_2， conv10_2，conv11_2层改为conv4_3，conv7，conv8_2，减少计算量，提升检测速度；如图5所示，输入图片大小为300*300*3，conv4_3的特征尺寸为 38*38*512，conv7的特征尺寸为19*19*1024，conv8_2的特征尺寸为 10*10*512。将默认框(default box)的生成策略改为宽高比例为{2，4，6，10}的矩形框，如图6所示；随后通过SSD的固有损失函数驱动训练，得到文本检测模型，使用该文本检测模型检测表格区域中的所有文本区域信息。

在本申请一实施例中，在步骤S14中，按照裁剪时的顺序将所述文本块组合重叠还原，得到还原后的文本框；将所述文本块组合中每一文本块上文本区域坐标信息转换为左上顶角图像的坐标系下；将所述还原后的文本框的面积大于预设比例的文本框进行矩形框融合；根据预设拼接方向将融合后的文本框进行输出。在此，进行拼接输出是，按照裁剪时的顺序将文本块组合重叠还原，将原本每一文本块上文本区域坐标信息转换成最左上角图像的坐标系下，如图7所示，将原本的文本块的文本区域坐标信息转换为标号为1的文本块图像的坐标系下。接着，将重叠面积大于10％的矩形框融合，根据由上到下、由左到右的策略输出检测到的文本框。在图 9中，“XXX表”和“abc”为文本块1中检测到的，“XX表格”为文本块 2中检测得到，“edfg”为文本块4中检测得到，根据裁剪策略反推将文本块拼接成原图，则“XXX表”和“XX表格”可以合成一个字符串区域“XXX 表格”，根据由上到下、由左到右的策略，最终输出的字符串区域为“XXX 表格”，“abc”，“edfg”。

在本申请一实施例中，如图8所示，通过表格区域获取模块和文本通用检测模块解决大背景下文本区域获取与矫正的问题，其中，表格区域获取模块包括表格区域检测单元和表格区域矫正单元，文本通用检测模块包括文本裁剪单元、文本检测单元和文本区域拼接输出单元；如图9所示的检测流程示意图，表格区域检测单元通过一般四边形的目标检测方法对获取到的图像进行标注，得到表格外接四边形的四个顶点；通过表格区域矫正单元对该四个顶点进行透视变换以矫正表格区域，通过文本裁剪单元对矫正后的表格区域进行裁剪，得到文本块组合，通过文本检测单元检测到所有文本区域，得到文本区域矩形信息，按照文本裁剪单元对应的裁剪方法对检测到的文本区域进行拼接，通过文本区域拼接输出单元1和文本区域拼接输出单元2将拼接后的文本区域信息输出。使用文本通用检测模块可以获取每一文本的区域，解决了多类型表格全文本区域获取问题，使用上述两个模块适应复杂背景状态以及多种车检表格的文本检测，易于维护，实用价值高。

在本申请一实施例中，如图10所示，获取待检测的车检表格图像，经表格区域检测单元，使用回归一般四边形的目标检测模型(预设的回归四边形检测模型)获得包围表格区域的最小外接四边形，若表格区域获取失败则直接退出，若获取成功，则应用透视变换原理对表格区域进行矫正，输出矩形的表格区域图像，对该输出矩形的表格区域图像根据文本裁剪单元的裁剪策略进行裁剪，获得统一大小的文本块组合，并使用文本检测单元的类文本长目标检测模型(文本检测模型)对每个文本块图像中的文本区域进行检测，若所有文本块中没有检测到一个文本区域，则直接退出，否则，按照文本裁剪单元对应的裁剪方法对检测到的文本区域进行拼接，并按照由上到下、由左到右的规则输出文本区域信息。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述一种表格文件检测方法。

在本申请一实施例中，还提供了一种表格文件检测的设备，所述设备包括：

一个或多个处理器；以及

例如，计算机可读指令在被执行时使所述一个或多个处理器：

获取输入图像，从所述输入图像中提取表格区域；

将检测到的文本区域按照文本拼接顺序输出。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构) 可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种表格文件检测方法，其特征在于，所述方法包括：

获取输入图像，从所述输入图像中提取表格区域；

将检测到的文本区域按照文本拼接顺序输出。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个实际分布的图像；

3.根据权利要求2所述的方法，其特征在于，从所述输入图像中提取表格区域，包括：

根据所述预测结果确定所述表格区域。

4.根据权利要求3所述的方法，其特征在于，所述预测结果满足以下条件：

其中，(P_x1，P_y1，P_x2，P_y2，P_x3，P_y3，P_x4，P_y4)表示所述预测结果中由左上角开始，顺时针方向上四个顶点的值；(G_x，G_y，G_w，G_h)表示所述区域候选网络的边框的左上角坐标以及边框宽和高的值；(d_x1(G)，d_y1(G)，d_x2(G)，d_y2(G)，d_x3(G)，d_y3(G)，d_x4(G)，d_y4(G))为所述预设的回归四边形检测模型的待学习参数。

5.根据权利要求4所述的方法，其特征在于，所述预设损失函数由区域候选网络的相关信息确定，包括由以下条件确定：

6.根据权利要求1所述的方法，其特征在于，对所述表格区域进行透视变换以及矫正得到处理后的表格区域图像，包括：

[x′，y′，w]＝F_p([x，y，l])；

7.根据权利要求1所述的方法，其特征在于，对所述处理后的表格区域图像进行图像裁剪并进行文本检测，包括：

对所述处理后的表格区域图像按照预设像素进行缩放；

使用矩形框标注所述文本块组合，作为训练样本；

根据所述训练样本、固有损失函数以及对应的学习速率对改进的SSD目标检测模型进行训练，生成文本检测模型；

8.根据权利要求7所述的方法，其特征在于，所述改进的SSD目标检测模型是由对SSD的多层特征融合进行调整以及默认框的宽高比进行调整后确定的。

9.根据权利要求7所述的方法，其特征在于，将检测到的文本区域按照文本拼接顺序输出，包括：

根据预设拼接方向将融合后的文本框进行输出。

10.一种表格文件检测的设备，其特征在于，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至9中任一项所述方法的操作。