CN110210400A - 一种表格文件检测方法及设备 - Google Patents
一种表格文件检测方法及设备 Download PDFInfo
- Publication number
- CN110210400A CN110210400A CN201910477150.4A CN201910477150A CN110210400A CN 110210400 A CN110210400 A CN 110210400A CN 201910477150 A CN201910477150 A CN 201910477150A CN 110210400 A CN110210400 A CN 110210400A
- Authority
- CN
- China
- Prior art keywords
- table area
- text
- image
- treated
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本申请的目的是提供一种表格文件检测方法及设备,本申请通过获取输入图像,从所述输入图像中提取表格区域;对所述表格区域进行透视变换以及矫正得到处理后的表格区域图像;对所述处理后的表格区域图像进行图像裁剪并进行文本检测;将检测到的文本区域按照文本拼接顺序输出。从而适应复杂背景状态以及多种类型表格的文本检测,实用范围广,大大减小了针对每种表格做特殊处理时造成的资源浪费,后续维护简单,节约人工的同时降低了成本,实用价值高。
Description
技术领域
本申请涉及表格文件领域,尤其涉及一种表格文件检测方法及设备。
背景技术
在机动车安全技术检验的过程中,表格类项目的检验效率在整个检验 过程中起着十分重要的作用,如机动车牌证申请表的检测、污染物检测报 告单、机动车交通事故责任强制保险单等。一般车检表格类项目的检验流 程分为“表格线矫正”、“兴趣文本检测”及“文本识别”三个模块,而 由于拍摄不规范等问题,使得表格区域在图像中面积比不同,背景区域过 大会对后续检测造成不良影响,且每一种类型表格的兴趣文本区域各异, 在“兴趣文本检测”过程中需要根据不同表格的兴趣文本做不同的处理, 这样会造成系统模块庞杂,维护成本高,检验效率低下。
发明内容
本申请的一个目的是提供一种表格文件检测方法及设备,解决现有技术 中背景过大对表格文本检测的影响以及维护成本高、检验效率低的问题。
根据本申请的一个方面,提供了一种表格文件检测方法,该方法包括:
获取输入图像,从所述输入图像中提取表格区域;
对所述表格区域进行透视变换以及矫正得到处理后的表格区域图像;
对所述处理后的表格区域图像进行图像裁剪并进行文本检测;
将检测到的文本区域按照文本拼接顺序输出。
进一步地,所述方法还包括:
获取多个实际分布的图像;
使用四边形标注所述多个实际分布的图像中的表格区域,得到标注后 的表格区域;
基于标注后的表格区域、预设损失函数及预设学习速率进行训练,得 到预设的回归四边形检测模型,其中,所述预设损失函数由区域候选网络 的相关信息确定。
进一步地,从所述输入图像中提取表格区域,包括:
根据所述预设的回归四边形检测模型检测表格区域的外接四边形,得 到预测结果;
根据所述预测结果确定所述表格区域。
进一步地,所述预测结果满足以下条件:
其中,(Px1,Py1,Px2,Py2,Px3,Py3,Px4,Py4)表示所述预测结果中由左上角开始, 顺时针方向上四个顶点的值;(Gx,Gy,Gw,Gh)表示所述区域候选网络的边框的 左上角坐标以及边框宽和高的值; (dx1(G),dy1(G),dx2(G),dy2(G),dx3(G),dy3(G),dx4(G),dy4(G))为所述预设的回归四边形检 测模型的待学习参数。
进一步地,所述预设损失函数由区域候选网络的相关信息确定,包括 由以下条件确定:
其中,α,σ分别表示分类损失函数和位置回归损失函数对所述预设损 失函数的贡献比例,p表示当前框是目标的概率,p′表示当前框有目标则 为1没有目标则为0,l表示预测框的位置,l′表示标注表格区域时的位置 信息。
进一步地,对所述表格区域进行透视变换以及矫正得到处理后的表格 区域图像,包括:
根据预设的透视变换规则对所述表格区域进行变换,得到变换后的表 格区域的四个顶点的坐标,对变换后的表格区域进行矫正,得到处理后的 表格区域图像,其中,所述预设透视变换规则为:
[x′,y′,w]=Fp([x,y,1]);
其中,(x,y)为所述表格区域中的点,(x′/w,y′/w)为变换后的表格区域中的 点,Fp为透视变换矩阵。
进一步地,对所述处理后的表格区域图像进行图像裁剪并进行文本检 测,包括:
对所述处理后的表格区域图像按照预设像素进行缩放;
将缩放后的图像按照预设重叠比例进行滑窗裁剪,生成表格文本块组 合;
使用矩形框标注所述文本块组合,作为训练样本;
根据所述训练样本、固有损失函数以及对应的学习速率对改进的SSD 目标检测模型进行训练,生成文本检测模型;
根据所述文本检测模型检测所述处理后的表格区域图像中的文本区 域。
进一步地,所述改进的SSD目标检测模型是由对SSD的多层特征融 合进行调整以及默认框的宽高比进行调整后确定的。
进一步地,将检测到的文本区域按照文本拼接顺序输出,包括:
按照裁剪时的顺序将所述文本块组合重叠还原,得到还原后的文本框;
将所述文本块组合中每一文本块上文本区域坐标信息转换为左上顶 角图像的坐标系下;
将所述还原后的文本框的面积大于预设比例的文本框进行矩形框融 合;
根据预设拼接方向将融合后的文本框进行输出。
根据本申请另一个方面,还提供了一种表格文件检测的设备,该设备包 括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所 述处理器执行如前述所述方法的操作。
根据本申请又一个方面,还提供了一种计算机可读介质,其上存储有计 算机可读指令,所述计算机可读指令可被处理器执行以实现如前述所述的方 法。
与现有技术相比,本申请通过获取输入图像,从所述输入图像中提取 表格区域;对所述表格区域进行透视变换以及矫正得到处理后的表格区域 图像;对所述处理后的表格区域图像进行图像裁剪并进行文本检测;将检 测到的文本区域按照文本拼接顺序输出。从而适应复杂背景状态以及多种 类型表格的文本检测,实用范围广,大大减小了针对每种表格做特殊处理 时造成的资源浪费,后续维护简单,节约人工的同时降低了成本,实用价值高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申 请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请的一个方面提供的一种表格文件检测方法流程示 意图;
图2示出本申请一实施例中使用一般四边形回归示意图;
图3示出本申请一实施例中透视变换示意图;
图4示出本申请一实施例中表格图像裁剪示意图;
图5示出本申请一实施例中文本检测模型的示意图;
图6示出本申请一实施例中文本检测模型默认框生成示意图;
图7示出本申请一实施例中表格图像拼接示意图;
图8示出本申请一实施例中表格文本检测的结构示意图;
图9示出本申请一实施例中检测流程示意图;
图10示出本申请一实施例中表格图像检测的流程示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括 一个或多个处理器(例如中央处理器(Central Processing Unit,CPU))、 输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储 器(Read Only Memory,ROM)或闪存(flash RAM)。内存是计算机可读介 质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以 由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结 构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相 变内存(Phase-Change RAM,PRAM)、静态随机存取存储器(Static Random Access Memory,SRAM)、动态随机存取存储器(DynamicRandom Access Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储 器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、快闪记忆体或其他内存技 术、只读光盘只读存储器(Compact Disc Read-OnlyMemory,CD-ROM)、 数字多功能光盘(Digital Versatile Disk,DVD)或其他光学存储、磁盒式 磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于 存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不 包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
图1示出根据本申请的一个方面提供的一种表格文件检测方法流程示 意图,该方法包括:步骤S11~步骤S14,
在步骤S11中,获取输入图像,从所述输入图像中提取表格区域;在 此,输入图像可以为通过拍照得到的图像,比如机动车进行车检时的有关 图像,对获得的输入图像进行提取表格区域,以进行表格文件的检测。
在步骤S12中,对所述表格区域进行透视变换以及矫正得到处理后的 表格区域图像;在此,对提取到的表格区域进行透视变换以及矫正处理, 从而解决大背景下文本区域获取与矫正问题,解决背景过大对表格文本检 测的影响。
在步骤S13中,对所述处理后的表格区域图像进行图像裁剪并进行文 本检测;在此,对矫正后的表格区域图像进行裁剪,从而方便检测到表格 区域中所有文本区域,进而在步骤S14中,将检测到的文本区域按照文本 拼接顺序输出。按照裁剪策略反推将裁剪到的文本区域进行拼接成原图, 按照拼接的顺序进行输出,实现表格文本区域的检测,为后续关键信息的 识别比对提供了前提条件。
在本申请一实施例中,所述方法还包括:步骤S10,获取多个实际分 布的图像;使用四边形标注所述多个实际分布的图像中的表格区域,得到 标注后的表格区域;基于标注后的表格区域、预设损失函数及预设学习速 率进行训练,得到预设的回归四边形检测模型,其中,所述预设损失函数 由区域候选网络的相关信息确定。在此,进行表格区域的检测时,可使用 本申请所述的预设的回归四边形检测模型,该预设的回归四边形检测模型 是一种回归一般四边形的目标检测模型,输出结果包含候选兴趣区域的类 别和四个顶点的坐标。该模型的获取通过以下方式实现:获取符合现实分 布的表格图像,如车检表格图像;使用一般四边形标注图像中的车检表格 区域,根据损失函数以及预设学习率驱动模型训练,得到预设的回归四边 形检测模型。通过标注表格区域进行训练检测模型,使用训练出的检测模 型检测出表格区域的外接四边形,并对四边形的四个顶点进行透视变换以 对表格进行矫正。其中,损失函数可为L(p,p′,l,l′),预设学习率为O.01,具体 地,所述预设损失函数由区域候选网络的相关信息确定,包括由以下条件 确定:
其中,α,σ分别表示分类损失函数和位置回归损失函数对所述预设损 失函数的贡献比例,p表示当前框是目标的概率,p′表示当前框有目标则 为1没有目标则为0,l表示预测框的位置,l′表示标注表格区域时的位置 信息。
在本申请一实施例中,在步骤S11中,根据所述预设的回归四边形检 测模型检测表格区域的外接四边形,得到预测结果;根据所述预测结果确 定所述表格区域。在此,将原始模型回归(x,y,w,h)的矩形目标检测方式 调整为回归(x1,y1,x2,y2,x3,y3,x4,y4)的一般四边形的目标检测方式,根 据建立的检测模型对表格区域进行预测,根据预测结果提取出表格区域。 如图2所示,通过区域候选网络(RPN)输出的默认框为G,对应的标签 框为GT,该标签框为对表格区域进行标注的四边形构成的框,模型的预 测结果为P,其中,G的值为(Gx,Gy,Gw,Gh),GT的值为 (GTx1,GTy1GTx2,GTy2,GTx3,GTy3,GTx4,GTy4),表示由标签框左上角开始,顺时针 方向上四个顶点的值。P的值为(Px1,Py1,Px2,Py2,Px3,Py3,Px4,Py4),所述预测结果满足以下条件:
其中,(Px1,Py1,Px2,Py2,Px3,Py3,Px4,Py4)表示所述预测结果中由左上角开始, 顺时针方向上四个顶点的值;(Gx,Gy,Gw,Gh)表示所述区域候选网络的边框的 左上角坐标以及边框宽和高的值; (dx1(G),dy1(G),dx2(G),dy2(G),dx3(G),dy3(G),dx4(G),dy4(G))为所述预设的回归四边形检 测模型的待学习参数。需要说明的是,待学习参数为求取P值的公式中的 未知数,需要学习得到,通过学习到的参数以及求取P值的公式计算到的 结果与标注的结果最大程度上近似。
在本申请一实施例中,在步骤S12中,根据预设的透视变换规则对所 述表格区域进行变换,得到变换后的表格区域的四个顶点的坐标,对变换 后的表格区域进行矫正,得到处理后的表格区域图像,其中,所述预设透 视变换规则为:
[x′,y′,w]=Fp([x,y,1]);
其中,(x,y))为所述表格区域中的点,(x′/w,y′/w)为变换后的表格区域中的 点,Fp为透视变换矩阵。
在此,通过预设的透视变换规则将有旋转变形的表格矫正,如图3所 示,对表格区域使用四边形进行标注,得到表格区域的四个顶点(A,B,C,D), 应用透视变换原理对该四个顶点进行变换,(A1,B1,C1,D1)为使用上述透视 变换规则透视变换后的四边形顶点,其中,透视变换矩阵Fp如下所示:
通过(A1,B1,C1,D1)的坐标可将矫正后的表格区域从矫正后的图像中提取出来,以便后续操作。
在本申请一实施例中,在步骤S13中,对所述处理后的表格区域图像 按照预设像素进行缩放;将缩放后的图像按照预设重叠比例进行滑窗裁剪, 生成表格文本块组合;使用矩形框标注所述文本块组合,作为训练样本; 根据所述训练样本、固有损失函数以及对应的学习速率对改进的SSD目标 检测模型进行训练,生成文本检测模型;根据所述文本检测模型检测所述 处理后的表格区域图像中的文本区域。在此,如图4所示,将表格区域图像缩放到像素为1200*1800的固定大小,以15%的重叠比例将表格区域图 像滑窗裁剪成300*300大小的块,生成表格文本块组合,使用矩形框标注 生成的文本块组合中每一文本块,根据固有损失函数L(x,c,l,g)以及学习率 0.01驱动模型训练,得到文本检测模型。其中,固有损失函数为SSD的损 失函数L(x,c,l,g):
其中,x表示当前预测框的预测类别,c表示当前预测框的类别标签, 1表示当前预测框的预测坐标值,g表示当前预测框对应的实际坐标值。
进一步地,所述改进的SSD目标检测模型是由对SSD的多层特征融 合进行调整以及默认框的宽高比进行调整后确定的。在此,将SSD的多层 特征融合的层数减少,优选地,将conv4_3,conv7,conv8_2,conv9_2, conv10_2,conv11_2层改为conv4_3,conv7,conv8_2,减少计算量,提升检 测速度;如图5所示,输入图片大小为300*300*3,conv4_3的特征尺寸为 38*38*512,conv7的特征尺寸为19*19*1024,conv8_2的特征尺寸为 10*10*512。将默认框(default box)的生成策略改为宽高比例为{2,4,6,10}的 矩形框,如图6所示;随后通过SSD的固有损失函数驱动训练,得到文本检 测模型,使用该文本检测模型检测表格区域中的所有文本区域信息。
在本申请一实施例中,在步骤S14中,按照裁剪时的顺序将所述文本 块组合重叠还原,得到还原后的文本框;将所述文本块组合中每一文本块 上文本区域坐标信息转换为左上顶角图像的坐标系下;将所述还原后的文 本框的面积大于预设比例的文本框进行矩形框融合;根据预设拼接方向将 融合后的文本框进行输出。在此,进行拼接输出是,按照裁剪时的顺序将 文本块组合重叠还原,将原本每一文本块上文本区域坐标信息转换成最左上角图像的坐标系下,如图7所示,将原本的文本块的文本区域坐标信息 转换为标号为1的文本块图像的坐标系下。接着,将重叠面积大于10%的 矩形框融合,根据由上到下、由左到右的策略输出检测到的文本框。在图 9中,“XXX表”和“abc”为文本块1中检测到的,“XX表格”为文本块 2中检测得到,“edfg”为文本块4中检测得到,根据裁剪策略反推将文本 块拼接成原图,则“XXX表”和“XX表格”可以合成一个字符串区域“XXX 表格”,根据由上到下、由左到右的策略,最终输出的字符串区域为“XXX 表格”,“abc”,“edfg”。
在本申请一实施例中,如图8所示,通过表格区域获取模块和文本通 用检测模块解决大背景下文本区域获取与矫正的问题,其中,表格区域获 取模块包括表格区域检测单元和表格区域矫正单元,文本通用检测模块包 括文本裁剪单元、文本检测单元和文本区域拼接输出单元;如图9所示的 检测流程示意图,表格区域检测单元通过一般四边形的目标检测方法对获 取到的图像进行标注,得到表格外接四边形的四个顶点;通过表格区域矫正单元对该四个顶点进行透视变换以矫正表格区域,通过文本裁剪单元对 矫正后的表格区域进行裁剪,得到文本块组合,通过文本检测单元检测到 所有文本区域,得到文本区域矩形信息,按照文本裁剪单元对应的裁剪方 法对检测到的文本区域进行拼接,通过文本区域拼接输出单元1和文本区 域拼接输出单元2将拼接后的文本区域信息输出。使用文本通用检测模块 可以获取每一文本的区域,解决了多类型表格全文本区域获取问题,使用 上述两个模块适应复杂背景状态以及多种车检表格的文本检测,易于维护, 实用价值高。
在本申请一实施例中,如图10所示,获取待检测的车检表格图像, 经表格区域检测单元,使用回归一般四边形的目标检测模型(预设的回归 四边形检测模型)获得包围表格区域的最小外接四边形,若表格区域获取 失败则直接退出,若获取成功,则应用透视变换原理对表格区域进行矫正, 输出矩形的表格区域图像,对该输出矩形的表格区域图像根据文本裁剪单 元的裁剪策略进行裁剪,获得统一大小的文本块组合,并使用文本检测单元的类文本长目标检测模型(文本检测模型)对每个文本块图像中的文本 区域进行检测,若所有文本块中没有检测到一个文本区域,则直接退出, 否则,按照文本裁剪单元对应的裁剪方法对检测到的文本区域进行拼接, 并按照由上到下、由左到右的规则输出文本区域信息。
此外,本申请实施例还提供了一种计算机可读介质,其上存储有计算机 可读指令,所述计算机可读指令可被处理器执行以实现前述一种表格文件检 测方法。
在本申请一实施例中,还提供了一种表格文件检测的设备,所述设备包 括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所 述处理器执行如前述所述方法的操作。
例如,计算机可读指令在被执行时使所述一个或多个处理器:
获取输入图像,从所述输入图像中提取表格区域;
对所述表格区域进行透视变换以及矫正得到处理后的表格区域图像;
对所述处理后的表格区域图像进行图像裁剪并进行文本检测;
将检测到的文本区域按照文本拼接顺序输出。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离 本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权 利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在 内。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例 如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设 备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现 上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构) 可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或 软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例 如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程 序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供 根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可 能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承 载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计 算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装 置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令 的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置 运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细 节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体 形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性 的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限 定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括 在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要 求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装 置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件 或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定 的顺序。
Claims (10)
1.一种表格文件检测方法,其特征在于,所述方法包括:
获取输入图像,从所述输入图像中提取表格区域;
对所述表格区域进行透视变换以及矫正得到处理后的表格区域图像;
对所述处理后的表格区域图像进行图像裁剪并进行文本检测;
将检测到的文本区域按照文本拼接顺序输出。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个实际分布的图像;
使用四边形标注所述多个实际分布的图像中的表格区域,得到标注后的表格区域;
基于标注后的表格区域、预设损失函数及预设学习速率进行训练,得到预设的回归四边形检测模型,其中,所述预设损失函数由区域候选网络的相关信息确定。
3.根据权利要求2所述的方法,其特征在于,从所述输入图像中提取表格区域,包括:
根据所述预设的回归四边形检测模型检测表格区域的外接四边形,得到预测结果;
根据所述预测结果确定所述表格区域。
4.根据权利要求3所述的方法,其特征在于,所述预测结果满足以下条件:
其中,(Px1,Py1,Px2,Py2,Px3,Py3,Px4,Py4)表示所述预测结果中由左上角开始,顺时针方向上四个顶点的值;(Gx,Gy,Gw,Gh)表示所述区域候选网络的边框的左上角坐标以及边框宽和高的值;(dx1(G),dy1(G),dx2(G),dy2(G),dx3(G),dy3(G),dx4(G),dy4(G))为所述预设的回归四边形检测模型的待学习参数。
5.根据权利要求4所述的方法,其特征在于,所述预设损失函数由区域候选网络的相关信息确定,包括由以下条件确定:
其中,α,σ分别表示分类损失函数和位置回归损失函数对所述预设损失函数的贡献比例,p表示当前框是目标的概率,p′表示当前框有目标则为1没有目标则为0,l表示预测框的位置,l′表示标注表格区域时的位置信息。
6.根据权利要求1所述的方法,其特征在于,对所述表格区域进行透视变换以及矫正得到处理后的表格区域图像,包括:
根据预设的透视变换规则对所述表格区域进行变换,得到变换后的表格区域的四个顶点的坐标,对变换后的表格区域进行矫正,得到处理后的表格区域图像,其中,所述预设透视变换规则为:
[x′,y′,w]=Fp([x,y,l]);
其中,(x,y)为所述表格区域中的点,(x′/w,y′/w)为变换后的表格区域中的点,Fp为透视变换矩阵。
7.根据权利要求1所述的方法,其特征在于,对所述处理后的表格区域图像进行图像裁剪并进行文本检测,包括:
对所述处理后的表格区域图像按照预设像素进行缩放;
将缩放后的图像按照预设重叠比例进行滑窗裁剪,生成表格文本块组合;
使用矩形框标注所述文本块组合,作为训练样本;
根据所述训练样本、固有损失函数以及对应的学习速率对改进的SSD目标检测模型进行训练,生成文本检测模型;
根据所述文本检测模型检测所述处理后的表格区域图像中的文本区域。
8.根据权利要求7所述的方法,其特征在于,所述改进的SSD目标检测模型是由对SSD的多层特征融合进行调整以及默认框的宽高比进行调整后确定的。
9.根据权利要求7所述的方法,其特征在于,将检测到的文本区域按照文本拼接顺序输出,包括:
按照裁剪时的顺序将所述文本块组合重叠还原,得到还原后的文本框;
将所述文本块组合中每一文本块上文本区域坐标信息转换为左上顶角图像的坐标系下;
将所述还原后的文本框的面积大于预设比例的文本框进行矩形框融合;
根据预设拼接方向将融合后的文本框进行输出。
10.一种表格文件检测的设备,其特征在于,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1至9中任一项所述方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910477150.4A CN110210400B (zh) | 2019-06-03 | 2019-06-03 | 一种表格文件检测方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910477150.4A CN110210400B (zh) | 2019-06-03 | 2019-06-03 | 一种表格文件检测方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110210400A true CN110210400A (zh) | 2019-09-06 |
CN110210400B CN110210400B (zh) | 2020-11-17 |
Family
ID=67790429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910477150.4A Expired - Fee Related CN110210400B (zh) | 2019-06-03 | 2019-06-03 | 一种表格文件检测方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210400B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751151A (zh) * | 2019-10-12 | 2020-02-04 | 上海眼控科技股份有限公司 | 车身图像的文本字符检测方法及设备 |
CN110866871A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市华云中盛科技股份有限公司 | 文本图像矫正方法、装置、计算机设备及存储介质 |
CN112016481A (zh) * | 2020-08-31 | 2020-12-01 | 民生科技有限责任公司 | 基于ocr的财务报表信息检测和识别方法 |
CN112149561A (zh) * | 2020-09-23 | 2020-12-29 | 杭州睿琪软件有限公司 | 图像处理方法和装置、电子设备和存储介质 |
CN112634165A (zh) * | 2020-12-29 | 2021-04-09 | 广州光锥元信息科技有限公司 | 用于图像适配vi环境的方法及装置 |
CN113139625A (zh) * | 2021-05-18 | 2021-07-20 | 北京世纪好未来教育科技有限公司 | 一种模型训练方法、电子设备及其存储介质 |
WO2021151274A1 (zh) * | 2020-05-20 | 2021-08-05 | 平安科技(深圳)有限公司 | 图像文档处理方法、装置、电子设备及计算机可读存储介质 |
CN113591436A (zh) * | 2020-04-30 | 2021-11-02 | 西安诺瓦星云科技股份有限公司 | 节目文本处理方法和装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102013094A (zh) * | 2010-11-25 | 2011-04-13 | 上海合合信息科技发展有限公司 | 提高文本图像清晰度的方法及系统 |
US8782599B2 (en) * | 2008-06-26 | 2014-07-15 | Invensys Systems, Inc. | Multi-mode editor for configuring process control blocks including both logical functions and arithmetic computations |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN107301418A (zh) * | 2017-06-28 | 2017-10-27 | 江南大学 | 光学字符识别中的版面分析 |
CN107330437A (zh) * | 2017-07-03 | 2017-11-07 | 贵州大学 | 基于卷积神经网络目标实时检测模型的特征提取方法 |
CN107688808A (zh) * | 2017-08-07 | 2018-02-13 | 电子科技大学 | 一种快速的自然场景文本检测方法 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108427924A (zh) * | 2018-03-09 | 2018-08-21 | 华中科技大学 | 一种基于旋转敏感特征的文本回归检测方法 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
CN109635627A (zh) * | 2018-10-23 | 2019-04-16 | 中国平安财产保险股份有限公司 | 图片信息提取方法、装置、计算机设备及存储介质 |
CN109711401A (zh) * | 2018-12-03 | 2019-05-03 | 广东工业大学 | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 |
CN109726643A (zh) * | 2018-12-13 | 2019-05-07 | 北京金山数字娱乐科技有限公司 | 图像中表格信息的识别方法、装置、电子设备及存储介质 |
-
2019
- 2019-06-03 CN CN201910477150.4A patent/CN110210400B/zh not_active Expired - Fee Related
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8782599B2 (en) * | 2008-06-26 | 2014-07-15 | Invensys Systems, Inc. | Multi-mode editor for configuring process control blocks including both logical functions and arithmetic computations |
CN102013094A (zh) * | 2010-11-25 | 2011-04-13 | 上海合合信息科技发展有限公司 | 提高文本图像清晰度的方法及系统 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN107301418A (zh) * | 2017-06-28 | 2017-10-27 | 江南大学 | 光学字符识别中的版面分析 |
CN107330437A (zh) * | 2017-07-03 | 2017-11-07 | 贵州大学 | 基于卷积神经网络目标实时检测模型的特征提取方法 |
CN107688808A (zh) * | 2017-08-07 | 2018-02-13 | 电子科技大学 | 一种快速的自然场景文本检测方法 |
US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108427924A (zh) * | 2018-03-09 | 2018-08-21 | 华中科技大学 | 一种基于旋转敏感特征的文本回归检测方法 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN109635627A (zh) * | 2018-10-23 | 2019-04-16 | 中国平安财产保险股份有限公司 | 图片信息提取方法、装置、计算机设备及存储介质 |
CN109711401A (zh) * | 2018-12-03 | 2019-05-03 | 广东工业大学 | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 |
CN109726643A (zh) * | 2018-12-13 | 2019-05-07 | 北京金山数字娱乐科技有限公司 | 图像中表格信息的识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
ZHU DONGTAO,AND ETC: "Traffic Sign Detection Method of Improved SSD Based on Deep Learning", 《2018 IEEE 4TH INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS》 * |
胡胤: "基于深度学习的自然场景文字检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈幻杰等: "多尺度卷积特征融合的SSD目标检测算法", 《计算机科学与探索》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751151A (zh) * | 2019-10-12 | 2020-02-04 | 上海眼控科技股份有限公司 | 车身图像的文本字符检测方法及设备 |
CN110866871A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市华云中盛科技股份有限公司 | 文本图像矫正方法、装置、计算机设备及存储介质 |
CN113591436A (zh) * | 2020-04-30 | 2021-11-02 | 西安诺瓦星云科技股份有限公司 | 节目文本处理方法和装置 |
WO2021151274A1 (zh) * | 2020-05-20 | 2021-08-05 | 平安科技(深圳)有限公司 | 图像文档处理方法、装置、电子设备及计算机可读存储介质 |
CN112016481A (zh) * | 2020-08-31 | 2020-12-01 | 民生科技有限责任公司 | 基于ocr的财务报表信息检测和识别方法 |
CN112149561A (zh) * | 2020-09-23 | 2020-12-29 | 杭州睿琪软件有限公司 | 图像处理方法和装置、电子设备和存储介质 |
CN112149561B (zh) * | 2020-09-23 | 2024-04-16 | 杭州睿琪软件有限公司 | 图像处理方法和装置、电子设备和存储介质 |
CN112634165A (zh) * | 2020-12-29 | 2021-04-09 | 广州光锥元信息科技有限公司 | 用于图像适配vi环境的方法及装置 |
CN112634165B (zh) * | 2020-12-29 | 2024-03-26 | 广州光锥元信息科技有限公司 | 用于图像适配vi环境的方法及装置 |
CN113139625A (zh) * | 2021-05-18 | 2021-07-20 | 北京世纪好未来教育科技有限公司 | 一种模型训练方法、电子设备及其存储介质 |
CN113139625B (zh) * | 2021-05-18 | 2023-12-15 | 北京世纪好未来教育科技有限公司 | 一种模型训练方法、电子设备及其存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110210400B (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210400A (zh) | 一种表格文件检测方法及设备 | |
KR101508977B1 (ko) | 이미지 분석에 의한 이미지 자동 편집 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 | |
CN110516514B (zh) | 一种目标检测模型的建模方法和装置 | |
CN107909026B (zh) | 基于小规模卷积神经网络年龄和/或性别评估方法及系统 | |
WO2020133442A1 (zh) | 一种识别文本的方法及终端设备 | |
US10956696B2 (en) | Two-dimensional code identification and positioning | |
US8442327B2 (en) | Application of classifiers to sub-sampled integral images for detecting faces in images | |
US20120008826A1 (en) | Method, device and computer program product for detecting objects in digital images | |
CN104835134A (zh) | 一种计算商品图像牛皮癣分值的方法和装置 | |
US20150213313A1 (en) | Methods and systems for efficient automated symbol recognition using multiple clusters of symbol patterns | |
US20210081695A1 (en) | Image processing method, apparatus, electronic device and computer readable storage medium | |
KR20180002775A (ko) | 페이지 내에서의 클릭 위치를 기록 및 복원하는 방법 및 장치 | |
CN112330651A (zh) | 一种基于深度学习的Logo检测方法及系统 | |
CN109858542A (zh) | 一种字符识别方法和装置 | |
JP2006313550A (ja) | 文書自動分類システムと方法及びその記録媒体 | |
CN111523429A (zh) | 基于深度学习的堆钢识别方法 | |
CN115239642A (zh) | 一种输电线路中小金具缺陷的检测方法、检测装置和设备 | |
Huang et al. | Stacked pooling for boosting scale invariance of crowd counting | |
CN113762220B (zh) | 目标识别方法、电子设备、计算机可读存储介质 | |
CN111178363A (zh) | 文字识别方法、装置、电子设备以及可读存储介质 | |
CN112749694A (zh) | 用于识别图像方向、识别铭牌文字的方法及装置 | |
CN112580656A (zh) | 一种端到端的文本检测方法、系统、终端及存储介质 | |
CN110533748A (zh) | 印章去除方法及设备 | |
CN109583266A (zh) | 一种目标检测方法、装置、计算机设备及存储介质 | |
CN116363037A (zh) | 一种多模态图像融合方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A table file detection method and equipment Effective date of registration: 20220211 Granted publication date: 20201117 Pledgee: Shanghai Bianwei Network Technology Co.,Ltd. Pledgor: SHANGHAI EYE CONTROL TECHNOLOGY Co.,Ltd. Registration number: Y2022310000023 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201117 |
|
CF01 | Termination of patent right due to non-payment of annual fee |