CN110647795B - 一种表格识别方法 - Google Patents
一种表格识别方法 Download PDFInfo
- Publication number
- CN110647795B CN110647795B CN201910692195.3A CN201910692195A CN110647795B CN 110647795 B CN110647795 B CN 110647795B CN 201910692195 A CN201910692195 A CN 201910692195A CN 110647795 B CN110647795 B CN 110647795B
- Authority
- CN
- China
- Prior art keywords
- image
- foreground
- horizontal
- vertical
- generate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种表格识别方法,包括:获取初始表格图像,并对初始表格图像进行水平校正及垂直校正以生成校正表格图像;将校正表格图像转换成灰度图,生成灰度表格图像,对灰度表格图像进行高斯自适应二值化处理,生成前景掩模;采用基于组合形态学的方法对前景掩模进行腐蚀操作及膨胀操作以提取表格线,并生成表格前景;查找表格前景的轮廓,生成表格区域;使用卷积神经网络对每个表格区域的文本图像行进行识别,输出识别文字。采用本发明,对表格图像进行识别时进行倾斜度校正处理,并对形状畸变、亮度不均进行处理,提高表格识别的准确率。
Description
技术领域
本发明涉及一种图像识别技术,尤其涉及一种表格识别方法。
背景技术
表格是文本的常见内容。工作中常需要将图片中的表格转化为可编辑的文件格式。手动输入是最简单的方法,但这一方法在处理大量表格时效率很低,而且较容易出错。目前较常用的方法是使用图像获取设备获取表格图像后,对表格图像进行识别,进而输出识别的文字内容。
对比文件CN201310455065.0公开了一种表格识别方法,包括以下步骤:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;针对所述分割片构造出无向图;抽取页面内的图像,检测水平和垂直直线的交叉点,检测交叉点的外包络矩阵,将所述分割文本行是否落入外包络矩阵作为局部关系特征;根据所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立表格识别模型;调用所述表格识别模型对所需的文档进行表格识别,得到识别结果。
但是,现有的表格识别算法没有进行倾斜校正,以及对形状畸变、亮度不均问题等进行处理,通常要求图像无倾斜、无畸变、字体清晰,才能有较好的识别的效果。在光线环境不佳、纸张弯曲、折叠等情况下,现有的表格识别算法的识别准确度较低。
发明内容
本发明所要解决的技术问题在于,改进现有的表格识别方法,对表格图像进行识别时进行倾斜度校正处理,并对形状畸变、亮度不均进行处理,提高表格识别的准确率。
为了解决上述技术问题,本发明提供了一种表格识别方法,包括:获取初始表格图像,并对初始表格图像进行水平校正及垂直校正以生成校正表格图像;将校正表格图像转换成灰度图,生成灰度表格图像,对灰度表格图像进行高斯自适应二值化处理,生成前景掩模;采用基于组合形态学的方法对前景掩模进行腐蚀操作及膨胀操作以提取表格线,并生成表格前景;查找表格前景的轮廓,生成表格区域;使用卷积神经网络对每个表格区域的文本图像行进行识别,输出识别文字。
作为上述方案的改进,对初始表格图像进行水平校正及垂直校正以生成校正表格图像的具体步骤包括:通过直线段检测算法查找直线段;计算所有直线段的倾斜角度及长度;过滤直线段中倾斜角过大以及长度过小的异常直线段,保留其余直线段;计算其余直线段的平均水平倾角及平均垂直倾角,将平均水平倾角作为表格图像的表格图像水平倾角,将平均垂直倾角作为表格图像的表格图像垂直倾角;根据表格图像水平倾角及表格图像垂直倾角通过仿射变换对表格图像进行校正。
作为上述方案的改进,采用基于组合形态学的方法对前景掩模进行腐蚀操作及膨胀操作以提取表格线,并生成表格前景的具体步骤包括:通过预设的水平线核对前景掩模进行腐蚀及膨胀操作,生成水平线前景,通过预设的垂直线核对前景掩模进行腐蚀及膨胀操作,生成垂直线前景;对水平线前景及垂直线前景进行按位或运算,生成表格前景。
作为上述方案的改进,每一水平线核的设计步骤包括:根据计算公式h1=|tan(d×PI/180)|×w/scale+1计算水平线核的高,其中h1为水平线核的高,d为表格线的倾角,w为表格图像的宽,scale为缩放因子;根据计算公式w1=w/scale计算水平线核的宽,其中,w1为水平线核的宽,w为表格图像的宽,scale为缩放因子;根据水平线核的高h1及水平线核的宽w1构建水平线核;判断表格线的倾角d是否大于0,判断为是,将水平线核中左下角到右上角对角线上的元素的值均设置为1,将其余元素的值均设置为0;判断为否,将水平线核中左上角到右下角对角线上的元素的值均设置为1,将其余元素的值均设置为0。
作为上述方案的改进,每一垂直线核的设计步骤包括:根据计算公式w2=|tan(d×PI/180)|×h/scale+1计算垂直线核的宽,其中w2为垂直线核的宽,d为表格线的倾角,h为表格图像的高,scale为缩放因子;根据计算公式h2=h/scale计算垂直线核的高,其中,h2为垂直线核的高,h为表格图像的高,scale为缩放因子;根据垂直线核的宽w2及垂直线核的高h2构建垂直线核;判断d是否大于0;判断为是,将垂直线核中左下角到右上角对角线上的元素的值均设置为1,将其余元素的值均设置为0;判断为否,将垂直线核中左上角到右下角对角线上的元素的值均设置为1,将其余元素的值均设置为0。
作为上述方案的改进,查找表格前景的轮廓,生成表格区域的具体步骤包括:对整个前景掩模像素值进行取反操作,输出反值前景掩模;提取反值前景掩模的轮廓;计算轮廓的最小外接矩形,得到表格区域。
作为上述方案的改进,卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第三卷积层、第二池化层、第四卷积层、第五卷积层、第三池化层、第六卷积层、第七卷积层、第四池化层及第八卷积层,第八卷积层后连接softmax函数,每个卷积层后均连接激活函数。
作为上述方案的改进,激活函数为ReLU函数,其公式为:
ReLU(x)=max(0,x);
其中,x为特征图的值。
作为上述方案的改进,softmax函数的公式为:
其中,K为特征向量的维度数量,zj为特征向量中第j维的值。
作为上述方案的改进,还包括对卷积神经网络进行训练,具体步骤如下:获取样本数据集、基础卷积神经网络模型及损失函数;将基础卷积神经网络模型与损失函数结合,生成初始卷积神经网络模型;根据样本数据集训练初始卷积神经网络模型,生成修正卷积神经网络模型;损失函数的公式为:
其中,X为特征向量,Y为是输出向量,at为特征向量X第t维的值输入卷积神经网络后的输出结果,T为特征向量X的维数,AX,Y为所有特征向量X及其对应的输出向量Y所组成的集合。
实施本发明,具有如下有益效果:
本发明表格识别方法能对表格图像进行识别时进行倾斜度校正处理,以及对畸变、光线问题进行处理,提高表格识别的准确率。
具体来说,首先针对因页面折叠、弯曲造成表格图像中表格线倾斜的问题,本发明根据水平倾角的平均值及垂直倾角的平均值,采用放射变换的方法对表格图像中的表格图像进行水平校正及垂直校正,获取位置、方向正确的表格图像。其次,针对因光线偏暗或偏亮造成表格图像中表格线过粗或过细的问题,本发明采用组合形态学方法提取表格线,即在提取表格线前对过粗的表格线进行膨胀操作,对过细的表格线进行腐蚀操作,使得表格线粗细统一,便于后续准确地确定表格中各个表格区域。另外,在对表格区域的文字进行识别时,还对文字标签进行编码化,在卷积神经网络识别出文字标签的编码后,再通过解码输出文字内容,能提高卷积神经网路的运行效率。
附图说明
图1是本发明表格识别方法的总体流程图;
图2是本发明表格识别方法的对初始表格图像进行水平校正及垂直校正以生成校正表格图像的具体步骤流程图;
图3是本发明表格识别方法的采用基于组合形态学的方法对前景掩模进行腐蚀操作及膨胀操作以提取表格线,并生成表格前景的具体步骤流程图;
图4是本发明表格识别方法的每一水平线核的设计步骤流程图;
图5是本发明表格识别方法的每一垂直线核的设计步骤流程图;
图6是本发明表格识别方法的查找表格前景的轮廓,生成表格区域的具体步骤流程图;
图7是本发明表格识别方法的卷积神经网络的实施例结构图;
图8是本发明表格识别方法的对卷积神经网络进行训练具体步骤流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。仅此声明,本发明在文中出现或即将出现的上、下、左、右、前、后、内、外等方位用词,仅以本发明的附图为基准,其并不是对本发明的具体限定。
图1显示的是本发明表格识别方法的总体流程图,包括:
S101、获取初始表格图像,并对初始表格图像进行水平校正及垂直校正以生成校正表格图像。
对校正表格图像分别进行水平校正及垂直校正,从而对因表格纸页弯曲、折叠造成的表格图像倾斜进行校正,提高表格识别的准确度。
S102、将校正表格图像转换成灰度图,生成灰度表格图像,对灰度表格图像进行高斯自适应二值化处理,生成前景掩模。
对表格识别来说,表格线及表格文字的颜色并不重要,表格线、文字的形状及位置才是表格图像最核心的信息,因此对表格图像进行灰度化处理不会对表格识别造成影响,表格图像灰度化是将表格图像中每个像素RGB三个维度的值等值化,可以采用平均法来进行灰度化处理,比如一个RGB像素值为(50,100,150),采用平均法对该像素进行灰度化,则三个维度的值均为100,即处理后的像素值为(100,100,100)。经过灰度化,表格图像的每个像素值的取值范围实际转化为一个维度的取值范围,从而减少后续图像处理的计算量。
高斯自适应二值化分为两步,第一步通过高斯滤波操作将校正灰度表格图像中的噪声像素进行过滤,然后对过滤后的校正灰度表格图像进行二值化处理,即确定一个阈值,所有像素值高于该阈值像素均设置为(255,255,255),其余的像素均设置为(0,0,0),从而把校正灰度表格图像转化为由像素值为(0,0,0)的像素组成的前景部分,以及由像素值为(255,255,255)的像素组成的后景部分。将前景部分提取出来以生成前景掩模,从而将不相关的后景部分滤除。其中,前景掩模分为表格前景以及字符区域前景两部分。
S103、采用基于组合形态学的方法对前景掩模进行腐蚀操作及膨胀操作以提取表格线,并生成表格前景。
在前景掩模中提取表格线,使得表格线粗细均匀,从而生成位置及范围较为准确的表格前景。
S104、查找表格前景的轮廓,生成表格区域。
通过查找表格前景的轮廓,生成表格区域可以进一步限定表格中文字的具体范围,防止在识别时把不同表格区域的文字一同识别组成错误的含义。
S105、使用卷积神经网络对每个表格区域的文本图像行进行识别,输出识别文字。
通过将表格区域的文本图像逐个输入到卷积神经网络,并经过卷积处理、池化处理及分类处理,将预测结果中概率最高的结果输出,从而把表格图片转化为可编辑的文本。
进一步地,如图2所示,对初始表格图像进行水平校正及垂直校正以生成校正表格图像的具体步骤包括:
S201、通过直线段检测算法查找直线段。
直线检测算法通过计算图像中所有点的梯度大小和方向,然后将梯度方向差异较小且相邻的点组合成直线段。同时还通过直线段与矩形的相似度来对直线段进行筛选、断开,从而提高直线段检测的准确性。
S202、计算所有直线段的倾斜角度及长度。
表格线的长度一般较长,且一般是水平或垂直,个别表格线与水平成45°,故其长度及角度具有较高辨识度。通过计算直线段的倾角以及直线段长度,可以具体确定表格中的表格线,进而计算整个表格的倾角。
S203、过滤直线段中倾斜角过大以及长度过小的异常直线段,保留其余直线段。
直线段倾角过大的直线段可能是文字中的笔画,其倾角与表格倾角无关,应过滤这类直线段。长度过小的直线段同样是文字中的笔画,与表格线无关,也应过滤这类直线段。
S204、计算其余直线段的平均水平倾角及平均垂直倾角,将平均水平倾角作为表格图像的表格图像水平倾角,将平均垂直倾角作为表格图像的表格图像垂直倾角。
分别计算平均水平倾角及平均垂直倾角,是考虑到有些表格图片水平倾角及垂直倾角并不相同,需要分别对水平的直线段及垂直的直线段进行校正,从而获得水平线角度及垂直线角度均正确的表格。
S205、根据表格图像水平倾角及表格图像垂直倾角通过仿射变换对表格图像进行校正。
仿射变换是一种二维坐标到二维坐标之间的线性变换,可保持二维图形的“平直性”,即变换后直线还是直线不会打弯,圆弧还是圆弧,以及保持“平行性”,即保持二维图形间的相对位置关系不变,平行线还是平行线,相交直线的交角不变。
进一步地,如图3所示,采用基于组合形态学的方法对前景掩模进行腐蚀操作及膨胀操作以提取表格线,并生成表格前景的具体步骤包括:
S301、通过预设的水平线核对前景掩模进行腐蚀及膨胀操作,生成水平线前景,通过预设的垂直线核对前景掩模进行腐蚀及膨胀操作,生成垂直线前景。
需要说明的是,组合形态学操作通过水平线核及垂直线核改变二值化图中物体的形状。其中,腐蚀操作对每个核扫描区域的像素求最小,从而减少白色像素数目。膨胀操作对每个核扫描区域的像素求最大,从而增加白色像素数目。另外,由于腐蚀操作及膨胀操作均是针对白色像素,因此,腐蚀操作减少的是表格线周围的白色区域,从而将过细的表格线粗化,膨胀操作的效果则是对表格线周围的白色区域进行处理使其膨胀扩大,从而将过粗的表格线细化。
S302、对水平线前景及垂直线前景进行按位或运算,生成表格前景。
对两个水平线及垂直线前景进行位或运算,等同于将两个前景叠加出来,从而生成既有水平线又有垂直线的图像,即为表格前景。
进一步地,如图4所示,每一水平线核的设计步骤包括:
S401、根据计算公式h1=|tan(d×PI/180)|×w/scale+1计算水平线核的高,其中h1为水平线核的高,d为表格线的倾角,w为表格图像的宽,scale为缩放因子。
S402、根据计算公式w1=w/scale计算水平线核的宽,其中,w1为水平线核的宽,w为表格图像的宽,scale为缩放因子。
S403、根据水平线核的高h1及水平线核的宽w1构建水平线核。
S404、判断表格线的倾角d是否大于0,判断为是,将水平线核中左下角到右上角对角线上的元素的值均设置为1,将其余元素的值均设置为0,判断为否,将水平线核中左上角到右下角对角线上的元素的值均设置为1,将其余元素的值均设置为0。
需要说明的是,根据表格线的倾角d调整水平核元素布局方向,可防止进行图像处理时把表格线抹去或增加不必要的表格线。同时,为了使处理后的表格线粗细均匀,需要采用水平线核进行膨胀处理及腐蚀处理,比如,可对倾角d取-10度到10度之间,间隔1度,即可得到21个水平线核。
进一步地,如图5所示,每一垂直线核的设计步骤包括:
S501、根据计算公式w2=|tan(d×PI/180)|×h/scale+1计算垂直线核的宽,其中w2为垂直线核的宽,d为表格线的倾角,h为表格图像的高,scale为缩放因子;
S502、根据计算公式h2=h/scale计算垂直线核的高,其中,h2为垂直线核的高,h为表格图像的高,scale为缩放因子;
S503、根据垂直线核的宽w2及垂直线核的高h2构建垂直线核。
S504、判断d是否大于0,判断为是,将垂直线核中左下角到右上角对角线上的元素的值均设置为1,将其余元素的值均设置为0,判断为否,将垂直线核中左上角到右下角对角线上的元素的值均设置为1,将其余元素的值均设置为0。
需要说明的是,根据表格线的倾角d调整垂直线核的元素布局方向,可防止进行图像处理时把表格线抹去或增加不必要的表格线。另外,为了使处理后的表格线粗细均匀,需要采用垂直线核进行膨胀处理及腐蚀处理,比如,可对倾角d取-10度到10度之间,间隔1度,即可得到21个垂直线核。
进一步地,如图6所示,查找表格前景的轮廓,生成表格区域的具体步骤包括:
S601、对整个前景掩模像素值进行取反操作,输出反值前景掩模。
S602、提取反值前景掩模的轮廓;
S603、计算轮廓的最小外接矩形,得到表格区域。
对前景掩模进行取反操作,输出反值前景掩模,从而将表格中的表格线去除,从而突出表格中的非表格线部分,非表格线部分包含了文字内容。对反之前景掩模的轮廓进行提取并计算该轮廓的最小外接矩形,可得到每个表格区域。然后对每个表格区域进行识别即可判断表格区域是否有文字内容,以及当识别有文字内容的时候,把文字内容转化为文本数据。
进一步地,卷积神经网络可以采用卷积层、池化层、激活函数及softmax函数进行构建。
图7是卷积神经网络的实施例结构图。卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第三卷积层、第二池化层、第四卷积层、第五卷积层、第三池化层、第六卷积层、第七卷积层、第四池化层及第八卷积层,第八卷积层后连接softmax函数。
卷积层的参数设置如表1所示:
卷积层 | 参数 |
第一卷积层 | channel=64,kernel size=3×3,pad=1 |
第二卷积层 | channel=128,kernel size=3×3,pad=1 |
第三卷积层 | channel=128,kernel size=3×3,pad=1 |
第四卷积层 | channel=256,kernel size=3×3,pad=1 |
第五卷积层 | channel=256,kernel size=3×3,pad=1 |
第六卷积层 | channel=512,kernel size=3×3,pad=1 |
第七卷积层 | channel=512,kernel size=3×3,pad=1 |
第八卷积层 | channel=5990,kernel size=1×1,pad=0 |
表1
其中,channel为通道数,kernel size为卷积核的大小,pad为边缘扩展量。
第一池化层、第二池化层、第三池化层及第四池化层均可采用最大池化层。
池化层的参数设置如表2所示:
卷积层 | 参数 |
第一池化层 | kernel size=2×2,stride=2 |
第二池化层 | kernel size=2×2,stride=2 |
第三池化层 | kernel size=2×2,stride=2 |
第四池化层 | kernel size=4×1,stride=1 |
表2
其中,kernel size为卷积核的大小,stride为步长。
另外,每个卷积层后均连接激活函数,以对卷积层输出的特征图进行非线性操作,增强卷积层的处理效果,然后再输入到下一个卷积层或池化层中进行处理。
进一步地,激活函数为ReLU函数的公式为:
ReLU(x)=max(0,x);
其中,x为特征图的值。
softmax函数的公式为:
其中,K为特征向量的维度数量,zj为特征向量中第j维的值。
每个表格区域的文本图像输入均到第一层,然后经过卷积层的卷积处理、激活函数的非线性处理,以及池化层的最大池化处理后,最后第八卷积层输出特征向量。第八卷积层后连接softmax函数。第八层卷积层输出的特征向量将输入到softmax函数计算特征向量中每个维度的特征值的分类概率,然后输出分类概率向量。分类概率向量中的每个维度即为特征向量中对应维度的特征值的分类概率。判断分类概率向量中是否有一个或以上的维的值大于或等于预设值,判断为是,说明输入的表格区域的文本图像与某个或某些分类的文字相符的概率较高,则对分类概率向量中大于预设值的维的值进行解码操作,输出文字识别结果。判断为否,说明目前无法识别输入的表格区域的文本图像属于何种文字,则识别失败。
需要说明的是,文字识别结果不是文本数据,而是针对文本数据编码后的数字,比如文本“货物”进行编码,得到数字“1”,在经过卷积神经网络识别得到结果为“1”,然后根据编码规则进行解码,得到文本“货物”。对文本进行编码可提高识别处理效率,节省内存空间。
进一步地,本发明表格识别方法还包括对卷积神经网络进行训练。
图8是对卷积神经网络进行训练具体步骤流程图,其包括:
S701、获取样本数据集、基础卷积神经网络模型及损失函数。
其中,样本数据集是特定数量的文本图像,基础卷积神经网络是未经训练、参数是标准设置的卷积神经网络,训练阶段卷积神经网络并不用于进行预测,只是对其预测的准确度进行评价,因此,卷积神经网络在训练时不包括softmax函数。损失函数用于对卷积神经网络的预测结果与实际的文本内容之间的偏差进行定量评价。
S702、将基础卷积神经网络模型与损失函数结合,生成初始卷积神经网络模型。
需要说明的是,基础将基础卷积神经网络与损失函数结合,实际就是用损失函数替换softmax函数,也就是在第八层卷积层后接损失函数,从而实现基础卷积神经网络与损失函数之间的评价与修正的联系。
S703、根据样本数据集训练初始卷积神经网络模型,生成修正卷积神经网络模型。
损失函数的公式为:
其中,X为特征向量,Y为是输出向量,at为特征向量X第t维的值输入卷积神经网络后的输出结果,T为特征向量X的维数,AX,Y为所有特征向量X及其对应的输出向量Y所组成的集合。
需要说明的是,训练时,将样本数据集的文本图像输入到初始卷积神经网络模型,文本图像经过卷积层的卷积处理、激活函数的非线性处理,以及池化层的最大池化处理后,用特征图的列作为特征向量,行作为时间序列,即可将图像数据转换成序列数据进行处理。再经过损失函数计算每个特征向量的所有输出值的概率,将这些概率累乘得到评价该特征向量的输出结果的概率参数,然后将所有特征向量对应的概率参数累加,得到整个特征图输出结果的概率参数,然后对特征图输出结果的概率参数进行对数运算并对结果取负值,得到最终的误差评价参数,当误差评价参数大于或等于预设值时,误差评价参数将反向传回之前的卷积层,并对初始卷积神经网络模型中的各个卷积层及池化层的权值进行调整,以使得误差减少。如此完成了第一次训练。然后输入下一个文本图像样本,并进行上述训练步骤,以进行第二次训练。在损失函数计算的误差大于或等于预设值时,将进行不限次数的训练,直至误差小于预设值时结束训练。需要说明的是,第二次训练开始,每次训练调整的是前一次训练修正后的卷积神经网络模型中各层的权值,而非初始卷积神经网络模型中各层的权值。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种表格识别方法,其特征在于,包括:
获取初始表格图像,并对所述初始表格图像进行水平校正及垂直校正以生成校正表格图像;
将所述校正表格图像转换成灰度图,生成灰度表格图像,对所述灰度表格图像进行高斯自适应二值化处理,生成前景掩模;
采用基于组合形态学的方法对所述前景掩模进行腐蚀操作及膨胀操作以提取表格线,并生成表格前景;具体步骤包括:通过预设的水平线核对所述前景掩模进行腐蚀及膨胀操作,生成水平线前景,通过预设的垂直线核对所述前景掩模进行腐蚀及膨胀操作,生成垂直线前景;对所述水平线前景及所述垂直线前景进行按位或运算,生成表格前景;
查找所述表格前景的轮廓,生成表格区域;
使用卷积神经网络对每个所述表格区域的文本图像行进行识别,输出识别文字;
每一所述水平线核的设计步骤包括:根据计算公式h1=|tan(d×PI/180)|×w/scale+1计算水平线核的高,其中h1为所述水平线核的高,d为所述表格线的倾角,w为所述表格图像的宽,scale为缩放因子;根据计算公式w1=w/scale计算水平线核的宽,其中,w1为所述水平线核的宽;根据所述水平线核的高h1及所述水平线核的宽w1构建水平线核;判断所述表格线的倾角d是否大于0,判断为是,将所述水平线核中左下角到右上角对角线上的元素的值均设置为1,将其余元素的值均设置为0,判断为否,将所述水平线核中左上角到右下角对角线上的元素的值均设置为1,将其余元素的值均设置为0;
每一所述垂直线核的设计步骤包括:根据计算公式w2=|tan(d×PI/180)|×h/scale+1计算垂直线核的宽,其中w2为所述垂直线核的宽,d为所述表格线的倾角,h为所述表格图像的高,scale为缩放因子;根据计算公式h2=h/scale计算垂直线核的高,其中,h2为所述垂直线核的高;根据所述垂直线核的宽w2及所述垂直线核的高h2构建垂直线核;判断d是否大于0,判断为是,将所述垂直线核中左下角到右上角对角线上的元素的值均设置为1,将其余元素的值均设置为0,判断为否,将所述垂直线核中左上角到右下角对角线上的元素的值均设置为1,将其余元素的值均设置为0。
2.如权利要求1所述表格识别方法,其特征在于,所述对所述初始表格图像进行水平校正及垂直校正以生成校正表格图像的具体步骤包括:
通过直线段检测算法查找直线段;
计算所有所述直线段的倾斜角度及长度;
过滤所述直线段中的异常直线段,保留其余直线段;
计算所述其余直线段的平均水平倾角及平均垂直倾角,将所述平均水平倾角作为所述表格图像的表格图像水平倾角,将所述平均垂直倾角作为所述表格图像的表格图像垂直倾角;
根据所述表格图像水平倾角及表格图像垂直倾角通过仿射变换对所述表格图像进行校正。
3.如权利要求1所述表格识别方法,其特征在于,所述查找所述表格前景的轮廓,生成表格区域的具体步骤包括:
对整个所述前景掩模像素值进行取反操作,输出反值前景掩模;
提取所述反值前景掩模的轮廓;
计算所述轮廓的最小外接矩形,得到表格区域。
4.如权利要求1所述表格识别方法,其特征在于,所述卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第三卷积层、第二池化层、第四卷积层、第五卷积层、第三池化层、第六卷积层、第七卷积层、第四池化层及第八卷积层,所述第八卷积层后连接softmax函数,每个所述卷积层后均连接激活函数。
5.如权利要求4所述表格识别方法,其特征在于,所述激活函数为ReLU函数,其公式为:
ReLU(x)=max(0,x);
其中,x为特征图的值。
6.如权利要求4所述表格识别方法,其特征在于,所述softmax函数的公式为:
其中,K为特征向量的维度数量,zj为特征向量中第j维的值。
7.如权利要求4所述表格识别方法,其特征在于,还包括对所述卷积神经网络进行训练,具体步骤如下:
获取样本数据集、基础卷积神经网络模型及损失函数;
将所述基础卷积神经网络模型与所述损失函数结合,生成初始卷积神经网络模型;
根据所述样本数据集训练所述初始卷积神经网络模型,生成修正卷积神经网络模型;
所述损失函数的公式为:
其中,X为特征向量,Y为是输出向量,αt为所述特征向量X第t维的值输入卷积神经网络后的输出结果,T为所述特征向量X的维数,AX,Y为所有所述特征向量X及其对应的所述输出向量Y所组成的集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910692195.3A CN110647795B (zh) | 2019-07-30 | 2019-07-30 | 一种表格识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910692195.3A CN110647795B (zh) | 2019-07-30 | 2019-07-30 | 一种表格识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110647795A CN110647795A (zh) | 2020-01-03 |
CN110647795B true CN110647795B (zh) | 2023-08-11 |
Family
ID=68989905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910692195.3A Active CN110647795B (zh) | 2019-07-30 | 2019-07-30 | 一种表格识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647795B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310424B (zh) * | 2020-01-16 | 2023-09-22 | 海信视像科技股份有限公司 | 表格生成方法及显示设备 |
CN111414916B (zh) * | 2020-02-29 | 2024-05-31 | 中国平安财产保险股份有限公司 | 图像中文本内容提取生成方法、装置及可读存储介质 |
CN111931229B (zh) * | 2020-07-10 | 2023-07-11 | 深信服科技股份有限公司 | 一种数据识别方法、装置和存储介质 |
CN112036294B (zh) * | 2020-08-28 | 2023-08-25 | 山谷网安科技股份有限公司 | 一种纸质表格结构自动识别的方法及装置 |
CN112183229B (zh) * | 2020-09-08 | 2023-05-23 | 上海墨说科教设备有限公司 | 基于计算动态参数的作业纸图像的字格提取方法及装置 |
CN111932483B (zh) * | 2020-09-28 | 2021-01-08 | 江西汉辰信息技术股份有限公司 | 图片处理方法、装置、存储介质及计算机设备 |
CN112800824B (zh) * | 2020-12-08 | 2024-02-02 | 北京方正印捷数码技术有限公司 | 扫描文件的处理方法、装置、设备及存储介质 |
CN112883926B (zh) * | 2021-03-24 | 2023-07-04 | 泰康保险集团股份有限公司 | 表格类医疗影像的识别方法及装置 |
CN113343845A (zh) * | 2021-06-04 | 2021-09-03 | 北京捷通华声科技股份有限公司 | 表格检测方法、装置、电子设备和存储介质 |
CN113516103A (zh) * | 2021-08-07 | 2021-10-19 | 山东微明信息技术有限公司 | 一种基于支持向量机的表格图像倾斜角度确定方法 |
CN115909369B (zh) * | 2023-02-15 | 2023-06-06 | 南京信息工程大学 | 一种汉字字体二值化切片图像的提取方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315664A (zh) * | 2008-05-27 | 2008-12-03 | 昆明理工大学 | 用于文字识别的文本图像预处理方法 |
CN107273896A (zh) * | 2017-06-15 | 2017-10-20 | 浙江南自智能科技股份有限公司 | 一种基于图像识别的车牌检测识别方法 |
CN108376257A (zh) * | 2018-02-10 | 2018-08-07 | 西北大学 | 一种燃气表不完整码字识别方法 |
CN109241894A (zh) * | 2018-08-28 | 2019-01-18 | 南京安链数据科技有限公司 | 一种基于表格定位和深度学习的针对性票据内容识别系统和方法 |
CN109460769A (zh) * | 2018-11-16 | 2019-03-12 | 湖南大学 | 一种基于表格字符检测与识别的移动端系统与方法 |
CN109766749A (zh) * | 2018-11-27 | 2019-05-17 | 上海眼控科技股份有限公司 | 一种用于财务报表的弯曲表格线的检测方法 |
-
2019
- 2019-07-30 CN CN201910692195.3A patent/CN110647795B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315664A (zh) * | 2008-05-27 | 2008-12-03 | 昆明理工大学 | 用于文字识别的文本图像预处理方法 |
CN107273896A (zh) * | 2017-06-15 | 2017-10-20 | 浙江南自智能科技股份有限公司 | 一种基于图像识别的车牌检测识别方法 |
CN108376257A (zh) * | 2018-02-10 | 2018-08-07 | 西北大学 | 一种燃气表不完整码字识别方法 |
CN109241894A (zh) * | 2018-08-28 | 2019-01-18 | 南京安链数据科技有限公司 | 一种基于表格定位和深度学习的针对性票据内容识别系统和方法 |
CN109460769A (zh) * | 2018-11-16 | 2019-03-12 | 湖南大学 | 一种基于表格字符检测与识别的移动端系统与方法 |
CN109766749A (zh) * | 2018-11-27 | 2019-05-17 | 上海眼控科技股份有限公司 | 一种用于财务报表的弯曲表格线的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110647795A (zh) | 2020-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647795B (zh) | 一种表格识别方法 | |
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN109636815B (zh) | 一种基于计算机视觉的金属板带产品标签信息识别方法 | |
EP2605186B1 (en) | Method and apparatus for recognizing a character based on a photographed image | |
CN115331245B (zh) | 一种基于图像实例分割的表格结构识别方法 | |
CN110598698B (zh) | 基于自适应区域建议网络的自然场景文本检测方法和系统 | |
CN114140803B (zh) | 基于深度学习的文档单字坐标检测和修正方法及系统 | |
CN111353961A (zh) | 一种文档曲面校正方法及装置 | |
CN115147418B (zh) | 缺陷检测模型的压缩训练方法和装置 | |
CN112307919A (zh) | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 | |
CN113435436A (zh) | 一种基于线性约束矫正网络的场景文字识别方法 | |
CN113657225B (zh) | 一种目标检测方法 | |
CN115578741A (zh) | 一种基于Mask R-cnn算法和类型分割的扫描文件版面分析方法 | |
CN111310754A (zh) | 一种分割车牌字符的方法 | |
CN108710881B (zh) | 神经网络模型、候选目标区域生成方法、模型训练方法 | |
CN117496518A (zh) | 基于文本检测和表格检测的电子卷宗图像智能矫正方法 | |
CN110705568B (zh) | 一种图像特征点提取的优化方法 | |
CN110969163B (zh) | 一种检测图像中文本信息的方法 | |
CN107292840B (zh) | 图像复原方法及装置、计算机可读存储介质、终端 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN113112531B (zh) | 一种图像匹配方法及装置 | |
CN112837329B (zh) | 一种藏文古籍文档图像二值化方法及系统 | |
CN115171133A (zh) | 用于不规则表格图像拉平的表格结构检测方法 | |
CN114299516A (zh) | 表格或文本行的处理方法、票据处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |