CN112883795B - 一种基于深度神经网络的表格快速自动提取方法 - Google Patents

一种基于深度神经网络的表格快速自动提取方法 Download PDF

Info

Publication number
CN112883795B
CN112883795B CN202110068949.5A CN202110068949A CN112883795B CN 112883795 B CN112883795 B CN 112883795B CN 202110068949 A CN202110068949 A CN 202110068949A CN 112883795 B CN112883795 B CN 112883795B
Authority
CN
China
Prior art keywords
image
neural network
text
sequence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110068949.5A
Other languages
English (en)
Other versions
CN112883795A (zh
Inventor
李晓春
彭赤
徐梁刚
时磊
杨恒
陈科羽
赵建
余江顺
周振锋
杨渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN202110068949.5A priority Critical patent/CN112883795B/zh
Publication of CN112883795A publication Critical patent/CN112883795A/zh
Application granted granted Critical
Publication of CN112883795B publication Critical patent/CN112883795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns

Abstract

架空输电线路的设计资料通常以图片表格、PDF表格等形式出现,且不同设计单位提供的资料格式、表现形式均有所区别,表格资料不能被计算机直接读取,需要进行人工手动输入,工作量大、速度慢。针对此问题,本发明公开了一种基于深度神经网络的表格快速自动提取方法,包括:步骤S1:进行图像表格矫正预处理;步骤S2:进行图像表格框线提取,得到裁剪出来的单元格图片Q(i);步骤S3:进行单元格文字定位;步骤S4:单元格文字识别;步骤S5:对所有单元格识别结果进行顺序合并,实现表格自动快速提取。该方法与现有的人工目视解译或者基于单字分割的表格提取方法相比,速度更快、自动化程度更高、识别更为准确和完整、泛化能力更强、效率更高,对于多源异构、复杂的图像表格数据依然可以保持较好的提取效果,便于验收项判定与验收工作管理。

Description

一种基于深度神经网络的表格快速自动提取方法
技术领域
本发明涉及神经网络应用技术领域,特别涉及一种基于深度神经网络的表格快速自动提取方法。
背景技术
架空输电线设计资料以图片表格、PDF表格等形式存在,资料类型繁杂,不同设计单位提供的设计移交资料在内容、格式以及表现形式上均存在差异,设计移交资料信息难以被计算机直接读取并进行有效分析,需进行人工手动输入,但人工提取的方式工作量大、周期较长、速度较慢、效率低、成本高昂,且容易出错,尤其对于大批量的表格数据极为局限。同时,由于缺乏对设计移交资料的规范化管理,造成设计资料难以被快速定位浏览,不便于验收项判定与验收工作管理,往往造成数据资料的闲置和利用率低下,甚至出现设计与建设的差异性。所以,对图片表格、PDF表格等形式的架空输电线路设计资料进行快速自动提取是十分必要的。针对该问题,有人提出利用单字分割的方式进行图像表格提取,这种方式需要将一长段文本拆分为单字,速度较慢、效率较低,受文字间隔不一致、表格倾斜、图像亮度、图像对比度等的影响还很容易出现误提取。
发明内容
有鉴于此,本发明的目的是提供一种基于深度神经网络的表格快速自动提取方法。可以实现一整段文字的整体识别,对于图像数据多源异构、表格倾斜等都具备很好的适应性,对表格整体的提取和恢复具备较优的效果。
本发明的目的是通过以下技术方案实现的:
该种基于深度神经网络的表格快速自动提取方法,其特征在于:
步骤S1:进行图像表格矫正预处理;包括建立图像矫正预处理模型,然后对输入的图像表格进行自动矫正,包括对图像表格进行亮度矫正以及对图像表格进行几何矫正。
步骤S2:进行图像表格框线提取,得到裁剪出来的单元格图片Q(i);
步骤S3:进行单元格文字定位;采用深度学习技术对裁剪出来的单元格图片Q(i)进行文字定位,主要利用卷积神经网络CNN进行前期特征提取,采用循环神经网络RNN进行文本位置的预测;
步骤S4:单元格文字识别;包括CNN特征提取、RNN序列预测和CTC文本翻译三部分内容;
步骤S5:对所有单元格识别结果进行顺序合并,实现表格自动快速提取。
特别地,所述亮度矫正包括:
步骤S11:计算原始输入图像的灰度直方图P(rk),灰度直方图的横坐标表示各个级别的灰度值,纵坐标表示该灰度值在图像中出现的概率:
P(rk)=nk/MN
其中,rk的代表第k级灰度值;k的取值范围为0到(L-1),即与原始图像的灰度值范围保持一致;nk表示图像中像素灰度值为rk的像素总数;M和N则分别表示图像的长和宽;
步骤S12:基于图像的灰度直方图P(rk),计算得到累计直方图c(rk):
Figure BDA0002905117270000021
步骤S13:在灰度直方图P(rk)和累计直方图c(rk)的基础上,对原始图像进行图像均衡化处理,可得变换函数Sk
Figure BDA0002905117270000022
其中,rk表示原始图像的灰度值,Sk表示均衡化后的图像灰度值;
步骤S14:选择一幅亮度、对比度较为合适的图像,将其直方图作为规定的直方图,对规定的直方图进行均衡化处理,可得变换函数如下:
vq=G(zq)
由于:
Sk=vq=G(zq)
对其进行反变换可得如下结果:
zq=G-1(vq)=G-1(Sk)=G-1(T(rk))
按照如上步骤,以图像均衡化操作为中间桥梁,建立起了原始图像像素灰度值rk与直方图匹配后的图像灰度值zq之间的关系,利用该映射关系对所有输入图像表格进行处理,完成亮度矫正。
特别地,所述几何矫正包括:
利用hough变换检测图像表格中的横向线段,对检测出所有线段进行遍历直至找到最长的那条横向线段,以该条线段为基础计算线段倾斜角度:
Figure BDA0002905117270000031
其中,x1和y1表示线段首端坐标,x2和y2表示线段尾端坐标;
该线段的倾斜角度即为图像表格的倾斜角度,按照此角度对图像整体进行顺时针或逆时针的旋转即可得到几何矫正后的图像。
特别地,所述步骤S2包括以下子步骤:
步骤S21:进行二值化处理
首先选取阈值对矫正后的图像进行二值化处理,假设矫正后的图像为f(x,y),根据经验设置阈值为k:
Figure BDA0002905117270000032
步骤S22:进行数学形态学腐蚀处理
为了提取出表格框线,采用数学形态学中的膨胀和腐蚀算法对二值化后的图像进行处理,为了提取表格中的横向框线,首先对二值化后的图像进行纵向腐蚀:
Figure BDA0002905117270000033
其中,f(x,y)表示输入图像,
Figure BDA0002905117270000034
表示腐蚀操作,B1为纵向腐蚀结构元素,设置B1=[11]。为了提取表格中的纵向框线,对二值化后的图像进行横向腐蚀:
Figure BDA0002905117270000035
其中,B2为横向腐蚀结构元素,设置
Figure BDA0002905117270000036
步骤S23:进行数学形态学膨胀处理
通过腐蚀运算提取的表格框线难免会存在一定的空洞,为了解决这个问题,采用膨胀算法对提取的框线结果进行处理,以达到消除空洞的目的:
Figure BDA0002905117270000037
Figure BDA0002905117270000038
其中B3为膨胀结构元素,其值设置为
Figure BDA0002905117270000039
符号
Figure BDA00029051172700000310
表示膨胀运算。
步骤S24:进行单元格图像顺序裁剪
通过如上操作得到横纵框线图分别为S3和S4,对其进行求交运算得到表格横纵框线交点:
P=conv(S3∩S4)
其中,conv()表示卷积操作,因为纵横框线都是有一定宽度的,直接求交得到的有可能是由多个点组成的交点集,所以利用一个特定的卷积模板对该交点集做一次卷积运算,得到单个交点并记录其位置信息。
按从左往右、从上往下的顺序依次记录下P中所有交点的位置信息,按照交点的位置对图像进行裁剪,得到多幅裁剪后的单元格图片Q(i),其中i代表单元格序号。
特别地,所述步骤S3中,基于CNN的前期特征提取是采用了ResNet-18模型进行前期特征提取,该模型中特殊的残差学习模式可以满足图像表格特征提取的需求:
features=ResNet1s(Q(i))
其中,ResNet18()表示ResNet-18卷积神经网络模型,Q(i)为模型输入,即上一步骤得到的裁剪后单元格图像,features表示模型的输出特征图,特征图features的尺寸为(w*h*512),w和h分别表示特征图的宽和高。
特别地,所述步骤S3中,基于RNN的文本位置预测是将基于CNN的前期特征提取得到的特征图features作为输入,以3*3*512大小的模板对特征图features进行滑窗操作,将得到的特征向量输入到BLSTM循环神经网络模型中,可以得到w*256大小的特征图,将其记为features_out,再将输出特征图features_out与全连接层相连,其神经元个数为512,将全连接层的输出结果记为FC,其为一个长度为512的行向量,然后在得到的行向量FC后分别接上一个分类子网络、两个回归子网络,第一个回归子网络用于输出外接矩形框的高度和中心Y坐标,第二个回归子网络用于输出外接矩形框的水平平移量,分类子网络则用于判断外接矩形框是否为文本。
特别地,采用了非极大值抑制算法来对得到的大量文本外接矩形框进行处理,用于消除冗余;
由于提取的文本位置是一个个单独的外接矩形框,而文本通常是以行为单位,还需要对单独的外接矩形框进行合并操作,采用文本线构造算法对多个单独的外接矩形框进行合并;所述算法包括步骤如下:
设提取的文本外接矩形框为B,将每两个相邻的矩形框Bi和Bj合并为一个组,一直合并直至不满足合并条件无法合并为止,矩形框Bi和Bj的合并条件如下:
(Bi->Bj)∧(Bj->Bi)=TrMe
其中,(Bi->Bj)表示矩形框Bi为Bj最优的邻居,而(Bi->Bj)式子为真的条件如下:
Figure BDA0002905117270000041
其中,overlap(Bi,Bj)≥0.7表示Bi和Bj的重叠度应不小于0.7;distance(Bi,Bj)<distance(Bj,Bo)表示Bi和Bj的距离必须比其它矩形框与Bj间的距离小;distance(Bi,Bj)<50表示矩形框Bi和Bj的距离必须小于50个像素;
如上三个条件必须全部满足方可判定(Bi->Bj)为真,即矩形框Bi为Bj最优的邻居。
特别地,所述步骤S4中,RNN序列预测将CNN提取的文本图像特征序列输入到循环神经网络RNN中,为了避免在训练时梯度的丢失,并且考虑到特征序列的前后信息都有助于模型训练预测,所以这里采用了BLSTM循环神经网络模型对输入的特征序列进行训练,最终输出模型预测序列分布,将其记为y。
特别地,所述步骤S4中,CTC文本翻译是通过上一操作得到模型预测序列分布结果y,再采用CTC模型对预测标签分布结果进行转换翻译,输出得到最终的文本识别结果L:
Figure BDA0002905117270000051
其中,y为之前得到的模型预测序列,π表示原始预测的文本序列,β()表示原始预测文本序列和输出预测文本序列之间的映射方法,方法内容包括去掉空字符、去掉连续字符,L表示最终的输出文本序列。
特别地,所述步骤S5中,根据步骤S24中对图像表格进行裁剪时记录下的裁剪顺序,对所有单元格识别结果进行合并,以还原表格得到最终表格提取结果。
本发明的有益效果是:
本发明通过构建图像表格的矫正预处理模型,消除了图像亮度不一致、图像表格不水平等因素的影响。通过构建图像表格框线自动提取模型,实现了表格框线的快速自动提取和单元格顺序分割。采用ResNet-18卷积神经网络进行图像表格的前期特征提取,并与BLSTM循环神经网络相结合实现了图像单元格文本的定位。然后通过构建特殊的卷积神经网络模型提取特征,将其与BLSTM循环神经网络结合进行序列预测,再通过CTC模型对序列预测结果进行翻译和转换,得到单元格文本内容识别结果。最后将所有的单元格文本识别结果按之前的裁剪顺序进行合并,得到最终的图像表格提取结果。该方法与现有的人工目视解译或者基于单字分割的表格提取方法相比,速度更快、自动化程度更高、识别更为准确和完整、泛化能力更强、效率更高,对于多源异构、复杂的图像表格数据依然可以保持较好的提取效果。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明方法流程图;
图2为实施例中步骤S41所使用到的CNN网络结构图。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
如图1所示,本发明的一种基于深度神经网络的表格快速自动提取方法,包括以下步骤:
步骤S1:进行图像表格矫正预处理;包括建立图像矫正预处理模型,然后对输入的图像表格进行自动矫正,包括对图像表格进行亮度矫正以及对图像表格进行几何矫正。
(1)图像表格亮度矫正
原始图像受拍摄光照条件、拍摄传感器或其它因素影响,图像的亮度会存在不一致和差异特别大的情况,为了使所有图像都保持统一亮度等级,以满足后续表格提取的需求,采用了图像直方图匹配的方式对输入的图像表格进行亮度矫正处理。本实施例中,亮度矫正包括:
步骤S11:计算原始输入图像的灰度直方图P(rk),灰度直方图的横坐标表示各个级别的灰度值,纵坐标表示该灰度值在图像中出现的概率:
P(rk)=nk/MN
其中,rk的代表第k级灰度值;k的取值范围为0到(L-1),即与原始图像的灰度值范围保持一致;nk表示图像中像素灰度值为rk的像素总数;M和N则分别表示图像的长和宽;
步骤S12:基于图像的灰度直方图P(rk),计算得到累计直方图c(rk):
Figure BDA0002905117270000061
步骤S13:在灰度直方图P(rk)和累计直方图c(rk)的基础上,对原始图像进行图像均衡化处理,可得变换函数sk
Figure BDA0002905117270000062
其中,rk表示原始图像的灰度值,Sk表示均衡化后的图像灰度值;
步骤S14:选择一幅亮度、对比度较为合适的图像,将其直方图作为规定的直方图,对规定的直方图进行均衡化处理,可得变换函数如下:
vq=G(zq)
由于:
Sk=vq=G(zq)
对其进行反变换可得如下结果:
zq=G-1(vq)=G-1(Sk)=G-1(T(rk))
按照如上步骤,以图像均衡化操作为中间桥梁,建立起了原始图像像素灰度值rk与直方图匹配后的图像灰度值zq之间的关系。对于输入的每一张原始图像,通过如上所述的图像亮度矫正预处理模型,可以将其归一化为亮度、对比度较为接近的图像,从而避免因拍摄条件、光照等问题造成的图像亮度、对比度差异大的问题,为后续的表格提取工作提供了先决条件。
(2)图像表格几何矫正
由于拍摄位置、扫描位置或其它因素的影响,原始图像中的表格通常很难保证完全水平,会存在一些不同程度的倾斜现象,这给后续的表格识别任务带来了极大的困难。基于此,本发明利用hough变换建立了图像表格自动几何矫正子模型,通过该模型可以使得图像表格矫正到水平状态。
具体步骤包括:利用hough变换检测图像表格中的横向线段,对检测出所有线段进行遍历直至找到最长的那条横向线段,以该条线段为基础计算线段倾斜角度:
Figure BDA0002905117270000071
其中,x1和y1表示线段首端坐标,x2和y2表示线段尾端坐标;
该线段的倾斜角度即为图像表格的倾斜角度,按照此角度对图像整体进行顺时针或逆时针的旋转即可得到几何矫正后的图像。
步骤S2:进行图像表格框线提取,得到裁剪出来的单元格图片Q(i);
具体包括以下子步骤:
步骤S21:进行二值化处理
首先选取阈值对矫正后的图像进行二值化处理,假设矫正后的图像为f(x,y),根据经验设置阈值为k:
Figure BDA0002905117270000072
步骤S22:进行数学形态学腐蚀处理
为了提取出表格框线,采用数学形态学中的膨胀和腐蚀算法对二值化后的图像进行处理,为了提取表格中的横向框线,首先对二值化后的图像进行纵向腐蚀:
Figure BDA0002905117270000081
其中,f(x,y)表示输入图像,
Figure BDA0002905117270000082
表示腐蚀操作,B1为纵向腐蚀结构元素,设置B1=[11]。为了提取表格中的纵向框线,对二值化后的图像进行横向腐蚀:
Figure BDA0002905117270000083
其中,B2为横向腐蚀结构元素,设置
Figure BDA0002905117270000084
步骤S23:进行数学形态学膨胀处理
通过腐蚀运算提取的表格框线难免会存在一定的空洞,为了解决这个问题,采用膨胀算法对提取的框线结果进行处理,以达到消除空洞的目的:
Figure BDA0002905117270000085
Figure BDA0002905117270000086
其中B3为膨胀结构元素,其值设置为
Figure BDA0002905117270000087
符号
Figure BDA0002905117270000088
表示膨胀运算。
步骤S24:进行单元格图像顺序裁剪
通过如上操作得到横纵框线图分别为S3和S4,对其进行求交运算得到表格横纵框线交点:
P=conv(S3∩S4)
其中,conv()表示卷积操作,因为纵横框线都是有一定宽度的,直接求交得到的有可能是由多个点组成的交点集,所以利用一个特定的卷积模板对该交点集做一次卷积运算,得到单个交点并记录其位置信息。
按从左往右、从上往下的顺序依次记录下P中所有交点的位置信息,按照交点的位置对图像进行裁剪,得到多幅裁剪后的单元格图片Q(i),其中i代表单元格序号。
步骤S3:进行单元格文字定位;采用深度学习技术对裁剪出来的单元格图片Q(i)进行文字定位,主要利用卷积神经网络CNN进行前期特征提取,采用循环神经网络RNN进行文本位置的预测;
其详细原理如下:
(1)基于CNN的前期特征提取
考虑到图像中表格的样式、大小等都有所差异,且图像来源也不相同,总体来说图像表格内容较为复杂,为了提取图像表格的更深层次特征就需要使用较为深层的特征提取网络,但网络层次过深容易导致模型退化。为了解决这个问题,且取得更好地效果,本发明中采用了ResNet-18模型进行前期特征提取,该模型中特殊的残差学习模式可以满足图像表格特征提取的需求:
features=ResNet1s(Q(i))
其中,ResNet18()表示ResNet-18卷积神经网络模型,Q(i)为模型输入,即上一步骤得到的裁剪后单元格图像,features表示模型的输出特征图,特征图features的尺寸为(w*h*512),w和h分别表示特征图的宽和高。
(2)基于RNN的文本位置预测
将上一步得到的特征图features作为输入,以3*3*512大小的模板对特征图features进行滑窗操作,将得到的特征向量输入到BLSTM循环神经网络模型中,可以得到w*256大小的特征图,将其记为features_out。再将输出特征图features_out与全连接层相连,其神经元个数为512,将全连接层的输出结果记为FC,它是一个长度为512的行向量,然后在得到的行向量FC后分别接上一个分类子网络、两个回归子网络,第一个回归子网络用于输出外接矩形框的高度和中心Y坐标,第二个回归子网络用于输出外接矩形框的水平平移量,分类子网络则用于判断外接矩形框是否为文本。
通过如上处理会得到较多数量的文本外接矩形框,其中有许多是重复和多余的,为了消除这种冗余,采用了非极大值抑制算法来对文本外接矩形框进行处理。
由于这里提取的文本位置是一个个单独的外接矩形框,而文本通常是以行为单位,所以还需要对单独的外接矩形框进行合并操作,本发明中采用了文本线构造算法对多个单独的外接矩形框进行合并。
假设提取的文本外接矩形框为B,将每两个相邻的矩形框Bi和Bj合并为一个组,一直合并直至不满足合并条件无法合并为止。矩形框Bi和Bj的合并条件如下:
(Bi->Bj)∧(Bj->Bi)=True
其中,(Bi->Bj)表示矩形框Bi为Bj最优的邻居,而(Bi->Bj)式子为真的条件如下:
Figure BDA0002905117270000091
其中,overlap(Bi,Bj)≥0.7表示Bi和Bj的重叠度应不小于0.7;distance(Bi,Bj)<distance(Bj,Bo]表示Bi和Bj的距离必须比其它矩形框与Bj间的距离小;distance(Bi,Bj)<50表示矩形框Bi和Bj的距离必须小于50个像素。如上三个条件必须全部满足方可判定(Bi->Bj)为真,即矩形框Bi为Bj最优的邻居。
步骤S4:单元格文字识别;包括CNN特征提取、RNN序列预测和CTC文本翻译三部分内容,
(1)CNN特征提取
由于CNN的特征提取要用于输入后续的RNN模型中,而RNN特殊的结构要求网络输入必须特征序列,所以采用如图2结构的CNN网络进行图像特征提取:
首先将步骤3得到的文本图像缩放调整为W1*32*1尺寸大小,其中W表示图像宽度,32表示图像高度,1表示图像通道数。网络中包含7个卷积层、4个池化层和2个批量归一化层,经过处理模型会输出W2*1*512尺寸大小的特征序列。
(2)RNN序列预测
将CNN提取的文本图像特征序列输入到循环神经网络RNN中,为了避免在训练时梯度的丢失,并且考虑到特征序列的前后信息都有助于模型训练预测,所以这里采用了BLSTM循环神经网络模型对输入的特征序列进行训练,最终输出模型预测序列分布,将其记为y。
(3)CTC文本翻译
通过上一操作得到模型预测序列分布结果y,在这里采用CTC模型对预测标签分布结果进行转换翻译,输出得到最终的文本识别结果L:
Figure BDA0002905117270000101
其中,y为之前得到的模型预测序列,π表示原始预测的文本序列,β()表示原始预测文本序列和输出预测文本序列之间的映射方法,方法内容包括去掉空字符、去掉连续字符,L表示最终的输出文本序列。
步骤S5:对所有单元格识别结果进行顺序合并,实现表格自动快速提取。
通过前4个步骤,分别完成了图像的矫正预处理、图像表格框选提取及裁剪、单元格文本位置定位、单元格文本内容识别,但是现在得到的还只是独立的单元格识别结果,还需要对所有单元格识别结果进行顺序合并。由于在步骤S24中,对图像表格进行裁剪时已记录下裁剪顺序,所以在此处再按照该顺序对所有单元格识别结果进行合并,以还原表格得到最终表格提取结果。
需要说明的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于深度神经网络的表格快速自动提取方法,其特征在于:
步骤S1:进行图像表格矫正预处理;包括建立图像矫正预处理模型,然后对输入的图像表格进行自动矫正,包括对图像表格进行亮度矫正以及对图像表格进行几何矫正;
步骤S2:进行图像表格框线提取,得到裁剪出来的单元格图片Q(i);所述步骤S2包括以下子步骤:
步骤S21:进行二值化处理
首先选取阈值对矫正后的图像进行二值化处理,假设矫正后的图像为f(x,y),根据经验设置阈值为k:
Figure FDA0003732600970000011
步骤S22:进行数学形态学腐蚀处理
为了提取出表格框线,采用数学形态学中的膨胀和腐蚀算法对二值化后的图像进行处理,为了提取表格中的横向框线,首先对二值化后的图像进行纵向腐蚀:
Figure FDA0003732600970000012
其中,f(x,y)表示输入图像,
Figure FDA0003732600970000013
表示腐蚀操作,B1为纵向腐蚀结构元素,设置B1=[11];为了提取表格中的纵向框线,对二值化后的图像进行横向腐蚀:
Figure FDA0003732600970000014
其中,B2为横向腐蚀结构元素,设置
Figure FDA0003732600970000015
步骤S23:进行数学形态学膨胀处理
通过腐蚀运算提取的表格框线难免会存在一定的空洞,为了解决这个问题,采用膨胀算法对提取的框线结果进行处理,以达到消除空洞的目的:
Figure FDA0003732600970000016
Figure FDA0003732600970000017
其中B3为膨胀结构元素,其值设置为
Figure FDA0003732600970000018
符号
Figure FDA0003732600970000019
表示膨胀运算;
步骤S24:进行单元格图像顺序裁剪
通过如上操作得到横纵框线图分别为S3和S4,对其进行求交运算得到表格横纵框线交点:
P=conv(S3∩S4)
其中,conv()表示卷积操作,因为纵横框线都是有一定宽度的,直接求交得到的有可能是由多个点组成的交点集,所以利用一个特定的卷积模板对该交点集做一次卷积运算,得到单个交点并记录其位置信息;
按从左往右、从上往下的顺序依次记录下P中所有交点的位置信息,按照交点的位置对图像进行裁剪,得到多幅裁剪后的单元格图片Q(i),其中i代表单元格序号;
步骤S3:进行单元格文字定位;采用深度学习技术对裁剪出来的单元格图片Q(i)进行文字定位,主要利用卷积神经网络CNN进行前期特征提取,采用循环神经网络RNN进行文本位置的预测;
步骤S4:进行单元格文字识别;包括CNN特征提取、RNN序列预测和CTC文本翻译三部分内容;
步骤S5:对所有单元格识别结果进行顺序合并,实现表格自动快速提取。
2.根据权利要求1所述的一种基于深度神经网络的表格快速自动提取方法,其特征在于:所述亮度矫正包括:
步骤S11:计算原始输入图像的灰度直方图P(rk),灰度直方图的横坐标表示各个级别的灰度值,纵坐标表示该灰度值在图像中出现的概率:
P(rk)=nk/MN
其中,rk的代表第k级灰度值;k的取值范围为0到(R-1),即与原始图像的灰度值范围保持一致;nk表示图像中像素灰度值为rk的像素总数;M和N则分别表示图像的长和宽;
步骤S12:基于图像的灰度直方图P(rk),计算得到累计直方图c(rk):
Figure FDA0003732600970000021
步骤S13:在灰度直方图P(rk)和累计直方图c(rk)的基础上,对原始图像进行图像均衡化处理:
Figure FDA0003732600970000022
其中,rk表示原始图像的灰度值,Sk表示均衡化后的图像灰度值;
步骤S14:选择一幅亮度、对比度较为合适的图像,将其直方图作为规定的直方图,对规定的直方图进行均衡化处理,可得变换函数如下:
vq=G(zq)
由于:
Sk=vq=G(zq)
对其进行反变换可得如下结果:
zq=G-1(vq)=G-1(Sk)=G-1(T(rk))
按照如上步骤,以图像均衡化操作为中间桥梁,建立起了原始图像像素灰度值rk与直方图匹配后的图像灰度值zq之间的关系,利用该映射关系对所有输入的图像表格进行处理,得到亮度矫正后的结果。
3.根据权利要求1所述的一种基于深度神经网络的表格快速自动提取方法,其特征在于:所述几何矫正包括:
利用hough变换检测图像表格中的横向线段,对检测出所有线段进行遍历直至找到最长的那条横向线段,以该条线段为基础计算线段倾斜角度:
Figure FDA0003732600970000031
其中,x1和y1表示线段首端坐标,x2和y2表示线段尾端坐标;
该线段的倾斜角度即为图像表格的倾斜角度,按照此角度对图像整体进行顺时针或逆时针的旋转即可得到几何矫正后的图像。
4.根据权利要求1所述的一种基于深度神经网络的表格快速自动提取方法,其特征在于:所述步骤S3中,基于CNN的前期特征提取是采用了ResNet-18模型进行前期特征提取,该模型中特殊的残差学习模式可以满足图像表格特征提取的需求:
features=ResNet18(Q(i))
其中,ResNet18()表示ResNet-18卷积神经网络模型,Q(i)为模型输入,即上一步骤得到的裁剪后单元格图像,features表示模型的输出特征图,特征图features的尺寸为(w*h*512),w和h分别表示特征图的宽和高。
5.根据权利要求4所述的一种基于深度神经网络的表格快速自动提取方法,其特征在于:所述步骤S3中,基于RNN的文本位置预测是将基于CNN的前期特征提取得到的特征图features作为输入,以3*3*512大小的模板对特征图features进行滑窗操作,将得到的特征向量输入到BLSTM循环神经网络模型中,可以得到w*256大小的特征图,将其记为features_out,再将输出特征图features_out与全连接层相连,其神经元个数为512,将全连接层的输出结果记为FC,其为一个长度为512的行向量,然后在得到的行向量FC后分别接上一个分类子网络、两个回归子网络,第一个回归子网络用于输出外接矩形框的高度和中心Y坐标,第二个回归子网络用于输出外接矩形框的水平平移量,分类子网络则用于判断外接矩形框是否为文本。
6.根据权利要求5所述的一种基于深度神经网络的表格快速自动提取方法,其特征在于:采用了非极大值抑制算法来对得到的大量文本外接矩形框进行处理,用于消除冗余;
由于提取的文本位置是一个个单独的外接矩形框,而文本通常是以行为单位,还需要对单独的外接矩形框进行合并操作,采用文本线构造算法对多个单独的外接矩形框进行合并;所述算法包括步骤如下:
设提取的文本外接矩形框为B,将每两个相邻的矩形框Bi和Bj合并为一个组,一直合并直至不满足合并条件无法合并为止,矩形框Bi和Bj的合并条件如下:
(Bi->Bj)∧(Bj->Bi)=True
其中,(Bi->Bj)表示矩形框Bi为Bj最优的邻居,而(Bi->Bj)式子为真的条件如下:
Figure FDA0003732600970000041
其中,overlap(Bi,Bj)≥0.7表示Bi和Bj的重叠度应不小于0.7;distance(Bi,Bj)<distance(Bj,Bo)表示Bi和Bj的距离必须比其它矩形框与Bj间的距离小;distance(Bi,Bj)<50表示矩形框Bi和Bj的距离必须小于50个像素;
如上三个条件必须全部满足方可判定(Bi->Bj)为真,即矩形框Bi为Bj最优的邻居。
7.根据权利要求1所述的一种基于深度神经网络的表格快速自动提取方法,其特征在于:所述步骤S4中,RNN序列预测将CNN提取的文本图像特征序列输入到循环神经网络RNN中,为了避免在训练时梯度的丢失,并且考虑到特征序列的前后信息都有助于模型训练预测,所以这里采用了BLSTM循环神经网络模型对输入的特征序列进行训练,最终输出模型预测序列分布,将其记为y。
8.根据权利要求7所述的一种基于深度神经网络的表格快速自动提取方法,其特征在于:所述步骤S4中,CTC文本翻译是通过上一操作得到模型预测序列分布结果y,再采用CTC模型对预测标签分布结果进行转换翻译,输出得到最终的文本识别结果L:
Figure FDA0003732600970000042
其中,y为之前得到的模型预测序列,π表示原始预测的文本序列,β()表示原始预测文本序列和输出预测文本序列之间的映射方法,方法内容包括去掉空字符、去掉连续字符,L表示最终的输出文本序列。
9.根据权利要求1所述的一种基于深度神经网络的表格快速自动提取方法,其特征在于:所述步骤S5中,根据步骤S24中对图像表格进行裁剪时记录下的裁剪顺序,对所有单元格识别结果进行合并,以还原表格得到最终表格提取结果。
CN202110068949.5A 2021-01-19 2021-01-19 一种基于深度神经网络的表格快速自动提取方法 Active CN112883795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110068949.5A CN112883795B (zh) 2021-01-19 2021-01-19 一种基于深度神经网络的表格快速自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110068949.5A CN112883795B (zh) 2021-01-19 2021-01-19 一种基于深度神经网络的表格快速自动提取方法

Publications (2)

Publication Number Publication Date
CN112883795A CN112883795A (zh) 2021-06-01
CN112883795B true CN112883795B (zh) 2023-01-31

Family

ID=76049704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110068949.5A Active CN112883795B (zh) 2021-01-19 2021-01-19 一种基于深度神经网络的表格快速自动提取方法

Country Status (1)

Country Link
CN (1) CN112883795B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761202A (zh) * 2021-08-30 2021-12-07 上海快确信息科技有限公司 一种将非结构金融Excel表格映射到数据库的优化系统
CN113792677B (zh) * 2021-09-17 2023-10-17 日立楼宇技术(广州)有限公司 一种表格识别方法、装置、计算机设备和存储介质
CN114511863B (zh) * 2021-12-20 2023-10-03 北京百度网讯科技有限公司 表格结构提取方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359548A (zh) * 2018-09-19 2019-02-19 深圳市商汤科技有限公司 多人脸识别监控方法及装置、电子设备及存储介质
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN111626146A (zh) * 2020-05-08 2020-09-04 西安工业大学 一种基于模板匹配的合并单元格表格分割识别方法
AU2020103026A4 (en) * 2020-10-27 2020-12-24 Nanjing Forestry University A Single Tree Crown Segmentation Algorithm Based on Super-pixels and Topological Features in Aerial Images

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140233826A1 (en) * 2011-09-27 2014-08-21 Board Of Regents Of The University Of Texas System Systems and methods for automated screening and prognosis of cancer from whole-slide biopsy images
US9628837B2 (en) * 2013-08-07 2017-04-18 AudioStreamTV Inc. Systems and methods for providing synchronized content
CN108229587B (zh) * 2018-02-06 2021-04-06 贵州电网有限责任公司 一种基于飞行器悬停状态的输电杆塔自主扫描方法
CN108596066B (zh) * 2018-04-13 2020-05-26 武汉大学 一种基于卷积神经网络的字符识别方法
CN109086714B (zh) * 2018-07-31 2020-12-04 国科赛思(北京)科技有限公司 表格识别方法、识别系统及计算机装置
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及系统
CN109949271B (zh) * 2019-02-14 2021-03-16 腾讯科技(深圳)有限公司 一种基于医学图像的检测方法、模型训练的方法及装置
CN110363812A (zh) * 2019-07-10 2019-10-22 国网四川省电力公司电力科学研究院 一种图像识别方法
CN111626249B (zh) * 2020-06-01 2022-05-13 北京易真学思教育科技有限公司 题目图像中几何图形的识别方法、装置和计算机存储介质
CN111860257B (zh) * 2020-07-10 2022-11-11 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统
CN111814722B (zh) * 2020-07-20 2022-04-19 电子科技大学 一种图像中的表格识别方法、装置、电子设备及存储介质
CN112183233A (zh) * 2020-09-09 2021-01-05 上海鹰觉科技有限公司 基于深度学习的船牌识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109359548A (zh) * 2018-09-19 2019-02-19 深圳市商汤科技有限公司 多人脸识别监控方法及装置、电子设备及存储介质
CN111626146A (zh) * 2020-05-08 2020-09-04 西安工业大学 一种基于模板匹配的合并单元格表格分割识别方法
AU2020103026A4 (en) * 2020-10-27 2020-12-24 Nanjing Forestry University A Single Tree Crown Segmentation Algorithm Based on Super-pixels and Topological Features in Aerial Images

Also Published As

Publication number Publication date
CN112883795A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112883795B (zh) 一种基于深度神经网络的表格快速自动提取方法
CN109635744B (zh) 一种基于深度分割网络的车道线检测方法
CN108960245B (zh) 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN108918536B (zh) 轮胎模具表面字符缺陷检测方法、装置、设备及存储介质
CN112052852B (zh) 一种基于深度学习的手写气象档案资料的字符识别方法
CN107480585B (zh) 基于dpm算法的目标检测方法
CN111460927B (zh) 对房产证图像进行结构化信息提取的方法
CN114581388A (zh) 接触网零部件缺陷检测方法及装置
CN113673338A (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN110807775A (zh) 基于人工智能的中医舌像分割装置、方法及存储介质
CN111626145B (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN112541491A (zh) 基于图像字符区域感知的端到端文本检测及识别方法
CN111738295A (zh) 图像的分割方法及存储介质
CN111027538A (zh) 一种基于实例分割模型的集装箱检测方法
CN115578741A (zh) 一种基于Mask R-cnn算法和类型分割的扫描文件版面分析方法
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN110414517B (zh) 一种用于配合拍照场景的快速高精度身份证文本识别算法
CN115862045A (zh) 基于图文识别技术的病例自动识别方法、系统、设备及存储介质
CN114782355A (zh) 基于改进vgg16网络的胃癌数字病理切片检测方法
WO2022121021A1 (zh) 一种身份证号码检测方法、装置、可读存储介质和终端
CN113065404B (zh) 基于等宽文字片段的火车票内容检测方法与系统
CN111612802B (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN111738264A (zh) 一种机房设备显示面板数据的智能采集方法
CN116385466A (zh) 一种基于边界框弱标注的图像中目标分割方法及系统
CN114511862A (zh) 表格识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant