CN112200117B - 表格识别方法及装置 - Google Patents
表格识别方法及装置 Download PDFInfo
- Publication number
- CN112200117B CN112200117B CN202011139730.1A CN202011139730A CN112200117B CN 112200117 B CN112200117 B CN 112200117B CN 202011139730 A CN202011139730 A CN 202011139730A CN 112200117 B CN112200117 B CN 112200117B
- Authority
- CN
- China
- Prior art keywords
- cell
- coordinates
- calculating
- region
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 230000000750 progressive effect Effects 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 230000000306 recurrent effect Effects 0.000 claims abstract description 14
- 238000001914 filtration Methods 0.000 claims description 9
- 230000000877 morphologic effect Effects 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000007797 corrosion Effects 0.000 claims description 5
- 238000005260 corrosion Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 17
- 102100032202 Cornulin Human genes 0.000 description 6
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 230000003628 erosive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种表格识别方法及装置,涉及表格识别技术领域。该方法包括:获取包含待识别表格的图片,对图片中的表格的轮廓进行检测,根据检测结果得到表格中每个单元格的相对坐标;通过卷积递归神经网络对每个单元格内的文字进行识别,如果识别失败,则通过渐进尺度扩展网络对识别失败的单元格内的文字进行识别;识别完成后,根据识别结果确定每个单元格的内容,根据每个单元格的相对坐标确定每个单元格的相对位置,生成表格文件。本发明不需要对样本数据进行字符分割,可识别任意长度的文本序列,模型速度快、性能好,并可以成功地识别相邻文本实例,从而提高识别的准确度和精确度。
Description
技术领域
本发明涉及表格识别技术领域,尤其涉及表格识别方法及装置。
背景技术
表格识别,将含有表格的图像中的表格区域划分并识别出表格的内容,最后生成对应的表格文件。
然而,当表格内文字较为模糊或者相邻文本难以区分时,现有的表格识别方法很难将中的文字准确地识别出来。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供表格识别方法及装置。
本发明解决上述技术问题的技术方案如下:
一种表格识别方法,包括:
获取包含待识别表格的图片,对所述图片中的表格的轮廓进行检测,根据检测结果得到表格中每个单元格的相对坐标;
对每个所述单元格内的文字取最小外接矩形轮廓;
通过卷积递归神经网络对每个所述最小外接矩形轮廓内的文字进行识别,如果识别失败,则通过渐进尺度扩展网络对识别失败的最小外接矩形轮廓内的文字进行识别;
识别完成后,根据识别结果确定每个单元格的内容,根据每个所述单元格的相对坐标确定每个所述单元格的相对位置,生成表格文件。
本发明解决上述技术问题的另一种技术方案如下:
一种表格识别装置,包括:
检测单元,用于获取包含待识别表格的图片,对所述图片中的表格的轮廓进行检测,根据检测结果得到表格中每个单元格的相对坐标;
识别单元,用于对每个所述单元格内的文字取最小外接矩形轮廓,并通过卷积递归神经网络对每个所述最小外接矩形轮廓内的文字进行识别,如果识别失败,则通过渐进尺度扩展网络对识别失败的最小外接矩形轮廓内的文字进行识别;
生成单元,用于识别完成后,根据识别结果确定每个单元格的内容,根据每个所述单元格的相对坐标确定每个所述单元格的相对位置,生成表格文件。
本发明的有益效果是:本发明提供的表格识别方案,通过对包含待识别表格的图片进行检测,确定表格的位置,然后取文字的最小外接矩形轮廓,通过卷积递归神经网络对每个单元格内的文字进行识别,不需要对样本数据进行字符分割,可识别任意长度的文本序列,模型速度快、性能好,并当识别失败时,通过渐进尺度扩展网络对识别失败的单元格内的文字进行识别,可以成功地识别相邻文本实例,从而提高识别的准确度和精确度,此外,在通过神经网络进行识别之前,对文字预先取最小外接矩形轮廓,能够减少非文字部分对识别结果的影响,经验证,能够有效提高文字识别的精度。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明表格识别方法的实施例提供的流程示意图;
图2为本发明表格识别方法的实施例提供的CRNN网络结构示意图;
图3为本发明表格识别方法的实施例提供的文字裁剪示意图;
图4为本发明表格识别方法的实施例提供的PSENET网络结构示意图;
图5为本发明表格识别方法的实施例提供的PSENET网络识别结果示意图;
图6为本发明表格识别方法的实施例提供的excel表格生成流程示意图;
图7为本发明表格识别方法的其他实施例提供的包含表格的图片示意图;
图8为本发明表格识别方法的其他实施例提供的处理后的图片示意图;
图9为本发明表格识别方法的其他实施例提供的区域轮廓检测示意图;
图10为本发明表格识别方法的其他实施例提供的区域轮廓检测示意图;
图11为本发明表格识别方法的其他实施例提供的初始角点示意图;
图12为本发明表格识别方法的其他实施例提供的角点聚类结果示意图;
图13为本发明表格识别方法的其他实施例提供的表格坐标计算结果示意图;
图14为本发明表格识别方法的其他实施例提供的斜线表格识别过程示意图;
图15为本发明表格识别方法的其他实施例提供的多表格合并流程示意图;
图16为本发明表格识别装置的实施例提供的结构框架示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明表格识别方法的实施例提供的流程示意图,该表格识别方法适用于手机等拍摄的图片中包含的表格识别,可以将识别出的表格内容自动填充在表格文件的对应位置处,如excel文件,该方法包括:
步骤1,获取包含待识别表格的图片,对图片中的表格的轮廓进行检测,根据检测结果得到表格中每个单元格的相对坐标;
需要说明的是,图片可以通过手机、相机、平板电脑等设备拍摄得到,图片中可以包含一个表格,也可以包含多个表格,如果是多个表格,那么在对图片中的表格进行轮廓检测后,区分各个表格,分别对每个表格进行处理,处理的步骤相同,因此,后续以一个表格为例进行说明。
具体地,可以将图中的表格部分的所有表格线和表格框识别出来,并形成每个单元格位置的相对坐标。
例如,可以通过识别出水平和垂直的表格线识别出整体表格区域,通过面积阈值滤除一部分单元格,最小化节点数,通过轮廓层次结构构造树结构,识别粗表格轮廓,即轮廓的最小外接矩形,并移除不是粗轮廓的闭包空间的轮廓,计算旋转的外接矩形和所有单元格的面积。
然后通过计算每个区域的中心坐标,得到每个单元格的相对坐标。
步骤2,对每个单元格内的文字取最小外接矩形轮廓;
由于识别出每个单元格后,由于单元格内有大量的留白,因此会增加识别错误的概率,因此将每个单元格内的文字取最小外接矩形,从而提高识别的准确率。
如图3所示,可以求最小外接矩形即将各自的点集的最左、最右、最上、最下坐标送入矩形坐标中,并将原图的矩形区域裁剪出来。得到每个单元格的位置后,对每个格内文字进行处理。将每个格内文字取其最小外接矩形,再将最小外接矩形的图像部分送入卷积递归神经网络中进行识别。这样做是为了提高文字识别的精度,在传统的模型识别中,通常是将整张表格作为数据输入,输入到神经网络模型中进行识别,对于机器学习,是将输入数据的全部作为学习的依据,因此,表格与文字之间的留白部分可能影响模型的识别效果,对识别精度产生影响,通过取文字的最小外接矩形,能够保证输入神经网络模型的数据的留白部分减少到最小,使神经网络模型专注于表格内文字的识别,减少干扰。经验证,与直接将表格输入到神经网络模型中相比,预先对表格内的文字取最小外接矩形,能够有效地提高文字识别精度。
步骤3,通过卷积递归神经网络对每个最小外接矩形轮廓内的文字进行识别,如果识别失败,则通过渐进尺度扩展网络对识别失败的最小外接矩形轮廓内的文字进行识别;
需要说明的是,卷积递归神经网络(Convolutional Recurrent Neural Network,CRNN)是目前比较流行的文字识别模型,该模型主要用于解决基于图像的序列识别问题,特别是场景文字识别问题。不需要对样本数据进行字符分割,可识别任意长度的文本序列,模型速度快、性能好。
CRNN的主要特点是:
(1)可以进行端到端的训练;
(2)不需要对样本数据进行字符分割,可识别任意长度的文本序列
(3)模型速度快、性能好,并且由于参数很少,因此模型很小。
其网络结构如图2所示,主要由卷积层、循环层、转录层3部分组成。以识别state为例,输入图像中包含state的字样,卷积层用于从输入图像中提取出输入图像的特征序列,循环层用于预测从卷积层获取的特征序列的标签分布,转录层用于把从循环层获取的标签分布通过去重、整合等操作转换成最终的识别结果,识别出state。
然而,某些表格内文字较为模糊或者相邻文本难以区分,使用CRNN方法很难将中的文字准确地识别出来。当CRNN的置信度低于某阈值时,认为CRNN方法没有很好地识别出来,因此,本发明通过引入渐进式尺度拓展网络进行识别。
渐进式扩展网络(PSENET)是一种能够很好地检测自然场景中的任意形状文本的文本检测器,是一种新的实例分割网络,它有两方面的优势:首先,PSENET作为一种基于分割的方法,能够对任意形状的文本进行定位;其次,该模型提出了一种渐进的尺度扩展算法,该算法可以成功地识别相邻文本实例。
如图4所示,提供了一种渐进式扩展网络的示例性网络结构示意图,该模型主干网络使用ResNet网络,输入图像维度为:[B,3,H,W],通过下采样、特征融合、上采样,最后得到得到与原图片尺寸相同的输出F,维度大小为:[B,C,H,W],其中C的大小为确定的核数目,这里记为n,这样就得到最终的S1...Sn,然后利用广度优先算法从S1开始到Sn结束,获取到最终的文本连通域,其中连通域的数量在S1中就已经确定,S1是预测的图片中目标文字的核心区域。
通过使用渐进式扩展网络,解决了相领文本区域不易区分的问题。
如图5所示,将图片放入PSENET网络中进行识别,形成文字区域位置及对应的识别结果和偏向角度信息。
步骤4,识别完成后,根据识别结果确定每个单元格的内容,根据每个单元格的相对坐标确定每个单元格的相对位置,生成表格文件。
应理解,将每个单元格内的识别结果拼接起来,可形成对应的表格识别结果,包括每个单元格的位置及识别的文字内容,可以根据设置生成excel等文件。
具体地,如图6所示,以生成excel表格为例,得到每个单元格的坐标及对应位置后,计算出最小宽度和最小高度作为单位宽度和单位高度,然后遍历单元格,判断该单元格的宽度与单位宽度之比是否大于或等于2,如果否,则横向合并单元格,如果是,则继续判断该单元格的高度与单位高度之比是否大于或等于2,如果否,则纵向合并单元格,如果是,则完成判断,并将对应位置填充为识别的结果。
本实施例提供的表格识别方案,通过对包含待识别表格的图片进行检测,确定表格的位置,然后取文字的最小外接矩形轮廓,通过卷积递归神经网络对每个单元格内的文字进行识别,不需要对样本数据进行字符分割,可识别任意长度的文本序列,模型速度快、性能好,并当识别失败时,通过渐进尺度扩展网络对识别失败的单元格内的文字进行识别,可以成功地识别相邻文本实例,从而提高识别的准确度和精确度,此外,在通过神经网络进行识别之前,对文字预先取最小外接矩形轮廓,能够减少非文字部分对识别结果的影响,经验证,能够有效提高文字识别的精度。
可选地,在一些可能的实施方式中,对图片中的表格的轮廓进行检测之前,还包括:
对图片进行二值化处理,得到二值图;
对二值图进行形态学膨胀和腐蚀操作。
应理解,形态学腐蚀运算是将图像关键区域变小的过程。假设图像X用模板A腐蚀的结果是用A来腐蚀S得到的集合完全包括扩在X中时S的原点位置的集合,一般模板A用3×3的矩阵,用公式表示如下:
形态学膨胀运算是将图像关键区域变大的过程。假设图像X用模板A膨胀的结果是把结构元素A平移a后的结果集中X的点的集合,一般模板A用3×3的矩阵,用公式表示如下:
形态学闭运算是在整体粗细几乎不变的前提下,光滑链接的操作,是先膨胀后腐蚀,用公式表示如下:
本发明创新性的在表格识别中加入形态学闭运算,对线条进行了矫正、平整和去干扰,使其更容易识别出其中的表格线,能够用于将表格拍照下来或者扫描件表格的识别。
如图7所示,给出了一种示例性的包含表格的图片的示意图,图中包含一个表格,该表格可以为手机、相机等设备拍摄,包含该表格的图片较为模糊。为便于处理,可以预先裁剪出表格区域,然后进行二值化处理和形态学膨胀和腐蚀操作,使得到的图像文字和表格部分更加明显,处理后的示意图如图8所示。
然后再通过对图片中的表格的水平表格线和垂直表格线进行检测,识别表格的轮廓,对轮廓的角点进行合并,然后对每个单元格内的文字取最小外接矩形轮廓,通过卷积递归神经网络或对渐进尺度扩展网络每个最小外接矩形轮廓内的文字进行识别,能够得到准确的识别结果,通过上述处理,本发明对于模糊的图片也能够准确识别。
可选地,在一些可能的实施方式中,对图片中的表格的轮廓进行检测,具体包括:
对图片中的表格的水平表格线和垂直表格线进行检测,得到表格的全部区域;
通过预设的面积阈值滤除不满足要求的区域,使表格中的节点数为最小值;
通过轮廓层次结构构造树结构,识别粗表格轮廓,并从滤除处理后剩余的区域中移除不是粗表格轮廓的闭包空间的轮廓,最终得到剩余的每个区域的轮廓。
需要说明的是,由于表格通常是由行列组成,因此通过对水平表格线和垂直表格线进行检测,就能够确定表格的全部区域,由于部分汉字或数字可能与表格存在粘连,因此可能导致识别错误,因此,可以通过预设的面积阈值滤除不满足要求的区域,预设的面积阈值可以根据实际需求设置,从而滤除掉面积过小的区域,以防止出现识别错误。
区域轮廓检测后的示意图如图9和图10所示,图9中,表格区域轮廓用加粗线框出,图10中,检测的所有轮廓用加粗线表示,从图10中可以看出,由于噪声点影响,轮廓线和表格线间有误差。因此,可以通过以下方式进行进一步改进。
可选地,在一些可能的实施方式中,根据检测结果得到表格中每个单元格的相对坐标,具体包括:
将得到的剩余的每个区域的轮廓的4个顶点作为初始角点,通过欧式距离将每个初始角点预设范围内的角点进行合并,得到合并角点;
确定每个合并角点的坐标,根据每个合并角点的坐标的平均值计算每个区域的4个顶点的坐标;
检测水平倾斜角度,检测每个区域的最小横坐标、最大横坐标、最小纵坐标和最大纵坐标,通过坐标的组合的最大值和最小值计算表格的4个顶点的坐标;
根据表格的4个顶点的坐标计算每个区域的中心坐标,通过成对距离阈值计算初步水平节点组和初步垂直节点组,计算初步水平节点组的传递水平闭包以获得最终水平组,并计算初步垂直节点组的传递垂直闭包以获得最终垂直组;
通过计算每个区域的横坐标的平均值对最终水平组进行排序,通过计算每个区域的纵坐标的平均值对最终垂直组进行排序;
通过中心坐标计算每个区域在整个表格中所在的组坐标。
需要说明的是,如图10所示,由于噪声点影响,轮廓线和表格线间有误差,因此,可以进行角点聚类,以图10的轮廓检测结果为例,将区域轮廓检测后的每个轮廓的四个顶点作为初始角点,得到的结果如图11所示,由于噪声的影响,此时的初始角点可能不完全对应到表格的角点上。
此时,可以通过欧式距离就散格子边界框的角点聚类,将靠近的角点合并成一个角点,识别出区域轮廓内的角点,聚合后的角点如图12所示。
然后结合识别水平和垂直的表格线识别出每个表格区域,并对每个表格区域进行图像增强操作,通过平均所有的角点坐标来计算格子的上下左右坐标位置,并检测水平偏斜角度,检测每个区域的最小最大的横纵坐标,通过坐标组合的最大值和最小值计算得表格的4个顶点。
然后,计算每个区域的中心坐标,通过成对距离阈值计算水平和垂直节点组。计算初步组的传递水平/垂直闭包以获得最终水平/垂直组,通过计算X平均坐标来对水平组进行排序,通过计算Y平均坐标来对垂直组进行排序,通过中心坐标计算每个区域在整个表格中所在的组坐标。通过表格区域划分步骤后,表格坐标计算示意图如图13所示,其中每个格内第一个数字代表组X坐标,第二个数字表示组Y坐标。
可选地,在一些可能的实施方式中,还包括:
当检测出的单元格内包含斜线时,识别斜线,对包含斜线的单元格进行标记;
在进行文字识别时,当识别出包含标记的单元格时,根据斜线将单元格分成至少两个子单元格,分别对每个子单元格内的文字进行识别。
应理解,当检测出的单元格内包含斜线时,这类表格在经过角点聚类和格子检测后,在包含斜线的格子内会形成格子交汇的情况,在格子检测交汇处做特殊标记,之后的文字识别将这类格子做特殊的斜线检测和识别。
如图14所示,给出了一种示例性的斜线表格识别方法,可以用于二斜线和三斜线的表格的识别,识别出带斜线的格子后,经过直线检测将三分线识别出来,将格子分成三个部分,分别对每个部分单独进行文字检测和识别。
优选地,本发明还可以实现对表头部分的识别,通过识别出表格中最高部分的表格线,并将该线以上部分的图片放入网络中进行识别,从而识别出表头。
优选地,本发明还可以实现多表格合并,支持上传多张带表格的图片,最后输出的excel文件的结果将以上所有识别的表格进行合并。
得到每个表格的结果后,将后面表格的内容输出到前面表格的后方,输出行号加上之前表格的总行号,实现多表格的合并。
如图15所示,给出了一种示例性的多表格合并流程示意图,分别对两个表格进行识别,识别过程与单表格的识别过程相同,不再赘述,识别完成后,将右边表格的内容输出到左边表格的下方,输出行号加上之前表格的总行号,实现两张表格的合并。当表格数量大于2个时合并方法同理,不再赘述。
可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
如图16所示,为本发明表格识别装置的实施例提供的结构框架示意图,该表格识别装置包括:
检测单元1,用于获取包含待识别表格的图片,对图片中的表格的轮廓进行检测,根据检测结果得到表格中每个单元格的相对坐标;
识别单元2,用于对每个单元格内的文字取最小外接矩形轮廓,并通过卷积递归神经网络对每个最小外接矩形轮廓内的文字进行识别,如果识别失败,则通过渐进尺度扩展网络对识别失败的最小外接矩形轮廓内的文字进行识别;
生成单元3,用于识别完成后,根据识别结果确定每个单元格的内容,根据每个单元格的相对坐标确定每个单元格的相对位置,生成表格文件。
本实施例提供的表格识别方案,通过对包含待识别表格的图片进行检测,确定表格的位置,然后通过卷积递归神经网络对每个单元格内的文字进行识别,不需要对样本数据进行字符分割,可识别任意长度的文本序列,模型速度快、性能好,并当识别失败时,通过渐进尺度扩展网络对识别失败的单元格内的文字进行识别,可以成功地识别相邻文本实例,从而提高识别的准确度和精确度。
可选地,在一些可能的实施方式中,还包括:
预处理单元,用于对图片进行二值化处理,得到二值图,对二值图进行形态学膨胀和腐蚀操作。
可选地,在一些可能的实施方式中,检测单元1具体用于对图片中的表格的水平表格线和垂直表格线进行检测,得到表格的全部区域;通过预设的面积阈值滤除不满足要求的区域,使表格中的节点数为最小值;通过轮廓层次结构构造树结构,识别粗表格轮廓,并从滤除处理后剩余的区域中移除不是粗表格轮廓的闭包空间的轮廓,最终得到剩余的每个区域的轮廓。
可选地,在一些可能的实施方式中,检测单元1具体用于将得到的剩余的每个区域的轮廓的4个顶点作为初始角点,通过欧式距离将每个初始角点预设范围内的角点进行合并,得到合并角点;确定每个合并角点的坐标,根据每个合并角点的坐标的平均值计算每个区域的4个顶点的坐标;检测水平倾斜角度,检测每个区域的最小横坐标、最大横坐标、最小纵坐标和最大纵坐标,通过坐标的组合的最大值和最小值计算表格的4个顶点的坐标;根据表格的4个顶点的坐标计算每个区域的中心坐标,通过成对距离阈值计算初步水平节点组和初步垂直节点组,计算初步水平节点组的传递水平闭包以获得最终水平组,并计算初步垂直节点组的传递垂直闭包以获得最终垂直组;通过计算每个区域的横坐标的平均值对最终水平组进行排序,通过计算每个区域的纵坐标的平均值对最终垂直组进行排序;通过中心坐标计算每个区域在整个表格中所在的组坐标。
可选地,在一些可能的实施方式中,检测单元1还用当检测出的单元格内包含斜线时,识别斜线,对包含斜线的单元格进行标记;
识别单元还用于在进行文字识别时,当识别出包含标记的单元格时,根据斜线将单元格分成至少两个子单元格,分别对每个子单元格内的文字进行识别。
优选地,识别单元2还可以实现对表头部分的识别,通过识别出表格中最高部分的表格线,并将该线以上部分的图片放入网络中进行识别,从而识别出表头。
优选地,识别单元2还可以实现多表格合并,支持上传多张带表格的图片,最后输出的excel文件的结果将以上所有识别的表格进行合并。
可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
需要说明的是,上述各实施方式是与在先方法实施例对应的产品实施例,对于产品实施方式的说明可以参考上述各方法实施方式中的对应说明,在此不再赘述。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可以结合或者可以集成到另一个步骤,或一些特征可以忽略,或不执行。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种表格识别方法,其特征在于,包括:
获取包含待识别表格的图片,对所述图片中的表格的轮廓进行检测,根据检测结果得到表格中每个单元格的相对坐标;
对每个所述单元格内的文字取最小外接矩形轮廓;
通过卷积递归神经网络对每个所述最小外接矩形轮廓内的文字进行识别,如果识别失败,则通过渐进尺度扩展网络对识别失败的最小外接矩形轮廓内的文字进行识别;
识别完成后,根据识别结果确定每个单元格的内容,根据每个所述单元格的相对坐标确定每个所述单元格的相对位置,生成表格文件;
对所述图片中的表格的轮廓进行检测,具体包括:
对所述图片中的表格的水平表格线和垂直表格线进行检测,得到所述表格的全部区域;
通过预设的面积阈值滤除不满足要求的区域,使所述表格中的节点数为最小值;
通过轮廓层次结构构造树结构,识别粗表格轮廓,并从滤除处理后剩余的区域中移除不是所述粗表格轮廓的闭包空间的轮廓,最终得到剩余的每个区域的轮廓;
根据检测结果得到表格中每个单元格的相对坐标,具体包括:
将得到的剩余的每个区域的轮廓的4个顶点作为初始角点,通过欧式距离将每个初始角点预设范围内的角点进行合并,得到合并角点;
确定每个所述合并角点的坐标,根据每个所述合并角点的坐标的平均值计算每个区域的4个顶点的坐标;
检测水平倾斜角度,检测每个区域的最小横坐标、最大横坐标、最小纵坐标和最大纵坐标,通过坐标的组合的最大值和最小值计算所述表格的4个顶点的坐标;
根据所述表格的4个顶点的坐标计算每个区域的中心坐标,通过成对距离阈值计算初步水平节点组和初步垂直节点组,计算初步水平节点组的传递水平闭包以获得最终水平组,并计算初步垂直节点组的传递垂直闭包以获得最终垂直组;
通过计算每个区域的横坐标的平均值对所述最终水平组进行排序,通过计算每个区域的纵坐标的平均值对所述最终垂直组进行排序;
通过所述中心坐标计算每个区域在整个表格中所在的组坐标。
2.根据权利要求1所述的表格识别方法,其特征在于,对所述图片中的表格的轮廓进行检测之前,还包括:
对所述图片进行二值化处理,得到二值图;
对所述二值图进行形态学膨胀和腐蚀操作。
3.根据权利要求1或2所述的表格识别方法,其特征在于,还包括:
当检测出的单元格内包含斜线时,识别所述斜线,对包含斜线的单元格进行标记;
在进行文字识别时,当识别出包含所述标记的单元格时,根据所述斜线将所述单元格分成至少两个子单元格,分别对每个所述子单元格内的文字进行识别。
4.一种表格识别装置,其特征在于,包括:
检测单元,用于获取包含待识别表格的图片,对所述图片中的表格的轮廓进行检测,根据检测结果得到表格中每个单元格的相对坐标;
识别单元,用于对每个所述单元格内的文字取最小外接矩形轮廓,并通过卷积递归神经网络对每个所述最小外接矩形轮廓内的文字进行识别,如果识别失败,则通过渐进尺度扩展网络对识别失败的最小外接矩形轮廓内的文字进行识别;
生成单元,用于识别完成后,根据识别结果确定每个单元格的内容,根据每个所述单元格的相对坐标确定每个所述单元格的相对位置,生成表格文件;
所述检测单元具体用于对所述图片中的表格的水平表格线和垂直表格线进行检测,得到所述表格的全部区域;通过预设的面积阈值滤除不满足要求的区域,使所述表格中的节点数为最小值;通过轮廓层次结构构造树结构,识别粗表格轮廓,并从滤除处理后剩余的区域中移除不是所述粗表格轮廓的闭包空间的轮廓,最终得到剩余的每个区域的轮廓;
所述检测单元具体用于将得到的剩余的每个区域的轮廓的4个顶点作为初始角点,通过欧式距离将每个初始角点预设范围内的角点进行合并,得到合并角点;确定每个所述合并角点的坐标,根据每个所述合并角点的坐标的平均值计算每个区域的4个顶点的坐标;检测水平倾斜角度,检测每个区域的最小横坐标、最大横坐标、最小纵坐标和最大纵坐标,通过坐标的组合的最大值和最小值计算所述表格的4个顶点的坐标;根据所述表格的4个顶点的坐标计算每个区域的中心坐标,通过成对距离阈值计算初步水平节点组和初步垂直节点组,计算初步水平节点组的传递水平闭包以获得最终水平组,并计算初步垂直节点组的传递垂直闭包以获得最终垂直组;通过计算每个区域的横坐标的平均值对所述最终水平组进行排序,通过计算每个区域的纵坐标的平均值对所述最终垂直组进行排序;通过所述中心坐标计算每个区域在整个表格中所在的组坐标。
5.根据权利要求4所述的表格识别装置,其特征在于,还包括:
预处理单元,用于对所述图片进行二值化处理,得到二值图,对所述二值图进行形态学膨胀和腐蚀操作。
6.根据权利要求4或5所述的表格识别装置,其特征在于,所述检测单元还用当检测出的单元格内包含斜线时,识别所述斜线,对包含斜线的单元格进行标记;
所述识别单元还用于在进行文字识别时,当识别出包含所述标记的单元格时,根据所述斜线将所述单元格分成至少两个子单元格,分别对每个所述子单元格内的文字进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011139730.1A CN112200117B (zh) | 2020-10-22 | 2020-10-22 | 表格识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011139730.1A CN112200117B (zh) | 2020-10-22 | 2020-10-22 | 表格识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112200117A CN112200117A (zh) | 2021-01-08 |
CN112200117B true CN112200117B (zh) | 2023-10-13 |
Family
ID=74012336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011139730.1A Active CN112200117B (zh) | 2020-10-22 | 2020-10-22 | 表格识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112200117B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139457A (zh) * | 2021-04-21 | 2021-07-20 | 浙江康旭科技有限公司 | 一种基于crnn的图片表格提取方法 |
CN113378789B (zh) * | 2021-07-08 | 2023-09-26 | 京东科技信息技术有限公司 | 单元格位置的检测方法、装置和电子设备 |
CN113569677B (zh) * | 2021-07-16 | 2024-07-16 | 国网天津市电力公司 | 一种基于扫描件的纸质试验报告生成方法 |
CN113591746B (zh) * | 2021-08-05 | 2024-07-02 | 上海金仕达软件科技股份有限公司 | 一种文档表格结构检测方法及装置 |
CN113887401A (zh) * | 2021-09-29 | 2022-01-04 | 北京搜狗科技发展有限公司 | 一种表格识别方法及装置 |
CN113850249A (zh) * | 2021-12-01 | 2021-12-28 | 深圳市迪博企业风险管理技术有限公司 | 一种图表信息格式化提取方法 |
CN115601774B (zh) * | 2022-12-12 | 2023-04-07 | 深圳前海环融联易信息科技服务有限公司 | 表格识别方法、装置、设备、存储介质和程序产品 |
CN117454859B (zh) * | 2023-12-19 | 2024-04-02 | 四川弘和数智集团有限公司 | 油气站数据自动录入方法、装置、电子设备及存储介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001109843A (ja) * | 1999-10-12 | 2001-04-20 | Oki Electric Ind Co Ltd | 文字認識方法および装置 |
CN101908136A (zh) * | 2009-06-08 | 2010-12-08 | 比亚迪股份有限公司 | 一种表格识别处理方法及系统 |
CN105184265A (zh) * | 2015-09-14 | 2015-12-23 | 哈尔滨工业大学 | 一种基于自学习的手写表格数字字符串快速识别的方法 |
CN105574486A (zh) * | 2015-11-25 | 2016-05-11 | 成都数联铭品科技有限公司 | 一种图像表格文字切分方法 |
CN106407883A (zh) * | 2016-08-10 | 2017-02-15 | 北京工业大学 | 一种复杂表格及其内部手写数字识别方法 |
CN108596066A (zh) * | 2018-04-13 | 2018-09-28 | 武汉大学 | 一种基于卷积神经网络的字符识别方法 |
CN109086714A (zh) * | 2018-07-31 | 2018-12-25 | 国科赛思(北京)科技有限公司 | 表格识别方法、识别系统及计算机装置 |
CN109522816A (zh) * | 2018-10-26 | 2019-03-26 | 北京慧流科技有限公司 | 表格识别方法及装置、计算机存储介质 |
CN109711404A (zh) * | 2018-12-20 | 2019-05-03 | 中科院成都信息技术股份有限公司 | 印章选票填涂的识别方法、装置及计算机可读存储介质 |
CN110008809A (zh) * | 2019-01-04 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 表格数据的获取方法、装置和服务器 |
CN110309746A (zh) * | 2019-06-21 | 2019-10-08 | 国网辽宁省电力有限公司鞍山供电公司 | 无通信互联的高等级信息安全区表格数据信息提取方法 |
CN110909226A (zh) * | 2019-11-28 | 2020-03-24 | 达而观信息科技(上海)有限公司 | 金融类文档信息处理方法、装置、电子设备及存储介质 |
CN111126266A (zh) * | 2019-12-24 | 2020-05-08 | 上海智臻智能网络科技股份有限公司 | 文本处理方法、文本处理系统、设备及介质 |
WO2020164281A1 (zh) * | 2019-02-13 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于文字定位识别的表格解析方法、介质及计算机设备 |
CN111626145A (zh) * | 2020-05-08 | 2020-09-04 | 西安工业大学 | 一种简捷有效的残缺表格识别及跨页拼接方法 |
CN111626146A (zh) * | 2020-05-08 | 2020-09-04 | 西安工业大学 | 一种基于模板匹配的合并单元格表格分割识别方法 |
CN111783735A (zh) * | 2020-07-22 | 2020-10-16 | 欧冶云商股份有限公司 | 一种基于人工智能的钢材单据解析系统 |
-
2020
- 2020-10-22 CN CN202011139730.1A patent/CN112200117B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001109843A (ja) * | 1999-10-12 | 2001-04-20 | Oki Electric Ind Co Ltd | 文字認識方法および装置 |
CN101908136A (zh) * | 2009-06-08 | 2010-12-08 | 比亚迪股份有限公司 | 一种表格识别处理方法及系统 |
CN105184265A (zh) * | 2015-09-14 | 2015-12-23 | 哈尔滨工业大学 | 一种基于自学习的手写表格数字字符串快速识别的方法 |
CN105574486A (zh) * | 2015-11-25 | 2016-05-11 | 成都数联铭品科技有限公司 | 一种图像表格文字切分方法 |
CN106407883A (zh) * | 2016-08-10 | 2017-02-15 | 北京工业大学 | 一种复杂表格及其内部手写数字识别方法 |
CN108596066A (zh) * | 2018-04-13 | 2018-09-28 | 武汉大学 | 一种基于卷积神经网络的字符识别方法 |
CN109086714A (zh) * | 2018-07-31 | 2018-12-25 | 国科赛思(北京)科技有限公司 | 表格识别方法、识别系统及计算机装置 |
CN109522816A (zh) * | 2018-10-26 | 2019-03-26 | 北京慧流科技有限公司 | 表格识别方法及装置、计算机存储介质 |
CN109711404A (zh) * | 2018-12-20 | 2019-05-03 | 中科院成都信息技术股份有限公司 | 印章选票填涂的识别方法、装置及计算机可读存储介质 |
CN110008809A (zh) * | 2019-01-04 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 表格数据的获取方法、装置和服务器 |
WO2020164281A1 (zh) * | 2019-02-13 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于文字定位识别的表格解析方法、介质及计算机设备 |
CN110309746A (zh) * | 2019-06-21 | 2019-10-08 | 国网辽宁省电力有限公司鞍山供电公司 | 无通信互联的高等级信息安全区表格数据信息提取方法 |
CN110909226A (zh) * | 2019-11-28 | 2020-03-24 | 达而观信息科技(上海)有限公司 | 金融类文档信息处理方法、装置、电子设备及存储介质 |
CN111126266A (zh) * | 2019-12-24 | 2020-05-08 | 上海智臻智能网络科技股份有限公司 | 文本处理方法、文本处理系统、设备及介质 |
CN111626145A (zh) * | 2020-05-08 | 2020-09-04 | 西安工业大学 | 一种简捷有效的残缺表格识别及跨页拼接方法 |
CN111626146A (zh) * | 2020-05-08 | 2020-09-04 | 西安工业大学 | 一种基于模板匹配的合并单元格表格分割识别方法 |
CN111783735A (zh) * | 2020-07-22 | 2020-10-16 | 欧冶云商股份有限公司 | 一种基于人工智能的钢材单据解析系统 |
Non-Patent Citations (3)
Title |
---|
丁明宇 ; 牛玉磊 ; 卢志武 ; 文继荣 ; .基于深度学习的图片中商品参数识别方法.软件学报.2017,(04),第1039-1048页. * |
吴俊盼 ; 王智 ; 张侃健 ; .雷达故障表格处理系统.信息技术与信息化.2020,(01),第51-54页. * |
李彬 ; 赵连军 ; 刘帅 ; .表格图像特征目标识别技术的研究.科技视界.2016,(23),第105、106页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112200117A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112200117B (zh) | 表格识别方法及装置 | |
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN110210409B (zh) | 表格单据中表格框线检测方法及系统 | |
CN108596166A (zh) | 一种基于卷积神经网络分类的集装箱箱号识别方法 | |
CN110180186B (zh) | 一种地形图转换方法及系统 | |
CN110363202B (zh) | 指针式仪表数值读取方法及计算机终端 | |
CN106875546A (zh) | 一种增值税发票的识别方法 | |
CN105868759A (zh) | 分割图像字符的方法及装置 | |
CN110598581B (zh) | 基于卷积神经网络的光学乐谱识别方法 | |
CN115457565A (zh) | 一种ocr文字识别方法、电子设备及存储介质 | |
CN110619333A (zh) | 一种文本行分割方法、文本行分割装置及电子设备 | |
CN112364834A (zh) | 一种基于深度学习和图像处理的表格识别的还原方法 | |
CN115082934B (zh) | 一种金融票据中手写汉字分割识别方法 | |
JP3228938B2 (ja) | 分布マップを用いる画像の分類方法及び装置 | |
CN106909869A (zh) | 一种矩阵式二维码的采样网格划分方法及装置 | |
CN114387592B (zh) | 一种复杂背景下字符定位和识别方法 | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
CN113591746A (zh) | 一种文档表格结构检测方法及装置 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN112733855B (zh) | 表格结构化方法、表格恢复设备及具有存储功能的装置 | |
JP4244692B2 (ja) | 文字認識装置及び文字認識プログラム | |
Suwa et al. | Segmentation of handwritten numerals by graph representation | |
CN111325199A (zh) | 一种文字倾斜角度检测方法及装置 | |
JP2004094427A (ja) | 帳票画像処理装置及び該装置を実現するためのプログラム | |
CN111666939B (zh) | 基于边距约束的任意形状的场景文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 100190 17-19 / F, building a 1, 66 Zhongguancun East Road, Haidian District, Beijing Patentee after: New Great Wall Technology Co.,Ltd. Address before: 100190 17-19 / F, building a 1, 66 Zhongguancun East Road, Haidian District, Beijing Patentee before: GREAT WALL COMPUTER SOFTWARE & SYSTEMS Inc. |