CN111339937B - 一种简单表格照片中的关键列内手写数据提取方法 - Google Patents

一种简单表格照片中的关键列内手写数据提取方法 Download PDF

Info

Publication number
CN111339937B
CN111339937B CN202010117780.3A CN202010117780A CN111339937B CN 111339937 B CN111339937 B CN 111339937B CN 202010117780 A CN202010117780 A CN 202010117780A CN 111339937 B CN111339937 B CN 111339937B
Authority
CN
China
Prior art keywords
image
column
coordinates
lines
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010117780.3A
Other languages
English (en)
Other versions
CN111339937A (zh
Inventor
郑会龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Cezhicheng Technology Co ltd
Original Assignee
Hangzhou Cezhicheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Cezhicheng Technology Co ltd filed Critical Hangzhou Cezhicheng Technology Co ltd
Priority to CN202010117780.3A priority Critical patent/CN111339937B/zh
Publication of CN111339937A publication Critical patent/CN111339937A/zh
Application granted granted Critical
Publication of CN111339937B publication Critical patent/CN111339937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种简单表格照片中的关键列内手写数据提取方法,主要解决对采集到的不同行列的简单表格照片,根据提供的列名关键词提取该列内的手写数据。该方法包括:从照片中提取表格区域;检测表头定位关键词所在的列;确定列所包含的范围,切割图像;对切割后的列图像处理消除表格线;提取数据区域使用OCR识别数据。该方法具有较强的鲁棒性,能够应对图像拍摄采集过程中纸张不平整,打印时表格线空洞缺损等现象。

Description

一种简单表格照片中的关键列内手写数据提取方法
技术领域
本发明属于计算机视觉领域,具体地设计一种简单表格照片中的关键列内手写数据提取方法。
背景技术
在现有技术中,对于手写数据的采集技术已经较为成熟,但是在需要识别并提取表格中的指定列手写数据时,仍然是先识别并提取整个表格内的手写数据,再通过对整个表格内的列筛选出所需的关键名列的方法,这一方法在遇到图像拍摄采集过程中纸张不平整、打印时表格线空洞缺损等问题时,会影响到整个表格的建立,导致筛选出的关键列出现错漏或错位的问题。
发明内容
本发明的目的是为了解决以上现有技术的不足,提出了一种简单表格照片中的关键列内手写数据提取方法,包括:
步骤1:将采集到的照片进行图像处理,得到仅包含表格区域的灰度图像:
1.1对采集到的图像做二值化处理,提取其中最大白色连通域作为纸张掩码,使用掩码层覆盖原图像;特别的,针对纸张手持或按压时的情况,使用HSV颜色空间分析属于肤色范围内区域,制作掩码覆盖;
1.2对掩码覆盖后的图像做二值化处理,获取表格连通域;特别的,针对可能存在的打印导致表格线空洞缺损,对二值化图像进行反色处理后再提取连通域;计算连通域外接矩形,以外接矩最大的区域作为表格区域,利用外接矩角度值将表格图像旋转到水平,计算旋转后的表格区域坐标,切割图像;
步骤2:对表格区域图像进行二值化处理,利用图像处理获得横向和纵向表格线图,利用投影法分别计算横线的y坐标和纵线的x坐标;
步骤3:根据表格线间的位置关系,确定表头所有列名的位置,对该区域进行切割及处理后,输入到训练好的CRNN网络识别,和给定的表头关键字比较,确定所需识别的列;
步骤4:将所得坐标和纵向表格线坐标比较,确定所在列外部两侧的x坐标,以该坐标切割表格灰度图像,获得待识别的单列灰度图像;
步骤5:对单列图像进行二值化,使用图像处理,抹去单列图像中表格线;
步骤6:使用投影法从处理后单列图像中将每行手写数据切分出来;
步骤7:将切分出的手写数据块输入到训练好的CRNN网络中,识别手写数据备。
为了更好地实现对关键列内手写数据的提取方法,优选地,所述的步骤2中:
2.1对步骤1所得表格区域图像,二值化图像,根据图像的长和宽确定不同形状的核,对表格区域图像进行腐蚀膨胀操作,获得仅有横向表格线和仅有纵向表格线的图片;
2.2使用投影法分别计算横向和纵向表格线坐标:
Figure BDA0002392026790000021
proj_y=Mat·[1,1…,1]1×h
p=where proj>valproj,p_diff=p[1:]-p[:-1],i_p=where p_diff>valgap
line=((p[1:])[i_p]+(p[:-1])[i_p])/2
Mat代表二值化的图像矩阵,利用矩阵乘法计算二值化图像的x轴,y轴投影,当投影值大于阈值valproj时认为表格线存在,当两条表格线间距小于valgap时则合并;表格线坐标为进入表格线投影时坐标与离开表格线投影坐标的中值。
优选地,所述的步骤3中:3.1利用y值最小的两条横向表格线坐标,和纵向表格线坐标切割步骤1所得表格区域图像;获得所有列名所在的区域;
3.2使用膨胀腐蚀获取3.1所得每个图像中可能存在的边界框,制作掩码擦除边界框;
3.3将擦除边界框后的列名图像送入以训练好的打印体识别CRNN网络,获取结果;和关键词作比较,确定需识别哪一列。
优选地,所述的步骤5中:5.1特别的,针对拍摄时纸张不平整的状态,利用膨胀腐蚀获得该列图像中的横向与纵向表格线;对纵向表格线图做膨胀操作;提取图中最大的连通域作为掩码,排除因表格线弯曲带来的左右两侧多余部分;合并掩码层与横向表格线图;去除单列图像中的表格线。
有益效果:1、本发明相比传统的先识别后筛选的方法,能够预先对表格完成平面重建,避免打印室表格线空洞破损等问题造成的局部识别错漏,从而提高识别的鲁棒性。2、本发明能够有效剔除表格表头信息的不确定性的影响:在若干张表格的表头信息不同、列数也不同时,仍然能够通过识别相同的列名关键词来提取表格内相同属性的信息3、在步骤一中,针对纸张手持或按压的情况,通过制作掩码覆盖可以有效避免其对识别结果造成的影响。4、由于正常联通域提取操作的是从最大的第一个白色区域开始的,在存在表格线空洞破损等情况下,将表格图像旋转到水平的操作存在无法提取到表格区域的可能性;因而在步骤1中,对二值化图像进行了反色处理,通过“反色”操作将表格线变为白色而背景成为黑色,如此可以大大提高识别到表格区域的准确性,从而实现准确地将表格图像旋转到水平的技术效果,进而提高表格识别的准确率。
附图说明
图1是本发明方法流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种简单表格照片中的关键列内手写数据提取方法,包括:
步骤1:将采集到的照片进行图像处理,得到仅包含表格区域的灰度图像:
1.1对采集到的图像做二值化处理,提取其中最大白色连通域作为纸张掩码,使用掩码层覆盖原图像;特别的,针对纸张手持或按压时的情况,使用HSV颜色空间分析属于肤色范围内区域,制作掩码覆盖;
1.2对掩码覆盖后的图像做二值化处理,获取表格连通域;特别的,针对可能存在的打印导致表格线空洞缺损,对二值化图像进行反色处理后再提取连通域;计算连通域外接矩形,以外接矩最大的区域作为表格区域,利用外接矩角度值将表格图像旋转到水平,计算旋转后的表格区域坐标,切割图像;
步骤2:对表格区域图像进行二值化处理,利用图像处理获得横向和纵向表格线图,利用投影法分别计算横线的y坐标和纵线的x坐标;
2.1对步骤1所得表格区域图像,二值化图像,根据图像的长和宽确定不同形状的核,对表格区域图像进行腐蚀膨胀操作,获得仅有横向表格线和仅有纵向表格线的图片;
2.2使用投影法分别计算横向和纵向表格线坐标:
Figure BDA0002392026790000041
proj_y=Mat·[1,1…,1]1×h
p=where proj>valproj,p_diff=p[1:]-p[:-1],i_p=where p_diff>valgap
line=((p[1:])[i_p]+(p[:-1])[i_p])/2
Mat代表二值化的图像矩阵,利用矩阵乘法计算二值化图像的x轴,y轴投影,当投影值大于阈值valproj时认为表格线存在,当两条表格线间距小于valgap时则合并;表格线坐标为进入表格线投影时坐标与离开表格线投影坐标的中值。
步骤3:根据表格线间的位置关系,确定表头所有列名的位置,对该区域进行切割及处理后,输入到训练好的CRNN网络识别,和给定的表头关键字比较,确定所需识别的列;
3.1利用y值最小的两条横向表格线坐标,和纵向表格线坐标切割步骤1所得表格区域图像;获得所有列名所在的区域;
3.2使用膨胀腐蚀获取3.1所得每个图像中可能存在的边界框,制作掩码擦除边界框;
3.3将擦除边界框后的列名图像送入以训练好的打印体识别CRNN网络,获取结果;和关键词作比较,确定需识别哪一列。
步骤4:将所得坐标和纵向表格线坐标比较,确定所在列外部两侧的x坐标,以该坐标切割表格灰度图像,获得待识别的单列灰度图像;
步骤5:对单列图像进行二值化,使用图像处理,抹去单列图像中表格线;
5.1特别的,针对拍摄时纸张不平整的状态,利用膨胀腐蚀获得该列图像中的横向与纵向表格线;对纵向表格线图做膨胀操作;提取图中最大的连通域作为掩码,排除因表格线弯曲带来的左右两侧多余部分;合并掩码层与横向表格线图;去除单列图像中的表格线。
步骤6:使用投影法从处理后单列图像中将每行手写数据切分出来;
步骤7:将切分出的手写数据块输入到训练好的CRNN网络中,识别手写数据备。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种简单表格照片中的关键列内手写数据提取方法,其特征在于,包括:
步骤1:将采集到的照片进行图像处理,得到仅包含表格区域的灰度图像:
1.1对采集到的图像做二值化处理,提取其中最大白色连通域作为纸张掩码,使用掩码层覆盖原图像;针对纸张手持或按压时的情况,使用HSV颜色空间分析属于肤色范围内区域,制作掩码覆盖;
1.2对掩码覆盖后的图像做二值化处理,获取表格连通域;针对可能存在的打印导致表格线空洞缺损,对二值化图像进行反色处理后再提取连通域;计算连通域外接矩形,以外接矩最大的区域作为表格区域,利用外接矩角度值将表格图像旋转到水平,计算旋转后的表格区域坐标,切割图像;
步骤2:对表格区域图像进行二值化处理,利用图像处理获得横向和纵向表格线图,利用投影法分别计算横线的y坐标和纵线的x坐标;
步骤3:根据表格线间的位置关系,确定表头所有列名的位置,对该区域进行切割及处理后,输入到训练好的CRNN网络识别,和给定的表头关键字比较,确定所需识别的列;
步骤4:将所得坐标和纵向表格线坐标比较,确定所在列外部两侧的x坐标,以该坐标切割表格灰度图像,获得待识别的单列灰度图像;
步骤5:对单列图像进行二值化,使用图像处理,抹去单列图像中表格线;
步骤6:使用投影法从处理后单列图像中将每行手写数据切分出来;
步骤7:将切分出的手写数据块输入到训练好的CRNN网络中,识别手写数据备。
2.根据权利要求1所述的一种简单表格照片中的关键列内手写数据提取方法,其特征在于,所述的步骤2中:
2.1对步骤1所得表格区域图像,二值化图像,根据图像的长和宽确定不同形状的核,对表格区域图像进行腐蚀膨胀操作,获得仅有横向表格线和仅有纵向表格线的图片;
2.2使用投影法分别计算横向和纵向表格线坐标:
Mat代表二值化的图像矩阵,利用矩阵乘法计算二值化图像的x轴,y轴投影,当投影值大于阈值时认为表格线存在,当两条表格线间距小于时则合并;表格线坐标为进入表格线投影时坐标与离开表格线投影坐标的中值。
3.根据权利要求1所述的简单表格照片中的关键列内手写数据提取方法,其特征在于,所述的步骤3中:3.1利用y值最小的两条横向表格线坐标,和纵向表格线坐标切割步骤1所得表格区域图像;获得所有列名所在的区域;
3.2使用膨胀腐蚀获取3.1所得每个图像中可能存在的边界框,制作掩码擦除边界框;
3.3将擦除边界框后的列名图像送入以训练好的打印体识别CRNN网络,获取结果;和关键词作比较,确定需识别哪一列。
4.根据权利要求1所述的简单表格照片中的关键列内手写数据提取方法,其特征在于,所述的步骤5中:针对拍摄时纸张不平整的状态,利用膨胀腐蚀获得该列图像中的横向与纵向表格线;对纵向表格线图做膨胀操作;提取图中最大的连通域作为掩码,排除因表格线弯曲带来的左右两侧多余部分;合并掩码层与横向表格线图;去除单列图像中的表格线。
CN202010117780.3A 2020-02-25 2020-02-25 一种简单表格照片中的关键列内手写数据提取方法 Active CN111339937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010117780.3A CN111339937B (zh) 2020-02-25 2020-02-25 一种简单表格照片中的关键列内手写数据提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010117780.3A CN111339937B (zh) 2020-02-25 2020-02-25 一种简单表格照片中的关键列内手写数据提取方法

Publications (2)

Publication Number Publication Date
CN111339937A CN111339937A (zh) 2020-06-26
CN111339937B true CN111339937B (zh) 2023-04-18

Family

ID=71185677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010117780.3A Active CN111339937B (zh) 2020-02-25 2020-02-25 一种简单表格照片中的关键列内手写数据提取方法

Country Status (1)

Country Link
CN (1) CN111339937B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI824757B (zh) * 2022-10-06 2023-12-01 普匯金融科技股份有限公司 電子計算裝置、表格格線位置識別方法及其電腦程式產品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000050055A (ja) * 1998-07-31 2000-02-18 Nec Corp ファクシミリ装置及び送信方法
CN110363095A (zh) * 2019-06-20 2019-10-22 华南农业大学 一种针对表格字体的识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711292B2 (en) * 1998-12-30 2004-03-23 Canon Kabushiki Kaisha Block selection of table features
US10354133B2 (en) * 2015-08-26 2019-07-16 Beijing Lejent Technology Co., Ltd. Method for structural analysis and recognition of handwritten mathematical formula in natural scene image

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000050055A (ja) * 1998-07-31 2000-02-18 Nec Corp ファクシミリ装置及び送信方法
CN110363095A (zh) * 2019-06-20 2019-10-22 华南农业大学 一种针对表格字体的识别方法

Also Published As

Publication number Publication date
CN111339937A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
Shi et al. Automatic road crack detection using random structured forests
CN108764229B (zh) 一种基于计算机视觉技术的水尺图像自动识别方法
CN111626146B (zh) 一种基于模板匹配的合并单元格表格分割识别方法
US6072895A (en) System and method using minutiae pruning for fingerprint image processing
CN106960208B (zh) 一种仪表液晶数字自动切分和识别的方法及系统
TWI536277B (zh) Form identification method and device
CN110264445B (zh) 分块模板匹配结合形态学处理的电池丝印质量检测方法
CN105205488B (zh) 基于Harris角点和笔画宽度的文字区域检测方法
CN112837290A (zh) 一种基于种子填充算法的裂缝图像自动识别方法
CN114820625B (zh) 一种汽车顶块缺陷检测方法
CN111753706B (zh) 一种基于图像统计学的复杂表格交点聚类提取方法
CN112651323B (zh) 一种基于文本行检测的中文手写体识别方法及系统
CN113012124B (zh) 一种鞋印孔洞和嵌入物特征检测及描述方法
CN113240623B (zh) 一种路面病害检测方法及装置
CN107516085A (zh) 一种基于文档图像自动去除黑边的方法
CN112364834A (zh) 一种基于深度学习和图像处理的表格识别的还原方法
CN111339937B (zh) 一种简单表格照片中的关键列内手写数据提取方法
CN110246139B (zh) 基于双阈值的浮游生物原位图像roi快速提取方法
CN112200053B (zh) 一种融合局部特征的表格识别方法
CN113962929A (zh) 光伏电池组件缺陷检测方法、系统及光伏电池组件生产线
CN108564020B (zh) 基于全景3d图像的微手势识别方法
JP4492258B2 (ja) 文字・図形の認識方法および検査方法
CN116416624A (zh) 一种基于版面校正的文档电子化方法、装置以及存储介质
CN115761613A (zh) 一种基于卷积网络的隧道裂缝自动检测方法
CN111815591B (zh) 基于ct图像的肺结节检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant