CN112036259A - 一种基于图像处理与深度学习相结合的表格矫正与识别的方法 - Google Patents

一种基于图像处理与深度学习相结合的表格矫正与识别的方法 Download PDF

Info

Publication number
CN112036259A
CN112036259A CN202010792739.6A CN202010792739A CN112036259A CN 112036259 A CN112036259 A CN 112036259A CN 202010792739 A CN202010792739 A CN 202010792739A CN 112036259 A CN112036259 A CN 112036259A
Authority
CN
China
Prior art keywords
image
steps
character
characters
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010792739.6A
Other languages
English (en)
Inventor
罗宝娟
李进文
严京旗
卞志强
张成栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingpu Shanghai Artificial Intelligence Technology Co Ltd
Original Assignee
Jingpu Shanghai Artificial Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingpu Shanghai Artificial Intelligence Technology Co Ltd filed Critical Jingpu Shanghai Artificial Intelligence Technology Co Ltd
Priority to CN202010792739.6A priority Critical patent/CN112036259A/zh
Publication of CN112036259A publication Critical patent/CN112036259A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)

Abstract

本发明涉及图像处理和图像识别技术领域,尤其为一种基于图像处理与深度学习相结合的表格矫正与识别的方法,包括如下步骤:步骤110,获取表格原始图像数据;步骤120,图像预处理;步骤130,定位文字区域;步骤140,重构表格信息;本发明通过设计改进现有的表格识别方法,对表格图像进行识别时进行文字方向判断,倾斜度校正及透视畸变的处理提高表格识别的准确率,解决了目前识别图像中表格的方法是使用设备获取表格图像后,通过分析整页数字图像的光学特征来检测表格行列框线位置以检测表格的版式结构,一般仅适用于输入图像质量比较好、表格位置和版式比较固定、表格框线比较显著的情况,对于图像存在文字方向翻转颠倒,倾斜、透视畸变等问题。

Description

一种基于图像处理与深度学习相结合的表格矫正与识别的 方法
技术领域
本发明涉及图像处理和图像识别技术领域,具体为一种基于图像处理与深度学习相结合的表格矫正与识别的方法。
背景技术
表格是一种信息高度精炼集中表达的手段,具有可视化方便交流的特性,表格被广泛用于各种数据的采集,随着无纸化办公的推进,将纸质化的表格转为电子档的表格是信息化的必然趋势,目前识别图像中表格的方法是使用设备获取表格图像后,通过分析整页数字图像的光学特征来检测表格行列框线位置以检测表格的版式结构,一般仅适用于输入图像质量比较好、表格位置和版式比较固定、表格框线比较显著的情况,对于图像存在文字方向翻转颠倒,倾斜、透视畸变等问题,此种检测准确率则较低。
综上所述,本发明通过设计一种基于图像处理与深度学习相结合的表格矫正与识别的方法来解决存在的问题。
发明内容
本发明的目的在于提供一种基于图像处理与深度学习相结合的表格矫正与识别的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于图像处理与深度学习相结合的表格矫正与识别的方法,包括如下步骤:
步骤110,获取表格原始图像数据;
步骤120,图像预处理;
步骤130,定位文字区域;
步骤140,重构表格信息;
步骤150,文字块与表格关联,文字识别;
步骤160结束。
进一步的,所述步骤110获取原始图像数据的方法,包括如下三种之一:
方法之一是用数码相机拍摄得到的图像数据;
方法之二是用手机拍摄得到的图像数据;
方法之三是用扫描仪得到的图像数据。
进一步的,所述步骤120具体包括如下步骤:
步骤210,文字方向检测:利用轻量级卷积神经网络MobileNet训练出检测文字4个方向(0度,90度,180度,270度)的模型,原始图像经过文字方向检测模型,得到文字的正确方向,将原始图像进行旋转;
步骤220,倾斜图像矫正:通过canny边缘检测算子来检测边界,在二值图中寻找直线,过滤掉一些角度过于大的直线和非法角度得到图像旋转的角度,利用该角度对图像进行仿射变换得到旋转后的图像;
步骤230,透视畸变图像矫正:表格一般会有4个角点和线段相交的交点,利用YOLOV3神经网络训练检测表格角点和交点的模型,经过角点和交点的模型检测,若能找到表格的4个角点,则用得到的4个角点构成透视矩阵对图像进行透视变换处理,若未找到4个角点,则找出4条直线相交的4个交点构成透视矩阵变换图像。
进一步的,所述步骤130具体包括如下步骤:
步骤310,利用YOLOV3检测出所有文字区域的候选框;
步骤320,算出候选框的高度的众值,取该值为文字的高度;
步骤320,将候选框的水平间隔距离(两候选框水平之间的距离)和垂直相交率(两候选框垂直方向相交区域的高度与候选框的高度的比)在一定范围内的候选框连接为一个文字块,水平间隔距离取值一般设为文字的高度,垂直相交率一般设为0.5。
进一步的,所述步骤140具体包括如下步骤:
步骤410,使用LSD直线方法检测出图像中所有的竖直和垂直方向的直线;
步骤420,使用形态学操作检测出图像中所有的竖直和垂直方向的直线;
步骤430,过滤掉小于文字高度的直线;
步骤440,根据直线和节点信息,重构出表格信息:表格的列数和行数,每个单元格所在的行号和列号。
进一步的,所述步骤150将文字和表格相关联,使用卷积神经网络对每个表格区域的各行文本行进行识别,具体包括如下步骤:
步骤510,根据文字块将文字与表格进行关联,从而得知第某行第某列的单元格中有几行字;
步骤520,ResNet深度学习模型识别出各个文字区域的文字内容;
步骤530,输出带有表格信息的识别结果。
与现有技术相比,本发明的有益效果是:
1、本发明中,通过设计改进现有的表格识别方法,对表格图像进行识别时进行文字方向判断,倾斜度校正及透视畸变的处理提高表格识别的准确率,解决了目前识别图像中表格的方法是使用设备获取表格图像后,通过分析整页数字图像的光学特征来检测表格行列框线位置以检测表格的版式结构,一般仅适用于输入图像质量比较好、表格位置和版式比较固定、表格框线比较显著的情况,对于图像存在文字方向翻转颠倒,倾斜、透视畸变等问题。
附图说明
图1是本发明表格矫正与识别的方法流程图;
图2是图像预处理流程图;
图3是定位文字区域流程图;
图4是重构表格信息流程图;
图5是文字区域与表格相关联,文字识别流程图。
图6是扫描仪所扫描得到的原始表格图像;
图7是图6文字块与表格关联的示意图,每个单元格标识了行号和列号;
图8是图6最终输出到excel的截图;
图9是手机拍摄得到的原始表格图像;
图10是图9文字块与表格关联的示意图,每个单元格标识了行号和列号;
图11是图9最终输出到excel的截图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-11,本发明提供一种技术方案:
一种基于图像处理与深度学习相结合的表格矫正与识别的方法,包括如下步骤:
步骤110,获取表格原始图像数据;
步骤120,图像预处理;
步骤130,定位文字区域;
步骤140,重构表格信息;
步骤150,文字块与表格关联,文字识别;
步骤160结束。
具体实施案例:
实施例1:
请参阅图1,本发明揭示了一种基于图像处理与深度学习相结合的表格矫正与识别的方法,所述方法包括如下步骤:
【步骤110】获取表格原始图像数据。
获取原始表格图像,用扫描仪所得,如图6所示。
【步骤120】表格图像的预处理。
请参阅图2,步骤120具体包含如下步骤:
步骤210,判断文字方向。利用轻量级卷积神经网络MobileNet训练出检测文字4个方向(0度,90度,180度,270度)的模型,原始图像经过文字方向检测模型,得到文字的正确方向,将原始图像进行旋转;
步骤220,旋转倾斜图像。通过canny边缘检测算子来检测边界,在二值图中寻找直线,过滤掉一些角度过于大的直线和非法角度得到图像旋转的角度,利用该角度对图像进行仿射变换得到旋转后的图像;
步骤230,透视变换透视畸变图像。表格一般会有4个角点和线段相交的交点,利用YOLOV3神经网络训练检测表格角点和交点的模型,经过角点和交点的模型检测,若能找到表格的4个角点,则用得到的4个角点构成透视矩阵对图像进行透视变换处理,若未找到4个角点,则找出4条直线相交的4个交点构成透视矩阵变换图像。
【步骤130】定位文字区域;
请参阅图3,步骤130具体包含如下步骤:
步骤310,利用YOLOV3检测出所有文字区域的候选框;
步骤320,算出候选框的高度的众值,取该值为文字的高度;
步骤330,将候选框的水平间隔距离(两候选框水平之间的距离)和垂直相交率(两候选框垂直方向相交区域的高度与候选框的高度的比)在一定范围内的候选框连接为一个文字块,水平间隔距离取值一般设为文字的高度,垂直相交率一般设为0.5;
【步骤140】重构表格信息;
请参阅图4,步骤140具体包含如下步骤:
步骤410,使用LSD直线方法检测出图像中所有的竖直和垂直方向的直线;
步骤420,使用形态学操作检测出图像中所有的竖直和垂直方向的直线;
步骤430,过滤掉小于文字高度的直线;
步骤440,根据直线和节点信息,重构出表格信息:表格的列数和行数,每个单元格所在的行号和列号。
【步骤150】文字块与表格关联,文字识别。
请参阅图5,步骤150具体包含如下步骤:
步骤510,根据文字的位置信息将文字与表格进行匹配,从而得知第某行第某列的单元格中有几行字,如图7所示;
步骤520,ResNet深度学习模型识别出各个文字区域的文字内容;
步骤530,输出带有表格信息的识别结果,如图8所示,显示的为excel文件中保存的内容。
实施例2:
在智能手机上,手机自带72万像素的摄像头,使用本发明的方法,对拍摄得到的表格图像,能够进行矫正和识别。图9是手机拍摄的表格图像,图10是文字块与表格关联的示意图,图11是最终保存到excel文件中的截图。
实施例3:
在数码相机上,使用本发明的方法,对拍摄得到的表格图像也能够进行表格图像矫正和识别。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于图像处理与深度学习相结合的表格矫正与识别的方法,包括如下步骤:
步骤110,获取表格原始图像数据;
步骤120,图像预处理;
步骤130,定位文字区域;
步骤140,重构表格信息;
步骤150,文字块与表格关联,文字识别;
步骤160结束。
2.根据权利要求1所述的一种基于图像处理与深度学习相结合的表格矫正与识别的方法,其特征在于:所述步骤110获取原始图像数据的方法,包括如下三种之一:
方法之一是用数码相机拍摄得到的图像数据;
方法之二是用手机拍摄得到的图像数据;
方法之三是用扫描仪得到的图像数据。
3.根据权利要求1所述的一种基于图像处理与深度学习相结合的表格矫正与识别的方法,其特征在于:所述步骤120具体包括如下步骤:
步骤210,文字方向检测:利用轻量级卷积神经网络MobileNet训练出检测文字4个方向(0度,90度,180度,270度)的模型,原始图像经过文字方向检测模型,得到文字的正确方向,将原始图像进行旋转;
步骤220,倾斜图像矫正:通过canny边缘检测算子来检测边界,在二值图中寻找直线,过滤掉一些角度过于大的直线和非法角度得到图像旋转的角度,利用该角度对图像进行仿射变换得到旋转后的图像;
步骤230,透视畸变图像矫正:表格一般会有4个角点和线段相交的交点,利用YOLOV3神经网络训练检测表格角点和交点的模型,经过角点和交点的模型检测,若能找到表格的4个角点,则用得到的4个角点构成透视矩阵对图像进行透视变换处理,若未找到4个角点,则找出4条直线相交的4个交点构成透视矩阵变换图像。
4.根据权利要求1所述的一种基于图像处理与深度学习相结合的表格矫正与识别的方法,其特征在于:所述步骤130具体包括如下步骤:
步骤310,利用YOLOV3检测出所有文字区域的候选框;
步骤320,算出候选框的高度的众值,取该值为文字的高度;
步骤320,将候选框的水平间隔距离(两候选框水平之间的距离)和垂直相交率(两候选框垂直方向相交区域的高度与候选框的高度的比)在一定范围内的候选框连接为一个文字块,水平间隔距离取值一般设为文字的高度,垂直相交率一般设为0.5。
5.根据权利要求1所述的一种基于图像处理与深度学习相结合的表格矫正与识别的方法,其特征在于:所述步骤140具体包括如下步骤:
步骤410,使用LSD直线方法检测出图像中所有的竖直和垂直方向的直线;
步骤420,使用形态学操作检测出图像中所有的竖直和垂直方向的直线;
步骤430,过滤掉小于文字高度的直线;
步骤440,根据直线和节点信息,重构出表格信息:表格的列数和行数,每个单元格所在的行号和列号。
6.根据权利要求1所述的一种基于图像处理与深度学习相结合的表格矫正与识别的方法,其特征在于:所述步骤150将文字和表格相关联,使用卷积神经网络对每个表格区域的各行文本行进行识别,具体包括如下步骤:
步骤510,根据文字块将文字与表格进行关联,从而得知第某行第某列的单元格中有几行字;
步骤520,ResNet深度学习模型识别出各个文字区域的文字内容;
步骤530,输出带有表格信息的识别结果。
CN202010792739.6A 2020-08-10 2020-08-10 一种基于图像处理与深度学习相结合的表格矫正与识别的方法 Pending CN112036259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010792739.6A CN112036259A (zh) 2020-08-10 2020-08-10 一种基于图像处理与深度学习相结合的表格矫正与识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010792739.6A CN112036259A (zh) 2020-08-10 2020-08-10 一种基于图像处理与深度学习相结合的表格矫正与识别的方法

Publications (1)

Publication Number Publication Date
CN112036259A true CN112036259A (zh) 2020-12-04

Family

ID=73582895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010792739.6A Pending CN112036259A (zh) 2020-08-10 2020-08-10 一种基于图像处理与深度学习相结合的表格矫正与识别的方法

Country Status (1)

Country Link
CN (1) CN112036259A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329777A (zh) * 2021-01-06 2021-02-05 平安科技(深圳)有限公司 基于方向检测的文字识别方法、装置、设备及介质
CN112364834A (zh) * 2020-12-07 2021-02-12 上海叠念信息科技有限公司 一种基于深度学习和图像处理的表格识别的还原方法
CN112381177A (zh) * 2020-12-07 2021-02-19 江苏科技大学 一种基于深度学习的表盘数字字符识别方法及系统
CN112464940A (zh) * 2021-02-03 2021-03-09 浙江驿公里智能科技有限公司 一种基于深度学习的车辆前挡风玻璃vin码识别方法及系统
CN113688795A (zh) * 2021-09-27 2021-11-23 上海合合信息科技股份有限公司 一种将图像中表格转换为电子表格的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及系统
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
US20180018774A1 (en) * 2016-07-15 2018-01-18 Abbyy Development Llc Method and system for preparing text images for optical-character recognition
CN108805076A (zh) * 2018-06-07 2018-11-13 浙江大学 环境影响评估报告书表格文字的提取方法及系统
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
JP2020101988A (ja) * 2018-12-21 2020-07-02 大日本印刷株式会社 3次元再構成像表示装置、3次元再構成像表示方法、プログラム、及び画像生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及系统
US20180018774A1 (en) * 2016-07-15 2018-01-18 Abbyy Development Llc Method and system for preparing text images for optical-character recognition
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
CN108805076A (zh) * 2018-06-07 2018-11-13 浙江大学 环境影响评估报告书表格文字的提取方法及系统
JP2020101988A (ja) * 2018-12-21 2020-07-02 大日本印刷株式会社 3次元再構成像表示装置、3次元再構成像表示方法、プログラム、及び画像生成方法
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364834A (zh) * 2020-12-07 2021-02-12 上海叠念信息科技有限公司 一种基于深度学习和图像处理的表格识别的还原方法
CN112381177A (zh) * 2020-12-07 2021-02-19 江苏科技大学 一种基于深度学习的表盘数字字符识别方法及系统
CN112329777A (zh) * 2021-01-06 2021-02-05 平安科技(深圳)有限公司 基于方向检测的文字识别方法、装置、设备及介质
CN112464940A (zh) * 2021-02-03 2021-03-09 浙江驿公里智能科技有限公司 一种基于深度学习的车辆前挡风玻璃vin码识别方法及系统
CN113688795A (zh) * 2021-09-27 2021-11-23 上海合合信息科技股份有限公司 一种将图像中表格转换为电子表格的方法及装置

Similar Documents

Publication Publication Date Title
CN112036259A (zh) 一种基于图像处理与深度学习相结合的表格矫正与识别的方法
CN109993160B (zh) 一种图像矫正及文本与位置识别方法及系统
CN108764229B (zh) 一种基于计算机视觉技术的水尺图像自动识别方法
CN101908136B (zh) 一种表格识别处理方法及系统
US8958643B2 (en) Recognition of numerical characters in digital images
CN106407883A (zh) 一种复杂表格及其内部手写数字识别方法
CN111127339B (zh) 一种文档图像的梯形畸变矫正方法及装置
CN109190625B (zh) 一种大角度透视变形的集装箱箱号识别方法
US20150131912A1 (en) Systems and methods for offline character recognition
CN111353961A (zh) 一种文档曲面校正方法及装置
CN111091124A (zh) 一种书脊文字识别方法
CN110414517B (zh) 一种用于配合拍照场景的快速高精度身份证文本识别算法
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
WO2022121021A1 (zh) 一种身份证号码检测方法、装置、可读存储介质和终端
CN113850060A (zh) 民航文档数据识别录入方法及系统
KR20050062350A (ko) 카메라 문서영상의 기하학적 왜곡 보정방법
Meng et al. IRIS: smart phone aided intelligent reimbursement system using deep learning
CN115457585A (zh) 作业批改的处理方法、装置、计算机设备及可读存储介质
CN112288372B (zh) 一种可同时识别一维条码和三段码字符的快递单识别方法
CN111611883B (zh) 基于最小单元格聚类的表格版面分析方法、系统及设备
CN111402281B (zh) 一种书籍边缘检测方法及装置
CN113628113A (zh) 一种图像拼接方法及其相关设备
CN114219933A (zh) 一种拍照搜题方法
CN113159029A (zh) 一种图片中局部信息精准抓取的方法和系统
CN113627442A (zh) 医疗信息的录入方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination