CN104123527A - 基于掩膜的图像表格文档识别方法 - Google Patents

基于掩膜的图像表格文档识别方法 Download PDF

Info

Publication number
CN104123527A
CN104123527A CN201310145105.1A CN201310145105A CN104123527A CN 104123527 A CN104123527 A CN 104123527A CN 201310145105 A CN201310145105 A CN 201310145105A CN 104123527 A CN104123527 A CN 104123527A
Authority
CN
China
Prior art keywords
form document
document image
image
mask
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310145105.1A
Other languages
English (en)
Inventor
魏昊
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310145105.1A priority Critical patent/CN104123527A/zh
Publication of CN104123527A publication Critical patent/CN104123527A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于掩膜的图像表格文档识别方法,包括以下步骤:第一步,表格文档图像预处理;第二步,表格文档图像掩膜制作;第三步,针对不同的表格文档图像,重复上述第一步和第二步,制作成表格文档图像掩膜库;第四步,掩膜匹配;第五步,局部表格文档图片分割识别。本发明将切碎的微小图像进行内容识别,单个微小图像在纠偏、去噪和去除图片底色后便于目前成熟OCR产品高效识别,省去了OCR产品对整张原始图像的版面分析过程。本发明提高了图像表格文档识别效率,去除了整版版面分析的时间浪费,整体的有效识别率提高,处理速度加快,提高了图像表格文档的识别准确率。总之,本发明识别准确率高,识别效率高。

Description

基于掩膜的图像表格文档识别方法
技术领域
本发明涉及一种版式文档图像表格识别方法,尤其涉及一种基于掩膜的图像表格文档识别方法。
背景技术
现有的图像表格文档识别都是基于整个版面分析后做识别。这些方案都是以OCR/ICR引擎为核心。对文档整个版面按照“基于连通区域的版面分割算法”或者是“膨胀版面分析算法”进行版面分析后逐条对识别字符进行识别。但对整体的识别效率和准确率,特别是对有统一样式图像超高识别率要求的特别域-即有效识别率及效率,没有做考虑和设计。同时,由于OCR/ICR的效率问题,往往处理速度较慢,无法应对高时效的要求。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种识别准确性高、识别效率高的基于掩膜的图像表格文档识别方法。
为实现上述技术目的,本发明采取的技术方案为:一种基于掩膜的图像表格文档识别方法,包括以下步骤:
第一步,表格文档图像预处理:采用权平均法对表格文档图像进行灰度化处理,然后采用最大类间方差方法对表格文档图像进行二值化处理,以对表格线进行纠偏,形成预处理表格文档图像; 
第二步,表格文档图像掩膜制作:首先,扫描并且识别预处理表格文档图像,并对扫描的预处理表格文档图像结果进行二值化,以完成纠偏和去噪;然后,用图像工具去除预处理表格文档图像的单元格内的具体内容,只保留版面分隔的表格线信息,制作成表格文档图像掩膜;所述表格文档图像掩膜用于和表格文档图像进行试匹配,以验证掩膜的准确性;
第三步,针对不同的表格文档图像,重复上述第一步和第二步,制作成表格文档图像掩膜库;
第四步,掩膜匹配:首先,针对现实中包含数据的表格文档图像,采用第一步的方法进行处理,形成预处理表格文档图像;其次,对预处理表格文档图像进行掩膜匹配:1)根据预处理表格文档图像不同的特征对预处理表格文档图像加以区分和分类;2)然后,将表格文档图像掩膜库中的各个表格文档图像掩膜依次与预处理表格文档图像通过Hausdorff算法进行覆盖匹配,形成添加了掩膜的预处理表格文档图像;3)再将添加了掩膜的预处理表格文档图像进行保存并且传递给下一步进行处理;
第五步,局部表格文档图片分割识别:首先,对于已经完成掩膜匹配的预处理表格文档图像,根据匹配的表格文档图像掩膜的坐标信息对被掩膜成功覆盖的预处理文档进行局部定位,所述坐标信息中包含每个单元格的4个坐标点信息;所述局部定位是指根据表格文档图像掩膜中的各个单元格的坐标信息锁定目标文档的内容;其次,在局部图像信息锁定后进行切碎处理,形成微小图像;所述微小图像的大小取决于单元格内的具体内容的大小;然后,进一步对切碎的微小图像进行内容识别。
作为本发明进一步改进的技术方案,所述文档图像与处理包括以下步骤:1)文档图像的二值化:用于将表格文档图像处理成黑和白两种颜色;2)对文档图像的水平线识别处理:用于定位表格文档图像中表格的所有水平线的坐标位置;3)对文档图像的垂直线识别处理:定位表格文档图像中表格的所有垂直的坐标位置;4)对文档图像的垂直线纠偏处理:用于还原表格文档图像真实的形状;5)对文档图像水平线纠偏处理:用于还原表格文档图像真实的形状;
作为本发明进一步改进的技术方案,Hausdorff 最小距离算法的表达式为:                                                这里,,其中A和B为两组点集,及集合A={a1,…,ap},集合B={b1,…,bq},H(A,B) 两组点集之间距离的一种定义形式,用于描述两组点集之间相似程度的一种量度。
为了精准识别表格文档的有效信息,即表格内域的信息,本发明利用表格文档图像掩膜来屏蔽掉无用信息,减少对OCR的干扰,提高识别效率。对预处理表格文档图像进行掩膜匹配时,所述特征指的是图像的特有文字和图案信息,如发票单据的“发票”字样,医院诊疗书中,“医院名称”,医院标志,“诊断”等。这样分类后,可以在后续影像处理中有针对性的使用预制掩膜匹配,定向OCR和行业词语库匹配。Hausdorff 最小距离算法是计算表格文档图像掩膜的点阵和预处理表格文档图像点阵的距离差。这样一是可以找到最合适的掩膜,二是可以微调掩膜的位置,以获得最佳效果。内容识别是将切碎的微小图像进行内容识别的过程。单个微小图像在纠偏、去噪和去除图片底色后便于目前成熟OCR产品高效识别,节省了OCR产品对整张原始图像的版面分析过程。本发明提高了图像表格文档识别效率,去除了整版版面分析的时间浪费,整体的有效识别率提高,处理速度加快,提高了图像表格文档的识别准确率。总之,本发明识别准确率高,识别效率高。
附图说明
图1为实施例1的流程示意图。
图2为实施例1的本发明预处理表格文档图像。
图3为根据图2制作的表格文档图像掩膜。
下面结合附图对本发明的具体实施方式作进一步说明。
具体实施方式
参见图1、图2和图3,本基于掩膜的图像表格文档识别方法,包括以下步骤:
第一步,表格文档图像预处理:采用权平均法对表格文档图像进行灰度化处理,然后采用最大类间方差方法对表格文档图像进行二值化处理,以对表格线进行纠偏,形成预处理表格文档图像; 
第二步,表格文档图像掩膜制作:首先,扫描并且识别预处理表格文档图像,并对扫描的预处理表格文档图像结果进行二值化,以完成纠偏和去噪;然后,用图像工具去除预处理表格文档图像的单元格内的具体内容,只保留版面分隔的表格线信息,制作成表格文档图像掩膜;所述表格文档图像掩膜用于和表格文档图像进行试匹配,以验证掩膜的准确性;
第三步,针对不同的表格文档图像,重复上述第一步和第二步,制作成表格文档图像掩膜库;
第四步,掩膜匹配:首先,针对现实中包含数据的表格文档图像,采用第一步的方法进行处理,形成预处理表格文档图像;其次,对预处理表格文档图像进行掩膜匹配:1)根据预处理表格文档图像不同的特征对预处理表格文档图像加以区分和分类;2)然后,将表格文档图像掩膜库中的各个表格文档图像掩膜依次与预处理表格文档图像通过Hausdorff算法进行覆盖匹配,形成添加了掩膜的预处理表格文档图像;3)再将添加了掩膜的预处理表格文档图像进行保存并且传递给下一步进行处理;
第五步,局部表格文档图片分割识别:首先,对于已经完成掩膜匹配的预处理表格文档图像,根据匹配的表格文档图像掩膜的坐标信息对被掩膜成功覆盖的预处理文档进行局部定位,所述坐标信息中包含每个单元格的4个坐标点信息;所述局部定位是指根据表格文档图像掩膜中的各个单元格的坐标信息锁定目标文档的内容;其次,在局部图像信息锁定后进行切碎处理,形成微小图像;所述微小图像的大小取决于单元格内的具体内容的大小;然后,进一步对切碎的微小图像进行内容识别。
作为优选方案,所述文档图像与处理包括以下步骤:
1)文档图像的二值化:用于将表格文档图像处理成黑和白两种颜色;2)对文档图像的水平线识别处理:用于定位表格文档图像中表格的所有水平线的坐标位置;3)对文档图像的垂直线识别处理:定位表格文档图像中表格的所有垂直的坐标位置;4)对文档图像的垂直线纠偏处理:用于还原表格文档图像真实的形状;5)对文档图像水平线纠偏处理:用于还原表格文档图像真实的形状。Hausdorff 最小距离算法的表达式为:,这里,,其中A和B为两组点集,及集合A={a1,…,ap},集合B={b1,…,bq},H(A,B) 两组点集之间距离的一种定义形式,用于描述两组点集之间相似程度的一种量度。
为了精准识别表格文档的有效信息,即表格内域的信息,本发明利用表格文档图像掩膜来屏蔽掉无用信息,减少对OCR的干扰,提高识别效率。对预处理表格文档图像进行掩膜匹配时,所述特征指的是图像的特有文字和图案信息,如发票单据的“发票”字样,医院诊疗书中,“医院名称”,医院标志,“诊断”等。这样分类后,可以在后续影像处理中有针对性的使用预制掩膜匹配,定向OCR和行业词语库匹配。Hausdorff 最小距离算法是计算表格文档图像掩膜的点阵和预处理表格文档图像点阵的距离差。这样一是可以找到最合适的掩膜,二是可以微调掩膜的位置,以获得最佳效果。内容识别是将切碎的微小图像进行内容识别的过程。单个微小图像在纠偏、去噪和去除图片底色后便于目前成熟OCR产品高效识别,节省了OCR产品对整张原始图像的版面分析过程。由于扫描图像过程中图像会出现不同程度的扭曲,对文档图像的垂直线纠偏处理以及对文档图像水平线纠偏处理均用于还原表格文档图像真实的形状。本发明提高了图像表格文档识别效率,去除了整版版面分析的时间浪费,整体的有效识别率提高,处理速度加快, 在相同条件下,效率提高45%,提高了图像表格文档的识别准确率。

Claims (3)

1.一种基于掩膜的图像表格文档识别方法,包括以下步骤:
第一步,表格文档图像预处理:采用权平均法对表格文档图像进行灰度化处理,然后采用最大类间方差方法对表格文档图像进行二值化处理,以对表格线进行纠偏,形成预处理表格文档图像; 
第二步,表格文档图像掩膜制作:
首先,扫描并且识别预处理表格文档图像,并对扫描的预处理表格文档图像结果进行二值化,以完成纠偏和去噪;
然后,用图像工具去除预处理表格文档图像的单元格内的具体内容,只保留版面分隔的表格线信息,制作成表格文档图像掩膜;所述表格文档图像掩膜用于和表格文档图像进行试匹配,以验证掩膜的准确性;
第三步,针对不同的表格文档图像,重复上述第一步和第二步,制作成表格文档图像掩膜库;
第四步,掩膜匹配:
首先,针对现实中包含数据的表格文档图像,采用第一步的方法进行处理,形成预处理表格文档图像;
其次,对预处理表格文档图像进行掩膜匹配:
1)根据预处理表格文档图像不同的特征对预处理表格文档图像加以区分和分类;
2)然后,将表格文档图像掩膜库中的各个表格文档图像掩膜依次与预处理表格文档图像通过Hausdorff算法进行覆盖匹配,形成添加了掩膜的预处理表格文档图像;
3)再将添加了掩膜的预处理表格文档图像进行保存并且传递给下一步进行处理;
第五步,局部表格文档图片分割识别:
首先,对于已经完成掩膜匹配的预处理表格文档图像,根据匹配的表格文档图像掩膜的坐标信息对被掩膜成功覆盖的预处理文档进行局部定位,所述坐标信息中包含每个单元格的4个坐标点信息;所述局部定位是指根据表格文档图像掩膜中的各个单元格的坐标信息锁定目标文档的内容;
其次,在局部图像信息锁定后进行切碎处理,形成微小图像;所述微小图像的大小取决于单元格内的具体内容的大小;
然后,进一步对切碎的微小图像进行内容识别。
2.根据权利要求1所述的基于模板的图像表格文档识别方法,其特征在于所述文档图像与处理包括以下步骤:
1)文档图像的二值化:用于将表格文档图像处理成黑和白两种颜色;
2)对文档图像的水平线识别处理:用于定位表格文档图像中表格的所有水平线的坐标位置;
3)对文档图像的垂直线识别处理:定位表格文档图像中表格的所有垂直的坐标位置;
4)对文档图像的垂直线纠偏处理:用于还原表格文档图像真实的形状;由于扫描图像过程中图像会出现不同程度的扭曲,该步骤为了);
5)对文档图像水平线纠偏处理:用于还原表格文档图像真实的形状。
3.根据权利要求1所述的基于模板的图像表格文档识别方法,其特征在于Hausdorff 最小距离算法的表达式为:
这里,
其中A和B为两组点集,及集合A={a1,…,ap},集合B={b1,…,bq},H(A,B) 两组点集之间距离的一种定义形式,用于描述两组点集之间相似程度的一种量度。
CN201310145105.1A 2013-04-25 2013-04-25 基于掩膜的图像表格文档识别方法 Pending CN104123527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310145105.1A CN104123527A (zh) 2013-04-25 2013-04-25 基于掩膜的图像表格文档识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310145105.1A CN104123527A (zh) 2013-04-25 2013-04-25 基于掩膜的图像表格文档识别方法

Publications (1)

Publication Number Publication Date
CN104123527A true CN104123527A (zh) 2014-10-29

Family

ID=51768935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310145105.1A Pending CN104123527A (zh) 2013-04-25 2013-04-25 基于掩膜的图像表格文档识别方法

Country Status (1)

Country Link
CN (1) CN104123527A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN109190611A (zh) * 2018-08-14 2019-01-11 江西师范大学 一种基于众包的互联网编修家谱系统
CN109614923A (zh) * 2018-12-07 2019-04-12 上海智臻智能网络科技股份有限公司 Ocr文档识别方法及其装置
CN113033563A (zh) * 2019-12-25 2021-06-25 北京世纪好未来教育科技有限公司 文本分割方法、装置、电子设备及存储介质
CN113420116A (zh) * 2021-06-23 2021-09-21 平安科技(深圳)有限公司 医疗文档的分析方法、装置、设备及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN106407883B (zh) * 2016-08-10 2019-12-27 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN109190611A (zh) * 2018-08-14 2019-01-11 江西师范大学 一种基于众包的互联网编修家谱系统
CN109614923A (zh) * 2018-12-07 2019-04-12 上海智臻智能网络科技股份有限公司 Ocr文档识别方法及其装置
CN113033563A (zh) * 2019-12-25 2021-06-25 北京世纪好未来教育科技有限公司 文本分割方法、装置、电子设备及存储介质
CN113420116A (zh) * 2021-06-23 2021-09-21 平安科技(深圳)有限公司 医疗文档的分析方法、装置、设备及介质
CN113420116B (zh) * 2021-06-23 2022-12-27 平安科技(深圳)有限公司 医疗文档的分析方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
CN106384094A (zh) 一种基于书写风格建模的中文字库自动生成方法
CN104123550A (zh) 基于云计算的文本扫描识别方法
CN104123527A (zh) 基于掩膜的图像表格文档识别方法
CN113239954B (zh) 基于注意力机制的图像语义分割特征融合方法
CN112818951B (zh) 一种票证识别的方法
CN107301414B (zh) 一种自然场景图像中的中文定位、分割和识别方法
CN101196994A (zh) 图片内容识别方法及识别系统
CN102750556A (zh) 一种脱机手写体汉字识别方法
CN110807454B (zh) 基于图像分割的文字定位方法、装置、设备及存储介质
JP2006053920A (ja) 文字認識プログラム、文字認識方法および文字認識装置
CN113191348B (zh) 一种基于模板的文本结构化提取方法及工具
CN102663380A (zh) 一种钢铁板坯编码图像中的字符识别方法
WO2023045298A1 (zh) 一种在图像中检测表格线的方法及装置
CN107958443A (zh) 一种基于脊线特征和tps形变模型的指纹图像拼接方法
CN104050483A (zh) 一种基于局部正交对齐的特征降维方法
CN105426924A (zh) 一种基于图像中层特征的场景分类方法
CN108133211B (zh) 一种基于移动终端视觉图像的检测配电柜的方法
CN115063802A (zh) 一种基于PSENet的圆形印章识别方法、设备及介质
CN109271882B (zh) 一种区分颜色的手写体汉字提取方法
CN109543525B (zh) 一种通用表格图像的表格提取方法
CN108763266B (zh) 一种基于图像特征提取的商标检索方法
Aravinda et al. Template matching method for Kannada handwritten recognition based on correlation analysis
CN111950556A (zh) 一种基于深度学习的号牌印刷质量检测方法
CN104008095A (zh) 一种基于语义特征提取与匹配的物体识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141029