CN104123527A

CN104123527A - 基于掩膜的图像表格文档识别方法

Info

Publication number: CN104123527A
Application number: CN201310145105.1A
Authority: CN
Inventors: 魏昊; 张磊
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-04-25
Filing date: 2013-04-25
Publication date: 2014-10-29

Abstract

本发明公开了一种基于掩膜的图像表格文档识别方法，包括以下步骤：第一步，表格文档图像预处理；第二步，表格文档图像掩膜制作；第三步，针对不同的表格文档图像，重复上述第一步和第二步，制作成表格文档图像掩膜库；第四步，掩膜匹配；第五步，局部表格文档图片分割识别。本发明将切碎的微小图像进行内容识别，单个微小图像在纠偏、去噪和去除图片底色后便于目前成熟OCR产品高效识别，省去了OCR产品对整张原始图像的版面分析过程。本发明提高了图像表格文档识别效率，去除了整版版面分析的时间浪费,整体的有效识别率提高,处理速度加快,提高了图像表格文档的识别准确率。总之，本发明识别准确率高，识别效率高。

Description

基于掩膜的图像表格文档识别方法

技术领域

本发明涉及一种版式文档图像表格识别方法，尤其涉及一种基于掩膜的图像表格文档识别方法。

背景技术

现有的图像表格文档识别都是基于整个版面分析后做识别。这些方案都是以OCR/ICR引擎为核心。对文档整个版面按照“基于连通区域的版面分割算法”或者是“膨胀版面分析算法”进行版面分析后逐条对识别字符进行识别。但对整体的识别效率和准确率，特别是对有统一样式图像超高识别率要求的特别域－即有效识别率及效率，没有做考虑和设计。同时，由于OCR／ICR的效率问题，往往处理速度较慢，无法应对高时效的要求。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种识别准确性高、识别效率高的基于掩膜的图像表格文档识别方法。

为实现上述技术目的，本发明采取的技术方案为：一种基于掩膜的图像表格文档识别方法，包括以下步骤：

第一步，表格文档图像预处理：采用权平均法对表格文档图像进行灰度化处理，然后采用最大类间方差方法对表格文档图像进行二值化处理，以对表格线进行纠偏，形成预处理表格文档图像；

第二步，表格文档图像掩膜制作：首先，扫描并且识别预处理表格文档图像，并对扫描的预处理表格文档图像结果进行二值化，以完成纠偏和去噪；然后，用图像工具去除预处理表格文档图像的单元格内的具体内容，只保留版面分隔的表格线信息，制作成表格文档图像掩膜；所述表格文档图像掩膜用于和表格文档图像进行试匹配，以验证掩膜的准确性；

第三步，针对不同的表格文档图像，重复上述第一步和第二步，制作成表格文档图像掩膜库；

第四步，掩膜匹配：首先，针对现实中包含数据的表格文档图像，采用第一步的方法进行处理，形成预处理表格文档图像；其次，对预处理表格文档图像进行掩膜匹配：1）根据预处理表格文档图像不同的特征对预处理表格文档图像加以区分和分类；2）然后，将表格文档图像掩膜库中的各个表格文档图像掩膜依次与预处理表格文档图像通过Hausdorff算法进行覆盖匹配，形成添加了掩膜的预处理表格文档图像；3）再将添加了掩膜的预处理表格文档图像进行保存并且传递给下一步进行处理；

第五步，局部表格文档图片分割识别：首先，对于已经完成掩膜匹配的预处理表格文档图像，根据匹配的表格文档图像掩膜的坐标信息对被掩膜成功覆盖的预处理文档进行局部定位，所述坐标信息中包含每个单元格的4个坐标点信息；所述局部定位是指根据表格文档图像掩膜中的各个单元格的坐标信息锁定目标文档的内容；其次，在局部图像信息锁定后进行切碎处理，形成微小图像；所述微小图像的大小取决于单元格内的具体内容的大小；然后，进一步对切碎的微小图像进行内容识别。

作为本发明进一步改进的技术方案，所述文档图像与处理包括以下步骤：1）文档图像的二值化：用于将表格文档图像处理成黑和白两种颜色；2）对文档图像的水平线识别处理：用于定位表格文档图像中表格的所有水平线的坐标位置；3）对文档图像的垂直线识别处理：定位表格文档图像中表格的所有垂直的坐标位置；4）对文档图像的垂直线纠偏处理：用于还原表格文档图像真实的形状；5）对文档图像水平线纠偏处理：用于还原表格文档图像真实的形状；

作为本发明进一步改进的技术方案，Hausdorff 最小距离算法的表达式为：这里，，其中A和B为两组点集，及集合A={a1,…,ap},集合B={b1,…,bq},H(A,B) 两组点集之间距离的一种定义形式，用于描述两组点集之间相似程度的一种量度。

为了精准识别表格文档的有效信息，即表格内域的信息，本发明利用表格文档图像掩膜来屏蔽掉无用信息，减少对OCR的干扰，提高识别效率。对预处理表格文档图像进行掩膜匹配时，所述特征指的是图像的特有文字和图案信息，如发票单据的“发票”字样，医院诊疗书中，“医院名称”，医院标志，“诊断”等。这样分类后，可以在后续影像处理中有针对性的使用预制掩膜匹配，定向OCR和行业词语库匹配。Hausdorff 最小距离算法是计算表格文档图像掩膜的点阵和预处理表格文档图像点阵的距离差。这样一是可以找到最合适的掩膜，二是可以微调掩膜的位置，以获得最佳效果。内容识别是将切碎的微小图像进行内容识别的过程。单个微小图像在纠偏、去噪和去除图片底色后便于目前成熟OCR产品高效识别，节省了OCR产品对整张原始图像的版面分析过程。本发明提高了图像表格文档识别效率，去除了整版版面分析的时间浪费,整体的有效识别率提高,处理速度加快,提高了图像表格文档的识别准确率。总之，本发明识别准确率高，识别效率高。

附图说明

图1为实施例1的流程示意图。

图2为实施例1的本发明预处理表格文档图像。

图3为根据图2制作的表格文档图像掩膜。

下面结合附图对本发明的具体实施方式作进一步说明。

具体实施方式

参见图1、图2和图3，本基于掩膜的图像表格文档识别方法，包括以下步骤：

作为优选方案，所述文档图像与处理包括以下步骤：

1）文档图像的二值化：用于将表格文档图像处理成黑和白两种颜色；2）对文档图像的水平线识别处理：用于定位表格文档图像中表格的所有水平线的坐标位置；3）对文档图像的垂直线识别处理：定位表格文档图像中表格的所有垂直的坐标位置；4）对文档图像的垂直线纠偏处理：用于还原表格文档图像真实的形状；5）对文档图像水平线纠偏处理：用于还原表格文档图像真实的形状。Hausdorff 最小距离算法的表达式为：，这里，，其中A和B为两组点集，及集合A={a1,…,ap},集合B={b1,…,bq},H(A,B) 两组点集之间距离的一种定义形式，用于描述两组点集之间相似程度的一种量度。

为了精准识别表格文档的有效信息，即表格内域的信息，本发明利用表格文档图像掩膜来屏蔽掉无用信息，减少对OCR的干扰，提高识别效率。对预处理表格文档图像进行掩膜匹配时，所述特征指的是图像的特有文字和图案信息，如发票单据的“发票”字样，医院诊疗书中，“医院名称”，医院标志，“诊断”等。这样分类后，可以在后续影像处理中有针对性的使用预制掩膜匹配，定向OCR和行业词语库匹配。Hausdorff 最小距离算法是计算表格文档图像掩膜的点阵和预处理表格文档图像点阵的距离差。这样一是可以找到最合适的掩膜，二是可以微调掩膜的位置，以获得最佳效果。内容识别是将切碎的微小图像进行内容识别的过程。单个微小图像在纠偏、去噪和去除图片底色后便于目前成熟OCR产品高效识别，节省了OCR产品对整张原始图像的版面分析过程。由于扫描图像过程中图像会出现不同程度的扭曲，对文档图像的垂直线纠偏处理以及对文档图像水平线纠偏处理均用于还原表格文档图像真实的形状。本发明提高了图像表格文档识别效率，去除了整版版面分析的时间浪费,整体的有效识别率提高,处理速度加快, 在相同条件下，效率提高45％,提高了图像表格文档的识别准确率。

Claims

1.一种基于掩膜的图像表格文档识别方法，包括以下步骤：

第二步，表格文档图像掩膜制作：

首先，扫描并且识别预处理表格文档图像，并对扫描的预处理表格文档图像结果进行二值化，以完成纠偏和去噪；

然后，用图像工具去除预处理表格文档图像的单元格内的具体内容，只保留版面分隔的表格线信息，制作成表格文档图像掩膜；所述表格文档图像掩膜用于和表格文档图像进行试匹配，以验证掩膜的准确性；

第四步，掩膜匹配：

首先，针对现实中包含数据的表格文档图像，采用第一步的方法进行处理，形成预处理表格文档图像；

其次，对预处理表格文档图像进行掩膜匹配：

1）根据预处理表格文档图像不同的特征对预处理表格文档图像加以区分和分类；

2）然后，将表格文档图像掩膜库中的各个表格文档图像掩膜依次与预处理表格文档图像通过Hausdorff算法进行覆盖匹配，形成添加了掩膜的预处理表格文档图像；

3）再将添加了掩膜的预处理表格文档图像进行保存并且传递给下一步进行处理；

第五步，局部表格文档图片分割识别：

首先，对于已经完成掩膜匹配的预处理表格文档图像，根据匹配的表格文档图像掩膜的坐标信息对被掩膜成功覆盖的预处理文档进行局部定位，所述坐标信息中包含每个单元格的4个坐标点信息；所述局部定位是指根据表格文档图像掩膜中的各个单元格的坐标信息锁定目标文档的内容；

其次，在局部图像信息锁定后进行切碎处理，形成微小图像；所述微小图像的大小取决于单元格内的具体内容的大小；

然后，进一步对切碎的微小图像进行内容识别。

2.根据权利要求1所述的基于模板的图像表格文档识别方法，其特征在于所述文档图像与处理包括以下步骤：

1）文档图像的二值化：用于将表格文档图像处理成黑和白两种颜色；

2）对文档图像的水平线识别处理：用于定位表格文档图像中表格的所有水平线的坐标位置；

3）对文档图像的垂直线识别处理：定位表格文档图像中表格的所有垂直的坐标位置；

4）对文档图像的垂直线纠偏处理：用于还原表格文档图像真实的形状；由于扫描图像过程中图像会出现不同程度的扭曲，该步骤为了）；

5）对文档图像水平线纠偏处理：用于还原表格文档图像真实的形状。

3.根据权利要求1所述的基于模板的图像表格文档识别方法，其特征在于Hausdorff 最小距离算法的表达式为：

这里，

其中A和B为两组点集，及集合A={a1,…,ap},集合B={b1,…,bq},H(A,B) 两组点集之间距离的一种定义形式，用于描述两组点集之间相似程度的一种量度。