CN107301418A

CN107301418A - 光学字符识别中的版面分析

Info

Publication number: CN107301418A
Application number: CN201710508019.0A
Authority: CN
Inventors: 熊雪梅; 化春键
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2017-10-27

Abstract

版面分析是光学字符识别中至关重要的一步。版面分析为后续的字符分割奠定了基础。本发明主要通过三种类型的图像中介绍了版面分析的具体方法。对于简单版块的文本图像，主要通过投影分割法划分区域。对于多版块的文本图像，主要通过二分法划分区域。对于背景复杂、字符较少的文本图像，主要通过二值边缘法划分出字符图像。

Description

光学字符识别中的版面分析

技术领域

本发明涉及的是一种图像处理技术领域的方法，具体是针对光学字符识别中多种文本图像的版面分析研究。

背景技术

伴随着信息化进程速度的不断加快，社会对信息量的要求不断增加，人们越来越少地用纸笔去记录信息，利用计算机等智能系统开展和大量信息有关的工作成为了当下的趋势。但是，信息产生的速度远远大于信息输入的速度，这种状态会耗费大量人力，且正确率也得不到保障。目前，依赖人工录入的方式存在的缺陷日益凸显，这种方法在经济效益和效率方面都存在不足。在人工成本日益攀升的情况下，人们迫切需要寻求一种高效低成本的方式来解决这一困境。光学字符识别能很好解决这一难题。在光学字符识别中，版面分析是至关重要的一步。但在众多研究中，光学字符识别的研究一般只针对一类文本图像，本发明针对简单排版的文本图像、多版块的文本图像和复杂背景的文本图像等做出了具体的分析和研究。

字符图像多种多样，对于单一版块的文本图像，其中只存在一段标准的字符，此时并不需要版面分析；但对于版块较多的报刊图像、插图的论文图像、背景复杂的标牌图像等，为了后续的字符分割，版面分析必不可少。本发明对三种类型的文本图像进行了版面分析的研究，简单排版的文本图像、多版块的文本图像和复杂背景的文本图像。版面分析后提取文本图像中的字符区域以进行光学字符识别中后续的字符分割的研究。

发明内容

针对现有技术存在的不足，本发明对三种类型的文本图像进行了版面分析的研究，简单排版的文本图像、多版块的文本图像和复杂背景的文本图像。

对于光学字符识别中版块较为简单的文本图像，它并没有表格、插画等的干扰，其中只含有横排或竖排字符。在这种情况下，版面划分的主要目的是划分出横排或者竖排的文字。通过对文本图像的分析，大多数的文本段落的行间距的宽度都会小于文字行的宽度。从这方面着手，对于简单图像版面分析的具体步骤如下：

第一步，首先对文本图像进行必要的处理，去除噪声的干扰，为后续操作打下基础。

第二步，在X方向上进行水平投影，在每行字符间会存在空白区域，此区域的宽度可能会大小不一；当然每行字符也会存在一定的宽度。若空白区域宽度大于临近的字符行区域宽度，则将其视为段落间距进行分割；若空白区域宽度小于临近的字符行区域宽度，则将其视为行间距，不进行分割。

第三步，在进行第二步的操作后，如果X方向上暂时无可分割处或者已完成X方向上的分割，则采取第二步中同样的思想，对Y方向进行投影及分割。直到完成整个投影分割法的版面划分过程。

对于光学字符识别中多版块文本图像，其中可能存在图像、表格、文本等多种信息。将图像、表格、文本等可以理解成不同的版块区域类，而对于此类文本图像的版面分析就是将不同的区域类尽可能的分开，并检测出文本信息进行后续的字符分割。若将识别的文本图像中的所有连通区域视为一个完整的基本连通区域集合，版面分析的最终结果是将他们分成三类：图像区域类、表格区域类、文字区域类(包括横排和竖排文本)。显然将所有区域类一步到位地划分清楚，即使是针对简单版面而言也是是困难的。本发明首先利用形态学知识初步将所有区域类分开，然后逐步细分出各个区域类，算法总体流程如图1所示。具体步骤如下：

第一步，形态学处理，膨胀腐蚀，开运算闭运算，孔洞填充。

第二步，标记连通分量。

第三步，文本段的生成，通过简单图像版面分析的处理办法，进行x轴、y轴方向上的投影划分，实现二分法中文本区域类的处理。

第四步，图形区域处理，这部分模块是和文本段的生成模块相配合的，进一步利用形态学知识处理图像，实现二分法中图像区域类的处理。

第五步，表格区域中划分字符，通过纵向和横向投影搜索特征线可以对表格区域进行判定，即表格的框线；搜索出框线后，进而利用形态学知识判定表格中字符区域的位置并划分字符区域。

对于光学字符识别中复杂背景的文本图像，包含的字符较少且背景复杂，对后续的分割产生了极大的干扰。复杂背景区别与字符区域的不同之处就在于字符区域中字符之间存在的间隔是均匀的，字符和底色在灰度值上存在突变。因而，在复杂背景的文本图像的灰度上就会有一小块灰度密集震荡的区域。而字符本身与背景底色都有较均匀的灰度，所以在这个区域有着丰富的边缘存在。针对此类本文图像的特点，采取二值边缘化法进行版面分析，此算法的步骤如下：

第一步，二值化后，利用Canny算子进行边缘检测。

第二步，对边缘点进行统计分析，绘出边缘像素点统计直方图。

第三步，根据统计直方图，找出边缘像素点较多的区域。

第四步，对边缘像素点较多的区域，各个像素点的灰度值保持不变。

第五步，对边缘像素点较少的区域，各个像素点的灰度值置0。

第六步，找出字符区域后，对字符区域进行分割从而划分出字符区域。

附图说明

图1多版块文本图像版面分析流程图；

图2多版块文本图像；

图3标记连通域分量后的图像。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和过程，但本发明的保护范围不限于下述的实施例。

对于光学字符识别中多版块文本图像，其中可能存在图像、表格、文本等多种信息。以图2为例，若将识别的文本图像中的所有连通区域视为一个完整的基本连通区域集合，版面分析的最终结果是将他们分成三类：图像区域类、表格区域类、文字区域类(包括横排和竖排文本)。显然将所有区域类一步到位地划分清楚，即使是针对简单版面而言也是是困难的。本发明首先利用形态学知识初步将所有区域类分开，然后逐步细分出各个区域类。具体步骤如下：

第二步，标记连通分量，处理结果如图3所示。

第四步，图形区域处理，这部分模块是和文本段的生成模块相配合的，进一步利用形态学知识处理图像，实现二分法中图像区域类的处理.。

第一步，二值化后，利用Canny算子进行边缘检测。

第三步，根据统计直方图，找出边缘像素点较多的区域。

Claims

1.对于光学字符识别中版块较为简单的文本图像，它并没有表格、插画等的干扰，其中只含有横排或竖排字符。在这种情况下，版面划分的主要目的是划分出横排或者竖排的文字。通过对文本图像的分析，大多数的文本段落的行间距的宽度都会小于文字行的宽度。从这方面着手，对于简单图像版面分析的具体步骤如下：

第一步，首先对文本图像进行一些必要的处理，去除噪声的干扰，为后续操作打下基础。

2.对于光学字符识别中多版块文本图像，其中可能存在图像、表格、文本等多种信息。将图像、表格、文本等可以理解成不同的版块区域类，而对于此类文本图像的版面分析就是将不同的区域类尽可能的分开，并检测出文本信息进行后续的字符分割。若将识别的文本图像中的所有连通区域视为一个完整的基本连通区域集合，版面分析的最终结果是将他们分成三类：图像区域类、表格区域类、文字区域类(包括横排和竖排文本)。显然将所有区域类一步到位地划分清楚，即使是针对简单版面而言也是是困难的。本发明首先利用形态学知识初步将所有区域类分开，然后逐步细分出各个区域类。在粗分各个区域类的过程中，有些区域类由于特征不明显而未作划分，有些区域类由于特征凸现而划分错误。因此，需对这两类情况做再次划分，从而确保划分结果的稳定性和正确性。

3.对于光学字符识别中复杂背景的文本图像，包含的字符较少且背景复杂，对后续的分割产生了极大的干扰。复杂背景区别与字符区域的不同之处就在于字符区域中字符之间存在的间隔是均匀的，字符和底色在灰度值上存在突变。因而，在复杂背景的文本图像的灰度上就会有一小块灰度密集震荡的区域。而字符本身与背景底色都有较均匀的灰度，所以在这个区域有着丰富的边缘存在。针对此类本文图像的特点，采取二值边缘化法进行版面分析，此算法的步骤如下：

第一步，二值化后，利用Canny算子进行边缘检测。

第三步，根据统计直方图，找出边缘像素点较多的区域。