CN113780293A

CN113780293A - 界面文字识别方法

Info

Publication number: CN113780293A
Application number: CN202111019211.6A
Authority: CN
Inventors: 王彦瑞; 葛志元
Original assignee: Dexun Innovation Beijing Technology Co Ltd
Current assignee: Dexun Innovation Beijing Technology Co Ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-12-10

Abstract

本发明公开了一种界面文字识别方法，涉及文字识别技术领域，包括获取图像；对所述图像进行预处理，得到待识别图像；对所述待识别图像进行版面分析，根据属性将所述待识别图像分割为不同部分，并标定各部分的属性；对标定为文字的图像部分进行图像切分，以切分出独立的个体文字；对所述个体文字进行特征提取，并将提取到的特征与已有特征库内中的特征进行比对，确定相似度最高的特征所对应的文字，并作为识别文字。本发明不仅使文字识别的准确度更高，而且可适用于较为复杂的图文场景的文字识别，同时，可根据版面信息进行重构，便于后续的处理。

Description

界面文字识别方法

技术领域

本发明涉及文字识别技术领域，特别是涉及一种界面文字识别方法。

背景技术

随着图像技术的发展和市场需求的逐渐扩大，图像文字识别技术逐渐成熟。光学字符识别（Optical Character Recognition，OCR）就是图像文字识别技术中的一种，是电子设备（如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

在一些简单环境下（如电子文档），OCR的准确度已经比较高了，但是在一些较为复杂环境下的字符识别，识别准确率仍较低。传统的OCR方法在应对复杂图文场景的文字识别显得力不从心。

发明内容

本发明所要解决的技术问题是，克服现有技术的缺点，提供一种界面文字识别方法。

为了解决以上技术问题，本发明的技术方案如下：

一种界面文字识别方法，包括，

获取图像；

对所述图像进行预处理，得到待识别图像；

对所述待识别图像进行版面分析，根据属性将所述待识别图像分割为不同部分，并标定各部分的属性；

对标定为文字的图像部分进行图像切分，以切分出独立的个体文字；

对所述个体文字进行特征提取，并将提取到的特征与已有特征库内中的特征进行比对，确定相似度最高的特征所对应的文字，并作为识别文字。

作为本发明所述界面文字识别方法的一种优选方案，其中：所述预处理依次包括灰度化、二值化、倾斜检测与校正以及图像平滑。

作为本发明所述界面文字识别方法的一种优选方案，其中：所述倾斜检测与校正包括，

将所述图像的前景像素映射到极坐标空间，通过统计极坐标空间各点的累加值得到图像的倾斜角度，然后根据倾斜角度对图像进行校正。

作为本发明所述界面文字识别方法的一种优选方案，其中：所述图像平滑包括，

采用N*N的窗口，所述N为奇数，依次在二值化后的二值点阵中进行扫描，根据窗口中黑白像素的分布情况，使处于窗口中心的被平滑像素X，从“0”变成“1”或从“1”变成“0”。

作为本发明所述界面文字识别方法的一种优选方案，其中：对所述待识别图像进行版面分析，包括，

在待识别图像经过二值化后得到的二值矩阵中任选一像素点，在包围该像素点的所有像素点中，将与该像素点具有相同像素值的像素点与该像素点连通，使具有相同像素值且位置相邻的像素点形成连通域，之后根据连通域大小或分像素点分布特征将连通域的属性进行标记。

作为本发明所述界面文字识别方法的一种优选方案，其中：在对所述待识别图像进行版面分析，根据属性将所述待识别图像分割为不同部分，并标定各部分的属性之后，还包括，

获取各个连通域的逻辑属性以及位置信息，确定各个连通域的归属序列，得到版面信息。

作为本发明所述界面文字识别方法的一种优选方案，其中：所述对标定为文字的图像部分进行图像切分，以切分出独立的个体文字包括，

采用投影法对标定为文字的图像部分进行列切分或行切分；

对列切分或行切分得到的一列文字或一行文字进行字切分，以切分出独立的个体文字。

作为本发明所述界面文字识别方法的一种优选方案，其中：在对所述个体文字进行特征提取，并将提取到的特征与已有特征库内中的特征进行比对，确定相似度最高的特征所对应的文字，并作为识别文字之后，还包括，

根据各个连通域的归属序列，将所有识别文字进行排列，重构出包含文字信息和版面信息的电子文档。

本发明的有益效果是：

本发明通过对图像进行预处理，有效解决文字图像中的图像倾斜、文字毛糙以及不规范等问题，之后对文字图像进行版面分析，通过连通域分析法将图像分割为不同部分，进行标定，并得到版面信息，然后对文字部分进行切分，通过对单个文字的特征获取和比对识别出文字内容后再根据版面信息进行重构，得到包含文字信息和版面信息的电子文档，不仅使文字识别的准确度更高，而且可适用于较为复杂的图文场景的文字识别，同时，可根据版面信息进行重构，便于后续的处理。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明提供的界面文字识别方法的流程示意图；

图2为图像预处理中图像平滑采用的窗口示意图；

图3为图像预处理中图像平滑所采用的规则一的示意图；

图4为图像预处理中图像平滑所采用的规则二的示意图；

图5为图像预处理中位置规范化的效果示意图；

图6为图像预处理中大小规范化的效果示意图；

图7为图像切分的效果示意图。

具体实施方式

为使本发明的内容更容易被清楚地理解，下面根据具体实施方式并结合附图，对本发明作出进一步详细的说明。

参见图1，为本实施例提供的一种界面文字识别方法的流程示意图，具体包括步骤S101~S105，具体步骤说明如下：

步骤S101：获取图像。

具体的，通过电子设备，如扫描仪或数码相机，扫描或拍摄待识别的图片，得到图像。

步骤S102：对获取到的图像进行预处理，得到待识别的图像。

具体的，对图像的预处理依次包括灰度化、二值化、倾斜检测与校正、图像平滑和规范化。

a、灰度化：通过电子设备采集到的图像通常为彩色图像，彩色图像会夹杂一些干扰信息，灰度化处理的主要目的就是滤除这些信息。灰度化的实质其实就是将原本由三维描述的像素点，映射为一维描述的像素点。灰度化的转换方式、工具和规则有很多，在此不详细介绍，只需能够实现灰度化即可。

b、二值化：经过灰度处理的彩色图像还需要经过二值化处理，将文字与背景进一步分离。所谓二值化，就是将灰度值（或彩色值）图像信号转化成只有黑（1）和白（0）的二值图像信号。二值化效果的好坏，会直接影响灰度文本图像的识别率。二值化方法大致可分为局部阈值二值化和整体阈值二值化。

c、倾斜检测与校正：以印刷体文本资料为例，印刷体文本资料大多是由平行于页面边缘的水平（或垂直）的文本行（或者列）组成的，即倾斜角度为零度。然后在文本扫描过程中，不论是手工扫描还是机器扫描，都不可避免地会出现图像倾斜现象。而倾斜的图像对后期的字符分割、识别和图像压缩等工作将产生很大影响。为保证后续处理的正确性，对图像进行倾斜检测和校正是十分必要的。文本图像的校正分为手动校正和自动校正两种。手动校正是指识别系统提供某种人机交互手段，实现文本图像的倾斜校正。而自动校正是指由计算机自动分析文本图像的版面特征，得到图像的倾斜角度，并根据倾斜角度对文本图像进行校正。在本实施例中，文本图像的倾斜检测方法采用的是基于Houhg变换的方法，是利用Hough变换的特性，将图像中的前景像素映射到极坐标空间，通过统计极坐标空间各点的累加值得到文本图像的倾斜角度。

需要说明的是，文本图像的倾斜检测也可采用其他方法，如较为简单的基于投影图的方法，将文本图像沿不同方向进行投影，当投影方向与文字方向一致时，文字行在投影图上的峰值最大，并且投影图存在明显的峰谷，此时的投影方向就是倾斜角度。还可采用基于Pourier变换的方法，即利用页面倾角对应于使Fourier空间密度最大的方向角的特性，将文本图像的所有像素点进行Fourier变换。另外，还可采用基于最近邻聚类方法，取文本图像的某个子区域中字符连通域的中心点作为特征点，利用基线上的点的连续性，计算出对应的文本行的方向角，从而得到整个页面的倾斜角。

d、图像平滑：文本图像在经过平滑处理之后，能够去掉笔画上的孤立白点和笔画外部的孤立黑点，以及笔画边缘的凹凸点，使笔画边缘变得平滑。本实施例中采用的图像平滑方法为：采用N*N的窗口，N为奇数，在本实施例中N为3，如图2所示，是一个3*3的窗口，该窗口依次在二值化后的二值点阵中进行扫描，根据窗口中黑白像素的分布情况，使处于窗口中心的被平滑像素X，从“0”变成“1”或从“1”变成“0”。该方法是按以下规则对文字轮廓边缘进行平滑的：

规则一：如果满足图3中(a)，(b)，(c)，(d)四种情况中的任何一种，则中心点应该由“0”变成“l”。

规则二：如果满足图4中(a)，(b)，(c)，(d)四种情况中的任何一种，则中心点应该由“1”变成“0”。

e、规范化：规范化操作是为了将文字与已经预先储存在数据库中的参考模板相匹配。规范化具体包括位置规范化和大小规范化。

为消除文字点阵位置上的偏差，需要把整个文字点阵图移动到规定的位置上，这个过程被称为位置规范化。在本实施例中，位置规范化操作是基于文字外边框的位置规范化。基于文字外边框的位置规范化需先计算文字的外边框，并找出中心，然后将文字中心移动到指定的位置上。具体效果参见图5。

对不同大小的文字做变换，使之成为同一尺寸大小，这个过程被称为大小规范化。本实施例采用的大小规范化操作是根据水平和垂直两个方向上文字黑像素的分布情况进行大小规范化。具体效果参见图6。

步骤S103：对待识别图像进行版面分析，根据属性将待识别图像分割为不同部分，并标定各部分的属性。

具体的，将文本图像分割为不同部分，并标定各部分的属性，如文本、图像、表格等。进行版面分析基于连通域分析法。连通域是指将图像经过二值化后转为的二值矩阵中任选一个像素点，若包围其的所有像素点中存在相同像素值的像素点则视为两点连通，以此类推，使具有相同像素值且位置相邻的像素点形成连通域。根据连通域大小或像素点分布特征可以将连通域的属性标记出来，用作进一步处理的依据。

在完成版面分析之后，获取各个连通域的逻辑属性、位置信息、文本的层次关系和阅读顺序，确定各个连通域的归属序列，从而获取得到版面信息。

步骤S104：对标定为文字的图像部分进行图像切分，以切分出独立的个体文字。

具体的，对图像切分分为两个步骤类别，行列切分和字切分。经过切分处理后，才方便对单个文字进行识别处理。具体效果参见图7。

a、行列切分：以印刷体文字图像为例，由于印刷体文字图像行列间距、字间距大致相等，且几乎不存在粘连现象，因此可采用投影法对图像进行切分，得到每列（行）在坐标轴的像素值投影曲线是一个不平滑的曲线，通过高斯平滑后的曲线在每个波谷位置间的区域即为要的一行（列）。

b、字切分：字切分是指将整行或整列文字切分为独立的一个个文字。

步骤S105：对个体文字进行特征提取，并将提取到的特征与已有特征库内中的特征进行比对，确定相似度最高的特征所对应的文字，并作为识别文字。

具体的，特征提取是从单个字符图像上提取统计特征或结构特征的过程。对于统计特征的提取，可利用统计模式识别中的特征提取方法，而对结构特征的提取，应根据具体文字所确定的识别基元，确定相应的特征提取方法。具体包括边缘特征、变换特征、穿透特征、网格特征、特征点特征、方向线素特征等等。

特征匹配则是从已有的特征库中找到与待识别文字相似度最高的文字的过程。当待识别文字提取完特征之后，不管使用的是统计特征，还是结构特征，都需要一个特征库来进行比对。特征库中包含欲识别字符集中所有文字的特征。特征匹配的方法很多，如欧式空间的比对法、松弛比对法、动态程序比对法等等。

在对所有文字进行识别之后，根据各个连通域的归属序列以及获取到的版面信息，将所有识别文字进行排列，重构出包含文字信息和版面信息的电子文档。其中，版面信息具体是原图像的版本布局。

由此，本发明不仅使文字识别的准确度更高，而且可适用于较为复杂的图文场景的文字识别，同时，可根据版面信息进行重构，便于后续的处理。

除上述实施例外，本发明还可以有其他实施方式；凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种界面文字识别方法，其特征在于：包括，

获取图像；

对所述图像进行预处理，得到待识别图像；

2.根据权利要求1所述的界面文字识别方法，其特征在于：所述预处理依次包括灰度化、二值化、倾斜检测与校正以及图像平滑。

3.根据权利要求2所述的界面文字识别方法，其特征在于：所述倾斜检测与校正包括，

4.根据权利要求2所述的界面文字识别方法，其特征在于：所述图像平滑包括，

5.根据权利要求1所述的界面文字识别方法，其特征在于：对所述待识别图像进行版面分析，包括，

6.根据权利要求5所述的界面文字识别方法，其特征在于：在对所述待识别图像进行版面分析，根据属性将所述待识别图像分割为不同部分，并标定各部分的属性之后，还包括，

7.根据权利要求1所述的界面文字识别方法，其特征在于：所述对标定为文字的图像部分进行图像切分，以切分出独立的个体文字包括，

采用投影法对标定为文字的图像部分进行列切分或行切分；

8.根据权利要求6所述的界面文字识别方法，其特征在于：在对所述个体文字进行特征提取，并将提取到的特征与已有特征库内中的特征进行比对，确定相似度最高的特征所对应的文字，并作为识别文字之后，还包括，