CN110298350B

CN110298350B - 一种高效的印刷体维吾尔文单词分割算法

Info

Publication number: CN110298350B
Application number: CN201910526636.2A
Authority: CN
Inventors: 艾斯卡尔·艾木都拉; 伊力亚斯·苏来曼; 武文成; 霍留磊; 高亭
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2024-01-23
Anticipated expiration: 2039-06-18
Also published as: CN110298350A

Abstract

本发明公开了一种高效的印刷体维吾尔文单词分割算法，包括以下步骤：首先，将收集的印刷体维吾尔文本行进行基本的灰度化与二值化处理。之后计算出文本行图片中每个连体段之间最小间距。利用所计算出的间距定义卷积核，用定义好的卷积核进行膨胀处理。之后再用均值滤波器滤波让每个单词成为一个连体段。最后再进行二值化后利用垂直积分投影方法切分出每一个单词。实验结果证明了本算法的高效性与鲁棒性。

Description

一种高效的印刷体维吾尔文单词分割算法

技术领域

本发明属于光学字符识别技术领域，涉及一种高效的印刷体维吾尔文单词分割算法。

背景技术

光学字符识别(OCR)是涉及到图像和文字处理技术、自然语言处理、模糊数学、组合数学、信息沦、人工智能、模式识别等学科的一种新技术，是人工智能领域和模式识别的一个重要的研究方向。相对已经达到国际较先进水平的印刷体汉字、英文识别技术，印刷体维吾尔文文字识别技术还处于深入研究阶段。印刷体维吾尔文识别技术中，维吾尔文词语的准确切分起着至关重要的作用，好的切分效果可以大大提高最终的识别率。

现代维吾尔文是一种粘着性语言文字。由32个不同的字母组成，书写方向为从左到右。几乎每一个字母都有几种不同的书写形式。由于文本行中的每一个单词内也有许多不同的间隙，所以仅仅用传统的垂直积分投影方法是对印刷体维吾尔文本行中切分单词的效果是不理想的。

发明内容

本发明的目的在于提供一种高效的印刷体维吾尔文单词分割算法。该算法是一种改进的投影算法。从实验结果可以看出，本发明提出的算法可以适用于不同大小和不同风格字体的维吾尔文印刷体文本。

其具体技术方案为：

一种高效的印刷体维吾尔文单词分割算法，首先，将收集的印刷体维吾尔文本行进行基本的灰度化与二值化处理。之后计算出文本行图片中每个连体段之间最小间距。利用所计算出的间距定义卷积核，用定义好的卷积核进行膨胀处理。之后再用均值滤波器滤波让每个单词成为一个连体段。最后再进行二值化后利用垂直积分投影方法切分出每一个单词。

所述方法包括以下步骤：

步骤1、预处理

预图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性和最大限度地简化数据，从而改进特征抽取、图像分割、匹配和识别的可靠性。预处理操作在整个研究的过程中很重要。有了很好的预处理效果，后续工作才可以有效的进行。

1.1灰度化；

1.2二值化；

1.3膨胀；

1.4平滑；

步骤2、单词切分

首先我们将把原始的文本行图片进行灰度化与二值化。然后计算该二值图片的垂直积分投影。垂直积分投影为统计一个二值图片中每一列内黑色像素点的个数，最后生成一个向量H。

进一步，步骤1.1所述灰度化具体为：

将彩色图转化成为灰度图的过程称为图像的灰度化处理。彩色图像中的每个像素的颜色有R、G、B三个分量决定，如果R＝G＝B时，则彩色表示一种灰度颜色，其中R＝G＝B的值叫做灰度值，此图像便为灰度图像。本算法中采用加权法来获得灰度图像。

S＝0.2989×R+0.587×G+0.1140×B (1)

进一步，步骤1.2中，所述二值化具体为：

图像的二值化，就是将图像上的像素点的灰度值设置为0或1，也就是将整个图像呈现出明显的只有黑和白的视觉效果。对于纯文本图像来说图像的二值化是很重要的。可以分离文字与背景。在本算法中使用了二值化中的大津法。

在本算法中使用了两次二值化操作。第一次是为了计算文本行图片中最小间距。第二次是为了让单词连体段显示更加明显。

进一步，步骤1.3中，所述膨胀具体为：

膨胀操作是形态学中一种基本的操作。通过膨胀操作可以增粗图像中的纹理。膨胀操作对于本算法来说具有很重要的作用，通过膨胀操作可以增粗文本图片中文字的纹理。

在本算法中，每张文本图片相互对应的卷积核是根据图片中最小间距和文本图片中文本行的高度所动态变化的。所以可以适用于不同风格字体或不同大小字体的印刷体文本行。对于交大字体或文本行中连体段最小间距交大的文本行图片，卷积核也会随之变大。而对于字体大小较小的或者连体段最小间距较小的文本行图片，卷积也会定义为较小的卷积核。以下给出两种不同情况下算法得出的卷积核。

生成与文本行图片相对应的卷积核后，利用卷积核进行膨胀操作。

进一步，步骤1.4中，所述平滑具体为：

去噪对于任何类型的图像处理任务都很重要。由于二值化图像被膨胀噪声点也变得更大，这可能影响后续处理。滤波是把噪声消除或最小化的最常用的方式。随着滤波窗口的变大，滤波的结果会变得更加模糊。这意味着必须合理选择滤波窗口的尺寸；否则，滤波器会将图片中的重要信息也会随之过滤。在本算法中，我们使用均值滤波。均值滤波是一种简单，直观且易于实现的平滑图像的方法，即减少一个像素与下一个像素之间的强度变化量。

对于图像中的每个像素，滤波器将计算相应窗口的平均值，并将原始值替换为计算出的值。在本算法中使用了均值滤波以在计算图像的垂直投影时得到更加平滑的投影结果，以及去除离散噪声点。

进一步，步骤2中，具体为：

垂直积分投影的计算公式如下所示：

之后通过向量H计算出文本行中连体段之间的最大间距d_max和最小间距d_min以供卷积核的构建。首先利用最大间距创建大小为d_max×d_max的窗口。在窗口的第一行第列上画出长度为d_max-2的一条直线，在窗口的第/>行第/>列画出长度为/>的一条直线。之后利用此卷积核对二值图片进行膨胀处理。

最后利用均值滤波器对已经膨胀的图片进行平滑处理。滤波窗口的大小根据每个文本行的高度大小决定，以下为决定滤波窗口大小的公式：

其中window为滤波窗口大小height_row为文本行的高度。

在最后，将已经平滑好的图片进行二值处理，再按照公式(5)计算该二值图片的垂直积分投影H′。最后设定一个全局阈值T进行单词的切分，当水平积分投影中的第i个值H(i)大于阈值时记录为一个单词的起点；之后，如果H(i)小于阈值时，则视为一个单词的终点。从而将文本行图片中的单词切分出来。

此算法对于文本行中连通域的间距敏感，所以当文本行中出现不规律的词内与词外间距时，聚类的结果将不会准确。则会影响后续的切分结果。并且在含有标点符号的文本行中，也出现了不能将与单词与标点符号分开切分。但是本算法提出的算法对连通域敏感，所以经过平滑之后每个单词都将会成为一个单独的连体段，从而提高了切分的效率。

与现有技术相比，本发明的有益效果：

通过试验结果可以看出，本发明提出的算法比基于聚类的方法性能更好。在不同风格的字体和不同大小字体的印刷体文本行中也可以进行有效的切分。

附图说明

图1为卷积核示例，(a).卷积核1，(b).卷积核2；

图2为生成卷积核的两个样本，(a).样本1，(b).样本2；

图3为膨胀结果，(a).样本1的膨胀结果，(b).样本2的膨胀结果；

图4为平滑结果，(a).样本1的滤波结果，(b).样本2的滤波结果；

图5为示例样本，(a).示例样本1，(b).示例样本1；

图6为样本1的投影与切分结果，(a).垂直积分投影，(b).切分结果；

图7为样本2的投影与切分结果，(a).进行预处理后的垂直投影，(b).切分结果；

图8为不同字体的切分结果；

图9为带有标点符号的文本行图片的单词切分；

图10为两种算法的结果对比，(a).基于聚类的切分算法，(b).本发明提出的算法，(c).基于聚类的切分算法，(d).本发明提出的算法；

图11为本发明算法流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步详细地说明。

参照图11，首先，将收集的印刷体维吾尔文本行进行基本的灰度化与二值化处理。之后计算出文本行图片中每个连体段之间最小间距。利用所计算出的间距定义卷积核，用定义好的卷积核进行膨胀处理。之后再用均值滤波器滤波让每个单词成为一个连体段。最后再进行二值化后利用垂直积分投影方法切分出每一个单词。

1预处理

1.1灰度化

S＝0.2989×R+0.587×G+0.1140×B (1)

1.2二值化

膨胀

图2为生成上述不同卷积核所使用的印刷体文本图片。

生成与文本行图片相对应的卷积核后，利用卷积核进行膨胀操作。图3为膨胀后的图片。

1.3平滑

此外，本算法使用滤波的另一个目的是将文本行中的每一个有间隙的单词整体化，这样对于之后的切分工作有了决定性的帮助。图4列出滤波后的效果图。

从平滑结果可以看出每个单词在图片中的表达更加明显。这使得之后的切分工作变得更加容易。

2.单词切分

首先我们将把原始的文本行图片进行灰度化与二值化。然后计算该二值图片的垂直积分投影。垂直积分投影为统计一个二值图片中每一列内黑色像素点的个数，最后生成一个向量H。垂直积分投影的计算公式如下所示：

之后通过向量H计算出文本行中连体段之间的最大间距d_max和最小间距d_min以供卷积核的构建。首先利用最大间距创建大小为d_max×d_max的窗口。在窗口的第一行第d_max/2列上画出长度为d_max-2的一条直线，在窗口的第d_max/2行第d_max/2-d_min/2列画出长度为d_max/2+d_min/2的一条直线。之后利用此卷积核对二值图片进行膨胀处理。

其中window为滤波窗口大小〖height〗_row为文本行的高度。

在最后，将已经平滑好的图片进行二值处理，再按照公式(5)计算该二值图片的垂直积分投影H^'。最后设定一个全局阈值根据阈值进行单词的切分。

3.实验

3.1数据库

本算法中所使用的图片都是从网络上的文本截图。在数据库中包含10种不同风格字体的印刷体文本行图片。本算法行图片中字体的大小也参差不齐，数据库中总共包含13个文本行图片，其中总共有133个单词。其中，只有一个文本行图片中包含标点符号。如图5所示为两种不同风格书写的文本行图片。

3.2结果分析

为了验证本算法的切分效果本算法在之前介绍的数据库中进行了切分试验。分别在12张不同风格和不同大小字体的印刷体文本行和1张带有标点符号的文本行图片进行了两次试验。对于不带有标点符号的文本行来说，切分结果为100％。然而，对于带有标点符号的图片来说，提出的算法将会标点符号视为单词的一部分进行切分。

在本算法中使用的单词切分算法为垂直积分投影算法。但是直接将没有进行任何处理的二值文本行图片利用该算法切分时会有过切分或漏切分问题。因为在原始的二值图片中直接计算垂直投影不易于定义一个全局的阈值去切分单词，垂直积分投影与没有做处理的切分结果如下图6所示。

所以我们经过上述预处理操作可以得到最优的平滑垂直积分投影图。经过计算已经进行过预处理的图片的垂直积分投影后，可以利用每个单词之间的间距进行切分。如下图7所示。

数据库中不同字体的文本行对本算法中的算法没有影响，图8显示其中的一个样本的切分结果。

对于有标点符号的文本行图片来说，由于在膨胀时任何黑色像素点都会被膨胀，所以标点符号也在其中被膨胀。被膨胀的标点符号用滤波器进行平滑时可能会出现与单词粘连的情况。所以标点符号的出现对本算法的算法有较大的影响。如下展示带有标点符号的文本行图片单词切分结果。

在对比实验中本算法与基于K-means聚类的印刷体单词切分算法进行了比较。此算法的基本思想为将于单词内的间距于单词之间的间距进行聚类。由于此算法对于文本行中连通域的间距敏感，所以当文本行中出现不规律的词内与词外间距时，聚类的结果将不会准确。则会影响后续的切分结果。并且在含有标点符号的文本行中，也出现了不能将与单词与标点符号分开切分。但是本算法提出的算法对连通域敏感，所以经过平滑之后每个单词都将会成为一个单独的连体段，从而提高了切分的效率。以下展示两种算法的切分结果。

以上所述，仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

Claims

1.一种高效的印刷体维吾尔文单词分割算法，其特征在于，包括以下步骤：

步骤1、预处理，预处理的目的是消除印刷体维吾尔文的文本行图片中无关的信息，恢复有用的真实信息，增强有关信息的可检测性和最大限度地简化数据，从而改进特征抽取、图像分割；预处理的步骤包含灰度化、二值化、膨胀、平滑操作；具体包括：

首先，将原始的文本行图片进行灰度化与第一次二值化，然后计算第一次二值化得到的二值图片的垂直积分投影，垂直积分投影为统计一个二值图片中每一列内黑色像素点的个数，最后生成一个向量H；

垂直积分投影的计算公式如下所示：

之后，通过向量H计算出原始的文本行图片中连体段之间的最大间距d_max和最小间距d_min以供卷积核的构建；首先利用最大间距创建大小为d_max×d_max的窗口；在窗口的第一行第列上画出长度为d_max-2的一条垂直方向直线，在窗口的第/>行第/>列画出长度为/>的一条水平方向直线；之后利用此卷积核对第一次二值化处理的图片进行膨胀处理；

最后利用均值滤波器对已经膨胀的图片进行平滑处理；滤波窗口的大小根据每个文本行的高度大小决定，以下为决定滤波窗口大小的公式：

其中window为滤波窗口大小，height_row为文本行的高度；

在最后，将已经平滑好的图片进行第二次二值化处理，得到第二次二值化处理的二值图片；

步骤2、利用垂直积分投影对经过预处理的文本行图片进行分割，具体包括：按照公式(5)计算第二次二值化处理的二值图片的垂直积分投影；最后设定一个全局阈值T进行单词的切分，当计算出的垂直积分投影中的第i个值H(i)大于全局阈值T时记录为一个单词的起点；之后，如果H(i)小于全局阈值T时，则视为一个单词的终点；从而将原始的文本行图片中的单词切分出来。