CN106372639A

CN106372639A - 基于形态学与积分投影的印刷体维吾尔文文档切分方法

Info

Publication number: CN106372639A
Application number: CN201610693442.8A
Authority: CN
Inventors: 卢朝阳; 王小弟; 李静; 郎潇; 艾合买提·阿卜力皮孜
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2017-02-01
Anticipated expiration: 2036-08-19
Also published as: CN106372639B

Abstract

本发明公开了一种基于形态学与积分投影的印刷体维吾尔文文档切分方法，主要解决现有切分方法中，获取行文档图像时灵活性限制问题，获取单字符图像时这种字符的漏切分问题。其步骤为：(1)输入一幅二值图像；(2)获取行文档图像；(2)获取子单词图像；(4)获取连体段图像；(5)获得只有主体笔画部分的连体段图像；(6)确定只有主体笔画部分连体段图像的基线域；(7)获取单字符图像。本发明相对于现有的印刷体维吾尔文文档切分方法，获取行文档图像时不设置阈值而更灵活，避免了这种字符的漏切分问题，可以提高印刷体维吾尔文文档切分准确率。

Description

基于形态学与积分投影的印刷体维吾尔文文档切分方法

技术领域

本发明属于光学字符别中的字符切分领域，更进一步涉及光学字符别中字符切分领域中的一种基于形态学与积分投影的印刷体维吾尔文文档切分方法。本发明可用于将通过扫描仪扫描后的纸质维吾尔文文档图像，切分成单个维吾尔文字符图像，为基于切分的印刷体维吾尔文文档识别做前提工作。

背景技术

目前，普遍采用基于切分的印刷体维吾尔文文档识别。因此，从维吾尔文文档图像中准确地切分出维吾尔文字符是印刷体维吾尔文文档识别的前提和基础。但是，由于维吾尔文借用的是阿拉伯文和波斯字母连写的书写形式，属于粘连型拼音文字，形态类似我们中国的草书，其切分极其困难。

李晓等人在其发表的论文“基于像素积分投影的切分方法”(计算机技术与发展[J]，2012，22:41-44)中提出了一种基于像素积分投影的印刷体维吾尔文文档图像切分方法。该方法的实现步骤是：步骤1，输入预处理后的印刷体维吾尔文文档图像；步骤2，通过计算印刷体维吾尔文文档图像的水平投影从整篇印刷体维吾尔文文档图像切分出每个行文档图像；步骤3，通过计算行文档图像的垂直投影切分出单个维吾尔文单词图像；步骤4，再一次利用垂直投影法从维吾尔文单词中切分出单字符图像。该方法虽然能将整篇维吾尔文文档图像中的行文档图像切分出来，但是该方法仍然存在的不足之处是：该方法在行切分步骤中设定了阈值用于区分是行间距还是行内间距，使得该方法的灵活性受到了限制；在字符切分时，存在一些过切分和漏切分问题，会将形如这样的字符过切分，将形如这样的上下覆盖的字符切分时漏切分。

李亚男等人在其发表的论文“一种改进的印刷体维吾尔文投影切分方法”(大连民族学院学报，2014,03:315-318)中提出了一种基于像素积分投影法和连通域搜索法的印刷体维吾尔文文档图像切分方法。该方法的实现步骤是：步骤1，输入预处理后的印刷体维吾尔文文档图像；步骤2，通过计算印刷体维吾尔文文档图像的水平投影从整篇印刷体维吾尔文文档图像切分出每个行文档图像；步骤3，通过连通域标定法实现独立字符或者连体段的切分；步骤4，提取连体段基线以上部分垂直投影从连体段中切分出单字符图像。该方法虽然可以避免存在上下覆盖时的漏切分，但是该方法仍然存在的不足之处是：也会对形如这种字符造成漏切分问题。

发明内容

本发明的目的在于克服上述已有技术的不足，提出了一种基于形态学与积分投影的印刷体维吾尔文文档切分方法,克服了直接采用水平投影分析法获取行文档图像时灵活性限制的缺点，避免了将这种字符漏切分的问题，可以提高印刷体维吾尔文文档切分的准确率。

本发明实现上述目的的思路是：首先，输入待切分的印刷体维吾尔文文档图像，采用形态学膨胀对输入的图像进行膨胀处理，得到一幅膨胀图像，对膨胀图像连通域分析，得到行文档图像；其次，通过连通域分析行文档图像，得到子单词图像；然后，通过计算子单词图像的纵横比将子单词图像分类为独立字符图像和连体段图像；最后，针对连体段图像，采用连通域分析法消除附加笔画，确定只有主体笔画的连体段图像的基线域，将只有主体笔画的连体段图像的基线域以及基线域下边界以下的四分之三置白后再垂直投影寻找切分点，得到单字符图像。

为了实现上述目的，本发明的具体实现步骤如下：

(1)输入二值图像：

输入一幅无噪声非倾斜且其宽度与高度为2362×3327的印刷体维吾尔文文档二值图像；

(2)获取行文档图像：

(2a)利用形态学膨胀算法，对输入的二值图像进行膨胀处理，得到印刷体维吾尔文文档图像中属于同一文档行的字符相互重叠在一起的一幅膨胀图像；

(2b)采用四邻域种子填充连通域算法，提取膨胀图像的每个连通域；

(2c)用每个连通域外接矩形的上边作为每幅行文档图像的上边界，下边作为每幅行文档图像的下边界，得到与每个连通域对应的多幅行文档图像；

(3)获取子单词图像：

(3a)从多幅行文档图像中选取任意一幅行文档图像；

(3b)采用四邻域种子填充连通域算法，依次提取所选取的行文档图像中所有的连通域；

(3c)从所选取的行文档图像中所有的连通域中选取任意一个连通域，并搜索与所选连通域相邻的最近连通域；

(3d)判断最近连通域是否在所选连通域的关联位置，若是，则执行步骤(3e)，否则，执行步骤(3f)；

(3e)将所选连通域和最近连通域，分别作为印刷体维吾尔文中同一个子单词图像的主体笔画部分和附加笔画部分；

(3f)将最近连通域单独作为印刷体维吾尔文中的一个子单词图像；

(3g)判断所选取的行文档图像中所有的连通域是否选取完，若是，则执行步骤(3h)，否则，执行步骤(3c)；

(3h)得到所选取行文档图像的所有子单词图像；

(3i)判断多幅行文档图像中的每一幅行文档图像是否选取完，若是，则执行步骤(3g)，否则，执行步骤(3a)；

(3g)得到多幅行文档图像中的所有子单词图像；

(4)获取连体段图像：

(4a)从多幅行文档图像中的所有子单词图像中任意选取一幅子单词图像；

(4b)按照下式，计算所选子单词图像的纵横比：

r a t i o n = \frac{w}{h}

其中，ration表示所选子单词图像的纵横比，w表示所选子单词图像的宽，h表示所选子单词图像的高；

(4c)设定一个阈值T，T＝0.72；

(4d)判断所选子单词图像的纵横比是否大于等于阈值T，若是，则执行步骤(4e),否则，执行步骤(4f)；

(4e)将所选子单词图像作为连体段图像；

(4f)将所选子单词图像作为独立字符图像；

(4g)判断多幅行文档图像中的所有子单词图像是否都选取完，若是，则执行步骤(4h)，否则，执行步骤(4a)；

(4h)得到多幅行文档图像中的所有连体段图像；

(5)获取只有主体笔画部分的连体段图像：

(5a)从多幅行文档图像中的所有连体段图像中任意选取一幅连体段图像；

(5b)消除所选取连体段图像的附加笔画部分，得到只有主体笔画部分的连体段图像；

(5c)判断多幅行文档图像中的所有连体段像是否都选取完，若是，则执行步骤(5d)，否则，执行步骤(5a)；

(5d)得到多幅行文档图像中的所有连体段图像中，只有主体笔画部分的连体段图像；

(6)确定只有主体笔画部分连体段图像的基线域：

(6a)从多幅行文档图像中的所有只有主体笔画部分连体段图像中，选取任意一幅只有主体笔画部分的连体段图像；

(6b)提取所选取只有主体笔画部分连体段图像的轮廓，得到所选取的只有主体笔画部分连体段图像的轮廓图像；

(6c)按照下式，计算所选取的只有主体笔画部分连体段图像的轮廓图像中每一行对应的水平积分投影：

H (i) = Σ_{j = 0}^{b - 1} h (i, j)

其中，H(i)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行的水平积分投影，i＝0,1,...,a，a表示所选取的只有主体笔画部分连体段图像的轮廓图像的总行数，b表示所选取的只有主体笔画部分连体段图像的轮廓图像的总列数，∑表示求和操作，j表示所选取的只有主体笔画部分连体段图像的轮廓图像中的第j列，j＝0,1,...b，h(i,j)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行第j列的像素值；

(6d)将水平积分投影H(i)最大时对应的行，作为所选取的只有主体笔画部分连体段图像基线域的上边界b_start，将水平积分投影H(i)次大时对应的行，作为所选取的只有主体笔画部分连体段图像基线域的下边界b_end；

(6e)按照下式，计算所选取的只有主体笔画部分连体段图像的基线域高度：

l＝b_end-b_start

其中，l表示所选取的只有主体笔画部分连体段图像的基线域高度，b_start表示所选取的只有主体笔画部分连体段图像基线域的上边界，b_end表示所选取的只有主体笔画部分连体段图像基线域的下边界；

(6e)判断所有的只有主体笔画部分连体段图像是否都选取完，若是，则执行步骤(6f)，否则，执行步骤(6a)；

(6f)得到所有的只有主体笔画部分连体段图像的基线域的高度；

(7)获取单字符图像：

(7a)从所有的只有主体笔画部分连体段图像中，任意选取一幅只有主体笔画部分连体段图像；

(7b)分别将所选取的只有主体笔画部分连体段图像的基线域、基线域下边界b_end以下连续的四分之三部分置白；

(7c)利用垂直积分投影公式，计算置白后图像中每一列对应的垂直积分投影；

(7d)从置白后图像中寻找满足下式的所有的列，作为切分线：

V(q-1)≠0

V(q)＝0

其中，V(q-1)表示置白后图像中第q-1列的垂直积分投影，V(q)表示置白后图像中第q列的垂直积分投影；

(7e)将两个相邻的切分线之间的图像作为单字符图像，保存到计算机中；

(7f)判断所有的只有主体笔画部分连体段图像是否都选取完，若是，则执行步骤(7g)，否则，执行步骤(7a)；

(7g)得到多幅行文档图像中的中的所有单字符图像。

与现有技术相比，本发明具有以下优点：

第一，由于本发明在获取行文档图像时，利用形态学膨胀算法，使印刷体维吾尔文文档图像中属于同一文档行的字符相互重叠在一起，克服了现有技术从印刷体维吾尔文文档图像中获取行文档图像时灵活性限制的缺点，使得本发明在行文档图像获取时更灵活，使用范围更广泛。

第二，由于本发明在获取单个字符图像时，将只有主体笔画的连体段图像的基线域以及基线域下边界以下连续的四分之三置白，克服了现有技术从连体段图像中获取单个字符图像时对这种字符的漏切分问题，使得本发明可以提高印刷体维吾尔文文档切分准确率。

附图说明

图1为本发明的流程图；

图2为本发明的仿真图。

具体实施方式

下面结合附图对本发明作进一步的描述。

参照附图1，对本发明的具体步骤作进一步的描述。

步骤1，输入二值图像。

输入一幅无噪声非倾斜且其宽度与高度为2362×3327的印刷体维吾尔文文档二值图像。

步骤2，获取行文档图像。

利用形态学膨胀算法，对输入的二值图像进行膨胀处理，得到印刷体维吾尔文文档图像中属于同一文档行的字符相互重叠在一起的一幅膨胀图像。

采用四邻域种子填充连通域算法，提取膨胀图像的每个连通域。

用每个连通域外接矩形的上边作为每幅行文档图像的上边界，下边作为每幅行文档图像的下边界，得到与每个连通域对应的多幅行文档图像。

步骤3，获取子单词图像。

从多幅行文档图像中选取任意一幅行文档图像。

采用四邻域种子填充连通域算法，依次提取所选取的行文档图像中所有的连通域。

从所选取的行文档图像中所有的连通域中选取任意一个连通域，并搜索与所选连通域相邻的最近连通域。

判断最近连通域是否在所选连通域的关联位置，若是，将所选连通域和最近连通域，分别作为印刷体维吾尔文中同一个子单词图像的主体笔画部分和附加笔画部分，否则，将最近连通域单独作为印刷体维吾尔文中的一个子单词图像。

所述的关联位置是指，最近连通域的位置在所选连通域的左上方、正上方、右上方、左下方、正下方、右下方，所选连通域相邻最近的连通域在所选连通域的内部中的任意一种情形。

判断所选取的行文档图像中所有的连通域是否选取完，若是，则得到所选取行文档图像的所有子单词图像，否则，从所选取的行文档图像中所有的连通域中选取任意一个连通域，并搜索与所选连通域相邻的最近连通域。

判断多幅行文档图像中的每一幅行文档图像是否选取完，若是，得到多幅行文档图像中的所有子单词图像，否则，从多幅行文档图像中选取任意一幅行文档图像。

步骤4，获取连体段图像。

从多幅行文档图像中的所有子单词图像中任意选取一幅子单词图像。

按照下式，计算所选子单词图像的纵横比：

r a t i o n = \frac{w}{h}

其中，ration表示所选子单词图像的纵横比，w表示所选子单词图像的宽，h表示所选子单词图像的高。

设定一个阈值T，T＝0.72。

判断所选子单词图像的纵横比是否大于等于阈值T，若是，则将所选子单词图像作为连体段图像,否则，将所选子单词图像作为独立字符图像。

判断多幅行文档图像中的所有子单词图像是否都选取完，若是，则得到多幅行文档图像中的所有连体段图像，否则，从多幅行文档图像中的所有子单词图像中任意选取一幅子单词图像。

步骤5，获取只有主体笔画部分的连体段图像。

从多幅行文档图像中的所有连体段图像中任意选取一幅连体段图像。

消除所选取连体段图像的附加笔画部分，得到只有主体笔画部分的连体段图像。

所述的消除所选取连体段图像的附加笔画部分的具体步骤如下：

第1步，采用四邻域种子填充连通域算法，提取所选取连体段图像的每个连通域；

第2步，统计每个连通域中的像素总数；

第3步，设置一个阈值area，area＝600；

第4步，判断每个连通域中的像素总数是否大于阈值area，若是，则执行第5步，否则，执行第6步；

第5步，将该连通域的每个像素的像素值赋值为0；

第6步，将该连通域的每个像素的像素值赋值为1。

判断多幅行文档图像中的所有连体段像是否都选取完，若是，则得到多幅行文档图像中的所有连体段图像中，只有主体笔画部分的连体段图像，否则，从多幅行文档图像中的所有连体段图像中任意选取一幅连体段图像。

步骤6，确定只有主体笔画部分连体段图像的基线域。

从多幅行文档图像中的所有只有主体笔画部分连体段图像中，选取任意一幅只有主体笔画部分的连体段图像。

提取所选取只有主体笔画部分连体段图像的轮廓，得到所选取的只有主体笔画部分连体段图像的轮廓图像。

按照下式，计算所选取的只有主体笔画部分连体段图像的轮廓图像中每一行对应的水平积分投影：

H (i) = Σ_{j = 0}^{b - 1} h (i, j)

其中，H(i)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行的水平积分投影，i＝0,1,...,a，a表示所选取的只有主体笔画部分连体段图像的轮廓图像的总行数，b表示所选取的只有主体笔画部分连体段图像的轮廓图像的总列数，∑表示求和操作，j表示所选取的只有主体笔画部分连体段图像的轮廓图像中的第j列，j＝0,1,...b，h(i,j)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行第j列的像素值。

将水平积分投影H(i)最大时对应的行，作为所选取的只有主体笔画部分连体段图像基线域的上边界b_start，将水平积分投影H(i)次大时对应的行，作为所选取的只有主体笔画部分连体段图像基线域的下边界b_end。

按照下式，计算所选取的只有主体笔画部分连体段图像的基线域高度：

l＝b_end-b_start

其中，l表示所选取的只有主体笔画部分连体段图像的基线域高度，b_start表示所选取的只有主体笔画部分连体段图像基线域的上边界，b_end表示所选取的只有主体笔画部分连体段图像基线域的下边界。

判断所有的只有主体笔画部分连体段图像是否都选取完，若是，则得到所有的只有主体笔画部分连体段图像的基线域的高度，否则，得到所有的只有主体笔画部分连体段图像的基线域的高度。

步骤7，获取单字符图像。

从所有的只有主体笔画部分连体段图像中，任意选取一幅只有主体笔画部分连体段图像。

分别将所选取的只有主体笔画部分连体段图像的基线域、基线域下边界b_end以下连续的四分之三部分置白。

所述的置白是指，将所选取的只有主体笔画部分连体段图像的基线域、基线域下边界b_end以下连续的四分之三部分中的所有像素值赋值为1。

利用垂直积分投影公式，计算置白后图像中每一列对应的垂直积分投影。

所述的垂直积分投影公式如下：

V (q) = Σ_{p = 0}^{m - 1} g (p, q)

其中，V(q)表示置白后图像中第q列的垂直积分投影，q＝0,1,...n，n表示置白后图像的总列数，m表示置白后图像的总行数，∑表示求和操作，p表示置白后图像的第p行，p＝0,1,...m，g(p,q)表示置白后图像中第p行第q列的像素值。

从置白后图像中寻找满足下式的所有的列，作为切分线：

V(q-1)≠0

V(q)＝0

其中，V(q-1)表示置白后图像中第q-1列的垂直积分投影，V(q)表示置白后图像中第q列的垂直积分投影。

将两个相邻的切分线之间的图像作为单字符图像，保存到计算机中。

判断所有的只有主体笔画部分连体段图像是否都选取完，若是，则得到多幅行文档图像中的中的所有单字符图像，否则，从所有的只有主体笔画部分连体段图像中，任意选取一幅只有主体笔画部分连体段图像。

本发明的效果可通过以下仿真实验进一步说明。

1.仿真实验条件。

本发明的仿真试验是在计算机硬件配置为AMD FX(tm)-6300@3.50GHz、16.0GBRAM的硬件环境和计算机软件配置为vs2010的软件环境下进行的。

2.仿真实验内容。

图2为本发明的仿真实验图，图2(a)是本发明仿真实验时输入的一幅无噪声非倾斜，其宽与高为2362×3327的印刷体维吾尔文文档二值图像；

仿真实验1，采用现有技术基于像素积分投影法和连通域搜索法对输入图像2(a)进行切分，切分结果如图2(b)所示。仿真实验2，采用本发明对输入图像2(a)进行切分，切分结果如图2(c)所示。

3.仿真实验结果分析：

图2(b)是基于像素积分投影法和连通域搜索法对输入图像2(a)切分得到的切分结果图，从图2(b)中画“圈”的地方可以看到，将这类字符没有切分出来，出现了漏切分问题。图2(c)是本发明方法得到的切分结果图，从2(c)图中画“圈”的地方可以看到，本发明的切分结果避免了这类字符的漏切分。

Claims

1.一种基于形态学与积分投影的印刷体维吾尔文文档切分方法，包括以下步骤：

(1)输入二值图像：

(2)获取行文档图像：

(3)获取子单词图像：

(3a)从多幅行文档图像中选取任意一幅行文档图像；

(3h)得到所选取行文档图像的所有子单词图像；

(3g)得到多幅行文档图像中的所有子单词图像；

(4)获取连体段图像：

(4b)按照下式，计算所选子单词图像的纵横比：

r a t i o n = \frac{w}{h}

(4c)设定一个阈值T，T＝0.72；

(4e)将所选子单词图像作为连体段图像；

(4f)将所选子单词图像作为独立字符图像；

(4h)得到多幅行文档图像中的所有连体段图像；

(5)获取只有主体笔画部分的连体段图像：

(6)确定只有主体笔画部分连体段图像的基线域：

H (i) = Σ_{j = 0}^{b - 1} h (i, j)

l＝b_end-b_start

(7)获取单字符图像：

(7d)从置白后图像中寻找满足下式的所有的列，作为切分线：

V(q-1)≠0

V(q)＝0

(7g)得到多幅行文档图像中的中的所有单字符图像。

2.根据权利要求1所述的基于形态学与积分投影的印刷体维吾尔文文档切分方法，其特征在于，步骤(3d)中所述的关联位置是指，最近连通域的位置在所选连通域的左上方、正上方、右上方、左下方、正下方、右下方，所选连通域相邻最近的连通域在所选连通域的内部中的任意一种情形。

3.根据权利要求1所述的基于形态学与积分投影的印刷体维吾尔文文档切分方法，其特征在于，步骤(5b)中所述的消除所选取连体段图像的附加笔画部分的具体步骤如下：

第2步，统计每个连通域中的像素总数；

第3步，设置一个阈值area，area＝600；

第5步，将该连通域的每个像素的像素值赋值为0；

第6步，将该连通域的每个像素的像素值赋值为1。

4.根据权利要求1所述的基于形态学与积分投影的印刷体维吾尔文文档切分方法，其特征在于，步骤(7b)中所述的置白是指，将所选取的只有主体笔画部分连体段图像的基线域、基线域下边界b_end以下连续的四分之三部分中的所有像素值赋值为1。

5.根据权利要求1所述的基于形态学与积分投影的印刷体维吾尔文文档切分方法，其特征在于，步骤(7c)中所述的垂直积分投影公式如下：

V (q) = Σ_{p = 0}^{m - 1} g (p, q)