CN102446275A

CN102446275A - 阿拉伯文字符的识别方法和装置

Info

Publication number: CN102446275A
Application number: CN2010105020107A
Authority: CN
Inventors: 王琛; 刘正珍; 钮兴昱
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2010-09-30
Filing date: 2010-09-30
Publication date: 2012-05-09
Anticipated expiration: 2030-09-30
Also published as: CN102446275B

Abstract

本发明公开了一种阿拉伯文字符的识别方法和装置，属于光学字符识别领域。方法包括如下步骤：步骤1：对输入的行图像进行基线位置和基线高度的估计；步骤2：查找输入行图像的切分点，得到字块序列，记录每个字块所属的连通体；步骤3：根据字块在连通体中的位置信息确定每个字块的字符属性；步骤4：对字块序列进行字块合并并且根据合并后字块的字符形式进行模糊识别，得到识别评价；步骤5：选取总识别评价最优的合并组合作为识别结果输出。本发明在字符识别的过程中引入了模糊字符形式的识别方法，扩大了识别的范围，使得识别更加准确。

Description

阿拉伯文字符的识别方法和装置

技术领域

本发明属于光学字符识别领域，涉及一种识别方法和装置，具体涉及一种阿拉伯文字符的识别方法和装置。

背景技术

标准阿拉伯文有28个基本字符，维吾尔文有32个基本字符，根据在词中出现的位置不同，每个阿文字符有1-4个书写形式：独立形式、首字符形式、中字符形式和尾字符形式，而且阿拉伯字符集的文字行方向为从右到左，字符前后相连成一个或几个连体字符段，在字符段中，字符沿着基线相连。

一般的印刷体阿文识别系统和通用的OCR系统相同，都需要进行图像预处理，行切分，字符切分，单字识别等过程。由于阿文中字符在词中不同位置的字符形式不同，在一个连体字符段的首部的字符应该是首字符形式，连体字符段的中间应该是中字符形式，在连体字符段的尾部应该是尾字符形式，所以为了提高识别效果，应该在不同的位置，进行分类的识别，如在连体字符段的首部进行识别时，识别的候选集仅为字符的首字符形式，在连体字符段的尾部进行识别时，识别的候选集仅为字符的尾字符形式。

但是实际的使用中，由于排版和噪声等原因，一个连体字符段往往可能出现断裂变成两个连体字符段，或者几个连体字符？段可能出现粘连的情况，在这些情况下，在连体字符？段的首部就有可能不是首字符形式，尾部就有可能不是尾字符形式，如果识别的候选集仍选用字符的尾字符形式，就有可能发生错误，造成识别率降低。

发明内容

本发明的目的在于避免现有技术的不足，提出一种阿拉伯文字符的识别方法和装置，在识别过程中引入了模糊字符形式的识别方法，扩大了识别的范围，使得识别更加准确。

本方法公开了一种阿拉伯文字符的识别方法，包括以下步骤：

步骤1：对输入的行图像进行基线位置和基线高度的估计；

步骤2：根据估计的基线位置和基线高度查找输入的行图像的切分点，得到字块序列，记录各字块所属的连通体；

步骤3：根据字块在连通体中的位置信息确定各字块的字符属性；

步骤4：对确定字符属性的字块进行合并，根据合并后的字块进行模糊识别，确定识别后的字符形式和识别评价；

步骤5：选取合并后的字块中识别评价最高的合并组合作为识别结果输出。

本发明还公开了一种阿拉伯文字符的识别装置，该装置包括：

基线位置、高度确定单元，对输入的行图像进行基线位置和基线高度的估计；

字块所属连通体确定单元，根据估计的基线位置和基线高度查找输入的行图像的切分点，得到字块序列，记录各字块所属的连通体；

字块属性确定单元，根据字块在连通体中的位置信息确定各字块的字符属性；

字块合并单元，对确定字符属性的字块进行合并，根据合并后的字块进行模糊识别，确定识别后的字符形式和识别评价；

识别结果输出单元，选取合并后的字块中识别评价最高的合并组合作为识别结果输出。

本发明一种阿拉伯文字符的识别方法和装置的优点在于：在阿拉伯文的识别过程中，当不确定字符的具体形式时，通过根据字块在连通体中的位置信息确定各字块的字符属性，并对输入的行图像中的各连通体进行切分后合并，可以尽可能的缩小识别的字符集，提高识别率。

附图说明

图1为本发明阿拉伯文字符的识别装置结构示意图；

图2为本发明阿拉伯文字符的识别方法实施例的字符形式示意图；

图3为本发明阿拉伯文字符的识别方法实施例的实施例中的输入行图像；

图4为本发明阿拉伯文字符的识别方法的流程图；

图5为本发明阿拉伯文字符的识别方法实施例的基线位置估计方法的示意图；

图6为本发明阿拉伯文字符的识别方法实施例的字块轮廓示意图；

图7为本发明阿拉伯文字符的识别方法实施例的切分点示意图；

图8为本发明阿拉伯文字符的识别方法实施例的切分后字块及其连通体标注图；

图9为本发明阿拉伯文字符的识别方法实施例的字符形式标注图；

图10为本发明阿拉伯文字符的识别方法实施例的模糊字符形式标注图；

图11为本发明阿拉伯文字符的识别方法实施例中字符选取最优合并路径的示意图；

图12为本发明阿拉伯文字符的识别方法实施例输入行图像的识别结果图。

具体实施方式

本发明提出了一种阿拉伯文字符的识别方法，在字符识别的过程中引入了模糊字符形式的识别方法。如果在不确定具体字符形式的位置进行指定字符形式的识别，有可能发生错误，而采取模糊字符形式的识别，则扩大了识别的范围，使得识别更加准确。

阿拉伯文字的字符形式基本分为：首字符形式(ini)，中间字符形式(med)，尾字符形式(fin)，独立字符形式(iso)。本发明对于一些不确定具体字符形式的字符采用模糊字符形式表示，如首中字符形式(inimed)表示字符可能是首字符形式或者是中间字符形式，中尾字符形式(medfin)表示字符可能是中间字符形式或者是尾字符形式，尾独形式(finiso)表示字符可能是尾字符形式或者是独立字符形式，首独形式(iniiso)表示字符可能是首字符形式或者是独立字符形式。

图1为本发明阿拉伯文字符的识别装置结构示意图，该装置包括：

图2为阿拉伯文字符的书写形式，图3为选取的一组阿拉伯文行图像，以图3为例说明如何对模糊字符形式进行识别，如图4所示，具体步骤如下所述。

步骤1：对输入的行图像进行基线位置和基线高度的估计。

本实施例中，采用横向投影的方式对基线位置进行估计：首先将图3的图像字符进行横向投影，确定横向投影值的最大值所对应的竖直坐标，然后从该竖直坐标点开始，分别在竖直方向上和向下进行搜索，直到搜索到的对应的竖直坐标点的投影值小于投影值的最大值2/3后搜索停止，将对应的竖直坐标点分别作为基线的上边界和下边界。如图5所示，为图3中所对应的横向投影直方图，此时基线的上边界对应的竖直坐标为27，基线的下边界对应的竖直坐标为24，基线高度为为4。

步骤2：根据估计的基线位置和基线高度查找输入的行图像的切分点，得到字块序列，记录各字块所属的连通体。

查找切分点的方法为，首先对输入的行图像进行竖直投影，将各投影的第一个黑色像素点对应的纵坐标作为上轮廓记录到该行图像的上轮廓数组；最后一个黑像素点对应的纵坐标作为下轮廓记录到该行图像的下轮廓数组，上下轮廓的差值作为轮廓值记录到该行图像的轮廓值数组，如图6所示。

如图7所示，在阿拉伯文中字符间分割位置一般都是基线附近轮廓发生变化的点或者是轮廓的极小值点，本实施例中将从左向右将上轮廓数组中偏离基线上边界和回归基线上边界的点作为切分点，将下轮廓数组中偏离基线下边界和回归基线下边界的点作为切分点，同时将轮廓值数组中的波谷点也作为切分点。

根据切分点对行图像进行切分，得到字块序列，记录各字块所属的连通体。

具体方法为：在竖直方向上，设基线上边界的坐标值为uBaseLine，基线下边界的坐标值为dBaseLine，当前的水平坐标为i，对应上轮廓数组的值为u[i]，下轮廓数组的值为d[i]，纵向投影的投影值为p[i]。

当u[i-1]＞＝uBaseLine，u[i]＜＝uBaseLine，u[i+1]＜＝u[i]，u[i+2]＜＝u[i]，同时成立时，称第i点开始偏离基线上边界，第i点为切分点；

当u[i-2]＜＝u[i]，u[i-1]＜＝u[i]，u[i]＜＝uBaseLine，u[i+1]＞＝uBaseLine，同时成立时，称第i点开始回归基线上边界，第i点为切分点；

当d[i-1]＜＝dBaseLine，d[i]＞＝dBaseLine，d[i+1]＞＝d[i]，d[i+2]＞＝d[i]，同时成立时，称第i点开始偏离基线下边界，第i点为切分点；

当d[i-2]＞＝d[i]，d[i-1]＞＝d[i]，d[i]＞＝dBaseLine，d[i+1]＜＝dBaseLine，同时成立时，称第i点开始回归基线下边界，第i点为切分点；

当p[i-2]＞p[i]，p[i-1]＞＝p[i]，p[i]＜＝p[i+1]，p[i]＜p[i+1]，同时成立时，称第i点为波谷点，第i点为切分点。

本实施例中，切分后得到的字块及其所属的连通体如图8所示，虚线表示的是切分点，每两条虚线间的黑像素部分代表一个字块，图8中各字块所属的连通体的编号分别是1-6，每个连通体记录起始字块和终止字块的序号。

步骤3：根据字块在连通体中的位置信息确定每个字块的字符属性。

其中步骤3中所述的确定一个字块字符属性的方法为：

步骤3.1：读取字块在连通体中的位置信息并进行判断，如果字块本身为连通体，则将字块标记为独立字符；如果字块位于连通体的最右端，则将字块标记为首类型；如果字块位于连通体的最左端，则将字块标记为尾类型；如果字块位于连通体的中间，则将字块标记为中间类型；

如图9所示，先按步骤3.1对图8中每个字块的字符属性进行了标定，如字块1位于连通体1的最右端，也就是阿文中的一个词的首部，所以标注为首类型，字块5位于连通体1的最左端，也就是阿文中一个词的尾部，所以标注为尾类型，而连通体1中的其他字块标注为中间类型。

步骤3.2：字块对应的字块标记为首类型或独立字符时，如果该字块与其前一字块的距离小于既定阈值，则该字块的字符类型改为首中类型或独中类型；字块对应的字块标记为尾字符或独立字符时，如果该字块与后一字块的距离小于既定阈值，则该字块的字符类型改为尾中类型或独中类型。其中既定阈值可以取基线高度的两倍，首中类型代表这个字块的字符类型不确定，可能是首字符形式，也可能是中间字符形式。

如图10所示，在前一步骤中连通域4中最右侧的字块11标定为ini类型，右侧的连通域5中的最左侧的字块12标定为fin类型，但其间的字块间距为2，小于既定阈值，本实施例中，既定阈值取基线高度的2倍为2*hBaseLine，则字块11与其前一字块，连通域5中的最左侧的字块12的距离小于既定阈值，字块11被标定成inimed类型，表示该字块可能是ini类型也可能是med类型，同理，字块12与其后一字块，连通域4中最右侧的字块11的距离小于既定阈值，字块12被标定为medfin类型，表示该字块可能是med类型也可能是fin类型。从图中可以看出，在这里字块11和字块12应该都是med类型，本步骤限定了字块的字符属性，减小了字块的备选范围，使得识别更加准确。如果不进行模糊标定的话，本实施例中字块11可能会被当做ini类型识别，字块12也可能会被当做fin类型识别，使识别产生错误，

所述步骤4中确定识别后的字符形式具体为：以合并组中的第一个字块为起始，将合并组中各字块逐个进行合并，并把合并结果作为当前字符形式，直至合并组中的字块合并完毕，得到合并组的字符形式。

本实施例中，设需要对第i个字块到第i+n字块进行合并，则首先将第i个字块的字符形式作为当前字符形式与第i+1个字块进行合并，然后把这两个字块的合并结果作为当前字符形式与第i+2个字块合并，再把这三个字块的合并结果作为当前字符形式与第i+3个字块进行合并，依次用以上合并方法对剩余字块进行合并直至与第i+n个字块合并，i和n取自然数。

当前字符形式和当前待合并的字符形式进行逻辑组合合并，合并后的字符形式可以通过查表1得到，表1中第一行表示的是当前的字符形式，第一列表示的是当前待合并字符的字符形式，其他项表示该位置的对应第一列的字符形式的字符与对应第一行字符形式的字符进行合并后字块的字符形式。其中ALL表示合并后的字符可能是任何形式，NULL表示这种合并不能发生。该表通过实际的逻辑关系得来，如ini类型与ini类型的合并实际中不可能发生，所以对于位置为NULL类型；med类型和fin类型合并后只能是fin类型，所以对应位置上是fin类型；inimed类型与fin类型合并时，可能是ini类型与fin类型合并也可能是med类型与fin类型合并，所以结果可能是iso类型也可能是fin类型，所以对应位置是finiso类型，其他类似。

表1

ini

med

fin

iso

inimed

medfin

iniiso

finiso

ini

NULL

ini

iso

NULL

inimed

ALL

iniiso

iso

med

NULL

med

fin

NULL

med

medfin

NULL

fin

NULL

fin

NULL

fin

iso

ini

NULL

iso

ini

NULL

iniiso

iso

inimed

NULL

inimed

finiso

NULL

Inimed

ALL

iniiso

finsio

medfin

NULL

med

fin

Med

medfin

fin

finiso

ini

NULL

finiso

Ini

NULL

ALL

finiso

iniiso

ini

iso

Inimed

ALL

iniiso

iso

如图10所示，对字块1与字块2合并时，字块1的字符形式为inimed类型，表示该位置可能是ini类型或者med类型，位于表中第1行的第7列，字块2的字符形式为medfin类型，表示该位置可能是med类型或者fin类型，位于表中第1列的第7行，合并后字符块的类型为表中第7列第7行对应的med类型表示这两个字块合并后只可能是med类型，然后调用单字符识别对两个字块合并后得到的合并后的字块进行模糊识别，并且指定单字符识别的候选字集合为med类型的字符，最后得到合并后的字块的识别评价。

识别结果中的一个字符块可能由这些字块中的一个或者几个字块合并组成，对于切分得到的字块序列有多种合并组合，对于一个合并组合中的所有合并后的字块的评价加权求和得到该条路径的评价，加权求和指的是设一个合并字块的识别评价为a_i，由识别核心得到，并且该字块由n_i个字块组成，则该条合并组合的评价为

其中N为路径中的字块数目。对该行所有合并组合分别进行评价，评价最高的路径就是最优的合并路径。

具体选取最优的合并路径的方法与一般动态规划的方法相似，即设起始节为在最左边字块之前，起始节点为第一个中间节点，最右边的字块为终止节点，其间的每个字块作为中间节点，每两个点之间的权重即步骤4中得到的对应合并字块的识别评价与块数的乘积。选取最优路径的过程为：设第i块到第j块字块合并后的识别评价为D_i，j，第i个节点的最优评价为U_i，依次记录从初始点到其余每个点的最优评价以及评价的前驱节点。在本实施例中，第一个字块的识别评价D_1，1为55，因为其前面没有别的中间节点，所以第一个节点的最优评价U₁为55，其前驱节点下标为0，第二个字块的识别评价D_2，2为28，第一个和第二个字块合并后的识别评价D_1，2为70，U₁+D_2，2＜U₀+D_1，2*2，所以第二个节点的最优评价为83(U₁+D_2，2)，其前驱节点下标为1。其余节点计算方法类似，设当前为第i个节点，则其最优评价U_i＝MIN(U_j+D_j+1，i ^*(i-j))，(j＝0，...，i-1)，其前驱节点为得到最优评价时j的值。图11所示的是本例中各个节点的最优评价以及每个评价对应的前驱节点下标。最后从终止节点开始依据其前驱节点下标即可回溯到这条从起始节点开始到终止节点结束的最优合并路径。

图12为对本发明实施例进行识别的结果，识别后，该图像能够以文字的形式进行编辑修改。

Claims

1.一种阿拉伯文字符的识别方法，其特征在于，包括以下步骤：

步骤1：对输入的行图像进行基线位置和基线高度的估计；

2.根据权利要求1所述的方法，其特征在于，所述步骤2中查找输入的行图像的切分点时，对输入的行图像进行竖直投影，将各投影的第一个黑色像素点对应的纵坐标作为上轮廓记录到该行图像的上轮廓数组；最后一个黑像素点对应的纵坐标作为下轮廓记录到该行图像的下轮廓数组，上下轮廓的差值作为轮廓值记录到该行图像的轮廓值数组。

3.根据权利要求1所述的方法，其特征在于，所述步骤3中确定各字块的字符属性包括：

步骤3.2：字块对应的字块标记为首类型或独立字符时，如果该字块与其前一字块的距离小于既定阈值，则该字块的字符类型改为首中类型或独中类型；字块对应的字块标记为尾字符或独立字符时，如果该字块与后一字块的距离小于既定阈值，则该字块的字符类型改为尾中类型或独中类型。

4.根据权利要求1所述的方法，其特征在于，所述步骤4中确定识别后的字符形式具体为：以合并组中的第一个字块为起始，与合并组中各字块逐个进行合并，并把已合并字块的合并结果作为当前字符形式，与合并组中未合并的字块进行合并，直至合并组中所有字块合并完毕，得到合并组的字符形式。

5.根据权利要求2所述方法，其特征在于，所述的既定阈值为基线高度的两倍。

6.一种阿拉伯文字符的识别装置，其特征在于，该装置包括：