CN108549896A

CN108549896A - 满文部件切分中删除多余候选切分行的方法

Info

Publication number: CN108549896A
Application number: CN201810371506.1A
Authority: CN
Inventors: 郑蕊蕊; 李敏; 贺建军; 许爽; 吴宝春; 付玉
Original assignee: Dalian Nationalities University
Current assignee: Dalian Minzu University
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-09-18
Anticipated expiration: 2038-04-24
Also published as: CN108549896B

Abstract

满文部件切分中删除多余候选切分行的方法，属于文字切分领域，为了解决提高满文切分精度的问题，要点是(1)如果序列Can_seg中只有1条候选切分行，且为第1行，则删除该行；否则转步骤(2)；(2)查找连续候选切分行组成的子段conti_subseg，若子段的起始行为第1行，或者子段的结束行为第H行，则删除该子段的所有行；否则转步骤(3)，H是满文单词图像的高度；(3)在连续候选切分子段conti_subseg中，按从小到大顺序，用中位数替代该子段的所有行，当具有偶数个候选行时取中间两个值的平均值再向上取整；效果是将候选切分行中，对于认定的多余候选切分行进而删除，能够提高候选切分行的准确性，从而提高切分的准确性。

Description

满文部件切分中删除多余候选切分行的方法

技术领域

本发明属于文字切分领域，涉及一种满文部件切分中删除多余候选切分行的方法。

背景技术

满文是我国满族、锡伯族等少数民族使用的语言文字，在清代作为法定文字被推广和使用，形成了大量珍贵的满文文献。由于目前满语文已濒临消失，满族语言文化遗产亟待抢救和保护得到国家和社会各界的认同和重视。研究满文的光学字符识别技术对保护和传承清代文化遗产显得尤为重要。满文是一种音素文字，共有38个字母，其中6个元音字母，22个辅音字母，此外还有10个专门用于拼写汉语借词的特定字母。满文书写采用字序从上到下，行款从左到右的规则。对于满文识别往往需要先将满文先切分基本单元(如字母等)，再予以识别，因而，提高满文识别的精度可以从提高其切分精度着手。

发明内容

为了解决提高满文切分精度的问题，本发明提出如下技术方案：一种满文部件切分中删除多余候选切分行的方法，候选切分行组成的序列为Can_seg，删除序列Can_seg中的多余候选切分行的步骤：

(1)如果序列Can_seg中只有1条候选切分行，且为第1行，则删除该行；否则转步骤(2)；

(2)查找连续候选切分行组成的子段conti_subseg，若子段的起始行为第1行，或者子段的结束行为第H行，则删除该子段的所有行；否则转步骤(3)，H是满文单词图像的高度；

(3)在连续候选切分子段conti_subseg中，按从小到大顺序，用中位数替代该子段的所有行，当具有偶数个候选行时取中间两个值的平均值再向上取整；

(4)输出删除了多余候选切分行的切分行序列Can_seg_new。

有益效果：本发明将候选切分行中，对于认定的多余候选切分行进而删除，能够提高候选切分行的准确性，从而提高切分的准确性。

附图说明

图1满文部件集构建流程图；

图2满文部件分割流程图；

图3传统方法满文单词图像中轴线提取错误实例图；

图4采用区域限定的最大游程比例法确定满文中轴线宽度的图，其中：(1)最大游程比例法错误实例图、(2)本发明限定的搜索范围图、(3)本发明方法结果图；

图5本发明方法中轴线提取效果图；

图6满文部件切分流程图；

图7满文部件切分结果图，其中：(1)弱分割现象图、(2)弱分割区域经过细切分图、(3)过分割现象图、(4)过分割区域经过合并图、(5)部分分割结果图。

具体实施方式

从光学字符识别技术的角度分析，满文具有以下特点：(1)根据在单词中位置的不同，满文同一个字母一般有独立形、字头形、字中形和字尾形4种不同形式。满文不同字形的字母共计114个。(2)满文文档同列单词都位于相同的中轴线附近，印刷体满文两列之间的单词基本不会出现交叉的情况，有利于列提取。同一列满文文本中满文单词之间有一定间隔，有利于单词提取。(3)满文单词由一个或多个满文字母竖向中轴线连接组成，同一单词内的字母与字母之间没有空隙。但是字母与字母的相拼处位于满文单词图像中轴线上，可以考虑利用中轴线处的像素特性分割满文字母。(4)部分满文字母具有“一形多字”现象。例如字符同时是字母a、e和n的字中形，在识别中可根据相邻字母的拼读规则加以区别。(5)部分满文字母具有相同的组成部分。例如字符(字母o的字头形)，可以看做是由字符(字母e的字头形)和字符(字母o的字中形)两部分组合而成。因此以满文字母为基本分割单元则容易出现过分割和弱分割的现象。(6)某些字母组合不具备可分性。例如(bo)，切分成(字母b)和(字母o)非常困难。

基于上述满文的特点，本实施例提出一种以部件重新解构满文单词的思路，以满文部件(以下简称部件)作为分割和识别的基本单元，能够解决以满文字母为基本分割单元导致的过分割和弱分割问题，满文部件集包括满文字母、字母或字母组合的一部分、字母组合等3种来源，构建满文部件集的目的在于减少因分割带来的错误识别,这是因为如果按照字母为基本分割单元,则如前述分析,易出现过分割和弱分割问题,则后续用于识别字母的分类器势必会对过分割和弱分割的部分产生识别错误,甚至不能够识别；而本发明(方法)提出的满文部件集,是以分割方法的结果为导向设计构建的,也就是说,常见的过分割(字母或字母组合的一部分)和弱分割(字母组合)不再认为是一种“错误”，而是一种“正确”的分割，因此后续设计的分类器能够识别这些部件，从而减少了因分割错误产生的识别错误等问题。对于满文部件的理解，可以参考与对英文单词的识别进行类比。以英文单词study为例，可以直接识别整词study；也可以把整词切分成s,t,u,d,y等字母，分别识别字母，然后组合成单词study；如果切分成字母难以实现，而切分成部件相对容易，例如，容易切分成：st,u,dy，(其中，st,u,dy都是部件)则识别部件，然后把部件组合成单词，然而，满文由于具有上述特点，其部件的切分并非如举例的英文一样容易，如图1所示，满文部件集的构建流程是：参考满文字母表、中华人民共和国国家标准《信息技术通用多八位编码字符集锡伯文、满文字型》、文献[1-2]中的蒙古文部件集，提出一个包含99个初始部件的满文部件初始集(以下简称为“初始集”)，并置每个满文部件的Flag＝0。使用满文切分对满文单词图像进行分割，并统计和分析分割结果：若分割后的部件不属于初始集，则将该部件加入初始集，并置该部件的Flag＝1；若分割后的部件属于初始部件集，则置对应部件的Flag＝1。检查初始集中是否有部件的Flag＝0，判断是否有部件在分割结果中从未出现过，若存在该部件则将该部件从初始集中删除。整理并输出满文部件集。满文部件集中共包含部件106个，详见附表1。其中述及的文献[1-2]：

[1]Hongxi Wei,Guanglai Gao.A keyword retrieval system for historicalMongolian document images[J].Internationaljournal on document analysisandrecognition,2014,17(1),33-45.

[2]Liangrui Peng,Changsong Liu,Xiaoqing Ding,Jianming Jin,Youshou Wu,Hua Wang,Yanhua Bao.Multi-font printed Mongolian document recognition system[J].International journal on document analysis and recognition,2010,13(2):93-106.

如图2所示，满部件文的切分步骤如下：

S1.满文纸质文档通过光电转换设备被转换为能够用计算机存储和处理的数字图像文档，将满文文档的数字图像进行图像预处理(平滑、二值化)；

S2.版面分析(倾斜矫正、列切分和单词切分)；

S3.提取满文单词图像；

S4.位置归一化；

S5.中轴线提取；

S6.根据满文部件与中轴线位置的关系实现满文部件切分。

其中，倾斜校正采用霍夫变换法确定版面倾斜角度，然后旋转图像并矫正回垂直文本状态；被倾斜矫正的满文文档采用垂直投影法进行列切分，采用水平投影法切分单词并提取满文列图像中的满文单词，再对满文单词图像进行位置归一化。由上述步骤即完成了满文单词图像的预处理，记满文单词图像的高度为H，宽度为W。需要说明的是，对满文单词图像进行位置归一化即切掉满文单词图像的多余白色背景边缘，图2示出的流程，是为编程方便而进行图像翻转，显示去掉的是满文单词的黑色边缘。图2中黑底白字的图，也就是所说的图像翻转的图。原图应该是白底黑字，但是为了编程方便，翻转成黑底白字去除四个角的边缘更方便编程，因此直接给出了翻转后再去掉黑色边缘的图像。

在本实施例中，对于满文单词图像中轴线提取，直接影响分割的准确率，下述对其具体方案详细说明。

对于满文单词图像中轴线提取，即步骤S5，现有技术中一般使用垂直投影法和最大累积垂直投影法，然而上述两种方法存在中轴线定位偏移和中轴线宽度估计错误等情况，如图3所示。本实施例提供一种提取满文单词图像中轴线的方法，包括如下步骤：

S5.1.满文单词图像中轴线定位：

首先对满文单词图像取反，即令文字部分的像素值取1而背景的像素值取0。使用MATLAB图像处理工具箱的形态学细化函数，采用3×3结构元素模板，每个模板包含9个像素，每个像素只能取0或1，因此模板有512种不同形式，将模板分成8个方向实现满文单词图像的形态学细化。对细化后的满文单词图像，利用霍夫变换确定细化的中轴线所对应的列坐标，即为满文单词图像中轴线的位置。在满文单词图像中轴线的提取中，限定霍夫变换搜索直线的角度为θ＝90，即仅查找竖直方向的直线，并连接相同纵向位置的，间距小于单词图像高度H且自身长度大于1像素的直线为一条直线，即求出中轴线的中心位置，记为baseline。满文单词图像中轴线指的是在一幅满文单词图像中，满文单词中轴线在图像中的列坐标位置，而不是一幅图像的中心线。

S5.2.满文单词图像中轴线宽度检测

S5.2.1.采用中轴线宽度的最大游程比例法：首先扫描满文单词图像的每一行，并统计连续黑色像素的游程长度和该长度出现的次数；依次扫描所有行，则具有最大出现次数的游程长度就是满文单词图像中轴线的宽度，记做w₀。采用最大游程比例法对检测满文单词图像中轴线宽度是有效的，但仍然存在如图4(1)所示的错误情况。产生这种错误的原因在于，最大游程比例法是对整幅满文单词图像进行连续黑色像素游程统计，而满文不同字体变形严重干扰最大游程比例法对全局的统计结果。对满文书写的统计表明，满文中轴线宽度一般不会超过单词宽度W的1/2，因此限制最大游程比例法的搜索区域，将算法的搜索区域限定在公式(1)规定的范围内，称为区域限定的最大游程比例法。

公式(1)中，sl是限定的搜索范围的左边界，sr是限定的搜索范围的右边界，baseline是中轴线的中心位置，round表示向最近的整数取整。限定搜索区域范围削弱了满文游离和枝干笔画对中轴线宽度的统计影响，然后再采用最大游程比例法在限定搜索范围后的满文单词图像中完成中轴线宽度的检测，结果如图4(3)所示。

S5.2.2.由中轴线的宽度baseline_width和中轴线的中心位置baseline，根据公式(2)计算中轴线的左边界bl和右边界br。

随机抽取不同字体字号的满文图像共400幅，分别采用本实施例的区域限定的最大游程比例法、垂直投影法提取中轴线，其结果如表1所示。采用本发明方法正确提取中轴线的部分实例如图5所示。实验结果表明采用形态学细化和霍夫变换能够准确定位满文单词图像中轴线位置，采用区域限定的最大游程概率法能正确确定满文单词图像中轴线的宽度。

表1满文单词图像中轴线提取结果统计表

	本发明方法	垂直投影法
			正确样本数	397	210
错误样本数	3	190
			正确率	99.25％	52.50％

在本实施例中，满文字符切分的精确性是提高满文识别准确率的瓶颈问题，下述对其具体方案详细说明。

对于满文部件切分，即步骤S6，如图6所示，包括：

S6.1.满文部件粗切分；

S6.2.候选分割区域的弱分割判决与细切分；

S6.3.候选分割区域的过分割判决与合并。

以下对上述步骤作出具体说明：

S6.1.满文部件粗切分

由于满文部件以中轴线为连接，因此首先以中轴线为中心，将满文单词分为左、中、右3部分。其中，左侧部分的范围为满文单词的第1列到第bl－1列，右侧部分的范围为第br+1列到满文单词的第W列。分别对左侧部分和右侧部分进行水平投影，记为pl和pr。定义第i行的切分代价函数为：

Cost(i)＝pl(i)+pr(i),i＝1,2,…,H (3)

理想情况下切分行的代价函数值应为0，即左右两部分在该行都没有除中轴线之外的笔画。但实际情况中，由于扫描、倾斜校正、二值化等预处理带来的噪声影响，对切分行的约束条件太严格则会导致严重的弱分割问题。设T1为满文部件粗切分阈值，通过大量实验确定T1的值为只有满足条件：

Cost(i)≤T1 (4)

的行才是候选切分行，并记所有满足条件(4)的候选切分行组成的序列为Can_seg。其中，对T1的值的确定实验，是为选择不同倍数的baseline_width作为T1，这些倍数都是<＝1的分数，执行满文部件切分方法，对于切分后的图像比较，选择出切分效果更好的满文单词图像所对应的T1，最终选择为上述T1值。

经满文部件粗切分所获得的候选切分行集合，会出现以下三种情况：

1)把图像的第1行当做候选切分行，这显然是不合理的候选行，故应从候选切分行集合中删除；

2)图像的从第1行开始的连续相邻行/图像以最后1行(第H行)为结束的连续相邻行，都是不合理的候选行子段，故应从候选切分集合中删除这些子段；

3)除了2)中的连续相邻行组成的子段，只需要其中位于中间位置的一条候选切分行，其余的并不需要；故应采用中间位置的候选行替代整个连续相邻行组成的子段。

由上述，Can_seg中往往还存在多余候选切分行，为此，采用以下策略进一步删除Can_seg中的多余候选切分行：

(1)如果Can_seg中只有1条候选分割行，且为第1行，则删除该行；否则转步骤(2)；

(2)查找连续候选切分行组成的子段conti_subseg，若子段的起始行为第1行，或者子段的结束行为第H行，则删除该子段的所有行；否则转步骤(3)；

(3)在连续候选切分子段conti_subseg中，按从小到大顺序，用中位数替代该子段的所有行(偶数个候选行时取中间两个值的平均值再向上取整)；

(4)输出删除多余候选切分行的新切分行序列Can_seg_new。

S7.2.候选分割区域的弱分割判决与细切分

经粗切分的满文部件可能存在弱切分情况。统计结果表明，满文部件的高度一般不超过5倍baseline_width，故设弱分割判定阈值T_less＝5。计算Can_seg_new中每个切分区域的高度hl，则高度hl＞(T_less×baseline_width)的切分区域被判定为弱分割区域。对于弱分割区域，采用上述粗切分方法和细切分阈值T2进行二次切分，并保存在Seg1序列中。细切分阈值T2在粗切分的基础上再次放宽对切分候选行的约束，通过大量实验确定其中，对T2的值的确定实验，是为选择不同倍数的baseline_width作为T2，这些倍数都是<＝1的分数，执行满文部件切分方法，对于切分后的图像比较，选择出切分效果更好的满文单词图像所对应的T2，最终选择为上述T2值。

S7.3.候选分割区域的过分割判决与合并

经粗切分和细切分后，Seg1序列还可能存在过分割区域。统计结果表明，满文部件的高度一般大于baseline_width，故设过分割判定阈值T_over＝1。计算Seg1中每个切分区域的高度ho，则高度ho＜(T_over×baseline_width)的切分区域被判定为过分割区域，需要合并，合并会有以下情况：

1)从上至下数，第一个切分区域被判定为过分割，则只可能与第2个区域合并；

2)从下往上，倒数第2个区域被判定为过分割，则只可能与倒数第一个区域合并；

3)若过分割区域位于中间，则需要考虑其相邻的上下两个区域。分别计算与上面区域合并后区域的高度h_up，和与下面区域合并后区域的高度h_lw，选择合并后高度小的那个合并方案；

4)若和上下两个区域的合并后高度相等，即根据3)不能确定合并方案，则分别计算和上下两个区域合并后的连通域个数，并选择连通域个数少的合并方案；

5)输出经区域合并后的切分行。

为此，采用以下规则合并过分割区域：

(1)若第1个切分区域过分割，则与第2个切分区域合并；否则转步骤(2).

(2)若倒数第2个切分区域过分割，则与最后一个切分区域合并；否则转步骤(3).

(3)若过分割区域既不是第1个，也不是倒数第2个，则分别计算其相邻的上、下2个切分区域的高度h_up和h_lw。如果h_up＜h_lw，则与上一个切分区域合并；如果h_up＞h_lw，则合并到下一个切分区域；否则转步骤(4).

(4)若过分割区域的上、下2个相邻区域的高度相等，则分别计算与上或下区域合并后的连通域个数num_up，num_lw。如果num_up＜num_lw，则与上一个切分区域合并；如果num_up＞num_lw，则与下一个切分区域合并。

(5)输出合并过分割区域的切分行序列。

由上述方案，得到满文部件切分结果，如图7所示，图7(1)-(2)是弱分割区域经过细切分的结果；图7(3)-(4)是过分割区域经过合并的结果。

由上述完成的满文部件切分结果进一步处理，以对满文部件识别，该识别方法除上述满文单词图像的切分外，还包括如下步骤：

(1)满文部件归一化

包括满文部件位置归一化和大小归一化。

满文部件位置归一化就是将满文部件图像以笔画像素点的最上、最下、最左、最右的像素点为边界，切除背景部分，只保留有笔画的部分。满文部件大小归一化是指将上述经过位置归一化后的图像归一化为相同的尺寸(例如:64像素×64像素)。

(2)满文部件特征提取

首先分别提取常用于少数民族文字特征提取的方法，包括：轮廓特征、网格特征、方向线素特征、视觉方向特征和仿射不变距特征。然后融合这些特征，并采用主成分分析对融合特征进行降维。

(3)满文部件识别

采用具有高斯核函数的支持向量机分类器，使用“一对其余”的多分类器组合规则实现对某个满文部件的识别。

(4)满文部件识别后处理，

对于识别好的满文部件，根据上下相邻部件的识别结果和满文字母的拼写规则，完成从部件到单词的重组，从而实现对满文单词的识别。

附表1：

Claims

1.一种满文部件切分中删除多余候选切分行的方法，其特征在于，候选切分行组成的序列为Can_seg，删除序列Can_seg中的多余候选切分行的步骤：

(4)输出删除了多余候选切分行的切分行序列Can_seg_new。