CN104809442B

CN104809442B - 一种东巴象形文字字素智能识别方法

Info

Publication number: CN104809442B
Application number: CN201510219254.7A
Authority: CN
Inventors: 陈晓; 王红军; 王海燕
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2015-05-04
Filing date: 2015-05-04
Publication date: 2017-11-17
Anticipated expiration: 2035-05-04
Also published as: CN104809442A

Abstract

本发明涉及一种东巴象形文字字素智能识别方法，它包括步骤：利用扫描仪从东巴象形文字经典中采集东巴象形文字图像字素，涉及18个属类；将采集到的东巴象形文字字素图像进行中值滤波、固定阈值分割、轮廓边界提取和形态学处理等图像预处理后，得到东巴象形文字字素的轮廓形状，并提取图像中表征单个东巴象形文字字素的几何特征，表征东巴象形文字字素的结构形状特征信息；实现表征单个字素的几何特征的提取，提取的几何特征包含7个Hu不变矩和120个zernike矩，7个Hu不变矩为低阶结构形状特征信息，120个zernike矩为高阶结构形状特征信息；建立东巴象形文字字素识别模型；东巴经典中字素智能识别。本发明可以广泛在文字识别领域中应用。

Description

一种东巴象形文字字素智能识别方法

技术领域

本发明涉及一种文字识别方法，特别是关于一种东巴象形文字字素智能识别方法。

背景技术

中国纳西族是世界上唯一用最古老的象形文字写下了数万卷经典的我国少数民族。2003年东巴经典古籍被联合国教科文组织列为“世界记忆遗产”。中国纳西族的东巴经典被国际权威组织认定其在世界文化发展史上占有重要地位。东巴祭司是纳西族传统文化重要传承者，东巴经典是用一种起帮助记忆作用的象形文语段写成，能翻译东巴经典的只有中国云南四川及藏区的几位老东巴祭司，需要在寥寥老者有生之年把流于海外的东巴经典采用现代数字化手段复制下来并翻译出来，否则将是无法弥补的重大损失。

东巴象形文所书写的东巴经典多达三万卷，共一千四百多种，超过半数的典籍都分别收藏在在美国、法国、德国、英国、意大利、瑞典、西班牙、瑞士等国家级图书馆和著名博物馆，这些流于海外的珍贵古籍面临着急需抢救的濒危状况。因此，运用图像处理以及模式基本等现代信息技术，研究东巴象形文字的图像描述，能够提供一种基于信息化智能化的科技手段，能够将国际上与世界各收藏机构资源共享的东巴文化传承，并为东巴文字的智能识别与分类提供手段与条件，并最终为东巴文化研究学者更好的研究东巴文化奠定基础。

从现有研究文献可知，现有对东巴文字的研究主要侧重文字输入法系统的开发，而鲜有东巴文的识别和分类研究。因此亟需提供一种能够对东巴象形文字进行识别的方法。

发明内容

针对上述问题，本发明的目的是提供一种东巴象形文字字素智能识别方法，该方法能准确、客观、快速获取东巴象形文字字素特征信息，实现东巴象形文字字素的识别。

为实现上述目的，本发明采取以下技术方案：一种东巴象形文字字素智能识别方法，其特征在于，它包括以下步骤：1)利用扫描仪从东巴象形文字经典中采集东巴象形文字图像字素1340个，涉及天象、地理、植物、飞禽、走兽、虫鱼、人称、人事、形体、服饰、居住、器用、饮食、行止、形状、数名、宗教和古人名号18个属类；读取原始图像信息，存储经典中每个字素的图像信息；2)将采集到的东巴象形文字字素图像进行中值滤波、固定阈值分割、轮廓边界提取和形态学处理等图像预处理后，得到东巴象形文字字素的轮廓形状，并提取图像中表征单个东巴象形文字字素的几何特征，表征东巴象形文字字素的结构形状特征信息；通过对图像中字素的识别实现表征单个字素的几何特征的提取，提取的几何特征包含7个Hu不变矩和120个zernike矩，7个Hu不变矩为低阶结构形状特征信息，120个zernike矩为高阶结构形状特征信息；3)建立东巴象形文字字素识别模型：首先，利用低阶结构形状特征信息作为判别特征，并对东巴字素结构形状特征信息进行训练后构建模式识别分类器，判别字素所属的属类；模式识别分类器的训练中，已知字素的低阶结构特征值被分为学习集和验证集两部分，学习集是从所有字符样本中随机抽取的，每个属类取三分之一的样本，剩下的样本作为验证样本；将低阶结构特征作为分类器的输入，经过反复学习确定分类器的各个参数值；(2)利用模式识别方法建立鉴别模型，以高阶结构形状特征信息为判别特征，识别东巴字素含义；(3)对各字素样本依先验知识赋予初值，建立字素识别模型，然后用验证集来评价识别模型的性能；4)东巴经典中字素智能识别：首先根据存储的经典中字素的形态结构特征，利用Hu不变矩作为线性判别分类器的输入，实现字素所属类别的判定；然后根据高阶zernike特征，利用训练后模式识别分类器识别字素。

所述步骤2)中，对所述图像中字素识别的方法采用多信息融合实现，步骤如下：(1)识别东巴象形文字字素图像中由纵线、横线判定出的东巴经典各段落的文字区域；(2)利用文字区域中的灰度特征标记段落内的连通区域，连通区域面积大于预先设定的阈值则判别为单个东巴字素，小于阈值则判别为待定字符；(3)通过计算待定字符中心与其四个方向上字符或字素中心的欧式距离，以最近距离原则匹配，判定待定字符所属的东巴字素，最终完成经典图片中所有字素识别。

所述步骤3)中，所述模式识别方法采用Bayes判别、神经网络或支持向量机。

本发明由于采取以上技术方案，其具有以下优点：1、本发明提供的识别方法可以快速、客观地识别东巴字素的潜在释义，解决翻译时间长、工作繁重等问题。2、本发明采用扫描仪获取东巴经典图像，具有成本低、图像质量高和便于携带、利于东巴经典数字化保存等优点，既利于流于海外的东巴经典的数字化复制，也能辅助东巴经典的研究学者完成经典翻译。3、本发明利用图像处理方法科学地描述东巴字素的形态结构特征，能够客观地反映字素构成的细微变化。4、本发明利用模式识别能够融合东巴字素多元结构信息，最终实现东巴字素识别。5、本发明提供的识别方法还具有较好地扩展能力，能完成现有东巴字素的图像采集与识别，甚至东巴典籍恢复，具有智能化程度高、操作快速、简便的特点。6、本发明利用不变矩的旋转、尺度不变形，所提取的特征能够表达东巴文字形态，增强其分类的效果，其能够改善由于手写带来的，文字尺度不同和形态微变引起的识别率下降问题。将其应用于东巴经典中字素的识别，能够提高算法对东巴文字识别的鲁棒性。本发明可以广泛在文字识别领域中应用。

附图说明

图1是本发明的整体流程示意图；

图2是本发明由纵线、横线判定出的东巴经典各段落文字区域示意图；

图3是本发明实施例中东巴象形文字字素图像样本情况示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示，为了更好地利用东巴字素形态结构特征，发挥它快速、简捷的特点，并更具准确与客观性。本发明提供一种东巴象形文字字素智能识别方法，利用计算机图像处理方法快速而准确地获取东巴经典的图像信息，能够科学地描述东巴象形文字字素特征信息，并使东巴研究学者从繁重的重复劳动中解脱出来；并利用模式识别方法融合东巴象形文字字素形态的多元特征信息，最终实现东巴象形文字字素的识别。其包括以下步骤：

1)利用扫描仪从东巴象形文字经典中采集东巴象形文字图像字素1340个，涉及天象、地理、植物、飞禽、走兽、虫鱼、人称、人事、形体、服饰、居住、器用、饮食、行止、形状、数名、宗教和古人名号等18个属类。读取原始图像信息，存储经典中每个字素的图像信息。

2)将采集到的东巴象形文字字素图像进行中值滤波、固定阈值分割、轮廓边界提取和形态学处理等图像预处理后，得到东巴象形文字字素的轮廓形状，并提取图像中表征单个东巴象形文字字素的几何特征，表征东巴象形文字字素的结构形状特征信息。其中，通过对图像中字素的识别实现表征单个字素的几何特征的提取，识别方法采用多信息融合实现，步骤如下：

(1)识别东巴象形文字字素图像中由纵线、横线判定出的东巴经典各段落的文字区域(如图2所示)；

(2)利用文字区域中的灰度特征标记段落内的连通区域，连通区域面积大于预先设定的阈值则判别为单个东巴字素，小于阈值则判别为待定字符；

(3)通过计算待定字符中心与其四个方向上字符或字素中心的欧式距离，以最近距离原则匹配，判定待定字符所属的东巴字素，最终完成经典图片中所有字素识别。

由于东巴象形文字的结构因具有图画或图形的形态，被称为“文字画”，其不具备现代汉字所定义的笔划及笔顺，无法袭用现有的汉字识别方法，且字形结构上存在较大的随意性，无标准字形，异体字众多。因此，本发明采用结构形状特征信息作为区分图像中的东巴文字的突出特征，将结构形状特征作为判别属类的主要特征参数。

本发明采用基于轮廓的骨架信息来构造形状的描述符，分析骨架的结构特征信息，根据结构特征信息的分布情况，将不同的结构特征信息来描述形状。本发明提取的几何特征包含7个Hu不变矩和120个zernike矩，提取特征共127个，构建对轮廓变形具有较强鲁棒性的形状描述符特征集；其中，7个Hu不变矩为低阶结构形状特征信息，120个zernike矩为高阶结构形状特征信息。

3)建立东巴象形文字字素识别模型：

(1)利用低阶结构形状特征信息作为判别特征，并对东巴字素结构形状特征信息进行训练后构建模式识别分类器，判别字素所属的属类(共18类)。

模式识别分类器的训练中，已知字素的低阶结构特征值被分为学习集和验证集两部分，学习集是从所有字符样本中随机抽取的，每个属类取三分之一的样本。剩下的样本作为验证样本。将低阶结构特征作为分类器的输入，经过反复学习确定分类器的各个参数值。其中，学习集与验证集的样本来自东巴经典，如《东巴经·除秽·人类迁徙传略》。

(2)利用模式识别方法建立鉴别模型，以高阶结构形状特征信息为判别特征，识别东巴字素含义。其中，以模式识别来进行判别分析，需要将各属类的标准样本分成学习集和验证集两部分，划分的依据是两个集合中的类别应相同，具有广泛的代表性。

(3)对各字素样本依先验知识赋予初值，建立字素识别模型，然后用验证集来评价识别模型的性能。

模式识别方法可以采用Bayes判别、神经网络或支持向量机。

4)东巴经典中字素智能识别：

首先根据存储的经典中字素的形态结构特征，利用Hu不变矩作为线性判别分类器的输入，实现字素所属类别的判定；

然后根据高阶zernike特征，利用训练后模式识别分类器识别字素。

实施例：

如图3所示，以五个属类东巴字素为例进一步介绍东巴象形文字字素智能识别方法。

1)利用扫描仪，采集五个属类的字素图像。利用纳西象形文字智能识别系统翻译经典，读取原始图像信息，存储经典中每个字素的图像信息。提取可表征形态结构信息的东巴字素图像结构形状特征参数，最终将结构形状特征作为判别属类的主要特征参数。

2)根据所采集东巴字素按照属类分别划为天象、地理、植物、走兽和人称五类，首先利用东巴字素结构形状特征信息作为判别特征，构建贝叶斯分类器，判别字素所属的属类。然后利用神经网络的方法建立了鉴别模型，以高阶纹理特征参数为判别特征，识别东巴字素含义。在神经网络模型的构建中，已知东巴字素的图像特征学习集和验证集两部分，学习集是从《纳西象形文字谱》中字素图像，文中的《东巴经·除秽·人类迁徙传略》经文作为验证样本。将特征作为神经网络的输入，经过反复学习确定神经网络的隐含层节点数、训练速率取、最大迭代数以及网络的拟合误差。

3)将《东巴经·除秽·人类迁徙传略》经文置于扫描仪上上，采集并获取原始图像，存储为24位bmp格式文件。完成经文中148个东巴字素图像处理与特征提取后，利用训练后的神经网络分类器进行字素识别。

综上所述，本发明利用了不变矩的旋转、尺度不变形，所提取的特征能够表达东巴文字形态，增强其分类的效果，其能够改善由于手写带来的，文字尺度不同和形态微变引起的识别率下降问题。将其应用于东巴经典中字素的识别，能够提高算法对东巴文字识别的鲁棒性。

上述各实施例仅用于说明本发明，各步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种东巴象形文字字素智能识别方法，其特征在于，它包括以下步骤：

1）利用扫描仪从东巴象形文字经典中采集东巴象形文字图像字素1340个，涉及天象、地理、植物、飞禽、走兽、虫鱼、人称、人事、形体、服饰、居住、器用、饮食、行止、形状、数名、宗教和古人名号18个属类；读取原始图像信息，存储经典中每个字素的图像信息；

2）将采集到的东巴象形文字字素图像进行中值滤波、固定阈值分割、轮廓边界提取和形态学处理图像预处理后，得到东巴象形文字字素的轮廓形状，并提取图像中表征单个东巴象形文字字素的几何特征，表征东巴象形文字字素的结构形状特征信息；通过对图像中字素的识别实现表征单个字素的几何特征的提取，提取的几何特征包含7个Hu不变矩和120个zernike矩，7个Hu不变矩为低阶结构形状特征信息，120个zernike矩为高阶结构形状特征信息；

3）建立东巴象形文字字素识别模型：

首先，利用低阶结构形状特征信息作为判别特征，并对东巴字素结构形状特征信息进行训练后构建模式识别分类器，判别字素所属的属类；

模式识别分类器的训练中，已知字素的低阶结构特征值被分为学习集和验证集两部分，学习集是从所有字符样本中随机抽取的，每个属类取三分之一的样本，剩下的样本作为验证样本；将低阶结构特征作为分类器的输入，经过反复学习确定分类器的各个参数值；

（2）利用模式识别方法建立鉴别模型，以高阶结构形状特征信息为判别特征，识别东巴字素含义；

（3）对各字素样本依先验知识赋予初值，建立字素识别模型，然后用验证集来评价识别模型的性能；

4）东巴经典中字素智能识别：

2.如权利要求1所述的一种东巴象形文字字素智能识别方法，其特征在于：所述步骤2）中，对所述图像中字素识别的方法采用多信息融合实现，步骤如下：

（1）识别东巴象形文字字素图像中由纵线、横线判定出的东巴经典各段落的文字区域；

（2）利用文字区域中的灰度特征标记段落内的连通区域，连通区域面积大于预先设定的阈值则判别为单个东巴字素，小于阈值则判别为待定字符；

（3）通过计算待定字符中心与其上下左右四个方向上字符或字素中心的欧式距离，以最近距离原则匹配，判定待定字符所属的东巴字素，最终完成经典图片中所有字素识别。

3.如权利要求1所述的一种东巴象形文字字素智能识别方法，其特征在于：所述步骤3）中，所述模式识别方法采用Bayes判别、神经网络或支持向量机。