CN106778756B

CN106778756B - 梵文天城体印刷字符拉丁转写图像识别方法

Info

Publication number: CN106778756B
Application number: CN201611113938.XA
Authority: CN
Inventors: 刘松柏
Original assignee: Hangzhou Buddhist Academy
Current assignee: Hangzhou Buddhist Academy
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2020-04-21
Anticipated expiration: 2036-12-07
Also published as: CN106778756A

Abstract

本发明公开了一种梵文天城体印刷字符拉丁转写图像识别方法，包括：(1)对包含梵文天城体印刷字符的字符图片进行扫描，基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割，得到若干梵文天城体印刷字符块；(2)对得到的梵文天城体印刷字符块进行识别，得到梵文天城体印刷字符块对应的特征向量；(3)将得到的特征向量与标准拉丁字符的特征向量进行对比，根据对比结果，将识别的梵文天城体印刷字符块转为拉丁字符。本发明实现了从梵文天城体无噪声印刷字符图像到对应拉丁字符的直接转换，且准确度高，基本达到100％正确率。本发明所用的图像识别算法方便易行，效率高。本发明提供的技术方案易于实现，适用于实际文献研究应用。

Description

梵文天城体印刷字符拉丁转写图像识别方法

技术领域

本发明属于计算机文字图像识别领域，具体涉及一种梵文天城体无噪声印刷字符拉丁转写图像识别方法。

背景技术

梵文不仅是一种优美的语言，而且更具有细密完整的变位系统，这已经引起了现代科学家的极大兴趣。正是因为梵文具有完善的语法规则，很适合用计算机来处理。利用现在计算机技术带来的便利，可以促进我们对梵文文献的学习利用，加速佛经的梵汉对比研究。作为梵文佛典计算机识别研究的第一步需要实现对佛典文本的数字化和自动化识别，解决信息处理系统中手动输入效率低这一关键问题，可以节省大量的识别转写人力工作，这是文献数字化过程中极为耗时的过程。

随着计算机技术的迅速发展，计算机文字识别不断取得新的进展，极大提高了人类处理文字信息的能力。文字识别包括数字字符识别、文字字符识别，由于数字字符识别和英文字符识别难度相对不大，目前已经研究得比较充分，识别率也比较高。然而梵文字符由于其文字结构的复杂性，字符识别比较困难，因此梵文字符的图像识别研究相对较少。由于梵文字符的复杂性不易进行后续研究，通常需要将其转换为拉丁字符，方便后续的分词和释义，因而实现从梵文字符图像到拉丁字符的直接转换能够大大提高梵文文献的处理效率，能够很大程度加速翻译进程，具有重要的意义。

发明内容

本发明提供了一种梵文天城体无噪声印刷字符拉丁转写图像识别方法，实现了从梵文天城体无噪声印刷字符图像到对应拉丁字符的直接转换，正确率高，能够显著提高梵文文献的处理效率。

一种梵文天城体无噪声印刷字符拉丁转写图像识别方法，包括如下步骤：

(1)对包含梵文天城体印刷字符的字符图片进行扫描，基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割，得到若干梵文天城体印刷字符块；

(2)对得到的梵文天城体印刷字符块进行识别，得到梵文天城体印刷字符块对应的特征向量；

(3)将得到的特征向量与标准拉丁字符的特征向量进行对比，根据对比结果，将识别的梵文天城体印刷字符块转为拉丁字符。

作为优选，步骤(1)中，对所述字符图片进行梵文天城体印刷字符块分割的方法为：

(1-1)对所述字符图片进行扫描后，识别出当前梵文天城体印刷字符对应的文字区域以及与文字区域相连的空白区域；

(1-2)同时识别出该梵文天城体印刷字符的连接符；

(1-3)利用在垂直于连接符的方向上最大空白区域对得到的文字区域进行分割，分割出所述梵文天城体印刷字符块。

本发明中，对于文字区域和空白区域的识别，可通过读取像素点的像素值确定；常见的字符图片为黑白字符图片，可直接进行识别，像素值(灰度值)高于某一特定值的可判定为文字区域内的像素点，对于低于某一特定值的可判定为空白区域的像素点。对于彩色的字符图片，我们可以对图片进行预处理，将图片进行灰度化和二值化等，转化为计算机容易识别的图样，以加快计算速度和效率。

一般情况下，梵文天城体印刷字符的连接符为水平的横线结构。

相邻两个梵文天城体印刷字符块的分割位置在字符块间垂直方向字符空白最大的地方，本发明得到的字符块有完全分开的字符块和连接在一起的字符块。完全分开的字符块有Anusvāra符号、Visarga符号、Avagraha符号、元音上标符号等，连接在一起的字符块有叠加辅音字符群、垂直方向有重叠的字符群等。

两个相邻梵文天城体印刷字符块之间的分界线位于所述最大空白区域处。这里说到的最大空白区域，一般是指在垂直于连接符的方向长空白区域的总的高度值。该高度值一般与连接符所在的位置，以及梵文天城体印刷字符的行宽度有关，一般为连接符距离该行宽边界之间的距离。

作为优选，步骤(1-3)中，对文字区域进行分割时，分别对连接符两侧的文字区域进行分割。即，对其中一侧的文字区域独立的进行分割。

作为优选，步骤(2)中，利用九宫格或田字格的方法对梵文天城体印刷字符块进行识别。

作为进一步优选，步骤(2)中，以梵文天城体顶部为上，对于位于连接符下方的梵文天城体印刷字符块采用九宫格方法进行识别，对于位于连接符上方的梵文天城体印刷字符块采用田字格方法进行识别。

所述的九宫格编码为对字符块纵横各分为等长度的三部分，田字格编码为对字符块纵横各分为等长度的两部分。所述的九宫格编码为对等分的九部分进行像素统计形成九维特征向量，田字格编码为对等分的四部分进行像素统计形成四维维特征向量。即作为优选，利用所述九宫格方法进行识别的过程为：利用三组横线和三组竖线，将梵文天城体印刷字符块均为九份，求取每份的像素值，归一化，得到梵文天城体印刷字符块的九维特征向量。作为优选，利用所述田字格方法进行识别的过程为：利用两组横线和两组竖线，将梵文天城体印刷字符块均为四份，求取每份的像素值，归一化，得到梵文天城体印刷字符块的四维特征向量。

作为优选，步骤(3)中，采用最小方差匹配法进行对比，即具有最小方差结果的标准拉丁字符即为当前梵文天城体印刷字符对应的拉丁字符。

作为优选，步骤(3)中，所述的拉丁字符转换基于字符块特征向量与对应拉丁字符集的特征向量进行比对，利用最小差异匹配完成拉丁字符识别转换，即：

其中x_n为九维特征向量或者四维特征向量中的某一特征向量值，x_0n为标准拉丁字符集的九维特征向量或者四维特征向量的某一特征向量值。

作为优选，所述标准拉丁字符的特征向量是由已知的梵文天城体印刷字符计算得到。

本发明相对于现有梵文字符图像识别方法具有如下优点：

(1)本发明实现了从梵文天城体无噪声印刷字符图像到对应拉丁字符的直接转换，且准确度高，基本达到100％正确率。

(2)本发明所用的图像识别算法方便易行，效率高。

(3)本发明提供的技术方案易于实现，适用于实际文献研究应用。

附图说明

图1为本发明的基于图像识别的梵文天城体-拉丁字符转换方法的流程图；

图2为实施例1中待识别的梵文印刷字符图片；

图3为实施例2中待识别的梵文印刷字符图片；

图4为实施例3中待识别的梵文印刷字符图片。

具体实施方式

下面结合实施例对本发明作进一步详细的描述，但本发明的实施方式不限于此。

参考图1，图2：一种基于图像识别的梵文天城体-拉丁字符转换方法，包括如下步骤：

(1)基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割，具体为：

(1-1)对印刷有待转化的梵文天城体印刷字符的梵文印刷字符图片进行扫描，识别梵文天城体印刷字符对应的文字区域以及与文字区域相连的空白区域；

该步骤可以采用逐行扫描的方式进行扫描；其中的识别过程可以通过对比每个像素点的像素值大小或者灰度值大小进行识别；为便于像素点的识别，对于彩色梵文天城体印刷字符的梵文天城体印刷字符图片，可以先进行灰度化和二值化等预处理，得到对应的灰度图像，对于灰度值为0的区域可定义为空白区域(图2中白色对应的区域)，对于灰度值为255的点可以定义为文字区域(图2中黑色对应的部分)；

(1-2)同时识别出该梵文天城体印刷字符的水平连接符，其中水平连接符为横向水平设置的横线段结构，可通过像素值大小识别水平连接符的位置、宽度和长度；

我们在扫描和识别时，可设定水平连接符的方向为x轴方向(或水平方向)，垂直于连接符的方向可设定为y轴方向(或者垂直方向)；

(1-3)对得到的文字区域进行分割，分割出一个或多个梵文天城体印刷字符块，分割方法为：

对于连接符上面和下面的文字区域和空白区域分别进行判断；比如，先对连接符下面提取的那些在y轴方向上尺寸最长(一般可根据连接符的位置以及每行梵文天城体印刷字符的扫描宽度或者行宽度进行确定，最长值一般为连接符距离相邻行之间的宽度值)的空白区域，被这些空白区域分割的文字区域部分所在的图像区域构成一个或多个梵文天城体印刷字符块；对于其中一个梵文天城体字符块，其为底边(位于连接符上方的梵文天城体字符块)或者顶边(位于连接符下方的梵文天城体字符块)与连接符位置重合的矩形字符块，该矩形在x轴方向的宽度为该梵文天城体字符块内文字区域上所有像素点相距最远的两个像素点的x坐标的差值，在y轴方向的高度为该梵文天城体字符块内文字区域上所有像素点相距最远的两个像素点的y坐标的差值；

(2)基于九宫格或者田字格方法对梵文天城体印刷字符块进行识别：对于位于连接符上方(y轴方向)的梵文天城体印刷字符块采用田字格方法进行识别，对于位于连接符下方(y轴方向)的梵文天城体印刷字符块采用九宫格方法进行识别，具体为：

(i)利用九宫格方法对梵文天城体印刷字符块进行编码，即对梵文天城体印刷字符块纵横各分为等长度的三部分，对等分的九部分进行像素值统计，然后归一化，得到该梵文天城体印刷字符块的九维特征向量；参考图1所示；

(ii)同样，对较小块的梵文天城体印刷字符块基于田字格方法对字符块进行编码，即对梵文天城体印刷字符块纵横各分为等长度的两部分，对等分的四部分进行像素值统计，然后归一化，得到字符块的四维特征向量。

(3)将得到的九维特征向量或者四维特征向量与已知的标准拉丁字符集的特征向量(通过已知的梵文天城体印刷字符计算得到)进行比对，利用向量之间最小方差匹配完成拉丁字符识别转换，即：

其中x_n为九维特征向量或者四维特征向量中的某一特征向量值，x_0n为标准拉丁字符集的九维特征向量或者四维特征向量的某一特征向量值；

为进一步验证本发明的可性能，下面利用上述方法对实际的梵文印刷字符图片进行实际识别，详见实施例1～3：

实施例1

如图2所示的梵文天城体印刷字符图片，通过上述梵文天城体印刷字符块分割方法分割得到6个梵文天城体印刷字符块，通过九宫格方法和田字格方法进行编码，求取像素值和归一化处理，分别计算方法得到各个字符块的九维特征向量，如下表1所示：

表1

其中，字符向量编号方式，采用图1中的编号方式进行标号；梵文天城体印刷字符块1～6以及连接符7分别如图2所示；其中梵文天城体印刷字符块1～5采用九宫格方法，梵文天城体印刷字符块6采用田字格方法。字符向量x的编号方式是：九宫格是从左到右，从下到上，田字格是从左到右，从上到下。

通过最小方差匹配得到识别后的拉丁字符识别转换：

识别正确率100％。

实施例2

如图3所示梵文印刷字符图片，按照上述方法，通过字符块分割得到11个字符块(按照图2的标注方式，从连接符下方开始，自左到右分别是梵文天城体印刷字符块1～8，然后连接符上方开始，自左到右为梵文天城体印刷字符块9～11)，通过九宫格或者田字格计算方法得到各个字符块的九维特征向量，如下表2所示：

表2

通过最小方差匹配得到识别后的拉丁字符识别转换：

识别正确率100％。

实施例3

如图4所示梵文印刷字符图片，通过字符块分割得到14个字符块(编号同实施例2)，通过九宫格和田字格计算方法得到各个字符块的九维特征向量，如下表3所示：

表3

通过最小方差匹配得到识别后的拉丁字符识别转换：

karhicit，识别正确率100％。

由实施例1～3的验证结果可知，采用本发明的转换方法，精度高，正确率均为100％，具有较强的实用性。

Claims

1.一种梵文天城体印刷字符拉丁转写图像识别方法，其特征在于，包括如下步骤：

(3)将得到的特征向量与标准拉丁字符的特征向量进行对比，根据对比结果，将识别的梵文天城体印刷字符块转为拉丁字符；

步骤(1)中，对所述字符图片进行梵文天城体印刷字符块分割的方法为：

(1-2)同时识别出该梵文天城体印刷字符的连接符；

(1-3)利用在垂直于连接符的方向上最大空白区域对得到的文字区域进行分割，分割出所述梵文天城体印刷字符块；

步骤(1-3)中，对文字区域进行分割时，分别对连接符两侧的文字区域进行分割；

步骤(2)中，利用九宫格或田字格的方法对梵文天城体印刷字符块进行识别；

步骤(2)中，以梵文天城体顶部为上，对于位于连接符下方的梵文天城体印刷字符块采用九宫格方法进行识别，对于位于连接符上方的梵文天城体印刷字符块采用田字格方法进行识别；

步骤(3)中，采用最小方差匹配法进行对比，即具有最小方差结果的标准拉丁字符即为当前梵文天城体印刷字符对应的拉丁字符；

步骤(3)中，所述标准拉丁字符的特征向量是由已知的梵文天城体印刷字符计算得到。

2.根据权利要求1所述的梵文天城体印刷字符拉丁转写图像识别方法，其特征在于，利用九宫格方法进行识别的过程为：利用三组横线和三组竖线，将梵文天城体印刷字符块均为九份，求取每份的像素值，归一化，得到梵文天城体印刷字符块的九维特征向量。

3.根据权利要求1所述的梵文天城体印刷字符拉丁转写图像识别方法，其特征在于，利用田字格方法进行识别的过程为：利用两组横线和两组竖线，将梵文天城体印刷字符块均为四份，求取每份的像素值，归一化，得到梵文天城体印刷字符块的四维特征向量。