CN109409378A

CN109409378A - 一种纳西东巴经书的数字化处理方法

Info

Publication number: CN109409378A
Application number: CN201811206914.8A
Authority: CN
Inventors: 徐小力; 刘秀丽; 丁春艳; 吴国新
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-03-01

Abstract

本发明涉及一种纳西东巴经书的数字化处理方法，其包括以下步骤：采用东巴经书CCD数字采集系统对东巴经典古籍进行数字化采集；对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理；对去噪后的东巴经典古籍图像信息进行图像二值化处理，增强目标文字图像与背景的对比度；对二值化处理后的东巴经典古籍图像中的文字进行边缘检测；对边缘检测后的东巴经典古籍图像中的文字进行切分；将切分后的东巴形文图像归一化，完成东巴经典古籍的数字化处理。本发明能降低图片偏差，提高东巴文的辨识率。

Description

一种纳西东巴经书的数字化处理方法

技术领域

本发明涉及东巴象形文字处理技术领域，特别是关于一种面向东巴经书文字预处理的纳西东巴经书的数字化处理方法。

背景技术

东巴象形文字，本语称为森究鲁究，意思是木石的痕迹，即见木画木、见石画石，是一种用图画的方式写成的文字。东巴祭司用这种文字记录宗教活动，书写成一部部的东巴经典。东巴经书是纳西族古代社会生活与习俗的百科全书，它详尽地描述了东巴文化，记载有生活中天文气象、历史地理、人文风情、宗教信仰等内容。而作为东巴文化的载体，东巴经记载了纳西民族的祭祀仪式与道场，包括祭天、祭山神、祭祖先等24类。国内外研究东巴文化的专家学者认为：东巴经书是研究东巴文化的重要资料，也是研究古代纳西族的社会历史、语言文字、伦理道德等的重要依据，对探寻中国远古文化有重要意义。

对纸质的东巴经典古籍进行数字化图像采集时，可能由于摄像头的偏斜或者对焦不准等原因，造成采集到的图像失真模糊；也可能由硬件采集系统自身的原因，导致采集到的图像带有一定的噪点；再加上东巴经典古籍诞生的年代久远，经历了上千年历史的洗礼，很多经书都有了不同程度的破损以及表面的磨损、污渍等，从而降低了采集到的图像中东巴象形文的清晰度，造成了东巴象形文与实际文字的偏差。

基于“世界记忆遗产”东巴经典传承体系数字化国际共享平台建设研究的支持，许多东巴经书从世界各地被收集回来，迫切需要一种方法对这些东巴经书进行数字化的加工，恢复其因年代久远而失去的信息，并对其进行保存，传输与共享。

发明内容

针对上述问题，本发明的目的是提供一种纳西东巴经书的数字化处理方法，该方法能降低图片偏差，提高东巴文的辨识率。

为实现上述目的，本发明采取以下技术方案：一种纳西东巴经书的数字化处理方法，其包括以下步骤：(1)采用东巴经书CCD数字采集系统对东巴经典古籍进行数字化采集；(2)对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理；(3)对去噪后的东巴经典古籍图像信息进行图像二值化处理，增强目标文字图像与背景的对比度；(4)对二值化处理后的东巴经典古籍图像中的文字进行边缘检测；(5)对边缘检测后的东巴经典古籍图像中的文字进行切分；(6)将切分后的东巴形文图像归一化，完成东巴经典古籍的数字化处理。

进一步，所述步骤(2)中，自适应中值滤波的方法包括以下步骤：2.1)设置初始滤波窗口的大小为S_xy；2.2)对窗口对应的像素灰度值进行从小到大的排序；2.3)计算A1、A2、B1、B2：A1＝Z_med-Z_min，A2＝Z_med-Z_max,B1＝Z_xy-Z_min，B2＝Z_xy-Z_max；Z_med为滤波窗口灰度的中值；Z_min为滤波窗口灰度最小值；Z_max为滤波窗口灰度最大值；Z_xy为点(x,y)的灰度值；2.4)判断是否满足A1>0且A2<0；不满足则将滤波窗口尺寸增大，将窗口大小+2，并判断窗口大小是否小于等于滤波窗口最大窗口尺寸S_max，若小于等于则返回步骤2.1)，反之则图像中的Z_xy保持原来的灰度值不变；若满足A1>0且A2<0，则进入步骤2.5)；2.5)判断是否满足B1>0且B2<0，满足则图像中的Z_xy保持原来的灰度值不变；反之则另Z_xy＝Z_med。

进一步，所述步骤(3)中，根据预先选取的阈值来划分前景和背景，令f(x,y)表示灰度图像，则有：

式中，f(x,y)为灰度图像，g(x,y)为阈值处理后的二值图像，其中取值为a的像素是前景目标，取值为b的像素是背景；T为阈值。

进一步，所述阈值T采用迭代方法获取步骤为：3.1)针对全局阈值选择初始阈值T₀；3.2)用T₀将图像分割成两部分区域G₁和G₂，并分别计算G₁、G₂区域内的平均灰度值m₁和m₂；3.3)根据平均灰度值m₁和m₂计算新阈值T：

3.4)重复步骤3.2)-3.3)，直到m₁和m₂不再变化为止，则T为阈值。

进一步，所述步骤(4)中，文字边缘检测采用Canny算法进行检测，Canny算法的步骤如下：4.1)根据图像灰度的偏导数(G_x,G_y)，计算梯度的大小|G|和方向θ：4.2)采用遍历的方法分别沿着文字边缘的梯度方向，分为水平、竖直、45°方向和135°方向四种，用不同的邻近像素进行比较，以决定局部极大值；4.3)根据最大阈值T_max和最小阈值T_min检测边缘，T_min＝0.4T_max：某点像素值设为A，若A＞T_max，则该点是边缘点，若A＜T_min，则该点不是边缘点，如果T_min＜A＜T_max，则需要再次判断该点的邻接点B，若B＞T_max，则A点是边缘点，否则不是边缘点。

进一步，所述步骤4.2)中，具体比较方法如下：若某个像素值的灰度值与其梯度方向上前后两个像素的灰度值相比不是最大的，则该点为内部点，应该设置为零点；相反，则为边缘，置为1。

进一步，所述步骤(5)中，对东巴象形文的切分总体分为两步，第一步是行切分，第二步是列切分。

进一步，所述行切分根据水平方向投影的原理，映射出每一行的上下边缘，包括以下步骤：5.1.1)沿着水平方向做东巴象形文图像的投影，对每个像素点进行遍历搜索，并按行计算黑色像素点的数量；5.1.2)若某一行中没有黑色点，并且下面两行中均存在黑色点，则这一行为上边缘；5.1.3)若某一行中存在至少一个黑色点，并且下面两行中均存在黑色点，则继续进行遍历搜索；5.1.4)若某一行中存在至少一个黑色点，并且下面两行中均不存在黑色点，则这一行为下边缘；5.1.5)按照上述步骤对每一行进行遍历，并且把相邻的上边缘和下边缘作为一组，将连续的下边缘与下边缘做差，得到的结果则为东巴象形文的高度。

进一步，所述列切分根据垂直方向投影的原理，将每一行的每个文字映射出左右边缘，从而分离出单个东巴象形文字，其包括以下步骤：5.2.1)沿着垂直方向做东巴象形文图像的投影，对每个像素点进行遍历搜索，并按列计算黑色像素点的数量；5.2.2)若某一列中没有黑色点，并且后面两列中均存在黑色点，则这一列为左边缘；5.2.3)若某一列中存在至少一个黑色点，并且后面两列中均存在黑色点，则继续进行遍历搜索；5.2.4)若某一列中存在至少一个黑色点，并且后面两列中均不存在黑色点，则这一列为右边缘；5.2.5)按照上述步骤对每一列进行遍历，并且把相邻的左边缘和右边缘作为一组，将连续的右边缘与左边缘做差，得到的结果则为东巴象形文的宽度。

进一步，所述步骤(6)中，归一化的具体算法包括以下步骤：6.1)计算书写轨迹的外接矩形，将矩形的左上角和右下角坐标分别标记为(x_min,y_min)，(x_max,y_max)，中心点标记为(x_c,y_c)，令：

6.2)矩形大小定义为W×W，令W＝64，将外接矩形的中心点平移到归一化后的矩形中心原来某点(x,y)平移后所有点的坐标(x₁,y₁)为：

6.3)分别计算长、宽方向的缩放比例ratio_x、ratio_y，两缩放比例的最小值定义为整个矩形的缩放比例ratio：

ratio＝min(ratio_x,ratio_y)；

6.4)归一化后的新坐标(x′,y′)定义为：

x′＝x₁×ratio

y′＝y₁×ratio。

本发明由于采取以上技术方案，其具有以下优点：1、本发明根据图片的需要采取了一系列的图像预处理技术手段，改善图片质量，最大程度的降低偏差，提高东巴文的辨识率。2、本发明在保证处理效果的基础上，提高了图片处理的速度。

附图说明

图1是本发明的整体流程图；

图2是东巴经书CCD数字采集系统；

图3是利用东巴经书CCD数字采集系统采集到的东巴经书；

图4是自适应中值滤波流程图；

图5是二值化后的东巴经典古籍图像；

图6可分割的灰度直方图；

图7是用于边缘检测的原图像；

图8是检测到文字边缘的图像；

图9是用于切分的东巴经典古籍图像；

图10是水平投影图；

图11是行切分出的一行文字；

图12是垂直投影图；

图13是切分出的每个象形文；

图14是归一化后的东巴象形文。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明提供一种纳西东巴经书的数字化处理方法，其包括以下步骤：

(1)采用东巴经书CCD数字采集系统对东巴经典古籍进行数字化采集；

如图2所示，东巴经书CCD数字采集系统由CCD图像传感器、光学系统、驱动电路、控制电路、A/D数据采集模块、USB接口电路、外部存储器以及计算机构成。东巴经典古籍信息依次经光学系统和CCD图像传感器传输至A/D数据采集模块，A/D数据采集模块将采集到的信息传输至外部存储器和控制电路，且A/D数据采集模块与控制电路进行信息交互；外部存储器和控制电路都经过USB接口电路与计算机连接。控制电路根据A/D数据采集模块传输至的信息控制驱动电路，由驱动电路驱动CCD图像传感器工作。采集到的东巴经书如图3所示。

其中，光学系统、控制电路和驱动电路都集成于大恒MER-2000-19U3M-L，采用SonyIMX 183CMOS感光芯片，通过USB3.0数据接口进行图像数据的传输。

(2)对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理。

定义：

Z_min:滤波窗口灰度最小值；

Z_max:滤波窗口灰度最大值；

Z_med:滤波窗口灰度的中值；

Z_xy:点(x,y)的灰度值；

S_max:滤波窗口最大窗口尺寸。

如图4所示，自适应中值滤波的方法包括以下步骤:

2.1)设置初始滤波窗口的大小为S_xy；

2.2)对窗口对应的像素灰度值进行从小到大的排序；

2.3)计算A1、A2、B1、B2：

A1＝Z_med-Z_min，A2＝Z_med-Z_max,B1＝Z_xy-Z_min，B2＝Z_xy-Z_max；

2.4)判断是否满足A1>0且A2<0；不满足则将滤波窗口尺寸增大，优选将窗口大小+2，并判断窗口大小是否小于等于S_max，若小于等于则返回步骤2.1)，反之则图像中的Z_xy保持原来的灰度值不变；若满足A1>0且A2<0，则进入步骤2.5)；

2.5)判断是否满足B1>0且B2<0，满足则图像中的Z_xy保持原来的灰度值不变；反之则另Z_xy＝Z_med。

(3)对去噪后的东巴经典古籍图像信息进行图像二值化处理：

在文字识别的过程中，需要关注的只是象形文的笔划特征，而不是色彩，所以为了方便后续的处理，将图像二值化，从而增强目标文字图像与背景的对比度，如图5所示。

当图像的灰度直方图呈现图6的情况时，此时可以根据预先选取的阈值来划分前景和背景。令f(x,y)表示灰度图像，则有：

式中，f(x,y)为灰度图像，g(x,y)为阈值处理后的二值图像，其中取值为a的像素是前景目标，取值为b的像素是背景。通常令a＝1(白)，b＝0(黑)。

在直方图有两个分离的峰值，图像的阈值一般会在峰值之间的波谷处。此时，阈值T的选择可根据反复实验选取最好的观测结果。或者使用迭代方法获取阈值T，具体计算步骤为：

3.1)针对全局阈值选择初始阈值T₀。

3.2)用T₀将图像分割成两部分区域G₁和G₂，并分别计算G₁、G₂区域内的平均灰度值m₁和m₂。

3.3)根据平均灰度值m₁和m₂计算新阈值T：

(4)对二值化处理后的东巴经典古籍图像中的文字进行边缘检测：

文字边缘检测采用Canny算法进行检测；为了避免噪声的影响，Canny算法采用设置两个阈值的方法。Canny算法的具体步骤如下：

4.1)根据图像灰度的偏导数(G_x,G_y)，计算梯度的大小|G|和方向θ：

4.2)采用遍历的方法分别沿着文字边缘的梯度方向，大致分为水平、竖直、45°方向和135°方向四种，用不同的邻近像素进行比较，以决定局部极大值,进而剔除掉一大部分非边缘的点；

具体方法如下：

若某个像素值的灰度值与其梯度方向上前后两个像素的灰度值相比不是最大的，则该点为内部点，应该设置为零点；相反，则为边缘，置为1。

4.3)根据最大阈值T_max和最小阈值T_min检测边缘，T_min＝0.4T_max：某点像素值设为A，若A＞T_max，则该点是边缘点，若A＜T_min，则该点不是边缘点，如果T_min＜A＜T_max，则需要再次判断该点的邻接点B，若B＞T_max，则A点是边缘点，否则不是边缘点。

用于边缘检测的原图像如图7所示，进行边缘检测后得到的文字边缘的图像如图8所示。

(5)对边缘检测后的东巴经典古籍图像中的文字进行切分：

对东巴象形文字的特征提取是针对每一个象形文而言的，所以要对东巴经典古籍中的文字进行切分，分离出单个的象形文。采取行、列分别投影结合像素追踪的方法将东巴经典古籍图像中的一篇东巴文一个个拆分开来。对东巴象形文的切分总体分为两步，第一步是行切分，第二步是列切分。

5.1)行切分

行切分主要根据水平方向投影的原理，映射出每一行的上下边缘。

5.1.1)沿着水平方向做东巴象形文图像的投影，对每个像素点进行遍历搜索，并按行计算黑色像素点的数量；

5.1.2)若某一行中没有黑色点，并且下面两行中均存在黑色点，则这一行为上边缘；

5.1.3)若某一行中存在至少一个黑色点，并且下面两行中均存在黑色点，则继续进行遍历搜索；

5.1.4)若某一行中存在至少一个黑色点，并且下面两行中均不存在黑色点，则这一行为下边缘；

5.1.5)按照上述步骤对每一行进行遍历，并且把相邻的上边缘和下边缘作为一组，将连续的下边缘与下边缘做差，得到的结果则为东巴象形文的高度。

5.2)列切分

列切分主要根据垂直方向投影的原理，将每一行的每个文字映射出左右边缘，从而分离出单个东巴象形文字。

5.2.1)沿着垂直方向做东巴象形文图像的投影，对每个像素点进行遍历搜索，并按列计算黑色像素点的数量；

5.2.2)若某一列中没有黑色点，并且后面两列中均存在黑色点，则这一列为左边缘；

5.2.3)若某一列中存在至少一个黑色点，并且后面两列中均存在黑色点，则继续进行遍历搜索；

5.2.4)若某一列中存在至少一个黑色点，并且后面两列中均不存在黑色点，则这一列为右边缘；

5.2.5)按照上述步骤对每一列进行遍历，并且把相邻的左边缘和右边缘作为一组，将连续的右边缘与左边缘做差，得到的结果则为东巴象形文的宽度。

例如，如图9所示，首先对用于切分的东巴经典古籍图像作水平方向的投影，即按照行对其像素值进行累加，得到如图10所示的水平投影图，根据该图可以将东把经书进行行切分。

再单独将每一行东巴象形文图像，作垂直方向的投影，即按列统计每个像素点的灰度值，对垂直投影图进行分析后对每一行文字进行列切分，从而分离出每一文字。这里提取出刚才切分出的第三行，如图11所示，对其进行垂直投影，如图12所示。

将此行文字采用垂直投影切分出单个东巴象形文如图13所示。

(6)将切分后的东巴形文图像归一化，完成东巴经典古籍的数字化处理；

由于东巴经典古籍是由不同的老东巴书写而成，东巴象形文字的根据作者的习惯而具有不同的尺寸，所以为了方便后续的处理与准确识别，将东巴文归一化成等同的64×64尺寸。

归一化的具体算法包括以下步骤：

6.1)计算书写轨迹的外接矩形，将矩形的左上角和右下角坐标分别标记为(x_min,y_min)，(x_max,y_max)，中心点标记为(x_c,y_c)，令：

ratio＝min(ratio_x,ratio_y)

6.4)归一化后的新坐标(x′,y′)定义为：

x′＝x₁×ratio

y′＝y₁×ratio。

按照该方法归一化后的文字如图14所示。

上述各实施例仅用于说明本发明，各步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种纳西东巴经书的数字化处理方法，其特征在于，包括以下步骤：

(2)对采集到的东巴经典古籍图像信息进行自适应中值滤波去噪处理；

(3)对去噪后的东巴经典古籍图像信息进行图像二值化处理，增强目标文字图像与背景的对比度；

(4)对二值化处理后的东巴经典古籍图像中的文字进行边缘检测；

(5)对边缘检测后的东巴经典古籍图像中的文字进行切分；

(6)将切分后的东巴形文图像归一化，完成东巴经典古籍的数字化处理。

2.如权利要求1所述方法，其特征在于：所述步骤(2)中，自适应中值滤波的方法包括以下步骤：

2.1)设置初始滤波窗口的大小为S_xy；

2.2)对窗口对应的像素灰度值进行从小到大的排序；

2.3)计算A1、A2、B1、B2：

A1＝Z_med-Z_min，A2＝Z_med-Z_max,B1＝Z_xy-Z_min，B2＝Z_xy-Z_max；Z_med为滤波窗口灰度的中值；Z_min为滤波窗口灰度最小值；Z_max为滤波窗口灰度最大值；Z_xy为点(x,y)的灰度值；

2.4)判断是否满足A1>0且A2<0；不满足则将滤波窗口尺寸增大，将窗口大小+2，并判断窗口大小是否小于等于滤波窗口最大窗口尺寸S_max，若小于等于则返回步骤2.1)，反之则图像中的Z_xy保持原来的灰度值不变；若满足A1>0且A2<0，则进入步骤2.5)；

3.如权利要求1所述方法，其特征在于：所述步骤(3)中，根据预先选取的阈值来划分前景和背景，令f(x,y)表示灰度图像，则有：

4.如权利要求3所述方法，其特征在于：所述阈值T采用迭代方法获取步骤为：

3.1)针对全局阈值选择初始阈值T₀；

3.2)用T₀将图像分割成两部分区域G₁和G₂，并分别计算G₁、G₂区域内的平均灰度值m₁和m₂；

3.3)根据平均灰度值m₁和m₂计算新阈值T：

5.如权利要求1所述方法，其特征在于：所述步骤(4)中，文字边缘检测采用Canny算法进行检测，Canny算法的步骤如下：

4.2)采用遍历的方法分别沿着文字边缘的梯度方向，分为水平、竖直、45°方向和135°方向四种，用不同的邻近像素进行比较，以决定局部极大值；

6.如权利要求5所述方法，其特征在于：所述步骤4.2)中，具体比较方法如下：

7.如权利要求1所述方法，其特征在于：所述步骤(5)中，对东巴象形文的切分总体分为两步，第一步是行切分，第二步是列切分。

8.如权利要求7所述方法，其特征在于：所述行切分根据水平方向投影的原理，映射出每一行的上下边缘，包括以下步骤：

9.如权利要求7所述方法，其特征在于：所述列切分根据垂直方向投影的原理，将每一行的每个文字映射出左右边缘，从而分离出单个东巴象形文字，其包括以下步骤：

10.如权利要求1所述方法，其特征在于：所述步骤(6)中，归一化的具体算法包括以下步骤：

ratio＝min(ratio_x,ratio_y)；

6.4)归一化后的新坐标(x′,y′)定义为：

x′＝x₁×ratio

y′＝y₁×ratio。