CN111325270B

CN111325270B - 一种基于模板匹配和bp神经网络的东巴文识别方法

Info

Publication number: CN111325270B
Application number: CN202010101030.7A
Authority: CN
Inventors: 庄建军; 夏一飞; 魏世桓; 沈祎辰; 赵一鸣; 王昀牧; 申彤; 黎文斯; 张鑫; 杨鸿荣; 杨继琼; 张志俭
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2022-03-25
Anticipated expiration: 2040-02-19
Also published as: CN111325270A

Abstract

基于模板匹配和BP神经网络的东巴文识别方法，由如下步骤构成，1)图片预处理、2)特征提取、3)模板匹配、4)神经网络处理四个步骤；步骤1)中，图片预处理包括二值化、图片去噪和细化处理；图片指直接通过拍照或扫描得到的东巴文彩色图片；步骤2)特征提取包括归一化和笔划特征提取；端点位置特征的提取：计算图片中每一个像素点的以8邻域寻找相邻像素点的个数，仅保留相邻像素点的个数为0或1的像素点；确定这些像素点构成的图片中以8连通寻找每一个连通区域的重心位置，将重心位置的坐标作为端点位置特征；步骤3)模板匹配的方法，利用改进后的豪斯多夫距离计算样本图片的笔划特征与模板图片的笔划特征之间的距离。

Description

一种基于模板匹配和BP神经网络的东巴文识别方法

技术领域

本发明涉及一种古文字的识别方法，尤其是东巴文的识别方法。

背景技术：

东巴文是一种文字形态原始的象形文字。由于学习和使用东巴文的人群数量正在减少，为满足研究和保护东巴文的要求，需要实现计算机对东巴文的自动识别。

现有技术方案一般如下或类似的步骤：

步骤1、将欲识别图片灰度化，并平滑去噪。

步骤2、用投影法和特征点法进行特征提取。

步骤3、分别用模板匹配法或高阶神经网络进行识别。现有技术需要大量已识别的东巴文图片样本。由于模板匹配法是基于单一模板进行匹配，在图片噪声的干扰下识别准确率低；由于利用神经网络进行训练需要大量已识别的图片样本，而已识别的东巴文图片数量较少，易出现欠拟合的现象。

发明内容

发明目的：本发明所要解决的技术问题是：准确识别东巴文图片样本内容。通过提出改进技术手段来准确识别包含东巴文文字的图片中的东巴文文字内容。利用东巴文模板和少量样本，准确识别包含东巴文文字的图片的东巴文文字内容，为东巴文研究者提供高效的识别工具。

本发明的技术方案是，基于模板匹配和BP神经网络的东巴文识别方法，其特征是，由如下步骤构成，1)图片预处理、2)特征提取、3)模板匹配、4)神经网络处理四个步骤；

步骤1)中，图片预处理包括二值化、图片去噪和细化处理；图片指直接通过拍照或扫描得到的东巴文彩色图片。

1-1)将图片灰度化，用最大类间方差法确定灰度阈值，根据灰度阈值将图片二值化；二值化后的图片被称为二值图片，二值图片由像素点“0”(即图片中的空白像素)和像素点“1”(即构成笔划的黑色像素)构成。下文“像素点”未特殊说明时即指像素点“1”。

1-2)对图片做闭操作处理，删除面积小于面积阈值(阈值可根据情况设定)的连通区域；闭操作：第一步，遍历二值图片的全部像素，将像素点“1”和像素点“0”的边界像素点标记为“图片边缘像素点”，将全部图片边缘像素点修改为像素点“1”。第二步，重新遍历图片并标记图片边缘像素点，将全部图片边缘像素点修改为为像素点“0”。

删除面积小于阈值的连通区域：连通区域指二值图片中位置相邻(以8连通寻找)的像素点“1”组成的图片区域，连通区域的面积等于像素点“1”的个数。遍历二值图片的全部像素，标记每一个连通区域的位置和面积。将每一个面积小于面积阈值(8－16个像素点)的连通区域的所有像素点“1”修改为像素点“0”。

1-3)用罗森菲尔德细化算法对图片做细化处理，得到东巴文文字骨架图片。

细化算法：遍历二值图片的全部像素，将像素点“1”和像素点“0”的边界像素点标记为“图片边缘像素点”。若将某一个边缘像素点“1”修改为为像素点“0”的操作不会增加连通区域的个数(以8连通寻找)，则执行此操作。对全部图片边缘像素点执行以上操作称为一次“细化”，反复执行“细化”直到没有能够修改的像素点则停止“细化”。

以n连通寻找：n可以是4或8。4连通指某个像素点“1”的上、下、左、右的四个像素点“1”被认为与之相邻。8连通指某个像素点“1”的上、下、左、右、左上、左下、右上、右下的四个像素点“1”被认为与之相邻。

2)特征提取包括归一化和笔划特征提取；

2-1)归一化的方法，计算图片的重心位置、横向标准差和纵向标准差，对图片进行平移和缩放，使得图片重心与图片中心重合，横向标准差和纵向标准差为固定值；

2-2)笔划特征提取的方法，笔划特征包括笔划的连通块位置特征、笔划的封闭块位置特征、笔划的端点位置特征、笔划的交点位置特征和笔划的连线位置特征；

步骤2-2)中，笔划的连通块位置特征的提取：确定笔划的图片中每一个连通区域的重心位置(以8连通寻找)，将重心位置的坐标作为连通块位置特征。

封闭块位置特征的提取：对图片做非运算，再确定图片中每一个连通区域的重心位置(以4连通寻找)，将重心位置的坐标作为封闭块位置特征；

非运算：指将像素点“1”修改为像素点“0”，将像素点“0”修改为像素点“1”。

端点位置特征的提取：计算图片中每一个像素点的相邻像素点的个数(以8邻域寻找)，仅保留相邻像素点的个数为0或1的像素点。确定这些像素点构成的图片中每一个连通区域的重心位置(以8连通寻找)，将重心位置的坐标作为端点位置特征；

交点位置特征的提取：计算图片中每一个像素点的相邻像素点的个数(以8邻域寻找)，仅保留相邻像素点的个数大于2的像素点；确定这些像素点构成的图片中每一个连通区域的重心位置(以8连通寻找)，将重心位置的坐标作为交点位置特征；

连线位置特征的提取：计算图片中每一个像素点的相邻像素点的个数(以8邻域寻找)，仅保留相邻像素点的个数等于2的像素点。确定这些像素点构成的图片中每一个连通区域的重心位置(以8连通寻找)，将重心位置的坐标作为连线位置特征。

特征提取包括归一化和笔划特征提取；笔划特征提取、特征向量的构成、样本图片特征与模板图片特征之间距离计算的方法

3)模板匹配的方法

利用改进后的豪斯多夫距离计算样本图片的笔划特征与模板图片的笔划特征之间的距离：对于每一种笔划特征，分别可以得到样本图片的位置特征对应的坐标集合为A＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，而欲匹配的模板图片的位置特征对应的坐标集合为B＝{(x′₁,y′₁),(x′₂,y′₂),...,(x′_m,y′_m)}。

根据改进后的豪斯多夫距离，样本图片的笔划特征与模板图片的笔划特征之间的距离为：

其中a，b分别是A，B中的坐标点。

4)、神经网络处理的方法

将样本图片与全部东巴文模板图片做模板匹配的距离按固定顺序排列为一个列向量。对每一种笔划特征进行该操作，共得到5个维度相同的列向量，记为{X₁,X₂,X₃,X₄,X₅}，即特征向量。将特征向量送入BP神经网络进行训练。

神经网络设置了两层隐藏层。输出层使用归一化指数函数进行分类操作。神经网络执行前向传播时，首先对同一个列向量中的各个元素分配不同的权值，然后进入全连接层并输出；神经网络执行反向传播时，更新参数矩阵的权值。利用梯度下降算法，选择合适的学习率，利用一定量的东巴文图片样本进行训练。当损失函数收敛至较小值时，保存神经网络的权值矩阵。权值矩阵即神经网络保存的训练数据。当神经网络需要识别新的图片样本时，需要读取并调用该权值矩阵从而实现准确的识别。

本发明包括{笔划特征提取、特征向量的构成、样本图片特征与模板图片特征之间距离计算的方法：

1、利用罗森菲尔德细化算法获取东巴文文字骨架的方法，

2、对包含东巴文的图片进行归一化的方法；

3、提取文字图片笔划特征的方法；

4、利用改进后的豪斯多夫距离计算样本图片特征和模板图片特征之间距离的方法；

5、将模板匹配得到的特征向量通过BP神经网络进行训练的方法。

有益效果：

由于本方法通过罗森菲尔德细化算法提取东巴文文字的骨架，能够消除文字笔划粗细对识别率的影响；由于本方法是基于笔划特征对东巴文图片进行特征提取，提高了方法的泛化能力；由于本方法是基于模板匹配进行距离计算，需要的东巴文图片样本数量较少；由于本方法利用BP神经网络对特征向量进行处理，提高了对复杂东巴文文字的识别率。识别指将图片归类为某一个东巴文模板，每一个模板对应一个东巴文文字(本方法的测试实验中使用了常见的1570个东巴文字，即1570个模板)，同时根据东巴文模板字典可以进一步得到字义。识别率指正确判断东巴文类别的概率。此方案可与利用卷积神经网络进行文字识别结合或者替代。

附图说明

图1，本发明识别方法流程步骤：1)图片预处理、2)特征提取、3)模板匹配、4)神经网络处理四部分组成。

图2为本发明A、B、C、D、E、F分别对应原图与连通块位置、封闭块位置、端点位置、交点位置、连线位置5种处理笔划特征的示意图。

图3为神经网络处理的方法。图中W代表了权值矩阵。

图4测试实验中传统模板匹配法和本方法识别率的对比(第一组是结构形态简单的东巴文文字，第二组是形态复杂且相似的东巴文文字，每组有200个)。

具体实施方式

如图所示：模板匹配的方法，利用改进后的豪斯多夫距离计算样本图片的笔划特征与模板图片的笔划特征之间的距离：对于每一种笔划特征，分别可以得到样本图片的位置特征对应的坐标集合为A＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，而欲匹配的模板图片的位置特征对应的坐标集合为B＝{(x′₁,y′₁),(x′₂,y′₂),...,(x′_m,y′_m)}。

其中a，b分别是A，B中的坐标点。

将样本图片与全部东巴文模板图片做模板匹配的距离按固定顺序排列为一个列向量。对每一种笔划特征进行该操作，共得到5个维度相同的列向量，记为{X₁,X₂,X₃,X₄,X₅}，即特征向量。将特征向量送入如图3所示的BP神经网络进行训练。

神经网络设置了两层隐藏层。输出层使用归一化指数函数进行分类操作。神经网络执行前向传播时，首先对同一个列向量中的各个元素分配不同的权值，然后进入全连接层并输出；神经网络执行反向传播时，更新参数矩阵的权值。利用梯度下降算法，选择合适的学习率，利用一定量的东巴文图片样本进行训练。当损失函数收敛至较小值时，保存神经网络的权值矩阵。

BP神经网络:即前馈神经网络，BP神经网络的计算过程由正向计算过程和反向计算过程组成。正向传播过程，输入模式从输入层经隐单元层逐层处理，并转向输出层，每层神经元的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出，则转入反向传播，将误差信号沿原来的连接通路返回，通过修改各神经元的权值，使得误差信号最小。

Claims

1.基于模板匹配和BP神经网络的东巴文识别方法，其特征是，由如下步骤构成，1)图片预处理、2)特征提取、3)模板匹配、4)神经网络处理四个步骤；

步骤1)中，图片预处理包括二值化、图片去噪和细化处理；图片指直接通过拍照或扫描得到的东巴文彩色图片；

1-1)将图片灰度化，用最大类间方差法确定灰度阈值，根据灰度阈值将图片二值化；二值化后的图片被称为二值图片，二值图片由像素点“0”、即图片中的空白像素和像素点“1”、即构成笔划的黑色像素构成；“像素点”未特殊说明时即指像素点“1”；

1-2)对图片做闭操作处理，删除面积小于面积阈值的连通区域；闭操作：第一步，遍历二值图片的全部像素，将像素点“1”和像素点“0”的边界像素点标记为“图片边缘像素点”，将全部图片边缘像素点修改为像素点“1”；第二步，重新遍历图片并标记图片边缘像素点，将全部图片边缘像素点修改为像素点“0”；

删除面积小于阈值的连通区域：连通区域指二值图片中以8连通寻找位置相邻的像素点“1”组成的图片区域，连通区域的面积等于像素点“1”的个数；遍历二值图片的全部像素，标记每一个连通区域的位置和面积；将每一个面积小于面积阈值的连通区域的所有像素点“1”修改为像素点“0”；

1-3)用罗森菲尔德细化算法对图片做细化处理，得到东巴文文字骨架图片；

细化算法：遍历二值图片的全部像素，将像素点“1”和像素点“0”的边界像素点标记为“图片边缘像素点”；若将某一个边缘像素点“1”修改为像素点“0”的操作不会增加以8连通寻找连通区域的个数，则执行此操作；对全部图片边缘像素点执行以上操作称为一次“细化”，反复执行“细化”直到没有能够修改的像素点则停止“细化”；

2)特征提取包括归一化和笔划特征提取；

步骤2-2)中，笔划的连通块位置特征的提取：确定笔划的图片中以8连通寻找每一个连通区域的重心位置，将重心位置的坐标作为连通块位置特征；

封闭块位置特征的提取：对图片做非运算，再确定图片中以4连通寻找每一个连通区域的重心位置，将重心位置的坐标作为封闭块位置特征；

非运算：指将像素点“1”修改为像素点“0”，将像素点“0”修改为像素点“1”；

端点位置特征的提取：计算图片中每一个像素点的以8邻域寻找相邻像素点的个数，仅保留相邻像素点的个数为0或1的像素点；确定这些像素点构成的图片中以8连通寻找每一个连通区域的重心位置，将重心位置的坐标作为端点位置特征；

交点位置特征的提取：计算图片中每一个像素点的以8邻域寻找相邻像素点的个数，仅保留相邻像素点的个数大于2的像素点；确定这些像素点构成的图片中以8连通寻找每一个连通区域的重心位置，将重心位置的坐标作为交点位置特征；

连线位置特征的提取：计算图片中以8邻域寻找每一个像素点的相邻像素点的个数，仅保留相邻像素点的个数等于2的像素点；确定这些像素点构成的图片中以8连通寻找每一个连通区域的重心位置，将重心位置的坐标作为连线位置特征；

3)模板匹配的方法

利用改进后的豪斯多夫距离计算样本图片的笔划特征与模板图片的笔划特征之间的距离：对于每一种笔划特征，分别可以得到样本图片的位置特征对应的坐标集合为A＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，而欲匹配的模板图片的位置特征对应的坐标集合为B＝{(x′₁,y′₁),(x′₂,y′₂),...,(x′_m,y′_m)}；

其中a，b分别是A，B中的坐标点；

4)、神经网络处理的方法

将样本图片与全部东巴文模板图片做模板匹配的距离按固定顺序排列为一个列向量；对每一种笔划特征进行该操作，共得到5个维度相同的列向量，记为{X₁,X₂,X₃,X₄,X₅}，即特征向量；将特征向量送入BP神经网络进行训练；

神经网络设置了两层隐藏层；输出层使用归一化指数函数进行分类操作；神经网络执行前向传播时，首先对同一个列向量中的各个元素分配不同的权值，然后进入全连接层并输出；神经网络执行反向传播时，更新参数矩阵的权值；利用梯度下降算法，选择合适的学习率，利用一定量的东巴文图片样本进行训练；当损失函数收敛至较小值时，保存神经网络的权值矩阵；权值矩阵即神经网络保存的训练数据；当神经网络需要识别新的图片样本时，需要读取并调用该权值矩阵从而实现准确的识别。