CN109063670A

CN109063670A - 基于字头分组的印刷体满文单词识别方法

Info

Publication number: CN109063670A
Application number: CN201810934923.2A
Authority: CN
Inventors: 郑蕊蕊; 李敏; 贺建军; 许爽; 吴宝春
Original assignee: Dalian Nationalities University
Current assignee: Dalian Minzu University
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2018-12-21

Abstract

基于字头分组的印刷体满文单词识别方法，属于文字识别领域，为了解决提高满文识别正确率的问题，要点是包括如下步骤：对满文单词彩色图像，根据满文单词的首字母对满文单词分组，满文单词词头字母相同的单词分配到同一识别网络，满文单词词头字母不相同的单词分配到不同识别网络，能够独立表达含义的单独字母，不同字母分配到不同的识别网络，识别网络是深度卷积神经网络，识别网络对满文单词识别，降低了识别复杂度，且使用深度卷积神经网络识别网络对满文单词无须分割，同时也无需人工设计特征提取器，从而识别正确率被提高。

Description

基于字头分组的印刷体满文单词识别方法

技术领域

本发明属于文字识别领域，涉及一种基于字头分组的印刷体满文单词识别方法。

背景技术

“满语”和“满文”是满族的语言和文字。清朝将满文作为法定文字推广和使用，形成了大量满文古籍文献，内容涉及政治、历史、经济和文化等各个方面，具有重要的历史文化价值。满语在2009年被联合国教科文组织列为极度濒临灭绝的语言，满族语言文化遗产亟待抢救和保护得到了国家和社会各界的认同和重视。目前国际主流的历史文献保护措施是数字化保护与开发：依托数字图书馆、数字博物馆和数字档案馆等“互联网+”模式，采用机器学习、图像处理、计算机视觉和互联网等现代信息技术，达到对历史文档的保护、共享、检索和信息挖掘等目的。满文濒临灭绝的现状迫切要求以数字化满文历史文档为对象，开展满文文档图像的光学字符识别技术研究，对于保护和传承中华民族历史文化遗产，推进少数民族古籍数字化和信息化等方面具有重要意义。

发明内容

为了解决提高满文识别正确率的问题，且实现满文识别无需分割步骤、也不需要人工设计特征提取器、降低识别复杂度，本发明提出如下技术方案：

一种基于字头分组的印刷体满文单词识别方法，包括如下步骤：对满文单词彩色图像，根据满文单词的首字母对满文单词分组，满文单词词头字母相同的单词分配到同一识别网络，满文单词词头字母不相同的单词分配到不同识别网络，能够独立表达含义的单独字母，不同字母分配到不同的识别网络，识别网络是深度卷积神经网络，识别网络对满文单词识别。

进一步，所述识别网络，卷积神经网络共包含9层，其中有4层卷积层C1、C2、C3、C4，2层下采样层S1、S2，3层全连接层。

进一步，所述识别网络，其输入为64像素×64像素的RGB满文单词图像

进一步，每个卷积层的滤波器尺寸是5像素×5像素，滤波器的个数是32，激活函数是 RELU函数，RELU函数如下：

R(x)＝max(0,x) (1)

式中，x表示神经元的输入值，R(x)表示神经元的输出值。

进一步，采样层S1、S2采用最大值池化，池化滤波器尺寸为2像素×2像素，步长为2像素，对输入图像的2像素×2像素区域，取该区域的最大值替代整个区域的4点像素值。

进一步，3层全连接层位于识别网络的最后三层。

进一步，全连结层的激活函数是softmax函数，如下式：

式中，N表示类别个数，j表示某一个类别，j＝{1,2,…,N}，m表示每个类别的训练样本个数， (x⁽ⁱ⁾,y⁽ⁱ⁾)表示第i对训练样本，i＝{1,2,…,m}，x⁽ⁱ⁾∈R^M×M,_y ⁽ⁱ⁾∈R,x⁽ⁱ⁾和y⁽ⁱ⁾分别是样本的特征相量和标签，θ_j ^T和θ_l ^T都表示神经网络学习的参数，对应第j类和第l类的参数，T表示矩阵的转置，M表示维度。

进一步，所述3层全连接层包括Flatten层、Fully connection层、Output层，Flatten层对上一层最大值池化的结果进行1维展平而得，Fully connection层的神经元个数是128，最 Output层的神经元个数是每个分组中包含的满文单词类别数；识别模型的代价函数采用交叉熵函数，如下式：

式中，Loss表示损失函数，y_i表示期望的分类对应标签向量的序号，a表示样本x属于某一类别y_i的概率，n表示每次训练神经网络所使用的样本的个数。

进一步，正则化采用L2正则化，采用AdaDelta优化方法在训练过程中更新神经网络的权重；训练迭代次数＝50，全连接层采用50％的随机断连接，dropout＝0.5，则代价函数C由下式表示：

式中，w为整个神经网络的神经元之间的连接权重，λ为正则化参数，正则化参数λ＝0.0001， n为样本数量。

一种识别网络，是深度卷积神经网络，用于对满文单词识别，对满文单词彩色图像，根据满文单词的首字母对满文单词分组，满文单词词头字母相同的单词分配到同一识别网络，满文单词词头字母不相同的单词分配到不同识别网络，能够独立表达含义的单独字母，不同字母分配到不同的识别网络，卷积神经网络共包含9层，其中有4层卷积层C1、C2、C3、 C4，2层下采样层S1、S2，3层全连接层，所述识别网络：

其输入为64像素×64像素的RGB满文单词图像；

识别网络的每个卷积层的滤波器尺寸是5像素×5像素，滤波器的个数是32，激活函数是RELU函数，RELU函数如下：

R(x)＝max(0,x) (1)

式中，x表示神经元的输入值，R(x)表示神经元的输出值；

识别网络的采样层S1、S2采用最大值池化，池化滤波器尺寸为2像素×2像素，步长为 2像素，对输入图像的2像素×2像素区域，取该区域的最大值替代整个区域的4点像素值；

识别网络的3层全连接层位于识别网络的最后三层，全连结层的激活函数是softmax函数，如下式：

式中，N表示类别个数，j表示某一个类别，j＝{1,2,…,N}，m表示每个类别的训练样本个数， (x⁽ⁱ⁾,y⁽ⁱ⁾)表示第i对训练样本，i＝{1,2,…,m}，x⁽ⁱ⁾∈R^M×M,_y ⁽ⁱ⁾∈R,x⁽ⁱ⁾和y⁽ⁱ⁾分别是样本的特征相量和标签，和都表示神经网络学习的参数，对应第j类和第l类的参数，T表示矩阵的转置，M表示维度；所述3层全连接层包括Flatten层、Fully connection层、Output 层，Flatten层对上一层最大值池化的结果进行1维展平而得，Fullyconnection层的神经元个数是128，最Output层的神经元个数是每个分组中包含的满文单词类别数；识别模型的代价函数采用交叉熵函数，如下式：

式中，Loss表示损失函数，y_i表示期望的分类对应标签向量的序号，a表示样本x属于某一类别y_i的概率，n表示每次训练神经网络所使用的样本的个数；

识别网络的正则化采用L2正则化，采用AdaDelta优化方法在训练过程中更新神经网络的权重；训练迭代次数＝50，全连接层采用50％的随机断连接，dropout＝0.5，则代价函数C 由下式表示：

有益效果：本发明根据组成满文单词的字母个数对满文单词分组，组成字母个数相同分配到同一识别网络，降低了识别复杂度，且使用度卷积神经网络识别网络对满文单词无须分割，且识别正确率被提高。

附图说明

图1印刷体满文单词提取流程示意图；

图2无分割印刷体满文单词识别流程图；

图2中上面的“……”表示判断表1中满文字头3,，字头4，……，字头38的字母的SVM分类器，下面的“……”表示对应的识别网络CNN3,CNN4,…,CNN38；

图3印刷体满文单词识别的深度卷积神经网络结构图；

图4同一类单词的7种不同印刷体；

图5不同输入图像尺寸的识别正确率；

图6不同正则化参数对识别正确率的影响；

图7不同卷积核尺寸对识别正确率的影响；

图8数据增广技术框架图；

图9数据增广效果图；

图10最大值池化原理图。

具体实施方式

一种基于字头分组的印刷体满文单词识别方法，包括如下步骤：

(1)满文文档版面分析：目的是从整篇满文文档图像中提取单独的满文单词图像。采用扫描仪或数码相机采集的满文文档图像，虽然看起来是黑白两色，但是从数字图像处理的角度看，一般是RGB彩色图像。所以满文文档版面分析的一般步骤包括：彩色文档图像→ 文档图像灰度化→文档图像二值化→倾斜校正→垂直投影法提取满文文本列图像→对满文文本列图像采用水平投影法提取满文单词图像位置信息→在原彩色满文文档图像中，根据满文单词图像位置信息提取满文单词彩色图像。述及过程如图1所示。

(2)满文单词预分组：满文单词类别数比较多，单独采用1个识别网络识别虽然在理论上可行，但是实际操作起来模型复杂度过高，对硬件要求更高。采用如图2所示的预分组方式，则每组的单词类别数就能够降到合理范围。由于满文是一种音素文字，则可以考虑以类似词典目录的方式对满文单词按照其首字母来分组。然而在满文中，相同的字母，其位于单词中的不同位置，写法(字形)是有区别的，通常相同字母因位于词头、词中、词尾或作为独立字母而具有不同的写法(字形)，为此，按照首字母分组满文单词，应该考虑满文中能够作为单词词头的字母的形式，以及独立字母的形式进行分组，将其称之为满文单字字头，据统计，满文中共计40个字母能够作为单词词头字母或独立字母表达含义，如表1所示，则在本申请中，为了降低了识别复杂度，根据能够作为单词词头的字母和能够独立表达含义的字母对满文单词分组，相应建立40个识别网络，即满文单词词头字母相同的单词分配到同一识别网络，满文单词词头字母不相同的单词分配到不同识别网络，能够独立表达含义的单独字母，不同的字母，每个字母分配到一个识别网络，各个字母分配到不同的识别网络。采用一组训练好的SVM判断单词的首字母或者独立字母，然后分配到不同的识别网络中去。每个分组对应的识别网络都采用深度卷积神经网络，其具体结构如下述步骤(3)所描述。

表1满文单字字头

(3)满文单词识别：采用深度卷积神经网络实现一种端到端的满文单词识别。目前，在计算机视觉、目标检测、文字识别等领域，深度学习方法都获得了领先的技术优势。深度卷积神经网络是深度学习方法的一种，很多视觉处理领域的模式识别研究都使用卷积神经网络。针对满文单词识别的任务，提出一种深度卷积神经网络，其结构模型如图3所示。输入为64像素×64像素(以下用数值×数值代替，不再每个都标注像素。即后面的5×5也是指5 像素×5像素)的RGB满文单词图像，卷积神经网络共包含9层：C1，C2，C3，C4是卷积层，每个卷积层的滤波器尺寸都是5×5，滤波器组的个数都是32，激活函数采用RELU，如公式1所示：

R(x)＝max(0，x) (1)

式中，x表示神经元的输入值，R(x)表示神经元的输出值。

S1，S2是下采样层(又称池化层)，采用最大值池化(max-pooling)，池化滤波器尺寸为2×2，步长为2像素，对输入图像的2像素×2像素区域，取该区域的最大值(1个值)替代整个区域的4点像素值。例如:输入图像是4像素×4像素，则被分为4个2像素×2像素区域，用每个区域的最大值代替整个区域的4点像素值，则输出为一个2像素×2像素的图像。如图9所示；最后3层是全连接层，全连结层的激活函数采用softmax函数，如公式2所示：

式中，N表示类别个数，j＝{1，2，…，N}表示某一个类别，m表示每个类别的训练样本个数，(x⁽ⁱ⁾，y⁽ⁱ⁾)表示第i对训练样本，i＝{1，2，…，m}，x⁽ⁱ⁾∈R^M×M，_y ⁽ⁱ⁾∈R，x⁽ⁱ⁾和 y⁽ⁱ⁾分别是样本的特征相量和标签，在满文单词识别的应用中，类别对应着满文单词，1个类别就是1个满文单词，以英文做类比：单词we是一个类别，单词you是另一个类别。N 个类别就表示N个不同的满文单词。和都表示神经网络学习的参数，对应第j类和第 l类的参数，T表示矩阵的转置，M表示维度。

Flatten层即对上一层最大值池化的结果进行1维展平，中间的全连接层(Fullyconnection)的神经元个数是128，最后一层输出层(Output)的神经元个数即每个分组中包含的满文单词类别数(实施例中我们设定为666类满文单词)。识别模型的代价函数采用交叉熵函数，如公式3所示：

采用L2正则化，正则化参数λ＝0.0001，如公式4所示；采用AdaDelta优化方法在训练过程中更新神经网络的权重；训练迭代次数＝50，全连接层采用50％的随机断连接，即dropout＝0.5，则代价函数C由下式表示：

式中，Loss即为式(3)中的交叉熵损失函数，w为整个神经网络的神经元之间的连接权重，λ为正则化参数，n为样本数量。

图3中的模型参数都经过了实验优化，下面结合参数在不同取值情况下的实验结果进行说明。在测试实验中，为了验证模型对不同满文字体的识别情况，构建了一个包含7种印刷字体的满文单词数据集。该测试集共666类单词，每类单词都包含7种不同的印刷字体。如图4所示。图4中，字体a～g分别表示《满语365句》印刷体，正白，文鉴，雅白，古风，正黑，标黑共7种印刷体。为了图示的方便，后续图中，凡是涉及到字体，均按照图4用字体a～g表示。采用如图3所示的深度卷积神经网络，在a～g这7种印刷体满文单词测试集上的识别率如表1所示。根据迁移学习的理论，每个分组的深度卷积神经网络采用相同的结构 (输出层神经元个数不同，根据分组中满文单词的数量确定)和参数。

表1在7种不同印刷体上的识别正确率

(3-1)输入图像尺寸优化

首先统计了不同输入图像尺寸情况下，满文单词识别的卷积神经网络模型在2种印刷体上的精度。由于满文单词是一种拼写单词，因此具有不同的长度。统计了2315张满文单词图像的尺寸，图像尺寸(高度×宽度)的中位数＝平均值＝132×71，众数＝87×74。分别采用 28×28，64×64，80×80，96×96，87×74，132×71大小的输入图像尺寸，在2种印刷体满文单词测试集上的识别率如图5所示。通过图5发现，当输入图像尺寸采用64×64时，模型在两种印刷体字体上都取得了较高的识别率，因此满文单词识别的卷积神经网络模型的输入图像尺寸定为64×64。

(3-2)L2正则化参数优化

为了减少过拟合，提高模型在不同字体上的泛化性能，引入L2正则化。如公式4所示，正则化参数λ表示在模型的最终代价函数中，权重w所占的比例。λ过小，则起不到正则化的效果；λ过大，则导致模型欠拟合。当λ取值>0.01时，模型进入欠拟合状态，识别率快速下降。分别测试了，λ1＝0.0001，λ2＝0.001，在7种不同印刷体满文单词上的识别率如图6所示。如图6所示，λ1＝0.0001在所有7种印刷体满文单词上的识别率均高于λ2＝0.001，因此本发明选择正则化参数λ＝0.0001。

(3-3)卷积核尺寸优化

卷积核尺寸不仅关系到提取特征的维度，而且对模型的复杂度和时间消耗都有影响。卷积核一般选取3×3，5×5和7×7。对上述3种卷积核都进行了实验。例如，采用3×3的卷积核时，图2中的结构图中的所有4层卷积层都采用3×3的卷积核，以此类推。此外，还对组合的卷积核也进行了实验，则模型中每一层的卷积核采用如下配置：C1:3×3，C2:5×5， C3:5×5，C4:7×7。实验结果如图7所示，不同的卷积核对模型对不同印刷体上的识别率影响还是比较大的，而在模型的全部4层卷积层均采用5×5的卷积核时，在所有的7种印刷体上均获得了较高的识别率。所以本发明的卷积神经网络模型的全部4层卷积层都采用 5×5的卷积核。

(3-4)满文训练数据的合成

由于深度学习技术需要海量数据来训练模型，而满文数据相对匮乏，收集困难。本发明以一本常用满语教材《满语365句》(作者:何荣伟编，ISBN 9787807226901，出版社:辽宁民族出版社，出版时间:2009-06)为蓝本，首先收集整理了一个满文数据原型库。对《满语365句》中的满文单词进行切分和归类整理，共计666类满文单词，共2135张单词图片。每一类单词的样本数都不尽相同，统计结果显示，样本数最多的满文单词有82张图片，样本数最少的满文单词只有1张图片。所以，满文数据原型库样本总数少，并且样本数量不均衡，这两个缺陷制约了该数据库的使用。在深度学习的研究中，训练样本数量不足是一个常见问题，其解决方案就是采用数据合成技术人工合成满足需要的质量和数量的训练图像。针对满文历史文档的特点和图像采集中常见的情况，在模型训练中设计了一个图像增广系统来合成图像。大致技术框架如图4所示：共设计了9种图像合成方式，分别模拟满文文档的书写和满文文档采集时的常见情况。每种合成方式都有本方式的参数。在扩充训练数据时，对原始满文图像采用至少2种图像合成方式。部分合成样本如图9所示。图9中，a图是来自满文数据原型库的满文单词，图b～f是混合了2种以上的合成方法生成的样本图像。训练深度卷积神经网络时，对每一类单词都增广为1000张图像，训练只采用增广的图像而不采用满文数据原型库中的图像，满文数据原型库中的图像用于测试，即图4中的a字体。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.一种基于字头分组的印刷体满文单词识别方法，包括如下步骤：对满文单词彩色图像，根据满文单词的首字母对满文单词分组，满文单词词头字母相同的单词分配到同一识别网络，满文单词词头字母不相同的单词分配到不同识别网络，能够独立表达含义的单独字母，不同字母分配到不同的识别网络，识别网络是深度卷积神经网络，识别网络对满文单词识别。

2.如权利要求1所述的基于字头分组的印刷体满文单词识别方法，其特征在于，所述识别网络，卷积神经网络共包含9层，其中有4层卷积层C1、C2、C3、C4，2层下采样层S1、S2，3层全连接层。

3.如权利要求1所述的基于字头分组的印刷体满文单词识别方法，其特征在于，所述识别网络，其输入为64像素×64像素的RGB满文单词图像。

4.如权利要求2所述的基于字头分组的印刷体满文单词识别方法，其特征在于，每个卷积层的滤波器尺寸是5像素×5像素，滤波器的个数是32，激活函数是RELU函数，RELU函数如下：

R(x)＝max(0,x) (1)

式中，x表示神经元的输入值，R(x)表示神经元的输出值。

5.如权利要求2所述的基于字头分组的印刷体满文单词识别方法，其特征在于，采样层S1、S2采用最大值池化，池化滤波器尺寸为2像素×2像素，步长为2像素，对输入图像的2像素×2像素区域，取该区域的最大值替代整个区域的4点像素值。

6.如权利要求2所述的基于字头分组的印刷体满文单词识别方法，其特征在于，3层全连接层位于识别网络的最后三层。

7.如权利要求6所述的基于字头分组的印刷体满文单词识别方法，其特征在于，全连结层的激活函数是softmax函数，如下式：

式中，N表示类别个数，j表示某一个类别，j＝{1,2,…,N}，m表示每个类别的训练样本个数，(x⁽ⁱ⁾,y⁽ⁱ⁾)表示第i对训练样本，i＝{1,2,…,m}，x⁽ⁱ⁾∈R^M×M,y⁽ⁱ⁾∈R,x⁽ⁱ⁾和y⁽ⁱ⁾分别是样本的特征相量和标签，和都表示神经网络学习的参数，对应第j类和第l类的参数，T表示矩阵的转置，M表示维度。

8.如权利要求6所述的基于字头分组的印刷体满文单词识别方法，其特征在于，所述3层全连接层包括Flatten层、Fully connection层、Output层，Flatten层对上一层最大值池化的结果进行1维展平而得，Fully connection层的神经元个数是128，最Output层的神经元个数是每个分组中包含的满文单词类别数；识别模型的代价函数采用交叉熵函数，如下式：

9.如权利要求8所述的基于字头分组的印刷体满文单词识别方法，其特征在于，正则化采用L2正则化，采用AdaDelta优化方法在训练过程中更新神经网络的权重；训练迭代次数＝50，全连接层采用50％的随机断连接，dropout＝0.5，则代价函数C由下式表示：

式中，w为整个神经网络的神经元之间的连接权重，λ为正则化参数，正则化参数λ＝0.0001，n为样本数量。