CN108664975B

CN108664975B - 一种维吾尔文手写字母识别方法、系统及电子设备

Info

Publication number: CN108664975B
Application number: CN201810377080.0A
Authority: CN
Inventors: 艾斯卡尔·艾木都拉; 吾加合买提·司马义; 玛依热·依布拉音
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2022-03-25
Anticipated expiration: 2038-04-24
Also published as: CN108664975A

Abstract

本申请属于文字识别技术领域，特别涉及一种维吾尔文手写字母识别方法、系统及电子设备。所述维吾尔文手写字母识别方法包括：步骤a：收集/读入/读入维吾尔文字母的原始手写样本；步骤b：对所述原始手写样本进行预处理，将所述原始手写样本转换为二值图像；步骤c：将所述二值图像输入卷积神经网络进行分类训练和测试，得到所述原始手写样本的识别结果。本申请有效地提高了网络模型的性能，识别准确率高。

Description

一种维吾尔文手写字母识别方法、系统及电子设备

技术领域

本申请属于文字识别技术领域，特别涉及一种维吾尔文手写字母识别方法、系统及电子设备。

背景技术

手写识别是模式识别最典型的应用之一[Gao Y,Jin L,He C,et al.HandwritingCharacter Recognition as a Service:A New Handwriting Recognition System Basedon Cloud Computing[J].2011:885-889.]。从最早在邮政和银行服务中应用数字和地址核对，图书馆和博物馆的历史资源的数字化，手写识别一直在办公，自动化和日常通信中收欢迎。目前，它是人机交互式智能设备最流行的属性之一。手写识别有两个主要分支，是联机手写识别和脱机手写识别[Liu C L,Yin F,Wang D H,et al.Online and offlinehandwritten Chinese character recognition:Benchmarking on new databases[J].Pattern Recognition,2013,46(1):155-162.]。在联机手写识别中，利用在手写过程中记录下来的笔尖轨迹信息对手写体样本进行分类。当然，手写轨迹可以保存下来，在以后的学习和实验中反复使用。脱机手写识别的识别对象是手写文字图像。原始手写样本具有精确的笔尖轨迹，因此包含了空间和时间信息。脱机手写识别利用图像处理技术获取手写样本的空间信息。从已经完成的脱机手写图像中获取时间信息是非常具有挑战性的。

形成一个手写字母或文字形状具有高度随机性。一个相同的手写体对象可能是以不同的大小、顺序和倾斜度写成的。不符合书写规则的情况经常发生。虽然原始手写样本包含丰富的信息，但手写体形状的随机性使其难以识别。例如，一个手写文字起始部分的笔划可能最终才开始写，或者一个手写文字中的某部分还没有完成，下一个部分就开始写等。这样的随机性会降低原始手写样本中时间信息的优势[MASAYOSHI OKAMOTO,KAZUHIKOYAMAMOTO.ONLINE HANDWRITING CHARACTER RECOGNITION METHOD USING DIRECTIONAL,AND DIRECTION-CHANGE FEATURES[J].International Journal of PatternRecognition&Artificial Intelligence,1999,13(07):1041-1059.]。有时候，只利用空间信息进行识别原始手写样本。

维吾尔语属于阿尔泰语系突厥语族，是我国西北地区应用最广泛的语言之一。在悠久的历史中维吾尔语曾用过多种文字。现代维吾尔文是基于一千多年以来持续使用的后期察合台文基础上修改的，引用阿拉伯和波斯文字母的拼音文字。因其字母形式之间的相似性大，维吾尔文手写字母识别一直是个难度较大的研究问题。至今，维吾尔文手写字母识别方法大体上都是基于传统的模式识别框架，与英文、中文和日文等文字的手写字母识别相比，维吾尔文手写字母识别还处于初步阶段，需更多研究[Jaeger S,Nakagawa M,Liu CL.A Brief Survey on the State of the Art in On-Line Handwriting Recognitionfor Japanese and Western Script[J].Technical Report of Ieice Prmu,2002,101(713):2001-2721.][Zhang X Y,Yin F,Zhang Y M,et al.Drawing and RecognizingChinese Characters with Recurrent Neural Network[J].IEEE Transactions onPattern Analysis&Machine Intelligence,2016,PP(99):1-1.]。在传统的模式识别中人为设计和提取的特征对于获得良好的识别效果至关重要。根据手写维吾尔文字母形状的结构和统计特性，出现了不同的特征提取方法[Simayi W,Ibrayim M,Tursun D,etal.Survey on the Features for Recognition of on-line Handwritten UyghurCharacters[J].International Journal of Signal Processing Image Processing&Pattern Recognition,2015,8(3):850-3.]。利用典型的分类器在字母识别实验中获得了良好的识别效果。各种分类器的结合进一步提高了字母的正确识别率[戴笑来.基于移动平台的联机手写维吾尔文单字符及单词识别[D].西安电子科技大学,2012.许亚美.手写维吾尔文字识别若干关键技术研究[D].西安电子科技大学,2014]。维吾尔文有很多相似字母，单独识别这些字母非常困难，有时候甚至不可能。有些字母识别研究只对字母的独立式上设计和进行。

深度学习在很多模式识别领域中都体现出了它的优势，从而得到了广泛的关注和应用[Alom M Z,Sidike P,Hasan M,et al.Handwritten Bangla Character RecognitionUsing The State-of-Art Deep Convolutional Neural Networks[J].2017.]，但目前还没有利用深度学习技术对维吾尔文手写字母进行识别的相关研究。

发明内容

本申请提供了一种维吾尔文手写字母识别方法、系统及电子设备，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种维吾尔文手写字母识别方法，包括以下步骤：

步骤a：收集/读入维吾尔文字母的原始手写样本；

步骤b：对所述原始手写样本进行预处理，将所述原始手写样本转换为二值图像；

步骤c：将所述二值图像输入卷积神经网络进行分类训练和测试，得到所述原始手写样本的识别结果。

本申请实施例采取的技术方案还包括：在所述步骤a中，所述收集/读入维吾尔文字母的原始手写样本具体为通过手写板记录的包括维吾尔文字母的128种书写形式的联机手写样本，所述联机手写样本信息包括维吾尔文字母的Unicode编码、总笔画数、字母中各笔划轨迹结束标志，字母轨迹总结束标志以及每个点的坐标信息。

本申请实施拟采取的技术方案还包括：在所述步骤b中，所述对所述原始手写样本进行预处理，将所述原始手写样本转换为二值图像具体包括：

步骤b1：对每个原始手写样本的笔划轨迹分别进行点插入操作，新插入点的坐标计算公式为：

上式中，(x_i,y_i)是第i个插入点的坐标，ΔX和ΔY分别表示水平和垂直方向上的的距离，该距离的正整数N为需要插入的点数；

步骤b2：对原始手写样本进行坐标范围归一化；坐标归一化后的新点坐标计算公式为：

上式中，(W,H)代表原始坐标范围虚拟窗口的宽度和高度，(X,Y)是原始点坐标值，(w,h)是归一化后坐标范围虚拟窗口的宽度和高度，(x,y)是归一化后的点坐标。为了避免信息丢失本发明保持了原始的手写样本轨迹范围不变，即横坐标和纵坐标的取值范围都是[1,255].

步骤b3：根据归一化后的坐标范围对原始手写样本进行尺寸调整。

本申请实施例采取的技术方案还包括：在所述步骤b3中，所述根据归一化后的坐标范围对原始手写样本进行尺寸调整具体包括：

步骤b3a：计算原始手写样本的宽度和高度对于归一化后坐标范围所形成的虚拟窗口的宽度比例和高度比例；

步骤b3b：根据所述宽度比例和高度比例计算样本尺寸调整比例，并根据样本尺寸调整比例将原始手写样本调整到归一化的坐标范围；

步骤b3c：将调整后的样本轨迹移到归一化后坐标范围虚拟窗口的中心；

步骤b3d：将尺寸调整后的原始手写样本转换成二值图像。

本申请实施例采取的技术方案还包括：在所述步骤c中，所述卷积神经网络包括5个卷积层、5个池化层、3个全连接层和softmax分类器，所述5个卷积层用于提取二值图像的特征图，所述5个池化层用于将卷积层提取的特征图的大小减半，所述3个全连接层用于对特征图进行全局组合后输入softmax分类器，所述softmax分类器用于根据特征图对原始手写样本进行分类，得到所述原始手写样本的识别结果。

本申请实施例采取的另一技术方案为：一种维吾尔文手写字母识别系统，包括：

样本收集/读入模块：用于收集/读入维吾尔文字母的原始手写样本；

样本预处理模块：用于对所述原始手写样本进行预处理，将所述原始手写样本转换为二值图像；

样本分类模块：用于将所述二值图像输入卷积神经网络进行分类训练和测试，得到所述原始手写样本的识别结果。

本申请实施例采取的技术方案还包括：所述样本收集/读入模块具体用于通过手写板记录的包括维吾尔文字母的128种书写形式的联机手写样本，所述联机手写样本信息包括维吾尔文字母的Unicode编码、总笔画数、字母中各笔划轨迹结束标志，字母轨迹总结束标志以及每个点的坐标信息。

本申请实施例采取的技术方案还包括：所述样本预处理模块包括：

点插入单元：用于对每个原始手写样本的笔划轨迹分别进行点插入操作，新插入点的坐标计算公式为：

归一化单元：用于对原始手写样本进行坐标范围归一化；坐标归一化后的新点坐标计算公式为：

尺寸调整单元：用于根据归一化后的坐标范围对原始手写样本进行尺寸调整。

本申请实施例采取的技术方案还包括：所述尺寸调整单元具体用于：计算原始手写样本的宽度和高度对于归一化后坐标范围所形成的虚拟窗口的宽度比例和高度比例；根据所述宽度比例和高度比例计算样本尺寸调整比例，并根据样本尺寸调整比例将原始手写样本调整到归一化的坐标范围；将调整后的样本轨迹移到归一化后坐标范围虚拟窗口的中心；将尺寸调整后的原始手写样本转换成二值图像。

本申请实施例采取的技术方案还包括：所述卷积神经网络包括5个卷积层、5个池化层、3个全连接层和softmax分类器，所述5个卷积层用于提取二值图像的特征图，所述5个池化层用于将卷积层提取的特征图的大小减半，所述3个全连接层用于对特征图进行全局组合后输入softmax分类器，所述softmax分类器用于根据特征图对原始手写样本进行分类，得到所述原始手写样本的识别结果。

本申请实施例采取的又一技术方案为：一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的维吾尔文手写字母识别方法的以下操作：

步骤a：收集/读入维吾尔文字母的原始手写样本；

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的维吾尔文手写字母识别方法、系统及电子设备本申请将预处理后的联机维吾尔文手写字母样本转换成二值图像，然后用卷积神经网络进行自动特征提取和分类，较大的字母图像保持了字母的更多原始信息，有效地提高了网络模型的性能，识别准确率高；在训练网络模型时用正则化方法和提前终止条件避免了过拟合现象，并增强了网络模型的通用性。

附图说明

图1是本申请实施例的维吾尔文手写字母识别方法的流程图；

图2是点插入示意图；

图3中，(a)为原始手写样本示意图，(b)为尺寸调整后的样本二值图像，(c)为相似字母图像，(d)为转换后的128个字母二值图像；

图4为本申请实施例的卷积神经网络结构示意图；

图5(a)至图5(f)为大小为28*28的二值图像的卷积神经网络训练结果示意图；

图6为大小为48*48的二值图像卷积神经网络训练结果示意图；

图7是本申请实施例的维吾尔文手写字母识别系统的结构示意图；

图8是本申请实施例提供的维吾尔文手写字母识别方法的硬件设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的维吾尔文手写字母识别问题，本申请利用深度学习方法对维吾尔文字母的128个书写形式进行手写识别研究，将预处理后的联机维吾尔文手写字母样本转换成二值图像，然后用卷积神经网络进行自动特征提取和分类，分别使用不同的网络结构和配置对不同尺寸的字母图像进行识别。

具体地，请参阅图1，是本申请实施例的维吾尔文手写字母识别方法的流程图。本申请实施例的维吾尔文手写字母识别方法包括以下步骤：

步骤100：收集/读入维吾尔文字母的原始手写样本；

在步骤100中，维吾尔文中，基本字母的结合或前后连接形成单词以及句子。现代维吾尔文从右向左，从上到下书写[Wushouer J,Abulizi W,Abiderexiti K,etal.Building Contemporary Uyghur Grammatical Information Dictionary[C]//Revised Selected Papers of the Second International Workshop on WorldwideLanguage Service Infrastructure.Springer-Verlag New York,Inc.2015.]。维吾尔文字母形式和其Unicode编码在表1中给出[Kurban A,Mamat H.Beida FangZheng UighurText to Unicode Text Code Code-conversion,Journal of Xinjiang University(Natural Science Edition),2006,23(3):343-347.]。在实际书写中常用的一个字母(字母33)成分和一个复合字母形式(字母34)也在表1中列出，这两个字母各有两种变形：

表1.维吾尔文字母和其Unicode编码

维吾尔文有32个基本字母，其中有8个元音(字母1～2，字母25～28，字母30～31)和24个辅音，参见表1。这些基本字母有126个不同书写形式。除了每个字母的名义形式之外，根据字母在单词中出现的位置和连接方式的不同，还设立了2～8个不同的书写形式即字母变形，比如独立式、前连式、双连式、后连式等。其中25个字母有上述典型的四种书写形式，五个字母只有两种书写形式，而两个字母有八种书写形式(字母30～31)。每个元音字母的四种典型变形有两种选择。特殊字母部件(字母33)和复合字符(字母34)在实际书写中经常使用，因此被认为独立字母列在表1上，它们有各自的独立编码。这两种字母根据它们在一个单词中出现的位置的不同以两种变形书写。上述基本和特殊字母的总共有130个字母形式或变形在字母识别研究上需要考虑。

字母24的独立式和前连式分别与其后连式和双连式基本相同，只能根据单词中的位置来辨别。在数据采集的时候只考虑了独立式和前连式，被忽略的字母变形在表1的“No.”列中未做标记。因此，本申请实际收集的维吾尔文手写字母有128种书写形式。

本申请实施例中，收集的原始手写样本是基于400位书写者通过手写板记录的包括维吾尔文字母的128种书写形式的51200个联机手写样本，被记录的联机手写样本信息包括字母的Unicode编码、总笔画数、字母中各笔划轨迹结束标志，字母轨迹总结束标志以及每个点的坐标信息等。总样本的80％即40960个样本用于训练卷积神经网络，剩下的20％即10240个样本用于测试卷积神经网络。

步骤200：对收集/读入的原始手写样本进行预处理，将原始手写样本转换为二值图像；

在步骤200中，由于每个人有独特的手写风格，收集到的原始手写样本总是在大小、方向以及在手写板屏幕或图像里的位置上有所变化。为了便于卷积网络的自动特征提取，本申请通过对收集/读入的原始手写样本进行预处理，将联机手写轨迹转换为二值图像，便于后续卷积神经网络的联机手写字母识别。具体地，原始手写样本的预处理包括以下步骤：

步骤201：对每个原始手写样本的笔划轨迹分别进行点插入操作；

在步骤201中，在手写过程中，人手的抖动和笔尖的速度变化等因素导致笔划轨迹上的点分布不均匀。通过手写板可以记录原始手写样本每个笔划轨迹的起始和结束，但当转换成脱机图像时，笔划轨迹点的时间信息将丢失，这就导致了区别原始的形状很小的延迟笔画和主笔画中的松散点。在笔画轨迹中相邻松散点之间用插入新点的方式改善轨迹点分布，并增强转换后的脱机图像的视觉效果。为了避免各笔划之间产生额外的噪声，本申请对每个笔划轨迹分别进行点插入操作。笔画轨迹中每对相邻点用它们之间的欧式距离来判断是否需要点插入。如果相邻点之间的距离大于设定阈值，则进行点插入操作。本申请实施例中，设定阈值为1，具体可根据实际应用进行设定。需要插入的点数由相邻点之间的距离设定，相邻点之间的距离计算公式如下，其中dist表示距离：

新插入点的坐标用公式(2)计算，其中,(x_i,y_i)是第i个插入点的坐标：

请一并参阅图2，是点插入示意图。在图2中，P1(x1，y1)和P2(x2，y2)是需要点插入的相邻点，ΔX和ΔY分别表示水平和垂直方向上的的距离。小于该距离的正整数N作为需要插入的点数。

步骤202：对原始手写样本进行坐标范围归一化；

在步骤202中，原始手写样本的原始坐标范围由记录笔划轨迹的手写板屏幕的大小和像素密度来确定。本申请所收集/读入的原始手写样本的水平坐标和垂直轴的原始坐标范围都为[1,255]。一般情况下，原始坐标范围总是比需要的坐标范围大得多，将原始手写样本归一化到较小的坐标范围，可以减小样本存储空间和后续操作中所需的时间和内存。坐标范围归一化可以用线性归一化方法来实现。坐标归一化后的新点坐标用公式(3)计算：

上式中，(W,H)代表原始坐标范围虚拟窗口的宽度和高度，(X,Y)是原始点坐标值，而(w,h)是归一化后坐标范围虚拟窗口的宽度和高度，(x,y)是归一化后的点坐标。为了避免信息丢失本发明保持了原始的手写样本轨迹范围不变，即横坐标和纵坐标的取值范围都是[1,255].

步骤203：根据归一化后的坐标范围对原始手写样本进行尺寸调整；

在步骤203中，由于许多维吾尔文字母形式的结构和形状简单，因此，很多字母形式在形状上有很大的相似性。特别是手写字母，没有上下文的条件下无法辨别的情况经常遇见。利用简单的归一化方法对字母尺寸进行归一化很容易丢失字母原始形状，加大字母形式之间的相似性，给识别任务带来更多困难。本申请采用样本尺寸调整的方法可以保持原始手写样本的原始形状不变，同时最大程度的利用了归一化坐标范围。具体样本尺寸调整方式如下：

a：计算原始手写样本的宽度和高度对于归一化后坐标范围所形成的虚拟窗口的宽度比例和高度比例：

上式中，W_ratio表示宽度比例，H_ratio表示高度比例，w,h是虚拟窗口的宽度和高度，XX和YY是样本轨迹中所有点的横轴坐标和纵轴坐标。

b：获得样本尺寸调整比例adjust_ratio，用此比例将原始手写样本调整到归一化的坐标范围：

adjust_ratio＝min(W_ratio，H_ratio) (6)

线性归一化公式如下：

x＝(X-min(XX))*adjust_ratio，y＝(Y-min(YY))*adjust_ratio (7)

上式中，(X，Y)和(x，y)分别是尺寸调整前和调整后的轨迹点坐标。

c：将调整后的样本轨迹移到归一化后坐标范围虚拟窗口的中心：

上式中，

是原始手写样本的中心坐标，

是归一化后坐标范围虚拟窗口的中心坐标。

d：将尺寸调整后的原始手写样本转换成二值图像；

由于可以获得原始手写样本中每个点的坐标，所以在矩阵或窗口的对应位置上标记黑白像素点可以很方便的生成样本图像。图像的大小由坐标范围来确定。考虑到样本图像的视觉效果，样本图像的背景被设置为黑色，前景则为白色。具体如图3所示，其中，(a)为原始手写样本示意图，(b)为尺寸调整后的样本二值图像，(c)为相似字母图像，(d)为转换后的128个字母二值图像。从图中可以看出，(a)中所示的字符形式用一般的线性归一化中很容易丢失原有的形状，而利用尺寸调整方法保留了样本的原始形状。

步骤300：将二值图像输入到卷积神经网络进行分类训练和测试，得到128个维吾尔文手写字母的识别结果；

在步骤300中，请一并参阅图4，为本申请实施例的卷积神经网络结构示意图。本申请实施例的卷积神经网络包括5个卷积层、5个池化层、3个全连接层和最后的softmax分类器组成。

本申请实施例中，卷积层卷积核大小为3*3，网络中的底层卷积层用于提取低级特征图或局部特征图，高层卷积层用于提取高层特征图或全局特征图。局部特征图的不同组合可以形成大量的对象类。因此，在低层卷积层使用较少的滤波器，而在高层卷积层中设置了更多的滤波器。在卷积操作之后通过补零的技术保持了特征图大小不变，这有助于计算和增加网络层数。线性修正单元激活函数(ReLU)是广受好评的激活函数，具有有效减轻梯度消失现象和实现方便、提高网络训练速度等功能。本申请采用的卷积神经网络中所有卷积层都用ReLU。

模式，特别是图像，通常具有结构层次化的形成方式，即基本形状组合较高级别的子形状，各级子形状最后形成整体图像。基本形状单元是寻找有效特征来表示图像的基础。在一个图像中，基本形状单位出现于图像的许多部位。从整幅图像中搜索小的基本形状单元的思想利用二维卷积运算来可以实现。

卷积神经网络各层神经元的连接方式与典型神经网络中神经元连接方式不同。在卷积神经网络中，一个神经元只连接于前一层神经网络的若干个神经元(代表图像中像素点)。神经元与其前一层中连接的神经元起到一个形状检测器或滤波器作用。某个神经元在上一层中连接范围叫做该神经元的局部感受野，代表该神经元在前一层的信息源。在整个图像空间区域的卷积运算中，连接权重被共享，大幅度减少了需要学习的连接权重数量，提高了网络训练速度。各卷积结果经过非线性函数形成特征图，是用该滤波器检测出来的特征空间。多个过滤器产生多个特征图，每个特征图表明某个基本形状单元在图像中的分布情况。第一层的特征图被看作是最基本的低层特征，被组合到下一层卷积层的更高层的特征。深层的神经元比浅层神经元具有更大的感受野，并以更抽象的方式概括信息。

池化层用于取最大值池化将卷积层提取的特征图的大小减半，采用2*2的池化区域和2步伐。池化层还有下采样、子采样等不同的名称，也是让卷积神经网络提取更好特征的另一个非常有效的因素。在卷积层的基本形状检测中，基本形状是在不同位置而不是所有位置上出现的。事实上，只保持检测到的基本形状位置有助于识别输入图像。保留形状的位置是池化操作的基本思想，为平移不变特征表示提供了一种非常有效的方法。应用池化操作的另一个好处是减小特征图的大小，所以在下一个卷积层需要更少的神经元连接，降低网络训练的计算复杂度。这导致了训练过程的加速，这在深度学习中非常重要。区最大值池化是在池化方法中实现非常简单而高效的方法，因此应用最广泛。在特征图中各领域的最大值被选为该领域中特征的代表。

全连接层用于对提取的特征图进行全局组合；在所有卷积和池化层之后用全连接层被认为有助于提取更高级的全局特征。通过卷积和池化得到的特征图被转换成为一维特征向量，然后输入给全连接层。特征向量的每一位特征点连接于全连接层中的神经元。

softmax分类器用于以全连接层的输出为输入，得到最后的识别分类结果。SoftMax是应用卷积神经网络是最普遍的分类器。它有很清晰的解释性，可以非常方便得结合于卷积网络学习的特征上。SoftMax是最基本的分类逻辑回归网络的广义形式，适用于多分类的问题。最后全连接层各神经元的值经过非线性函数转换为属于某个类别的概率值。Softmax先把所有概率值相加，然后把各概率值除以概率和的结果，表示标准化概率值。最后，标准化概率值最大的神经元被选为该输入所属的类别：

上式中，W是网络参数即权重，P(y＝i|x)是输入x属于K个类别中第i个类别的标准化概率值。

实验结果与分析

本申请分别通过包括4或5个卷积层和2或3个全连接层构成的卷积神经网络对128个维吾尔文手写字母进行分类实验。每一层中的神经元数目也不同。所有实验中的网络训练采用Adadelta自适应学习算法。同时，本申请用Dropout和提前终止等技术避免了网络训练中过拟合现象的出现。实验中用错误率来评价卷积神经网络的性能。实验没有设置验证集，在网络训练过程中，在每次完成访问所有训练样本之后，卷积神经网络在训练集和测试集上进行了识别测试。在测试集上的最后三次识别测试结果的平均值用来表示有效的测试识别结果。训练集上最后的识别结果和测试集上的有效测试识别率之差用来表示卷积神经网络的泛化性能。

实验1：基于28*28大小的二值图像进行卷积神经网络训练；卷积神经网络训练记录如表2所示：

表2基于28*28二值图像的卷积神经网络训练记录

表2中，C表示卷积层，P池化层，d和后面的数字表示dropout和丢弃率，FC表示全连接层，C16表示该卷积层中有16个神经元。

因输入图像大小的限制，实验1的网络结构只包含了4个卷积层、2个全连接层和softmax分类器。实验1中，在训练集上完成20个epoch(迭代次数)以后，网络在训练集上的识别率就降低了很小的错误率，测试集上的有效识别率也降到了17.8％左右，证明卷积神经网络有极强的学习能力。实验1中，因为训练中没有进行正则化，训练集和测试集上的识别率之差是非常大的，开始过拟合，采用提前终止机制防止过拟合现象更加严重，具体训练结果如图5(a)所示。

实验2在实验1采用的卷积神经网络结构的最后一层全连接层上采用dropout正则化，丢弃率设置为0.5；Dropout是提高网络的性能、避免过拟合的最大贡献的正则化技术之一。记录下来的各种识别结果和训练过程表明，正则化对网络训练的成功和泛化能力的提高很有帮助，如图5(b)所示。测试集上的识别错误率降到13.3％，与实验1相比，训练集和测试集上的识别率之差也减小。但过大的丢弃率阻碍了网络在训练集上得到良好的训练，即训练集上的识别错误率只在5.4％的时候就停止了训练。实验2表明采用dropout时丢弃率的选择对训练过程的影响很大。

实验3在实验1采用的卷积神经网络结构的最后一层全连接层上采用dropout正则化，丢弃率设置为0.3；训练结果如图5(c)所示；训练结果表明，测试集上的错误率上升，这意味着采用小的丢弃率，网络泛化能力被削弱了。实验4用较大的丢弃率来缩小了训练集和测试集识别率的差距，同时测试集上的识别错误率也减小到12.7％，训练结果如图5(d)所示。实验5在每个池化层后分别采用一次dropout，训练集和测试集的识别误差率之差进一步减小。训练结果如图5(e)所示。实验6中，dropout用于每个卷积层之后，训练结果如图5(f)所示。可以看出，实验5中记录的训练识别率变化曲线比实验6更加稳定。

实验7：基于48*48大小的二值图像进行卷积神经网络训练；卷积神经网络训练记录如表3所示：

表3.基于48*48二值图像的卷积神经网络训练记录

如果设定的归一化样本尺寸小，则原始样本归一化之后丢失很多信息。归一化尺寸较大会保留很多原始样本信息，但需要很大的存储空间。本申请首先将二值图像归一化到46*46的尺寸，然后用外围补零的方法增大到48*48。用此尺寸，实验7可以采用5个卷积层。表3记录了用此尺寸时具有4个和5个卷积层的卷积神经网络实验结果。可以看出，较大的归一化图像和较深的网络结构可以得到更好的识别结果，两个卷积神经网络在识别率和网络泛化性能上都得到了改善。

如图6所示，为大小为48*48的二值图像卷积神经网络训练结果示意图。除了正则化和网络结构的贡献外，较大图像保留的信息有助于识别性能的提高。卷积神经网络的初步训练实验中得到的结果也很好。包含5个卷积层的卷积神经网络在48*48输入图像上有效识别错误率降到5.83％。此识别率是在10240个测试样本上进行三次识别测试的平均错误率，相当于94.17％的识别准确率。

结论

本申请通过对卷积神经网络的训练过程进行详细记录和研究。训练结果表面，5个卷积层和3个FC层的卷积神经网络在测试集上的3此测试平均识别错误率为5.83％，相当于94.17％的准确率。较大的字母图像保留了字母的更多原始信息，有效地提高了网络的性能。训练中利用dropout正则化方法避免了过拟合现象，并增强网络的通用性。

请参阅图7，是本申请实施例的维吾尔文手写字母识别系统的结构示意图。本申请实施例的维吾尔文手写字母识别系统包括样本收集/读入模块、样本预处理模块和样本分类模块。

样本收集/读入模块：用于收集/读入维吾尔文字母的原始手写样本；本申请实施例中，收集/读入的原始手写样本是基于400位书写者通过手写板记录的包括维吾尔文字母的128种书写形式的51200个联机手写样本，被记录的联机手写样本信息包括字母的Unicode编码、总笔画数、各笔划轨迹起始标志、各笔划轨迹结束标志，以及每个点的坐标信息等。总样本的80％即40960个样本用于训练卷积神经网络，剩下的20％即10240个样本用于测试卷积神经网络。

样本预处理模块：用于对收集/读入的原始手写样本进行预处理，将原始手写样本转换为二值图像；其中，由于每个人有独特的手写风格，收集到的原始手写样本总是在大小、方向以及在手写板屏幕或图像里的位置上有所变化。为了便于卷积网络的自动特征提取，本申请通过对收集/读入的原始手写样本进行预处理，将联机手写轨迹转换为二值图像，便于后续卷积网络的联机手写字母识别。具体地，样本预处理模块包括：

点插入单元：用于对每个原始手写样本的笔划轨迹分别进行点插入操作；在手写过程中，人手的抖动和笔尖的速度变化等因素导致笔划轨迹上的点分布不均匀。通过手写板可以记录原始手写样本每个笔划轨迹的起始和结束，但当转换成脱机图像时，笔划轨迹点的时间信息将丢失，这就导致了区别原始的形状很小的延迟笔画和主笔画中的松散点。在笔画轨迹中相邻松散点之间用插入新点的方式改善轨迹点分布，并增强转换后的脱机图像的视觉效果。为了避免各笔划之间产生额外的噪声，本申请对每个笔划轨迹分别进行点插入操作。笔画轨迹中每对相邻点用它们之间的欧式距离来判断是否需要点插入。如果相邻点之间的距离大于设定阈值，则进行点插入操作。本申请实施例中，设定阈值为1，具体可根据实际应用进行设定。需要插入的点数由相邻点之间的距离设定，相邻点之间的距离计算公式如下，其中dist表示距离：

归一化单元：用于对原始手写样本进行坐标范围归一化；原始手写样本的原始坐标范围由记录笔划轨迹的手写板屏幕的大小和像素密度来确定。本申请所收集的原始手写样本的水平坐标和垂直轴的原始坐标范围都为[1,255]。一般情况下，原始坐标范围总是比需要的坐标范围大得多，将原始手写样本归一化到较小的坐标范围，可以减小样本存储空间和后续操作中所需的时间和内存。坐标范围归一化可以用线性归一化方法来实现。坐标归一化后的新点坐标用公式(3)计算：

尺寸调整单元：用于根据归一化后的坐标范围对原始手写样本进行尺寸调整；由于许多维吾尔文字母形式的结构和形状简单，因此，很多字母形式在形状上有很大的相似性。特别是手写字母，没有上下文的条件下无法辨别的情况经常遇见。利用简单的归一化方法对字母尺寸进行归一化很容易丢失字母原始形状，加大字母形式之间的相似性，给识别任务带来更多困难。本申请采用样本尺寸调整的方法可以保持原始手写样本的原始形状不变，同时最大程度的利用了归一化坐标范围。具体样本尺寸调整方式如下：

上式中，W_ratio表示宽度比例，H_ratio表示高度比例，w，h是虚拟窗口的宽度和高度，XX和YY是样本轨迹中所有点的横轴坐标和纵轴坐标。

adjust_ratio＝min(W_ratio，H_ratio) (6)

线性归一化公式如下：

x＝(X-min(XX))*adjust_ratio，y＝(Y-min(YY))*adjust_ratio (7)

上式中，

是原始手写样本的中心坐标，

是归一化后坐标范围虚拟窗口的中心坐标。

d：将尺寸调整后的原始手写样本转换成二值图像；

由于可以获得原始手写样本中每个点的坐标，所以在矩阵或窗口的对应位置上标记黑白像素点可以很方便的生成样本图像。图像的大小由坐标范围来确定。考虑到样本图像的视觉效果，样本图像的背景被设置为黑色，前景则为白色。

样本分类模块：用于将二值图像输入到卷积神经网络进行分类训练和测试，得到128个维吾尔文手写字母的识别结果；本申请实施例的卷积神经网络包括5个卷积层、5个池化层、3个全连接层和最后的softmax分类器组成。

图8是本申请实施例提供的维吾尔文手写字母识别方法的硬件设备结构示意图。如图8所示，该设备包括一个或多个处理器以及存储器。以一个处理器为例，该设备还可以包括：输入系统和输出系统。

处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入系统可接收输入的数字或字符信息，以及产生信号输入。输出系统可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任一方法实施例的以下操作：

步骤a：收集/读入维吾尔文字母的原始手写样本；

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的方法。

本申请实施例提供了一种非暂态(非易失性)计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行以下操作：

步骤a：收集/读入维吾尔文字母的原始手写样本；

本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行以下操作：

步骤a：收集/读入维吾尔文字母的原始手写样本；

本申请实施例的维吾尔文手写字母识别方法、系统及电子设备本申请将预处理后的联机维吾尔文手写字母样本转换成二值图像，然后用卷积神经网络进行自动特征提取和分类，较大的字母图像保持了字母的更多原始信息，有效地提高了网络模型的性能，识别准确率高；在训练网络模型时用正则化方法和提前终止条件避免了过拟合现象，并增强了网络模型的通用性。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本申请所示的这些实施例，而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种维吾尔文手写字母识别方法，其特征在于，包括以下步骤：

步骤a：收集/读入维吾尔文字母的原始手写样本，具体为：通过手写板记录的包括维吾尔文字母的128种书写形式的联机手写样本，所述联机手写样本信息包括维吾尔文字母的Unicode编码、总笔画数、字母中各笔划轨迹结束标志，字母轨迹总结束标志以及每个点的坐标信息；

步骤b：对所述原始手写样本进行预处理，将所述原始手写样本转换为二值图像，具体包括：

步骤b2：对原始手写样本进行坐标范围归一化，将原始手写样本的坐标范围缩小；坐标归一化后的新点坐标计算公式为：

上式中，(W,H)代表原始坐标范围虚拟窗口的宽度和高度，(X,Y)是原始点坐标值，(w,h)是归一化后坐标范围虚拟窗口的宽度和高度，(x,y)是归一化后的点坐标；原始手写样本横坐标和纵坐标的取值范围都是[1,255]；

步骤b3：根据归一化后的坐标范围对原始手写样本进行尺寸调整；

尺寸调整具体包括：

步骤b3d：将尺寸调整后的原始手写样本转换成二值图像；

2.根据权利要求1所述的维吾尔文手写字母识别方法，其特征在于，在所述步骤c中，所述卷积神经网络包括5个卷积层、5个池化层、3个全连接层和softmax分类器，所述5个卷积层用于提取二值图像的特征图，所述5个池化层用于将卷积层提取的特征图的大小减半，所述3个全连接层用于对特征图进行全局组合后输入softmax分类器，所述softmax分类器用于根据特征图对原始手写样本进行分类，得到所述原始手写样本的识别结果。

3.一种维吾尔文手写字母识别系统，其特征在于，包括：

样本收集/读入模块：用于收集/读入维吾尔文字母的原始手写样本，所述样本收集/读入模块具体用于：通过手写板记录的包括维吾尔文字母的128种书写形式的联机手写样本，所述联机手写样本信息包括维吾尔文字母的Unicode编码、总笔画数、字母中各笔划轨迹结束标志，字母轨迹总结束标志以及每个点的坐标信息；

样本预处理模块：用于对所述原始手写样本进行预处理，将所述原始手写样本转换为二值图像，所述样本预处理模块包括：

上式中，(xi,yi)是第i个插入点的坐标，Δx和Δy分别表示水平和垂直方向上的的距离，该距离的正整数N为需要插入的点数；

归一化单元：用于对原始手写样本进行坐标范围归一化，将原始手写样本的坐标范围缩小；坐标归一化后的新点坐标计算公式为：

上式中，(W,H)代表原始坐标范围虚拟窗口的宽度和高度，(X,Y)是原始点坐标值，(w,h)是归一化后坐标范围虚拟窗口的宽度和高度，(x,y)是归一化后的点坐标；原始手写样本横坐标和纵坐标的取值范围都是[1,255].

尺寸调整单元：用于根据归一化后的坐标范围对原始手写样本进行尺寸调整；所述尺寸调整单元具体用于：计算原始手写样本的宽度和高度对于归一化后坐标范围所形成的虚拟窗口的宽度比例和高度比例；根据所述宽度比例和高度比例计算样本尺寸调整比例，并根据样本尺寸调整比例将原始手写样本调整到归一化的坐标范围；将调整后的样本轨迹移到归一化后坐标范围虚拟窗口的中心；将尺寸调整后的原始手写样本转换成二值图像；

4.根据权利要求3所述的维吾尔文手写字母识别系统，其特征在于，所述卷积神经网络包括5个卷积层、5个池化层、3个全连接层和softmax分类器，所述5个卷积层用于提取二值图像的特征图，所述5个池化层用于将卷积层提取的特征图的大小减半，所述3个全连接层用于对特征图进行全局组合后输入softmax分类器，所述softmax分类器用于根据特征图对原始手写样本进行分类，得到所述原始手写样本的识别结果。

5.一种电子设备，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述权利要求1至2任一项所述的维吾尔文手写字母识别方法的以下操作：

步骤a：收集/读入维吾尔文字母的原始手写样本；