CN108364037A

CN108364037A - 识别手写汉字的方法、系统及设备

Info

Publication number: CN108364037A
Application number: CN201711459778.9A
Authority: CN
Inventors: 武晨
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-08-03

Abstract

本发明公开了识别手写汉字的方法、系统及设备，所述方法步骤包括：S1，从待识别图片中提取手写汉字区域，再从所述手写汉字区域中提取出若干张信息图片；S2，以步骤S1中所述的信息图片为样本，创建手写汉字识别的样本集；S3，建立手写汉字文本识别初始模型；S4，以步骤S2中所述的样本集为基础，对所述手写汉字文本识别初始模型进行优化，得到手写汉字文本识别模型；S5，利用所述手写汉字文本识别模型，对待识别图片进行识别。所述系统及设备用于实现所述方法。本发明技术能部分代替人工打字录单的过程，不仅缩减了大量的人力资本，而且大幅度提高了录单的准确率，而且技术方案不仅可以识别运单上的手写文本，通过准备不同的训练样本，该方案还可以移植到其他场景下的手写汉字的识别。

Description

识别手写汉字的方法、系统及设备

技术领域

本发明涉及手写汉字识别技术领域，尤其涉及识别手写汉字的方法、系统及设备。

背景技术

当前人工智能领域已经可以实现对单一手写汉字的较准确的识别，所以通过手写的地址文本切分成单个汉字并依次进行识别本可以实现完整地址的识别，但是，目前“切割汉字的技术”还没有发展到可以保证正确率的程度，进而导致识别结果正确率很低。

另外，快递在被运送路上之前，每一件快递都要经历录单的过程，目的是将运单上的二维码与寄件人手写的地址信息的对应关系保存在电脑里，进而之后的收发结点仅仅通过扫描二维码来获取该快件的目标地址。而且，目前我们的录单过程都是依靠人工手动敲打键盘来把运单上的手写地址录入电脑系统里，这样不仅消耗大量的人力成本，还无法保证录单的正确率。一旦录入的地址错误，对应的快递就会毫无悬念的被寄往错误的地点。

终上所述，现有技术存在的问题是：“切割汉字的技术”还没有发展到可以保证正确率的程度，进而导致识别结果正确率很低，并且在快递行业，人工打字录单的过程会消耗大量的人力成本，而且枯燥重复的工作，会让人工识别地址经常出错，并且由于手写地址是一串没有间隔的汉字，同时汉字往往是左右或者上下结构的，所以将地址切分成一个一个的汉字是事倍功半的过程。

发明内容

为了解决上述现有技术中的不足，本发明的目的在于提供一种识别手写汉字的方法及其应用。

本发明解决其技术问题所采用的技术方案为：

识别手写汉字的方法，包括以下步骤：

S1，从待识别图片中提取手写汉字区域，再从所述手写汉字区域中提取出若干张信息图片；

S2，以步骤S1中所述的信息图片为样本，创建手写汉字识别的样本集；

S3，建立手写汉字文本识别初始模型；

S4，以步骤S2中所述的样本集为基础，对所述手写汉字文本识别初始模型进行优化，得到手写汉字文本识别模型；

S5，利用所述手写汉字文本识别模型，对待识别图片进行识别。

步骤S1中所述的待识别图片为运单图片。

所述步骤S1包括步骤：

S11,获取运单图片；

S12,调整所述运单图片，使所述运单图片的底边与水平线的偏差角度在预设的误差范围内；

S13,将步骤S12中调整过的运单图片与空白运单图片进行对比、抵消，获得运单图片中的填写内容；

S14,以所述运单图片左侧边沿为初始边截取整张运单图片的40％-75％的区域作为有效信息区域，获取有效信息区域的图片；

S15,从所述有效信息区域的图片中提取若干张信息图片。

所述步骤S2包括步骤：

S21，对步骤S1中全部的信息图片进行命名，每一张所述信息图片对应唯一命名；

S22，将每张所述信息图片的文字序列作为该张图片的标签；

S23，将全部的标签按照顺序保存在文本文件中，每个所述标签按预设格式设置；

S24，以所述信息图片及其标签作为样本，创建手写汉字识别的样本集。

所述步骤S3包括步骤：

S31，将步骤S2中所述的样本集平均分为若干个样本子集；

S32，对所述样本子集中的每张信息图片进行路径扫描与LSTM处理得到对应子集；

S33，对所述对应子集中的每张图片进行卷积与求和处理，得到第一特征图像；

S34，将同一张信息图片所产生的第一特征图像分别依次进行路径扫描与LSTM处理、卷积与求和处理得到第二特征图像；

S35，将同一张信息图片所产生的第二特征图像分别依次进行路径扫描与LSTM处理，得到中间图像子集；

S36，将所述中间图像子集经过全连接层建立参数矩阵，然后将相关的参数矩阵相加求和，最终得到每张信息图片的全连接层数据；

S37，对每个全连接层数据进行参数归一化处理，得到归一化的参数矩阵；

S38，对每个归一化的参数矩阵经过CTC分类器，得到特征向量；

S39，将全部的样本子集均进行S32-S38的处理，将获得的结果与真实的结果进行比较并迭代进行全网络参数的优化。

所述的路径扫描与LSTM处理包括步骤：对每张图片进行四种路径扫描，每张图片得到四张顺序信息的扫描图片；将每张所述扫描图片经过一层含有N核的LSTM层，分别得到N张对应图片。

所述的卷积与求和处理包括步骤：每张图片经过一个包含有M个卷积核的卷积层过滤得到特征矩阵，同一张信息图片所对应的图片的特征矩阵为相关特征矩阵，将所述相关特征矩阵进行求和并进行非线性运算获得特征图像。

所述步骤S32中，N＝2；所述步骤S34中，N＝10；所述步骤S35中N＝50。

所述步骤S32中，M＝6；所述步骤S34中，M＝20。

所述步骤S4包括：

S41,将步骤2中所述的样本集按照比例分为训练集，测试集和验证集；

S42，基于获得按照预定比例设置的训练集、测试集和验证集采用梯度下降法优化所述手写汉字文本初始识别模型的参数，并基于GPU加速器迭代进行模型训练。

所述步骤S5包括步骤：

S51，将所述待识别图片按照所述步骤S1处理，得到若干张信息图片；

S52,将全部的所述信息图片依次输入所述手写汉字文本识别模型进行识别；

S53，将步骤S52中全部的识别结果进行拼接和纠偏获取最终的识别结果。

识别手写汉字的系统，包括：

图像采集模块，用于采集待识别图片；

网络结构，用于对所述待识别图片进行处理，并构建与优化手写汉字文本识别模型，包括：三层LSTM和一层CTC，所述CTC为最终一层，相邻两层LSTM之间通过一层CNN提取特征并进行采样，第一层LSTM的输入是由对每张图片进行四种扫描方向扫描生成序列组成。

识别手写汉字的设备，包括存储有计算机程序的计算机可读介质，所述程序被运行用于执行：

S3，建立手写汉字文本识别初始模型；

与现有技术相比，本发明具有以下有益效果：

1、本技术方案不仅可以识别运单上的手写文本，通过准备不同的训练样本，该方案还可以移植到其他场景下的手写汉字的识别。

2、传统的人工打字录单的过程会消耗大量人力资本，而且在枯燥重复的工作中，人工识别地址经常出错，本技术方案通过提取目标信息图片，能部分代替人工打字录单的过程，不仅缩减了大量的人力资本，而且大幅度提高了录单的准确率。

3、手写地址是一串串没有间隔的汉字，同时汉字往往是左右或者上下结构的，所以将地址切分成一个一个汉字是事倍功半的过程，本技术方案规避了传统OCR的识别方法，采用的一种免切割的文本段落识别方法，即不需要对汉字段落进行单个汉字的切割，因此本发明示例的技术方案可以保证汉字识别正确率。

附图说明

图1为识别手写汉字的方法的流程图。

图2为从整张运单地址信息图片中提取手写地址区域的示意图。

图3为截取的运单的有效信息区域；

图4为空白运单；

图5为对比、抵消后的运单图片；

图6为深度学习网络结构图。

图7为对每张图片进行四个方向扫描获得一维序列的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例：

如图1所示，识别手写汉字的方法，包括以下步骤：

S1，从待识别图片中提取手写汉字区域，再从所述手写汉字区域中提取出若干张信息图片；本实施例中的待识别图片为运单图片。当然，在其他一些实施例中，该待识别图片还可为票据图片，或信封等。

所述步骤S1包括步骤：

获取运单图片。

如图2所示，调整所述运单图片，使所述运单图片的底边与水平线的偏差角度在预设的误差范围内；

如图4-5所示，将步骤S12中调整过的运单图片与空白运单图片进行对比、抵消，获得运单图片中的填写内容。

如图3所示，以所述运单图片左侧边沿为初始边截取整张运单图片的40％-75％的区域作为有效信息区域。优选地，以所述运单图片左侧边沿为初始边截取整张运单图片的60％的区域作为有效信息区域，获取有效信息区域的图片。

S15,从所述有效信息区域的图片中提取若干张信息图片。

S2，以步骤S1中所述的信息图片为样本，创建手写汉字识别的样本集。这个样本集是由一组一组的对应关系组成，即{(图片1，图片1上的内容)，(图片2，图片2上的内容)……}，再将这些样本集的所有组合按照一定的比例分组成三个样本集，本发明实施例是按照8:1：1的比例分组成训练集，测试集和验证集。

所述步骤S2包括步骤：

S21，对步骤S1中全部的信息图片进行命名，每一张所述信息图片对应唯一命名。命名方法为：如“00000001.jpg”,”00000356.jpg”等等，即编号总位数8位，不足的前面补零。

S22，将每张所述信息图片的文字序列作为该张图片的标签；

S23，将全部的标签按照顺序保存在文本文件中，每个所述标签按预设格式设置；本实施例中，全部标签保存在一个文本文件中，每个标签占一行。

S3，建立手写汉字文本识别初始模型。包括步骤：

S31，将步骤S2中所述的样本集平均分为若干个样本子集；

所述的路径扫描与LSTM处理包括步骤：对每张图片进行四种路径扫描，每张图片得到四张顺序信息的扫描图片；将每张所述扫描图片经过一层含有N核的LSTM层，分别得到N张对应图片。四种路径扫描如图7所示。

LSTM(Long-Short Term Memory,长短期记忆)是一种时间递归神经网络。通常LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

LSTM的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好，比如用在不分段连续手写识别上。2009年，用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别，2013年运用TIMIT自然演讲数据库达成17.7％错误率的纪录。作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

所述的卷积与求和处理包括步骤：每张图片经过一个包含有M个卷积核的卷积层过滤得到特征矩阵，同一张信息图片所对应的图片的特征矩阵为相关特征矩阵，所述对应指的是由同一张信息图片经过上述处理后所得到的图片，将所述相关特征矩阵进行求和并进行非线性运算获得特征图像。

在本实施例中，具体实现过程为：

1、本方案在tensorflow深度学习平台上采用递归神经网络(Recurrent NeuralNetwork)中的LSTM(Long-Short Term Memory)算法和CTC(Connectionist TemporalClassification)算法结合的方法搭建深度学习网络。模型建立的具体步骤是：

a.将所有样本分割成若干相同大小的集合，比如10000张图片分成20个分别包含500个样本的集合，然后每个集合同时用于进行以下的参数运算。

b.对集合中的每一张图片进行四种路径扫描，进而得到四张带有顺序信息的扫描图片，然后将所有扫描图片分别经过一层含有两个核的LSTM层，分别有一张带有顺序信息的图片变为两张对应图片。

c.每一个集合由500张图片变为4000张图片(这个集合依据四种扫描路径分为四个子集合)，将这些图片分别经过一个包含6个卷积核的卷积层过滤得到相应的特征矩阵，将相关的四张特征矩阵(此处的四张特征矩阵是针对同一张信息图片的四个子集合中相对应的特征矩阵，比如第一、第二、第三、第四个子集合它们的第一张图就是所谓相关的四张特征矩阵)进行求和并进行非线性运算，进而每一个集合又转化为500*6张特征图像(第一特征图像)。

d.将每一组6张图像当做一个对象重复步骤b，其中每个LSTM层的核数变为10，再重复步骤c，其中每个卷积层的核数设置为20，此时每个集合会得到500*20张特征图像(第二特征图像)。

e.将每一组的20个图像当做一个对象重复步骤b，其中每一个LSTM层的核数为50，然后将得到的每50个为一组，每四组(即源自于同组的图像经过四种扫描途径所获取的四组)的对象经过一个全连接层，建立50:3755的参数矩阵，然后将相关的四组相加求和，得到每一张原始图片对应一个全连接层参数。

f.对每一个全连接层的数据进行扁平化分别经过softmax进行参数归一化。

g.将每一个归一化的参数矩阵经过一个CTC分类器，得到一维包含3755个变量的特征向量，它表示了这张图片中显示的所有文字。

h.所有的图片都经过以上顺序进行处理，将所有获得的结果和真实的结果进行比对并迭代进行全网络参数的优化。

S4，以步骤S2中所述的样本集为基础，对所述手写汉字文本识别初始模型进行优化，得到手写汉字文本识别模型。

2.网络结构主要为三层LSTM最终一层CTC组成，相邻两层LSTM之间通过一层CNN提取特征并进行下采样。其中第一层LSTM的输入是由对每一张样本进行四种扫描方向扫描生成的序列组成，如图6。

3.使用步骤S2获得的样本图片和对应标签按照8:1:1的比例建立训练库、测试库和验证库。

训练模型的流程是迭代地进行一下操作：1.取一定量训练集样本通过匹配一些参数来建立一个分类器；2.取一定量验证集样本对学习出来的模型，调整分类器的参数；3.取一定量的测试集样本测试训练好的模型的识别能力来决定是否进行下一次迭代来提高识别率。

4.基于获得的训练集、测试集和验证集采用梯度下降法优化手写汉字文本识别模型的参数，并基于GPU加速器迭代进行模型训练，最终获得最优模型。

S5，利用所述手写汉字文本识别模型，对待识别图片进行识别。所述步骤S5包括步骤：

传统的人工打字录单的过程会消耗大量人力资本，而且在枯燥重复的工作中，人工识别地址经常出错，本发明技术方案能部分代替人工打字录单的过程，不仅缩减了大量的人力资本，而且大幅度提高了录单的准确率。而且，手写地址是一串串没有间隔的汉字，同时汉字往往是左右或者上下结构的，所以将地址切分成一个一个汉字是事倍功半的过程，本技术方案规避了传统OCR的识别方法，采用的一种免切割的文本段落识别方法，即不需要对汉字段落进行单个汉字的切割，因此本方案可以保证汉字识别正确率。

识别手写汉字的系统，包括：

图像采集模块，用于采集待识别图片；

网络结构，用于对所述待识别图片进行处理，并构建与优化手写汉字文本识别模型，包括：三层LSTM和一层CTC，所述CTC为最终一层，相邻两层LSTM之间通过一层CNN提取特征矩阵并进行采样，第一层LSTM的输入是由对每张图片进行四种扫描方向扫描生成序列组成。

S3，建立手写汉字文本识别初始模型；

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

除说明书所述的技术特征外，其余技术特征为本领域技术人员的已知技术，为突出本发明的创新特点，其余技术特征在此不再赘述。

Claims

1.识别手写汉字的方法，其特征在于，包括以下步骤：

S3，建立手写汉字文本识别初始模型；

2.根据权利要求1所述的识别手写汉字的方法，其特征在于，步骤S1中所述的待识别图片为运单图片。

3.根据权利要求2所述的识别手写汉字的方法，其特征在于，所述步骤S1包括步骤：

S11,获取运单图片；

S15,从所述有效信息区域的图片中提取若干张信息图片。

4.根据权利要求1所述的识别手写汉字的方法，其特征在于，所述步骤S2包括步骤：

S22，将每张所述信息图片的文字序列作为该张图片的标签；

5.根据权利要求1所述识别手写汉字的方法，其特征在于，所述步骤S3包括步骤：

S31，将步骤S2中所述的样本集平均分为若干个样本子集；

6.根据权利要求5所述的识别手写汉字的方法，其特征在于，所述的路径扫描与LSTM处理包括步骤：

对每张图片进行四种路径扫描，每张图片得到四张顺序信息的扫描图片；

将每张所述扫描图片经过一层含有N核的LSTM层，分别得到N张对应图片。

7.根据权利要求5所述的识别手写汉字的方法，其特征在于，所述的卷积与求和处理包括步骤：

每张图片经过一个包含有M个卷积核的卷积层过滤得到特征矩阵，同一张信息图片所对应的图片的特征矩阵为相关特征矩阵，将所述相关特征矩阵进行求和并进行非线性运算获得特征图像。

8.根据权利要求1所述的识别手写汉字的方法，其特征在于，所述步骤S4包括：

S42，基于获得按照预定比例设置的训练集、测试集和验证集，采用梯度下降法优化所述手写汉字文本初始识别模型的参数，并基于GPU加速器迭代进行模型训练。

9.根据权利要求1所述的识别手写汉字的方法，其特征在于，所述步骤S5包括步骤：

10.识别手写汉字的系统，其特征在于，包括：

图像采集模块，用于采集待识别图片；

11.识别手写汉字的设备，包括存储有计算机程序的计算机可读介质，其特征在于，所述程序被运行用于执行：

S3，建立手写汉字文本识别初始模型；