CN109858488B

CN109858488B - 一种基于样本增强的手写样本识别方法与系统

Info

Publication number: CN109858488B
Application number: CN201811623758.5A
Authority: CN
Inventors: 谢畅; 钱浩然; 徐宝函; 周元笙; 梅鵾
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Shanghai Zhongan Information Technology Service Co ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2021-09-17
Anticipated expiration: 2038-12-28
Also published as: CN109858488A

Abstract

本发明公开了一种基于样本增强的手写样本识别方法与系统，其中方法包括：S1、生成标注样本，标出图像样本中的手写字符，将手写字符从图像样本中裁切出来并归类；S2、样本增强，将标注样本进行随机变换生成变换后样本，利用生成模型生成与变换后样本同分布的增强样本；S3、样本合成，利用增强样本生成训练样本；S4、模型训练，利用训练样本训练检测分类模型以及手写样本识别模型；S5、识别应用，利用训练好的检测分类模型检测出手写字符的位置，然后再通过手写样本识别模型识别手写字符。本发明通过增加训练样本的多样性优化检测分类模型与识别模型有效地克服了现有技术中离线手写识别准确率较低，手写识别样本标注困难，模型提升缓慢的问题。

Description

一种基于样本增强的手写样本识别方法与系统

技术领域

本发明涉及文本图像智能识别技术领域，特别涉及一种基于样本增强的手写样本识别方法与系统。

背景技术

文本图像主要指通过某种方式将纸质文档转化为图像格式的文档，文本图像可能包含：表格、图片、机打生成的字体甚至是手写笔迹，手写笔迹包括手写字体以及手写图形等。一般来说，对于非手写笔迹的图像识别通常采用光学字符识别和深度神经网络识别。对于手写笔迹识别通常采用在线识别和离线识别的方式。所述在线识别主要指通过获取手写笔迹的笔画顺序、压感等信息，通过模型判断字迹内容，将可能的结果全部反馈给用户，让用户做出选择，完成输入。与离线识别相比，在线识别模式有两种优势：1.在线识别蕴含的信息量更大；2.反馈多个结果让用户选择，容错性高。然而，绝大多数需要手写识别的场景，只能进行离线识别，即获取带有手写字迹的图像信息，通过模型得到确定的结果，然后反馈。但是在现有的离线识别中由于手写笔迹较通用字体而言缺乏统一标准，书写者笔迹风格差异较大，笔迹潦草、连笔现象多见，导致识别率较低、手写识别样本标注困难，模型提升缓慢。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种基于样本增强的手写样本识别方法和系统，可用于带有手写字迹的图像样本的识别。所述技术方案如下：

一方面，本发明提供了一种基于样本增强的手写样本识别方法，所述方法包括如下步骤：

S1、生成标注样本，标出图像样本中的手写字符，将所述手写字符从所述图像样本中裁切出来并归类；

S2、样本增强，将所述标注样本进行随机变换生成变换后样本，利用生成模型生成与所述变换后样本同分布的增强样本；

S3、样本合成，利用所述增强样本生成训练样本；

S4、模型训练，利用所述训练样本并通过目标检测模型训练检测分类模型；以及，利用所述训练样本并通过识别模型训练手写样本识别模型；

S5、识别应用，利用训练好的所述检测分类模型检测出所述手写字符的位置，然后再通过手写样本识别模型识别所述手写字符。

进一步地，所述步骤S2中将所述标注样本进行随机变换包括：对所述标注样本的整体，和/或对除随机固定所述标注样本图像的任意一个部分以外的其余部分进行随机变换；所述随机变换包括：透视变换、弹性扭曲、旋转变换、平行四边形变换、随机裁剪、镜像变换中的一种或多种，形成变换后样本。

进一步地，所述步骤S2中利用生成模型生成与所述变换后样本同分布的增强样本具体包括以下步骤：

S21、利用所述变换后样本，训练所述生成模型；

S22、利用训练后的生成模型生成所述增强样本。

进一步地，所述步骤S3具体包括以下步骤：

S31、随机抽取所述增强样本中的所述手写字符并将其拼接成字符串图像；

S32、在所述字符串图像中加入随机噪声；

S33、利用图像融合算法，将加入所述随机噪声的字符串图像与预先选定的背景融合；

S34、生成背景融合后的字符串图像中字符的标签与坐标，最终形成所述训练样本。

进一步地，所述步骤S4中所述训练检测分类模型具体包括以下步骤：

S411、利用所述训练样本并通过YOLO-v3和Faster-RCNN训练所述检测分类模型；

S412、利用所述训练样本并通过Faster-RCNN训练检测分类模型；

S413、模型固化，将训练好的所述训练检测分类模型的中间变量删除，压缩模型体积。

进一步地，所述训练样本包括有上下文依赖的手写识别条目以及普通的手写识别条目；所述步骤S4中所述训练手写样本识别模型具体包括以下步骤：

S421、利用所述训练样本中有上下文依赖的手写识别条目并通过能够识别图像中的类序列对象的卷积循环神经网络训练所述手写样本识别模型；以及，

利用所述训练样本中普通的手写识别条目并通过稠密卷积神经网络训练所述手写样本识别模型；

S422、将网络爬虫爬取的语料信息进行数据清洗，作为语言模型训练样本；

S423、利用所述语言模型训练样本训练统计语言模型，所述统计语言模型用于对手写识别结果进行语义纠错；

S424、模型固化，将训练好的所述手写样本识别模型的中间变量删除，压缩模型体积。

进一步地，所述生成模型包括：生成对抗网络，和/或变分自动编码器。

另一方面，提供了一种基于样本增强的手写样本识别系统，所述系统包括：

标注样本生成模块，用于生成所述标注样本；

增强模块，用于生成所述增强样本，包括标注随机变换模块和生成模块；

样本合成模块，用于生成所述训练样本；

模型训练模块，用于训练所述检测分类模型以及所述手写样本识别模型，包括检测分类模型训练模块以及手写样本识别模型训练模块；

识别应用模块，用于检测手写样本中手写字符的位置以及识别手写字符。

进一步地，所述标注样本生成模块包括：生成模型训练模块，用于训练所述生成模型；

增强样本生成模块，用于利用所述生成模型生成所述增强样本。

进一步地，所述样本合成模块包括：随机噪声添加模块，用于在所述拼接好的图像中加入随机噪声；

背景融合模块，用于利用图像融合算法，将处理好的图像与选定的背景融合；

标签与坐标生成模块，用于生成背景融合后的字符串图像中字符的标签与坐标，形成所述训练样本。

进一步地，所述检测分类模型训练模块包括：

YOLO-v3训练模块，用于通过YOLO-v3训练所述检测分类模型；

Faster-RCNN训练模块，用于通过Faster-RCNN训练检测分类模型；

模型固化模块，用于压缩所述检测分类模型。

进一步地，所述手写样本识别模型训练模块包括：

卷积循环神经网络训练模块，用于通过卷积循环神经网络训练所述手写样本识别模型；

稠密卷积神经网络训练模块，用于通过稠密卷积神经网络训练所述手写样本识别模型；

语言模型训练样本生成模块，用于生成所述语言模型训练样本；

语义纠错模块，用于利用所述语言模型训练样本训练统计语言模型对手写识别结果进行语义纠错；

模型固化模块，用于压缩所述手写样本识别模型。

本发明实施例提供的技术方案带来的有益效果是：

1、本发明通过增加训练样本的多样性优化检测分类模型与识别模型有效地克服了现有技术中离线手写识别准确率较低，手写识别样本标注困难，模型提升缓慢的问题；

2、本发明公开的识别方法结合检测分类模型和手写样本识别模型两种模型识别手写字迹，使离线识别手写字迹的识别率更高；

3、本发明公开的识别方法在模型训练的训练样本的准备中采用标注样本、样本增强、样本合成三个处理阶段，提高训练样本的多样性，将识别模型训练的更精准；

4、本发明公开的识别方法在样本增强阶段采用生成对抗网络、变分自动编码器扩充样本，使样本更丰富；

5、本发明公开的识别方法在样本合成阶段中除了在处理后的字符串图像中加入随机噪声外还将字符串图像与预先选定的背景融合，增加样本的复杂程度，在训练识别模型的过程中，使识别模型能够适应更加复杂的手写样本；

6、本发明公开的识别系统中检测分类模型训练模块包括YOLO-v3训练模块和Faster-RCNN训练模块，YOLO-v3速度较快，实时性较高，Faster-RCNN精度较高，检测准确率较高；

7、本发明公开的识别系统利用手写样本识别模型训练模块卷积循环神经网络训练模块和稠密卷积神经网络训练模块将识别有上下文依赖的手写字迹以及识别普通的字迹的模型分开训练，提高了模型的识别率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于样本增强的手写样本识别方法的流程图；

图2是本发明实施例提供的经过步骤S1处理后形成的标注样本；

图3(a)～(b)是本发明实施例提供的手写字符随机变换前后示意图；

图4是本发明实施例提供的样本增强方法流程图；

图5是本发明实施例提供的样本合成方法流程图；

图6是本发明实施例提供的训练检测分类模型方法的流程图；

图7是本发明实施例提供的训练手写样本识别模型方法的流程图；

图8是本发明实施例提供的一种基于样本增强的手写样本识别系统的模块结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对目前采用离线识别手写样本仍旧存在的识别率低、模型适用范围不大，模型提升缓慢的问题，本发明公开的一种基于样本增强的手写样本识别方法具体包括如图1所示的以下步骤：

S3、样本合成，利用所述增强样本生成训练样本；

上述方法中，步骤S1、S2、S3属于训练样本形成过程，步骤S4为模型训练过程，步骤S5为模型应用的过程。步骤S1为在带有手写字符的图像样本中将手写字符标出并裁切、归类，形成如图2所示的有序的图片(图2以手写字符为数字为例)。手写字符主要包括：人工手写的文字、字母、数字、图形等。在选择图像样本时，选取带有上述手写字符的文本图像，文本图像包括通过某种方式将纸质文档转化为图像格式的文档。

步骤S2中的随机变换包括下述变换方式中的一种或多种：

透视变换：是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使透视面绕透视轴旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。

角点扭曲变换：是指固定标注样本任意一个角点，然后对其余角点进行扭曲变换。

弹性扭曲变换：是指在不改变标注样本的长宽比的情况下，随机生成一个扭曲率，根据扭曲算法对图像进行扭曲变换。

旋转变换：是指对标注样本进行随机角度旋转。

错切变换：是指固定标注样本的任意一条边，将其余的边向一个方向拉伸的类似与矩形与平行四边形之间关系的变换。

随机裁剪：是指设定的范围，随机生成像素值，对标注样本的边缘进行裁剪。

镜像变换：包括水平镜像变换和垂直镜像变换。其中，水平镜像变换是以标注样本的垂直中轴线为中心，将标注样本分为左右两部分镜像对称变换；垂直镜像是以标注样本的水平中轴线为中心，将标注样本分为上下两部分进行对称变换。

为了更好地变换标注样本，本实施例采用上述全部随机变换方式，图3表示的是标注样本在经过上述全部方式并依次按照透视变换、角点扭曲、弹性扭曲、旋转变换、错切变换、随机裁切、镜像变换的先后顺序进行的变换，为了表示清晰因此图3摘取了其中一个手写字符的变换的前后形态，图3(a)表示变换前手写字符形态，图3(b)表示变换后手写字符形态。

步骤S2中增强样本语变换后样本同分布是指增强样本尽可能接近变换后样本的像素分布。

如图4所示，步骤S2中的利用生成模型生成与所述变换后样本同分布的增强样本具体包括以下步骤：

S21、利用所述变换后样本，训练所述生成模型；

S22、利用训练后的生成模型生成大量的所述增强样本。

步骤S21中，生成模型包括：生成对抗网络，和/或变分自动编码器，优选地，本实施例采用生成对抗网络和变分自动编码器训练生成模型。

如图5所示，步骤S3具体包括以下步骤：

S31、随机抽取所述增强样本中的所述手写字符进行拼接成字符串图像；

S32、在所述字符串图像中加入随机噪声；

其中步骤S33中图像融合算法优选为泊松图像融合算法。泊松图像融合是基于泊松方程提出的一种图像编辑处理的方法，具有选择融合区域过程简单且方便以及可以得到无缝融合的结果的优点。

步骤S4中包括训练两种模型：检测分类模型、手写样本识别模型。其中，训练检测分类模型用的目标检测模型泛指具有实时目标检测功能的网络结构，训练手写样本识别模型用的识别模型泛指具有识别功能的卷积神经网络。

优选地，如图6所示，训练检测分类模型包括以下步骤：

S411、利用所述训练样本并通过YOLO-v3和Faster-RCNN训练检测分类模型；

S412、模型固化，将训练好的所述训练检测分类模型的中间变量删除，压缩模型体积。

上述步骤中，YOLO是一种使用深卷积神经网络学习的特征来检测物体的目标检测器，YOLO-v3是其中目前速度最快的目标检测器。Faster-RCNN是一种能够实现端对端的目标检测器。Faster-RCNN算法首先利用Resnet对原图进行特征提取，形成特征图(feature-map)，然后用区域候选网络(region proposal network,RPN)获得候选区域(regionproposal)。区域候选网络(RPN)输出两个结果，一个是分类及得分，另一个是边界框预测(bounding box predict),之后这些输出与真实值比较,得到分类误差(class loss)和边界框误差(bounding box loss)，最小化这些误差，则完成一个训练周期。其中边界框误差的最小化，称为边界框回归(bounding box regression)，算法通过样本，进行多次训练，得到稳定的算法模型。

YOLO系列的算法与Faster-RCNN算法相比较，Faster-RCNN是两部算法包括特征提取和分类以及分类，而YOLO系列的算法是一部算法(one stage)，即提特征、分类及回归是在一步完成的。YOLO-v3与YOLO系列中的其它算法相比较，传统YOLO系列算法中的多分类损失函数softmax cross-entropy loss在YOLO-v3中被换为二分类损失函数binary corss-entropy loss。当图片中存在物体遮挡时，一个box可能属于好几个物体，这样二分类损失函数更有优势。

需要说明的是，通过YOLO-v3训练检测分类模型和通过Faster-RCNN训练检测模型并不存在明确的先后顺序也可以同时进行。

如图7所示，训练手写样本识别模型具体包括以下步骤：

S423、利用所述语言模型训练样本训练统计语言模型，用于对手写识别结果进行语义纠错；

S424、模型固化，将训练好的所述手写样本识别模型中将变量、反向传播梯度值删除，压缩模型体积。

上述步骤中，卷积循环神经网络(又称为CRNN)是一种端到端的、专门针对图像中的类序列识别的一种神经网络。CRNN的结构主要分为三个部分,卷积网络(Convolution)部分负责提取图像特征，循环神经网络(RNN)负责学习上下文依赖，转录(Transcription)部分负责把概率转换成最终的标签(识别结果)。首先，图像进入卷积网络，通过数个卷积和池化(pooling)提出图像特征，并转化成一个特征序列(feature sequence),然后将特征序列逐步输入循环网络中,通过双向长-短期记忆网络(bi-LSTM)得到每个序列的概率分布情况，再通过转录层获得预测标签，与真实值比对，并不断优化，得到最终的模型。

稠密卷积神经网络(又称为DenseNet)能够让每一层都接受它前面所有层的输出，具有缓解梯度消失问题，加强特征传播，鼓励特征复用，减少计算量的优点。

统计语言模型是用来计算一个句子的概率的模型，通过统计语言模型能够确定出现最多的词序列，或者预测下一个最可能出现的词序列。本实施例优选统计语言模型中的N-gram模型进行语义纠错。N-gram是统计语言模型的一种，常用于大词汇连续的语音识别中，是自然语言处理(NLP)中的一种模型。该模型利用上下文中相邻词间的搭配信息，可以实现到汉字的自动转换。N-gram模型基于一个假设即：第N个词出现的概率与他之前N-1个词相关，而与其他的词不相关。整个句子出现的概率等于各个词出现概率的乘积。基于这种假设，根据条件概率及贝叶斯公式，可以得到特定状况下，某种句式出现的条件概率，从而退出该情况下最可能输出的语句。

需要说明的是，上述方法中通过CRNN训练所述手写样本识别模型和通过DenseNet训练所述手写样本识别模型没有明确的先后顺序。

因此综上所述，分类检测模型时经过训练样本训练的YOLO-v3与Faster-RCNN的组合；手写样本识别模型时经过训练样本训练的神经网络CRNN以及DenseNet的组合，并包括N-gram语言模型，以便对手写识别结果进行语义纠错。

如图8所示，本发明还提供基于上述方法的技术方案，提出一种基于样本增强的手写样本识别系统，主要包括：标注样本生成模块、增强模块、样本合成模块、模型训练模块、识别应用模块。

标注样本生成模块，主要用于执行上述方法步骤中的步骤S1生成标注样本。

增强模块，主要用于执行上述方法步骤中的步骤S2生成增强样本，具体包括标注随机变换模块和生成模块。其中，生成模块包括：生成模型训练模块，用于训练生成模型；增强样本生成模块，用于利用生成模型生成增强样本。

具体地，随机变换模块执行以下变换：透视变换、角点扭曲变换、弹性扭曲变换、旋转变换、平行四边形变换、随机裁剪、镜像变换中的一种或多种，形成变换后样本。

样本合成模块，用于生成所述训练样本。具体包括随机噪声添加模块，用于在所述拼接好的图像中加入随机噪声；背景融合模块，用于利用图像融合算法，将处理好的图像与选定的背景融合；标签与坐标生成模块，用于生成背景融合后的字符串图像中字符的标签与坐标，形成所述训练样本。

模型训练模块，用于训练所述检测分类模型以及所述手写样本识别模型，包括检测分类模型训练模块以及手写样本识别模型训练模块。

与前述公开的识别方法相对应的，模型训练模块又包括：

YOLO-v3训练模块，用于通过YOLO-v3训练所述检测分类模型；

Faster-RCNN训练模块，用于通过Faster-RCNN训练检测分类模型；

模型固化模块，用于压缩所述检测分类模型。

手写样本识别模型训练模块又包括：

语义纠错模块，用于利用所述语言模型训练样本训练统计语言模型，用于对手写识别结果进行语义纠错，本实施例哟中能够统计语言模型具体为N-gram模型；

模型固化模块，用于压缩手写样本识别模型体积；

本发明实施例提供的技术方案带来的有益效果是：

7、本发明公开的识别系统利用手写样本识别模型训练模块卷积循环神经网络训练模块和稠密卷积神经网络训练模块将识别有上下文依赖的手写字迹以及识别普通的字迹分的模型开训练，提高了模型的识别率。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于样本增强的手写样本识别方法，其特征在于，包括如下步骤：

S3、样本合成，利用所述增强样本生成训练样本，包括：S31、随机抽取所述增强样本中的所述手写字符并将其拼接成字符串图像；S32、在所述字符串图像中加入随机噪声；S33、利用图像融合算法，将加入所述随机噪声的字符串图像与预先选定的背景融合；S34、生成背景融合后的字符串图像中字符的标签与坐标，最终形成所述训练样本；

S4、模型训练，利用所述训练样本并通过目标检测模型训练检测分类模型，包括：S411、利用所述训练样本通过YOLO-v3和Faster-RCNN训练所述检测分类模型；以及，利用所述训练样本并通过识别模型训练手写样本识别模型，包括：S421、利用所述训练样本中有上下文依赖的手写识别条目并通过能够识别图像序列对象的卷积循环神经网络训练所述手写样本识别模型，以及利用所述训练样本中普通的手写识别条目并通过稠密卷积神经网络训练所述手写样本识别模型；

2.如权利要求1所述的一种基于样本增强的手写样本识别方法，其特征在于，所述步骤S2中将所述标注样本进行随机变换包括：对所述标注样本的整体，和/或对除随机固定所述标注样本图像的任意一个部分以外的其余部分进行随机变换；所述随机变换包括：透视变换、弹性扭曲、旋转变换、平行四边形变换、随机裁剪、镜像变换中的一种或多种，形成所述变换后样本。

3.如权利要求1所述的一种基于样本增强的手写样本识别方法，其特征在于，所述步骤S2中利用生成模型生成与所述变换后样本同分布的增强样本具体包括以下步骤：

S21、利用所述变换后样本，训练所述生成模型；

S22、利用训练后的生成模型生成所述增强样本。

4.如权利要求1所述的一种基于样本增强的手写样本识别方法，其特征在于，所述步骤S4中所述训练检测分类模型还包括以下步骤：

5.如权利要求1所述的一种基于样本增强的手写样本识别方法，其特征在于，所述训练样本包括有上下文依赖的手写识别条目以及普通的手写识别条目；所述步骤S4中所述训练手写样本识别模型还包括以下步骤：

6.如权利要求1~5中任意一项所述的一种基于样本增强的手写样本识别方法，其特征在于，所述生成模型包括：生成对抗网络，和/或变分自动编码器。

7.一种利用权利要求1~6任一项所述方法建立的一种基于样本增强的手写样本识别系统，其特征在于，包括：

标注样本生成模块，用于生成所述标注样本；

样本合成模块，用于随机抽取所述增强样本中的所述手写字符并将其拼接成字符串图像生成所述训练样本，包括：随机噪声添加模块，用于在所述拼接好的图像中加入随机噪声；背景融合模块，用于利用图像融合算法，将处理好的图像与选定的背景融合；标签与坐标生成模块，用于生成背景融合后的字符串图像中字符的标签与坐标，形成所述训练样本；

模型训练模块，用于训练所述检测分类模型以及所述手写样本识别模型，包括检测分类模型训练模块以及手写样本识别模型训练模块，所述检测分类模型训练模块，包括：YOLO-v3训练模块，用于通过YOLO-v3训练所述检测分类模型，Faster-RCNN训练模块，用于通过Faster-RCNN训练检测分类模型；所述手写样本识别模型训练模块，包括：卷积循环神经网络训练模块，用于通过卷积循环神经网络训练所述手写样本识别模型，稠密卷积神经网络训练模块，用于通过稠密卷积神经网络训练所述手写样本识别模型；

8.如权利要求7所述的一种基于样本增强的手写样本识别系统，其特征在于，所述生成模块包括：生成模型训练模块，用于训练所述生成模型；

9.如权利要求7所述的一种基于样本增强的手写样本识别系统，其特征在于，所述检测分类模型训练模块还包括：

模型固化模块，用于压缩所述检测分类模型。

10.如权利要求7所述的一种基于样本增强的手写样本识别系统，其特征在于，所述手写样本识别模型训练模块还包括：

模型固化模块，用于压缩所述手写样本识别模型。