CN109815809A

CN109815809A - 一种基于cnn的英文笔迹鉴别方法

Info

Publication number: CN109815809A
Application number: CN201811557288.7A
Authority: CN
Inventors: 何凯; 马红悦; 刘志国; 冯旭
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-05-28

Abstract

本发明公开了一种基于CNN的英文笔迹鉴别方法，包括：收集来自不同人不同笔迹的英文文档，经过字符分割，获取由英文单词文本组成的数据集，基于数据集构造训练样本集及测试样本集；构造8层卷积神经网络，包括5个卷积层和3个全连接层，最后一个全连接层的输出被送到一个具有10个输出向量的softmax层当中；采用重叠的Pooling，对输入图像的每个像素进行卷积、下采样、池化操作，得到每层的特征图的大小；输入训练样本集，提取字符特征，进行分类训练；将提取的单个英文单词图像统一缩放到320*320*3像素；将手写英文文档进行分割，提取单词，得到测试样本集；利用训练后的神经网络进行英文笔迹鉴定。

Description

一种基于CNN的英文笔迹鉴别方法

技术领域

本发明属于计算机视觉领域，可用于模式识别和司法鉴定等相关领域；更具体的说，它涉及一种英文笔迹鉴别方法，经扩展后可用于其他手写体笔迹的鉴别。

背景技术

英文是世界通用的官方语言，英文字符作为世界文字系统的一个重要组成部分，在社会交往和政治、经济生活中都有着广泛的应用。英文手写体字符是一些重要材料(如：票据、表格、工作记录，以及法律文书)中相关信息的重要表现形式，也是刑事、行政诉讼，以及民事财产纠纷案件判决的重要依据。

英文笔迹按特征可分为：字形特征，运笔特征、变化规律特征和书写习惯的组合特征。目前采取的鉴定方法主要是基于人工进行特征比对，往往需要专业的鉴别人员来进行操作，效率低，准确度差，无法满足实现工程的要求。随着笔迹鉴定技术的不断发展，如何利用计算机技术，将应用形态学、神经网络算法、遗传算法的新技术运用到笔迹鉴定当中，以提高鉴别的效率和准确度，是当前该领域所面临的主要问题。

英文笔迹鉴别的难点在于：英文字符属于一种外文笔迹，具有笔画简单，结构单一，书写难度小，书写多样化程度高等特点；同时这类笔迹鉴定理论不够完善、理论依据不足，虽然目前国内外学者在该领域作了大量的研究工作，但在仍然存在很多不足，缺乏实用性。目前，英文笔迹鉴别的问题主要体现在三个方面：

1)英文笔迹数据集的选取方式及采集；

2)如何利用计算机技术，采用更高效的方法来解决英文笔迹鉴别问题；

3)如何将英文笔迹鉴定和神经网络结合起来，使鉴定效果达到最优。

发明内容

本发明提供了一种基于CNN(卷积神经网络)的英文笔迹鉴别方法，本发明利用采集的英文手写体数据集对构建的CNN网络进行训练，提取相关特征，通过将手写体英文文档分割成单个单词进行鉴别，最终实现英文笔迹的计算机鉴别，以满足实现工程的需要。具体详见下文描述：

一种基于CNN的英文笔迹鉴别方法，所述方法包括以下步骤：

收集来自不同人不同笔迹的英文文档，经过单词分割，获取由英文单词及标点符号文本组成的数据集，基于数据集构造训练样本集及测试样本集；

构造8层卷积神经网络，包括5个卷积层和3个全连接层，最后一个全连接层的输出被送到一个具有10个输出向量的softmax层当中；

采用重叠的Pooling，一个Pooling层是由间隔s个像素的Pooling单元网格组成，每个网格具有一个z*z大小的临近关系，均位于Pooling单元的中心位置，s<z；对输入图像的每个像素进行卷积、下采样、池化操作，得到每层的特征图的大小；

输入训练样本集，提取字符特征，进行分类训练；将提取的单个英文单词图像统一缩放到320*320*3像素，得到测试样本集；

利用训练后的神经网络对训练样本集进行英文笔迹鉴定，得到测试结果。

其中，所述数据集包括：采集10个人的不同笔迹，每人分别手写12张英文文档，其中10张文档中的英文单词，经分割后构成训练数据集；另外2张文档中的英文单词，经分割后构成测试数据集。将训练样本集和测试样本集进行人工分类标记，最终得到训练数据集的单词个数为2000个，测试数据集的单词个数为200个。

其中，所述卷积神经网络利用VGG模型，提取特征向量，包括：

第一层卷积层之后经过RELU1(激活函数)层，NORM1(规范层)层和第一层池化层，在第一层池化层中，采用最大池化，对上一卷积层的特征图，利用[2,2]的步长进行池化操作，得到第二层卷积层的输入特征；

第三层RELU3(激活函数)层之后不经过池化层，直接到达第四层卷积层，第四层卷积层输入的特征图大小与第三层卷积层一致，均为3*3*256像素，共256张；经第四层卷积层后进入RELU4层；

进入fc8(全连接)层，特征图大小为1*1*4096，共59张；随后进入最后一层分类器，将输入英文单词划分为10个不同类别。

本发明提供的技术方案的有益效果是：

第一：考虑到各国人员英文手写习惯不同，本发明并未采用国外已有的数据库，而是注重中国人的使用习惯，采集中国人手写英文文本建立相关数据集，以保证中国人的使用效果，本发明将卷积神经网络应用到手写体英文笔迹鉴定中，并且获得了较高的正确率；

第二，本发明构建了特殊的Pooling(池化)层，该结构的好处在于：在产生相同维度的输出时可有效降低top-1(即概率最大的为正确答案)和top-5(即前5个概率最高的中间包含正确答案)。在CNN的结构中，特征提取层可以将每个神经元的输入与前一层的局部接受域相连，同时提取该局部的特征。一旦局部特征被提取之后，它与其他特征之间的位置关系也随之确定，有助于特征向量的提取。该网络结构收敛快速，不会出现震荡、过拟合的现象，网络能快速趋于稳定，有效节约了训练时间。

第三：本发明可以高效地实现英文笔迹的鉴别，识别准确率可达到100％。算法对光照变化、简单几何形变，以及附加噪声都具有一定的鲁棒性，可用于手写体英文笔迹鉴定的相关领域；算法经过扩展后，也可用于其它文字手写体的笔迹鉴别。

附图说明

图1是一种基于CNN的英文笔迹鉴别方法的流程图；

图2为部分英文文档以及分割后的英文单词数据集的示意图；

其中，(a)为采集到的英文文档；(b)为文档分割后的单词。

图3为英文文档单词分割的投影图；

其中，(a)为英文文档水平投影的直方图；(b)为行分割后行的垂直投影的直方图。

图4为网络的训练图；

图5为英文笔迹鉴定最大概率的统计结果示意图；

表1为本发明方法测试数据集的鉴别准确率。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于CNN的英文笔迹鉴别方法，参见图1，该方法包括以下步骤：

101：收集来自不同人不同笔迹的英文文档，经过字符分割，获取由英文单词及标点符号文本组成的数据集，基于数据集构造训练样本集及测试样本集；

102：构造8层卷积神经网络，包括5个卷积层和3个全连接层，最后一个全连接层的输出被送到一个具有10个输出向量的softmax层当中；

103：采用重叠的Pooling，一个Pooling层是由间隔s个像素的Pooling单元网格组成，每个网格具有一个z*z大小的临近关系，均位于Pooling单元的中心位置，s<z；对输入图像的每个像素进行卷积、下采样、池化操作，得到每层的特征图的大小；

104：输入训练样本集，提取字符特征，进行分类训练；将提取的单个字符图像统一缩放到320*320*3像素，得到测试样本集；

105：利用训练后的神经网络自动鉴别英文笔迹。

其中，步骤101中的数据集包括：10个人的不同笔迹，每人书写的单词个数为200字左右，训练数据集的单词总个数为2000个，测试数据集的单词总个数为200个。

其中，步骤101中的基于数据集构造训练样本集及测试样本集具体为：

10个人的不同笔迹，每人分别手写12张英文文档，其中10张文档中的英文单词，经分割后构成训练数据集；另外2张文档中的英文单词，经分割后构成测试数据集。将训练样本集和测试样本集进行人工分类标记。

综上所述，本发明实施例通过上述步骤101-步骤105可以高效地实现英文笔迹鉴别，鉴别准确率可达到100％。

实施例2

下面结合具体的实例、计算公式、图1-图3对实施例1中的方案进行进一步地介绍，详见下文描述：

201：获得各英文单词的训练样本集和测试样本集；

首先，对手写英文文档图像进行正射纠正；再利用投影法^[1]对实测英文手写文档进行单词分割：先进行图像的水平投影，得到水平方向的投影直方图，根据投影直方图，将手写英文文档中每一行图像分割开来；再进行图像的垂直投影，对每行切割出来的文本图像进行垂直投影，得到垂直方向上的投影直方图，根据二分法原理分割出单个英文字母^[2]。

其中，收集10人的手写英文文档单词及相关文本作为数据集，包括10张训练英文文档和2张测试英文文档，并将手写英文文档分割成单个英文单词，如图2所示，分类标记图像信息。最终获得训练样本集单词总个数2000个，测试样本集单词总个数200个。将分割完的英文单词图像大小统一为320*320像素，数据类型设置为320*320*3的uint8型。

202：构建卷积神经网络：

其中，该步骤202具体包括：

1)将统一大小的字符图像导入卷积神经网络，使其成为inputs层，大小为[320,320,3,10]。

2)构造8层卷积神经网络，其中包括5个卷积层和3个全连接层，最后一个全连接层的输出被送到一个具有10个输出向量的softmax层当中。

与传统神经网络不同，本发明采用重叠的Pooling，即一个Pooling层可以认为是由间隔s个像素(本发明中s＝2)的Pooling单元网格组成，每个网格具有一个z*z(本发明中z＝5)大小的临近关系，均位于Pooling单元的中心位置。当设置s＝z时，为传统的局部pooling；设置s<z时，可得到有重叠的池化。对输入图像的每个像素进行卷积、下采样、池化等操作，得到每层的特征图maps的大小。

3)将每层的输出作为下层的输入，经过前后共8个层，最后到达全连接层prob层，通过softmax输出层输出结果，并保存训练后的网络。

203：输入训练样本集，提取字符特征，进行分类训练；

本发明实施例采用softmax分类器，对特征向量进行分类；采用构建的卷积神经网络，对训练样本集进行训练，得到训练后的.mat文件。

其中，BP算法的基本流程如下：随机初始化网络权值和神经元的阈值；根据公式(1)进行前向传播：

分层计算隐层神经元和输出神经元的输入和输出；其中E代表输出误差，d代表真实性，w_jk，v_ij分别代表各层的权值和阈值，x_i代表第i层的输入向量，m的取值范围为随卷积层输出向量的改变而改变，n的取值范围为320*320*3*10，l的取值范围为0～1*1*4096*10。

根据公式(2)进行误差反向传播：

其中，θ是反向传播算法的学习速率参数(本发明实施例中θ＝0.05)，n代表输入向量的个数(本发明实施例中n＝320*320*3*10)，m代表隐层输出向量的个数(本发明实施例中m随卷积层输出向量的改变而改变)，l代表输出层输出向量的个数(本发明实施例中l＝1*1*4096*10)，上式中的负号表示空间梯度下降，即使得输出误差E改变方向，使误差反向传播。通过以上公式修正权值和阈值，直到满足终止条件。

204：利用训练后的神经网络对英文笔迹进行鉴别。

其中，将测试样本集输入到训练好的卷积神经网络中，即通过输入训练好的.mat文件对测试样本集进行测试，实现各个英文笔迹的自动鉴别，输出测试结果。

综上所述，本发明实施例利用采集的英文手写体数据集，通过将英文文档分割成单个英文单词，再基于构建的神经网络来实现手写体英文笔迹的自动鉴别，以达到实用化的要求。

实施例3

下面结合图4-图5，以及表1，对实施例1和2中的方案进行进一步地介绍，详见下文描述：

该数据集包括：10个人的不同笔迹，每人分别手写12张英文文档，其中10张文档中的英文单词，经分割后构成训练数据集，另外2张文档中的英文单词，经分割后构成测试数据集。将训练样本集和测试样本集进行人工分类标记，最终得到训练数据集的单词个数为2000个，测试数据集的单词个数为200个。

数据集不需要经过复杂的预处理步骤，省去了二值化，噪声去除，倾斜矫正等步骤，图像大小及类型统一为320*320*3unit8型，有助于提高训练样本的稳定性。构建的神经网络利用VGG模型，提取特征向量，对每一个卷积层进行下采样，池化等操作。

第1步：在第一层卷积层中，输入图像卷积后得到一张11*11*3像素的特征图map，随后用64个滤波器与其进行卷积，产生64张特征图maps；

第2步：第一层卷积层之后经过RELU1层，NORM1层和POOL1层，在第一层池化层POOL中，采用最大池化的方法，对上一层卷积层的特征图，利用[2,2]的步长进行池化操作，得到第二层卷积层的输入特征；

第3步：第一层池化层中得到256张大小为5*5*64像素的特征图maps，作为第二层卷积层的输入；

第4步：第二层卷积层之后经过RELU2，NORM2和POOL2层，池化层同样采用最大池化的方法，步长为[2,2]，得到第三层卷积层的输入特征；

第5步：第三层卷积层的输入特征为3*3*256像素，共256张；经第三层卷积层后进入RELU3层；

第6步：第三层RELU3层之后不经过池化层，直接到达第四层卷积层，因此，第四层卷积层输入的特征图maps大小与第三层卷积层一致，均为3*3*256像素，共256张；经第四层卷积层后进入RELU4层；

第7步：不经过池化层直接进入第五层卷积层，特征图maps大小为3*3*256像素，共256张；再经过RELU5层和POOL5层，POOL5层采用最大池化的方法，步长为[2,2]；

第8步：POOL5池化层之后，进入fc6分支层，特征图maps大小为6*6*256像素，共4096张；随后进入RELU6层；

第9步：进入fc7分支层，特征图maps大小为1*1*4096像素，共4096张；随后进入RELU7层；

第10步：进入fc8层，特征图maps大小为1*1*4096，共10张；随后进入最后一层分类器softmax，将输入英文单词划分为10个不同类别。

对英文笔迹鉴定的测试实验，采用出现概率最大的鉴别结果作为文档的最终鉴别结果。实验结果图5中，横坐标表示不同笔迹，纵坐标表示每种笔迹单词鉴定结果的统计次数，用柱状图表示。从图中可以看出，针对10种不同笔迹，最终鉴别结果均是笔迹本人，最终英文文档笔迹鉴别准确度达到了100％。表1为测试数据集的笔迹鉴别准确度，从表中可以看出，即使不按照最大的正确概率计算，200个单词的鉴定正确率也达到了85％，完全可以满足实用化的要求。

表1测试数据集鉴别准确率(100％)

参考文献

[1]曲宇涛，中文手写体文本分割算法的研究.吉林大学[D],2009.

[2]曹卫，基于二分法的字符垂直投影分割算法[J].软件导刊，2010,9(10):71-72.

[3]李爱农，基于AROP程序包的类Landsat遥感影像配准与正射纠正试验和精度分析[J].遥感技术与应用,2012,27(1):23-32.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于CNN的英文笔迹鉴别方法，其特征在于，所述方法包括以下步骤：

收集来自不同人不同笔迹的英文文档，经过字符分割，获取由英文单词文本组成的数据集，基于数据集构造训练样本集及测试样本集；

输入训练样本集，提取英文单词的细节特征，进行分类训练；将提取的单个英文单词图像统一缩放到320*320*3像素，得到测试样本集；

利用训练后的神经网络对测试样本集的字迹进行鉴别，得到测试结果。

2.根据权利要求1所述的一种基于CNN的英文笔迹鉴别方法，其特征在于：

训练数据集大小为2000个单词，测试数据集大小为200个单词。

3.根据权利要求1所述的一种基于CNN的英文笔迹鉴别方法，其特征在于，

第一层卷积层之后经过激活函数层，规范层和第一层池化层，在第一层池化层中，采用最大池化，对上一卷积层的特征图，利用[2,2]的步长进行池化操作，得到第二层卷积层的输入特征；

第三层激活函数层之后不经过池化层，直接到达第四层卷积层，第四层卷积层输入的特征图大小与第三层卷积层一致，均为3*3*256像素，共256张；经第四层卷积层后进入激活函数层；

进入fc8全连接层，特征图大小为1*1*4096，共10张；随后进入最后一层分类器，将输入不同人的英文笔迹划分为10个不同类别。