CN112633429A

CN112633429A - 一种学生手写选择题识别方法

Info

Publication number: CN112633429A
Application number: CN202011514711.2A
Authority: CN
Inventors: 李哲; 闫琦; 陈家海; 叶家鸣; 吴波
Original assignee: Anhui Seven Day Education Technology Co ltd
Current assignee: Anhui Seven Day Education Technology Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-09

Abstract

本发明公开了一种学生手写选择题识别方法，涉及文本识别领域。针对学生手写选择题图像数据，提出了基于Attention机制解决手写文本识别的方案。整体基于残差网络架构，利用STN矫正有畸变的字符图像，利用channel Attention和spacial Attention机制在图像特征中更精准定位字符位置和更精准判断要识别的字符是什么，利用Seq2Seq加Attention机制在序列特征中更精确字符识别，通过超分辨分支网络提高识别网络对模糊字符的识别率，最大程度降低背景环境等因素对字符识别的干扰，提高了手写字符识别率，为人工智能阅卷系统工程落地奠定基础。本发明主要包含以下步骤：数据预处理、网络结构设计、目标函数设计、网络输出后处理。本发明设计合理，使用方便，效果良好。

Description

一种学生手写选择题识别方法

技术领域

本发明涉及深度学习OCR(光学字符识别)领域，具体涉及到一种学生手写选择题识别方法。

背景技术

现有的学生手写选择题识别方法主要分为基于传统图像处理算法和基于深度学习方法。不同的方法都是基于提取图像中学生手写字符特征然后根据特征进行字符分类，完成识别过程。

传统图像识别处理方法包括两步，字符切割及字符分类。字符切割主要包括二维直方图投影法和区域网格统计法。字符特征切割完之后就是字符识别，传统的识别算法将这一任务转换为一个分类任务。针对该任务，一系列的分类方法模型出现，主要包括：支持向量机(SVM)、K近邻算法、多层感知器(MLP)等。传统图像识别主要适用书写背景干净无噪声干扰，字符书写清晰规范的情况。针对学生选择题识别无法达到预期效果，主要原因包括字符背景复杂，多选题字符书写粘连，不能有效切割单字符，字符书写不够规范以及背景图案干扰，不能有效识别出字符。

基于深度学习方法主要分为CTC(Connectionist TemporalClassification，连接时序分类)和Seq2Seq(Sequence to Sequence，序列到序列)两种形式。能够解决单字符和多字符识别问题中的对齐问题，直接实现端到端的识别。这两种方法在识别中广泛应用，经过实验，这两种方法并不能完美识别学生手写字符识别，主要包括以下原因，图片背景类似字符的噪声特征以及学生涂改的字符特征，容易造成字符误识别，多识别的问题；学生字符书写的不规范，有的过大，有的过小，造成特征提取网络容易丢失特征和只能提取字符的部分特征，影响干扰最终识别结果；由于设备扫描过程或学生误触造成的字符模糊现象，影响识别模型的判断。

综上所述，对于学生选择题识别，采用现有方法并不能够完美解决。本发明将基于学生手写选择题上述的特性，提出一种合理高准确率的文本识别方法。

发明内容

本发明的目的在于：针对学生手写选择题识别，设计合理的方法，消除背景几何信息对字符识别的影响，消除学生书写涂改对字符识别的影响，消除学生书写不规范对字符识别的影响，消除图片字符模糊对字符识别的影响，提供一种学生手写选择题识别方法。

本发明采用的技术方案如下：

一种学生手写选择题识别方法，基于残差网络Resnet结构设计，其主要特征在于，包含STN特征矫正网络部分、CNN特征提取网络部分、Super-resolution网络部分、Feature-squeese网络部分以及Recognition网络部分。

其中STN特征矫正网络部分：使用一个简单的浅层卷积神经网络预测了20个关键点位置来约束文字的上下边缘，并通过TPS(Thin Plate Spline)方法从原始的图像中采样得到校正图像。输入学生手写选择题图片，STN网络能够根据识别网络损失反向传播更新权重的同时，通过无监督方式自动矫正图片中平移，旋转，透视畸变和弯曲的字符。在识别学生选择题过程中完成书写不规范字符矫正的第一阶段。STN网络主要包含Localize，CridCenerator和Sampler三个模块。其中Localize模块是一个自己定义的网络，它输入原始图像，输出一组变化参数，这个参数用来描述原始图像和矫正之后的图像的坐标映射关系；Crid Cenerator模块根据矫正图像中的坐标点和变化参数，计算出原始图像中的坐标点；Sampler模块要做的是填充矫正后的图像，根据Grid generator得到的一系列坐标和原始输入图像通过双线性插值实现。

其中CNN特征提取网络部分：CNN网络选取带有Residual Block结构的Resnet。传统的卷积层或全连接层在信息传递时，或多或少会存在信息丢失、损耗等问题。Resnet在某种程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络则只需要学习输入、输出差别的那一部分，简化学习目标和难度。其中Residual block通过shortcut connection实现，通过shortcut将这个block的输入和输出进行一个元素相加，这个简单的加法并不会给网络增加额外的参数和计算量，同时却可以大大增加模型的训练速度、提高训练效果，并且当模型的层数加深时，这个简单的结构能够很好的解决退化问题。其中Residual block如图2所示，Resnet网络结构如图3所示。Resnet通过Residualblock能够学习更多的图像特征信息，但是原始图像信息中包含多种复杂的噪声信息，比如学生涂改信息，背景类字符信息以及多余的题目信息。在图像特征提取网络中可以引入channelAttention和spacialAttention机制在图像特征提取阶段过滤掉一部分与识别无关的干扰噪声特征。特征的每一个通道都代表着一个专门的检测器，因此，channelAttention是关注需要识别的字符是什么。为了汇总通道特征，通过采用全局平均池化和最大池化两种方式来分别获取利用不同的信息。线性加叠全局平均池化和最大池化特征，输入神经网络，通过激活函数获取通道注意力权重系数，与图像特征相乘即可。与channelAttention不同，spacialAttention更加关注需要识别的字符在图像特征中处于什么位置。与channelAttention类似，针对每个通道特征获取平均池化和最大池化两种特征，通过融合平均池化和最大池化特征，通过激活函数获取图像特征宽高维度的注意力权重系数，与图像特征相乘即可。

其中Super-resolution网络部分：类似Unet分割网络结构，总体包含上下采样两个部分，使用了2个基于Resnet结构的超分辨基础单元的下采样部分和一个上采样部分，将共享的特征恢复成原始图像对应的超分辨图像。为了更好的训练超分辨单元、改善特征的表达，使用了如下两种特征增强的方式：高斯模糊和8倍上下采样。在训练阶段超分辨网络损失函数通过梯度反向传播优化上一阶段的CNN特征提取网络，改善模糊字符的特征提取与识别。在前向推理的过程中将不再使用超分辨网络，在模型改善图像清晰度的同时不增加模型计算的参数量和复杂度。其中超分辨网络结构如图4所示。

其中Feature-squeese网络部分：通过1x1卷积降维和Reshape的方式，从CNN特征提取模块输出的特征中，获取输入到识别模块的1维向量。使用双向LSTM能够学习到图像特征序列的关联信息，通过学习的序列关联信息可以一定的区分识别图片中的前背景信息，为下一阶段识别解码使用Attention机制提供上下文信息向量。

其中Recognition网络部分：在识别手写选择题的时候，希望识别网络能够更加关注图片中手写字符的特征而尽可能的忽略学生涂改的错误答案和复杂的背景中类似字符的图像特征。为了解决这一问题引入Attention识别机制。将Feature-squeese网络中的Bi-LSTM网络作为encoder，Recognition网络网络中的Bi-LSTM网络作为decoder，通过计算encoder与decoder状态之间关联性的权重，得到Attention分布系数，从而输出对于当前位置比较重要的输入信息的权重，在预测输出时相应的信息会占较大的比重，通过Attention机制的引入，打破了只能利用encoder最终单一向量结果解码的限制，从而使模型可以集中在所有对于下一个目标字符重要的输入信息上，使模型效果得到极大的改善。还有一个优点是，通过观察Attention权重矩阵的变化，可以更好地知道哪部分识别对应哪部分源图像位置特征，有助于更好的理解模型工作机制。

其中，包括以下具体步骤：

步骤一、数据预处理：为了加快训练速度，将原始图片转化为灰度图，每张图片归一化64x100尺寸大小，在输入网络之前，将灰度图图像数组标准化处理，即除以像素最大值，减去0.5，将图片像素值控制在正负0.5之间，加速平滑训练过程。处理后图片如图6所示；

步骤二、网络结构设计：针对学生手写选择题识别，先使用STN网络进行第一阶段特征矫正，然后通过CNN网络进行特征提取，提取后的特征分别进入两个分支处理；第一个分支输入Super-resolution网络进行超分辨学习处理，第二个分支输入Feature-squeese网络进行特征编码，最终将编码特征输入Recogniton网络进行解码识别；其中CNN网络模块的骨架网络使用Resnet，将channel Attention和spacial Attention机制网络模块选择性的加载在残差模块之后进行特征加权。Super-resolution网络分别提取原始图像长宽维度的二分之一、四分之一、八分之一的高级抽象特征，保证超分辨的学习；

步骤三、训练目标表示设计：网络的训练目标主要针对网络输出的两个分支，分别是超分辨学习和字符识别学习。其中超分辨使用L1损失构成，识别损失由交叉熵损失构成。通过线性叠加即可，通过一个超参数控制两部分损失所占比重；

步骤四、网络输出后处理：根据网络输出的向量进行解码，对于单选题可以使用贪婪解码，对于多选题可以使用Beam search形式解码，获取最终字符的识别结果。

有益效果

一种学生手写选择题识别方法，能够减少因图片背景类似字符的噪声以及学生涂改的噪声造成的单字符识别错误和字符多识别错误；能够一定程度矫正学生书写不规范的字符；能够有效提高因扫描设备和图像变换过程中产生模糊图片的字符识别率。

附图说明

图1为本发明的选择题识别网络结构图；

图2为本发明的Resnet-Block结构图；

图3为本发明的Resnet结构图；

图4为本发明的Super-resolution网络结构图；

图5为本发明的整体流程图；

图6为本发明的样本示例图。

具体实施方式

具体实施主要包含数据预处理，网络结构设计，训练目标函数表示设计及数据后处理几个步骤，整体流程如示例图5所示。

步骤二、网络结构设计：针对学生手写选择题识别，先使用STN网络进行第一阶段特征矫正，然后通过CNN网络进行特征提取，提取后的特征分别进入两个分支处理；第一个分支输入Super-resolution网络进行超分辨学习处理，第二个分支输入Feature-squeese网络进行特征编码，最终将编码特征输入Recogniton网络进行解码识别。其中CNN网络模块的骨架网络使用Resnet，将channel Attention和spacial Attention机制网络模块选择性的加载在残差模块之后进行特征加权。Super-resolution网络分别提取原始图像长宽维度的二分之一，四分之一，八分之一的高级抽象特征，保证超分辨的学习；

步骤三、训练目标函数表示设计：网络的训练目标主要针对网络输出的两个分支，分别是超分辨学习和字符识别学习。其中超分辨使用L1损失构成，识别损失由交叉熵损失构成。通过线性叠加即可，通过一个查参数控制两部分损失所占权重；

Claims

1.一种学生手写选择题识别方法，基于残差网络Resnet结构设计，其主要特征在于，包含STN特征矫正网络部分、CNN特征提取网络部分、Super-resolution(超分辨)网络部分、Feature-squeese(特征压缩)网络部分以及Recognition(识别)网络部分。

2.如权利要求1所述的一种学生手写选择题识别方法，其特征在于，所述STN特征矫正网络部分具体描述为：使用一个简单的浅层卷积神经网络预测了20个关键点位置来约束文字的上下边缘，并通过TPS(Thin Plate Spline)方法从原始的图像中采样得到校正图像；输入学生手写选择题图片，STN网络能够根据识别网络损失反向传播更新权重的同时，通过无监督方式自动矫正图片中平移、旋转、透视畸变和弯曲的字符；在识别学生选择题过程中完成书写不规范字符矫正的第一阶段；STN网络主要包含Localize，Crid Cenerator和Sampler三个模块；其中Localize模块是一个自己定义的网络，它输入原始图像，输出一组变化参数，这个参数用来描述原始图像和矫正之后的图像的坐标映射关系；CridCenerator模块根据矫正图像中的坐标点和变化参数，计算出原始图像中的坐标点；Sampler模块要做的是填充矫正后的图像，根据Grid generator得到的一系列坐标和原始输入图像通过双线性插值实现。

3.如权利要求1所述的一种学生手写选择题识别方法，其特征在于，所述CNN特征提取网络部分具体描述为：CNN网络选取带有Residual Block结构的Resnet；传统的卷积层或全连接层在信息传递时，或多或少会存在信息丢失、损耗等问题；Resnet在某种程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络则只需要学习输入、输出差别的那一部分，简化学习目标和难度；其中Residual block通过shortcutconnection实现，通过shortcut将这个block的输入和输出进行一个元素相加，这个简单的加法并不会给网络增加额外的参数和计算量，同时却可以大大增加模型的训练速度、提高训练效果，并且当模型的层数加深时，这个简单的结构能够很好的解决退化问题；Resnet通过Residual block能够学习更多的图像特征信息，但是原始图像信息中包含多种复杂的噪声信息，比如学生涂改信息，背景类字符信息以及多余的题目信息；在图像特征提取网络中可以引入channel Attention和spacial Attention机制在图像特征提取阶段过滤掉一部分与识别无关的干扰噪声特征；特征的每一个通道都代表着一个专门的检测器，因此，channel Attention是关注需要识别的字符是什么；为了汇总通道特征，通过采用全局平均池化和最大池化两种方式来分别获取利用不同的信息；线性加叠全局平均池化和最大池化特征，输入神经网络，通过激活函数获取通道注意力权重系数，与图像特征相乘即可；与channel Attention不同，spacial Attention更加关注需要识别的字符在图像特征中处于什么位置；与channel Attention类似，针对每个通道特征获取平均池化和最大池化两种特征，通过融合平均池化和最大池化特征，通过激活函数获取图像特征宽高维度的注意力权重系数，与图像特征相乘即可。

4.如权利要求1所述的一种学生手写选择题识别方法，其特征在于，所述Super-resolution网络部分具体描述为：类似Unet分割网络结构，总体包含上下采样两个部分，使用了2个基于Resnet结构的超分辨基础单元的下采样部分和一个上采样部分，将共享的特征恢复成原始图像对应的超分辨图像；为了更好的训练超分辨单元、改善特征的表达，使用了如下两种特征增强的方式：高斯模糊和8倍上下采样；在训练阶段超分辨网络损失函数通过梯度反向传播优化上一阶段的CNN特征提取网络，改善模糊字符的特征提取与识别；在前向推理的过程中将不再使用超分辨网络，在模型改善图像清晰度的同时不增加模型计算的参数量和复杂度；其中超分辨网络结构如图4所示。

5.如权利要求1所述的一种学生手写选择题识别方法，其特征在于，所述Feature-squeese网络部分具体描述为：通过1x1卷积降维和Reshape的方式，从CNN特征提取模块输出的特征中，获取输入到识别模块的1维向量；使用双向LSTM能够学习到图像特征序列的关联信息，通过学习的序列关联信息可以一定的区分识别图片中的前背景信息，为下一阶段识别解码使用Attention机制提供上下文信息向量。

6.如权利要求1所述的一种学生手写选择题识别方法，其特征在于，所述Recognition网络部分具体描述为：在识别手写选择题的时候，我们希望识别网络能够更加关注图片中手写字符的特征而尽可能的忽略学生涂改的错误答案和复杂的背景中类似字符的图像特征；为了解决这一问题引入Attention识别机制；将Feature-squeese网络中的Bi-LSTM网络作为encoder，Recognition网络网络中的Bi-LSTM网络作为decoder，通过计算encoder与decoder状态之间关联性的权重，得到Attention分布，从而对于输出当前位置得到比较重要的输入位置的权重，在预测输出时相应的信息会占较大的比重。通过Attention机制的引入，打破了只能利用encoder最终单一向量结果的限制，从而使模型注意力可以集中在所有对于下一个目标字符重要的输入信息上，使模型效果得到极大的改善；还有一个优点是，通过观察Attention权重矩阵的变化，可以更好地知道哪部分识别对应哪部分源图像位置特征，有助于更好的理解模型工作机制。

7.如权利要求1所述的一种学生手写选择题识别方法，其特征在于，包括以下具体步骤：