CN112633429A - 一种学生手写选择题识别方法 - Google Patents
一种学生手写选择题识别方法 Download PDFInfo
- Publication number
- CN112633429A CN112633429A CN202011514711.2A CN202011514711A CN112633429A CN 112633429 A CN112633429 A CN 112633429A CN 202011514711 A CN202011514711 A CN 202011514711A CN 112633429 A CN112633429 A CN 112633429A
- Authority
- CN
- China
- Prior art keywords
- network
- image
- feature
- super
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000013461 design Methods 0.000 claims abstract description 15
- 230000000694 effects Effects 0.000 claims abstract description 8
- 238000012805 post-processing Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 230000004807 localization Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000001788 irregular Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000005452 bending Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000013475 authorization Methods 0.000 claims 2
- 238000004873 anchoring Methods 0.000 claims 1
- 230000009467 reduction Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种学生手写选择题识别方法,涉及文本识别领域。针对学生手写选择题图像数据,提出了基于Attention机制解决手写文本识别的方案。整体基于残差网络架构,利用STN矫正有畸变的字符图像,利用channel Attention和spacial Attention机制在图像特征中更精准定位字符位置和更精准判断要识别的字符是什么,利用Seq2Seq加Attention机制在序列特征中更精确字符识别,通过超分辨分支网络提高识别网络对模糊字符的识别率,最大程度降低背景环境等因素对字符识别的干扰,提高了手写字符识别率,为人工智能阅卷系统工程落地奠定基础。本发明主要包含以下步骤:数据预处理、网络结构设计、目标函数设计、网络输出后处理。本发明设计合理,使用方便,效果良好。
Description
技术领域
本发明涉及深度学习OCR(光学字符识别)领域,具体涉及到一种学生手写选择题识别方法。
背景技术
现有的学生手写选择题识别方法主要分为基于传统图像处理算法和基于深度学习方法。不同的方法都是基于提取图像中学生手写字符特征然后根据特征进行字符分类,完成识别过程。
传统图像识别处理方法包括两步,字符切割及字符分类。字符切割主要包括二维直方图投影法和区域网格统计法。字符特征切割完之后就是字符识别,传统的识别算法将这一任务转换为一个分类任务。针对该任务,一系列的分类方法模型出现,主要包括:支持向量机(SVM)、K近邻算法、多层感知器(MLP)等。传统图像识别主要适用书写背景干净无噪声干扰,字符书写清晰规范的情况。针对学生选择题识别无法达到预期效果,主要原因包括字符背景复杂,多选题字符书写粘连,不能有效切割单字符,字符书写不够规范以及背景图案干扰,不能有效识别出字符。
基于深度学习方法主要分为CTC(Connectionist TemporalClassification,连接时序分类)和Seq2Seq(Sequence to Sequence,序列到序列)两种形式。能够解决单字符和多字符识别问题中的对齐问题,直接实现端到端的识别。这两种方法在识别中广泛应用,经过实验,这两种方法并不能完美识别学生手写字符识别,主要包括以下原因,图片背景类似字符的噪声特征以及学生涂改的字符特征,容易造成字符误识别,多识别的问题;学生字符书写的不规范,有的过大,有的过小,造成特征提取网络容易丢失特征和只能提取字符的部分特征,影响干扰最终识别结果;由于设备扫描过程或学生误触造成的字符模糊现象,影响识别模型的判断。
综上所述,对于学生选择题识别,采用现有方法并不能够完美解决。本发明将基于学生手写选择题上述的特性,提出一种合理高准确率的文本识别方法。
发明内容
本发明的目的在于:针对学生手写选择题识别,设计合理的方法,消除背景几何信息对字符识别的影响,消除学生书写涂改对字符识别的影响,消除学生书写不规范对字符识别的影响,消除图片字符模糊对字符识别的影响,提供一种学生手写选择题识别方法。
本发明采用的技术方案如下:
一种学生手写选择题识别方法,基于残差网络Resnet结构设计,其主要特征在于,包含STN特征矫正网络部分、CNN特征提取网络部分、Super-resolution网络部分、Feature-squeese网络部分以及Recognition网络部分。
其中STN特征矫正网络部分:使用一个简单的浅层卷积神经网络预测了20个关键点位置来约束文字的上下边缘,并通过TPS(Thin Plate Spline)方法从原始的图像中采样得到校正图像。输入学生手写选择题图片,STN网络能够根据识别网络损失反向传播更新权重的同时,通过无监督方式自动矫正图片中平移,旋转,透视畸变和弯曲的字符。在识别学生选择题过程中完成书写不规范字符矫正的第一阶段。STN网络主要包含Localize,CridCenerator和Sampler三个模块。其中Localize模块是一个自己定义的网络,它输入原始图像,输出一组变化参数,这个参数用来描述原始图像和矫正之后的图像的坐标映射关系;Crid Cenerator模块根据矫正图像中的坐标点和变化参数,计算出原始图像中的坐标点;Sampler模块要做的是填充矫正后的图像,根据Grid generator得到的一系列坐标和原始输入图像通过双线性插值实现。
其中CNN特征提取网络部分:CNN网络选取带有Residual Block结构的Resnet。传统的卷积层或全连接层在信息传递时,或多或少会存在信息丢失、损耗等问题。Resnet在某种程度上解决了这个问题,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入、输出差别的那一部分,简化学习目标和难度。其中Residual block通过shortcut connection实现,通过shortcut将这个block的输入和输出进行一个元素相加,这个简单的加法并不会给网络增加额外的参数和计算量,同时却可以大大增加模型的训练速度、提高训练效果,并且当模型的层数加深时,这个简单的结构能够很好的解决退化问题。其中Residual block如图2所示,Resnet网络结构如图3所示。Resnet通过Residualblock能够学习更多的图像特征信息,但是原始图像信息中包含多种复杂的噪声信息,比如学生涂改信息,背景类字符信息以及多余的题目信息。在图像特征提取网络中可以引入channelAttention和spacialAttention机制在图像特征提取阶段过滤掉一部分与识别无关的干扰噪声特征。特征的每一个通道都代表着一个专门的检测器,因此,channelAttention是关注需要识别的字符是什么。为了汇总通道特征,通过采用全局平均池化和最大池化两种方式来分别获取利用不同的信息。线性加叠全局平均池化和最大池化特征,输入神经网络,通过激活函数获取通道注意力权重系数,与图像特征相乘即可。与channelAttention不同,spacialAttention更加关注需要识别的字符在图像特征中处于什么位置。与channelAttention类似,针对每个通道特征获取平均池化和最大池化两种特征,通过融合平均池化和最大池化特征,通过激活函数获取图像特征宽高维度的注意力权重系数,与图像特征相乘即可。
其中Super-resolution网络部分:类似Unet分割网络结构,总体包含上下采样两个部分,使用了2个基于Resnet结构的超分辨基础单元的下采样部分和一个上采样部分,将共享的特征恢复成原始图像对应的超分辨图像。为了更好的训练超分辨单元、改善特征的表达,使用了如下两种特征增强的方式:高斯模糊和8倍上下采样。在训练阶段超分辨网络损失函数通过梯度反向传播优化上一阶段的CNN特征提取网络,改善模糊字符的特征提取与识别。在前向推理的过程中将不再使用超分辨网络,在模型改善图像清晰度的同时不增加模型计算的参数量和复杂度。其中超分辨网络结构如图4所示。
其中Feature-squeese网络部分:通过1x1卷积降维和Reshape的方式,从CNN特征提取模块输出的特征中,获取输入到识别模块的1维向量。使用双向LSTM能够学习到图像特征序列的关联信息,通过学习的序列关联信息可以一定的区分识别图片中的前背景信息,为下一阶段识别解码使用Attention机制提供上下文信息向量。
其中Recognition网络部分:在识别手写选择题的时候,希望识别网络能够更加关注图片中手写字符的特征而尽可能的忽略学生涂改的错误答案和复杂的背景中类似字符的图像特征。为了解决这一问题引入Attention识别机制。将Feature-squeese网络中的Bi-LSTM网络作为encoder,Recognition网络网络中的Bi-LSTM网络作为decoder,通过计算encoder与decoder状态之间关联性的权重,得到Attention分布系数,从而输出对于当前位置比较重要的输入信息的权重,在预测输出时相应的信息会占较大的比重,通过Attention机制的引入,打破了只能利用encoder最终单一向量结果解码的限制,从而使模型可以集中在所有对于下一个目标字符重要的输入信息上,使模型效果得到极大的改善。还有一个优点是,通过观察Attention权重矩阵的变化,可以更好地知道哪部分识别对应哪部分源图像位置特征,有助于更好的理解模型工作机制。
其中,包括以下具体步骤:
步骤一、数据预处理:为了加快训练速度,将原始图片转化为灰度图,每张图片归一化64x100尺寸大小,在输入网络之前,将灰度图图像数组标准化处理,即除以像素最大值,减去0.5,将图片像素值控制在正负0.5之间,加速平滑训练过程。处理后图片如图6所示;
步骤二、网络结构设计:针对学生手写选择题识别,先使用STN网络进行第一阶段特征矫正,然后通过CNN网络进行特征提取,提取后的特征分别进入两个分支处理;第一个分支输入Super-resolution网络进行超分辨学习处理,第二个分支输入Feature-squeese网络进行特征编码,最终将编码特征输入Recogniton网络进行解码识别;其中CNN网络模块的骨架网络使用Resnet,将channel Attention和spacial Attention机制网络模块选择性的加载在残差模块之后进行特征加权。Super-resolution网络分别提取原始图像长宽维度的二分之一、四分之一、八分之一的高级抽象特征,保证超分辨的学习;
步骤三、训练目标表示设计:网络的训练目标主要针对网络输出的两个分支,分别是超分辨学习和字符识别学习。其中超分辨使用L1损失构成,识别损失由交叉熵损失构成。通过线性叠加即可,通过一个超参数控制两部分损失所占比重;
步骤四、网络输出后处理:根据网络输出的向量进行解码,对于单选题可以使用贪婪解码,对于多选题可以使用Beam search形式解码,获取最终字符的识别结果。
有益效果
一种学生手写选择题识别方法,能够减少因图片背景类似字符的噪声以及学生涂改的噪声造成的单字符识别错误和字符多识别错误;能够一定程度矫正学生书写不规范的字符;能够有效提高因扫描设备和图像变换过程中产生模糊图片的字符识别率。
附图说明
图1为本发明的选择题识别网络结构图;
图2为本发明的Resnet-Block结构图;
图3为本发明的Resnet结构图;
图4为本发明的Super-resolution网络结构图;
图5为本发明的整体流程图;
图6为本发明的样本示例图。
具体实施方式
具体实施主要包含数据预处理,网络结构设计,训练目标函数表示设计及数据后处理几个步骤,整体流程如示例图5所示。
一种学生手写选择题识别方法,基于残差网络Resnet结构设计,其主要特征在于,包含STN特征矫正网络部分、CNN特征提取网络部分、Super-resolution网络部分、Feature-squeese网络部分以及Recognition网络部分。
其中STN特征矫正网络部分:使用一个简单的浅层卷积神经网络预测了20个关键点位置来约束文字的上下边缘,并通过TPS(Thin Plate Spline)方法从原始的图像中采样得到校正图像。输入学生手写选择题图片,STN网络能够根据识别网络损失反向传播更新权重的同时,通过无监督方式自动矫正图片中平移,旋转,透视畸变和弯曲的字符。在识别学生选择题过程中完成书写不规范字符矫正的第一阶段。STN网络主要包含Localize,CridCenerator和Sampler三个模块。其中Localize模块是一个自己定义的网络,它输入原始图像,输出一组变化参数,这个参数用来描述原始图像和矫正之后的图像的坐标映射关系;Crid Cenerator模块根据矫正图像中的坐标点和变化参数,计算出原始图像中的坐标点;Sampler模块要做的是填充矫正后的图像,根据Grid generator得到的一系列坐标和原始输入图像通过双线性插值实现。
其中CNN特征提取网络部分:CNN网络选取带有Residual Block结构的Resnet。传统的卷积层或全连接层在信息传递时,或多或少会存在信息丢失、损耗等问题。Resnet在某种程度上解决了这个问题,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入、输出差别的那一部分,简化学习目标和难度。其中Residual block通过shortcut connection实现,通过shortcut将这个block的输入和输出进行一个元素相加,这个简单的加法并不会给网络增加额外的参数和计算量,同时却可以大大增加模型的训练速度、提高训练效果,并且当模型的层数加深时,这个简单的结构能够很好的解决退化问题。其中Residual block如图2所示,Resnet网络结构如图3所示。Resnet通过Residualblock能够学习更多的图像特征信息,但是原始图像信息中包含多种复杂的噪声信息,比如学生涂改信息,背景类字符信息以及多余的题目信息。在图像特征提取网络中可以引入channelAttention和spacialAttention机制在图像特征提取阶段过滤掉一部分与识别无关的干扰噪声特征。特征的每一个通道都代表着一个专门的检测器,因此,channelAttention是关注需要识别的字符是什么。为了汇总通道特征,通过采用全局平均池化和最大池化两种方式来分别获取利用不同的信息。线性加叠全局平均池化和最大池化特征,输入神经网络,通过激活函数获取通道注意力权重系数,与图像特征相乘即可。与channelAttention不同,spacialAttention更加关注需要识别的字符在图像特征中处于什么位置。与channelAttention类似,针对每个通道特征获取平均池化和最大池化两种特征,通过融合平均池化和最大池化特征,通过激活函数获取图像特征宽高维度的注意力权重系数,与图像特征相乘即可。
其中Super-resolution网络部分:类似Unet分割网络结构,总体包含上下采样两个部分,使用了2个基于Resnet结构的超分辨基础单元的下采样部分和一个上采样部分,将共享的特征恢复成原始图像对应的超分辨图像。为了更好的训练超分辨单元、改善特征的表达,使用了如下两种特征增强的方式:高斯模糊和8倍上下采样。在训练阶段超分辨网络损失函数通过梯度反向传播优化上一阶段的CNN特征提取网络,改善模糊字符的特征提取与识别。在前向推理的过程中将不再使用超分辨网络,在模型改善图像清晰度的同时不增加模型计算的参数量和复杂度。其中超分辨网络结构如图4所示。
其中Feature-squeese网络部分:通过1x1卷积降维和Reshape的方式,从CNN特征提取模块输出的特征中,获取输入到识别模块的1维向量。使用双向LSTM能够学习到图像特征序列的关联信息,通过学习的序列关联信息可以一定的区分识别图片中的前背景信息,为下一阶段识别解码使用Attention机制提供上下文信息向量。
其中Recognition网络部分:在识别手写选择题的时候,希望识别网络能够更加关注图片中手写字符的特征而尽可能的忽略学生涂改的错误答案和复杂的背景中类似字符的图像特征。为了解决这一问题引入Attention识别机制。将Feature-squeese网络中的Bi-LSTM网络作为encoder,Recognition网络网络中的Bi-LSTM网络作为decoder,通过计算encoder与decoder状态之间关联性的权重,得到Attention分布系数,从而输出对于当前位置比较重要的输入信息的权重,在预测输出时相应的信息会占较大的比重,通过Attention机制的引入,打破了只能利用encoder最终单一向量结果解码的限制,从而使模型可以集中在所有对于下一个目标字符重要的输入信息上,使模型效果得到极大的改善。还有一个优点是,通过观察Attention权重矩阵的变化,可以更好地知道哪部分识别对应哪部分源图像位置特征,有助于更好的理解模型工作机制。
步骤一、数据预处理:为了加快训练速度,将原始图片转化为灰度图,每张图片归一化64x100尺寸大小,在输入网络之前,将灰度图图像数组标准化处理,即除以像素最大值,减去0.5,将图片像素值控制在正负0.5之间,加速平滑训练过程。处理后图片如图6所示;
步骤二、网络结构设计:针对学生手写选择题识别,先使用STN网络进行第一阶段特征矫正,然后通过CNN网络进行特征提取,提取后的特征分别进入两个分支处理;第一个分支输入Super-resolution网络进行超分辨学习处理,第二个分支输入Feature-squeese网络进行特征编码,最终将编码特征输入Recogniton网络进行解码识别。其中CNN网络模块的骨架网络使用Resnet,将channel Attention和spacial Attention机制网络模块选择性的加载在残差模块之后进行特征加权。Super-resolution网络分别提取原始图像长宽维度的二分之一,四分之一,八分之一的高级抽象特征,保证超分辨的学习;
步骤三、训练目标函数表示设计:网络的训练目标主要针对网络输出的两个分支,分别是超分辨学习和字符识别学习。其中超分辨使用L1损失构成,识别损失由交叉熵损失构成。通过线性叠加即可,通过一个查参数控制两部分损失所占权重;
步骤四、网络输出后处理:根据网络输出的向量进行解码,对于单选题可以使用贪婪解码,对于多选题可以使用Beam search形式解码,获取最终字符的识别结果。
Claims (7)
1.一种学生手写选择题识别方法,基于残差网络Resnet结构设计,其主要特征在于,包含STN特征矫正网络部分、CNN特征提取网络部分、Super-resolution(超分辨)网络部分、Feature-squeese(特征压缩)网络部分以及Recognition(识别)网络部分。
2.如权利要求1所述的一种学生手写选择题识别方法,其特征在于,所述STN特征矫正网络部分具体描述为:使用一个简单的浅层卷积神经网络预测了20个关键点位置来约束文字的上下边缘,并通过TPS(Thin Plate Spline)方法从原始的图像中采样得到校正图像;输入学生手写选择题图片,STN网络能够根据识别网络损失反向传播更新权重的同时,通过无监督方式自动矫正图片中平移、旋转、透视畸变和弯曲的字符;在识别学生选择题过程中完成书写不规范字符矫正的第一阶段;STN网络主要包含Localize,Crid Cenerator和Sampler三个模块;其中Localize模块是一个自己定义的网络,它输入原始图像,输出一组变化参数,这个参数用来描述原始图像和矫正之后的图像的坐标映射关系;CridCenerator模块根据矫正图像中的坐标点和变化参数,计算出原始图像中的坐标点;Sampler模块要做的是填充矫正后的图像,根据Grid generator得到的一系列坐标和原始输入图像通过双线性插值实现。
3.如权利要求1所述的一种学生手写选择题识别方法,其特征在于,所述CNN特征提取网络部分具体描述为:CNN网络选取带有Residual Block结构的Resnet;传统的卷积层或全连接层在信息传递时,或多或少会存在信息丢失、损耗等问题;Resnet在某种程度上解决了这个问题,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入、输出差别的那一部分,简化学习目标和难度;其中Residual block通过shortcutconnection实现,通过shortcut将这个block的输入和输出进行一个元素相加,这个简单的加法并不会给网络增加额外的参数和计算量,同时却可以大大增加模型的训练速度、提高训练效果,并且当模型的层数加深时,这个简单的结构能够很好的解决退化问题;Resnet通过Residual block能够学习更多的图像特征信息,但是原始图像信息中包含多种复杂的噪声信息,比如学生涂改信息,背景类字符信息以及多余的题目信息;在图像特征提取网络中可以引入channel Attention和spacial Attention机制在图像特征提取阶段过滤掉一部分与识别无关的干扰噪声特征;特征的每一个通道都代表着一个专门的检测器,因此,channel Attention是关注需要识别的字符是什么;为了汇总通道特征,通过采用全局平均池化和最大池化两种方式来分别获取利用不同的信息;线性加叠全局平均池化和最大池化特征,输入神经网络,通过激活函数获取通道注意力权重系数,与图像特征相乘即可;与channel Attention不同,spacial Attention更加关注需要识别的字符在图像特征中处于什么位置;与channel Attention类似,针对每个通道特征获取平均池化和最大池化两种特征,通过融合平均池化和最大池化特征,通过激活函数获取图像特征宽高维度的注意力权重系数,与图像特征相乘即可。
4.如权利要求1所述的一种学生手写选择题识别方法,其特征在于,所述Super-resolution网络部分具体描述为:类似Unet分割网络结构,总体包含上下采样两个部分,使用了2个基于Resnet结构的超分辨基础单元的下采样部分和一个上采样部分,将共享的特征恢复成原始图像对应的超分辨图像;为了更好的训练超分辨单元、改善特征的表达,使用了如下两种特征增强的方式:高斯模糊和8倍上下采样;在训练阶段超分辨网络损失函数通过梯度反向传播优化上一阶段的CNN特征提取网络,改善模糊字符的特征提取与识别;在前向推理的过程中将不再使用超分辨网络,在模型改善图像清晰度的同时不增加模型计算的参数量和复杂度;其中超分辨网络结构如图4所示。
5.如权利要求1所述的一种学生手写选择题识别方法,其特征在于,所述Feature-squeese网络部分具体描述为:通过1x1卷积降维和Reshape的方式,从CNN特征提取模块输出的特征中,获取输入到识别模块的1维向量;使用双向LSTM能够学习到图像特征序列的关联信息,通过学习的序列关联信息可以一定的区分识别图片中的前背景信息,为下一阶段识别解码使用Attention机制提供上下文信息向量。
6.如权利要求1所述的一种学生手写选择题识别方法,其特征在于,所述Recognition网络部分具体描述为:在识别手写选择题的时候,我们希望识别网络能够更加关注图片中手写字符的特征而尽可能的忽略学生涂改的错误答案和复杂的背景中类似字符的图像特征;为了解决这一问题引入Attention识别机制;将Feature-squeese网络中的Bi-LSTM网络作为encoder,Recognition网络网络中的Bi-LSTM网络作为decoder,通过计算encoder与decoder状态之间关联性的权重,得到Attention分布,从而对于输出当前位置得到比较重要的输入位置的权重,在预测输出时相应的信息会占较大的比重。通过Attention机制的引入,打破了只能利用encoder最终单一向量结果的限制,从而使模型注意力可以集中在所有对于下一个目标字符重要的输入信息上,使模型效果得到极大的改善;还有一个优点是,通过观察Attention权重矩阵的变化,可以更好地知道哪部分识别对应哪部分源图像位置特征,有助于更好的理解模型工作机制。
7.如权利要求1所述的一种学生手写选择题识别方法,其特征在于,包括以下具体步骤:
步骤一、数据预处理:为了加快训练速度,将原始图片转化为灰度图,每张图片归一化64x100尺寸大小,在输入网络之前,将灰度图图像数组标准化处理,即除以像素最大值,减去0.5,将图片像素值控制在正负0.5之间,加速平滑训练过程。处理后图片如图6所示;
步骤二、网络结构设计:针对学生手写选择题识别,先使用STN网络进行第一阶段特征矫正,然后通过CNN网络进行特征提取,提取后的特征分别进入两个分支处理;第一个分支输入Super-resolution网络进行超分辨学习处理,第二个分支输入Feature-squeese网络进行特征编码,最终将编码特征输入Recogniton网络进行解码识别;其中CNN网络模块的骨架网络使用Resnet,将channel Attention和spacial Attention机制网络模块选择性的加载在残差模块之后进行特征加权。Super-resolution网络分别提取原始图像长宽维度的二分之一、四分之一、八分之一的高级抽象特征,保证超分辨的学习;
步骤三、训练目标表示设计:网络的训练目标主要针对网络输出的两个分支,分别是超分辨学习和字符识别学习。其中超分辨使用L1损失构成,识别损失由交叉熵损失构成。通过线性叠加即可,通过一个超参数控制两部分损失所占比重;
步骤四、网络输出后处理:根据网络输出的向量进行解码,对于单选题可以使用贪婪解码,对于多选题可以使用Beam search形式解码,获取最终字符的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011514711.2A CN112633429A (zh) | 2020-12-21 | 2020-12-21 | 一种学生手写选择题识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011514711.2A CN112633429A (zh) | 2020-12-21 | 2020-12-21 | 一种学生手写选择题识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112633429A true CN112633429A (zh) | 2021-04-09 |
Family
ID=75317892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011514711.2A Pending CN112633429A (zh) | 2020-12-21 | 2020-12-21 | 一种学生手写选择题识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633429A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297986A (zh) * | 2021-05-27 | 2021-08-24 | 新东方教育科技集团有限公司 | 手写字符识别方法、装置、介质及电子设备 |
CN113554021A (zh) * | 2021-06-07 | 2021-10-26 | 傲雄在线(重庆)科技有限公司 | 一种智能化印章识别方法 |
WO2024103997A1 (zh) * | 2022-11-16 | 2024-05-23 | 京东方科技集团股份有限公司 | 手写体识别方法、手写体识别模型的训练方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229474A (zh) * | 2017-12-29 | 2018-06-29 | 北京旷视科技有限公司 | 车牌识别方法、装置及电子设备 |
CN108509881A (zh) * | 2018-03-22 | 2018-09-07 | 五邑大学 | 一种无切分的脱机手写汉字文本识别方法 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110969577A (zh) * | 2019-11-29 | 2020-04-07 | 北京交通大学 | 一种基于深度双重注意力网络的视频超分辨率重建方法 |
CN111192200A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于融合注意力机制残差网络的图像超分辨率重建方法 |
CN111553290A (zh) * | 2020-04-30 | 2020-08-18 | 北京市商汤科技开发有限公司 | 文本识别方法、装置、设备及存储介质 |
CN111833246A (zh) * | 2020-06-02 | 2020-10-27 | 天津大学 | 基于注意力级联网络的单帧图像超分辨方法 |
CN111914838A (zh) * | 2020-07-28 | 2020-11-10 | 同济大学 | 一种基于文本行识别的车牌识别方法 |
CN112052852A (zh) * | 2020-09-09 | 2020-12-08 | 国家气象信息中心 | 一种基于深度学习的手写气象档案资料的字符识别方法 |
-
2020
- 2020-12-21 CN CN202011514711.2A patent/CN112633429A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229474A (zh) * | 2017-12-29 | 2018-06-29 | 北京旷视科技有限公司 | 车牌识别方法、装置及电子设备 |
CN108509881A (zh) * | 2018-03-22 | 2018-09-07 | 五邑大学 | 一种无切分的脱机手写汉字文本识别方法 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110969577A (zh) * | 2019-11-29 | 2020-04-07 | 北京交通大学 | 一种基于深度双重注意力网络的视频超分辨率重建方法 |
CN111192200A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于融合注意力机制残差网络的图像超分辨率重建方法 |
CN111553290A (zh) * | 2020-04-30 | 2020-08-18 | 北京市商汤科技开发有限公司 | 文本识别方法、装置、设备及存储介质 |
CN111833246A (zh) * | 2020-06-02 | 2020-10-27 | 天津大学 | 基于注意力级联网络的单帧图像超分辨方法 |
CN111914838A (zh) * | 2020-07-28 | 2020-11-10 | 同济大学 | 一种基于文本行识别的车牌识别方法 |
CN112052852A (zh) * | 2020-09-09 | 2020-12-08 | 国家气象信息中心 | 一种基于深度学习的手写气象档案资料的字符识别方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297986A (zh) * | 2021-05-27 | 2021-08-24 | 新东方教育科技集团有限公司 | 手写字符识别方法、装置、介质及电子设备 |
CN113554021A (zh) * | 2021-06-07 | 2021-10-26 | 傲雄在线(重庆)科技有限公司 | 一种智能化印章识别方法 |
CN113554021B (zh) * | 2021-06-07 | 2023-12-15 | 重庆傲雄在线信息技术有限公司 | 一种智能化印章识别方法 |
WO2024103997A1 (zh) * | 2022-11-16 | 2024-05-23 | 京东方科技集团股份有限公司 | 手写体识别方法、手写体识别模型的训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399419B (zh) | 基于二维递归网络的自然场景图像中中文文本识别方法 | |
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN112308860B (zh) | 基于自监督学习的对地观测图像语义分割方法 | |
CN111126453B (zh) | 基于注意力机制和切割填充的细粒度图像分类方法及系统 | |
CN111461134B (zh) | 一种基于生成对抗网络的低分辨率车牌识别方法 | |
CN111783705B (zh) | 一种基于注意力机制的文字识别方法及系统 | |
CN112633429A (zh) | 一种学生手写选择题识别方法 | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN100373399C (zh) | 建立劣化字典的方法和装置 | |
CN108491836B (zh) | 一种自然场景图像中中文文本整体识别方法 | |
CN111401384A (zh) | 一种变电设备缺陷图像匹配方法 | |
CN111652225B (zh) | 基于深度学习的非侵入式摄像读取方法及系统 | |
CN113221740B (zh) | 一种农田边界识别方法及系统 | |
CN113012172A (zh) | 一种基于AS-UNet的医学图像分割方法及系统 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN116524062B (zh) | 一种基于扩散模型的2d人体姿态估计方法 | |
CN111881743B (zh) | 一种基于语义分割的人脸特征点定位方法 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
CN115331114A (zh) | 基于船号深度学习的船舶身份识别方法 | |
CN114821580A (zh) | 一种分阶段融入去噪模块的含噪图像分割方法 | |
CN116704526B (zh) | 工尺谱扫描机器人及其方法 | |
Wang et al. | Scene uyghur recognition with embedded coordinate attention | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210409 |
|
RJ01 | Rejection of invention patent application after publication |