CN110619326B

CN110619326B - 一种基于扫描的英语试卷作文检测识别系统及方法

Info

Publication number: CN110619326B
Application number: CN201910590784.0A
Authority: CN
Inventors: 李哲; 闫琦; 陈家海; 叶家鸣; 吴波
Original assignee: Anhui Qitian Network Technology Co ltd
Current assignee: Anhui Qitian Network Technology Co ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2023-04-18
Anticipated expiration: 2039-07-02
Also published as: CN110619326A

Abstract

本发明公开了一种基于扫描的英语试卷作文检测识别系统及方法。针对学生英语试卷作文手写体英文文本检测识别，提出全新的检测识别系统。本系统共包含作文区域定位校正，作文行检测，图像去噪和文本识别四个模块。作文区域定位校正模块和作文行检测模块能够根据试卷特殊的几何背景信息快速准确检测文本行位置，图像去噪模块利用生成网络对文本行图像去除冗余字符特征和涂改噪声等，文本识别模块凭借图像重复剪切拼接的数据预处理方式以及基于CNN(Convolutional Neural Networks)+RNN(Recursive Neural Network)+CTC(Connectionist Temporal Classification)方法提高手写体字符识别准确率。本系统能够自动校正畸变的扫描英语图像，去除图像噪声，有效提高检测速度以及高粘连手写字体字符识别率。

Description

一种基于扫描的英语试卷作文检测识别系统及方法

技术领域

本发明涉及OCR(Optical Character Recognition，光学字符识别)领域，具体涉及到一种基于扫描的英语试卷作文检测识别系统及方法。

背景技术

现有的网上阅卷系统都是利用OCR技术对学生考试试卷图像文件进行分析识别处理，获取文字及版面信息。即将图像中的文字进行识别，并以文本的形式返回。其中影响识别准确率的技术瓶颈是文字检测和文本识别。由于学生英语作文试卷具有多模板形式和答题线背景信息，以及学生手写字体具有多粘连，字体多样，字号字重颜色不一等特殊特点，因此采用合理高效精准的检测识别技术至关重要。

近年来，由于深度学习在图像处理领域的迅猛发展，越来越多基于深度学习的文本检测及文本识别方法取得重大突破，能够满足特定领域的识别问题。通过调研和实验发现：在检测方面，由于作文文本行之间分界不明显，行间粘连，以及作文行间会有学生涂改添加等文本信息，因此通用基于深度学习的检测方法不能准确定位文本行位置信息，在很大程度上影响后续识别；而且由于试卷图像较大，检测速度过慢。在识别方面，由于字符之间高度粘连以及字符间模式多样的涂改噪声，通用方法并不能准确识别文本信息。

综上所述，对于英语试卷文本检测识别，采用通用文本检测和识别方法并不可行。本发明将基于英语试卷作文上述的特性，提出一种合理高效高准确率的英语作文识别系统及方法。

发明内容

本发明所要解决的技术问题在于针对英语作文特性，设计合理的检测识别系统及方法，其中系统包含的功能模块结构图如图1所示。系统输入为扫描的英语作文试卷，经过作文区域定位校正，作文行检测，图像去噪，文本识别最终输出文本格式英语作文。

1.作文区域定位校正模块说明：

作文区域定位校正模块根据英语试卷作文答题区特有的几何特性完成作文答题区定位，同时能够根据几何信息校正倾斜及透视畸变的原始扫描图片，输出图像仅保留学生答题区内容，效果示例如图2所示。

2.作文行检测模块说明：

作文行检测模块根据作文区域定位校正模块的输出图片进行作文行检测，能够根据答题线水平投影信息检测每一行作文的位置信息，筛选过滤非答题空白区域以及空白行，得到含有答题信息行的坐标，根据坐标信息实现文本行切割。检测切割示例如图3所示。

3.图像去噪模块说明：

通过作文行检测模块得到切割的作文行信息，通常会包含上下行的冗余信息或者包含涂改噪声，这些噪声都会对识别产生干扰。图像去噪模块能够利用Condition-GAN网络去除这些噪声，仅保留识别的文本信息，去噪效果如示例图4所示。

4.文本识别模块说明：

根据图像去噪模块输出的文本行图片作为文本行识别模块的输入，能够将图片中的字符序列信息转换为文本格式字符序列信息，实现英语作文识别任务。

附图说明

图1为本发明的系统功能模块结构图；

图2为本发明作文区域定位及校正模块效果图；

图3为本发明作文行检测切割模块效果图；

图4为本发明作文行去噪模块效果图；

图5为本发明的识别模型数据传输流程图；

图6为本发明的VGG16网络结构图；

图7为本发明的双层BLSTM图；

图8为本发明的识别网络结构图；

具体实施方式

具体实施方式主要针对本发明提出的一种基于扫描的英语试卷作文检测识别系统所包含的各功能模块，提出了具体可行的实现方法。

步骤一、作文区域定位校正模块具体实现方法：

作文区域定位使用霍夫变换方法，通过检测图片中的直线信息，获取作文答题区域上下左右四条边界线的交点坐标信息，根据坐标信息完成透视变换和旋转校正，裁切原始图片，最终仅保留校正后的学生答题区域。

步骤二、作文行检测模块具体实现方法：

作文行检测使用图像水平方向投影方法，将原始图像二值化，然后根据水平方向统计前景像素值数量，能够获取作文答题线的垂直坐标信息，根据坐标信息将原始整体图像以文本行的形式切割，最终获取文本行图像。其中，可以根据投影数据分析，筛选过滤无需识别的空白行图片。

步骤三、图像去噪模块具体实现方法：

图像去噪使用Condition-GAN网络，将带有噪声的文本行作为输入条件，生成器将学习没有噪声的样本分布，生成没有噪声的文本行图片。在训练网络的时候，将有噪声生图片和没噪声图片以图片对的方式进行训练。

步骤四、文本识别模块具体实现方法：

1.首先对作文行图片进行切分预处理，使用一个正方形滑动窗口在作文行图片水平方向滑动，滑动窗口边长大小为作文行图片的高度值，滑动窗口的滑动步长小于滑动窗口边长2个像素，因此相邻两个滑窗重叠2个像素宽度的区域面积，能够让卷积滤波器连续转换，进而提高字符识别率。

2.文本序列识别模型采用CNN(Convolutional Neural Networks)+RNN(Recursive Neural Network)+CTC(Connectionist TemporalClassification)模式。数据流程图如示例图5所示。其中CNN网络使用VGG16模型的特征提取结构，模型结构如示例图6所示。原始图像经过VGG16网络处理，输出图像特征图，将图像特征图序列化作为RNN的输入。RNN网络使用两层BLSTM(Bidirectional LongShort-Term Memory)网络结构，模型结构如示例图7所示。通过LSTM单元学习字符间关联以及前后景关联信息。将BLSTM输出的序列信息进行解码即获取图像序列包含的文本信息。整体结构图及数据转换如示例图8所示。

本发明提出的一种基于扫描的英语试卷作文检测识别系统，能够提高阅卷效率，减少人力和时间成本。手写英语作文检测识别作为英语作文智能评阅与推荐系统的首要基础步骤，本发明可以为学生提供更好的英语学习服务，帮助学生提高英语写作水平，极大地缓解了老师们的批阅压力，节省老师们的批改时间，与此同时，为基础教育领域与人工智能技术领域的结合奠定了基础。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于扫描的英语试卷作文检测识别系统，其特征在于:主要包含作文区域定位校正模块、作文行检测模块、图像去噪模块以及文本识别模块；

所述作文区域定位校正模块具体功能描述为：根据英语试卷作文答题区特有的几何特性完成作文答题区定位，同时能够根据几何信息校正倾斜及透视畸变的原始扫描图片，输出图像仅保留学生答题区内容；

所述作文行检测模块具体功能描述为：能够根据作文区域定位校正模块的输出图片进行作文行检测，能够根据答题线投影检测每一行作文的位置信息，筛选过滤非答题空白区域以及空白行，得到含有答题信息行的坐标，根据坐标信息实现文本行切割；

所述图像去噪模块具体功能描述为：能够将作文行检测模块得到的切割的作文行信息中包含的上下行的冗余字符信息或者包含的涂改噪声利用生成网络消除，仅保留需要识别的文本信息；所述文本行识别模块具体功能描述为：能够将图片中的字符序列信息转换为文本格式字符序列信息，实现英语作文识别任务。

2.如权利要求1所述的一种基于扫描的英语试卷作文检测识别系统的功能模块具体实现方法，其特征在于:包括以下具体步骤：

步骤一、作文区域定位校正模块具体实现涉及霍夫变换方法，通过检测图片中的各方向直线信息，获取作文答题区域上下左右四条边界线的交点坐标信息，根据坐标信息完成透视变换和旋转校正，裁切原始图片，最终仅保留校正后的学生答题区域；

步骤二、作文行检测模块具体实现涉及图像投影统计方法，将原始图像二值化，然后根据水平方向统计前景像素值数量，能够获取作文答题线的垂直坐标信息，根据坐标信息将原始整体图像以作文行的形式切割，最终获取作文行图像，根据投影统计，可以同时筛选过滤空白行；

步骤三、图像去噪模块具体实现涉及生成网络方法，通过作文行检测模块得到切割的作文行信息，会包含上下行的冗余信息或者包含涂改噪声，这些噪声都会对识别产生干扰，图像去噪模块能够利用Condition-GAN网络重新生成图片，去除这些噪声，仅保留识别的文本信息；

步骤四、文本行识别模块用于实现数据预处理方式和深度学习方法，数据预处理方式为使用一个正方形滑动窗口在作文行图片水平方向滑动，滑动窗口边长大小为作文行图片的高度值，滑动窗口的滑动步长小于滑动窗口边长2个像素，因此相邻两个滑窗重叠2个像素宽度的区域面积，能够让卷积滤波器连续转换，进而提高粘连字符识别率，文本序列识别使用深度学习方法，模型基于CNN(ConvolutionalNeuralNetworks)+ RNN(RecursiveNeuralNetwork)+CTC(Connectionist TemporalClassification)模式。