CN114792425A

CN114792425A - 一种基于人工智能算法的考生试卷照片错题自动整理方法及相关算法

Info

Publication number: CN114792425A
Application number: CN202110000939.8A
Authority: CN
Inventors: 不公告发明人
Original assignee: Suzhou Pinzhi Information Technology Co ltd
Current assignee: Suzhou Pinzhi Information Technology Co ltd
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2022-07-26

Abstract

本发明公开了一种基于人工智能算法的考生试卷照片错题自动整理方法及相关算法，本错题整理方法涉及目标检测算法、光学字符识别、试卷题目结构分析方法和图像语义分割算法。目标检测算法首先用于确定试卷图像上错误标记(红色“X”标记)的位置；光学字符识别用于提取图像中的文字并确定其位置和内容；试卷题目结构分析方法整理出题目树状结构，并结合目标检测算法的结果裁剪出错题区域；语义分割算法描述了图像像素级分类并抹除背景和手写痕迹的方法。本发明所述的方法最终要实现自动化识别，定位考生试卷图像上的错题，并抹除错题区域背景和手写痕迹，最终生成试题原型以便考生复习和后续统计分，帮助学生养成基于错题的学习方法，更有针对性的学习，避免题海战术。

Description

一种基于人工智能算法的考生试卷照片错题自动整理方法及相关算法

技术领域

本发明主要涉及计算机算法领域，尤其是人工智能算法、深度学习领域。具体算法包括图像目标检测，光学字符识别，试卷题目结构分析和图像语义分割。

背景技术

在教育实践中，一个共识是好的学习习惯通常能带来学习效率和成绩的提升。经常进行错题整理，进行针对性学习则是一个公认的优秀学习方法。然而，在传统的学习实践中，错题整理往往涉及了繁琐的错题摘抄，归档工作。市面上也出现了一些辅助整理错题的软件，但这些软件仍然需要大量的人工参与，如截图、标注、归档，并没有显著提高错题整理的效率。因此有必要实现一个可以自动完成错题识别，错题截取、手写打印区分、归档整理、以及返回原题并清理卷面的完整解决方案。

本发明提出的一种基于人工智能算法的试卷照片错题识别整理方法，在自动化程度和错题生成与原题匹配度方面，均明显优于市面现存的错题整理方法。

发明内容

本发明的目的在于提供一种考生试卷错题识别整理方法，旨在解决现存错题整理方案中出现的自动化程度不高，错题生成与原题不匹配的问题。

本发明的技术方案如下：

一种基于人工智能算法的考生试卷照片错题自动整理方法及相关算法，所述方法包括一套目标检测算法、一套光学字符识别算法、一套试卷题目结构分析方法和一套图像语义分割算法。

本发明所述的目标检测算法，首先人工标注了大量含有不同形状的错误标记的图像。通过人工智能深度学习算法YOLO v3，训练神经网络模型学习照片中错误标记的特征，在判断过程中，首先将整张试卷分成多个同样大小的区域，在每个区域上生成一组长宽比不同的包络框，对每一个包络框首先通过概率预测其中是否含有潜在目标，同时预测框中目标对应每一类标签的概率，最终通过非极大抑制方法，将多个包络框融合在一起，生成最终的错误标记预测结果，并记录其位置。为了提升目标检测算法的泛化性，我们优化了目标判定阶段的接收阈值，使得整个系统可以检测到形状不够标准以及尺寸更小的错误标记。

本发明所述的光学字符识别算法由两个部分顺序构成，分别是文字检测部分和文字识别部分。前者可以通过训练神经网络CTPN模型学习图像中文字的特征，在图像中检测到文字所在位置，并将文字区域提取出来传递给文字识别算法。其目的与上文所述的目标检测算法类似，只是文字检测的目标不再是形状，而是文字，具体的过程为现将输入的试卷图像经过深度神经网络提取特征，生成对应的特征图，再一个特殊的神经网络计算潜在目标所在的位置，生成包络框，称为区域提议(region proposal)，再对区域提议部分进行分类，得到每一个单独字符的位置，最后经过循环神经网络建立起上下文的关系，将单个字符融合成一整个文字区域。后者CTC算法同样利用神经网络，事先训练学习字典中所有文字的特征，从而可以将输入的文字特征与学习到的文字特征进行匹配，最终通过引入分隔符来实现冗余识别的删除，实现输入输出的对齐，最终将文字图像转化成文本并进行提取。

本发明所述的试卷题目结构分析方法通过对光学字符识别算法生成的文本进行分析，根据试卷中广泛使用的题目序号标记方式，确定各个题目本身的优先级和每道题目之间的关系，将错乱无序的题目文本信息梳理成有等级的树状结构。再整合光学字符识别得到的文字位置，从之前生成的树状结构中删除位置不匹配的题目项，确定出最终每一个题目的位置。

本发明所述的图像语义分割算法由两个部分顺序构成，分别是以人工智能Deeplab V3+算法为基础的粗略分割和传统图像算法为基础的后处理。前者通过训练神经网络学习试卷上手写痕迹，打印内容和背景这几个部分的特征，实现对试卷图像内容的语义分割。为了训练这个部分，特制定了一套完整的数据集标注流程，对于摄像设备拍摄的试卷照片，通常的标注方式是使用LabelMe一类的标注软件通过勾勒各类物体边缘，但对于试卷上的大量文字，这种方式效率低下而且无法勾画细节，所以采用了更专业的Photoshop辅助标注的形式，通过颜色区分快速提取各类目标，再在这个基础上进行人工校正，得到细节更丰富的标注数据集，而后为了适应手持移动设备拍摄可能出现的各种干扰，又应用了Imgaug方法在数据集中添加了诸如运动模糊，暖光效果，和对比度调整等数据增强方式以提升数据集的广度，进而以此提升神经网络的泛化性。对于神经网络本身，同样进行了一定的优化，首先在输入图像尺寸方面，使用了1080p替代了原网络的512x512的输入分辨率，以适应现在绝大多数移动设备拍摄照片的质量。而后在特征提取阶段使用了更轻量级的Xception网络而不是传统的ResNet以实现在移动端更快的响应速度。通过对神经网络结果的观察分析，发现神经网络模型虽然可以实现有效的分割功能，但对于图像中的细节部分，例如文字的边缘，其作用仍然不是十分理想。故又引入了传统图像分割算法作为后处理，使用Otsu二值化算法，通过自适应的方式计算分割阈值，实现对图像细节部分的精确分割校正。

本发明所述的方法，充分利用了当下流行的人工智能目标检测算法，极大地减少了用户在错题区域图像获取时的操作量，同时利用精确的光学字符识别技术和文字结构分析方法，以一种完全创新的方式整理出试卷结构，最终使用深度学习与传统算法相结合的方式，精准的将照片上的手写内容抹除，并同时兼顾了处理的速度。而整个过程都是对于原题照片的图像领域操作，最终直接将抹除人为痕迹的原题图像返回给用户，实现了对原题的精准匹配。

附图说明

图1为本发明处理试卷图像的完整流程示意图。

图2为目标检测算法流程示意图。

图3为光学字符识别算法及试卷结构分析方法流程示意图。

图4为语义分割算法模型网络结构图。

具体实施方式

下面结合附图对本发明进一步说明。

实施例1：

如图1所示，本发明的完整流程为，输入一张试卷图像，同时经过目标检测模块，光学字符识别模块和语义分割模块，而后经过试卷题目结构分析模块整合题目信息，提取错题区域，最终生成错题复习卷。

实施例2：

本发明的目标检测算法流程如图2所示，利用每个子区域预测出的包络框位置和子区域预测的目标类别，通过非极大抑制算法生成最终的错题位置预测。

实施示例3：

本发明的光学字符识别及试卷结构分析方法如图3所示，先应用检测算法提取出文字所在位置，再应用识别算法预测文字内容，最终结合位置与内容，将试卷拆分为题目区域划分。

实施例4：

本发明使用的语义分割模型Deeplab V3+网络结构如图4所示，其编码器-解码器的结构保证了语义分割时的像素精度，空洞卷积的应用也大大降低了池化过程中的分辨率损失。

Claims

1.一种基于人工智能算法的考生试卷照片错题自动整理方法及相关算法，本错题整理方法涉及目标检测算法、光学字符识别、试卷题目结构分析方法和图像语义分割算法。

2.根据权利1所述的目标检测算法，其特征在于应用深度学习算法在试卷照片上确定错误标记(红色“X”标记)的位置。

3.根据权利1所述的光学字符识别技术，其特征在于将试卷图像中的文字利用深度学习算法进行识别并转化成文本形式输出，并确定其位置。

4.根据权利1所述的试卷题目结构分析方法和权利3所述的光学字符识别所提取的文本，其特征在于将得到的文本进行文字结构分析，整理出题目间的并列或从属结构。

5.根据权利3所述的试卷文本内容和位置和权利4所述的题目结构，其特征在于可以将试卷照片按题目裁剪成碎片，并记录每个题目的位置。

6.根据权利1所述的语义分割算法，其特征在于通过photoshop辅助标注与人工校正结合的方式，制定了一套结果精准的试卷图像分割数据标注方式。

7.根据权利1所述的语义分割算法和权利6所述的数据集标注方式，其特征在于融合深度学习算法和传统图像分割算法，将试卷照片内容进行分割，提取出手写内容和试卷背景，并将其从图像中抹除。

8.根据权利2所述的错误标记位置，权利5所述的每个题目位置和权利6所述的抹除后试卷图像，可以提取出不含手写痕迹的错题区域，供考生复习重做。