CN116434238A

CN116434238A - 一种提高学生信息识别准确率的方法

Info

Publication number: CN116434238A
Application number: CN202310355548.7A
Authority: CN
Inventors: 李栋良; 王钰; 钱锟
Original assignee: Zhongjiao Yunzhi Digital Technology Co ltd
Current assignee: Zhongjiao Yunzhi Digital Technology Co ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-07-14

Abstract

本发明公开了一种提高学生信息识别准确率的方法，包括对页面进行矫正；获得整块包含学生信息的截图；字符序列切割；识别单字符图片；输出识别结果，当没有识别到涂改划错痕迹时，直接输出结果；当某一个字符位置识别到涂改划错痕迹时，往上和往下同时扫描一个字符的位置，发现手写痕迹后，和已有的涂改划错痕迹合并处理图像，和已有的涂改划错痕迹合并处理图像进入一个专门的涂改划错数字模式识别模型当中，重新识别后输出结果。本方案，可以在学生进行涂改划错时，进行有效的识别，提高学生信息识别的准确率。

Description

一种提高学生信息识别准确率的方法

技术领域

本发明涉及试卷批改技术领域，具体而言，涉及一种提高学生信息识别准确率的方法。

背景技术

现有技术中，识别手写的串联字符有以下难题：手写字符识别准确率不能让人满意，影响识别准确率的因素有：风格多样，对于印刷体一种字体我们可以把它看作是一种风格，印刷体的字体种类是有限的，但是对于手写体，一个人的字体就可以看作是一种风格，所以这里字体的种类是无限的；笔画连接、字体连接干扰，印刷体由于是机器创造的非常的有规则整齐，然而手写的字体存在很多由人为造成的不确定成分。

中国专利公开了一种提高识别试卷学生信息准确率的方法，公开号：CN114241486A，其进行单字符识别，但是在实际答题过程中，会存在写错后在上下部位写入正确信息的情况，这就会导致上述的方法难以应对修改信息案的答题识别情况，导致识别的准确率降低。

发明内容

本发明的主要目的在于提供一种提高学生信息识别准确率的方法，以改善相关技术中, 存在写错后在上下部位写入正确信息的情况，这就会导致上述的方法难以应对修改信息案的答题识别情况，导致识别的准确率降低的问题。

为了实现上述目的，本发明提供了一种提高学生信息识别准确率的方法，包括对页面进行矫正：在页面上的不同位置设置若干个标识符，通过对标识符的矫正，即可将页面进行矫正；

获得整块包含学生信息的截图：截取矫正后图片上的固定区域获得整块包含学生信息的图片；

字符序列切割；通过图像处理技术，将包含字符序列的图分割成多个包含单字符的图片，并且记录输出图片的顺序信息；

识别单字符图片：将单字符图片输入模式识别模块即可得到图片中包含的字符；

输出识别结果：将单字符图片的识别结果进行组合拼接，能够得到完整的学生学号信息；

当没有识别到涂改划错痕迹时，直接输出结果；

当某一个字符位置识别到涂改划错痕迹时，往上和往下同时扫描一个字符的位置，发现手写痕迹后，和已有的涂改划错痕迹合并处理图像，和已有的涂改划错痕迹合并处理图像进入一个专门的涂改划错数字模式识别模型当中，重新识别后输出结果。

在本发明的一种实施例中，在页面的四个角放置四个正方形标识符，其中左上、右上、左下角的标识符都是黑色实心的，右下角的标识符是空心。

在本发明的一种实施例中，对页面的矫正算法如下：

步骤一，计算关键常量，先利用计算公式s1 =

获得s1，其中w为矫正图片的宽度，再利用公式s2=s1*/>

获得s2；

步骤二，将图片灰度处理、自适应的二值化，利用opencv的findContours函数来做轮廓检测，利用opencv的contourArea函数计算每一个轮廓的面积s，我们利用s2<s<s1这个条件来过滤轮廓；

步骤三，计算所有符合面积要求的轮廓的中心点，并且两点组合计算他们之间的欧式距离，按照两点之间的距离我们从大到小排序，设计的四个标识符坐标就在第一名和第二名这两组点对中；

步骤四，把右下角标识符设计为空心的，所以在第一组和第二组的四个点中，一定会存在唯一顶点的对应的像素值是白色的，此时就确定了右下角，再根据右下角和其他顶点的距离关系确定剩下三个顶点的坐标，最后利用opencv的getPerspectiveTransform函数获得完成透视变化所需要的矩阵，完成透视变换后，图片的矫正完成。

在本发明的一种实施例中，在字符序列切割过程中，利用opencv图像处理库，以“灰度模式”读取图片，然后使用自适应阈值化的方法获得白背景黑笔迹的二值化图片。

在本发明的一种实施例中，在字符序列切割过程中，需要识别并消除下划线，步骤如下：

找出下划线：首先获得水平投影，水平投影的视觉意义是每行的黑色像素总数，如果某一行的黑色像素值大于图片的宽度一半，则认为这行就是设计的多段下划线；

对相交处进行补偿：检测位置坐标的下一行是不是白色像素，如果不是白色而是黑色的像素，那么这意味着字符笔画与下划线相交，那么这一行的对应的位置就要保留原图片的像素，而不能置为白色像素。

在本发明的一种实施例中，在识别和消除下划线时，对黑色像素进行排列，检测是否呈现严格的一次函数，即是否完全为直线排列，对于黑色像素数量达到预定长度的直线排列的黑色像素，则认为这就是设计的多段下滑线，可进行消除。

在本发明的一种实施例中，在字符序列切割的过程中，将字符序列切割成单个字符的方法如下：

通过垂直投影获得了在垂直方向上，每一列有多少黑色像素，认为如果连续的两个及其以上像素的黑色像素个数为0，那么这段连续的0就是对应白色间隔的位置，通过间隔的位置信息就可以将单个字符切割出来。

在本发明的一种实施例中，在识别单字符图片时，利用深度学习的技术，利用深度学习框架pytorch进行深度学习，深度学习的方法如下：

S1、选择深度学习模型：为了保证模型的推理速度要尽可能的快，选择模型参数量少推理速递快的shufflenetv2作为主干网路；

S2、建立数据集：为了实现了数字0-9的识别，建立训练用的数据集；

S3、对图片预处理：使用自适应二值化，将图片变化为黑色背景白色笔迹的二值化图片，在训练时使用数据增强技术可以极大的增加训练数据的数量，训练时使用到的数据增强技术有水平和垂直方向的随机填充和平移、添加高斯噪声、添加高斯模糊；

S4、得到训练结果：使用shufflenetv2经过20个epoch的训练，得到训练结果。

在本发明的一种实施例中，在选择深度学习模型时，利用空间注意力机制来提高模型的健壮性和泛化能力，空间注意力机制将输入的图片进行仿射、透视、薄板样条变换，通过不断地训练，空间注意力机制会将输入的原图片变化成主干模型“喜欢”的形式。

在本发明的一种实施例中，涂改划错数字模式识别模型，处理划斜线、划叉号、涂黑、划单条横线和划多条横线的涂改划错情况。

与现有技术相比，本发明的有益效果是：可以在学生进行涂改划错时，进行有效的识别，提高学生信息识别的准确率；

将字符序列识别任务转化为多个单字符识别问题，为数字化教育流程中捕获学生个人信息场景提供了新的解决思路，降低了完成场景任务的难度，从而保障了捕获学生个人信息的准确性和健壮性；

通过将字符序列识别问题转化成为了多个单字符的识别问题，这种设计不仅降低了识别难度，也避免了手写字体连接问题，还最大限度的保留了学生填写个人信息的习惯。

附图说明

图1为根据本申请实施例提供的提高学生信息识别准确率的方法的流程框图；

图2为根据本申请实施例提供的提高学生信息识别准确率的方法的页面矫正的流程框图；

图3为根据本申请实施例提供的提高学生信息识别准确率的方法的深度学习的流程框图；

图4为根据本申请实施例提供的提高学生信息识别准确率的方法的设计表的流程框图；

图5为根据本申请实施例提供的提高学生信息识别准确率的方法的整块包含学生信息的图片；

图6为根据本申请实施例提供的提高学生信息识别准确率的方法的字符序列切割模块输出的单字符图片；

图7为根据本申请实施例提供的提高学生信息识别准确率的方法的shufflenetv2的结构和不同的配置方案列表；

图8为根据本申请实施例提供的提高学生信息识别准确率的方法的存在涂改划错痕迹的示意图。

实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

另外，术语“多个”的含义应为两个以及两个以上。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例

请参阅图1-图8，本发明提供了一种提高学生信息识别准确率的方法，包括对页面进行矫正：在页面上的不同位置设置若干个标识符，通过对标识符的矫正，即可将页面进行矫正；

当没有识别到涂改划错痕迹时，直接输出结果；

如图8，当某一个字符位置识别到涂改划错痕迹时，往上和往下同时扫描一个字符的位置，发现手写痕迹后，和已有的涂改划错痕迹合并处理图像，和已有的涂改划错痕迹合并处理图像进入一个专门的涂改划错数字模式识别模型当中，重新识别后输出结果，应当理解的是，涂改划错数字模式识别模型，处理划斜线、划叉号、涂黑、划单条横线和划多条横线的涂改划错情况。

优选的，请参阅图4，在对页面进行矫正时，在页面的四个角放置四个正方形标识符，其中左上、右上、左下角的标识符都是黑色实心的，右下角的标识符是空心。

进一步的，请参阅图2，对页面的矫正算法如下：

步骤一，计算关键常量，先利用计算公式s1 =

获得s1，其中w为矫正图片的宽度，再利用公式s2=s1*/>

获得s2；

步骤四，把右下角标识符设计为空心的，所以在第一组和第二组的四个点中，一定会存在唯一顶点的对应的像素值是白色的。此时就确定了右下角，再根据右下角和其他顶点的距离关系，我们就能确定剩下三个顶点的坐标了，最后利用opencv的getPerspectiveTransform函数获得完成透视变化所需要的矩阵，其中左上角对应的目标坐标为（52，50）、右上角对应目标坐标（1192，52），左下角对应的目标坐标（52，1702），右下角对应的目标坐标为（1192，1702）。完成透视变换后，图片的矫正完成。

进一步的，在字符序列切割过程中，利用opencv图像处理库，以“灰度模式”读取图片，然后使用自适应阈值化的方法获得白背景黑笔迹的二值化图片。

进一步的，在字符序列切割过程中，需要识别并消除下划线，步骤如下：

对相交处进行补偿：虽然设计的多段下划线的位置找到了，但是如果直接把整行置为白色，那么有些字符的笔迹也可能被消除，于是需要检测位置坐标的下一行是不是白色像素，如果不是白色而是黑色的像素，那么这意味着字符笔画与下划线相交，那么这一行的对应的位置就要保留原图片的像素，而不能置为白色像素。

示例性的，请参阅图5和图6，在识别和消除下划线时，对黑色像素进行排列，检测是否呈现严格的一次函数，即是否完全为直线排列，对于黑色像素数量达到预定长度的直线排列的黑色像素，则认为这就是设计的多段下滑线，可进行消除。

进一步的，在字符序列切割的过程中，将字符序列切割成单个字符的方法如下：通过垂直投影获得了在垂直方向上，每一列有多少黑色像素，认为如果连续的两个及其以上像素的黑色像素个数为0，那么这段连续的0就是对应白色间隔的位置，通过间隔的位置信息就可以将单个字符切割出来。

进一步的，在识别单字符图片时，利用深度学习的技术，利用深度学习框架pytorch进行深度学习。

进一步的，请参阅图3，深度学习的方法如下：

S1、选择深度学习模型：于深度学习计算机视觉领域的目标检测、实例分割、人体姿态估计等任务相比，模式识别是简单的任务，为了保证模型的推理速度要尽可能的快，选择模型参数量少推理速递快的shufflenetv2作为主干网路。Shufflenetv2是由《ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design》论文提出的，图7展示了shufflenetv2的结构和不同的配置方案，选择了0.5x的配置方案作为实际使用时的模型结构。

S2、建立数据集：为了实现了数字0-9的识别，建立训练用的数据集；使用的训练数据包含Mnist60000张训练数据、计算机合成数据30000张、人工标注了30000张真实数据，共计12万的训练数据。其中人工标注的数据还剩余4022张这作为测试数据；

S3、对图片预处理：对图片预处理工作就是使用自适应二值化，将图片变化为黑色背景白色笔迹的二值化图片。在训练时使用数据增强技术可以极大的增加训练数据的数量，训练时使用到的数据增强技术有水平和垂直方向的随机填充和平移、添加高斯噪声、添加高斯模糊；

S4、得到训练结果：使用shufflenetv2经过20个epoch的训练，得到训练结果，在测试数据上的准确率达到了97.36%。

在选择深度学习模型时，利用空间注意力机制来提高模型的健壮性和泛化能力，空间注意力机制将输入的图片进行仿射、透视、薄板样条变换，通过不断地训练，空间注意力机制会将输入的原图片变化成主干模型“喜欢”的形式，举个例子对于一张被旋转了90°的图片，通过空间注意力机制将会自动帮我们将图片旋转到正确的角度。实践中我们使用的是薄板样条变换的空间注意力机制，薄板样条变换可以实现图片的局部“扭曲”很适合用来捕捉字体风格多样的手写字符中的统一性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提高学生信息识别准确率的方法，其特征在于，包括：

对页面进行矫正：在页面上的不同位置设置若干个标识符，通过对标识符的矫正，即可将页面进行矫正；

当没有识别到涂改划错痕迹时，直接输出结果；

2.如权利要求1所述的一种提高学生信息识别准确率的方法，其特征在于，在页面的四个角放置四个正方形标识符，其中左上、右上、左下角的标识符都是黑色实心的，右下角的标识符是空心。

3.如权利要求2所述的一种提高学生信息识别准确率的方法，其特征在于，对页面的矫正算法如下：

步骤一，计算关键常量，先利用计算公式s1 =

获得s1，其中w为矫正图片的宽度，再利用公式s2=s1*/>

获得s2；

4.如权利要求1所述的一种提高学生信息识别准确率的方法，其特征在于，在字符序列切割过程中，利用opencv图像处理库，以“灰度模式”读取图片，然后使用自适应阈值化的方法获得白背景黑笔迹的二值化图片。

5.如权利要求1所述的一种提高学生信息识别准确率的方法，其特征在于，在字符序列切割过程中，需要识别并消除下划线，步骤如下：

6.如权利要求1所述的一种提高学生信息识别准确率的方法，其特征在于，在识别和消除下划线时，对黑色像素进行排列，检测是否呈现严格的一次函数，即是否完全为直线排列，对于黑色像素数量达到预定长度的直线排列的黑色像素，则认为这就是设计的多段下滑线，可进行消除。

7.如权利要求1所述的一种提高学生信息识别准确率的方法，其特征在于，在字符序列切割的过程中，将字符序列切割成单个字符的方法如下：

8.如权利要求1所述的一种提高学生信息识别准确率的方法，其特征在于，在识别单字符图片时，利用深度学习的技术，利用深度学习框架pytorch进行深度学习，深度学习的方法如下：

9.如权利要求8所述的一种提高学生信息识别准确率的方法，其特征在于，在选择深度学习模型时，利用空间注意力机制来提高模型的健壮性和泛化能力，空间注意力机制将输入的图片进行仿射、透视、薄板样条变换，通过不断地训练，空间注意力机制会将输入的原图片变化成主干模型“喜欢”的形式。

10.如权利要求1所述的一种提高学生信息识别准确率的方法，其特征在于，涂改划错数字模式识别模型，处理划斜线、划叉号、涂黑、划单条横线和划多条横线的涂改划错情况。