CN112597868A

CN112597868A - 基于无定位点的试卷识别和矫正方法

Info

Publication number: CN112597868A
Application number: CN202011496539.2A
Authority: CN
Inventors: 陈长志
Original assignee: Sichuan Caizisoft Information Network Co ltd
Current assignee: Sichuan Caizisoft Information Network Co ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-04-02

Abstract

本发明公开了一种基于无定位点的试卷识别和矫正方法，包括：将模板试卷划分为左上、右上、左下和右下图像相位；对模板试卷的图像进行二值化和滤波处理；在相位中进行横向滑窗；对横向滑窗内的区域进行边缘检测和轮廓提取；采用模板匹配函数的评分机制求得评分最低的图块，并作为相位的定位块；根据模板试卷中相位对应的定位块的坐标，在试卷样品中查找到识别的区域；对识别的区域进行放大，以模板试卷的相位对应的定位块为模板图，采用模板匹配函数，求得最佳匹配坐标，以得到试卷样品的定位块；选取覆盖客观题和考号区域的数据最多的定位块，采用仿射矩阵和仿射变换函数对试卷样品进行仿射矫正；利用仿射矫正后的图像进行客观题和考号识别。

Description

基于无定位点的试卷识别和矫正方法

技术领域

本发明涉及图像识别技术领域，尤其是基于无定位点的试卷识别和矫正方法。

背景技术

随着社会教育制度的完善和考试制度的日益规范，考试的类型和方式也不断增多，但是，现有技术中的纸质考试依然是主流。为了方便考试阅卷，市面上也产生了多种自动阅卷系统，其主要分为光标阅读机和基于图像处理的阅卷系统。目前，现有技术中的答题试卷主要为有定位点的，而无定位点的试卷占比较少，且多采用人工纸质阅卷。

目前，现有技术中也有基于无定位点的试卷识别系统，如专利申请号为“201610938847.3”、名字“一种无定位点试卷中矩形定位框的识别方法”的中国发明专利，其通过：(1)读入试卷，进行二值化、纠偏处理；(2)读取模板记录的矩形区域信息，运用“最大轮廓寻找”方法得到区域的最大轮廓，用最小的矩形对轮廓进行拟合；(3)判断拟合出来的矩形大小与记录的矩形大小是否一致，方法是设定一个误差范围，分别比较两个矩形的长度和高度的误差是否在设定范围内；若在设定范围内，则该拟合出来的矩形即是需要识别的矩形；若不在设定范围内，则进行步骤(4)；(4)运用霍夫变换检测出区域信息的线段，并对检测出的线段作预处理，包括分类、合并；(5)对预处理后的线段进行加权排序；计算得到每条线段的权值后，根据权值从大到小对线段进行排序；(6)将权值位于前三位的线段提取出来，其余舍弃；(7)从上下左右四个方向各取出一条线段进行拟合，拟合的方法是：求出上线段与左线段的交点Point1，下线段和右线段的交点Point2，拟合得到的矩形长度为：Point2.x-Point1.x；高度为：Point2.y-Point1.y；(8)比较模板中记录的矩形长高，若误差均在设定范围之内，则认为识别成功，返回拟合矩形的坐标和长高，该拟合出来的矩形即是需要识别的矩形；若长度或高度的误差其中有一个超过设定范围，则进行下一步；(9)上方线段集合中取出下一条候选线段，再次进行拟合；(10)当上方线段集合全部测试完毕并且没有找到合适的矩形时，将该方向的线段索引重置，并按照“上、左、下、右”的顺序将更改线段的权限移至下一个方向；(11)四个方向上的所有线段集合全部测试拟合完毕后，若均没找到合适的矩形则输出“矩形未找到”。该方法主要采用矩形框拟合的匹配方式，对于数据上线条复杂的情况或者客观题区域没有矩形边框的情形，则无法进行匹配。

再如专利申请号为“201710807657.2”、名称为“智能阅卷系统无定位点图像识别方法及系统”的中国发明专利，其包括：获取待处理的试卷样本；对试卷样本进行学习处理，得到学习结果，其中，学习结果包括：试卷样本的考号区域信息，客观题区域信息，主观题区域信息；获取待处理的目标试卷；基于学习结，自适应地采用多种处理算法中的至少一种算法对目标试卷进行识别，得到目标试卷的识别结果，其中，识别结果包括以下信息：目标试卷的考号区域信息，目标试卷的客观题区域信息，目标试卷的主观题区域信息，以缓解了现有技术中存在的无法自适应地采用多种定位方法实现对试卷图像的精确定位和识别的技术问题。该方法采用预先学习的方式，对于新的考试，需要提前对试卷进行学习，前期花费时间较多。

因此，急需要提供一种逻辑简单、计算工作量少、适应能力强的基于无定位点的试卷识别和矫正方法。

发明内容

针对上述问题，本发明的目的在于提供一种基于无定位点的试卷识别和矫正方法，本发明采用的技术方案如下：

基于无定位点的试卷识别和矫正方法，包括以下步骤：

第一阶段，从模板试卷中寻找用于定位的定位块：

选取一张空白试卷作为模板试卷；

将模板试卷的正面图像、背面图像分别划分为左上图像相位、右上图像相位、左下图像相位和右下图像相位；

对模板试卷的图像进行二值化和滤波处理，以滤除图像噪声和细小墨点；

在左上图像相位、右上图像相位、左下图像相位和右下图像相位中，从图像顶角向图像中心逐行进行横向滑窗；所述横向滑窗的大小为L×L px，且横向步长和纵向步长均为l px；所述L和l均为大于1的整数；

对横向滑窗内的区域进行边缘检测和轮廓提取，寻找到定位块的区域；

采用模板匹配函数的评分机制求得评分最低的图块，并作为相位的定位块；

第二阶段，在试卷样品中识别定位块，并利用定位块对试卷样品的图像进行矫正：

根据模板试卷中左上图像相位、右上图像相位、左下图像相位和右下图像相位对应的定位块的坐标，在试卷样品中查找到识别的区域；

对识别的区域进行放大至K px，以模板试卷的相位对应的定位块为模板图，采用模板匹配函数，求得最佳匹配坐标，以最佳匹配坐标为左上角顶点的l₁×l₁ px图块作为相位识别得到试卷样本的定位块；

重复并求得试卷样品的任一定位块，选取覆盖客观题和考号区域的数据最多的定位块，采用仿射矩阵和仿射变换函数对试卷样品进行仿射矫正；

利用仿射矫正后的图像进行客观题和考号识别。

优选地，所述L取值为300，且所述l取值为20。

进一步地，所述基于无定位点的试卷识别和矫正方法，还包括若模板试卷的背面无客观题和考号识别区域，则只获取模板试卷的正面图像。

进一步地，所述基于无定位点的试卷识别和矫正方法，还包括统计长度或/和宽度大于10px的轮廓，若目标轮廓数量大于4，则该横向滑窗符合图元信息，并将该横向滑窗作为定位块区域，并停止滑动搜索。

更进一步地，所述采用模板匹配函数的评分机制求得评分最低的图块，并作为相位的定位块，包括：

从定位块区域的最左上角开始，以80px×80px为图块，采用归一化相关匹配法，求得220×200的浮点矩阵；所述浮点矩阵中的点位对应的值即以该点位在图像中的像素点为左上角的80px×80px图块与模板试卷的匹配度；

采用横向步长和纵向步长均为10px的图块进行滑窗，求得评分最低的图块，并记录定位块在模板试卷中的坐标信息。

优选地，所述K取272×272。

与现有技术相比，本发明具有以下有益效果：

(1)本发明巧妙地采用空白试卷作为模板试卷，并自动识别获取定位块，其无需在试卷上设置定位块，也可以获得虚拟的定位块，其无需在试卷上印刷特定形状特定区域的定位点，算法自行寻找适合作为匹配参考的图像特征；

(2)本发明巧妙地采用二值化和滤波对模板试卷的图像进行处理，以滤除图像噪声和细小墨点；

(3)本发明通过对滑窗区域进行边缘检测和轮廓提取，以实现自动寻找定位块的区域，通过先行选择待寻找区域，可大幅减少计算量，将单一相位后续计算时间大量缩短。

(4)本发明在自动寻找定位块的区域选取最合适模板匹配的图块，其采用模板匹配函数和归一化相关匹配法，求得最高的匹配度，其好处在于，对于待匹配的图块的特征没有强限制。

(5)本发明采用评分机制，通过该机制能利用算法自行寻找出该区域中最利于后续试卷识别所需定位块，减少人工干预。

(6)本发明通过对试卷样品的识别区域进行放大，在利用模板匹配函数求得最为匹配的坐标，以求得试卷样本的定位块，该方式能提高算法容错率并减少计算量。

综上所述，本发明具有逻辑简单、识别准确、计算工作量少、适应能力强等优点，在图像识别技术领域具有很高的实用价值和推广价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需使用的附图作简单介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对保护范围的限定，对于本领域技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的逻辑流程图。

具体实施方式

为使本申请的目的、技术方案和优点更为清楚，下面结合附图和实施例对本发明作进一步说明，本发明的实施方式包括但不限于下列实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1所示，本实施例提供了一种基于无定位点的试卷识别和矫正方法，具体包括以下步骤：

第一阶段，从模板试卷中寻找用于定位的定位块：

(1)选取一张空白试卷作为模板试卷；

(2)将模板试卷的正面图像、背面图像分别划分为左上图像相位、右上图像相位、左下图像相位和右下图像相位；本实施例的定位块矫正方法主要为了保证试卷样本中客观题和考号区域图像和模板图像保持一致，以便后续识别，因此，如试卷背面在模板制作时未标记客观题识别和考号识别区域，则只针对正面进行定位块自动寻找。

(3)对模板试卷的图像进行二值化和滤波处理，以滤除图像噪声和细小墨点；

(4)由于传统的自动寻找定位块的算法相对耗时，所以需要提前对图片进行预处理，缩小搜索区域。因此，本实施例在左上图像相位、右上图像相位、左下图像相位和右下图像相位中，从图像顶角向图像中心逐行进行横向滑窗；所述横向滑窗的大小为300px×300px，且横向步长和纵向步长均为20px。

(5)采用边缘检测算法和findContours轮廓算法对横向滑窗内的区域进行边缘检测和轮廓提取，寻找到定位块的区域；统计所有长或者宽大于10px的轮廓，如目标轮廓数量大于4个，则认为该滑窗区域具有符合要求的图元信息，可以作为自动寻找定位块的区域。选取该300px×300px区域作为后续处理的区域，并停止滑窗搜索。

(6)采用模板匹配函数的评分机制求得评分最低的图块，并作为相位的定位块。

确定该300px×300px区域进行定位块自动选取。最终目标是在该区域中选取80px×80px大小的最具有特征的(最适合模板匹配的)图块作为该相位的定位块。我们认为和该区域其他图元差异最大的图块即为最具有特征的图块，所以我们采用一种评分机制来选取图块。

评分机制主要采用模板匹配函数来实现，从300px*300px的最左上角开始的80px×80px的图块作为模板图，采用归一化相关匹配法，运行结果为220*220的浮点矩阵，每个矩阵的点位对应的值为以该像素点为左上角的80px×80px图块和模板图的匹配度，该值越高则越接近模板图，模板图本身位置的匹配值为1。我们去除掉模板左上角坐标自身及周围8个像素的匹配度，从剩下的值中选取最高的匹配度作为该位置的评分。

通过滑窗重复上述步骤，但因为模板匹配耗时较长，如果逐像素滑窗则需要运行220*220次模板匹配，所以我们采用横纵步长为10px的方式进行滑窗。最后得到所有位置的评分，我们选取其中评分最低的图块作为我们最终的定位块，因为评分最低则表示该图块和该区域其他图块差异最大。

重复上述步骤直到找到4个相位的定位块，并记录定位块相对于模板图片的坐标信息并上传保存，供后续试卷样本识别。

(1)根据模板试卷中左上图像相位、右上图像相位、左下图像相位和右下图像相位对应的定位块的坐标，在试卷样品中查找到识别的区域；

(2)对识别的区域进行放大至(80+80*1.2*2)px*(80+80*1.2*2)px，以模板试卷的相位对应的定位块为模板图，采用模板匹配函数，求得最佳匹配坐标，以最佳匹配坐标为左上角顶点的80px×80px图块作为相位识别得到试卷样本的定位块；

(3)重复并求得试卷样品的任一定位块，选取其中3个覆盖客观题和考号区域最多的定位块，取试卷样本中三个定位块中心点坐标以及模板对应三个定位块的中心点坐标，总计6个坐标点，建立三元一次方程计算出3*2的仿射矩阵，以该矩阵为参数，采用仿射矩阵和仿射变换函数对试卷样品进行仿射矫正；

(4)利用仿射矫正后的图像进行客观题和考号识别。

上述实施例仅为本发明的优选实施例，并非对本发明保护范围的限制，但凡采用本发明的设计原理，以及在此基础上进行非创造性劳动而作出的变化，均应属于本发明的保护范围之内。

Claims

1.基于无定位点的试卷识别和矫正方法，其特征在于，包括以下步骤：

第一阶段，从模板试卷中寻找用于定位的定位块：

选取一张空白试卷作为模板试卷；

在左上图像相位、右上图像相位、左下图像相位和右下图像相位中，从图像顶角向图像中心逐行进行横向滑窗；所述横向滑窗的大小为L×L px，且横向步长和纵向步长均为lpx；所述L和l均为大于1的整数；

利用仿射矫正后的图像进行客观题和考号识别。

2.根据权利要求1所述的基于无定位点的试卷识别和矫正方法，其特征在于，所述L取值为300，且所述l取值为20。

3.根据权利要求1所述的基于无定位点的试卷识别和矫正方法，其特征在于，还包括若模板试卷的背面无客观题和考号识别区域，则只获取模板试卷的正面图像。

4.根据权利要求1所述的基于无定位点的试卷识别和矫正方法，其特征在于，还包括统计长度或/和宽度大于10px的轮廓，若目标轮廓数量大于4，则该横向滑窗符合图元信息，并将该横向滑窗作为定位块区域，并停止滑动搜索。

5.根据权利要求1～4任一项所述的基于无定位点的试卷识别和矫正方法，其特征在于，所述采用模板匹配函数的评分机制求得评分最低的图块，并作为相位的定位块，包括：

6.根据权利要求1所述的基于无定位点的试卷识别和矫正方法，其特征在于，所述K取272×272。