CN114283434B

CN114283434B - 一种基于机器视觉的答题卡识别方法

Info

Publication number: CN114283434B
Application number: CN202111363105.XA
Authority: CN
Inventors: 王子民; 冯梦婷; 戴进; 叶慧雯; 谭智文; 赵子涵; 张秀文; 杨玉东
Original assignee: Huaiyin Institute of Technology
Current assignee: NANJING LONGYUAN MICROELECTRONIC CO Ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2024-05-28
Anticipated expiration: 2041-11-17
Also published as: CN114283434A

Abstract

本发明公开了一种基于机器视觉的答题卡识别方法，包括以下步骤：答题卡的模板设计、答题卡图像的矫正与提取、答题卡信息区域与答案填涂区域的划分、对标准答案答题卡及待识别答题卡图像进行抠图、利用灰度投影对答题卡填涂区域部分的纵向同步头坐标定位、标准答案答题卡蒙版与待识别答案的叠加匹配、利用叠加匹配图像的RGBA颜色空间特点，对待识别答题卡进行识别；最终得到待识别答题卡的得分情况。本发明成本低廉，只需普通摄像头连接电脑，通过设计的软件进行识别和分数统计，准确性高，识别稳定。

Description

一种基于机器视觉的答题卡识别方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于机器视觉的答题卡识别方法。

背景技术

周万珍、郑广等提出基于数字图像的客观题阅卷系统，使用具有自动进纸器的扫描仪对答题卡图像批量扫描，人工定位答题卡填涂区域与信息区域，通过手动设置答题卡选项起始点，利用选项等间距特性，设定阈值，实现答题卡识别。郝平提出的基于图像处理耦合模版定位的答题卡识别系统，使用扫描仪对图像进行采集，基于人机交互方式划定信息区域与客观题区域。罗朝阳等，提出基于hough变换的答题卡识别系统，使用相机与扫描仪对答题卡图像进行采集，利用答题卡的填涂区域上下两条直线，利用hough直线检测，实现对答案填涂部分的区域划分。

现有的答题卡识别技术，使用高拍仪或扫描仪对答题卡图像进行采集，无法降低答题卡识别成本，且使用其他高拍仪外设的可植入性差；使用人机交互方式分割答题卡区域，失去答题卡自动识别效果；使用手工定位待识别答案区域、横纵向同步头定位、模板匹配等方法，实现答题卡的识别。本发明提出了一种利用RGBA颜色空间特性，使用叠加匹配及同步头定位方式的机器视觉识别方法，创新了答题卡的识别方式。

发明内容

发明目的：针对现有技术中存在的问题，本发明提出了一种基于机器视觉的答题卡识别系统，具有识别准确性高，稳定性强等特点。

技术方案：本发明提供了一种基于机器视觉的答题卡识别方法，包括如下步骤：

(1)设计答题卡模板；用黑色矩形框选填涂区域部分，在答案填涂区域增加横纵向同步定位头，在信息填写区域增加横纵向同步定位头；

(2)使用图像采集设备，采集标准答案答题卡图像与待识别答题卡图像；

(3)对采集到的答题卡图像进行矫正与提取；

(4)使用轮廓检测与最大矩形框识别方法对步骤(3)获取的答题卡图像进行区域划分，划分为答题卡答案填涂部分、信息部分与同步头部分；

(5)将标准答案答题卡图像制作为蒙版，对待识别答题卡图像进行RGBA抠图；

(6)使用剪切的纵向同步定位头，经灰度投影、归一化、Savitzky-Golay滤波等操作，通过处理后的灰度投影曲线最低点所在横坐标，求得纵向同步头中心位置，得到答题卡填涂区域选项的每一行对应的纵坐标位置信息；

(7)将(5)中两个图像匹配叠加，利用RGBA颜色空间特性对叠加后的图像识别。

进一步地，步骤(2)所述图像采集设备包括底座、普通摄像头、稳定支架、拍摄平面和数据传输接口；所述稳定支架固定在底座上，普通摄像头固定在稳定支架上，距离拍摄平面一定高度，且与拍摄平面保持水平。

进一步地，所述步骤(3)实现过程如下：

使用边缘检测、二值化、形态学填充方法，消除答题卡图像内部细节和纹理；利用minAreaRect函数的第三个参数得到矩形框应旋转的角度，对答题卡图像进行矫正；继续消除矫正后的答题卡图像的内部细节与纹理，进而使用轮廓检测方法得到处理后的答题卡图像的角点信息，利用角点对答题卡图像进行分割，实现对答题卡图像的提取。

进一步地，所述步骤(4)实现过程如下：

利用findContours与contourArea函数，寻找答题卡图像的最大矩形框，即答题卡答案填涂区域的黑色线框，得到黑色线框的角点坐标，完成对答题卡填涂区域的剪切；利用黑色线框上方的两个角点对答题卡的信息区域进行分割，利用线框的右侧两个角点，实现对答题卡填涂区域与信息区域的纵向同步头的分割。

进一步地，所述步骤(5)实现过程如下：

制作标准答案答题卡蒙版：将标准答案填涂部分设置为透明(255,255,255,0)，其余部分设置为黑色(0,0,0,255)；具体操作为对区域划分后的标准答案答题卡的答案填涂部分进行灰度转化、高斯滤波、二值化、黑白反转操作；将反转后的图像转化为RGBA颜色空间，进而对该图像抠图；

待识别答案抠图制作：将待识别答案答题卡的填涂部分设置为黑色(0,0,0,255)，其余部分设置为透明(0,0,0,0)；具体操作为对区域划分后的待识别答案答题卡的答案填涂部分进行灰度转化、高斯滤波、二值化、多次形态学腐蚀膨胀操作；将处理完成的图像转化为RGBA颜色空间，进而对该图像进行抠图。

进一步地，所述步骤(6)实现过程如下：

纵向同步头灰度转化后，将图像长边视为x轴，短边视为y轴，将同步头灰度值投影在长边x轴方向，按照灰度值长边从左到右依次遍历，累加每个所处x_i位置的一列灰度值并保存在数组a_x中；对于x_i位置的累加灰度值投影为：

其中，w为纵向同步头图像短边的长度,I(i,j)为纵向同步头灰度图中第i行第j列元素的灰度值；对数组a_x进行归一化，使得灰度值的范围在-1～1之间,得到灰度中值m：

对于累加灰度值小于等于灰度中值m的灰度值：

对于累加灰度值大于灰度中值m的灰度值：

进一步地，所述步骤(7)实现过程如下：

叠加匹配，将步骤(5)中待识别答案抠图调整为步骤(5)中标准答题卡蒙版图像的大小后，对答题卡蒙版图像与待识别答题卡图像采用叠加方法；如果叠加后的图像在答案空缺处完全填充，则答案空缺处的像素值全部为(255,255,255,255)；如果叠加后的图像在答案空缺处，未完全填充，则答案空缺处的已填涂像素值为(255,255,255,255)，未填涂的像素值为(255,255,255,0)；如果叠加后的图像在答案空缺处，完全没有被填充，即为答题卡中答案填错部分，则待填涂区域处的像素全部为(255,255,255,0)；

设定front key与back key前后两个指针，在特定纵坐标位置上，逐个遍历该行像素中RGBA中的R通道像素值；

如果前一个像素R值小于后一个像素的R值，则将front key设定在后面像素的位置，即识别到标准答案答题卡蒙版的一个待填涂区域起始位置；

继续遍历，如果后一个像素的R值小于前一个像素的R值，则将back key设定在前面的像素处，即识别到标准答案答题卡蒙版的该待填涂区域结束位置，且该行的待填涂位置数量加1，该待填涂所处位置的空缺像素个数，按照如下公式进行计算：

mask_{a_num}＝back_key-front_key+1

通过front_key与back_key之间像素的alpha值个数与预设好的阈值，判断该位置处是否被填涂；如果两指针间，即对某一待填涂位置而言，alpha通道中未填充的像素个数与待填涂空缺像素个数的比值超过预设的阈值，则说明该位置处没有被填涂，即填错；

逐行遍历叠加后的图像，根据未填涂个数与待填涂个数，计算考生最终得分情况。

有益效果：与现有技术相比，本发明的有益效果：本发明设计了利于机器视觉识别的答题卡模板，采用普通摄像头进行图像采集，自动化地进行答题卡提取、分割、区域划分；本发明创新了答题卡识别方式，利用RGBA颜色空间，对写入标准答案答题卡图像与待识别答题卡图像进行抠图，制作并叠加匹配蒙版与待识别图像，利用同步头定位的位置信息及RGBA颜色特性，实现对答题卡的识别；实验结果表明，本发明提出的基于机器视觉的答题卡识别系统设计，具有识别准确性高，稳定性强等特点。

附图说明

图1为本发明的流程图；

图2为本发明设计的答题卡模板；

图3为图像采集设备；

图4为矫正与提取算法流程图；

图5为答题卡的区域划分图，其中，(a)为分割的答题卡填涂区域；(b)为分割的考生信息填涂区域；(c)为分割的同步头；

图6为抠图结果，其中，(a)为标准答案答题卡蒙版抠图结果；(b)为待识别答案答题卡抠图结果；

图7为原始灰度投影曲线与滤波后的灰度投影曲线图；其中，(a)为原始灰度投影曲线图；(b)为滤波后的灰度投影曲线图；

图8为标准答题卡蒙版与待识别答案匹配叠加后的图像；

图9为叠加匹配填充示意图，其中，(a)为完全填充的匹配叠加示意图；(b)为未完全填充的匹配叠加示意图；(c)填错的匹配叠加示意图；

图10为未完全填充下匹配后的RGBA像素值示意图；

图11为答题卡识别结果图，其中，(a)为答题卡填涂识别情况图像；(b)为分数显示图像。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提出一种基于机器视觉的答题卡识别方法，如图1所示，具体包括以下步骤：

步骤1：设计答题卡模板：在普通答题卡基础上，用黑色矩形框选填涂区域部分，在答案填涂区域增加横纵向同步定位头，在信息填写区域增加横纵向同步定位头，如附图2所示。

步骤2：使用图像采集设备，采集标准答案答题卡图像与待识别答题卡图像。

涉及图像采集设备如图3所示，包括底座1、稳定支架2、普通摄像头3、拍摄平面4和数据传输接口。稳定支架固定在底座1上，普通摄像头3固定在稳定支架2上，距离拍摄平面4一定高度，一般在300mm左右，本实施方式中高度为312mm，且与拍摄平面保持水平，将待识别答题卡放置在拍摄平面4上；数据传输接口连接PC端，使用PC端的识别算法对拍摄的答题卡图片进行识别。使用Python标准TkGUI工具包(Tkinter模块)设计答题卡图像采集界面，参照金翔高拍仪的分辨率参数，设置摄像头分辨率(3264*2448)。分别对标准答案答题卡与待识别答题卡进行图像采集并保存在指定文件夹中。

步骤3：对步骤2中图像使用图像处理相关算法进行矫正与提取。

采集到的答题卡图像存在偏转且有黑色背景。要实现对答题卡的精确识别，需要对答题卡图像进行矫正与提取等前期处理工作。由于摄像机与答题卡拍摄平面保持水平，答题卡的矫正不存在透视变换，通过旋转即可对答题卡图像进行矫正。对矫正后的图像，利用边缘检测、二值化、形态学填充等图像处理方法，消除答题卡图像内部细节与纹理，利用minAreaRect函数的第二个参数得到矩形框应旋转的角度，对答题卡图像进行矫正；使用轮廓检测方法得到答题卡矩形图像的四个角点，利用角点对答题卡图像进行分割，进而可以实现对答题卡图像的提取，算法流程如附图4所示。

本发明使用sobel算子求解x.y两个方向梯度,即水平方向梯度与垂直方向梯度。x方向算子为Gx，y方向算子为Gy，使用x方向算子计算图像卷积：

G_x＝(-1)×f(x-1,y-1)+0×f(x,y-1)+1×f(x+1,y-1)+(-2)×f(x-1,y)+0×f(x,y)+2×f(x+1,y)+(-1)×f(x-1,y+1)+0×f(x,y+1)+1×f(x+1,y+1)

使用y方向算子计算图像卷积：

G_x＝1×f(x-1,y-1)+2×f(x,y-1)+1×f(x+1,y-1)+0×f(x-1,y)+0×f(x,y)+0×f(x+1,y)+(-1)×f(x-1,y+1)+(-2)×f(x,y+1)+(-1)×f(x+1,y+1)

其中，f(a,b)，表示图像(a,b)的灰度值。

经过计算Gx与Gy将结果代入到G中，如果梯度G大于某一阈值，则对应的(x,y)为边缘点，得到边缘检测后的结果。

形态学操作包括腐蚀与膨胀：

轮廓检测指忽略图像内部纹理、细节、噪声，实现对目标图像轮廓的提取。要实现对轮廓提取，需要将图像转化为黑白图并消除图像内部细节与纹理，而后使用opencv自带函数findContours进行轮廓检测。findContours函数在图像多次形态学填充答题卡内部后使用，寻找答题卡边缘点集合。使用minAreaRect函数在所有答题卡边缘点集合中寻找最小外接矩形的点集合。minAreaRect函数输出的参数为((矩形中心点坐标),(宽度，高度)，旋转角度)，第三个参数即为答题卡应要旋转的角度。minAreaRect函数的旋转角度为水平x轴逆时针旋转，直到与矩形图像第一条边重合，直线旋转的角度即为答题卡应旋转的角度。

步骤4：使用轮廓检测与最大矩形框识别方法对步骤(3)获取的答题卡图像进行区域划分，划分为答题卡答案填涂部分、信息部分与同步头部分。

对答题卡图像进行区域划分，分割答题卡答案填涂部分、信息部分与同步头部分。利用findContours与contourArea函数，寻找答题卡图像的最大矩形框(即答题卡答案填涂区域的黑色线框)，得到黑色线框的角点坐标，完成对答题卡填涂区域的剪切。利用黑色线框上方的两个角点对答题卡的信息区域进行分割，利用线框的右侧两个角点，实现对答题卡填涂区域与信息区域的纵向同步头的分割。

答案填涂部分的区域分割：将提取的答题卡图像二值化，经中值滤波和canny边缘检测，使用findContours寻找轮廓点集合。在已有的轮廓集合中，使用contourArea得到使轮廓面积最大的点集合，将最大面积点集合以答题卡填涂区域的矩形中心位置为界，划分为四个区域。计算每个区域中的最大轮廓点与矩形中心位置的距离，每个区域中距离最远的点，即为最大矩形框的角点。利用四个角点，剪切答题卡答案填涂部分图像。

答题卡信息区域的分割：已知答案填涂区域的四个角点坐标，根据答题卡宽度及填涂区域最上方两个点的纵坐标，实现对答题卡信息区域的分割。

答案填涂区域的纵向同步头分割：根据答案填涂区域四个角点坐标，可知纵向同步头的高度及起始横坐标，即可对答题卡图像的纵向同步头进行剪裁。

如图5所示，其中图5(a)为分割的答题卡填涂区域；图5(b)为分割的考生信息填涂区域；图5(c)为分割的同步头。

步骤5：将标准答案答题卡图像制作为蒙版，对待识别答题卡图像进行RGBA抠图。

RGBA抠图是利用RGBA颜色空间将已填涂的标准答题卡图像与待识别答题卡图像进行抠图。RGBA颜色空间是在RGB模型中附加了alpha透明通道。图片中的一个像素是由四个颜色信息组成，分别为红色(R)、绿色(G)、蓝色(B)以及透明通道(A)，取值在0-255之间。分别对区域划分后剪切下来的标准答案答题卡图像与待识别答案的答题卡图像进行抠图，制作标准答案答题卡蒙版图像与待识别答案图像。

制作标准答案答题卡蒙版：将标准答案填涂部分设置为透明(255,255,255,0)，其余部分设置为黑色(0,0,0,255)。对区域划分后的标准答案答题卡的答案填涂部分进行灰度转化、高斯滤波、二值化、黑白反转操作。将反转后的图像转化为RGBA颜色空间，进而对该图像抠图。

待识别答案抠图制作：将待识别答案答题卡的填涂部分设置为黑色(0,0,0,255)，其余部分设置为透明(0,0,0,0)。具体操作为对区域划分后的待识别答案答题卡的答案填涂部分进行灰度转化、高斯滤波、二值化、多次形态学腐蚀膨胀操作；将处理完成的图像转化为RGBA颜色空间，进而对该图像进行抠图。如图6所示，其中，图6(a)为标准答案答题卡蒙版抠图结果；图6(b)为待识别答案答题卡抠图结果；

步骤6：使用剪切的纵向同步定位头，经灰度投影、归一化、Savitzky-Golay滤波等操作，通过处理后的灰度投影曲线最低点所在横坐标，求得纵向同步头中心纵坐标，得到答题卡填涂区域选项的每一行对应的纵坐标位置信息。

纵向同步头灰度转化后，将图像长边视为x轴，短边视为y轴。将同步头灰度值投影在长边x轴方向，按照灰度值长边从左到右依次遍历，累加每个所处x_i位置的一列灰度值并保存在数组a_x中。对于x_i位置的灰度值投影如以下公式计算得到，其中w为纵向同步头图像短边的长度,I(i,j)为纵向同步头灰度图中第i行第j列元素的累加灰度值。

由于黑色同步头位置与其他区域灰度值相差过大，使用上述公式累加灰度值，不方便计算与图像显示，因此需要对数组a_x进行归一化，使得灰度值的范围在-1～1之间,如下公式中得到灰度中值。

对于累加灰度值小于等于灰度中值m的灰度值，使用以下公式。

对于累加灰度值大于灰度中值m的灰度值，使用以下公式。

绘制纵向同步头灰度值曲线图像，得到如图7(a)所示。由于波谷位置最低点位置不明确，无法确定纵向同步定位头中心点坐标，因此考虑对同步定位头曲线使用滤波操作。使用savgol_filter对曲线进行多次滤波,滤波后的图像如图7(b)所示。

经观察，纵向同步头灰度投影曲线的波谷位置，位于纵向同步头纵坐标中心位置。即取得纵向同步头波谷位置横坐标，就能得到答题卡填涂区域选项纵坐标中心位置信息，将位置信息保存于csv文件中。

步骤7：将步骤5中两个图像匹配叠加，利用RGBA颜色空间特性对叠加后的图像识别。

(1)图像匹配叠加。

将待识别答案resize为标准答案答题卡图像的大小后，使用add方法叠加答题卡蒙版图像与待识别答题卡图像，叠加后的图像如图8所示。

如果叠加后的dst图像在答案空缺处完全填充，如图9(a)所示，则答案空缺处的像素值全部为(255,255,255,255)。

如果叠加后的dst图像在答案空缺处，因填涂规范、前期工作、图像匹配等原因，未完全填充，如图9(b)所示，则答案空缺处的已填涂像素值为(255,255,255,255)，未填涂的像素值为(255,255,255,0)。蒙版、待识别答案图像与叠加后图像的像素值示意图，如图10所示。

如果叠加后的dst图像在答案空缺处，完全没有被填充，即为答题卡中答案填错部分,如图9(c)所示，则待填涂区域处的像素全部为(255,255,255,0)。

(2)指针识别算法。

按照从纵向同步头中提取到的纵坐标位置信息，逐行对答题卡填涂情况进行识别。综合上述答题卡三种填涂情况，利用叠加后dst图像的RGB像素值，判断是否为答题卡填涂位置的像素；利用alpha透明通道是否为255，判断填涂空缺位置像素是否被填涂。根据填涂位置处首尾指针间的未填涂像素个数与应填涂像素个数的比值，与预设阈值比较，判断该填涂位置区域是否未被填涂。根据整张答题卡的未填涂答案个数与应填涂答案个数，计算该待识别答题卡的得分情况。由于答题卡每行待填涂答案个数未知，每个待填涂选项的像素个数未知，设计如下算法。

设定front key与back key前后两个指针，在特定纵坐标位置上，逐个遍历该行像素中RGBA中的R通道像素值。

如果前一个像素R值(此时的R值为0)小于后一个像素的R值(此时的R值为255)，则将front key设定在后面像素的位置，即识别到标准答案答题卡蒙版的一个待填涂区域起始位置。

继续遍历，如果后一个像素的R值小于前一个像素的R值，则将back key设定在前面的像素处，即识别到标准答案答题卡蒙版的该待填涂区域结束位置，且该行的待填涂位置数量加1，该待填涂所处位置的空缺像素个数，按照如下公式进行计算。

mask_{a_num}＝back_key-front_key+1

通过front_key与back_key之间像素的alpha值与预设好的阈值，判断该位置处是否被填涂。如果两指针间alpha通道中0的数量与待填涂的个数的比值超过预设的阈值，则说明该位置处没有被填涂，即填错。

按照上述流程，逐行遍历叠加后的图像，根据未填涂个数与待填涂个数，计算考生填涂的正确率；得到待识别答题卡的填涂情况，如图11(a)所示；识别得到的最终分数运行结果，如图11(b)所示。

本发明不用扫描仪自动获取答题卡图像，仅仅使用普通摄像头对答题卡图像进行采集，并且利用图像处理的算法，完成答题卡图像的提取；在区域划分部分，设计模板时，特别考虑了答题卡答案填涂部分的区域划分，使用黑色的框将答案填涂部分框选，利用轮廓检测与最大矩形框识别方法，自动的实现区域划分；使用抠图技术，制作标准答案答题卡蒙版与待识别答题卡抠图图像，配合纵向同步头与指针识别算法共同完成答题卡的识别。

Claims

1.一种基于机器视觉的答题卡识别方法，其特征在于，包括如下步骤：

(3)对采集到的答题卡图像进行矫正与提取；

(6)使用剪切的纵向同步定位头，经灰度投影、归一化、Savitzky-Golay滤波操作，通过处理后的灰度投影曲线最低点所在横坐标，求得纵向同步头中心位置，得到答题卡填涂区域选项的每一行对应的纵坐标位置信息；

2.根据权利要求1所述的基于机器视觉的答题卡识别方法，其特征在于，步骤(2)所述图像采集设备包括底座、普通摄像头、稳定支架、拍摄平面和数据传输接口；所述稳定支架固定在底座上，普通摄像头固定在稳定支架上，距离拍摄平面一定高度，且与拍摄平面保持水平。

3.根据权利要求1所述的基于机器视觉的答题卡识别方法，其特征在于，所述步骤(3)实现过程如下：

4.根据权利要求1所述的基于机器视觉的答题卡识别方法，其特征在于，所述步骤(4)实现过程如下：

5.根据权利要求1所述的基于机器视觉的答题卡识别方法，其特征在于，所述步骤(5)实现过程如下：

6.根据权利要求1所述的基于机器视觉的答题卡识别方法，其特征在于，所述步骤(6)实现过程如下：

对于累加灰度值小于等于灰度中值m的灰度值：

对于累加灰度值大于灰度中值m的灰度值：

7.根据权利要求1所述的基于机器视觉的答题卡识别方法，其特征在于，所述步骤(7)实现过程如下：

mask_{a_num}＝back_key-front_key+1