CN110705442A

CN110705442A - 一种试卷答案自动获取方法、终端设备及存储介质

Info

Publication number: CN110705442A
Application number: CN201910924059.2A
Authority: CN
Inventors: 郑佳春; 曹长玉; 黄一琦
Original assignee: Jimei University
Current assignee: Jimei University
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-17
Anticipated expiration: 2039-09-27
Also published as: CN110705442B

Abstract

本发明涉及一种试卷答案自动获取方法、终端设备及存储介质，该方法中包括：S1：采集待批阅试卷对应的空白试卷图像，并将其转换为灰度图和二值化图；S2：根据空白试卷图像和二值化图，生成不同符号对应的模板集，其中每个符号的模板集中含多种大小或样式规格的符号；S3：通过模板匹配方法，对试卷图像进行模板匹配，识别其中对应的符号坐标；S4：删除重复符号对应的符号坐标，得到试卷图像对应的符号坐标；S5：根据试卷图像的符号坐标获得其答案坐标；S6：根据答案坐标从待批阅试卷中获得答案。本发明无需人工判断机制且能够自动生成符号的多个模板，采用模板匹配技术对多种符号混合情况下的准确率高，且具有一定的通用性。

Description

一种试卷答案自动获取方法、终端设备及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种试卷答案自动获取方法、终端设备及存储介质。

背景技术

随着科技的进步，各大行业出现许多自动机器，替代人工作业，大大解放了人力。传统基于人工的试卷批改方式，花费教师大量的时间与精力，为节约教师时间使他们能够更好的投入到其他教学任务中，使用机器自动批阅试卷成为一个值得研究的课题。常见的考试试卷的答案是填写在特殊符号内的，机器自动批阅时，首先定位特殊符号截取符号内的答案，再将答案送给识别模块进行对错判断；可见，如何对特殊符号进行精准定位是成功自动阅卷极其重要的关键技术。

基于深度学习的字符检测，虽然能够取得较高的精确度，但该类方法计算量大且硬件要求高。由于特殊符号数据集收集困难，且数据标注费时费力，训练难以得到较好网络模型。

通过OCR技术对符号进行识别，在多种符号无混合下(即试卷中仅有一种符号)，通过引入人工判断机制，其识别定位平均准确率达96.6％。但在实际应用中，符号往往出现多种混合的情况，在该情况下仅仅使用OCR进行识别，往往存在准确率低、人工无法判断、难以调试等问题。

发明内容

为了解决上述问题，本发明提出了一种试卷答案自动获取方法、终端设备及存储介质。

具体方案如下：

一种试卷答案自动获取方法，包括以下步骤：

S1：采集待批阅试卷对应的空白试卷图像，并将其转换为灰度图和二值化图；

S2：根据空白试卷图像和二值化图，生成不同符号对应的模板集，其中每个符号的模板集中含多种大小或样式规格的符号；

S3：通过不同模板图像在灰度图上进行滑动，计算滑动过程中模板覆盖区域与模板的相似程度，若相似程度大于阈值，则判定该模板覆盖区域为对应的符号区域，根据对应的模板图像得到对应的符号坐标；

S4：删除重复符号对应的符号坐标，得到试卷图像对应的符号坐标；

S5：根据试卷图像的符号坐标获得其答案坐标；

S6：根据答案坐标从待批阅试卷中获得答案。

进一步的，当符号为单独符号时，其模板集的生成过程包括以下步骤：

S211：对空白试卷图像进行平滑处理，消除空白区域的干扰图像；

S212：通过OCR处理识别空白试卷图像中该符号的坐标，并生成所有该符号的模板，组成该符号的基础模板集；

S213：根据符号的坐标，将基础模板集中的各模板映射至二值化图中；

S214：判断各模板的右侧区域是否为空白区域，当为空白区域时，利用模板坐标从空白试卷图像的对应坐标位置处截取对应的子图像作为该符号的模板；否则，将模板右下角坐标向右移动特定距离后，重复该步骤中模板的右侧区域是否为空白区域的判断，直到右侧区域为空白区域为止；

S215：从步骤S214生成的各模板中选择其中的多个具有不同大小或样式规格的模板组成该符号的模板集。

进一步的，步骤S214中模板的右侧区域是否为空白区域通过下列公式进行判断：

其中，x2,y3分别表示符号右下角水平方向及垂直方向坐标，y1表示左上角垂直方向坐标，a为大于0的常数，G(x,y)表示像素坐标(x,y)处的二值化值，result表示模板的右侧区域中所有像素坐标的二值化值的和。

进一步的，当符号为成组符号时，其模板集的生成过程包括以下步骤：

S221：对空白试卷图像进行平滑处理，消除空白区域的干扰图像；

S222：通过OCR处理识别空白试卷图像中该成组符号中左符号和右符号的坐标，并生成所有左符号和右符号的模板；

S223：根据符号的坐标，将左符号和右符号的模板映射至二值化图中，判断左符号和右符号的模板的数量是否相等，如果相等，进入S224，否则，进入S225；

S224：将所有左符号和右符号配对为各符号对，针对每个符号对，使用右符号的坐标减去左符号的坐标，得到该符号对的真实宽度，将左符号或右符号的坐标对应的宽度调整为该真实宽度，将调整后的坐标作为该符号对的坐标，进入S226；

S225：将左符号和右符号的模板之间相交的两个符号组成符号对，针对每个符号对，使用右符号的坐标减去左符号的坐标，得到该符号对的近似宽度，将左符号或右符号的坐标对应的宽度调整为该近似宽度，将调整后的坐标作为该符号对的坐标；针对没有组成符号对的左符号或右符号，通过所有符号对的近似宽度的平均值来调整该左符号或右符号的坐标，将调整后的坐标作为该左符号或右符号对应的符号对的坐标；

S226：根据所有符号对的坐标得到符号对的模板；

S227：从各符号对的模板中选择其中的多个具有不同大小或样式规格的模板组成该符号对的模板集。

一种试卷答案自动获取终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，无需人工判断机制且能够自动生成符号的多个模板，采用模板匹配技术对多种符号混合情况下的准确率高，且具有一定的通用性。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为该实施例中的空白试卷图像示意图。

图3所示为该实施例中空白试卷图像对应的二值化图。

图4所示为该实施例中模板右侧的空白区域判断示意图。

图5所示为该实施例中成功配对的括号对的模板构建示意图。

图6所示为该实施例中左括号与右括号相交时的示意图。

图7所示为该实施例中只有左括号时的示意图。

图8所示为该实施例中只有右括号时的示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种试卷答案自动获取方法，如图1所示，其为本发明实施例所述的试卷答案自动获取方法的流程图，所述方法包括以下步骤：

步骤1：采集待批阅试卷对应的空白试卷图像，并将其转换为灰度图和二值化图。

该实施例中首先将空白试卷图像转化为灰度图，再通过下式对灰度图进行二值化处理得到二值化图，如图3所示，此时的二值化图中，背景为黑色(黑色像素值为0)，字体为白色(白色像素值为255)。

其中，f(x,y)表示灰度图像在像素点坐标(x,y)处的像素值。

步骤2：根据空白试卷图像和二值化图，生成不同括号对应的模板集，其中每个符号的模板集中包含多种大小或样式规格的符号。

该实施例中，采用的空白试卷图像如图2所示，其中的符号包括单独符号，如圆圈(○)、方块(□)，也包括成组符号，如括号(())，针对单独符号和成组符号采用不同的模板集生成方式，具体为：

(一)针对单独符号，以方块为例，其模板集的生成过程为：

S211：对空白试卷图像进行平滑处理，消除空白区域的干扰图像，如空白区域中的黑点。

S212：通过OCR处理识别空白试卷图像中的该符号的坐标，并生成所有该符号的模板，组成该符号的基础模板集。

在OCR处理中，每个符号的识别区域为一长方形的方框，识别的坐标为方框的左上角坐标和右下角坐标，则该符号的宽度为右下角与左上角坐标的差值。利用该符号的各个坐标通过Oepncv函数可以生成改符号的对应各坐标的各模板，将所有模板组成基础模板集。

需要说明的是，在该步骤中，由于OCR识别的准确性不足的原因，识别到的各符号模板中往往存在许多不符合要求的模板，因此还需要对基础模板集进行进一步的优化，以保证每种符号的模板集能够最大化地涵盖该符号的不同类型。

S213：根据符号的坐标，将基础模板集中的各模板映射至二值化图中。

S214：判断各模板的右侧区域是否为空白区域，当为空白区域时，利用模板坐标从空白试卷图像的对应坐标位置处截取对应的子图像作为该符号的模板；否则，将模板右下角坐标向右移动特定距离后，重复该步骤中模板的右侧区域是否为空白区域的判断，直到右侧区域为空白区域为止。

需要说明的是，所述模板的右侧区域为模板形成的长方形的方框的右下角坐标的右侧区域。

该实施例中通过下式来判断各模板的右侧区域是否为空白区域

其中，x2,y3分别表示符号右下角水平方向及垂直方向坐标，y1表示左上角垂直方向坐标。a为大于0的常数，其表示右侧区域的宽度，本领域技术人员可以根据实际需求设定，该实施例中设定a＝2。result表示右侧区域中各像素点的二值化值的和，当result＝0，则模板的右侧区域中均未黑色像素，即右侧区域为空白区域，若result≠0，则模板的右侧区域中包含白色像素，则说明模板的右侧区域不属于符号的边界，即模板的右侧区域为非空白区域。当模板的右侧区域不属于符号的边界时，需要将边界向右移一定距离再进行判断，当该距离为b时，则令公式(2)中的x2＝x2+b后，再进行result值的判断。该实施例中设定b＝1，即模板右下角坐标每次向右移动1个像素点。

如图4所示为该步骤中，模板宽度逐渐改变最终使得模板的右侧区域为空白区域的示意图。

S215：从步骤S214生成的所有模板中选择宽度不同的多个模板组成该符号的模板集。

由于该实施例中的方块只包含一种样式，因此根据宽度大小即可选择不同的方块的规格，如其他实施例中的符号包括多种样式，则生成的模板集需包含不同样式的符号，不仅仅是根据宽度能够筛选出来。

(二)针对成组符号，以括号对为例，其模板集的生成过程为：

S221：对空白试卷图像进行平滑处理，消除空白区域的干扰图像。

S222：通过OCR处理识别空白试卷图像中该成组符号中左括号和右括号的坐标，并生成所有左括号和右括号的模板。

S223：根据符号的坐标，将左括号和右括号的模板映射至二值化图中，判断左括号和右括号的模板的数量是否相等，如果相等，进入S224，否则，进入S225。

S224：当左括号和右括号的数量相等时，说明左括号和右括号可以一对一匹配，因此，根据左括号和右括号的坐标，将其按照从上到下、从左到右的顺序排列，从而找出所有的括号对。将每个括号对中的右括号的坐标减去左括号的坐标得到该括号对的真实宽度，将左括号或右括号的坐标对应的宽度调整为该真实宽度，将调整后的坐标作为该括号对的坐标，进入S226。

需要说明的是，对左括号的调整为调整其右下角坐标，使其向右移动，以使调整后的右下角坐标与左下角坐标之间在横坐标方向上的间隔为待调整的宽度。同理，对右括号的调整为将其左上角坐标向左移。

如图5所示，其为一个成功配对的括号对的模板构建示意图，其中左括号的模板中的方框与右括号模板中的方框两者并不相交，且均不能涵盖整个括号对，因此使用右括号的坐标减去左括号的坐标，得到括号对的真实宽度W后，将左括号右边框线向右移动，使得左括号的宽度等于真实宽度W，此时，右括号为多余的存在，将其删除，并调整左括号模板中方框的位置，使其位于左括号与右括号坐标的中心，得到最终的括号对模板。

S225：通过非极大值抑制(Non-Maximum Suppression，NMS)算法判断左括号模板和右括号模板对应的方框是否相交，非极大值抑制算法的计算公式为：

其中，A和B分别表示两个模型的面积，AB表示两个模型相交的面积。NMS值的取值范围为[0,1]，该实施例中设定NMS值大于0.2时则判定相交。

如果相交，则说明左括号和右括号属于同一括号对，因此，将相交的两个符号组成括号对。

针对每个括号对，使用右括号的坐标减去左括号的坐标，得到该括号对的近似宽度，将左括号或右括号的坐标对应的宽度调整为该近似宽度，将调整后的坐标作为该括号对的坐标。

针对没有组成括号对的左括号或右括号，通过所有具有相交的括号对的近似宽度的平均值来调整该左括号或右括号的坐标，将调整后的坐标作为该左括号或右括号对应的括号对的坐标。如没有相交的括号对，则本领域技术人员根据经验数据对该宽度进行赋值。

如图6、7和8所示为左括号和右括号数量不想等时的三种情况。

如6所示为左括号的模板中的方框与右括号模板中的方框相交时的情况，此时说明该左括号和右括号属于同一括号对，因此，使用右括号的坐标减去左括号的坐标，得到括号对的近似宽度，使用该近似宽度调整左括号的坐标，此时右括号为多余的存在，将其删除，并调整左括号模板中方框的位置，使其位于左括号与右括号坐标的中心，得到最终的括号对模板。

图7和图8所示分别为括号对中只存在左括号或右括号，通过上述针对相交括号之间计算出来的近似宽度的平均值去调整左括号或右括号的宽度。

S226：根据所有括号对的坐标得到括号对的模板。

S227：从各括号对的模板中选择其中的多个具有不同大小或样式规格的模板组成该括号对的模板集。

步骤3：通过模板匹配方法，使用步骤2生成的不同符号的各模板在灰度图上进行滑动，计算滑动过程中模板覆盖区域与模板的相似程度，若相似程度大于阈值，则认为模板覆盖区域与模板相匹配，即判定该模板覆盖区域为对应的符号区域，根据对应的模板图像得到对应的符号坐标。

该实施例中，所述相似程度采用在灰度图下的归一化相关系数P(x,y)进行计算：

其中，T(x',y')表示模板图像在坐标(x',y')处的像素值，I(x',y')表示待匹配图像在坐标(x',y')处的像素值，(x,y)表示在待匹配图像的待匹配位置坐标。值越大，匹配程度越高。该实例中设定阈值为0.8。

步骤4：删除重复的符号坐标，得到试卷图像对应的符号坐标。

步骤5：根据试卷图像的符号坐标获得其答案坐标。

该实施例中，方块、圆圈和括号对的答案坐标均为符号坐标的中心位置。

该实施例中在待批阅试卷图像对应的二值化图中，在符号坐标的中心位置处向上、下、左、右四个方向进行扫描，直至四个方向全部扫描到黑色像素点，记录此时的位置，即可得到答案在待批阅试卷图像中左上角及右下角坐标，即构成了答案坐标。

步骤6：根据答案坐标从待批阅试卷中获得答案。

本发明实施例一采用多模板匹配方法，无需人工判断机制，且能够自动生成符号的多个模板，采用模板匹配技术对符号混合情况下的定位检测率高达100％，对于定位截取试卷答案识别具有重要意义，且具有一定的通用性。

实施例二：

本发明还提供一种试卷答案自动获取终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述试卷答案自动获取终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述试卷答案自动获取终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述试卷答案自动获取终端设备的组成结构仅仅是试卷答案自动获取终端设备的示例，并不构成对试卷答案自动获取终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述试卷答案自动获取终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述试卷答案自动获取终端设备的控制中心，利用各种接口和线路连接整个试卷答案自动获取终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述试卷答案自动获取终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述试卷答案自动获取终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种试卷答案自动获取方法，其特征在于，包括以下步骤：

S5：根据试卷图像的符号坐标获得其答案坐标；

S6：根据答案坐标从待批阅试卷中获得答案。

2.根据权利要求1所述的试卷答案自动获取方法，其特征在于：当符号为单独符号时，其模板集的生成过程包括以下步骤：

3.根据权利要求2所述的试卷答案自动获取方法，其特征在于：步骤S214中模板的右侧区域是否为空白区域通过下列公式进行判断：

4.根据权利要求1所述的试卷答案自动获取方法，其特征在于：当符号为成组符号时，其模板集的生成过程包括以下步骤：

S226：根据所有符号对的坐标得到符号对的模板；

5.根据权利要求1所述的试卷答案自动获取方法，其特征在于：步骤S3中所述相似程度采用归一化相关系数进行计算。

6.一种试卷答案自动获取终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～5中任一所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～5中任一所述方法的步骤。