CN116168398B

CN116168398B - 基于图像识别的试卷审批方法、装置和设备

Info

Publication number: CN116168398B
Application number: CN202310014816.9A
Authority: CN
Inventors: 柴明一; 朱裕德
Original assignee: Beijing Layout Future Education Technology Co ltd
Current assignee: Beijing Layout Future Technology Development Co ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-08-08
Anticipated expiration: 2043-01-06
Also published as: CN116168398A

Abstract

本申请的实施例提供了基于图像识别的试卷审批方法、装置、设备和计算机可读存储设备。所述方法包括获取试卷的图像；将所述试卷的图像，输入至分割模型，得到所述试卷中各题块的图像；分别对所述试卷中各题块的图像进行矫正，得到各题块的修正图像；将所述各题块的修正图像分别输入至识别模型，确定各题块所属类别；所述类别包括主观题和客观题；根据各题块的类别分别进行批改，将所有的批改成绩进行汇总，生成最终的批改成绩。以此方式，降低了人力成本，同时大幅提高了试卷审批准确率。

Description

基于图像识别的试卷审批方法、装置和设备

技术领域

本申请的实施例涉及试卷审批领域，尤其涉及基于图像识别的试卷审批方法、装置、设备和计算机可读存储设备。

背景技术

随着计算机技术和教育信息化的不断推进，计算机技术已经逐步应用于日常的教育教学各项活动中，例如在教学评测场景下得到了相应的应用。国内现有的基础教育、学生学习状况的主要考察形式仍是各种类型的考试或测试，在此状况下，教师背负着很大的批改作业和试卷的工作压力。针对这种现象，在大中型或重要性高的考试或测试中已经逐渐推广和采用了各类自动阅卷系统，这类系统能够一定程度上减轻教师阅卷的工作量。

目前的阅卷方式都需要对整张扫描试卷图片进行全局矫正，然后提取局部题块，再进行阅卷分析，过程中需要消耗大量时间和计算资源，而且矫正精度容易受扫描过程中供给的图片质量因素所影响，难以实现对各试卷版式、扫描质量的图片进行误差控制。另外，如试卷图片中存在非刚体变换，全局矫正往往不能兼顾所有题块矫正所需的微小形变。

发明内容

根据本申请的实施例，提供了一种基于图像识别的试卷审批方案。

在本申请的第一方面，提供了一种基于图像识别的试卷审批方法。该方法包括：

获取试卷的图像；

将所述试卷的图像，输入至分割模型，得到所述试卷中各题块的图像；

分别对所述试卷中各题块的图像进行矫正，得到各题块的修正图像；

将所述各题块的修正图像分别输入至识别模型，确定各题块所属类别；所述类别包括主观题和客观题；

根据各题块的类别分别进行批改，将所有的批改成绩进行汇总，生成最终的批改成绩。

进一步地，所述分割模型，通过如下方式进行训练：

生成第一训练样本集合，其中，第一训练样本包括带有标注信息的试卷图像；所述标注信息包括所述试卷中的题块区域；

利用所述第一训练样本集合中的样本对分割模型进行训练，以所述带有标注信息的试卷图像作为输入，以所述试卷中的题块区域作为输出，当输出的题块区域与标注的题块区域的统一率满足预设阈值时，完成对分割模型的训练。

进一步地，所述分别对所述试卷中各题块的图像进行矫正，得到各题块的修正图像包括：

对所述试卷中各题块的图像进行图像增强，得到第一图像集合；

对所述第一图像集合中的图像，进行高斯模糊处理，得到第二图像集合；

提取所述第二图像集合中各题块的边缘，得到各题块的形变矩阵；

基于所述各题块的形变矩阵，得到各题块的修正图像。

进一步地，所述将所述各题块的修正图像分别输入至识别模型，确定各题块所属类别包括：

提取各题块的修正图像中的文本信息；

使用词向量模型Skip-Gram来表达单词，将每个单词映射到高维空间中，生成词向量，对所述词向量进行非线性变换，生成与所述文本信息对应的高维句子特征向量，并对所述高维句子特征向量进行重要性加权处理，得到与题块对应的文本特征；

将各题块的修正图像中的文本特征，输入至所述识别模型，确定各题块所属类别。

进一步地，所述识别模型，通过如下方式进行训练：

生成第二训练样本集，所述第二训练样本集包括预设数量的已答复的潦草试卷和已进行答复的整洁试卷；

以所述训练样本集中的已答复的潦草试卷作为输入，已进行答复的标准试卷作为输出，对模型A进行训练，

以所述训练样本集中的已进行答复的整洁作为输入，已进行答复的标准试卷作为输出，对模型B进行训练，

根据模型A和模型B的损失函数的差异度对模型A的参数进行调整，直到模型A和模型B的损失函数的差异值小于预设阈值，将模型A和模型B作为最终的识别模型。

进一步地，所述获取试卷的图像之后，还包括：

判断所述试卷是否存在异常，所述异常包括学生信息不完整和所述试卷存在破损，若所述试卷存在异常，则由人工对所述试卷进行批改。

进一步地，还包括：

对所述试卷中的试题进行筛查，判断是否存在漏批改的试题，并当不存在漏批改的试题时，将生成最终的批改成绩上传至服务器。

在本申请的第二方面，提供了一种基于图像识别的试卷审批装置。该装置包括：

获取模块，用于获取试卷的图像；

分割模块，用于将所述试卷的图像，输入至分割模型，得到所述试卷中各题块的图像；

矫正模块，用于分别对所述试卷中各题块的图像进行矫正，得到各题块的修正图像；

识别模块，用于将所述各题块的修正图像分别输入至识别模型，确定各题块所属类别；所述类别包括主观题和客观题；

审批模块，用于根据各题块的类别分别进行批改，将所有的批改成绩进行汇总，生成最终的批改成绩。

在本申请的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本申请的第四方面，提供了一种计算机可读存储设备，其上存储有计算机程序，所述程序被处理器执行时实现如根据本申请的第一方面的方法。

本申请实施例提供的基于图像识别的试卷审批方法，通过获取试卷的图像；将所述试卷的图像，输入至分割模型，得到所述试卷中各题块的图像；分别对所述试卷中各题块的图像进行矫正，得到各题块的修正图像；将所述各题块的修正图像分别输入至识别模型，确定各题块所属类别；所述类别包括主观题和客观题；根据各题块的类别分别进行批改，将所有的批改成绩进行汇总，生成最终的批改成绩，降低了人力成本，同时大幅提高了试卷审批准确率。

应当理解，发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本申请的实施例提供的方法所涉及的系统架构图。

图2示出了根据本申请的实施例的基于图像识别的试卷审批方法的流程图；

图3示出了根据本申请的实施例的基于图像识别的试卷审批装置的方框图；

图4示出了适于用来实现本申请实施例的终端设备或服务器的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1示出了可以应用本申请的基于图像识别的试卷审批方法或基于图像识别的试卷审批装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如模型训练类应用、视频识别类应用、网页浏览器应用、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块（例如用来提供分布式服务的多个软件或软件模块），也可以实现成单个软件或软件模块。在此不做具体限定。

当终端101、102、103为硬件时，其上还可以安装有视频采集设备。视频采集设备可以是各种能实现采集视频功能的设备，如摄像头、传感器等等。用户可以利用终端101、102、103上的视频采集设备来采集视频。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的数据处理的后台服务器。后台服务器可以对接收到的数据进行分析等处理，并可以将处理结果（例如识别结果）反馈给终端设备。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块（例如用来提供分布式服务的多个软件或软件模块），也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。特别地，在目标数据不需要从远程获取的情况下，上述系统架构可以不包括网络，而只包括终端设备或服务器。

如图2所示，是本申请实施例基于图像识别的试卷审批方法的流程图。从图2中可以看出，本实施例的基于图像识别的试卷审批方法，包括以下步骤：

S210，获取试卷的图像。

在本实施例中，用于基于图像识别的试卷审批方法的执行主体（例如图1所示的服务器）可以通过有线方式或者无线连接的方式获取试卷的图像。

进一步地，上述执行主体可以获取与之通信连接的电子设备（例如图1所示的终端设备）发送（扫描）的试卷的图像，也可以是预先存储于本地的试卷的图像。

S220，将所述试卷的图像，输入至分割模型，得到所述试卷中各题块的图像。

在一些实施例中，所述分割模型，通过如下方式进行训练：

进一步地，将所述所述试卷的图像，输入至分割模型，得到所述试卷中各题块的图像，即，得到各题块所属区域的图像。

S230，分别对所述试卷中各题块的图像进行矫正，以得到各题块的修正图像。

在一些实施例中，通过如下方法对所述试卷中各题块的图像进行矫正：

a、对图片进行增强（突出边界信息），得到第一图像集合，其函数式定义为：

其中，x、y分别表示图像各像素的横纵坐标；写成空间模板形式即相当于对图像各点（x，y）处用下面的核进行卷积操作：

在200ppi的试卷扫描图片中，我们用更一般的拉普拉斯模板，取，此时模板为

得到描述灰度突变的图像后，将其与原始图片进行叠加操作，以突出边界信息。

b、对所述第一图像集合中的图像，进行高斯模糊处理，得到第二图像集合；卷积核半径设为5px，以避免提取出过多无用的边界信息，增加后期边缘判断、提取的成本；

c、通过sobel算子对边缘进行提取，半径为3px时其卷积因子为：

其中用于检测纵向边缘，/>用于检测横向边缘；

d、通过线条的对提取出来的边缘进行判断是否为真实边缘，即可设定所述答题位置区域的图像的每个像素点上梯度强度的极大值的阈值上界和阈值下界，将梯度强度的极大值大于所述阈值上界的像素点确认为边界，将梯度强度的极大值大于所述阈值下界小于所述阈值上界的像素点确认为弱边界，将梯度强度的极大值小于所述阈值下界的像素点确认为非边界，并去掉非边界元素；

e、提取所述第二图像集合中各题块的边缘，得到各题块的形变矩阵：

对得到的边缘直线用二进制描述子进行描述，囊括其长度、方向、位置等信息。为加快速度，先给图像建立10层的尺度空间金字塔，并用EDLine算法进行逐层检索，确保在每层都找到一组线，经过条带描述方法进行描述各直线后，将其存在向量中，然后与预制模板中的直线进行匹配，并得到形变矩阵；

f、通过e中得到的形变矩阵矫正各个题块，得到各题块的修正图像。

S240，将所述各题块的修正图像分别输入至识别模型，确定各题块所属类别；所述类别包括主观题和客观题。

在一些实施例中，提取各题块的修正图像中的文本信息。所述文本信息可以包括大写字母或简写。因此，在获取到所述当前文本信息后，还可以进一步地对所述当前文本信息进行预处理，具体包括：将简写转为全写，和/或将大写字母转为小写字母，并将预处理后的单词映射为数值。

在一些实施例中，当对所述当前文本信息数值化后，可以将数值化后的文本输入至文本编码组件中，该文本编码组件负责对文本进行编码处理，目的是将预处理后的文本映射为高维特征空间中的句子特征。具体地，可以使用词向量模型Skip-Gram来表达单词，为了反映不同单词之间的所属关系，将每个单词映射到高维空间中，通过计算向量间的距离来表达单词间的关系。最后，对句子中的所有单词的词向量进行非线性变换，从而得到能够表达该文本的高维句子特征向量。在得到表达所述当前文本信息的高维句子特征向量后，将所述高维句子特征向量经过注意力机制，对其中描述比较重要的部分进行加权，即对句子特征向量进行重要性加权处理。例如，可以采用现有的基于自然语言处理（NLP）的注意力机制对句子组分赋予权重，得到加权后的文本特征向量Tt。基于NLP的注意力机制根据上述生成的高维句子特征向量以及已经产生的内容来决定输出，过程可采用双向递归网络，最后每个解码器输出的词向量取决于所有输入状态的权重组合。

在一些实施例中，将各题块的修正图像中的文本特征，输入至所述识别模型，确定各题块所属类别。

其中，所述识别模型，可通过如下方式进行训练：

S250，根据各题块的类别分别进行批改，将所有的批改成绩进行汇总，生成最终的批改成绩。

在一些实施例中，获取试题的答案图像信息。对于客观题，则与标准答案进行比对，生成批改结果；对于主观题，则可以先对答案图像信息进行切分，然后利用图像识别技术对切分后的答案图像进行识别，最后利用预先训练的神经网络模型对识别结果进行批改。在批改过程中，对于每一道需要批改的当前试题，判断该试题是否存在异常，例如当前试题的答案区域的图像信息不能被识别，对于纸质试卷，还可以是答案区域涂改严重或者破损，或者字迹潦草等。若当前试题不存在异常，则对当前试题进行批改，将所有的批改成绩进行汇总，生成最终的批改成绩；

若当前试题存在异常，则跳过当前试题，继续对后续试题进行批改，并将存在异常的试题进行汇总，生成异常池；所述异常池由存在异常的试题及其对应的学生答案构成，在生成异常池后，改为由人工对所述异常池中的试题进行批改。

进一步地，对所述试卷中的试题进行筛查，判断是否存在漏批改的试题，并当不存在漏批改的试题时，将生成最终的批改成绩上传至服务器，完成试卷的审批。

根据本公开的实施例，实现了以下技术效果：

通过本公开的方法，大幅度提高了试卷批改中图像识别、分割的精度，减少了人工评阅工作量。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请所述方案进行进一步说明。

图3示出了根据本申请的实施例的基于图像识别的试卷审批装置300的方框图如图3所示，装置300包括：

获取模块310，用于获取试卷的图像；

分割模块320，用于将所述试卷的图像，输入至分割模型，得到所述试卷中各题块的图像；

矫正模块330，用于分别对所述试卷中各题块的图像进行矫正，得到各题块的修正图像；

识别模块340，用于将所述各题块的修正图像分别输入至识别模型，确定各题块所属类别；所述类别包括主观题和客观题；

审批模块350，用于根据各题块的类别分别进行批改，将所有的批改成绩进行汇总，生成最终的批改成绩。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

如图4所示，终端设备或服务器400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有系统400操作所需的各种程序和数据。CPU 401、ROM402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本申请的实施例，上文方法流程步骤可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序，当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于图像识别的试卷审批方法，其特征在于，包括：

获取试卷的图像；

根据各题块的类别分别进行批改，将所有的批改成绩进行汇总，生成最终的批改成绩；

所述分别对所述试卷中各题块的图像进行矫正，得到各题块的修正图像包括：

基于所述各题块的形变矩阵，得到各题块的修正图像；

所述将所述各题块的修正图像分别输入至识别模型，确定各题块所属类别包括：

提取各题块的修正图像中的文本信息；

2.根据权利要求1所述的方法，其特征在于，所述分割模型，通过如下方式进行训练：

3.根据权利要求1所述的方法，其特征在于，所述识别模型，通过如下方式进行训练：

4.根据权利要求3所述的方法，其特征在于，所述获取试卷的图像之后，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.一种基于图像识别的试卷审批装置，其特征在于，包括：

获取模块，用于获取试卷的图像；

审批模块，用于根据各题块的类别分别进行批改，将所有的批改成绩进行汇总，生成最终的批改成绩；

所述矫正模块，具体用于对所述试卷中各题块的图像进行图像增强，得到第一图像集合；对所述第一图像集合中的图像，进行高斯模糊处理，得到第二图像集合；提取所述第二图像集合中各题块的边缘，得到各题块的形变矩阵；基于所述各题块的形变矩阵，得到各题块的修正图像；

所述识别模块，具体用于提取各题块的修正图像中的文本信息；使用词向量模型Skip-Gram来表达单词，将每个单词映射到高维空间中，生成词向量，对所述词向量进行非线性变换，生成与所述文本信息对应的高维句子特征向量，并对所述高维句子特征向量进行重要性加权处理，得到与题块对应的文本特征；将各题块的修正图像中的文本特征，输入至所述识别模型，确定各题块所属类别。

7.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1~5中任一项所述的方法。

8.一种计算机可读存储设备，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1~5中任一项所述的方法。