CN113469147B

CN113469147B - 答题卡识别方法、装置、电子设备以及存储介质

Info

Publication number: CN113469147B
Application number: CN202111023388.3A
Authority: CN
Inventors: 康辉; 何小坤
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-17
Anticipated expiration: 2041-09-02
Also published as: CN113469147A

Abstract

本公开实施例提供了一种答题卡识别方法、装置、电子设备及可读存储介质。该方法包括：获取待识别图像，所述待识别图像为包含答题卡的图像；对所述待识别图像进行识别，获得所述答题卡对应的选项识别结果。本公开实施例提供的答题卡识别方法，能够对包含答题卡的待识别图像进行识别，以获得该答题卡对应的选项识别结果。

Description

答题卡识别方法、装置、电子设备以及存储介质

技术领域

本公开涉及图像处理领域，具体涉及一种答题卡识别方法、装置、电子设备及存储介质。

背景技术

随着科技的进步和社会的快速发展，对学生的考试答案以及作业进行批改工作也开始迈向人工智能化。但采用人工智能化的方式对学生的考试答案以及作业进行批改时，往往需要学生使用标准化的答题卡进行答题。

然而，在课后习题作业、非标准化考试等场景下，使用的答题卡往往是无限制答题卡。由于无限制答题卡的非标准化，在自动识别时会面临很多问题。因此，对于无限制答题卡而言，大多数还需要人工进行批改。

发明内容

本公开提供了提供一种答题卡识别方法、装置、电子设备及可读存储介质，以实现对答题卡的自动批改。

根据本公开的一方面，提供了一种答题卡识别方法，该方法可以包括：

获取待识别图像，所述待识别图像为包含答题卡的图像；

对所述待识别图像进行识别，获得所述答题卡对应的选项识别结果。

根据本公开的第二方面，提供了一种答题卡识别装置，该装置可以包括：

待识别图像获取模块，用于获取待识别图像，所述待识别图像为包含答题卡的图像；

选项识别结果获取模块，用于对所述待识别图像进行识别，获得所述答题卡对应的选项识别结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的技术，能够对包含无限制答题卡的待识别图像进行识别，以获得该无限制答题卡对应的选项识别结果。从而实现了对答题卡的自动识别，进而能够提高答题卡的批改速度，并且能够降低人工批改答题卡所导致的答题卡批改成本较高的问题。

应当理解，本部分所描述的内容并非旨在标识本公开实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为根据本公开实施例的一种答题卡识别方法的流程图；

图2为根据本公开实施例的一种无限制答题卡和标准化的答题卡的对比示意图；

图3为根据本公开实施例的一种待识别图像获取方法的流程图；

图4为根据本公开实施例的一种初始答题卡图像和待识别图像的示意图；

图5为根据本公开实施例的一种选项识别结果获得方法的流程图；

图6为根据本公开实施例的一种选项确定方法的流程图；

图7为根据本公开实施例的一种模型识别过程流程的示意图；

图8为根据本公开实施例的一种模型输出结果的示意图；

图9为根据本公开实施例的一种答题卡识别装置的示意图；

图10为根据本公开实施例的一种电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供一种答题卡识别方法，具体请参照图1，图1为根据本公开实施例的一种答题卡识别方法的流程图。该方法可以包括以下步骤：

步骤S101：获取待识别图像，待识别图像为包含答题卡的图像。

步骤S102：对待识别图像进行识别，获得答题卡对应的选项识别结果。

根据本公开实施例的答题卡识别方法，执行主体一般为客户端所谓客户端为安装在电子设备上的目标应用、程序或者软件。目标应用、程序或者软件为具有答题卡识别功能的应用、程序或者软件。电子设备包括但不限于手机、电脑以及平板电脑。

根据本公开实施例的答题卡识别方法，执行主体还可以为上述客户端提供数据处理、存储等服务的服务端。服务端的具体实现方式一般为服务器或者服务器集群。

根据本公开实施例的答题卡识别方法，能够对包含答题卡的待识别图像进行识别，以获得该答题卡对应的选项识别结果。从而实现了对答题卡的自动识别，进而能够提高答题卡的批改速度，并且能够降低人工批改答题卡所导致的答题卡批改成本较高的问题。

本公开实施例中，答题卡一般为非标准化的答题卡，也称为无限制答题卡。

无限制答题卡为对题目个数、题目布局以及题目类型不做限制的答题卡，无限制答题卡在纸张设置上没有任何行列标记符、题目类型颜色分区标记、行列分割线等特殊标记说明。

另外，还需要说明的是，对于无限制答题卡而言，一般为了方便都是将填涂标记统一成圆形或者长方形填涂标记。但本公开实施例中对填涂标记并不做具体限定。

与无限制答题卡相对的，是在正规的考试等中使用答题卡，该答题卡一般被称为标准化的答题卡。标准化的答题卡一般会有明显的行列标记符、题目类型颜色分区标记、行列分割线等特殊标记说明。当然，本公开实施例中的答题卡也可以为标准化的答题卡。

由于无限制答题卡在答题卡自动识别过程中存在的问题较多，因此，也是本公开的实施例提供的答题卡识别方法主要针对的对象，在以下步骤中主要以答题卡为无限制答题卡为例，对本公开的实施例提供的答题卡识别方法进行详细的说明，对于标准化的答题卡，本公开的实施例提供的答题卡识别方法同样适用。

具体请参照图2，图2为根据本公开实施例的一种无限制答题卡和标准化的答题卡的对比示意图。图2中的左侧为标准化的答题卡，右侧为无限制答题卡。

题目类型包括但不限于判断题以及多类选项的选择题。其中，常见的多类选项的选择题包括四选项的选择题（填涂A、B、C、D）以及六选项的选择题（填涂A、B、C、D、E、F）。题目布局是指将属于同一题下的不同题目的答题区域进行统一的布局。

本公开实施例中，可以获取初始答题卡图像作为待识别图像，初始答题卡图像一般为用户通过图像采集设备针对无限制答题卡采集并上传的图像。

另外，本公开实施例中，也可以将对该初始答题卡图像进行裁剪后的图像作为获取待识别图像。具体实现过程请参照图3，图3为根据本公开实施例的一种待识别图像获取方法的流程图。

步骤S301：获得初始答题卡图像。

步骤S302：确定初始答题卡图像对应的答题卡主区域。

步骤S303：基于答题卡主区域对初始答题卡图像进行剪裁，获得待识别图像。

由于用户的拍摄水平，拍摄光线角度，或者图像采集设备的设备因素，都有可能造成用户采集并上传的初始答题卡图像存在清晰度或者图像角度较差的问题，如果将始答题卡图像作为待识别图像往往会导致识别效果较差，成功率也可能较低。

而先确定初始答题卡图像对应的答题卡主区域，再基于答题卡主区域对初始答题卡图像进行剪裁，来获得待识别图像，能够提高待识别图像的角度等，提高了图像质量，进而提升了识别效果，以及识别成功率。

本公开实施例中，对图像裁剪的具体实现方式可以包括：将初始答题卡图像输入到预先训练的答题卡检测模型中，获得答题卡主区域；利用顶点坐标对初始答题卡图像进行透视变换，获得待识别图像。

图4为根据本公开实施例的一种初始答题卡图像和待识别图像的示意图。如图4所示，对初始答题卡图像401进行透视变换（例如，旋转）后，可以得到待识别图像402。在其他的实施例中，透视变换还包括缩放和剪裁等。其中，剪裁包括但不限于将初始答题卡图像401中的背景剪裁掉，只留下与答题卡相关的部分。

预先训练的答题卡检测模型为使用样本答题卡图像以及对应标注的答题卡主区域、选项区域以及填涂区域训练的模型，能够用于对在获得答题卡图像，输出该答题卡图像对应的答题卡主区域、选项区域以及填涂区域，还可以同时输出答题卡主区域、选项区域以及填涂区域对应的坐标。

也就是说，本公开实施例中的预先训练的答题卡检测模型可以同时执行三个子任务：答题卡主区域及其对应坐标、选项区域及其对应坐标以及填涂区域及其对应坐标的获得，输出三种结果：答题卡主区域及其对应坐标、选项区域及其对应坐标以及填涂区域及其对应坐标。

预先训练的答题卡检测模型可以同时输出三种结果，但对于在不同的过程，可以有选择的使用其中一种或多种结果。例如，在图像裁剪过程中仅需要用到答题卡主区域及其对应坐标，此时可以忽略选项区域及其对应坐标以及填涂区域及其对应坐标；而确定不同题目各自对应的选项的过程中需要用到选项区域及其对应坐标以及填涂区域及其对应坐标，此时可以忽略答题卡主区域及其对应坐标。

预先训练的答题卡检测模型同时执行三个子任务能够提高模型的检测效率，进而能够提高答题卡识别的效率。

另外，本公开实施例中在预先训练答题卡检测模型时，可以先确定该答题卡检测模型所适用检测的图像的尺寸X；在答题卡检测模型训练阶段，先使用尺寸为2X的样本答题卡图像以及对应标注的答题卡主区域、选项区域以及填涂区域进行模型训练，在训练的答题卡检测模型初步稳定时，再采用使用尺寸为X的样本答题卡图像以及对应标注的答题卡主区域、选项区域以及填涂区域进行模型进一步的微调训练，从而获得预先训练的答题卡检测模型。这样，能够在确保模型检测准确度的同时，提高模型的训练速度。

将初始答题卡图像输入到预先训练的答题卡检测模型中，获得答题卡主区域之后，可以获得该初始答题卡图像对应的答题卡主区域、选项区域以及填涂区域，还可以同时输出答题卡主区域、选项区域以及填涂区域对应的坐标。

但是在图像裁剪过程中，仅使用了答题卡主区域以及答题卡主区域对应的坐标。

在获得答题卡主区域以及答题卡主区域对应的坐标后，获得答题卡主区域的四个顶点坐标，并将四个顶点坐标带入到用的变换公式中，来得到变换后的图像的坐标，并根据变换后的图像对应的坐标，来获得待识别图像。通用的变换公式如下：

；

其中，u，v是初始答题卡图像对应的坐标， x，y是变换后的图像对应的坐标，

，变换矩阵

可以拆成4部分，

表示线性变换。

由于能够检索到答题卡主区域的四个顶点时，可以反映出初始答题卡图像的图像质量相对较好，但是为了更好的确定不同题目各自对应的选项，去除图像的噪声、提高模型的检测速度，可以进一步对初始答题卡图像进行裁剪，以去掉初始答题卡图像中多余的背景，只留下无拍照背景的图像作为待检测图像。

本公开实施例中，获得无限制答题卡对应的选项识别结果的步骤如图5所示，图5为根据本公开实施例的一种选项识别结果获得方法的流程图。

步骤S501：对待识别图像进行识别，获得答题卡中不同题目各自对应的选项区域，以及答题卡中的填涂区域。

步骤S502：基于不同题目各自对应的选项区域的区域长度，确定不同题目各自对应的题目类型。

步骤S503：利用不同题目各自对应的选项区域以及填涂区域，确定不同题目各自对应的选项。

步骤S504：根据不同题目各自对应的选项以及题目类型，确定选项识别结果。

先确定不同题目各自对应的选项区域以及题目类型，再在得知不同题目各自对应的选项以及题目类型的基础上，来确定不同题目各自对应的选项，并确定识别结果，能够提高选项识别结果的准确度。

对于无限制答题卡而言，对于无限制答题卡对题目个数、题目布局以及题目类型不做限制，在得知不同题目各自对应的选项以及题目类型的基础上，来确定不同题目各自对应的选项，以及识别结果，成为提高选项识别结果的准确度的优选方式。

以下具体以答题卡为无限制答题卡为例，对本公开实施例提供的答题卡识别方法进行说明。

本公开实施例中，对待识别图像进行识别，获得无限制答题卡中不同题目各自对应的选项区域，以及无限制答题卡中的填涂区域的识别方式可以为：将待识别图像输入到预先训练的答题卡检测模型中，获得不同题目各自对应的选项区域以及填涂区域。

由于预先训练的答题卡检测模型为使用样本答题卡图像以及对应标注的答题卡主区域、选项区域以及填涂区域训练的模型，基于深度学习训练的模型，能够确保对答题卡主区域、选项区域以及填涂区域的识别准确性，进而能够确保项识别结果的准确度。

另外，除了采用预先训练的答题卡检测模型，来识别获得答题卡主区域、选项区域以及填涂区域外，还可以先对无限制答题卡进行行列标记符、题目类型等的划分，即，对无限制答题卡进行标准化处理。之后，再采用对标准化的答题卡识别的方式进行识别，来获得答题卡主区域、选项区域以及填涂区域。

除上述两种方式外，本公开实施例中对获得答题卡主区域、选项区域以及填涂区域的方式不做具体限定。

本公开实施例中，确定无限制答题卡中不同题目各自对应的题目类型的方式为：基于不同题目各自对应的选项区域的区域长度，在区域长度与题目类型的对应关系表中查找不同题目各自对应的题目类型。

具体的，区域长度与题目类型的对应关系表中包括但不限于：区域长度在第一长度范围内，题目类型为第一种题目类型-判断题（填涂T、F）；区域长度大于等于第一长度小于等于第二长度范围，题目类型为第二种题目类型-四选项的选择题（填涂A、B、C、D）；以及区域长度大于第二长度，题目类型为第三种题目类型-六选项的选择题（填涂A、B、C、D、E、F）。

本公开实施例中，确定不同题目各自对应的选项的步骤如图6所示，图6为根据本公开实施例的一种选项确定方法的流程图。

步骤S601：在填涂区域中，确定每个题目对应的目标填涂区域。

示例性地，目标填涂区域可以为区域重叠面积超出指定面积阈值的填涂区域，区域重叠面积可以为题目的填涂区域与该题目对应的选项区域之间的重叠面积。

步骤S602：根据每个题目对应的目标填涂区域，确定每个题目对应的选项。

在确定每个题目对应的选项后，也就可以，基于每个题目对应的选项，确定不同题目各自对应的选项。

对于一个题目而言，其上相相邻的两个题目对应的填涂区域也有可能与该题目对应的选项区域发生重叠。也就是说，一个题目对应的选项区域可能与其他题目对应的填涂区域发生重叠，区域重叠面积超出指定面积阈值的填涂区域作为每个题目对应的目标填涂区域，能够确保不同题目各自对应的选项的准确度。

另外，对于不同题目而言，有可能题目的选项是多选题，也有的题目为单选题。对于多选体而言，每个题目对应的填涂区域至少为一个，此时，由答题者在填涂选项时，填涂的区域面积可能不同，也会导致同一题目对应的多个填涂区域的填涂面积不同。为了能够准确的识别出同一题目对应的多个填涂区域，将区域重叠面积超出指定面积阈值的填涂区域作为每个题目对应的目标填涂区域。

指定面积阈值可以有先验值来确定，也可以根据答题卡的填涂框面积预先设定，可取为答题卡的填涂框面积的80%作为指定面积阈值。

对于单选题而言，区域重叠面积超出指定面积阈值的填涂区域即为：区域重叠面积超出指定面积阈值，且区域重叠面积最大的填涂区域。

另外，除上述用于确定不同题目各自对应的选项的方式外，还可以采用如下方式来确定不同题目各自对应的选项：统计不同题目各自对应的黑色像素点个数占比，来确定不同题目对应的填涂区域，进而确定不同题目各自对应的选项。

但这种方式耗时较长速度较慢，并且受到答题卡图像的质量的影响较大，从而会导致选项确定的准确度不高。其中，影响答题卡图像的质量的因素有：拍摄答题卡图像时拍摄光线、拍照背景、答题卡是否有褶皱等。

本公开实施例提供的答题卡识别方法一般应用于电子设备，如移动智能手机，平板电脑等。在将本公开实施例提供的答题卡识别方法应用于电子设备时，需要确保预先训练的答题卡检测模型在确保精准高效的情况下，同时减少模型所占用的运行内存等开销。

现有的高效的检测模型中，多头输出检测模型成为一个主流，比如YOLOV5结构的多头输出检测模型。但是，大部分多头输出检测模型都比较大，模型大小一般在300-500M之间，无法在手机、平板电脑上进行部署。

为了减少模型所占用的内存以及运行内存等开销，需要对使用通道剪裁方式，裁剪出专门适合在手机上部署的轻量级网络，来进行图像的特征提取。但由于仅采用轻量级网络进行特征提取，往往会导致特征丢失，为了弥补这一缺陷，可以进一步采用特征金字塔网络（FPN，Feature Pyramid Networks）来配合轻量级网络进行特征提取，并获得待识别图像对应的特征图。

FPN的引入虽然增加了参数量，但相对于多头输出检测模型中采用普通卷积使用卷积+骨干网络进行特征提取时所需处理的参数量，采用特征金字塔网络来配合轻量级网络进行特征提取时所需处理的参数量还是大为减少。同时由于FPN的引入增加了特征表达能力，因此，采用特征金字塔网络来配合轻量级网络进行特征提取能够在保障特征提取准确性的基础上，减少特征提取时所需处理的参数量。从而减少了预先训练答题卡检测模型所占用的内存。

需要说明的是，轻量级网络的一般实现方式为：GhoestNet网络。

由于对答题卡图像的检测属于密集型小目标检测，对于密集型小目标检测，往往会存在检测目标重叠的问题。现有技术中，往往会采用在检测模型中引入Soft-IoU（Intersection-over-Union，交并比）layer，增加候选框生成的IoU的层、输出Soft-IOU得分，同时合入用于转化检测结果与Soft-IoU得分输入混合高斯模型的融合单元。此时，检测模型的检测步骤如下：

把网络输出待检测图像的区域候选框转换为适合的高斯分布模型；区域候选框的中心坐标是高斯分布的中心，协方差矩阵为：{每个框的高度/4，0，0，(每个框的宽度/4)}，每一张待检测图像经过模型输出的所有区域候选框可以表示为一个混合高斯分布。

通过处理就会获得很多个重叠的高斯分布模型，在密集型小目标检测检测场景中，区域候选框也会存在重叠的可能。因此，解决检测目标重叠的问题就等价于如何用比较少的高斯分布混合模型去尽可能表示区域候选框，具体的过程如下:

首先，使用期望最大化算法（EM，Expectation-Maximum）求解N个高斯分布；然后，N个收敛后的高斯分布模型转换为区域候选框的坐标。

但使用EM算法计算N个合适的高斯分布的过程属于无监督算法，在中央处理器（Central Processing Unit，CPU）上执行，整个过程比较耗时。因此，本公开实施例采取如下方式来获得答题卡主区域、选项区域以及填涂区域。

具体的，待识别图像输入到预先训练的答题卡检测模型中，获得答题卡主区域、选项区域以及填涂区域的具体实现方式请参见图7，图7为根据本公开实施例的一种模型识别过程流程的示意图。

预先训练的答题卡检测模型获得待识别图像对应的不同颜色的单通道图像。预先训练的答题卡检测模型在获得待识别图像后，会将待识别图像拆分为不同颜色的单通道图像，如：常见的红(R)、绿(G)、蓝(B)三个颜色通道。

预先训练的答题卡检测模型利用轻量级网络以及特征金字塔网络，对不同颜色的单通道图像进行图像特征提取，获得每个颜色的单通道图像对应的第一特征图。具体的，利用轻量级网络以及特征金字塔网络，对不同颜色的单通道图像进行图像特征提取，获得从小到大分别8倍，16倍，32倍下采样的特征图，作为第一特征图；

再次，预先训练的答题卡检测模型根据第一特征图，获得待识别图像对应的第二特征图。具体的，预先训练的答题卡检测模型对小到大分别8倍，16倍，32倍的特征图进行上采样、通道融合、共空间模式算法（CSP，Common Spatial Patterns）以及特征卷积等处理，获得待识别图像对应的特征图，作为第二特征图。

最后，预先训练的答题卡检测模型针对待识别图像对应的第二特征图。具体的，基于待识别图像对应的特征图，确定答题卡主区域、选项区域以及填涂区域对应的候选框，再通过非极大值抑制（NMS，Non-Maximum Suppression）算法，确定答题卡主区域、选项区域以及填涂区域对应的最大置信度的候选框，并将最大置信度的候选框对应的区域作为输出区域。

本公开实施例中，预先训练的答题卡检测模型输出的结果如图8所示，图8为根据本公开实施例的一种模型输出结果的示意图。如图8所示，框801为识别出的答题卡主区域，框802为选项区域，框803为填涂区域。

本公开实施例提供的答题卡识别方法执行主体为安装有客户端的电子设备时，在获得后选项识别结果，还可以进一步展示选项识别结果。

本公开实施例提供的答题卡识别方法执行主体为服务端时，获得初始答题卡图像，包括：获得用户对应的客户端发送的初始答题卡图像；方法还包括：将选项识别结果提供给客户端。

本公开实施例提供的答题卡识别方法，能够对包含无限制答题卡的待识别图像进行识别，以获得该无限制答题卡对应的选项识别结果。从而实现了对无限制答题卡的自动识别，进而能够提高无限制答题卡的批改速度，并且能够降低人工批改无限制答题卡所导致的答题卡批改成本较高的问题。

如图9所示，本公开实施例还提供一种答题卡识别装置，该装置包括：

待识别图像获取模块901，用于获取待识别图像，待识别图像为包含无限制答题卡的图像；

选项识别结果获取模块902，用于对待识别图像进行识别，获得无限制答题卡对应的选项识别结果。

可选的，选项识别结果获取模块902，包括：

区域获取子模块，用于对待识别图像进行识别，获得无限制答题卡中不同题目各自对应的选项区域，以及无限制答题卡中的填涂区域；

题目类型确定子模块，用于基于不同题目各自对应的选项区域的区域长度，确定不同题目各自对应的题目类型；

选项确定子模块，用于利用不同题目各自对应的选项区域以及填涂区域，确定不同题目各自对应的选项；

选项识别结果确定子模块，用于根据不同题目各自对应的选项以及题目类型，确定选项识别结果。

可选的，区域获取子模块还用于将待识别图像输入到预先训练的答题卡检测模型中，获得选项区域以及填涂区域。

在一些实施例中，预先训练的答题卡检测模型通过如下方式获得不同题目各自对应的选项区域以及填涂区域：

获得待识别图像对应的不同颜色的单通道图像；

利用轻量级网络以及特征金字塔网络，对不同颜色的单通道图像进行图像特征提取，获得每个颜色的单通道图像对应的第一特征图；

根据第一特征图，获得待识别图像对应的第二特征图；

针对待识别图像对应的第二特征图，确定不同题目各自对应的选项区域以及填涂区域。

可选的，选项确定子模块，包括：

题目选项区域确定子模块，用于在填涂区域中，确定每个题目对应的目标填涂区域，其中，目标填涂区域为区域重叠面积超出指定面积阈值的填涂区域，区域重叠面积为题目的填涂区域与该题目对应的选项区域之间的重叠面积；

选项区域确定子模块，用于根据每个题目对应的目标填涂区域，确定每个题目对应的选项。

可选的，题目类型确定子模块还用于基于不同题目各自对应的选项区域的区域长度，在区域长度与题目类型的对应关系表中查找不同题目各自对应的题目类型。

可选的，待识别图像获取模块901，包括：

待识别图像获取子模块，用于获取初始答题卡图像；

答题卡主区域确定子模块，用于确定初始答题卡图像对应的答题卡主区域；

初始答题卡图像剪裁子模块，用于基于答题卡主区域对初始答题卡图像进行剪裁，获得待识别图像。

可选的，答题卡主区域确定子模块还用于将初始答题卡图像输入到预先训练的答题卡检测模型中，获得答题卡主区域。

初始答题卡图像剪裁子模块还用于利用答题卡主区域的顶点坐标，对初始答题卡图像进行透视变换，获得待识别图像。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开实施例，本公开还提供了一种电子设备和一种可读存储介质。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器（ROM）1002中的计算机程序或者从存储单元1008加载到随机访问存储器（RAM）1003中的计算机程序，来执行各种适当的动作和处理。在RAM·1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM·1002以及RAM·1003通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如答题卡识别方法。例如，在一些实施例中，答题卡识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM·1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM·1003并由计算单元1001执行时，可以执行上文描述的答题卡识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行答题卡识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种答题卡识别方法，包括：

获取待识别图像，所述待识别图像为包含答题卡的图像；

对所述待识别图像进行识别，获得所述答题卡对应的选项识别结果；

其中，所述答题卡为对题目个数、题目布局以及题目类型不做限制的无限制答题卡；

其中，所述对所述待识别图像进行识别，获得所述答题卡对应的选项识别结果，包括：

将所述待识别图像输入到预先训练的答题卡检测模型中，获得所述待识别图像对应的不同颜色的单通道图像；

利用轻量级网络以及特征金字塔网络，对所述不同颜色的单通道图像进行图像特征提取，获得每个颜色的单通道图像对应的第一特征图；

根据所述第一特征图，获得所述待识别图像对应的第二特征图；

针对所述待识别图像对应的第二特征图，确定所述答题卡中不同题目各自对应的选项区域，以及所述答题卡中的填涂区域，以获得所述选项识别结果。

2.根据权利要求1所述的方法，其中，所述获得所述选项识别结果，包括：

基于所述不同题目各自对应的选项区域的区域长度，确定所述不同题目各自对应的题目类型；

利用所述不同题目各自对应的选项区域以及所述填涂区域，确定所述不同题目各自对应的选项；

根据所述不同题目各自对应的选项以及所述题目类型，确定所述选项识别结果。

3.根据权利要求2所述的方法，其中，所述利用所述不同题目各自对应的选项区域以及所述填涂区域，确定所述不同题目各自对应的选项，包括：

在所述填涂区域中，确定每个题目对应的目标填涂区域，其中，所述目标填涂区域为区域重叠面积超出指定面积阈值的填涂区域，所述区域重叠面积为题目的填涂区域与该题目对应的选项区域之间的重叠面积；

根据每个题目对应的目标填涂区域，确定每个题目对应的选项。

4.根据权利要求2所述的方法，其中，所述基于所述不同题目各自对应的选项区域的区域长度，确定所述答题卡中不同题目各自对应的题目类型，包括：

基于所述不同题目各自对应的选项区域的区域长度，在区域长度与题目类型的对应关系表中查找所述不同题目各自对应的题目类型。

5.根据权利要求1所述的方法，其中，所述获取待识别图像，包括：

获得初始答题卡图像；

确定所述初始答题卡图像对应的答题卡主区域；

基于所述答题卡主区域对所述初始答题卡图像进行剪裁，获得所述待识别图像。

6.根据权利要求5所述的方法，其中，所述确定所述初始答题卡图像对应的答题卡主区域，包括：

将所述初始答题卡图像输入到预先训练的答题卡检测模型中，获得所述答题卡主区域；

并且其中，所述基于所述答题卡主区域对所述初始答题卡图像进行剪裁，获得所述待识别图像，包括：

利用所述答题卡主区域的顶点坐标，对所述初始答题卡图像进行透视变换，获得所述待识别图像。

7.一种答题卡识别装置，包括：

选项识别结果获取模块，用于对所述待识别图像进行识别，获得所述答题卡对应的选项识别结果；

其中，所述选项识别结果获取模块，包括区域获取子模块，用于：

针对所述待识别图像对应的第二特征图，确定所述答题卡中不同题目各自对应的选项区域，以及所述答题卡中的填涂区域。

8.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任意一项所述的方法。

9.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行权利要求1至6中任意一项所述的方法。