CN114254605A - 答题卡模板生成方法、答题卡识别方法、装置和电子设备 - Google Patents
答题卡模板生成方法、答题卡识别方法、装置和电子设备 Download PDFInfo
- Publication number
- CN114254605A CN114254605A CN202111328865.7A CN202111328865A CN114254605A CN 114254605 A CN114254605 A CN 114254605A CN 202111328865 A CN202111328865 A CN 202111328865A CN 114254605 A CN114254605 A CN 114254605A
- Authority
- CN
- China
- Prior art keywords
- answer sheet
- frame
- question
- selection
- frame selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种答题卡模板生成方法、答题卡识别方法、装置和电子设备,模板生成方法包括:对待建模的答题卡图像进行选框检测,得到各选框的选框位置;基于各选框的选框位置,确定各选框所属的选框阵列的第一分布参数;调整第一分布参数,得到多组第二分布参数,并确定各组第二分布参数的阵列得分,阵列得分基于对应第二分布参数下虚拟选框区域与选框阵列的真实选框区域的重合程度确定;基于各组第二分布参数的阵列得分,确定第三分布参数,并基于第三分布参数,生成答题卡模板。本发明提供的方法、装置和电子设备,在实现了答题卡模板自动生成的基础上,实现了选框的自动化精确定位,降低了答题卡模板生成的人力成本和时间消耗。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种答题卡模板生成方法、答题卡识别方法、装置和电子设备。
背景技术
智能阅卷系统可通过扫描技术和图像处理技术,准确读入答题卡中学生填涂的客观题信息,从而实现答题卡中客观题部分的快速阅卷,
为了实现智能阅卷,需要事先制作答题卡模板,从而为智能阅卷系统进行识别定位提供客观题部分必要的位置参数和样式参数。通常答题卡模板包括选择题题数、选项个数、选项位置、选项大小、横竖排方式以及题号等信息。
由于不同厂家生产的答题卡样式各异,而一些考试中客观题数量巨大,每次阅卷之前设置答题卡均需要人工设置答题卡模板,费时费力,尤其是在操作人员不熟练的情况下还有可能设置出错。
发明内容
本发明提供一种答题卡模板生成方法、答题卡识别方法、装置和电子设备,用以解决现有技术中人工设置答题卡模板费时费力的问题。
本发明提供一种答题卡模板生成方法,包括:
对待建模的答题卡图像进行选框检测,得到所述答题卡图像中的各选框的选框位置;
基于所述各选框的选框位置,确定所述各选框所属的选框阵列的第一分布参数;
调整所述第一分布参数,得到多组第二分布参数,并确定各组第二分布参数的阵列得分,所述阵列得分基于对应第二分布参数下虚拟选框区域与所述选框阵列的真实选框区域的重合程度确定;
基于所述各组第二分布参数的阵列得分,确定第三分布参数,并基于所述第三分布参数,生成答题卡模板。
根据本发明提供的一种答题卡模板生成方法,所述确定各组第二分布参数的阵列得分,包括:
基于各组第二分布参数下虚拟选框区域与所述真实选框区域的重合程度,以及各组第二分布参数下虚拟间隔区域与所述真实选框区域的重合程度,确定各组第二分布参数的阵列得分;
所述虚拟间隔区域为所述选框阵列中所述虚拟选框区域以外的区域。
根据本发明提供的一种答题卡模板生成方法,所述基于各组第二分布参数下虚拟选框区域与所述真实选框区域的重合程度,以及各组第二分布参数下虚拟间隔区域与所述真实选框区域的重合程度,确定各组第二分布参数的阵列得分,包括:
基于各组第二分布参数下的行内重合程度和行间重合程度之差,确定各组第二分布参数的阵列得分中的行得分,所述行内重合程度为所述虚拟选框区域的行区域与所述真实选框区域的行区域的重合程度,所述行间重合程度为所述虚拟间隔区域的行区域与所述真实选框区域的行区域的重合程度;
基于各组第二分布参数下的列内重合程度和列间重合程度之差,确定各组第二分布参数的阵列得分中的列得分,所述列内重合程度为所述虚拟选框区域的列区域与所述真实选框区域的列区域的重合程度,所述列间重合程度为所述虚拟间隔区域的列区域与所述真实选框区域的列区域的重合程度。
根据本发明提供的一种答题卡模板生成方法,所述基于所述各选框的选框位置,确定所述各选框所属的选框阵列的第一分布参数,包括:
对所述答题卡图像进行题块检测,得到所述答题卡图像中各题块的题块位置;
基于所述各题块的题块位置,以及所述各选框的选框位置,确定所述各选框所属的题块;
基于各题块下的各选框的选框位置,确定各题块对应选框阵列的第一分布参数。
根据本发明提供的一种答题卡模板生成方法,所述基于各题块下的各选框的选框位置,确定各题块对应选框阵列的第一分布参数,包括:
基于任一题块下的各选框的选框位置,对所述答题卡图像中所述任一题块的题块图像进行图像渲染和二值化,得到所述任一题块的二值化图像;
对所述二值化图像进行水平投影和垂直投影,得到所述二值化图像的水平投影直方图和垂直投影直方图;
基于所述水平投影直方图和所述垂直投影直方图,确定所述任一题块对应选框阵列的第一分布参数。
根据本发明提供的一种答题卡模板生成方法,所述对所述答题卡图像进行题块检测,得到所述答题卡图像中各题块的题块位置,之后还包括:
基于所述各题块的题块位置,以及所述答题卡图像中各题号的题号位置,确定各题号所属的题块;
基于各题块下各题号的题号位置,确定所述各题块的题目排列方式。
根据本发明提供的一种答题卡模板生成方法,所述基于所述第三分布参数,生成答题卡模板,包括:
基于所述第三分布参数,确定所述答题卡图像的选框检验区域,对所述选框检验区域进行文本识别,得到文本识别结果;
基于所述文本识别结果,确定所述答题卡图像的模板检验信息;
基于所述模板检验信息和所述第三分布参数,确定第四分布参数;
基于所述第四分布参数,生成所述答题卡模板。
根据本发明提供的一种答题卡模板生成方法,所述基于所述模板检验信息和所述第三分布参数,确定第四分布参数,包括:
若所述模板检验信息中的选项个数与所述第三分布参数所指示的选项个数不同,则基于所述模板检验信息和所述第三分布参数确定参考选框区域和误差选框区域;
基于所述参考选框区域的像素占比,以及所述误差选框区域的像素占比,确定验证选项数;
基于所述验证选项数以及所述第三分布参数,确定所述第四分布参数。
本发明还提供一种答题卡识别方法,包括:
获取待识别的作答图像;
基于答题卡模板,对所述作答图像进行答案识别,所述答题卡模板基于如上所述的答题卡模板生成方法确定。
本发明还提供一种答题卡模板生成装置,包括:
选框检测单元,用于对待建模的答题卡图像进行选框检测,得到所述答题卡图像中的各选框的选框位置;
参数确定单元,用于基于所述各选框的选框位置,确定所述各选框所属的选框阵列的第一分布参数;
参数调整单元,用于调整所述第一分布参数,得到多组第二分布参数,并确定各组第二分布参数的阵列得分,所述阵列得分基于对应第二分布参数下虚拟选框区域与所述选框阵列的真实选框区域的重合程度确定;
模板生成单元,用于基于所述各组第二分布参数的阵列得分,确定第三分布参数,并基于所述第三分布参数,生成答题卡模板。
本发明还提供一种答题卡识别装置,包括:
图像确定单元,用于获取待识别的作答图像;
答案识别单元,用于基于答题卡模板,对所述作答图像进行答案识别,所述答题卡模板基于如上所述的答题卡模板生成方法确定。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述答题卡模板生成方法,或如上所述的答题卡识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述答题卡模板生成方法,或如上所述的答题卡识别方法的步骤。
本发明提供的答题卡模板生成方法、答题卡识别方法、装置和电子设备,通过调整选框检测所得的第一分布参数得到多组第二分布参数,并通过能够反映与真实情况之间差距的阵列得分,从多组第二分布参数中选取第三分布参数生成答题卡模板,在实现了答题卡模板自动生成的基础上,保障了答题卡模板中各选框的位置能够尽量贴合答题卡图像中的真实情况,实现了选框的自动化精确定位,降低了答题卡模板生成的人力成本和时间消耗。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的答题卡模板生成方法的流程示意图;
图2是本发明提供的选框阵列示意图;
图3是本发明提供的阵列得分的计算方法的流程示意图;
图4是本发明提供的答题卡模板生成方法中步骤120的流程示意图;
图5是本发明提供的答题卡模板生成方法中步骤123的流程示意图;
图6是本发明提供的题块的二值化图像;
图7是本发明提供的题目排列方式确定方法的流程示意图;
图8是本发明提供的答题卡模板生成方法中步骤140的流程示意图;
图9是本发明提供的答题卡模板生成方法中步骤143的流程示意图;
图10是本发明提供的答题卡识别方法的流程示意图;
图11是本发明提供的答题卡模板生成装置的结构示意图;
图12是本发明提供的答题卡识别装置的结构示意图;
图13是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的答题卡模板生成方法多为手动生成或者半自动生成方法,具体可以通过如下步骤实现:首先,获取用来制作答题卡模板的图像,对图像进行包含图像增强、水平矫正等的预处理操作。其次,由操作人员指定客观题所在的区域,包含选框的大小、选项的个数、题数等信息。随后,计算机使用操作人员输入的参数在指定区域渲染出相应的客观题位置,接着操作人员根据渲染效果和实际情况,对部分参数微调,使得渲染出的选框与图片上实际的选框完全贴合。上述操作完成之后,操作人员确认相关信息,保存后进行下一个题块的绘制。
上述方法需要操作人员不断调整相关参数,一次只能绘制一个题块。假设一个题块包含5个小题,一个题块的绘制时间需要2分钟以上,如果一场考试有50道选择题,则至少需要20分钟时间才能完成答题卡模板绘制。而在此过程中,还可能存在操作人员操作失误的情况,比如选框的大小设置不合理,横竖排参数设置错误,选项个数设置错误等等问题。造成这些问题的主要原因是需要操作人员手动设置的参数过多,如下表中,针对一个题块需要设置10个以上的相关参数:
选项个数 | …… | 首选项左上角横坐标 | …… |
排列方式 | 横向/纵向 | 首选项左上角纵坐标 | …… |
是否连续 | 是/否 | 选项宽度 | …… |
题量 | …… | 选项高度 | …… |
…… | …… | 横向选项间距 | …… |
…… | …… | 纵向选项间距 | …… |
任意一个参数设置不合理均可能产生相应的问题。人工手动设置复杂,不可控的情况,导致了最终生成的答题卡模板问题频出,影响最终的阅卷评卷。
针对上述问题,本发明实施例提供一种答题卡模板生成方法,以实现答题卡模板的自动化生成。图1是本发明提供的答题卡模板生成方法的流程示意图,如图1所示,该方法包括:
步骤110,对待建模的答题卡图像进行选框检测,得到所述答题卡图像中的各选框的选框位置。
具体地,待建模的答题卡图像即需要生成答题卡模板的答题卡所对应的图像,答题卡图像可以是通过相机拍摄得到的,也可以是扫描得到的,还可以是通过网络下载得到的,本发明实施例对此不作具体限定。
答题卡图像所对应的答题卡中,包含用于进行客观题选择作答的选框,此处的选框即包含选项的框格,例如一道客观题提供了A、B、C、D四个选项,则对应在答题卡上为该道客观题设置了A、B、C、D四个选框,作答者可以通过全面涂抹其中一个选框表示选择该选框对应的选项。在得到待建模的答题卡图像之后,可以对答题卡图像进行选框检测,从而定位答题卡图像中各个选框的选框位置。
此处,对答题卡图像进行选框检测可以通过图像检测模型实现,图像检测模型可以以样本答题卡图像作为训练样本,以样本答题卡图像中预先标注好的各个选框的位置作为标签训练得到。此外,图像检测模型在检测答题卡图像中的选框位置的同时,还可以实现答题卡图像中的题块、题号等信息的位置检测。
通过选框检测得到的答题卡图像中各个选框的位置,此处记为选框位置。针对任意一个选框,选框位置可以包括该选框的左上角和右下角在答题卡图像中的坐标,也可以包含该选框的中心在答题卡图像中的坐标以及该选框的长宽,还可以包含该选框的一个顶点在答题卡图像中的坐标以及该选框的长宽,本发明实施例对此不作具体限定。
步骤120,基于所述各选框的选框位置,确定所述各选框所属的选框阵列的第一分布参数。
具体地,通常在一次测试中,会设置多道客观题,而每个客观题均存在多个选项,因此对应在答题卡中,会存在多个选框,属于同一道题目的选框等间隔排列成一行或者一列,属于多个题目的选框等间隔排列成一个选框阵列。例如,为了便于作答者定位答题卡上的题号和选项,通常以5道客观题为一组的形式构建题块,此时可以将答题卡图像中5道客观题包含的选框视为一个选框阵列,如图2所示,其中虚线框出的选框构成一个选框阵列。
根据各选框的选框位置,可以得到选框之间的相对位置,从而判断哪些选框属于同一个选框阵列,将选框以选框阵列为单位进行划分,并且由此确定各个选框阵列的第一分布参数,此处的第一分布参数,既包含了选框阵列在答题卡图像中的位置,例如选框阵列中左上角和/或右下角的选框在答题卡图像中的位置,还包含了选框阵列内部各个选框的排列信息,例如选框的行间隔和列间隔,每行每列的选框数量,选框总数等。
步骤130,调整所述第一分布参数,得到多组第二分布参数,并确定各组第二分布参数的阵列得分,所述阵列得分基于对应第二分布参数下虚拟选框区域与所述选框阵列的真实选框区域的重合程度确定。
考虑到步骤120中得到的第一分布参数,可能与答题卡图像中真实的选框位置存在偏差,本发明实施例中对第一分布参数进行了调整,从而得到了多组调整之后的第一分布参数,即第二分布参数。此处,考虑到选框阵列的分布参数具体包含了多个参数,例如选框的平均高度、平均宽度,左上角第一个选框左上角的坐标,行列间距的均值,在基于第一分布参数获取第二分布参数时,可以对第一分布参数中的各个参数分别进行调整,也可以对第一分布参数中的多个参数组合进行调整,本发明实施例对此不作具体限定。
在得到多组第二分布参数之后,即可分别计算各组第二分布参数的阵列得分,此处的阵列得分用于反映对应第二分布参数下的选框阵列中的虚拟选框区域与答题卡图像中真实的选框阵列中的真实选框区域的重合程度,此处虚拟选框区域即按照第二分布参数设置的选框阵列中,各个选框占据的区域,真实选框区域即答题卡图像的选框阵列中真实选框占据的区域,真实选框区域可以通过对答题卡图像进行图像渲染、二值化处理等操作得到。重合程度越高,则说明当前的分布参数设置越贴合真实的情况,阵列得分越高,重合程度越低,则说明当前的分布参数设置与真实情况相差越大,阵列得分越低。
步骤140,基于所述各组第二分布参数的阵列得分,确定第三分布参数,并基于所述第三分布参数,生成答题卡模板。
具体地,可以基于各组第二分布参数的阵列得分,从各组第二分布参数中筛选出阵列得分最高的,也就是与答题卡图像的选框区域的真实情况最接近的一组第二分布参数,作为最终确定的分布参数,即第三分布参数,并由此构建答题卡模板。
本发明实施例提供的方法,通过调整选框检测所得的第一分布参数得到多组第二分布参数,并通过能够反映与真实情况之间差距的阵列得分,从多组第二分布参数中选取第三分布参数生成答题卡模板,在实现了答题卡模板自动生成的基础上,保障了答题卡模板中各选框的位置能够尽量贴合答题卡图像中的真实情况,实现了选框的自动化精确定位,降低了答题卡模板生成的人力成本和时间消耗。
基于上述实施例,步骤130中,所述调整所述第一分布参数,得到多组第二分布参数,包括:
根据预先设定的分布参数中各变量的调整范围和调整步长,对第一分布参数中各变量分别调整,每个变量均可得到调整后的多个值,将每个变量调整后的多个值进行排列组合,即可得到多组第二分布参数。
例如,分布参数中的变量包括选框的平均高度h、平均宽度w,左上角第一个选框左上角的坐标(x,y),行列间距的均值rowOffset和colOffset,对每个参数均设置从-3到+3的调整范围,将调整步长设置为1,通过在完成一个变量的调整,并且得到该变量调整后的所有取值的情况下,再对下一个变量进行调整的策略,实现所有第二分布参数的遍历,例如在垂直方向上进行调整可以体现为如下程序:
其中,a+(b+c)*(line_count-1)+b表现的是垂直方向上目前的第二分布参数对应的选框阵列所占据的高度,该高度不应超出图片高度,因此如果该高度大于图片高度,则需要跳出循环,
基于上述任一实施例,步骤130中,所述确定各组第二分布参数的阵列得分,包括:
基于各组第二分布参数下虚拟选框区域与所述真实选框区域的重合程度,以及各组第二分布参数下虚拟间隔区域与所述真实选框区域的重合程度,确定各组第二分布参数的阵列得分;
所述虚拟间隔区域为所述选框阵列中所述虚拟选框区域以外的区域。
具体地,选框阵列中,各选框之间存在间隔,因此在考察第二分布参数所描绘的选框阵列是否与真实情况贴近时,不仅可以参考第二分布参数下虚拟选框区域与真实选框区域的重合程度,还可以参考第二分布参数下虚拟间隔区域与真实选框区域的重合程度。
此处,虚拟间隔区域即按照第二分布参数设置的选框阵列中,各个选框之间的间隔占据的区域,可以理解的是,在按照第二分布参数设置的选矿阵列所占的区域中,虚拟间隔区域即虚拟选框区域以外的区域。
理想状态下,第二分布参数设置的选框阵列与真实选框阵列的排布完全一致的情况下,虚拟间隔区域应当与真实选框阵列中的间隔区域完全重合,此处虚拟间隔区域与真实选框区域的重合程度为0。但实际上,按照第二分布参数设置的选框阵列与真实选框阵列的排布往往存在区别,虚拟间隔区域有可能会覆盖部分真实选框区域,因此虚拟间隔区域与真实选框区域的重合程度亦可以作为判断第二分布参数的设置是否贴近真实情况的依据,且虚拟间隔区域与真实选框区域的重合程度越高,则说明当前的分布参数设置与真实情况相差越大,阵列得分越低;重合程度越低,则说明当前的分布参数设置越贴合真实的情况,阵列得分越高。
本发明实施例中,结合虚拟选框区域与所述真实选框区域的重合程度,以及虚拟间隔区域与所述真实选框区域的重合程度,衡量第二分布参数与真实情况是否贴近,从而提高第三分布参数选取的可靠性,保障最终生成的答题卡模板能够尽可能贴合答题卡图像的真实情况。
基于上述任一实施例,图3是本发明提供的阵列得分的计算方法的流程示意图,如图3所示,步骤130中,所述确定各组第二分布参数的阵列得分,包括:
步骤131,基于各组第二分布参数下的行内重合程度和行间重合程度之差,确定各组第二分布参数的阵列得分中的行得分,所述行内重合程度为所述虚拟选框区域的行区域与所述真实选框区域的行区域的重合程度,所述行间重合程度为所述虚拟间隔区域的行区域与所述真实选框区域的行区域的重合程度;
步骤132,基于各组第二分布参数下的列内重合程度和列间重合程度之差,确定各组第二分布参数的阵列得分中的列得分,所述列内重合程度为所述虚拟选框区域的列区域与所述真实选框区域的列区域的重合程度,所述列间重合程度为所述虚拟间隔区域的列区域与所述真实选框区域的列区域的重合程度。
具体地,在分析各组第二分布参数下选框阵列中虚拟选框区域与真实选框区域的重合程度,以及虚拟间隔区域与真实选框区域的重合程度时,可以从水平方向和垂直方向分别分析,即从选框阵列的行和列的角度,分别进行分析。
针对任意一组第二分布参数,从选框阵列的行的角度来看,针对该组第二分布参数下的虚拟选框区域,可以应用该组第二分布参数中的选框的平均高度、每行选框的纵坐标、每行选框的之间的行间隔等参数,定位虚拟选框区域的行区域,以及虚拟间隔区域的行区域。
而针对真实选框区域的行区域,则可以通过对答题卡图像中包含该选框阵列的部分图像进行水平投影的方式,得到真实选框区域在水平方向上的投影直方图,投影直方图中纵坐标为垂直方向上的位置,横坐标即该位置在水平方向上包含的选框区域像素点的数量,由此即可实现真实选框区域中行区域的定位。
在完成虚拟选框区域的行区域、虚拟间隔区域的行区域,以及真实选框区域的行区域的定位之后,即可计算虚拟选框区域的行区域与真实选框区域的行区域的重合程度,即行内重合程度,以及虚拟间隔区域的行区域与真实选框区域的行区域的重合程度,即行间重合程度。
考虑到行内重合程度越大,越能说明在水平方向上第二分布参数的设置越贴近真实情况,行间重合程度越小,越能说明在水平方向上第二分布参数的设置越贴近真实情况,可以对行内重合程度和行间重合程度做差,基于两者的差值确定行得分,以衡量第二分布参数在水平方向上的设置是否贴近真实情况。可以理解的是,行内重合程度和行间重合程度之差越大,则行得分越高,第二分布参数在水平方向上的设置越真实。
与之相似地,从选框阵列的列的角度来看,针对该组第二分布参数下的虚拟选框区域,可以应用该组第二分布参数中的选框的平均宽度、每列选框的横坐标、每列选框的之间的列间隔等参数,定位虚拟选框区域的列区域,以及虚拟间隔区域的列区域。
而针对真实选框区域的列区域,则可以通过对答题卡图像中包含该选框阵列的部分图像进行垂直投影的方式,得到真实选框区域在垂直方向上的投影直方图,投影直方图中横坐标为水平方向上的位置,纵坐标即该位置在垂直方向上包含的选框区域像素点的数量,由此即可实现真实选框区域中列区域的定位。
在完成虚拟选框区域的列区域、虚拟间隔区域的列区域,以及真实选框区域的列区域的定位之后,即可计算虚拟选框区域的列区域与真实选框区域的列区域的重合程度,即列内重合程度,以及虚拟间隔区域的列区域与真实选框区域的列区域的重合程度,即列间重合程度。
考虑到列内重合程度越大,越能说明在垂直方向上第二分布参数的设置越贴近真实情况,列间重合程度越小,越能说明在垂直方向上第二分布参数的设置越贴近真实情况,可以对列内重合程度和列间重合程度做差,基于两者的差值确定列得分,以衡量第二分布参数在垂直方向上的设置是否贴近真实情况。可以理解的是,列内重合程度和列间重合程度之差越大,则列得分越高,第二分布参数在垂直方向上的设置越真实。
由此,即可得到一组第二分布参数在水平方向上的行得分,以及在垂直方向上的列得分。针对各组第二分布参数中行得分最高的第二分布参数,可以将其在水平方向上的各个参数,例如选框的平均高度、每行选框的纵坐标、每行选框的之间的行间隔等参数,作为第三分布参数中用于表示水平方向上选框阵列布局的参数;针对各组第二分布参数中列得分最高的第二分布参数,可以将其在垂直方向上的各个参数,例如选框的平均宽度、每列选框的横坐标、每列选框的之间的列间隔等参数,作为第三分布参数中用于表示垂直方向上选框阵列布局的参数,由此得到完整的一组第三分布参数。
基于上述任一实施例,图4是本发明提供的答题卡模板生成方法中步骤120的流程示意图,如图4所示,步骤120包括:
步骤121,对所述答题卡图像进行题块检测,得到所述答题卡图像中各题块的题块位置。
具体地,题块是答题卡中多个题目组合而成的区域。为了便于作答者定位答题卡上的题号和选项,通常以多道客观题为一组的形式构建题块,此时可以将答题卡图像中多道客观题包含的选框视为一个选框阵列,选框阵列即包含在题块之中。题块除了可以包含选框阵列,还可以包含选框阵列对应题目的题号。
在得到答题卡图像之后,不仅可以对答题卡图像进行选项检测,还可以对答题卡图像进行题块检测,此处,对答题卡图像进行题块检测可以通过图像检测模型实现,此处的图像检测模型与用于进行选框检测的图像检测模型可以是同一个模型,也可以是两个独立的模型。图像检测模型可以以样本答题卡图像作为训练样本,以样本答题卡图像中预先标注好的各个题块的位置作为标签训练得到。
通过题块检测得到的答题卡图像中各个题块的位置,此处记为题块位置,针对任意一个题块,题块位置可以包括该题块的左上角和右下角在答题卡图像中的坐标,也可以包含该题块的中心在答题卡图像中的坐标以及该题块的长宽,还可以包含该题块的一个顶点在答题卡图像中的坐标以及该题块的长宽,本发明实施例对此不作具体限定。
步骤122,基于所述各题块的题块位置,以及所述各选框的选框位置,确定所述各选框所属的题块。
具体地,为了便于确定各选框所归属的选框阵列,可以先确定各选框所归属的题块。针对任意一个选框,可以基于该选框的选框位置,和各题块的题块位置,判断该选框与各题块是否重合,如果存在与该选框重合的题块,则将该题块作为选框所属的题块;或者可以计算该选框与各题块的重合面积,将重合面积最大的题块,作为该选框所归属的题块;还可以在未能够根据选框与题块是否重合,或者选框与题块之间的重合面积确定选框归属的情况下,计算选框与各题块边缘的距离,将距离最近的题块确定为选框归属的题块。
步骤123,基于各题块下的各选框的选框位置,确定各题块对应选框阵列的第一分布参数。
具体地,一个题块下存在一个选框阵列,该题块下的选框阵列由该题块下的所有选框构成。针对任意一个题块,可以基于该题块中所有选框的选框位置,确定该题块下选框阵列的第一分布参数。例如,可以统计该题块下所有选框的长宽均值作为第一分布参数中的选框长宽,统计该题块下相邻选框之间的间隔距离作为第一分布参数中的选框间隔,将最左上角的选框的左上角坐标作为第一分布参数中的选框阵列顶点坐标。
本发明实施例提供的方法,以题块为单位划分选框从而确定第一分布参数,有助于提高答题卡模板的生成效率和生成精度。
基于上述任一实施例,图5是本发明提供的答题卡模板生成方法中步骤123的流程示意图,如图5所示,步骤123包括:
步骤1231,基于任一题块下的各选框的选框位置,对所述答题卡图像中所述任一题块的题块图像进行图像渲染和二值化,得到所述任一题块的二值化图像;
具体地,针对任意一个题块,可以通过该题块的题块位置,在答题卡图像中定位出该题块的题块图像。题块图像中包含了该题块下的所有选框,可以根据检测得到的各选框的选框位置,对题块图像进行图像渲染,从而对题块图像中各选框的区域进行着色,使得各选框所处的区域能够与非选框区域区分开来,在此基础上对图像渲染之后的题块图像进行二值化,即可得到题块的二值化图像。此时,二值化图像可以是图6示出的情况,二值化图像中按照选框所处区域和非选框区域,划分为黑白两色。
进一步地,针对题块图像中包含题号的情况,为了避免题号对于图像渲染和二值化产生影响,可以预先将题号对应的位置抹白。
步骤1232,对所述二值化图像进行水平投影和垂直投影,得到所述二值化图像的水平投影直方图和垂直投影直方图;
步骤1233,基于所述水平投影直方图和所述垂直投影直方图,确定所述任一题块对应选框阵列的第一分布参数。
具体地,在得到二值化图像之后,即可分别对二值化图像进行水平投影和垂直投影,通过水平投影可以得到二值化图像的水平投影直方图,水平投影直方图中纵坐标为垂直方向上的位置,横坐标即该位置在水平方向上包含的选框区域像素点的数量;通过垂直投影可以得到二值化图像的垂直投影直方图,垂直投影直方图中横坐标为水平方向上的位置,纵坐标即该位置在垂直方向上包含的选框区域像素点的数量。
针对水平投影直方图,可以确定第一分布参数在水平方向上的参数,例如通过检测水平投影直方图中波峰的数量,确定题块中选框阵列的行数,通过检测水平投影直方图中每个波峰开始到结束所占据的宽度,确定题块中每行选框的平均高度,通过检测水平投影直方图中每个波峰结束至下个波峰开始所占据的宽度,确定题块中每两行选框的平均间隔。
针对垂直投影直方图,可以确定第一分布参数在垂直方向上的参数,例如可以通过检测垂直投影直方图中波峰的数量,确定题块中选框阵列的列数,通过检测垂直投影直方图中每个波峰开始到结束所占据的宽度,确定题块中每列选框的平均宽度,通过检测垂直投影直方图中每个波峰结束至下个波峰开始所占据的宽度,确定题块中每两列选框的平均间隔。
在此过程中,针对水平投影直方图或者垂直投影直方图中波峰开始或者结束位置的检测,可以通过将各行列中选框区域像素点的数量与预先设置好的阈值进行比较实现,例如在水平投影直方图的波峰检测时,可以设置迟滞比较器,包括阈值th1和th2,th1>th2,如果一行选框区域像素点的数量,即一行投影长度Li>th1,则说明波峰开始,将该行的纵坐标记为y1,在该行之后各行投影长度>th2,则说明各行仍处在波峰,直至出现一行投影长度<th2,则至此行波峰结束,将该行的纵坐标记为y2,此波峰对应选框行的宽度,即行高h=y2—y1。据此方式,即可通过二值化图像中共出现多少个波峰,即选框阵列共计几行。
基于上述任一实施例,图7是本发明提供的题目排列方式确定方法的流程示意图,如图7所示,步骤121之后还包括:
步骤124,基于所述各题块的题块位置,以及所述答题卡图像中各题号的题号位置,确定各题号所属的题块。
具体地,在得到答题卡图像之后,不仅可以对答题卡图像进行选项检测和题块检测,还可以对答题卡图像进行题号检测,此处,对答题卡图像进行题号检测可以通过图像检测模型实现,此处的图像检测模型与用于进行选框检测或者题块检测的图像检测模型可以是同一个模型,也可以是两个独立的模型。图像检测模型可以以样本答题卡图像作为训练样本,以样本答题卡图像中预先标注好的各个题号的位置作为标签训练得到。
通过题号检测得到的答题卡图像中各个题号的位置,此处记为题号位置,针对任意一个题号,题号位置可以包括该题号的左上角和右下角在答题卡图像中的坐标,也可以包含该题号的中心在答题卡图像中的坐标以及该题号所处区域的长宽,还可以包含该题号的一个顶点在答题卡图像中的坐标以及该题号所处的长宽,本发明实施例对此不作具体限定。
为了便于分析一个题块中的多个题目的选框排列方式,例如横排或者竖排,可以先确定各题号所归属的题块。针对任意一个题号,可以基于该题号的题号位置,和各题块的题块位置,判断该题号与各题块是否重合,如果存在与该题号重合的题块,则将该题块作为题号所属的题块;或者可以计算该题号与各题块的重合面积,将重合面积最大的题块,作为该题号所归属的题块;还可以在未能够根据题号与题块是否重合,或者题号与题块之间的重合面积确定题号归属的情况下,计算题号与各题块边缘的距离,将距离最近的题块确定为题号归属的题块。
步骤125,基于各题块下各题号的题号位置,确定所述各题块的题目排列方式。
具体地,在得到各题号与题块的归属关系之后,即可针对各个题块,分别根据各个题块中各题号的题号位置,分析各个题块中各题号的排布方式,从而确定各个题块的题目排列方式。
针对任意一个题块,可以获取该题块下所有题号的题号位置,据此分析所有题号的排列方式,具体可以根据所有题号的题号位置,确定每个题号所处区域的中心位置,并计算各个中心位置在分别在水平方向和垂直方向上的分布离散程度:
如果各个中心位置在水平方向上的分布离散程度远小于各个中心位置在垂直方向上的分布离散程度,则可以说明各个题号的中心位置的纵坐标相较于横坐标更加接近,题块中的题号横向排列,题块的题目排列方式为竖排;如果各个中心位置在水平方向上的分布离散程度远大于各个中心位置在垂直方向上的分布离散程度,则可以说明各个题号的中心位置的横坐标相较于总坐标更加接近,题块中的题号纵向排列,题块的题目排列方式为横排。此处,分布离散程度可以是方差、标准差等,本发明实施例不对此作具体限定。
例如,假设一个题块中的题号的坐标分别为(10,10),(10,20),(10,30),(10,40),(10,50),其垂直方向上的离散程度,即横坐标均方差D=0,其水平方向上的离散程度,即纵坐标均方差D=200,此时题号纵向排列,题块的题目排列方式为横排;假设一个题块中的题号的坐标分别为(10,10),(20,10),(30,10),(40,10),(50,10),其垂直方向上的离散程度,即横坐标均方差D=200,水平方向上的离散程度,即纵坐标均方差D=0,此时题号横向排列,题块的题目排列方式为竖排。
基于上述任一实施例,图8是本发明提供的答题卡模板生成方法中步骤140的流程示意图,如图8所示,步骤140包括:
步骤141,基于所述第三分布参数,确定所述答题卡图像的选框检验区域,对所述选框检验区域进行文本识别,得到文本识别结果。
具体地,为了进一步提高答题卡模板生成的可靠性,可以对第三分布参数进行验证,具体可以定位答题卡图像中第三分布参数下规划的选框区域,即以下进行检验的区域,此处记为选框检验区域。考虑到通常情况下,答题卡图像中的选框内标记有选项字母,用于提示作答者该选框代表题目中的哪个选项,可以针对选框检验区域进行文本识别,从而得到选框检验区域中包含的文本识别结果。
进一步地,针对选框检验区域进行文本识别,可以是分别截取第三分布参数下规划的每个选框区域,进行文本识别,从而得到与第三分布参数下规划的每个选框区域一一对应的文本识别结果,也可以是分别截取第三分布参数下规划的每行选框区域,进行文本行识别,从而得到与第三分布参数下规划的每行选框区域一一对应的文本识别结果。
步骤142,基于所述文本识别结果,确定所述答题卡图像的模板检验信息。
此处,模板检验信息用于表征验证第三分布参数是否贴合答题卡图像的信息。针对第三分布参数下规划的一行选框区域对应的文本识别结果,可以根据该行文本识别结果中的各个字母是否相同,判断对应题块的题目排列方式为横排还是竖排,例如如果各字母相同,则题目排列方式为竖排,如果各字母不同,则题目排列方式为横排;
针对文本识别结果,还可以根据字母表进行排序,通过确定文本识别结果中排序在最后的字母,确定题块中最大的选项个数。另外,还可以根据文本识别结果中相同字母出现的次数,例如选项A出现的次数,确定题块中的题目数量。
以上题目排列方式、选项个数、题目数量中的一种或者多种,均可以包含在模板检验信息中。
步骤143,基于所述模板检验信息和所述第三分布参数,确定第四分布参数。
步骤144,基于所述第四分布参数,生成所述答题卡模板。
具体地,在得到模板检验信息后,可以判断模板检验信息,以及第三分布参数本身所体现的信息此两者是否一致,从而确定第三分布参数是否可能存在与答题卡图像实际情况不贴合的问题。
如果模板检验信息与第三分布参数本身所体现的信息一致,则可以确定第三分布参数并不存在与答题卡图像实际情况不贴合的问题,可以直接将第三分布参数作为第四分布参数进行答题卡模板的生成。如果模板检验信息与第三分布参数本身所体现的信息不一致,则可以生成报警信息提示用户进行确认,并基于用户确认的信息对第三分布参数进行调整,以获取可用于生成答题卡模板的第四分布参数,也可以结合模板检验信息与第三分布参数本身所体现的信息,作进一步检查确认,并基于检查确认的信息调整第三分布参数,以获取可用于生成答题卡模板的第四分布参数。
例如,如果模板检验信息中的题目排列方式,与前述步骤中确定的题目排列方式不同,则可以返回报警信息提示用户进行确认;又例如,如果模板检验信息中的题目数量或者选项个数与第三分布参数所体现的题目数量或者选项个数不同,则可以返回报警信息提示用户进行确认
在此基础上,基于调整校验后的第四分布参数进行答题卡模板的生成,可进一步提高答题卡模板的可靠性。
基于上述任一实施例,图9是本发明提供的答题卡模板生成方法中步骤143的流程示意图,如图9所示,步骤143包括:
步骤1431,若所述模板检验信息中的选项个数与所述第三分布参数所指示的选项个数不同,则基于所述模板检验信息和所述第三分布参数确定参考选框区域和误差选框区域;
步骤1432,基于所述参考选框区域的像素占比,以及所述误差选框区域的像素占比,确定验证选项数;
步骤1433,基于所述验证选项数以及所述第三分布参数,确定所述第四分布参数。
具体地,针对于模板检验信息中的选项个数与第三分布参数所指示的选项个数不同的情况,可以将此两者中较小的选项个数认为是已经确定存在的选项个数,将此两者的差值认为是可能存在的选项个数,据此可以定位参考选框区域和误差选框区域。
其中,参考选框区域即已经确定存在的选项所对应的选框区域,误差选框区域即可能存在的选项所对应的选框区域。例如,模板检验信息中的选项个数与所述第三分布参数所指示的选项个数一个是3项,一个是4项,则可以将前3个选项对应的选框区域确定为参考选框区域,将第4个选项对应的选框区域确定为误差选框区域。
在此基础上,可以分别统计参考选框区域的像素占比,以及误差选框区域的像素占比。考虑到答题卡图像中的选框通常体现为白色背景上的黑色边框,黑色边框中包含黑色字母,像素占比可以为对应选框区域中的黑色像素占选框区域中所有像素的比例。在已经确定参考选框区域中必然存在选框的情况下,参考选框区域的像素占比可以反映真实存在的选框区域的像素占比的普遍情况,如果误差选框区域的像素占比与参考选框区域的像素占比接近,则可以确定误差选框区域必然也存在选框,如果误差选框区域的像素占比远小于参考选框区域的像素占比,则可以确定误差选框区域内并不存在选框,据此,即可确定真实的选项数,即验证选项数。例如,将前3个选项对应的选框区域确定为参考选框区域,将第4个选项对应的选框区域确定为误差选框区域的情况下,如果第4个选项的像素占比远小于前3个选项的像素占比,例如小于前3个选项的像素占比的1/3,则确定并不存在第4个选项,验证选项数为3,又例如第4个选项的像素占比与前3个选项的像素占比相近,则确定存在第4个选项,验证选项数为4。
在得到验证选项数之后,需要判断验证选项数与第三分布参数所指示的选项个数是否一致,如果一致,则可以将第三分布参数作为第四分布参数,如果不一致,则需要对第三分布参数进行调整,由此得到第四分布参数。例如验证选项数超过第三分布参数所指示的选项个数,则需要在第三分布参数的基础上向外扩展选项,又例如验证选项数小于第三分布参数所指示的选项个数,则需要在第三分布参数的基础上向内删除选项。
基于上述任一实施例,一种答题卡模板生成方法,包括如下步骤:
首先,获取答题卡图像,答题卡图像可以是扫描得到的。针对答题卡图像,在进行图像检测之前可以进行预处理,此处的预处理操作可以是先计算答题卡图像的长边的大小,按像素保持长宽比,将答题卡图像的长边缩放到预设数量个像素,并记录缩放比例r_resize,此处的预设数量可以是1024,也可以是其他数值。完成缩放之后,对答题卡图像进行归一化处理,dst=(src–128.0)/128.0,其中src和dst分别是归一化之前和之后的像素值,由此可以得到取值范围为-1~1之间的图像。
其次,对预处理之后的答题卡图像进行图像检测,具体可以将答题卡图像输入至预先训练好的图像检测模型中,图像检测模型的输出可以包括选框位置、题号位置和题块位置。针对得到的选框位置、题号位置和题块位置,可以按照相同的比例r_resize缩放到原尺寸,由此得到答题卡图像中各选框的选框位置、各题号的题号位置和各题块的题块位置。
针对检测得到的选框和题号分别进行归类,使得每个选框和题号均可以对应到所属的题块。具体可以计算各选框/题号与所有题块的重合面积,将重合面积最大的题块,作为该选框/题号所归属的题块;还可以在未能够根据选框/题号与题块之间的重合面积确定选框/题号归属的情况下,计算选框/题号与各题块边缘的距离,将距离最近的题块确定为选框/题号归属的题块。由此形成一个集合,即一张答题卡图像包含多个题块,每个题块中包含对应的题号和选框。接下来进行计算参数时,对每个题块进行分别计算。
针对任意一个题块,可以获取该题块下所有题号的题号位置,确定每个题号所处区域的中心位置,并计算各个中心位置在分别在水平方向和垂直方向上的分布离散程度,如果各个中心位置在水平方向上的分布离散程度远小于各个中心位置在垂直方向上的分布离散程度,则题块中的题号横向排列,题块的题目排列方式为竖排;如果各个中心位置在水平方向上的分布离散程度远大于各个中心位置在垂直方向上的分布离散程度,则题块中的题号纵向排列,题块的题目排列方式为横排。
针对任意一个题块,还可以渲染该题块中的所有选框并进行二值化,针对由此所得的二值化图像进行水平投影,应用水平投影直方图,确定第一分布参数在水平方向上的参数;针对二值化图像进行垂直投影,应用垂直投影直方图确定第一分布参数在垂直方向上的参数。
在得到任意一个题块的第一分布参数之后,即可根据该题块的二值化图像的水平投影直方图确定该题块在水平方向上的真实选框区域的情况,并通过对第一分布参数在水平方向上的参数进行微调,得到多组第二分布参数,并根据多组第二分布参数设置下在水平方向上的虚拟选框区域的情况,计算各组第二分布参数下虚拟选框区域的行区域与真实选框区域的行区域的重合程度,以及虚拟间隔区域的行区域与真实选框区域的行区域的重合程度,并基于此两者之差确定各组第二分布参数的行得分,基于行得分最高的第二分布参数,确定第三分布参数在水平方向上的参数;根据该题块的二值化图像的垂直投影直方图确定该题块在垂直方向上的真实选框区域的情况,并通过对第一分布参数在垂直方向上的参数进行微调,得到多组第二分布参数,并根据多组第二分布参数设置下在垂直方向上的虚拟选框区域的情况,计算各组第二分布参数下虚拟选框区域的列区域与真实选框区域的列区域的重合程度,以及虚拟间隔区域的列区域与真实选框区域的列区域的重合程度,并基于此两者之差确定各组第二分布参数的列得分,基于列得分最高的第二分布参数,确定第三分布参数在垂直方向上的参数。
为了进一步提高答题卡模板生成的可靠性,可以对第三分布参数进行验证,可以截取第三分布参数下规划的每行选框区域,进行文本行识别,从而得到与第三分布参数下规划的每行选框区域一一对应的文本识别结果。针对文本识别结果,若整行均为同一字母,则题号为横排,若整行包含多个不同的字母,则题号为竖排。对所有行的识别结果按字母表进行排序,记录最大的字母,由此确定最大的选项个数。分为以下几种情况:
A、若前述步骤未能确定题目排列方式,则使用此步骤确定的题目排列方式,若前述步骤已经确定题目排列方式且与此步骤确定的题目排列方式不一致,则返回错误。
B、若前述步骤确定的题数与此步骤确定的题数不一致,则使用前述步骤确定的题数,同时返回报警信息,提示用户进一步确认。
C、若前述步骤确定的选项数与此步骤确定的选项个数不一致,则使用前述步骤确定的选项数,同时返回报警信息,提示用户进一步确认。考虑判断题(选项为T/F)的例外情况,最大字母为T/F,前述步骤确定的选项数为2,认为一致。
此外,针对前述步骤确定的选项数与此步骤确定的选项个数不一致的情况,还可以进行进一步检查。具体可以利用相邻题块中间的间隔多为大片空白的信息,作进一步判断。分成两种情况,第一种情况、前述步骤检测得到的选项个数>此步骤确定的选项数,如前述步骤检测得出4列,但此步骤的文本识别结果中仅检测出最大字母为C,未能识别出D字母。需要根据分列信息,对第4列和前3列统计其黑色像素占比,若第四列的黑色像素占比未能超过前三列黑色像素平均占比的1/3,说明与前面几列相差较大,选择此步骤检出的3项为最终结果,删除最后一列的选框信息,否则确定选项列数为4列。第二种情况,前述步骤检测得到的选项个数<此步骤确定的选项数,如前述步骤检测得出4列,但此步骤的文本识别结果中检测出最大字母为E,使用同样的方法,保持相同的列间距,向右侧扩展一列,计算比较平均黑色像素占比来确定是5列还是4列。
本发明实施例提供的方法,通过调整选框检测所得的第一分布参数得到多组第二分布参数,并通过能够反映与真实情况之间差距的阵列得分,从多组第二分布参数中选取第三分布参数生成答题卡模板,在实现了答题卡模板自动生成的基础上,保障了答题卡模板中各选框的位置能够尽量贴合答题卡图像中的真实情况,实现了选框的自动化精确定位,降低了答题卡模板生成的人力成本和时间消耗。此外,本发明实施例加入了检测校验的方案,对于系统无法确定的情况返回响应的报警信息,从而确保最终生成答题卡模板的可靠性。
基于上述任一实施例,图10是本发明提供的答题卡识别方法的流程示意图,如图10所示,该方法包括:
步骤1010,获取待识别的作答图像;
步骤1020,基于答题卡模板,对所述作答图像进行答案识别,所述答题卡模板基于答题卡模板生成方法确定。
具体地,在实际应用阶段,可以获取需要进行答题卡识别的作答图像,此处的作答图像即作答者完成作答之后的答题卡的图像,作答图像可以是通过相机拍摄得到的,也可以是扫描得到的,本发明实施例对此不作具体限定。
答题卡模板可以是根据上述各实施例自动生成的,其中包含了答题卡中每个题目的选框的定位,应用答题卡模板,可以定位作答图像中每个题目的选框,从而确定作答图像中的每个题目具体选择的选项,由此实现答案识别,在此基础上即可基于识别所得的答案,以及预先设定的标准答案,对作答图像进行自动阅卷和打分。
本发明实施例提供的方法,应用自动生成的答题卡模板进行答题卡识别,有效保证了答题卡识别的可靠性。
基于上述任一实施例,图11是本发明提供的答题卡模板生成装置的结构示意图,如图11所示,答题卡模板生成装置包括:
选框检测单元1110,用于对待建模的答题卡图像进行选框检测,得到所述答题卡图像中的各选框的选框位置;
参数确定单元1120,用于基于所述各选框的选框位置,确定所述各选框所属的选框阵列的第一分布参数;
参数调整单元1130,用于调整所述第一分布参数,得到多组第二分布参数,并确定各组第二分布参数的阵列得分,所述阵列得分基于对应第二分布参数下虚拟选框区域与所述选框阵列的真实选框区域的重合程度确定;
模板生成单元1140,用于基于所述各组第二分布参数的阵列得分,确定第三分布参数,并基于所述第三分布参数,生成答题卡模板。
本发明实施例提供的装置,通过调整选框检测所得的第一分布参数得到多组第二分布参数,并通过能够反映与真实情况之间差距的阵列得分,从多组第二分布参数中选取第三分布参数生成答题卡模板,在实现了答题卡模板自动生成的基础上,保障了答题卡模板中各选框的位置能够尽量贴合答题卡图像中的真实情况,实现了选框的自动化精确定位,降低了答题卡模板生成的人力成本和时间消耗。
基于上述任一实施例,所述参数调整单元1130包括得分计算单元,用于:
基于各组第二分布参数下虚拟选框区域与所述真实选框区域的重合程度,以及各组第二分布参数下虚拟间隔区域与所述真实选框区域的重合程度,确定各组第二分布参数的阵列得分;
所述虚拟间隔区域为所述选框阵列中所述虚拟选框区域以外的区域。
基于上述任一实施例,得分计算单元具体用于:
基于各组第二分布参数下的行内重合程度和行间重合程度之差,确定各组第二分布参数的阵列得分中的行得分,所述行内重合程度为所述虚拟选框区域的行区域与所述真实选框区域的行区域的重合程度,所述行间重合程度为所述虚拟间隔区域的行区域与所述真实选框区域的行区域的重合程度;
基于各组第二分布参数下的列内重合程度和列间重合程度之差,确定各组第二分布参数的阵列得分中的列得分,所述列内重合程度为所述虚拟选框区域的列区域与所述真实选框区域的列区域的重合程度,所述列间重合程度为所述虚拟间隔区域的列区域与所述真实选框区域的列区域的重合程度。
基于上述任一实施例,参数确定单元1120用于:
对所述答题卡图像进行题块检测,得到所述答题卡图像中各题块的题块位置;
基于所述各题块的题块位置,以及所述各选框的选框位置,确定所述各选框所属的题块;
基于各题块下的各选框的选框位置,确定各题块对应选框阵列的第一分布参数。
基于上述任一实施例,参数确定单元1120用于:
基于任一题块下的各选框的选框位置,对所述答题卡图像中所述任一题块的题块图像进行图像渲染和二值化,得到所述任一题块的二值化图像;
对所述二值化图像进行水平投影和垂直投影,得到所述二值化图像的水平投影直方图和垂直投影直方图;
基于所述水平投影直方图和所述垂直投影直方图,确定所述任一题块对应选框阵列的第一分布参数。
基于上述任一实施例,参数确定单元1120用于:
基于所述各题块的题块位置,以及所述答题卡图像中各题号的题号位置,确定各题号所属的题块;
基于各题块下各题号的题号位置,确定所述各题块的题目排列方式。
基于上述任一实施例,模板生成单元1140用于:
基于所述第三分布参数,确定所述答题卡图像的选框检验区域,对所述选框检验区域进行文本识别,得到文本识别结果;
基于所述文本识别结果,确定所述答题卡图像的模板检验信息;
基于所述模板检验信息和所述第三分布参数,确定第四分布参数;
基于所述第四分布参数,生成所述答题卡模板。
基于上述任一实施例,模板生成单元1140用于:
若所述模板检验信息中的选项个数与所述第三分布参数所指示的选项个数不同,则基于所述模板检验信息和所述第三分布参数确定参考选框区域和误差选框区域;
基于所述参考选框区域的像素占比,以及所述误差选框区域的像素占比,确定验证选项数;
基于所述验证选项数以及所述第三分布参数,确定所述第四分布参数。
基于上述任一实施例,图12是本发明提供的答题卡识别装置的结构示意图,如图12所示,答题卡识别装置包括:
图像确定单元1210,用于获取待识别的作答图像;
答案识别单元1220,用于基于答题卡模板,对所述作答图像进行答案识别,所述答题卡模板基于答题卡模板生成方法确定。
本发明实施例提供的装置,应用自动生成的答题卡模板进行答题卡识别,有效保证了答题卡识别的可靠性。
图13示例了一种电子设备的实体结构示意图,如图13所示,该电子设备可以包括:处理器(processor)1310、通信接口(Communications Interface)1320、存储器(memory)1330和通信总线1340,其中,处理器1310,通信接口1320,存储器1330通过通信总线1340完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令,以执行答题卡模板生成方法,该方法包括:
对待建模的答题卡图像进行选框检测,得到所述答题卡图像中的各选框的选框位置;
基于所述各选框的选框位置,确定所述各选框所属的选框阵列的第一分布参数;
调整所述第一分布参数,得到多组第二分布参数,并确定各组第二分布参数的阵列得分,所述阵列得分基于对应第二分布参数下虚拟选框区域与所述选框阵列的真实选框区域的重合程度确定;
基于所述各组第二分布参数的阵列得分,确定第三分布参数,并基于所述第三分布参数,生成答题卡模板。
处理器1310还可以调用存储器1330中的逻辑指令,以执行答题卡识别方法,该方法包括:
获取待识别的作答图像;
基于答题卡模板,对所述作答图像进行答案识别,所述答题卡模板基于答题卡模板生成方法确定。
此外,上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的答题卡模板生成方法,该方法包括:
对待建模的答题卡图像进行选框检测,得到所述答题卡图像中的各选框的选框位置;
基于所述各选框的选框位置,确定所述各选框所属的选框阵列的第一分布参数;
调整所述第一分布参数,得到多组第二分布参数,并确定各组第二分布参数的阵列得分,所述阵列得分基于对应第二分布参数下虚拟选框区域与所述选框阵列的真实选框区域的重合程度确定;
基于所述各组第二分布参数的阵列得分,确定第三分布参数,并基于所述第三分布参数,生成答题卡模板。
当所述程序指令被计算机执行时,计算机还能够执行上述各方法所提供的答题卡识别方法,该方法包括:
获取待识别的作答图像;
基于答题卡模板,对所述作答图像进行答案识别,所述答题卡模板基于答题卡模板生成方法确定。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的答题卡模板生成方法,该方法包括:
对待建模的答题卡图像进行选框检测,得到所述答题卡图像中的各选框的选框位置;
基于所述各选框的选框位置,确定所述各选框所属的选框阵列的第一分布参数;
调整所述第一分布参数,得到多组第二分布参数,并确定各组第二分布参数的阵列得分,所述阵列得分基于对应第二分布参数下虚拟选框区域与所述选框阵列的真实选框区域的重合程度确定;
基于所述各组第二分布参数的阵列得分,确定第三分布参数,并基于所述第三分布参数,生成答题卡模板。
该计算机程序还可以被处理器执行时实现以执行上述各提供的答题卡识别方法,该方法包括:
获取待识别的作答图像;
基于答题卡模板,对所述作答图像进行答案识别,所述答题卡模板基于答题卡模板生成方法确定。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (13)
1.一种答题卡模板生成方法,其特征在于,包括:
对待建模的答题卡图像进行选框检测,得到所述答题卡图像中的各选框的选框位置;
基于所述各选框的选框位置,确定所述各选框所属的选框阵列的第一分布参数;
调整所述第一分布参数,得到多组第二分布参数,并确定各组第二分布参数的阵列得分,所述阵列得分基于对应第二分布参数下虚拟选框区域与所述选框阵列的真实选框区域的重合程度确定;
基于所述各组第二分布参数的阵列得分,确定第三分布参数,并基于所述第三分布参数,生成答题卡模板。
2.根据权利要求1所述的答题卡模板生成方法,其特征在于,所述确定各组第二分布参数的阵列得分,包括:
基于各组第二分布参数下虚拟选框区域与所述真实选框区域的重合程度,以及各组第二分布参数下虚拟间隔区域与所述真实选框区域的重合程度,确定各组第二分布参数的阵列得分;
所述虚拟间隔区域为所述选框阵列中所述虚拟选框区域以外的区域。
3.根据权利要求2所述的答题卡模板生成方法,其特征在于,所述基于各组第二分布参数下虚拟选框区域与所述真实选框区域的重合程度,以及各组第二分布参数下虚拟间隔区域与所述真实选框区域的重合程度,确定各组第二分布参数的阵列得分,包括:
基于各组第二分布参数下的行内重合程度和行间重合程度之差,确定各组第二分布参数的阵列得分中的行得分,所述行内重合程度为所述虚拟选框区域的行区域与所述真实选框区域的行区域的重合程度,所述行间重合程度为所述虚拟间隔区域的行区域与所述真实选框区域的行区域的重合程度;
基于各组第二分布参数下的列内重合程度和列间重合程度之差,确定各组第二分布参数的阵列得分中的列得分,所述列内重合程度为所述虚拟选框区域的列区域与所述真实选框区域的列区域的重合程度,所述列间重合程度为所述虚拟间隔区域的列区域与所述真实选框区域的列区域的重合程度。
4.根据权利要求1至3中任一项所述的答题卡模板生成方法,其特征在于,所述基于所述各选框的选框位置,确定所述各选框所属的选框阵列的第一分布参数,包括:
对所述答题卡图像进行题块检测,得到所述答题卡图像中各题块的题块位置;
基于所述各题块的题块位置,以及所述各选框的选框位置,确定所述各选框所属的题块;
基于各题块下的各选框的选框位置,确定各题块对应选框阵列的第一分布参数。
5.根据权利要求4所述的答题卡模板生成方法,其特征在于,所述基于各题块下的各选框的选框位置,确定各题块对应选框阵列的第一分布参数,包括:
基于任一题块下的各选框的选框位置,对所述答题卡图像中所述任一题块的题块图像进行图像渲染和二值化,得到所述任一题块的二值化图像;
对所述二值化图像进行水平投影和垂直投影,得到所述二值化图像的水平投影直方图和垂直投影直方图;
基于所述水平投影直方图和所述垂直投影直方图,确定所述任一题块对应选框阵列的第一分布参数。
6.根据权利要求4所述的答题卡模板生成方法,其特征在于,所述对所述答题卡图像进行题块检测,得到所述答题卡图像中各题块的题块位置,之后还包括:
基于所述各题块的题块位置,以及所述答题卡图像中各题号的题号位置,确定各题号所属的题块;
基于各题块下各题号的题号位置,确定所述各题块的题目排列方式。
7.根据权利要求1至3中任一项所述的答题卡模板生成方法,其特征在于,所述基于所述第三分布参数,生成答题卡模板,包括:
基于所述第三分布参数,确定所述答题卡图像的选框检验区域,对所述选框检验区域进行文本识别,得到文本识别结果;
基于所述文本识别结果,确定所述答题卡图像的模板检验信息;
基于所述模板检验信息和所述第三分布参数,确定第四分布参数;
基于所述第四分布参数,生成所述答题卡模板。
8.根据权利要求7所述的答题卡模板生成方法,其特征在于,所述基于所述模板检验信息和所述第三分布参数,确定第四分布参数,包括:
若所述模板检验信息中的选项个数与所述第三分布参数所指示的选项个数不同,则基于所述模板检验信息和所述第三分布参数确定参考选框区域和误差选框区域;
基于所述参考选框区域的像素占比,以及所述误差选框区域的像素占比,确定验证选项数;
基于所述验证选项数以及所述第三分布参数,确定所述第四分布参数。
9.一种答题卡识别方法,其特征在于,
获取待识别的作答图像;
基于答题卡模板,对所述作答图像进行答案识别,所述答题卡模板基于如权利要求1至8中任一项所述的答题卡模板生成方法确定。
10.一种答题卡模板生成装置,其特征在于,包括:
选框检测单元,用于对待建模的答题卡图像进行选框检测,得到所述答题卡图像中的各选框的选框位置;
参数确定单元,用于基于所述各选框的选框位置,确定所述各选框所属的选框阵列的第一分布参数;
参数调整单元,用于调整所述第一分布参数,得到多组第二分布参数,并确定各组第二分布参数的阵列得分,所述阵列得分基于对应第二分布参数下虚拟选框区域与所述选框阵列的真实选框区域的重合程度确定;
模板生成单元,用于基于所述各组第二分布参数的阵列得分,确定第三分布参数,并基于所述第三分布参数,生成答题卡模板。
11.一种答题卡识别装置,其特征在于,包括:
图像确定单元,用于获取待识别的作答图像;
答案识别单元,用于基于答题卡模板,对所述作答图像进行答案识别,所述答题卡模板基于如权利要求1至8中任一项所述的答题卡模板生成方法确定。
12.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述答题卡模板生成方法,或如权利要求9所述的答题卡识别方法的步骤。
13.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述答题卡模板生成方法,或如权利要求9所述的答题卡识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111328865.7A CN114254605A (zh) | 2021-11-10 | 2021-11-10 | 答题卡模板生成方法、答题卡识别方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111328865.7A CN114254605A (zh) | 2021-11-10 | 2021-11-10 | 答题卡模板生成方法、答题卡识别方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114254605A true CN114254605A (zh) | 2022-03-29 |
Family
ID=80792444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111328865.7A Pending CN114254605A (zh) | 2021-11-10 | 2021-11-10 | 答题卡模板生成方法、答题卡识别方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254605A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520527A (zh) * | 2024-01-08 | 2024-02-06 | 科大讯飞股份有限公司 | 答疑对话数据生成方法、系统、电子设备和可读存储介质 |
-
2021
- 2021-11-10 CN CN202111328865.7A patent/CN114254605A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520527A (zh) * | 2024-01-08 | 2024-02-06 | 科大讯飞股份有限公司 | 答疑对话数据生成方法、系统、电子设备和可读存储介质 |
CN117520527B (zh) * | 2024-01-08 | 2024-04-30 | 科大讯飞股份有限公司 | 答疑对话数据生成方法、系统、电子设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815932B (zh) | 一种试卷批改方法、装置、电子设备及存储介质 | |
CN109460762B (zh) | 一种基于图像识别的答题卡评分方法 | |
CN110689013A (zh) | 一种基于特征识别的自动阅卷方法及系统 | |
CN106033535B (zh) | 电子阅卷方法 | |
CN111737478B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN114266773A (zh) | 显示面板缺陷定位方法、装置、设备及存储介质 | |
WO2021254074A1 (zh) | 智能阅卷方法及装置 | |
CN113569863B (zh) | 一种单据稽查的方法、系统、电子设备及存储介质 | |
CN102081742B (zh) | 一种书写能力的自动评价方法 | |
CN111626249B (zh) | 题目图像中几何图形的识别方法、装置和计算机存储介质 | |
CN112446262A (zh) | 文本分析方法、装置、终端和计算机可读存储介质 | |
KR101265720B1 (ko) | 관계형 문항을 이용한 학습 능력 향상 시스템 및 그 동작방법 | |
Karunanayake | OMR sheet evaluation by web camera using template matching approach | |
CN114254605A (zh) | 答题卡模板生成方法、答题卡识别方法、装置和电子设备 | |
CN111046644A (zh) | 一种答题卡模板生成方法、识别方法、装置及存储介质 | |
CN111008594A (zh) | 改错题评阅方法、相关设备及可读存储介质 | |
CN114463770A (zh) | 一种用于普遍试卷题目的智能切题方法 | |
CN104077562B (zh) | 一种答卷的扫描方向判断方法 | |
CN113569677A (zh) | 一种基于扫描件的纸质试验报告生成方法 | |
CN113159014A (zh) | 基于手写题号的客观题批阅方法、装置、设备及存储介质 | |
CN112700414A (zh) | 一种用于考试阅卷的空白作答检测方法及系统 | |
CN115482535A (zh) | 一种试卷自动批改方法、存储介质及设备 | |
CN113315995B (zh) | 提高视频质量的方法、装置、可读存储介质及电子设备 | |
CN111709499B (zh) | 一种基于随机二维码的试卷计分系统及方法 | |
CN110135426B (zh) | 样本标注方法及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |