CN114359936A - 答题卡填涂识别方法、模型构建方法、设备及存储介质 - Google Patents

答题卡填涂识别方法、模型构建方法、设备及存储介质 Download PDF

Info

Publication number
CN114359936A
CN114359936A CN202111677667.1A CN202111677667A CN114359936A CN 114359936 A CN114359936 A CN 114359936A CN 202111677667 A CN202111677667 A CN 202111677667A CN 114359936 A CN114359936 A CN 114359936A
Authority
CN
China
Prior art keywords
filling
option
model
recognition model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111677667.1A
Other languages
English (en)
Inventor
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111677667.1A priority Critical patent/CN114359936A/zh
Publication of CN114359936A publication Critical patent/CN114359936A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请提供一种填涂识别模型的构建方法、答题卡填涂识别方法、计算机设备及存储介质,其中,该识别方法包括:获取待识别的答题卡对应的图像;获取所述图像中填涂选项图像的目标特征参数,其中,所述目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型;将所述填涂选项图像的目标特征参数输入至填涂识别模型进行识别,得到填涂选项结果。由此可以提高填涂模识别模型的准确率,进而可以提高答题卡填涂识别的准确率。

Description

答题卡填涂识别方法、模型构建方法、设备及存储介质
技术领域
本申请涉及机器学习技术领域,尤其涉及一种答题卡填涂识别方法、填涂识别模型的构建方法、计算机设备及存储介质。
背景技术
纸笔考试完成后,需要将考生作答完的答题卡收集完交给网评系统进行处理,网评系统使用扫描仪对所有答题卡过机扫描,识别出考生填涂的各选项,现有的答题卡填涂方法,绝大多数采用阈值参数判断法,具体比如先设定一些特征参数阈值,然后针对填涂选项的图像特征来进行判断,如果图像特征高于或者低于这些参数阈值,就把填涂识别结果设置为有效填涂或者无效填涂。
然而由于答题卡扫描完成后生成的图像受很多因素影响,比如答题卡纸张的印刷油墨深浅、扫描仪的成像环境等客观因素,以及考生的填涂习惯等主观因素等,因此会导致阈值判断方法的识别准确率较低。
发明内容
本申请提供了一种填涂识别模型的构建方法、答题卡填涂识别方法、计算机设备及存储介质,可以提高答题卡填涂的识别准确率。
第一方面,本申请提供了一种答题卡填涂识别方法,所述方法包括:
获取待识别的答题卡对应的图像;
获取所述图像中填涂选项图像的目标特征参数,其中,所述目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型;
将所述填涂选项图像的目标特征参数输入至填涂识别模型进行识别,得到填涂选项结果;其中,所述填涂识别模型是根据图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型构建得到的。
第二方面,本申请还提供了一种填涂识别模型的构建方法,所述方法包括:
获取训练样本数据,其中,所述训练样本数据包括多个填涂选项图像以及每个所述填涂选项图像对应的标注结果,每个所述填涂选项图像对应有目标特征参数,所述目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型;
将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的填涂识别模型进行模型训练,得到构建好的填涂识别模型。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器用于通过运行所述存储器中存储的程序,实现如本申请实施例提供的任一项所述的填涂识别模型的构建方法的步骤,或者,实现如本申请实施例提供的任一项所述的答题卡填涂识别方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如本申请实施例提供的任一项所述的填涂识别模型的构建方法的步骤,或者,实现如本申请实施例提供的任一项所述的答题卡填涂识别方法的步骤。
本申请公开的填涂识别模型的构建方法、答题卡填涂识别方法、计算机设备及存储介质,由于综合考虑了图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型等因素,解决了答题卡的客观因素以及学生作答时的主观因素的影响,由此可以提高答题卡填涂的识别准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的实施例提供的一种填涂识别模型的构建方法的步骤示意图;
图2是本申请的实施例提供的一种填涂选项图像的效果示意图;
图3是本申请的实施例提供的另一种填涂识别模型的构建方法的步骤示意图;
图4是本申请的实施例提供的神经网络模型的结构示意图;
图5是本申请的实施例提供的一种神经网络模型的构建方法的步骤示意图;
图6是本申请的实施例提供的一种答题卡填涂识别方法的步骤示意图;
图7是本申请的实施例提供的另一种答题卡填涂识别方法的步骤示意图;
图8是本申请的实施例提供的又一种答题卡填涂识别方法的步骤示意图;
图9是本申请的实施例提供的一种计算机设备的示意框图。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
应当理解,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一识别模型和第二识别模型仅仅是为了区分不同的回调函数,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
为便于理解本申请实施例,下面对本申请实施例中涉及到的一些词汇作简单说明。
1、答题卡:在纸笔考试过程中,考生阅卷试题和答题采用问卷和答卷分离的形式。考生在试卷上阅读题目,将答案书写到另外一张卡上,这张卡就是答题卡。考试结束后,答题卡统一回收并进行扫描,得到该答题卡的图像,当然也可以采用对答题卡进行拍摄的方式,得到该答题卡的图像。
2、填涂题目:答题卡中,一道需要考生填涂各选项的题目。
3、填涂选项:在答题卡中,有一些填涂的内容,比如客观题各选项答案等,这些内容称为填涂选项。比如客观题第一题的A选项。一道填涂题目包含若干个填涂选项。
4、图像底色:答题卡的图像(一般为256级灰度图像)空白区域(没有文字或者图形的区域)的平均灰度。
5、填涂选项参数:答题卡填涂选项图像特征参数称为填涂选项参数。
6、填涂选项色深:答题卡填涂选项范围内的平均灰度。由于答题卡的图像一般为256级灰度,所以该值范围为从0到255。其中0表示全黑,255表示全白,中间值表示其他灰度。
7、填涂选项填充率:答题卡填涂选项所有黑像素(比答题卡图像的图像底色黑的像素)个数占用填涂区域的百分比。
8、填涂题目最小色深:答题卡填涂选项所在题目的所有填涂选项目中最黑(平均灰度最小)的色深值。
9、填涂题目类型:分单选题和多选题。标识本题目的所有选型是否可以多涂。
10、填涂选项结果:填涂选项在题目识别中的结果,取值为0或者1,0表示无效填涂,1表示有效填涂。
11、填涂选项识别概率:填涂识别模型根据填涂选项参数,确定填涂选项结果为有效的概率,结果为0到1之间的数据,0表示完全没有填涂,1表示完全填涂。
12、识别可信度:一个用于后期对填涂选项识别结果进行人工校验的指标,可以反应识别结果的可靠程度。
目前,纸笔考试完成后,需要将考生作答完的大量答题卡收集完交给网评系统进行处理,网评系统一方面使用扫描功能对所有答题卡过机扫描,识别出考生填涂的各选项(比如客观题填涂选项结果)。由于答题卡上往往包含了大量的填涂选项(比如客观题),而这些选项都是需要使用计算机程序进行自动识别的,所以答题卡填涂识别往往有巨大的工作量。
答题卡扫描完成后生成的图像受很多因素的影响,比如答题卡纸张的印刷油墨深浅、扫描仪的成像环境等客观因素,考生的填涂习惯等主观因素以及不同题型对填涂的不同要求条件。
然而,现有的答题卡填涂选项结果识别技术,绝大多数采用阈值参数进行判断,具体比如先设定一些特征参数阈值,然后针对填涂选项的图像特征来进行判断,如果图像特征高于或者低于这些预先设定的参数阈值,确定填涂选项结果设置为有效填涂或者无效填涂,其中,无效填涂包括未填涂和填涂不合格。
现有答题卡填涂识别方法法中,使用阈值参数判断法,有如下缺点:
由于答题卡印制过程中使用油墨的不同程度或者扫描仪存在曝光问题,导致扫描的图像背景变异。采用阈值参数,如果参数设置过高就可能将未填涂选项误识别为已经填涂,参数设置过低就将浅填涂的选项误识别为没有填涂。不同考生的填涂习惯,比如有些考生由于填涂比较淡,色深不够。有效填涂误识别为无效填涂。有部分考生填涂面积比率模糊,导致无法确定是否有效填涂,填涂识别错误。同一题目不同选项填涂选项参数存在差异,无法确定是否是有效填涂。无法从数据上认定不规则填涂(填涂色深不够或者填涂面积比率不够)是否有效。
为此,本申请的实施例提供了一种填涂识别模型的构建方法、答题卡填涂识别方法、计算机设备和存储介质,填涂识别模型用于识别答题卡的填涂选项结果,由于综合考虑了更多的影响识别结果的因素,进而提高了填涂识别的准确率。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种填涂识别模型的构建方法的步骤示意流程图。该方法可以应用于计算机设备,用于构建填涂识别模型,该填涂识别模型用于识别答题卡的填涂选项结果。
如图1所示,该填涂识别模型的构建方法包括步骤S101和步骤S102。
S101、获取训练样本数据,其中,所述训练样本数据包括多个填涂选项图像以及每个所述填涂选项图像对应的标注结果,每个所述填涂选项图像对应有目标特征参数,所述目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型;
S102、将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的填涂识别模型进行模型训练,得到构建好的填涂识别模型。
由于答题卡填涂识别受到诸多因素的影响,发明人在答题卡填涂识别实践中发现,如下5个目标特征参数:图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型,与识别得到的填涂选项结果关联性最强,因此将这5个目标特征参数作为填涂识别模型的输入,可以最大限度地提高填涂识别模型的识别准确性,为此本申请的实施例以答题卡的填涂选项图像的5个目标特征参数来构建模型,得到填涂识别模型,可以更为准确地识别出答题卡的填涂选项结果。
具体地,可以获取训练样本数据,其中,训练样本数据包括多个填涂选项图像以及每个填涂选项图像对应的标注结果,每个填涂选项图像还对应有目标特征参数,该目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型。将填涂选项图像对应的目标特征参数和标注结果,输入至待构建的填涂识别模型进行模型训练,得到构建好的填涂识别模型。
需要说明的是,待构建的填涂识别模型可以选择合适的深度学习模型,示例性的,比如,该待构建的填涂识别模型可以选择能够用于图像识别的神经网络模型。
其中,标注结果包括第一标注结果和第二标注结果,第一标注结果为有效填涂,第一标注结果为无效填涂,该标注结果可以理解为标签信息,即每个填涂选项图像对应的标签信息,示例性的,填涂选项图像具体可以如图2所示,填涂选项图像包括题号“9”以及填涂选项“A、B、C、D和E”。已填涂具体包括有效填涂,未填涂包括无效填涂和漏填涂等情况。
需要说明的是,一个答题卡可以包括多个填涂选项图像,在本申请实施例中,训练样本数据包括多个填涂选项图像,当然也可以是训练样本数据包括多个答题卡,每个答题卡包括多个填涂选项图像。
具体地,将填涂选项图像对应的目标特征参数和标注结果,输入至待构建的填涂识别模型进行模型训练,可以在填涂识别模型达到较好识别结果时,保存该填涂识别模型的参数,进而得到构建好的填涂识别模型。其中,达到较好识别结果具体可以是模型收敛时,或者,由人为判断模型的识别结果已经满足要求时停止训练,并保存填涂识别模型的参数。
在一些实施例中,还需要说明的是,在模型构建时,不仅可以使用图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型等5个目标特征参数,还可以使用其他更多特征参数进行一起训练,比如还可以选择图像梯度、色位深度和填涂选项的特征点向量等特征参数作为待构建的填涂识别模型的输入,由此进一步地提高模型识别的准确率。
需要说明的是,选择更多的特征参数不是均可以提高模型识别的准确率,此外还会增加模型训练难度。
在一些实施例中,由于每一个填涂选项图像均包括多个特征参数可以提取,比如填涂题目类型、填涂选项的色位深度、有效填充率、与所在题目填涂最小色深的灰度差、填涂选项的特征点向量、图像梯度等等,为了提取出和实际结果关联性大一些特征,以降低数据维度进而提高模型的构建效率。还可以基于信息增益的决策树特征选择算法,提取填涂选项图像的目标特征参数。
示例性的,比如可以采用决策树算法中ID3算法提取填涂选项图像的目标特征参数,具体处理过程如下:
计算所有训练样本数据在标注结果(已填涂或未填涂)上的信息增益;针对每一个发掘的目标特征参数(如填涂选项的色位深度)在子数据集中分别计算其在标注结果上的信息熵;计算所有训练样本数据的信息增益与目标特征参数的信息熵的差值,得到该目标特征参数的信息增益;根据所述目标特征参数的信息增益进行排序,并基于排序结果确定目标特征参数,比如按照目标特征参数的信息增益从高到低排序,选择较好的若干个特征参数作为目标特征参数,用于填涂识别模型构建,由此可以提高填涂识别模型的准确率。
需要说明的是,子数据集是在决策树算法中(如使用ID3算法)为了求解连续特征的信息熵,按照特征对结果的影响,将连续特征的取值范围进行划分后形成的数据集。
在一些实施例中,为了提高构建的填涂识别模型的准确率,还可以对训练样本数据进行降噪处理,具体处理过程如下:
根据目标特征参数对训练样本数据进行分组,得到多组样本数据;获取目标特征参数在每组样本数据中出现在第一标注结果对应的第一次数以及出现在第二标注结果对应的第二次数,其中,第一标注结果为有效填涂,第二标注结果为无效填涂;根据第一次数和第二次数的次数差,确定是否滤除该组样本数据。
示例性的,可以使用上述5个目标特征参数任意一个目标特征参数将训练样本数据分为多组,比如使用图像底色将训练样本数据划分n组样本数据,n为正整数,具体大小根据实际应用进行确定,计算每组样本数据中目标特征参数(图像底色)出现在标注结果为有效填涂对应的第一次数以及出现在标注结果无效填涂对应的第二次数,以及计算第一次数与第二次数的次数差,确定该次数差是否在预设范围,若该次数差在预设范围,则标识该组样本数据为有歧义数据并滤除该组样本数据,若该次数差不在预设范围,则确定该组样本数据有效,保留该组样本数据。预设范围用于确定第一次数和第二次数是否接近,示例性的,预设范围比如可以为5次。
上述实施例提供的模型构建方法,由于考虑到答题卡的填涂识别易受到多种因素的影响,进而选择图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型等5个特征参数,进行模型构建得到填涂识别模型,由此可以提高填涂模识别模型的准确率,进而可以提高答题卡的填涂识别准确率。
请参阅图3,图3是本申请实施例提供的另一种填涂识别模型的构建方法的步骤示意流程图。该构建方法可以应用于计算机设备,用于构建填涂识别模型,该填涂识别模型用于识别答题卡的填涂选项结果。
在本申请的实施例中,填涂识别模型可以包括第一识别模型和第二识别模型,第一识别模型为神经网络模型,第二识别模型为支持向量机模型。使用神经网络模型可以提高填涂识别模型的识别准确率,使用支持向量机模型(Support Vector Machines,SVM)可以增强填涂识别模型的泛化能力。
如图3所示,该填涂识别模型的构建方法包括步骤S201至步骤S204。
S201、获取训练样本数据,其中,所述训练样本数据包括多个填涂选项图像以及每个所述填涂选项图像对应的标注结果,每个所述填涂选项图像对应有目标特征参数,所述目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型;
S202、将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的第一识别模型进行模型训练,得到构建好的第一识别模型;
S203、将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的第二识别模型进行模型训练,得到构建好的第二识别模型;
S204、利用构建好的第一识别模型和第二识别模型,构建填涂识别模型。
其中,神经网络模型是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量神经元节点之间相互连接的权重参数,从而达到拟合输出和期望结果的效果。用于填涂识别的神经网络模型为本本申请生成的神经网络模型,其中输入为填涂选项参数(比如为目标特征参数),输出为填涂选项识别概率。
支持向量机模型,也可以称为SVM分类器,是一类按监督学习方式对数据进行分类的广义分类器,其核心是对训练样本求解的最大边距超平面,该超平面能将样本进行分类。本申请的实施例生成的SVM分类器,具体为使用线性分类,通过求解在填涂选型参数之间的一个超平面来实现分类,超平面为分割平面,输入填涂选项参数,输出为填涂选项结果。
具体地,将训练样本数据中的多个填涂选项图像对应的目标特征参数和标注结果,输入至待构建的第一识别模型进行模型训练,得到构建好的第一识别模型;以及将训练样本数据中的多个填涂选项图像对应的目标特征参数和标注结果,输入至待构建的第二识别模型进行模型训练,得到构建好的第二识别模型;利用构建好的第一识别模型和第二识别模型,构建填涂识别模型,即得到构建好的填涂识别模型包括第一识别模型和第二识别模型。在对答题卡的填涂进行识别时,可以根据第一识别模型和第二识别模型输出的识别结果确定答题卡的填涂选项结果。
在一些实施例中,为了提高模型构建效率,对于第一识别模型可以选择浅层神经网络模型,该浅层神经网络模型分为三层,即输入层、隐藏层和输出层,如图4所示,输入特征参数有图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型5个参数,并且在输入前对五个参数都需要进行归一化处理。
在一些实施例中,为了进一步地提高模型的构建效率,设置浅层神经网络模型的输入层和隐藏层均带有偏移量,能够使神经网络模型更快的拟合训练样本数据。输入层、隐藏层和输入层都使用SIGMODI函数激活,保证输出结果范围都在0到1之间,如果输出结果大于0.5,则为有效填涂,输出结果小于或等于0.5,则为无效填涂。此外,神经网络模型还可以输出填涂选项的识别可信度。
以下基于图4所示的神经网络模型的结构,介绍本申请一实施例提供的神经网络模型的构建方法,如图5所示,具体包括以下步骤:
S202a、将训练样本数据分为训练集和测试集;
S202b、随机初始化神经网络模型的权重参数;
S202c、获取训练集中填涂选项图像对应的目标特征参数,并所述目标特征参数进行归一化;
S202d、将归一化后的目标特征参数输入至神经网络模型,进行神经网络模型前向传播;
S202e、获取所述神经网络模型的输出结果和填涂选项识别结果的损失函数;
S202f、使用所述损失函数对所述神经网络模型进行反向传播,更新所述神经网络模型的权重参数;
S202g、确定所述训练集的数据是否获取完成;
S202h、使用测试集对所述神经网络模型进行测试,并获取所述神经网络模型的识别准确率;
S202i、确定所述识别准确率是否满足要求;
S202g、获得神经网络模型。
将训练样本数据分为训练集和测试集,具体可以按照一定比例将训练样本数据分为训练集和测试集,比如按照5:1将该训练样本数据分为训练集和测试集。其中,训练集和测试集中每个训练样本(填涂选项图像)包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型5个目标特征参数。
将神经网络模型的权重参数进行随机初始化后,可以随机选择一些训练样本并对该训练样本对应的目标特征参数进行归一化处理并输入到神经网络模型中,通过神经网络模型的前向传播,获取神经网络模型的输出结果和填涂选项识别结果的损失函数。
通过比对神经网络模型的输出结果和填涂选型的真实结果,真实结果可以为标注结果,生成训练样本的损失函数。示例性的,可以使用交叉熵(Softmax Entropy)作为损失函数。通过该损失函数对神经网络模型进行反向传播来更新神经网络模型参数,示例性的,比如采用带动量的随机梯度下降法(Stochastic Gradient Descent,SGD)来计算更新后的神经网络模型的权重。
确定训练集中所有的训练样本是否获取完成,在所有训练样本数据训练完成后,使用测试集数据来验证神经网络模型的识别准确率,在所有训练样本未训练完成时,返回继续执行步骤S202c,在确定模型的识别准确率满足要求后停止,获得高准确率的神经网络模型,若神经网络模型没有达到要求的准确率就继续进行训练和测试。
在一些实施例中,SVM分类器采用线性核进行分隔,将答题卡的填涂选项图像对应的图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型5个填涂特征参数和相对应的标注结果输入进行训练,训练完成后,得到填涂识别SVM分类器(第二识别模型),同时也能得到分类器的分隔平面方程和支持向量。SVM分类器将用来进行新填涂的识别,分隔平面方程可作为判断识别结果可信度的依据参数之一,分割平面方程可以用于确定分割平面。
在一些实施例中,第一识别模型和第二识别模型除了可以输出为概率的识别结果外,还可以输出识别可信度。具体地,第一识别模型可以输出第一可信度和第二识别模型可以输出第二可信度,以便在第一识别模型和第二识别模型的识别结果有差异时,输出提示信息以提示用户参考识别可信度对填涂选项进行人工复检,为了提高人工复检效率,具体还可以提示用户对识别可信度低的填涂选项进行复检。
其中,第一可信度根据第一识别模型的输出概率和判别真值确定,具体可以表示为:K=2*|θ01|,其中,K为第一可信度,θ0为判别真值,θ1为第一识别模型的输出概率,输出概率大于该判别真值,则认为有效填涂,输出概率不大于该判别真值,则认为无效填涂。第二可信度为图像特征参数点距离分隔平面的距离,所述图像特征参数点为图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型组成的向量,分割平面根据所述支持向量机模型的分割平面方程确定。
上述实施例提供的模型构建方法使用了两种机器学习模型来进行对答题卡的智能识别,分别是神经网络模型和SVM分类器,并且把两种模型识别结果有差异的部分交给人工进行处理。使用神经网络模型可以提高填涂识别模型识别准确率,使用SVM分类器可以增强填涂识别模型的泛化能力。与现有的使用阈值参数进行填涂识别相比,该模型考虑了答题卡印刷或者扫描成像等客观原因,同时也考虑到了由于考生填涂不规范,如填涂色深不够,填充率不足,各填涂选项色深差异等主观原因引起的识别结果错误。由于该填涂识别模型考虑了更多的影响识别结果的因素,同时又具有较好的泛化能力,使得答题卡识别的智能化和自适用化更高,准确率更高。
请参阅图6,图6是本申请实施例提供的一种答题卡填涂识别方法的步骤示意流程图。该识别方法可以应用于计算机设备,用于识别答题卡的填涂选项结果。
其中,该答题卡填涂识别方法,具体是使用上述实施例构建的填涂识别模型对答题卡进行识别,上述构建好的填涂识别模型可以预先保存在计算机设备中,当然也可以预先保存在服务器中,由计算机设备将待识别的答题卡的数据发送给服务器,由服务器利用填涂识别模型进行识别,并反馈识别到的填涂选项结果给计算机设备。
如图6所示,该填涂识别模型的构建方法包括步骤S301至步骤S303。
S301、获取待识别的答题卡对应的图像;
S302、获取所述图像中填涂选项图像的目标特征参数,其中,所述目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型;
S303、将所述填涂选项图像的目标特征参数输入至填涂识别模型进行识别,得到填涂选项结果。
对待识别的答题卡进行扫描,获取待识别的答题卡对应的图像,该图像包括多个填涂选项图像,并提取填涂选项图像的目标特征参数,其中,目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型,将填涂选项图像的目标特征参数输入至填涂识别模型进行识别,得到填涂选项结果。
在一些实施例中,由于填涂识别模型包括第一识别模型和第二识别模型,故需要将填涂选项图像的目标特征参数分别输入至第一识别模型和第二识别模型进行识别,得到最终的填涂选项结果。以下将介绍第一识别模型和第二识别模型对答题卡进行填涂识别过程。
示例性的,如图7所示,基于第一识别模型识别答题卡的填涂选项结果,具体包括以下步骤:
S401、获取待识别的答题卡的图像;
S402、获取答题卡的图像中的填涂选项图像;
S403、获取填涂选项图像对应的目标特征参数,并对目标特征参数进行归一化;
S404、将归一化后的目标特征参数输入至神经网络模型;
S405、获取神经网络模型的输出结果;
S406、确定输出结果是否大于θ0,θ0为判别真值;
若输出结果大于θ0,则执行步骤S407;若输出结果小于或等于θ0,则执行步骤S408;
S407、确定识别结果为有效填涂;
S408、确定识别结果为无效填涂;
S409、将本选项添加到题目识别结果中;
S410、输出识别可信度;
S411、确定填涂识别是否结束;
若填涂识别结束,则执行步骤S412;若填涂识别未结束,则返回执行步骤S402,继续对答题卡中的填涂选项图像进行识别;其中,填涂识别结束具体可以是确定答题卡包括多个待识别题目,若神经网络模型输出与多个待识别题目相对应的填涂选项结果,则可以确定填涂识别结束;
S412、答题卡填涂识别结束。
具体地,将图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型5个参数,输入到神经网络模型,获取神经网络模型的输出结果,输出结果具体为填涂选项的识别概率,判别真值选取0.5,如果输出结果大于0.5,则为有效填涂,并将该选项加入到题目识别结果中,若输出结果小于或等于0.5,则为无效填涂。当然还可以输出识别可信度,识别可信度具体为2*|0.5-输出概率|,识别可信度用于后期人工针对于识别结果的校验。
示例性的,如图8所示,基于第二识别模型识别答题卡的填涂选项结果,具体包括以下步骤:
S501、获取待识别的答题卡的图像;
S502、获取答题卡的图像中的填涂选项图像;
S503、获取填涂选项图像对应的目标特征参数;
S504、将归一化后的目标特征参数输入至SVM分类器;
S505、获取SVM分类器的输出结果;
S506、确定输出结果是否为1,或者为0,其中1表示真,0表示假;
若输出结果为1,则执行步骤S507;若输出结果为0,则执行步骤S508;
S507、确定识别结果为有效填涂;
S508、确定识别结果为无效填涂;
S509、将本选项添加到题目识别结果中;
S510、输出识别可信度;
S511、确定填涂识别是否结束;
若填涂识别结束,则执行步骤S412;若填涂识别未结束,则返回执行步骤S402,继续对答题卡中的填涂选项图像进行识别;其中,填涂识别结束具体可以是确定答题卡包括多个待识别题目,若SVM分类器输出与多个待识别题目相对应的填涂选项结果,则可以确定填涂识别结束;
S512、答题卡填涂识别结束。
具体地,针对题目中的所有填涂选项,获取图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型5个参数,将以上5个参数,输入到SVM分类器。获取填涂识别SVM分类器的输出结果,如果输出结果为1,则确定为有效填涂,并将该选项加入到题目识别结果中,如果输出结果为0,则确定为无效填涂。当然SVM分类器还可以输出识别可信度,具体是将图像特征参数点距离分隔平面的距离设置为填涂选项的识别可信度,用于后期人工针对于识别结果的校验。
上述实施例提供的答题卡填涂识别方法,具体使用填涂识别模型对答题卡的填涂选项结果进行识别,综合考虑了答题卡印刷或者扫描成像等客观原因,以及也考虑到了由于考生填涂不规范,如填涂色深不够、填充率不足、各填涂选项色深差异等主观原因引起的识别结果错误。由此可以提高填涂识别的准确率。
请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。如图9所示,该计算机设备600包括一个或多个处理器601和存储器602,处理器601和存储器602通过总线连接,该总线比如为I2C(Inter-integrated Circuit)总线。
其中,一个或多个处理器601单独地或共同地工作,用于执行上述实施例提供的填涂识别模型的构建方法的步骤,或者,用于执行上述实施例提供的答题卡填涂识别方法的步骤。
具体地,处理器601可以是微控制单元(Micro-controller Unit,MCU)、中央处理单元(Central Processing Unit,CPU)或数字信号处理器(DigitalSignal Processor,DSP)等。
具体地,存储器602可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。
其中,处理器601用于运行存储在存储器602中的计算机程序,并在执行所述计算机程序时实现上述实施例提供的填涂识别模型的构建方法的步骤。
示例性的,处理器601用于运行存储在存储器602中的计算机程序,并在执行所述计算机程序时,实现如下步骤:
获取训练样本数据,其中,所述训练样本数据包括多个填涂选项图像以及每个所述填涂选项图像对应的标注结果,每个所述填涂选项图像对应有目标特征参数,所述目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型;将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的填涂识别模型进行模型训练,得到构建好的填涂识别模型。
在一些实施例中,所述处理器还用于实现:
基于信息增益的决策树特征选择算法,对所述训练样本数据中的填涂选项图像进行特征提取,得到所述目标特征参数;其中,所述目标特征参数用于构建填涂识别模型,所述目标特征参数至少包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型。
在一些实施例中,所述处理器在实现所述基于信息增益的决策树特征选择算法,对所述训练样本数据中的填涂选项图像进行特征提取,得到所述目标特征参数,具体用于实现:
计算所有训练样本数据在标注结果上的信息增益;针对每一目标特征参数在子数据集中分别计算其在标注结果上的信息熵;计算所有训练样本数据的信息增益与所述目标特征参数的信息熵的差值,得到所述目标特征参数的信息增益;根据所述目标特征参数的信息增益进行排序,并基于排序结果确定目标特征参数。
在一些实施例中,所述处理器还用于实现:
根据所述目标特征参数对所述训练样本数据进行分组,得到多组样本数据;获取所述目标特征参数在每组样本数据中出现在第一标注结果对应的第一次数以及出现在第二标注结果对应的第二次数,其中,所述第一标注结果为有效填涂,所述第二标注结果为无效填涂;根据所述第一次数和第二次数的次数差,确定是否滤除该组样本数据。
在一些实施例中,所述填涂识别模型包括第一识别模型和第二识别模型,所述第一识别模型为神经网络模型,所述第二识别模型为支持向量机模型;所述处理器在实现所述将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的填涂识别模型进行模型训练时,具体用于实现:
将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的第一识别模型进行模型训练,得到构建好的第一识别模型;将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的第二识别模型进行模型训练,得到构建好的第二识别模型;利用构建好的第一识别模型和第二识别模型,构建填涂识别模型。
在一些实施例中,所述神经网络模型包括输入层、隐藏层和输出层,所述输入层和隐藏层带有偏移量,所述输出层使用SIGMODI函数激活。
在一些实施例中,所述第一识别模型还输出第一可信度,所述第二识别模型还输出第二可信度;
其中,所述第一可信度表示为K=2*|θ01|,其中,K为所述第一可信度,θ0为判别真值,θ1为所述第一识别模型的输出概率;所述第二可信度为图像特征参数点距离分隔平面的距离,所述图像特征参数点为图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型组成的向量,所述分割平面根据所述支持向量机模型的分割平面方程确定。
示例性的,处理器601用于运行存储在存储器602中的计算机程序,并在执行所述计算机程序时,实现如下步骤:
获取待识别的答题卡对应的图像;获取所述图像中填涂选项图像的目标特征参数,其中,所述目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型;将所述填涂选项图像的目标特征参数输入至填涂识别模型进行识别,得到填涂选项结果;其中,所述填涂识别模型为基于本申请实施例提供的任一项所述的填涂识别模型方法构建得到的。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现上述实施例提供的填涂识别模型的构建方法的步骤,或者,实现上述实施例提供的答题卡填涂识别方法的步骤。
其中,所述计算机可读存储介质可以是前述任一实施例所述的计算机设备的内部存储单元,例如所述终端设备的硬盘或内存。所述计算机可读存储介质也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种答题卡填涂识别方法,其特征在于,所述方法包括:
获取待识别的答题卡对应的图像;
获取所述图像中填涂选项图像的目标特征参数,其中,所述目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型;
将所述填涂选项图像的目标特征参数输入至填涂识别模型进行识别,得到填涂选项结果,其中,所述填涂识别模型是根据所述目标特征参数构建得到的。
2.根据权利要求1所述的方法,其特征在于,所述填涂识别模型包括第一识别模型和第二识别模型,所述第一识别模型为神经网络模型,所述第二识别模型为支持向量机模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述填涂选项图像的目标特征参数输入至填涂识别模型进行识别,包括:
将所述图像中填涂选项图像的目标特征参数输入至所述第一识别模型,得到第一识别结果;
将所述图像中填涂选项图像的目标特征参数输入至所述第二识别模型,得到第二识别结果;
根据所述第一识别结果和第二识别结果得到填涂选项结果。
4.根据权利要求2所述的方法,其特征在于,所述第一识别模型还输出第一可信度,所述第二识别模型还输出第二可信度;
其中,所述第一可信度根据所述第一识别模型的输出概率和判别真值确定;所述第二可信度为图像特征参数点距离分隔平面的距离,所述图像特征参数点为图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型组成的向量,所述分割平面根据所述支持向量机模型的分割平面方程确定。
5.一种填涂识别模型的构建方法,其特征在于,所述方法包括:
获取训练样本数据,其中,所述训练样本数据包括多个填涂选项图像以及每个所述填涂选项图像对应的标注结果,每个所述填涂选项图像对应有目标目标特征参数,所述目标特征参数包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型;
将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的填涂识别模型进行模型训练,得到构建好的填涂识别模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
对所述训练样本数据中的填涂选项图像进行特征提取,得到所述目标特征参数;
其中,所述目标特征参数用于构建填涂识别模型,所述目标特征参数至少包括图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型。
7.根据权利要求6所述的方法,其特征在于,所述对所述训练样本数据中的填涂选项图像进行特征提取,得到所述目标特征参数,包括:
计算所有训练样本数据在标注结果上的信息增益;
针对每一目标特征参数在子数据集中分别计算其在标注结果上的信息熵;
计算所有训练样本数据的信息增益与所述目标特征参数的信息熵的差值,得到所述目标特征参数的信息增益;
根据所述目标特征参数的信息增益进行排序,并基于排序结果确定目标特征参数。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述目标特征参数对所述训练样本数据进行分组,得到多组样本数据;
获取所述目标特征参数在每组样本数据中出现在第一标注结果对应的第一次数以及出现在第二标注结果对应的第二次数,其中,所述第一标注结果为有效填涂,所述第二标注结果为无效填涂;
根据所述第一次数和第二次数的次数差,确定是否滤除该组样本数据。
9.根据权利要求5-8任一项所述的方法,其特征在于,所述填涂识别模型包括第一识别模型和第二识别模型,所述第一识别模型为神经网络模型,所述第二识别模型为支持向量机模型;
所述将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的填涂识别模型进行模型训练,包括:
将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的第一识别模型进行模型训练,得到构建好的第一识别模型;
将所述填涂选项图像对应的目标特征参数和标注结果,输入至待构建的第二识别模型进行模型训练,得到构建好的第二识别模型;
利用构建好的第一识别模型和第二识别模型,构建填涂识别模型。
10.根据权利要求9所述的方法,其特征在于,所述第一识别模型还输出第一可信度,所述第二识别模型还输出第二可信度;
其中,所述第一可信度根据所述第一识别模型的输出概率和判别真值确定;所述第二可信度为图像特征参数点距离分隔平面的距离,所述图像特征参数点为图像底色、填涂选项色深、填涂选项填充率、填涂题目最小色深和填涂题目类型组成的向量,所述分割平面根据所述支持向量机模型的分割平面方程确定。
11.一种计算机设备,其特征在于,所述计算机设备包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器用于通过运行所述存储器中存储的程序,实现如权利要求1-4任一项所述的答题卡填涂识别方法的步骤,或,实现如权利要求5-10中任一项所述的填涂识别模型的构建方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-4任一项所述的答题卡填涂识别方法的步骤,或,实现如权利要求5-10中任一项所述的填涂识别模型的构建方法的步骤。
CN202111677667.1A 2021-12-31 2021-12-31 答题卡填涂识别方法、模型构建方法、设备及存储介质 Pending CN114359936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111677667.1A CN114359936A (zh) 2021-12-31 2021-12-31 答题卡填涂识别方法、模型构建方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111677667.1A CN114359936A (zh) 2021-12-31 2021-12-31 答题卡填涂识别方法、模型构建方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114359936A true CN114359936A (zh) 2022-04-15

Family

ID=81105265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111677667.1A Pending CN114359936A (zh) 2021-12-31 2021-12-31 答题卡填涂识别方法、模型构建方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114359936A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116798036A (zh) * 2023-06-27 2023-09-22 广州市南方人力资源评价中心有限公司 用于识别和校验答题卡客观题识别结果的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116798036A (zh) * 2023-06-27 2023-09-22 广州市南方人力资源评价中心有限公司 用于识别和校验答题卡客观题识别结果的方法及装置
CN116798036B (zh) * 2023-06-27 2024-04-02 网才科技(广州)集团股份有限公司 用于识别和校验答题卡客观题识别结果的方法及装置

Similar Documents

Publication Publication Date Title
Moallem et al. Optimal threshold computing in automatic image thresholding using adaptive particle swarm optimization
CN110909618B (zh) 一种宠物身份的识别方法及装置
CN110503054B (zh) 文本图像的处理方法及装置
JP2022141931A (ja) 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN111783505A (zh) 伪造人脸的识别方法、装置和计算机可读存储介质
CN110582783B (zh) 训练装置、图像识别装置、训练方法和计算机可读信息存储介质
CN110705565A (zh) 淋巴结肿瘤区域识别方法与装置
US20150178544A1 (en) System for estimating gender from fingerprints
CN111694954B (zh) 图像分类方法、装置和电子设备
CN116912568A (zh) 基于自适应类别均衡的含噪声标签图像识别方法
CN115984930A (zh) 微表情识别方法、装置、微表情识别模型的训练方法
CN114359936A (zh) 答题卡填涂识别方法、模型构建方法、设备及存储介质
CN112861743B (zh) 一种掌静脉图像防伪方法、装置和设备
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN111723688B (zh) 人体动作识别结果的评价方法、装置和电子设备
CN111414930B (zh) 深度学习模型训练方法及装置、电子设备及存储介质
CN112818774A (zh) 一种活体检测方法及装置
CN113887357B (zh) 一种人脸表示攻击检测方法、系统、装置及介质
CN110866527A (zh) 一种图像分割方法、装置、电子设备及可读存储介质
CN111209567B (zh) 提高检测模型鲁棒性的可知性判断方法及装置
CN111523649B (zh) 针对业务模型进行数据预处理的方法及装置
CN111582404B (zh) 内容分类方法、装置及可读存储介质
CN109389489B (zh) 欺诈行为的识别方法、计算机可读存储介质及终端设备
CN108171149B (zh) 一种人脸识别方法、装置、设备及可读存储介质
JP4796356B2 (ja) 判別分析を行う方法、プログラム及び装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination