CN109740515B - 一种评阅方法及装置 - Google Patents

一种评阅方法及装置 Download PDF

Info

Publication number
CN109740515B
CN109740515B CN201811639937.8A CN201811639937A CN109740515B CN 109740515 B CN109740515 B CN 109740515B CN 201811639937 A CN201811639937 A CN 201811639937A CN 109740515 B CN109740515 B CN 109740515B
Authority
CN
China
Prior art keywords
region
answer information
image
information
review
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811639937.8A
Other languages
English (en)
Other versions
CN109740515A (zh
Inventor
曾金舟
何春江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201811639937.8A priority Critical patent/CN109740515B/zh
Publication of CN109740515A publication Critical patent/CN109740515A/zh
Application granted granted Critical
Publication of CN109740515B publication Critical patent/CN109740515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请提供了一种评阅方法及装置,获取待评阅对象的图像和答案信息,并通过对答案信息和图像中包括的作答信息进行关联处理得到融合特征,再依据融合特征,确定对待评阅对象的评阅结果。可见,无需再对待评阅对象的图像进行作答区域的字符识别,而将作答信息和答案信息关联处理得到的融合特征作为确定评阅结果的依据,所以,能够避免因识别错误而导致的评阅结果不准确的问题。

Description

一种评阅方法及装置
技术领域
本申请涉及电子信息领域,尤其涉及一种评阅方法及装置。
背景技术
为了提高阅卷的效率,手写客观题(例如数学填空题),也开始使用智能阅卷的方式。现有的针对手写客观题的智能阅卷方式为,对于手写客观题区域进行作答区域的切分,即将每个填空切分为一个作答区域,再对切分出的每一个作答区域进行作答字符的识别,最后依据识别结果和答案,进行机器的自动判别,以得到阅卷结果。
可见,现有的这种智能阅卷方式,基于对切分的作答区域的字符识别结果得到阅卷结果,因此,在识别有误的情况下,阅卷结果的准确性会降低。
发明内容
本申请提供了一种评阅方法及装置,目的在于解决如何避免因字符识别错误而导致的评阅结果不准确的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种评阅方法,包括:
获取待评阅对象的图像和答案信息,所述图像中包括作答信息;
获取融合特征,所述融合特征通过对所述作答信息和所述答案信息进行关联处理得到;
依据所述融合特征,确定对所述待评阅对象的评阅结果。
可选的,所述获取融合特征包括:
依据所述作答信息,定位所述图像中的感兴趣区域,所述感兴趣区域为所述作答信息所占的区域;
将所述感兴趣区域的特征和所述感兴趣区域对应的答案信息的编码进行运算,得到所述融合特征。
可选的,所述依据所述作答信息,定位所述图像中的感兴趣区域包括:
确定所述图像中的第一类区域,所述第一类区域为作为所述作答信息的像素中的部分像素所占的区域;
将所述第一类区域进行聚类运算,得到所述感兴趣区域。
可选的,所述确定所述图像中的第一类区域包括:
将所述待评阅对象的图像作为定位模型的输入,得到所述定位模型输出的像素类型和像素的候选框;
将前景像素的候选框框选的区域作为所述第一类区域的位置信息,所述前景像素为作为所述作答信息的像素;
其中,所述定位模型用于提取所述待评阅对象的图像的特征,依据所述特征识别出所述像素类型,并确定所述像素的候选框。
可选的,所述待评阅对象的图像包括:
所述待评阅对象的原图和二值图像。
可选的,所述将所述感兴趣区域的特征和所述答案信息的编码进行运算,得到所述融合特征,依据所述融合特征,确定对所述待评阅对象的评阅结果包括:
将所述感兴趣区域和所述答案信息输入评阅模型,得到所述评阅模型输出的所述评阅结果,所述评阅模型用于从所述感兴趣区域中提取特征,对所述感兴趣区域对应的答案信息进行编码,并依据所述特征和所述编码得到所述融合特征,依据所述融合特征确定所述评阅结果。
可选的,在所述对所述感兴趣区域对应的答案信息进行编码之前,还包括:
在所述感兴趣区域的数量与所述答案信息的数量不同的情况下,将与任意一个感兴趣区域的距离满足预设距离条件的答案信息,作为该感兴趣区域对应的答案信息。
一种评阅装置,包括:
获取模块,用于获取待评阅对象的图像和答案信息,所述图像中包括作答信息;
确定模块,用于获取融合特征,并依据所述融合特征,确定对所述待评阅对象的评阅结果,所述融合特征通过对所述作答信息和所述答案信息进行关联处理得到。
可选的,所述确定模块用于获取融合特征包括:
所述确定模块具体用于,确定所述图像中的第一类区域,将所述第一类区域进行聚类运算,得到感兴趣区域,将所述感兴趣区域的特征和所述感兴趣区域对应的答案信息的编码进行运算,得到所述融合特征;所述第一类区域为作为所述作答信息的像素中的部分像素所占的区域。
可选的,所述确定模块用于将所述感兴趣区域的特征和所述答案信息的编码进行运算,得到所述融合特征,依据所述融合特征,确定对所述待评阅对象的评阅结果包括:
所述确定模块具体用于,将所述感兴趣区域和所述答案信息输入评阅模型,得到所述评阅模型输出的所述评阅结果,所述评阅模型用于从所述感兴趣区域中提取特征,对所述感兴趣区域对应的答案信息进行编码,并依据所述特征和所述编码得到所述融合特征,依据所述融合特征确定所述评阅结果。
一种评阅设备,包括:
存储器和处理器;
所述存储器用于存储一个或多个程序;
所述处理器用于执行所述一个或多个程序,以使得所述评阅设备实现前述评阅方法。
一种计算机可读介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行前述评阅方法。
本申请所述的评阅方法及装置,获取待评阅对象的图像和答案信息,并通过对答案信息和图像中包括的作答信息进行关联处理得到融合特征,再依据融合特征,确定对待评阅对象的评阅结果。可见,无需再对待评阅对象的图像进行作答区域的字符识别,而将作答信息和答案信息关联处理得到的融合特征作为确定评阅结果的依据,所以,能够避免因识别错误而导致的评阅结果不准确的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种评阅方法的流程图;
图2为手写客观题区域的一个示例图;
图3(a)为第一类文本框的示例图;
图3(b)为第二类文本框的示例图;
图4(a)为使用未调整的第一类区域得到的第二类区域的示例图;
图4(b)为使用调整后的第一类区域得到的第二类区域的示例图;
图5为本申请实施例公开的阅卷方法中使用的定位模型的结构示意图;
图6为本申请实施例公开的确定感兴趣区域的原理示意图;
图7为本申请实施例公开的阅卷方法中使用的评阅模型的结构示意图;
图8为本申请实施例公开的评阅模型输出评阅结果的原理示意图;
图9为对任意一个答案信息的编码示例过程的示意图;
图10为得到注意力概率的示意图;
图11为得到权重特征的示意图;
图12为训练定位模型的流程图;
图13为训练评阅模型的流程图;
图14为本申请实施例公开的又一种评阅方法的流程图;
图15为本申请实施例公开的又一种评阅方法的流程图;
图16为本申请实施例公开的一种评阅装置的结构示意图。
具体实施方式
本申请实施例提供的评阅方法,适用但不限定于手写客观题。手写客观题是指,需要考生手写的、且具有固定答案的题目。例如,数理化试卷中的填空题。该题型中,考生手写作答且并不需要解答过程,只需要填写相关的答案即可。对于该题型的阅卷要求为:与固定答案对比,判定考生的作答是否正确。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例公开的一种阅卷方法,包括以下步骤:
S101:获取待评阅对象的图像。
待评阅对象为包括作答信息的对象,例如可以为考生作答的试卷或答题卡。待评阅对象的图像为待评阅对象的扫描图像或拍摄图像。例如,可以直接将考生作答试卷进行扫描,得到待阅试卷的图像。
可选的,有可能扫描或拍摄得到的是整张待评阅对象(例如作答试卷)的图像,在此情况下,可以按照预设的规则,对图像进行切图(需要说明的是,与切分每一个答题区域相比,切分整个手写客观题的区域更易于操作,准确性也更高,通常不会对评阅结果产生不利影响)处理,得到包括手写客观题的区域,作为待评阅对象的图像。图2为手写客观题区域的一个示例,其中,任意一个题目的编号之后、横线上方的区域,为该题目的作答区域(广义的,两个题号之间的区域,均可看作作答区域),作答区域中有考生填写的作答信息。需要说明的是,图2中一个题目对应一个作答区域,实际中,也可能一个题目下包括多个作答区域。
S102:依据作答信息,在待评阅对象的图像中定位感兴趣区域。
其中,感兴趣区域是指,作答信息所占的区域,还以图2为例,作答信息为作答区域中的作答字符(即手写字符),则感兴趣区域为作答字符所占的区域。
具体的,依据作答信息,在待评阅对象的图像中定位感兴趣区域的实现方式为:查找图像中的第一类区域,第一类区域为构成作答字符的像素(以下简称作答字符像素)中的部分像素所占的区域,依据第一类区域得到第二类区域,第二类区域即为感兴趣区域。
以图3为例,图3(a)中的任意一个文本框(即小文本框,称为第一类文本框)框住的区域即第一类区域,图3(b)中的任意一个文本框(即大文本框,称为第二类文本框)框住的区域为第二类区域,即感兴趣区域。第二类文本框可以通过将第一类文本框进行聚类生成。聚类的具体实现方式可以参见现有技术,这里不再赘述。
从图3(b)可以看出,按照上述方式得到的感兴趣区域,即为作答区域中作答字符集中的区域,以题目13的作答区域中的字符为例,上述方式得到的感兴趣区域为包括作答字符“(-∞,-2)”的区域,而并非仅包括部分作答字符例如“(”的区域。
第一类区域的具体确定方式,将在后续进行说明。
S103:获取答案信息。
如前所述,手写客观题具有固定答案,因此,本实施例中,答案信息是指表示答案的字符。以图2为例,一个作答区域对应(即应该填写)的答案,即为该作答区域对应的答案信息。在一个作答区域对应一个答案的情况下,答案信息的数量与作答区域的数量相同。
本实施例中,答案信息可以包括答案的内容和答案位置信息。答案位置信息为试卷中答案应该填写的位置的信息。
通常,作答信息或答案信息可以为单个字符或者字符串,本申请实施例的附图中均以字符串为例。
具体的,答案信息可以由人工预先输入,在此步骤中,从内存中调出答案信息。或者,在此步骤中,接收人工输入的答案信息。
可选的,S103也可以在S101之前执行。
S104:对作答信息和答案信息进行关联处理,得到融合特征。
具体的,将对应的作答信息与答案信息关联处理,任意一对作答信息与答案信息关联处理后,得到一个融合特征。
具体的,对于任意一个感兴趣区域,可以通过该感兴趣区域的位置信息与答案信息中的答案位置信息,确定该感兴趣区域对应的答案信息,例如,确定与任意一个感兴趣区域的距离最近的答案信息为该感兴趣区域对应的答案信息,该答案信息与该感兴趣区域所包括的作答信息对应。
S105:依据融合特征,确定对待评阅对象的评阅结果。
其中,评阅结果包括用于指示感兴趣区域中的作答信息与对应的答案信息相同或者不同的信息,例如,如果相同,则为1,说明作答正确,如果不同,则为0,说明作答错误。
S104和S105的具体实现过程,将在后续进行说明。
可选的,评阅结果中还可以包括用于指示作答信息与对应的答案信息相同或者不同的概率值,例如,作答字符与对应的参照相同的概率值为0.85。
在此情况下,可选的,图1中可以包括以下步骤:
S106:判断概率值指示作答信息与对应的答案信息相同的概率是否大于预设阈值,如果是,输出评阅结果,如果否,执行S107。
预设阈值可以依据经验设置。
S107:提示人工阅卷。
具体的,有可能是一个或多个感兴趣区域的阅卷结果指示作答信息与对应的答案信息相同的概率值不大于预设阈值,在此情况下,提示作答信息与对应的答案信息相同的概率值不大于预设阈值的所有多个感兴趣区域的信息,提示的具体方式可以为但不限于区别显示这些感兴趣区域。
对于作答信息与对应的答案信息相同的概率值不大于预设阈值的所有感兴趣区域,可以进行人工检阅,并由人工输入阅卷结果。S106和S107的目的在于,保证评阅结果的准确性,降低因为书写原因、噪声等因素导致的阅卷错误的可能性。
图1所示的过程中,依据作答信息定位感兴趣区域,并依据感兴趣区域的特征和答案信息,获得融合特征,再依据融合特征确定评阅结果,因此,只要人工输入待评阅对象的图像和答案信息,则能够实现自动阅卷,相比于人工阅卷方式,能够大大提高阅卷效率。
并且,本实施例所述的方法,无需对作答区域的字符进行识别,因此,能够避免识别不准确而降低评阅结果的准确性。
进一步的,图1所示的方法,可以借助神经网络模型实现,具体的,可以使用定位模型的输出结果实现感兴趣区域的定位,使用评阅模型实现S104和S105,即评阅结果的确定。下面将以待评阅对象为考生作答的待阅试卷为例进行详细说明。
如图5所示,定位模型中包括第一特征提取模块、分类模块和回归模块。
图6为依据定位模型的输出,在待阅试卷的图像中定位感兴趣区域的具体实现过程:
S601:第一特征提取模块获取待阅试卷的图像。
本实施例中,待阅试卷的图像包括原图以及待阅试卷图像的二值图像。
通常,考生作答的试卷经过扫描仪扫描保存为彩色图,即待阅试卷的原图,但扫描图像可能会出现滚墨不均匀的问题,且黑白试卷经过扫描后经常会出现偏红颜色的效果。基于扫描试卷图像的上述特点,如果简单地利用3通道的原图(即扫描的彩色图),阅卷结果的准确性可能会降低,为此,将待阅试卷图像的二值图(二值图与原图相比前景像素值降低且背景像素为白色)也作为第一特征提取模块的输入,以将加强后像素对比度作为模块运算的影响因素,提高阅卷结果的准确性。
S602:第一特征提取模块从获取的图像(包括待阅试卷的原图和二值图像)中提取特征向量。
具体的,第一特征提取模块包括CNN、BiLSTM和全连接层。
其中,CNN对图像进行预设次数的池化pooling,再使用预设的卷积核对pooling后的图像进行预设步长的卷积,得到特征图,并将特征图中的每一个像素值输入BiLSTM,BiLSTM对特征图像进行特征提取,得到特征之间具有关联关系的特征序列。采用BiLSTM的主要目的就是增强特征之间的关系。
需要说明的是,CNN对于处理的图像的尺寸有要求(例如图像大小为640*800),因此,S601中获取的图像为经过处理后满足尺寸要求的图像。
例如,CNN接收的图像的大小为640*800,在经过5次pooling后,得到大小为20*25的图像,再使用3*3大小的卷积核,对20*25的图像进行步长为1的卷积,得到特征图,BiLSTM对特征图像进行特征提取,得到20*25*512维度的三维特征序列。
全连接层(例如FC全连接层)将特征序列转换为特征向量,接上例,将20*25*512维度的特征转换为1*512维度的特征向量。
如果图像尺寸不满足CNN的要求,则在S602之前,需要先将图像的尺寸调整到满足要求。尺寸调整的算法为:将长边调整到预设的长边长度(例如800),在按照调整后的长边及原始长短边比例调整短边,得到短边长度,如果短边长度小于预设的短边长度(例如640),则使用值为0的像素补齐短边。
如果短边长度大于预设的短边长度,则将短边长度调整到预设的短边长度(例如640),在此情况下,长边的长度会小于预设的长边长度(例如800),则使用值为0的像素补齐长边。至此完成尺寸调整。
可选的,可以为调整尺寸的图像设置掩膜图像,掩膜图像的尺寸为图像调整后图像的尺寸(例如640*800)。掩膜图像中的像素点与被调整的图像中的像素点一一对应,且被调整的图像中的原有像素点对应的位置的像素点的值为1,在调整过程中为补长度新增的像素点对应的位置的像素点的值为0。
将掩膜图像(图6未画出)也一并输入CNN中,将待阅试卷的图像经过卷积运算和pooling后得到的特征向量,与掩膜图像经过pooling后的结果相乘,使得补入的像素点不参与后续运算,因此,能够避免为了调整尺寸而补入待阅试卷的图像中的像素点对于模型输出结果的影响,但又不会影响待阅试卷的图像中原本像素值为0的像素参与模型的运算。
S603:分类模块依据特征向量,识别出前景像素和背景像素。其中,前景像素为手写体的像素(即作为作答信息的像素)。
可见,分类模块为一个二分类模型。
S604:回归模块对每个像素均生成并输出候选框。
具体的,对于任意一个像素,生成多个候选框,并计算该像素的多个候选框中的任意一个候选框与回归模型预先学习到的文本框的交叠比,将叠比大于第一预设阈值的候选框,作为该像素的候选框。
可选的,还可以调整候选框的位置,使得候选框与回归模块预先学习到的文本框的交叠比增加,输出调整后的候选框为该像素的候选框。
至此,得到定位模型输出的像素类型(即每个像素为前景像素或背景像素)和每个像素的候选框。
S605:依据定位模型的输出,定位各个第一类区域。
具体的,对于任意一个像素,如果该像素为前景像素,则确定该像素的候选框框选的区域为第一类区域。图3(a)中的小文本框为多个第一类区域。
S606:对第一类区域进行聚类运算,得到第二类区域,即感兴趣区域。
需要说明的是,定位模型调整候选框的位置的目的如图4所示,图4(a)为使用未调整的候选框即第一类区域得到的第二类区域(即感兴趣区域),图4(b)为使用调整后的候选框即第一类区域得到的第二类区域,可以看出,对于候选框的调整,有利于得到更为准确的第二类区域。
如图7所示,评阅模型包括:第二特征提取模块、编码模块、注意力模块和分类模块。
图8为评阅模型依据感兴趣区域的特征及答案信息,确定阅卷结果的具体实现过程:
S801:第二特征提取模块从感兴趣区域中提取特征。
具体的,第二特征提取模块为Vgg16卷积神经网络。Vgg16卷积神经网络总共16层,具体的层结构可以参见现有技术,这里不再赘述。本实施例中,Vgg16卷积神经网络对感兴趣区域pooling5次,提取的特征的大小为7*7*512。
Vgg16卷积神经网络对于处理的图像的尺寸有要求(例如图像大小为224*224),因此,如果感兴趣区域的尺寸不满足要求,则要在S801之前,将感兴趣区域的尺寸调整到满足要求。具体的调整方式如前所述,类似的,对于调整后图像设置掩膜图像,并将调整后的图像和掩膜图像一并输入Vgg16卷积神经网络,以避免为调整尺寸补入的像素对模型输出结果的影响。
S802:编码模块获取感兴趣区域对应的答案信息并对答案信息中的答案内容进行编码。
具体的,答案信息可以预先由人工输入。
本实施例中,使用Vgg+BiLSTM的结构对答案内容进行编码。对任意一个答案内容的编码示例过程如图9所示:首先,在编码之前需要将该答案内容中的字符嵌套embeding为一个4*7的向量,向量中的每一列表示答案内容中的一个字符。考虑到一个答案像一句话一样是有语义信息的,所以利用三种卷积核,分别为unigram(4*1)、bigram(4*2)和trigram(4*3)进行卷积计算,以提取特征,其中,unigram表示unigram与4*7的向量进行卷积得到的结果,bigram表示bigram与4*7的向量进行卷积得到的结果,trigram表示trigram与4*7的向量进行卷积得到的结果。卷积后再经过最大化pooling得到特征向量。
最后将得到的特征向量输入双向LSTM,以增强特征之间的联系,得到1024维编码向量。
需要说明的是,如果S801得到的特征的维数与答案内容编码向量的维数不同,则将特征输入单层感知机,得到与答案内容编码向量的维数相同的特征,例如,7*7*512的特征经过单层感知机后转换为7*7*1024的特征。本实施例中,单层感知机设置在第二特征提取模型中。
S803:注意力模块依据特征向量和编码向量计算特征的注意力概率,并依据注意力概率、特征向量和编码向量确定分类特征。
具体的,注意力模型包括两层,第一层包括单层神经网络和softmax层,如图10所示:7*7*1024维的特征向量和1024维的编码向量经过第一层后,得到7*7的概率图。概率图中包括7*7=49个概率值。
假设7*7*1024维的特征向量位于(x,y,z)空间坐标系中,则坐标轴x和y确定的平面上的特征与概率值一一对应。即,概率图中的概率值为特征中7*7维度的特征的概率值。
第二层的功能如图11所示:将单位特征集合与对应的概率值相乘,得到概率值特征(*p0-*p48),再计算各个概率值特征的和,得到1024维权重特征,最后将1024维权重特征和1024维编码特征相加(图11中未画出),得到1024维分类特征。其中,单位特征集合是指,具有相同的第一维度坐标x和第二维度坐标y(例如x1,y1)的1024维特征组成的集合。单位特征集合对应的概率值为:在x和y确定的平面上,x1和y1对应的概率值。
申请人在研究的过程中发现,经过两次注意力概率的迭代计算,能够得到较为准确的阅卷结果,因此,本实施例中,将上述1024维分类特征作为新的编码向量,按照图10和图11的流程,再次得到新的1024维分类特征,将新的1024维分类特征作为最终的分类特征。
S804:分类模型依据分类特征,得到分类结果。
分类结果为“对”或“错”、以及为“对”或“错”的概率,例如,使用1表示对,使用0表示错。
其中“对”是指感兴趣区域中的作答信息与对应的答案信息相同,“错”是指感兴趣区域中的作答信息与对应的答案信息不同。
综上所述,对定位模型的训练过程如图12所示,包括以下步骤:
S1201:获取样本试卷的原图。
其中,样本试卷为考生的作答试卷。
S1202:获取样本试卷的原图的标注信息。
其中,标注信息包括样本试卷的原图的像素类型(即为前景像素或背景像素),以及每个像素点的候选框。
具体的,可以通过人工或自动的方式在样本试卷的原图中设置标注信息。
S1203:获取样本试卷的原图的二值图像。
S1204:将样本试卷的原图以及二值图像调整到预设尺寸,并得到相应的掩膜图像(这里称为第一掩膜图像)。
其中,预设尺寸为定位模型适用的尺寸。需要说明的是,因为样本试卷的图像以及二值图像的大小相同,所以,可以共用一个掩膜图像。
S1205:将样本试卷的原图、二值图像以及第一掩膜图像作为定位模型的输入,得到定位模型的输出结果,依据定位模型的输出结果和标注信息训练定位模型,以得到定位模型的各个参数。
需要强调的是,分类模块和回归模块的误差值均最低的情况下,定位模型最优,因此,训练过程中,结合分类模块和回归模块的误差值,训练定位模型。
评阅模型的训练过程如图13所示,包括以下步骤:
S1301:获取答案信息。
在训练过程中,需要获取每份样本试卷的答案信息。
本实施例中,答案信息以xml文件的格式存储。
具体的,任意一个作答区域对应的答案信息的xml文件的示例如下所示:
<zoom=0.7555>
<areatype=“客观题”,
pointnum=4,points=“(x0,y0);(x1,y1);(x2,y2);(x3,y3)”,
text=“(-\infty,-2)”,index=“13”>
</area>。
其中,zoom是xml文件相对于原图的缩放指数,type代表客观题型,pointnum表示标注答案信息所占的区域需要的点的数量(一般情况是四个点确定一个矩形,特殊情形对应多个点构成的多边形),text填写的是答案信息所占的区域对应的正确答案的latex格式,如(-\infty,-2)即代表(-∞,-2),index表示填空题的题号。points=“(x0,y0);(x1,y1);(x2,y2);(x3,y3)”表示答案信息所占的区域的坐标,即一个答案信息所在的位置信息。
S1302:获取样本感兴趣区域。
具体的,基于人工或自动在样本试卷的图像中标注候选样本感兴趣区域,并去除冗余像素后,得到样本感兴趣区域。
S1303:调整样本感兴趣区域的尺寸,使得调整后的尺寸满足评阅模型的要求,并得到相应的掩膜图像(这里称为第二掩膜图像)
S1304:将调整后的样本感兴趣区域、第二掩膜图像以及对应的答案信息作为评阅模型的输入,依据评阅模型的输出和人工标注的阅卷结果,训练评阅模型。
样本感兴趣区域对应的答案信息,为位置信息与样本感兴趣区域的位置信息满足预设距离条件的答案信息。在训练过程中,通常不会选择具有空白作答区域的样本试卷,在此情况下,每个作答区域均具有对应的样本感兴趣区域,因此,两者对应可以简化为,依据样本感兴趣区域和答案信息的序号,建立感兴趣区域与答案信息的对应关系。也就是说,人为按照题号排列样本感兴趣区域,并按照题号排列答案信息,顺序编号相同的样本感兴趣区域与答案信息对应。按照顺序编号对应,实质上,是依据位置信息对应的一种简化方式,因为相同顺序编号的样本感兴趣区域与答案信息的位置满足预设距离条件。
当然,也可以使用具有空白作答区域的样本试卷,在此情况下,空白作答区域没有对应的样本感兴趣区域,因此,不能按照题号对应感兴趣区域与答案信息,预设距离条件的一个示例为:左上角的坐标相差不超过20个像素。
图14为使用定位模型和评阅模型进行阅卷的过程,包括以下步骤:
S1401:获取待阅试卷的原图以及二值图像。
S1402:获取xml文件。
xml文件如前所述,这里不再赘述。
需要说明的是,针对一场考试,用户只需输入一份xml文件即可。
S1403:调整待阅试卷的原图以及二值图像的尺寸,使得调整后的尺寸满足定位模型的要求,并得到第一掩膜图像。
S1404:将调整后的待阅试卷的原图、二值图像以及第一掩膜图像输入定位模型,得到定位模型输出的像素类型和像素的候选框,并依据像素类型和候选框确定第一类区域。
S1405:使用预设的聚类算法,依据第一类区域得到感兴趣区域。
S1406:判断感兴趣区域的数量是否与答案信息的数量相同,如果是,执行S1407-S1408,如果否,执行S1409。
S1407:调整感兴趣区域的尺寸,使得调整后的尺寸满足评阅模型的要求,并得到第二掩膜图像。
S1408:将调整后的感兴趣区域、第二掩膜图像和答案信息输入评阅模型,得到阅卷结果。
S1409:查找各个答案信息对应的感兴趣区域。执行S1408。
如前所述,任意一个答案信息为xml文件的格式,因此,任意一个答案信息对应的感兴趣区域为:与该答案信息的xml文件中的的坐标确定的位置满足预设距离条件的感兴趣区域。
S1410:判断阅卷结果中的指示作答信息与答案信息相同的概率值是否大于预设阈值,如果是,执行S1411,如果否,执行S1412。
S1411:输出阅卷结果。
S1412:提示人工阅卷。
现有技术中的智能阅卷方法,如前所述,依据规则从待阅试卷的图像中切分出感兴趣区域,而因为不同的试卷的布局结构存在差异,所以切分规则不能适用于所有试卷,可见现有的智能阅卷方法的通用性不高,而本申请实施例中提出的基于模型的阅卷方法,使用模型学习对试卷进行学习,从而实现模型自动定位感兴趣区域,因此,不局限于试卷的布局结构,通用性较高。
并且,申请人在研究的过程中进行的实验也证明,本申请实施例中提出的基于模型的阅卷方法的准确性要比现有先进行字符识别,再依据识别结果得到阅卷结果的阅卷方法的准确性高。
以上所述评阅方法,可以概括为图15所示的流程:
S1501:获取待评阅对象的图像和答案信息,所述图像中包括作答信息。
S1502:获取融合特征,所述融合特征通过对所述作答信息和所述答案信息进行关联处理得到。
S1503:依据所述融合特征,确定对所述待评阅对象的评阅结果。
图15所示的各个步骤的具体实现方式,均可参见上述实施例,这里不再赘述。
图16为本申请实施例公开的一种评阅装置,包括:获取模块和确定模块。
其中,获取模块用于获取待评阅对象的图像和答案信息,所述图像中包括作答信息。确定模块用于获取融合特征,并依据所述融合特征,确定对所述待评阅对象的评阅结果,所述融合特征通过对所述作答信息和所述答案信息进行关联处理得到。
可选的,确定模块用于获取融合特征包括:确定模块具体用于,依据所述作答信息,定位所述图像中的感兴趣区域,所述感兴趣区域为所述作答信息所占的区域;将所述感兴趣区域的特征和所述感兴趣区域对应的答案信息的编码进行运算,得到所述融合特征。
进一步的,确定模块用于依据所述作答信息,定位所述图像中的感兴趣区域包括:确定模块具体用于,确定所述图像中的第一类区域,所述第一类区域为作为所述作答信息的像素中的部分像素所占的区域;将所述第一类区域进行聚类运算,得到所述感兴趣区域。
进一步的,确定模块用于确定所述图像中的第一类区域包括:将所述待评阅对象的图像作为定位模型的输入,得到所述定位模型输出的像素类型和像素的候选框;将前景像素的候选框框选的区域作为所述第一类区域,所述定位模型用于提取所述待评阅对象的图像的特征,依据所述特征识别出所述像素类型,并确定所述像素的候选框。
可选的,确定模块将所述感兴趣区域的特征和所述答案信息的编码进行运算,得到所述融合特征,依据所述融合特征,确定对所述待评阅对象的评阅结果包括:将所述感兴趣区域和所述答案信息输入评阅模型,得到所述评阅模型输出的所述评阅结果,所述评阅模型用于从所述感兴趣区域中提取特征,对所述感兴趣区域对应的答案信息进行编码,并依据所述特征和所述编码得到所述融合特征,依据所述融合特征确定所述评阅结果。
可选的,确定模块还用于:在所述感兴趣区域的数量与所述答案信息的数量不同的情况下,在所述对所述感兴趣区域对应的答案信息进行编码之前,将与任意一个感兴趣区域的距离满足预设距离条件的答案信息,作为该感兴趣区域对应的答案信息。
所述评阅装置能够避免因作答区域切分不准确而导致的评阅结果不准确的问题。
本申请实施例还公开了一种评阅设备,包括:存储器和处理器。所述存储器用于存储一个或多个程序,所述处理器用于执行所述一个或多个程序,以使得所述评阅设备实现前述评阅方法。
本申请实施例还公开了一种计算机可读介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行前述评阅方法。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种评阅方法,其特征在于,包括:
获取待评阅对象的图像和答案信息,所述图像中包括作答信息;
获取融合特征,所述融合特征通过对所述作答信息所占的图像区域和所述答案信息进行关联处理得到;
依据所述融合特征,确定对所述待评阅对象的评阅结果,所述评阅结果包括用于指示所述作答信息与所述答案信息相同或不同的信息;或者,所述评阅结果包括用于指示所述作答信息与所述答案信息相同或不同的信息,以及用于指示所述作答信息与所述答案信息相同或者不同的概率值。
2.根据权利要求1所述的方法,其特征在于,所述获取融合特征包括:
依据所述作答信息,定位所述图像中的感兴趣区域,所述感兴趣区域为所述作答信息所占的区域;
将所述感兴趣区域的特征和所述感兴趣区域对应的答案信息的编码进行运算,得到所述融合特征。
3.根据权利要求2所述的方法,其特征在于,所述依据所述作答信息,定位所述图像中的感兴趣区域包括:
确定所述图像中的第一类区域,所述第一类区域为作为所述作答信息的像素中的部分像素所占的区域;
将所述第一类区域进行聚类运算,得到所述感兴趣区域。
4.根据权利要求3所述的方法,其特征在于,所述确定所述图像中的第一类区域包括:
将所述待评阅对象的图像作为定位模型的输入,得到所述定位模型输出的像素类型和像素的候选框;
将前景像素的候选框框选的区域作为所述第一类区域,所述前景像素为作为所述作答信息的像素;
其中,所述定位模型用于提取所述待评阅对象的图像的特征,依据所述特征识别出所述像素类型,并确定所述像素的候选框。
5.根据权利要求4所述的方法,其特征在于,所述待评阅对象的图像包括:
所述待评阅对象的原图和二值图像。
6.根据权利要求2所述的方法,其特征在于,所述将所述感兴趣区域的特征和所述答案信息的编码进行运算,得到所述融合特征,依据所述融合特征,确定对所述待评阅对象的评阅结果包括:
将所述感兴趣区域和所述答案信息输入评阅模型,得到所述评阅模型输出的所述评阅结果,所述评阅模型用于从所述感兴趣区域中提取特征,对所述感兴趣区域对应的答案信息进行编码,并依据所述特征和所述编码得到所述融合特征,依据所述融合特征确定所述评阅结果。
7.根据权利要求6所述的方法,其特征在于,在所述对所述感兴趣区域对应的答案信息进行编码之前,还包括:
在所述感兴趣区域的数量与所述答案信息的数量不同的情况下,将与任意一个感兴趣区域的距离满足预设距离条件的答案信息,作为该感兴趣区域对应的答案信息。
8.一种评阅装置,其特征在于,包括:
获取模块,用于获取待评阅对象的图像和答案信息,所述图像中包括作答信息;
确定模块,用于获取融合特征,并依据所述融合特征,确定对所述待评阅对象的评阅结果,所述融合特征通过对所述作答信息所占的图像区域和所述答案信息进行关联处理得到,所述评阅结果包括用于指示所述作答信息与所述答案信息相同或不同的信息;或者,所述评阅结果包括用于指示所述作答信息与所述答案信息相同或不同的信息,以及用于指示所述作答信息与所述答案信息相同或者不同的概率值。
9.根据权利要求8所述的装置,其特征在于,所述确定模块用于获取融合特征包括:
所述确定模块具体用于,确定所述图像中的第一类区域,将所述第一类区域进行聚类运算,得到感兴趣区域;将所述感兴趣区域的特征和所述感兴趣区域对应的答案信息的编码进行运算,得到所述融合特征;所述第一类区域为作为所述作答信息的像素中的部分像素所占的区域。
10.根据权利要求9所述的装置,其特征在于,所述确定模块用于将所述感兴趣区域的特征和所述答案信息的编码进行运算,得到所述融合特征,依据所述融合特征,确定对所述待评阅对象的评阅结果包括:
所述确定模块具体用于,将所述感兴趣区域和所述答案信息输入评阅模型,得到所述评阅模型输出的所述评阅结果,所述评阅模型用于从所述感兴趣区域中提取特征,对所述感兴趣区域对应的答案信息进行编码,并依据所述特征和所述编码得到所述融合特征,依据所述融合特征确定所述评阅结果。
CN201811639937.8A 2018-12-29 2018-12-29 一种评阅方法及装置 Active CN109740515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811639937.8A CN109740515B (zh) 2018-12-29 2018-12-29 一种评阅方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811639937.8A CN109740515B (zh) 2018-12-29 2018-12-29 一种评阅方法及装置

Publications (2)

Publication Number Publication Date
CN109740515A CN109740515A (zh) 2019-05-10
CN109740515B true CN109740515B (zh) 2021-08-17

Family

ID=66362547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811639937.8A Active CN109740515B (zh) 2018-12-29 2018-12-29 一种评阅方法及装置

Country Status (1)

Country Link
CN (1) CN109740515B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796009A (zh) * 2019-09-29 2020-02-14 航天恒星科技有限公司 基于多尺度卷积神经网络模型的海上船只检测方法及系统
CN111429501A (zh) * 2020-03-25 2020-07-17 贝壳技术有限公司 深度图预测模型生成方法和装置、深度图预测方法和装置
CN111104881B (zh) * 2019-12-09 2023-12-01 科大讯飞股份有限公司 一种图像处理的方法和相关装置
CN111104883B (zh) * 2019-12-09 2023-06-06 平安国际智慧城市科技股份有限公司 作业答案提取方法、装置、设备及计算机可读存储介质
CN111931828B (zh) * 2020-07-23 2024-03-01 联想(北京)有限公司 一种信息确定方法、电子设备和计算机可读存储介质
CN112507879A (zh) * 2020-12-08 2021-03-16 科大讯飞股份有限公司 评阅方法、装置、电子设备及存储介质
CN112732868B (zh) * 2020-12-30 2023-04-07 科大讯飞股份有限公司 解答题的答案分析方法、电子设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870911A (zh) * 2013-10-28 2014-06-18 龙宏元 预防考生作弊试卷及阅卷系统
CN104063865B (zh) * 2014-06-27 2017-08-01 小米科技有限责任公司 分类模型创建方法、图像分割方法及相关装置
CN104143094B (zh) * 2014-07-08 2017-09-22 北京彩云动力教育科技有限公司 一种无需答题卡的试卷自动阅卷处理方法及系统
CN104504007B (zh) * 2014-12-10 2018-01-30 成都品果科技有限公司 一种图像相似度的获取方法及系统
CN106033544B (zh) * 2015-03-18 2020-03-24 成都理想境界科技有限公司 基于模板匹配的试卷内容区域提取方法
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
CN105590101A (zh) * 2015-12-28 2016-05-18 杭州淳敏软件技术有限公司 基于手机拍照的手写答题卡自动处理和阅卷方法及系统
CN105912993A (zh) * 2016-03-31 2016-08-31 深圳感官密码科技有限公司 自动阅卷图像识别方法和系统
CN106326921B (zh) * 2016-08-18 2020-01-31 宁波傲视智绘光电科技有限公司 文本检测方法
CN106847260B (zh) * 2016-12-20 2020-02-21 山东山大鸥玛软件股份有限公司 一种基于特征融合的英语口语自动评分方法
CN107066583B (zh) * 2017-04-14 2018-05-25 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN108846138B (zh) * 2018-07-10 2022-06-07 苏州大学 一种融合答案信息的问题分类模型构建方法、装置和介质
CN109002852B (zh) * 2018-07-11 2023-05-23 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备

Also Published As

Publication number Publication date
CN109740515A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109740515B (zh) 一种评阅方法及装置
CN108304835B (zh) 文字检测方法和装置
CN109948510B (zh) 一种文档图像实例分割方法及装置
CN111160352B (zh) 一种基于图像分割的工件金属表面文字识别方法及系统
CN110647829A (zh) 一种票据的文本识别方法及系统
CN111046784A (zh) 文档版面分析识别方法、装置、电子设备和存储介质
US20190294921A1 (en) Field identification in an image using artificial intelligence
CN111797829A (zh) 一种车牌检测方法、装置、电子设备和存储介质
CN113435240B (zh) 一种端到端的表格检测和结构识别方法及系统
CN112418278A (zh) 一种多类物体检测方法、终端设备及存储介质
CN114092700B (zh) 基于目标检测和知识图谱的古文字识别方法
CN105701489A (zh) 一种新型的数字提取和识别的方法及系统
CN110443235B (zh) 一种智能纸质试卷总分识别方法及系统
CN111553363B (zh) 一种端到端的图章识别方法及系统
CN111814716A (zh) 印章去除方法、计算机设备和可读存储介质
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN114429636B (zh) 图像扫描识别方法、装置及电子设备
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN114758341A (zh) 一种智能化合同图像识别与合同要素抽取方法及装置
CN110991303A (zh) 一种图像中文本定位方法、装置及电子设备
CN114863431A (zh) 一种文本检测方法、装置及设备
CN113065404B (zh) 基于等宽文字片段的火车票内容检测方法与系统
CN112883926A (zh) 表格类医疗影像的识别方法及装置
CN111914706A (zh) 一种文字检测输出结果质量检测和控制的方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant